这是一本讲解在数据要素大背景下,企业如何将数据资源开发成数据产品,进而通过数据产品实现数据资产化和资本化的著作,为企业释放数据价值提供了科学的方法论和国内领先的实践方案。这本书由全球数据资产理事会(DAC)组织编写,融合了国内数据资产管理领域多家企业的10位专家的研究成果和实战经验,得到了湖南数据产业集团、广州数据集团、深圳数据交易所、浙江大数据交易中心、华为、平安、安永、毕马威、德勤、普华永道、浙江大学等企业、机构和高校等近20位高层领导、技术专家和学者的高度评价和一致推荐。从概念到方法,从理论到实践,从产业政策到行业解决方案,本书将为读者构建全面的数据产品知识体系,核心内容如下:(1)国家和地方出台的数据资产相关政策及其解读,为数据资产实践提供法律准绳;(2)详细阐释数据从原始数据
当前,数据驱动的理念已渗透到各个领域,数据科学和人工智能技术在制造业、金融、教育等多个行业中得到了广泛应用。Python作为一种编程语言,已成为数据科学和人工智能领域的事实标准,它丰富的生态系统进一步增强了它在这些领域中的重要性。然而,随着数据量的不断增长,如何利用Python加速数据科学处理,并将它扩展到集群上的并行计算,已成为数据科学家面临的重要挑战。本书详细介绍了4种数据科学工具:Dask、Ray、Xorbits和mpi4py,这些工具可以帮助数据工程师和科学家处理更大规模的数据集、训练更复杂的模型,并更高效地进行机器学习模型的迭代和部署。本书面向具备一定数据科学基础的数据工程师、数据科学家或领域专家,同时也适合大学生和研究生作为进入高性能数据科学领域的入门读物。
本书分为以下几个主要部分:第1-3章介绍方法和技术。在这些章节中,我们描述了一种性能调优方法。还提供了一些关于MongoDB架构和MongoDB提供的用于调查、监控和诊断MongoDB性能的工具的背景知识。第4章和第5章介绍应用程序和数据库设计。第6-10章介绍应用程序代码的优化。第11-14章讨论MongoDB服务器及其运行硬件的优化。
本书根据PL/SQL的新版本进行了全面更新,涵盖从基础语法、程序控制到近期新的优化和调优增强等方面的知识,通过真实的实验、大量的示例讲解了PL/SQL技能,是一本逐步分解的、详尽的PL/SQL编程教程。读者可以按照本书的步骤一步一步地完成每一个关键任务,掌握Oracle 21c PL/SQL编程技术,深度探索PL/SQL编程技术及很好实践。本书既适合新手数据库开发人员和DBA阅读,也适合有一定经验的从业人员阅读。
本书深入探讨了大数据技术的核心概念和实际应用。从大数据的基础架构Hadoop开始,逐步解析了分布式协调服务Zookeeper、数据仓库Hive、面向列的数据库HBase等关键技术。此外,还介绍了数据迁移工具Sqoop、数据采集工具Flume、发布订阅消息系统Kafka等实用工具。本书还深入讲解了数据处理分析引擎Spark、全文搜索引擎Elasticsearch及分布式处理引擎Flink的工作原理和应用实例。最后,通过电商推荐系统实战和Flink实现电商用户行为分析两个案例,展示了大数据技术在实际业务中的应用。本书附带全书实例源代码、电子版本教程(下载方式见封底),以及可扫码观看的长达13个小时的部分实例操作视频,帮助读者更深入了解大数据技术的具体内容,非常适合对大数据技术感兴趣的读者,尤其是想要深入了解大数据技术原理和应用的开发者和管理者阅读。
本书系统地介绍向量数据库的原理、技术实现及其应用,重点分析传统数据库在处理高维向量数据时的局限性,并提供相应的解决方案。本书分为4个部分,共13章,内容涵盖从理论基础到技术实践的多个方面,详细讨论高维向量表示中的信息丢失、嵌入空间误差和维度诅咒等问题,结合FAISS和Milvus等主流开源工具,深入剖析向量数据库的索引机制、搜索算法和优化策略。通过实际案例,展示向量数据库在推荐系统、行为分析、智能诊断、语义搜索等领域的应用,并特别强调企业级语义搜索系统的开发与部署经验。 本书不仅提供深度的理论指导,还通过丰富的案例帮助读者掌握如何构建高效的向量搜索引擎,适合从事搜索引擎与推荐系统开发的工程师,数据科学、人工智能及相关领域的从业者、研究人员,以及对向量数据库与相似性搜索感兴趣的读者,也可作为培训
本书全面深入地探讨了有效数据管理面临的挑战、复杂性及其巨大价值;定义了一套数据管理的指导原则,阐述了如何将这些原则应用于不同的数据管理功能领域;提供了企业级数据管理实践的功能框架,涵盖广泛采用的实践、方法、技术、职能、角色、交付成果和衡量标准;确立了数据管理的通用术语体系,成为数据管理专业人员很好实践的基础。本书为数据管理和IT专业人员、企业高管、知识工作者、教育者和相关研究人员提供了数据管理知识体系框架,帮助他们更好地管理数据、优化数字基础设施。
本书通过真实案例,全面介绍Python 3编程基础及其数据分析工具的应用,培养读者通过数据分析问题、解决问题以及对结果评价的能力。全书内容包括:Python 3基本配置和编程基础、编程进阶、数据预处理、数据描述与数据探索、绘图与可视化、统计推断、相关分析、关联分析、回归分析、主成分和因子分析、聚类、判别与分类、列联分析、对应分析、定性数据分析、神经网络和深度学习、时间序列分析、信号滤波等,将读者关注的基本数据分析方法进行剖析。
全书共9章,分为三部分。第一部分(第1~3章)讲解存储引擎的全貌,涉及存储引擎中高频使用的数据结构、存储介质等,为深入学习后面的内容做铺垫。第二部分(第4~6章)介绍基于B+树的存储引擎,重点介绍为什么选择B+树作为存储引擎索引结构、B+树存储引擎解决哪些问题以及如何解决,并以BoltDB存储引擎项目为例来讲解核心原理与实现细节。第三部分(第7~9章)介绍基于LSM派系的存储引擎,重点介绍LSM Tree中各组件的功能及作用,最后剖析了LevelDB项目的核心原理与实现细节。
本书紧密结合当前边缘计算领域近期新的发展趋势与研究成果,本着务实具体、详略得当、启发创新的指导思想,系统、全面地介绍了边缘计算的原理与应用,包括基本概念、架构原理、核心技术、主要研究方向与挑战,以及多个应用的近期新研究进展。撰写本书时最艰难的是选择从哪些应用视角来讲述边缘计算。最终,我们选择了计算卸载、服务部署、视频分析、模型推断、联邦学习等当下应用最为广泛的若干应用进行了阐述。
这是一本能从业务、方法、场景3个维度帮助读者使用AI技术提升数据分析和数据化运营能力的著作。用扎实的理论框架、丰富的实践案例、实用的操作技巧,全面展示了如何用AI延伸业务分析广度、拓展业务分析深度、优化业务分析效能,从而达到帮助企业用智能的数据化运营实现业务持续增长的目的。 阅读并实践本书,你将有以下收获: (1)理解并掌握AI辅助数据分析的思路,以及应该具备的AI能力、方法和工具。 (2)系统掌握AI在数据分析报告中的创新应用,包括思维导图生成、报告材料整理、核心内容撰写以及报告试讲和优化等。 (3)掌握AI在市场分析和行业分析中的应用,包括数据采集、宏观分析、行业与市场概况分析、市场细分与目标市场定位、市场发展趋势与市场风险分析。 (4)掌握AI在竞争分析中的应用,包括收集竞争分析报告与数据、竞品调研
【为宏观掌握Oracle基础(第1~3章)】,介绍了进程管理、内存管理及存储等基础知识,并且讲解了常用Linux操作系统性能工具的使用及结果分析方法,旨在帮助读者了从宏观视角掌握Oracle数据库体系架构和进程组织方案。【微观理解Oracle原理(第4~8章)】,围绕Oracle内部运行原理展开讲解。首先,在Oracle数据结构的基础上讨论日志和回滚。其次,引入了排队论和排队系统中的概念,对比法讲解了Oracle的数据缓冲区高速缓存和共享池设计思想及运行原理。【串联Oracle运行流程(第9~11章)】,结合实践案例将从提交SQL至结果返回的整个过程串起来,首先总结归纳了Oracle算法和数据结构的重要知识点,打通了Oracle原理与数据结构之间的桥梁。其次,通过典型案例讲解AWR报告,让读者能够了解完整的Oracle诊断思路。再次,介绍了集群技术、OracleRAC及其日志结构。然后,对Orac
本书包括导论以及对齐 (Align)、细化 (Refine)、设计 (Design) 三章。通过将业务术语、逻辑和物理三个建模层次重命名为对齐、细化、设计, 在名称中包含了该层次所做的工作。 导论介绍了数据模型的三个特征——准确性、最小化和可视化; 数据模型的三个组件——实体、关系和属性; 数据模型的三个层次——业务术语 (对齐)、逻辑 (细化) 和物理 (设计), 以及数据建模的三个视角——关系、维度和查询。第1章对齐 (Align) 是关于通用业务术语的, 以便每个人都能在术语和总体计划范围上保持一致。第2章细化 (Refine) 是关于搜集业务需求的, 即完善我们对项目的了解, 专注于关键业务要点。第3章设计 (Design) 是关于技术需求的, 即针对独特软硬件需求进行模型设计。 对齐、细化和设计,这就是本书遵循的方法,并通过“宠物之家”案例对概念加以强化。本书适合需要将建模技能
本书通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python进行数据分析应该掌握的各方面技术。本书内容包括Python基础,用NumPy进行数据计算,用Pandas进行数据分析,用SciPy进行数据分析,用Scikit-learn进行数据分析、数据预处理、数据可视化,用Matplotlib进行可视化等内容。本书示例丰富,所有涉及的程序代码都给出了详细的注释,读者可以轻松学习,快速提升开发技能。除此之外,本书还附配了教学视频、PPT课件和全书示例源码。 本书适合数据分析的初学者、职场人士和所有对数据分析感兴趣的人员阅读,也适合作为大中专院校相关专业的教学用书。
鉴于小数据和“数据孤岛”成为制约人工智能技术发展的关键挑战性问题。本书细致讲解人工智能领域的联邦学习原理,翔实阐述在平衡智能学习和信息安全的前提下,如何通过加密机制进行模型参数交换,安全地进行人工智能模型训练,所建立的虚拟共享智能模型与直接聚合所有数据获得的模型性能相近。除此之外,本书致力于全流程介绍联邦学习实践工具,帮助读者搭建完整的框架平台以及它们之间的应用关系,推动人工智能技术转化应用落地;最后本书通过7个实践案例全维度展现联邦学习实战。
ChatGPT能够辅助用户完成从数据收集、预处理、分析到报告撰写的全过程,大大降低了数据分析的门槛。本书共分为 12 章,内容包括ChatGPT 的注册与登录、提示词的设计、GPTs、数据的收集与预处理、特征工程、各类数据分析方法(包括对比分析、分组分析、回归分析、分类分析和聚类分析等)、数据可视化,以及如何利用 ChatGPT 撰写数据分析报告等。每章都提供了丰富的示例和实用技巧,旨在帮助读者掌握利用ChatGPT 进行数据分析的方法,提高数据处理和分析的效率。本书适合数据分析师、市场研究人员、高校师生、科研人员以及任何对数据分析感兴趣的读者。通过阅读本书,读者不仅能学习到如何使用 ChatGPT 进行数据分析,还能深刻理解数据分析的核心概念和应用场景,从而在实践中更加游刃有余。
本书以科学、实用、简明易懂的语言, 以数据时代大数据技术发展与实践为框架, 对大数据的技术支撑、基于Hadoop的大数据平台的实现、大数据应用的相关技术、云时代的大数据技术应用案例等内容做深入分析。围绕数据时代大数据技术发展与实践的相关内容, 重视科学性、实践性之间的统一, 旨在为读者提加深对大数据技术的认识、理解和掌握。
本书旨在帮助数据行业的从业者在 AI 时代提升数据管理和数据技术认知水平,内容覆盖数据价值创造的理论、技术和实践。 本书共 8 章。第 1 章回顾企业数据的发展历史,并讲解现代企业数据组织。第 2 章从多维度解析数据价值的创造路径,包括从构建数字化决策、加速业务创新和推动 AI 变革等视角介绍数据价值创造的方法和成果。第 3 章系统讲解数据管理的方法与技术,包括数据资产管理、数据资产运营、数据平台架构的规划及实践案例。第 4 章讲解数据要素价值化的路径探索,包括数据要素在多行业的应用、基础体系、可信数据流通技术及数据资产入表。第 5 章讲解数据底座的技术与实践,包括数据底座的架构要求、分布式存储技术、分布式计算技术等,以及多种架构介绍。第 6 章讲解数据与 AI 的融合,包括推荐系统、基于 LLM 的数据治理分析、数据标注
数字技术为企业的管理方式带来颠覆性变革,我们正在经历从依赖企业管理者解读数据并做出业务决策,到由算法通过计算数据做出分析和判断,然后自动指挥业务活动的转变。作为企业管理者,需要思考如何顺应时代趋势,利用数字技术,实现企业管理方式升级,提升管理效率,降低管理费用,提高企业竞争力。 撰写本书的主要目的是,帮助企业体系化地推进数字化管理升级。本书的主要内容包括数字技术驱动企业管理方式升级、企业数字化管理体系的四条线、企业数字化管理体系建设七步法、企业数字化管理体系建设实战、企业数字化管理体系建设中的瓶颈与难点、企业数字化管理体系建设的技术架构,以及未来数字智能技术展望。
《天空地海量多源异构数据汇聚与协同》通过整合利用卫星和航拍影像、地面跨时空视频、网络数据和地理信息等多源异构数据,围绕天空地海量数据源分布特点和安全保密要求,并根据公共安全事件智能感知与理解的需要,利用先进的多源异构数据汇聚与协同相关技术,实现多源异构数据的跨时空、多尺度、多粒度汇聚,构建公共安全事件处置需要的数据体系,形成跨系统协同管理、跨空间安全调度、跨平台安全服务的数据保障总线,并建设一体化天空地海量多源异构数据汇聚管理平台,为公共安全事件的智能感知与理解提供数据支撑服务。
本书旨在帮助数据行业的从业者在 AI 时代提升数据管理和数据技术认知水平,内容覆盖数据价值创造的理论、技术和实践。 本书共 8 章。第 1 章回顾企业数据的发展历史,并讲解现代企业数据组织。第 2 章从多维度解析数据价值的创造路径,包括从构建数字化决策、加速业务创新和推动 AI 变革等视角介绍数据价值创造的方法和成果。第 3 章系统讲解数据管理的方法与技术,包括数据资产管理、数据资产运营、数据平台架构的规划及实践案例。第 4 章讲解数据要素价值化的路径探索,包括数据要素在多行业的应用、基础体系、可信数据流通技术及数据资产入表。第 5 章讲解数据底座的技术与实践,包括数据底座的架构要求、分布式存储技术、分布式计算技术等,以及多种架构介绍。第 6 章讲解数据与 AI 的融合,包括推荐系统、基于 LLM 的数据治理分析、数据标注
本书是一本教读者有效设计、组织、呈现与论证数据,表达自己的观点,从而说服别人的实用宝典。全书分四个部分,具体讲解了以下内容:大脑是如何理解图表的;如何设计出能够支撑你观点的有效图表和幻灯片;如何将这些观点组织成一场有说服力的演示文稿;以及如何向受众展示数据并应对可能的质疑。 组织数据,整理思路:介绍一种思路整理工具,明托金字塔,以加强沟通的清晰度,用故事来确定主旨,检验论证的逻辑严谨性,并轻松改造明托金字塔,以用于各类沟通场景。 理解感知,高效沟通:阐明人脑在沟通过程中面临的主要挑战,并解释为什么数据沟通与数据分析面临着不同的挑战,讲解受众解码数据图信息的方式,运用前注意特征与格式塔原理来高效设计数据图。 简化增效,轻松写作:围绕双方共有的思维模式来打造沟通重点,从而优选化沟通
本书是一本教读者有效设计、组织、呈现与论证数据,表达自己的观点,从而说服别人的实用宝典。全书分四个部分,具体讲解了以下内容:大脑是如何理解图表的;如何设计出能够支撑你观点的有效图表和幻灯片;如何将这些观点组织成一场有说服力的演示文稿;以及如何向受众展示数据并应对可能的质疑。 组织数据,整理思路:介绍一种思路整理工具,明托金字塔,以加强沟通的清晰度,用故事来确定主旨,检验论证的逻辑严谨性,并轻松改造明托金字塔,以用于各类沟通场景。 理解感知,高效沟通:阐明人脑在沟通过程中面临的主要挑战,并解释为什么数据沟通与数据分析面临着不同的挑战,讲解受众解码数据图信息的方式,运用前注意特征与格式塔原理来高效设计数据图。 简化增效,轻松写作:围绕双方共有的思维模式来打造沟通重点,从而优选化沟通
本书是一本教读者有效设计、组织、呈现与论证数据,表达自己的观点,从而说服别人的实用宝典。全书分四个部分,具体讲解了以下内容:大脑是如何理解图表的;如何设计出能够支撑你观点的有效图表和幻灯片;如何将这些观点组织成一场有说服力的演示文稿;以及如何向受众展示数据并应对可能的质疑。 组织数据,整理思路:介绍一种思路整理工具,明托金字塔,以加强沟通的清晰度,用故事来确定主旨,检验论证的逻辑严谨性,并轻松改造明托金字塔,以用于各类沟通场景。 理解感知,高效沟通:阐明人脑在沟通过程中面临的主要挑战,并解释为什么数据沟通与数据分析面临着不同的挑战,讲解受众解码数据图信息的方式,运用前注意特征与格式塔原理来高效设计数据图。 简化增效,轻松写作:围绕双方共有的思维模式来打造沟通重点,从而优选化沟通