这是一本讲解在数据要素大背景下,企业如何将数据资源开发成数据产品,进而通过数据产品实现数据资产化和资本化的著作,为企业释放数据价值提供了科学的方法论和国内领先的实践方案。这本书由全球数据资产理事会(DAC)组织编写,融合了国内数据资产管理领域多家企业的10位专家的研究成果和实战经验,得到了湖南数据产业集团、广州数据集团、深圳数据交易所、浙江大数据交易中心、华为、平安、安永、毕马威、德勤、普华永道、浙江大学等企业、机构和高校等近20位高层领导、技术专家和学者的高度评价和一致推荐。从概念到方法,从理论到实践,从产业政策到行业解决方案,本书将为读者构建全面的数据产品知识体系,核心内容如下:(1)国家和地方出台的数据资产相关政策及其解读,为数据资产实践提供法律准绳;(2)详细阐释数据从原始数据
本书详细介绍面向静态数据集、增量数据集和数据流的高效用模式挖掘的理论和方法。本书内容共6章,第1章和第2章介绍高效用模式挖掘的相关知识。第3章介绍面向静态数据集的包含正、负效用的两类精简高效用模式挖掘方法的研究与实现过程。第4章介绍针对增量数据集的挖掘高效用模式全集和精简集合的研究。第5章介绍面向数据流的精简高效用模式挖掘方法的研究与实现过程。第6章给出三个高效用模式挖掘的应用案例。第3~5章有方法的实验证明,供读者更好地了解本书内容。 本书可供大数据挖掘相关专业研究生参阅,也可以作为大数据挖掘研究和应用开发人员的参考书。
当前,数据驱动的理念已渗透到各个领域,数据科学和人工智能技术在制造业、金融、教育等多个行业中得到了广泛应用。Python作为一种编程语言,已成为数据科学和人工智能领域的事实标准,它丰富的生态系统进一步增强了它在这些领域中的重要性。然而,随着数据量的不断增长,如何利用Python加速数据科学处理,并将它扩展到集群上的并行计算,已成为数据科学家面临的重要挑战。本书详细介绍了4种数据科学工具:Dask、Ray、Xorbits和mpi4py,这些工具可以帮助数据工程师和科学家处理更大规模的数据集、训练更复杂的模型,并更高效地进行机器学习模型的迭代和部署。本书面向具备一定数据科学基础的数据工程师、数据科学家或领域专家,同时也适合大学生和研究生作为进入高性能数据科学领域的入门读物。
本书以TiDB数据库为基础介绍分布式数据库的运行原理、性能优化和应用场景架构设计。首先,剖析分布式数据库的运行原理与架构;然后,阐述分布式数据库TiDB在表与索引的设计优化、SQL优化、系统级优化方面的方法论,通过融入多个有代表性的案例,帮助读者将方法论对应到生产实践中;最后,梳理场景选型和架构设计过程中读者应该掌握的主要知识点,并对一些分布式数据库的优势场景进行了详细介绍。 本书适合希望了解分布式数据库原理,学习TiDB数据库的开发工程师、数据库管理员和架构师阅读,也可以作为高等学校教师或学生学习分布式数据库的参考教材。
本书系统地介绍向量数据库的原理、技术实现及其应用,重点分析传统数据库在处理高维向量数据时的局限性,并提供相应的解决方案。本书分为4个部分,共13章,内容涵盖从理论基础到技术实践的多个方面,详细讨论高维向量表示中的信息丢失、嵌入空间误差和维度诅咒等问题,结合FAISS和Milvus等主流开源工具,深入剖析向量数据库的索引机制、搜索算法和优化策略。通过实际案例,展示向量数据库在推荐系统、行为分析、智能诊断、语义搜索等领域的应用,并特别强调企业级语义搜索系统的开发与部署经验。 本书不仅提供深度的理论指导,还通过丰富的案例帮助读者掌握如何构建高效的向量搜索引擎,适合从事搜索引擎与推荐系统开发的工程师,数据科学、人工智能及相关领域的从业者、研究人员,以及对向量数据库与相似性搜索感兴趣的读者,也可作为培训
本书全面深入地探讨了有效数据管理面临的挑战、复杂性及其巨大价值;定义了一套数据管理的指导原则,阐述了如何将这些原则应用于不同的数据管理功能领域;提供了企业级数据管理实践的功能框架,涵盖广泛采用的实践、方法、技术、职能、角色、交付成果和衡量标准;确立了数据管理的通用术语体系,成为数据管理专业人员很好实践的基础。本书为数据管理和IT专业人员、企业高管、知识工作者、教育者和相关研究人员提供了数据管理知识体系框架,帮助他们更好地管理数据、优化数字基础设施。
本书紧密结合当前边缘计算领域近期新的发展趋势与研究成果,本着务实具体、详略得当、启发创新的指导思想,系统、全面地介绍了边缘计算的原理与应用,包括基本概念、架构原理、核心技术、主要研究方向与挑战,以及多个应用的近期新研究进展。撰写本书时最艰难的是选择从哪些应用视角来讲述边缘计算。最终,我们选择了计算卸载、服务部署、视频分析、模型推断、联邦学习等当下应用最为广泛的若干应用进行了阐述。
鉴于小数据和“数据孤岛”成为制约人工智能技术发展的关键挑战性问题。本书细致讲解人工智能领域的联邦学习原理,翔实阐述在平衡智能学习和信息安全的前提下,如何通过加密机制进行模型参数交换,安全地进行人工智能模型训练,所建立的虚拟共享智能模型与直接聚合所有数据获得的模型性能相近。除此之外,本书致力于全流程介绍联邦学习实践工具,帮助读者搭建完整的框架平台以及它们之间的应用关系,推动人工智能技术转化应用落地;最后本书通过7个实践案例全维度展现联邦学习实战。
ChatGPT能够辅助用户完成从数据收集、预处理、分析到报告撰写的全过程,大大降低了数据分析的门槛。本书共分为 12 章,内容包括ChatGPT 的注册与登录、提示词的设计、GPTs、数据的收集与预处理、特征工程、各类数据分析方法(包括对比分析、分组分析、回归分析、分类分析和聚类分析等)、数据可视化,以及如何利用 ChatGPT 撰写数据分析报告等。每章都提供了丰富的示例和实用技巧,旨在帮助读者掌握利用ChatGPT 进行数据分析的方法,提高数据处理和分析的效率。本书适合数据分析师、市场研究人员、高校师生、科研人员以及任何对数据分析感兴趣的读者。通过阅读本书,读者不仅能学习到如何使用 ChatGPT 进行数据分析,还能深刻理解数据分析的核心概念和应用场景,从而在实践中更加游刃有余。
《MySQL是怎样运行的:从根儿上理解MySQL》采用诙谐幽默的表达方式,对MySQL的底层运行原理进行了介绍,内容涵盖了使用MySQL的同学在求职面试和工作中常见的一些核心概念。 《MySQL是怎样运行的:从根儿上理解MySQL》总计22章,划分为4个部分。第1部分介绍了MySQL入门的一些知识,比如MySQL的服务器程序和客户端程序有哪些、MySQL的启动选项和系统变量,以及使用的字符集等。第2部分是本书后续章节的基础,介绍了MySQL的一些基础知识,比如记录、页面、索引、表空间的结构和用法等。第3部分则与大家在工作中经常遇到的查询优化问题紧密相关,介绍了单表查询、连接查询的执行原理,MySQL基于成本和规则的优化具体指什么,并详细分析了Explain语句的执行结果。第4部分则是与MySQL中的事务和锁相关,介绍了事务概念的来源,MySQL是如何实现事务的,包括redo日志、undo日
大数据时代,各行各业积累的数据不断增多,海量数据经过清洗、整理以后,基于分析与挖掘工作,才能获取到有用的数据信息,挖掘到数据背后的价值,掌握大数据的规律。而数据分析与挖掘的核心工作即是数据建模。数据建模,通俗地说,就是通过建立数据科学模型的手段解决现实问题的过程。 《数据建模方法与案例》共分为五章,内容包括数据建模概述、数据建模常用数据计算软件MATLAB和SPSS入门介绍、数据建模方法、实战案例分析等。《数据建模方法与案例》注重理论与实践相结合,不仅有详细的数据建模理论方法,还有赛题案例,以及非常详细的程序代码,让读者既能具备数据建模理论的基础,又能掌握解决数据建模问题的技巧与方法,还能轻松应对大数据问题的编程计算。
本书通过真实案例,全面介绍Python 3编程基础及其数据分析工具的应用,培养读者通过数据分析问题、解决问题以及对结果评价的能力。全书内容包括:Python 3基本配置和编程基础、编程进阶、数据预处理、数据描述与数据探索、绘图与可视化、统计推断、相关分析、关联分析、回归分析、主成分和因子分析、聚类、判别与分类、列联分析、对应分析、定性数据分析、神经网络和深度学习、时间序列分析、信号滤波等,将读者关注的基本数据分析方法进行剖析。
本书全面深入地探讨了有效数据管理面临的挑战、复杂性及其巨大价值;定义了一套数据管理的指导原则,阐述了如何将这些原则应用于不同的数据管理功能领域;提供了企业级数据管理实践的功能框架,涵盖广泛采用的实践、方法、技术、职能、角色、交付成果和衡量标准;确立了数据管理的通用术语体系,成为数据管理专业人员很好实践的基础。本书为数据管理和IT专业人员、企业高管、知识工作者、教育者和相关研究人员提供了数据管理知识体系框架,帮助他们更好地管理数据、优化数字基础设施。
本书作为循证医学微专业系列丛书的第一本,阐述了Meta分析与网状Meta分析以及GRADE分级方法的基础知识,并结合案例介绍了19种Meta分析软件如何实现单臂、双臂、网状和诊断试验准确性研究Meta分析,同时介绍了5种文献自动化检索软件、5种文献自动化筛选软件、2种偏倚风险评估辅助软件、3种数据辅助提取软件、4种辅助撰写软件以及2种证据分级软件。本书系统全面呈现了37种软件,实现了Meta分析数据分析和呈现一体化;力求“教了就会用”,利用图片把每个软件使用过程中遇到的核心问题与难点展示给读者,图文并茂,讲解深入浅出,可操作性强;内容实用性强,贴近前沿进展,具有指导意义。
本书针对愿意加入大数据行业的初学者量身定做,以简练风趣的语言介绍了大数据程核心技术及相关案例。内容包括了数据的基本概念、Hadoop的安装与配置、HDFS、基于Hadoop3的HDFS高可用、Zookeeper、MapReduce、YARN、Sqoop、KafKa、Redis,每个知识点配有可运行的案例,同时结合企业实际案例,让读者能够掌握从大数据环境搭建到大数据核心技术,并且进一步熟悉企业案例的分析及开发过程,从而轻松进入到大数据领域。本书实用性强,非常适合Hadoop大数据分析入门读者阅读,也适合相关院校作为大数据分析与挖掘的教材使用。
这是一本能帮助读者快速获取数据产品实战能力数据项目实战能力的著作。全书内容以案例方式组织,围绕数据建设、数据营销、数据驱动3大主题,用14个综合案例进行完整再现和深度复盘,为近10个行业的数据产品提供了可直接参考的解决方案,这些方案同时也适用于其他行业。每个案例从项目背景、方案设计、实现过程、总结与思考等维度展开阐述,层次清晰,可参考性强。全书共14章,分为三部分:数据建设、数据营销和数据驱动。第1部分 数据建设(第1~2章)数据建设是数据运转的基础,是数据发挥价值的关键。良好的数据建设能够降低数据应用的开发成本,提升数据使用者的效率。本部分包含两章,分别介绍了自动化数据分析平台的搭建和数据埋点的工作流程等。第二部分 数据营销(第3~9章)营销是每个公司的业务核心,良好的数据营销平台为营销提供非
这是一本能帮助读者快速获取数据产品实战能力数据项目实战能力的著作。全书内容以案例方式组织,围绕数据建设、数据营销、数据驱动3大主题,用14个综合案例进行完整再现和深度复盘,为近10个行业的数据产品提供了可直接参考的解决方案,这些方案同时也适用于其他行业。每个案例从项目背景、方案设计、实现过程、总结与思考等维度展开阐述,层次清晰,可参考性强。全书共14章,分为三部分:数据建设、数据营销和数据驱动。第1部分 数据建设(第1~2章)数据建设是数据运转的基础,是数据发挥价值的关键。良好的数据建设能够降低数据应用的开发成本,提升数据使用者的效率。本部分包含两章,分别介绍了自动化数据分析平台的搭建和数据埋点的工作流程等。第二部分 数据营销(第3~9章)营销是每个公司的业务核心,良好的数据营销平台为营销提供非
这是一本能帮助读者快速获取数据产品实战能力数据项目实战能力的著作。全书内容以案例方式组织,围绕数据建设、数据营销、数据驱动3大主题,用14个综合案例进行完整再现和深度复盘,为近10个行业的数据产品提供了可直接参考的解决方案,这些方案同时也适用于其他行业。每个案例从项目背景、方案设计、实现过程、总结与思考等维度展开阐述,层次清晰,可参考性强。全书共14章,分为三部分:数据建设、数据营销和数据驱动。第1部分 数据建设(第1~2章)数据建设是数据运转的基础,是数据发挥价值的关键。良好的数据建设能够降低数据应用的开发成本,提升数据使用者的效率。本部分包含两章,分别介绍了自动化数据分析平台的搭建和数据埋点的工作流程等。第二部分 数据营销(第3~9章)营销是每个公司的业务核心,良好的数据营销平台为营销提供非
随着互联网技术的普及,数据产生的速度加快,数据规模越来越庞大,企业对数据分析师的需求也随之增加。数据分析师需要做好日常的数据收集与积累的工作,通过数据分析师制定适合企业的发展计划,帮助企业在激烈的市场竞争中赢得主动权,实现跨越发展。目前靠前的企业中,大多已经简历了数据分析部门,知名互联网公司如IBM、谷歌等企业尤其注重发展投资数据分析部门,培养数据分析团队。数据分析师的分析结论与建议已经成为企业决策的重要参考。本书从数据分析师培养的角度,结合大量的图表、案例,提炼出新手数据分析师最急需了解的内容,帮助读者从宏观角度全面了解数据分析师的工作流程。对于想要入行的新手来说,这是一本非常实用的工具书。
随着互联网技术的普及,数据产生的速度加快,数据规模越来越庞大,企业对数据分析师的需求也随之增加。数据分析师需要做好日常的数据收集与积累的工作,通过数据分析师制定适合企业的发展计划,帮助企业在激烈的市场竞争中赢得主动权,实现跨越发展。目前靠前的企业中,大多已经简历了数据分析部门,知名互联网公司如IBM、谷歌等企业尤其注重发展投资数据分析部门,培养数据分析团队。数据分析师的分析结论与建议已经成为企业决策的重要参考。本书从数据分析师培养的角度,结合大量的图表、案例,提炼出新手数据分析师最急需了解的内容,帮助读者从宏观角度全面了解数据分析师的工作流程。对于想要入行的新手来说,这是一本非常实用的工具书。
随着互联网技术的普及,数据产生的速度加快,数据规模越来越庞大,企业对数据分析师的需求也随之增加。数据分析师需要做好日常的数据收集与积累的工作,通过数据分析师制定适合企业的发展计划,帮助企业在激烈的市场竞争中赢得主动权,实现跨越发展。目前靠前的企业中,大多已经简历了数据分析部门,知名互联网公司如IBM、谷歌等企业尤其注重发展投资数据分析部门,培养数据分析团队。数据分析师的分析结论与建议已经成为企业决策的重要参考。本书从数据分析师培养的角度,结合大量的图表、案例,提炼出新手数据分析师最急需了解的内容,帮助读者从宏观角度全面了解数据分析师的工作流程。对于想要入行的新手来说,这是一本非常实用的工具书。
随着互联网技术的普及,数据产生的速度加快,数据规模越来越庞大,企业对数据分析师的需求也随之增加。数据分析师需要做好日常的数据收集与积累的工作,通过数据分析师制定适合企业的发展计划,帮助企业在激烈的市场竞争中赢得主动权,实现跨越发展。目前靠前的企业中,大多已经简历了数据分析部门,知名互联网公司如IBM、谷歌等企业尤其注重发展投资数据分析部门,培养数据分析团队。数据分析师的分析结论与建议已经成为企业决策的重要参考。本书从数据分析师培养的角度,结合大量的图表、案例,提炼出新手数据分析师最急需了解的内容,帮助读者从宏观角度全面了解数据分析师的工作流程。对于想要入行的新手来说,这是一本非常实用的工具书。
《DAMA数据管理知识体系指南(原书第2版)》是DAMA国际(DAMA International)组织专家对过去30多年数据管理领域知识和实践的总结,是一部综合了数据管理方方面面具有权威性的基础工具书。本书从数据治理、数据架构、数据质量、数据安全、主数据管理、参考数据管理、元数据管理、商务智能和数据参考管理、数据建模设计、数据存储和操作、数据集成和互操作、文档和内容管理、大数据、数据管理人员的道德要求等方面介绍了数据管理的知识体系。DMBOK已经成为数据管理领域的“圣经”,是指导个人知识体系完善和企业数据管理能力建设的重要文献。本书适合各种组织负责信息化和数字化转型的领导(如CIO、CDO),从事数据管理的各种技术及业务人员,工作中涉及数据的会计、法律、咨询、教育、政务等领域的人士阅读。同时,也可作为高校MBA和计算机专业教学用
本书采用“理论+实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。本书不但适合刚入门的初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有多年开发经验的开发者进阶提高。另外,本书也适合社会培训机构和相关院校作为教材或者教学参考书。