阅读本书可以学习使用Python对数据集进行操作、处理、清洗和规整。第3版针对Python3.10和pandas1.4进行了更新,并通过实操讲解和实际案例向读者展示了如何高效地解决一系列数据分析问题。读者将在阅读过程中学习新版本的pandas、NumPy、IPython和Jupyter。 本书作者Wes McKinney是Python pandas项目的创始人。本书对Python数据科学工具的介绍既贴近实战又内容新颗,非常适合刚开始学习Python的数据分析师或刚开始学习数据科学和科学计算的Python程序员阅读。读者可以从GitHub获取数据文件和相关资料。 学完本书,你将能够: ·使用Jupyter notebook和IPython shell进行探索性计算。 ·掌握NumPy的基础功能和高级功能。 ·掌握pandas库中的数据分析工具。 ·使用灵活的工具对数据进行加载、清洗、转换、合并和重塑。 ·使用matplotlib进行信息可视化。 ·使用pandas的groupBy功能对数据集进行切片、切
这是一本讲解在数据要素大背景下,企业如何将数据资源开发成数据产品,进而通过数据产品实现数据资产化和资本化的著作,为企业释放数据价值提供了科学的方法论和国内领先的实践方案。这本书由全球数据资产理事会(DAC)组织编写,融合了国内数据资产管理领域多家企业的10位专家的研究成果和实战经验,得到了湖南数据产业集团、广州数据集团、深圳数据交易所、浙江大数据交易中心、华为、平安、安永、毕马威、德勤、普华永道、浙江大学等企业、机构和高校等近20位高层领导、技术专家和学者的高度评价和一致推荐。从概念到方法,从理论到实践,从产业政策到行业解决方案,本书将为读者构建全面的数据产品知识体系,核心内容如下:(1)国家和地方出台的数据资产相关政策及其解读,为数据资产实践提供法律准绳;(2)详细阐释数据从原始数据
本书以TiDB数据库为基础介绍分布式数据库的运行原理、性能优化和应用场景架构设计。首先,剖析分布式数据库的运行原理与架构;然后,阐述分布式数据库TiDB在表与索引的设计优化、SQL优化、系统级优化方面的方法论,通过融入多个有代表性的案例,帮助读者将方法论对应到生产实践中;最后,梳理场景选型和架构设计过程中读者应该掌握的主要知识点,并对一些分布式数据库的优势场景进行了详细介绍。 本书适合希望了解分布式数据库原理,学习TiDB数据库的开发工程师、数据库管理员和架构师阅读,也可以作为高等学校教师或学生学习分布式数据库的参考教材。
当前,数据驱动的理念已渗透到各个领域,数据科学和人工智能技术在制造业、金融、教育等多个行业中得到了广泛应用。Python作为一种编程语言,已成为数据科学和人工智能领域的事实标准,它丰富的生态系统进一步增强了它在这些领域中的重要性。然而,随着数据量的不断增长,如何利用Python加速数据科学处理,并将它扩展到集群上的并行计算,已成为数据科学家面临的重要挑战。本书详细介绍了4种数据科学工具:Dask、Ray、Xorbits和mpi4py,这些工具可以帮助数据工程师和科学家处理更大规模的数据集、训练更复杂的模型,并更高效地进行机器学习模型的迭代和部署。本书面向具备一定数据科学基础的数据工程师、数据科学家或领域专家,同时也适合大学生和研究生作为进入高性能数据科学领域的入门读物。
阅读本书可以学习使用Python对数据集进行操作、处理、清洗和规整。第3版针对Python3.10和pandas1.4进行了更新,并通过实操讲解和实际案例向读者展示了如何高效地解决一系列数据分析问题。读者将在阅读过程中学习新版本的pandas、NumPy、IPython和Jupyter。 本书作者Wes McKinney是Python pandas项目的创始人。本书对Python数据科学工具的介绍既贴近实战又内容新颗,非常适合刚开始学习Python的数据分析师或刚开始学习数据科学和科学计算的Python程序员阅读。读者可以从GitHub获取数据文件和相关资料。 学完本书,你将能够: ·使用Jupyter notebook和IPython shell进行探索性计算。 ·掌握NumPy的基础功能和高级功能。 ·掌握pandas库中的数据分析工具。 ·使用灵活的工具对数据进行加载、清洗、转换、合并和重塑。 ·使用matplotlib进行信息可视化。 ·使用pandas的groupBy功能对数据集进行切片、切
在大数据时代,我们并不缺少数据,缺少的是利用数据分析的思维和工具去解决实际问题的能力。数据化分析是运用恰当的方法和工具,对数据进行科学、有效的分析,从而提出有理有据、具有可操作性的建议,以解决现实中的难题。本书主要介绍了数据分析的9 种思维、7 种工具、学习方法、基本方法、展现方法、制作数据分析报告的方法,以及数据分析的思维模型。本书适合所有对数据分析感兴趣的读者阅读,特别是在工作或生活中需要经常跟数据接触的人,如数据分析师、产品经理、运营人员、管理人员、财务人员等。
本书深入探讨了大数据技术的核心概念和实际应用。从大数据的基础架构Hadoop开始,逐步解析了分布式协调服务Zookeeper、数据仓库Hive、面向列的数据库HBase等关键技术。此外,还介绍了数据迁移工具Sqoop、数据采集工具Flume、发布订阅消息系统Kafka等实用工具。本书还深入讲解了数据处理分析引擎Spark、全文搜索引擎Elasticsearch及分布式处理引擎Flink的工作原理和应用实例。最后,通过电商推荐系统实战和Flink实现电商用户行为分析两个案例,展示了大数据技术在实际业务中的应用。本书附带全书实例源代码、电子版本教程(下载方式见封底),以及可扫码观看的长达13个小时的部分实例操作视频,帮助读者更深入了解大数据技术的具体内容,非常适合对大数据技术感兴趣的读者,尤其是想要深入了解大数据技术原理和应用的开发者和管理者阅读。
本书是一本全面关注工业企业数据治理方面的工具书,主要内容分为概述篇、体系篇、工具篇、实施篇及案例篇。其中概述篇主要介绍工业企业数据治理的基础概念、主流数据治理标准及框架、数据治理的发展趋势等;体系篇主要介绍数据管控、数据战略、数据架构、主数据管理等的基本原理与管理体系;工具篇主要介绍主数据管理工具、数据模型管理工具、数据资产运营工具等;实施篇主要介绍具体实施策略及路径选择、顶层架构规划与设计、数据资产运营实施等;案例篇主要介绍电力、能源化工、钢铁、制造、战略投资等行业的数据治理案例,为读者提供专业、丰富、可信的数据治理实施范例。 本书是工业大数据应用技术国家工程实验室多年潜心研究的重要科研成果的总结和凝聚,既具有理论高度,也具备面向中国工业企业的可实操性。参与本书编著的作者均
本书系统地介绍向量数据库的原理、技术实现及其应用,重点分析传统数据库在处理高维向量数据时的局限性,并提供相应的解决方案。本书分为4个部分,共13章,内容涵盖从理论基础到技术实践的多个方面,详细讨论高维向量表示中的信息丢失、嵌入空间误差和维度诅咒等问题,结合FAISS和Milvus等主流开源工具,深入剖析向量数据库的索引机制、搜索算法和优化策略。通过实际案例,展示向量数据库在推荐系统、行为分析、智能诊断、语义搜索等领域的应用,并特别强调企业级语义搜索系统的开发与部署经验。 本书不仅提供深度的理论指导,还通过丰富的案例帮助读者掌握如何构建高效的向量搜索引擎,适合从事搜索引擎与推荐系统开发的工程师,数据科学、人工智能及相关领域的从业者、研究人员,以及对向量数据库与相似性搜索感兴趣的读者,也可作为培训
本书全面深入地探讨了有效数据管理面临的挑战、复杂性及其巨大价值;定义了一套数据管理的指导原则,阐述了如何将这些原则应用于不同的数据管理功能领域;提供了企业级数据管理实践的功能框架,涵盖广泛采用的实践、方法、技术、职能、角色、交付成果和衡量标准;确立了数据管理的通用术语体系,成为数据管理专业人员很好实践的基础。本书为数据管理和IT专业人员、企业高管、知识工作者、教育者和相关研究人员提供了数据管理知识体系框架,帮助他们更好地管理数据、优化数字基础设施。
本书紧密结合当前边缘计算领域近期新的发展趋势与研究成果,本着务实具体、详略得当、启发创新的指导思想,系统、全面地介绍了边缘计算的原理与应用,包括基本概念、架构原理、核心技术、主要研究方向与挑战,以及多个应用的近期新研究进展。撰写本书时最艰难的是选择从哪些应用视角来讲述边缘计算。最终,我们选择了计算卸载、服务部署、视频分析、模型推断、联邦学习等当下应用最为广泛的若干应用进行了阐述。
本书通过通俗易懂的语言、丰富多彩的实例,详细介绍了使用Python进行数据分析应该掌握的各方面技术。本书内容包括Python基础,用NumPy进行数据计算,用Pandas进行数据分析,用SciPy进行数据分析,用Scikit-learn进行数据分析、数据预处理、数据可视化,用Matplotlib进行可视化等内容。本书示例丰富,所有涉及的程序代码都给出了详细的注释,读者可以轻松学习,快速提升开发技能。除此之外,本书还附配了教学视频、PPT课件和全书示例源码。 本书适合数据分析的初学者、职场人士和所有对数据分析感兴趣的人员阅读,也适合作为大中专院校相关专业的教学用书。
鉴于小数据和“数据孤岛”成为制约人工智能技术发展的关键挑战性问题。本书细致讲解人工智能领域的联邦学习原理,翔实阐述在平衡智能学习和信息安全的前提下,如何通过加密机制进行模型参数交换,安全地进行人工智能模型训练,所建立的虚拟共享智能模型与直接聚合所有数据获得的模型性能相近。除此之外,本书致力于全流程介绍联邦学习实践工具,帮助读者搭建完整的框架平台以及它们之间的应用关系,推动人工智能技术转化应用落地;最后本书通过7个实践案例全维度展现联邦学习实战。
ChatGPT能够辅助用户完成从数据收集、预处理、分析到报告撰写的全过程,大大降低了数据分析的门槛。本书共分为 12 章,内容包括ChatGPT 的注册与登录、提示词的设计、GPTs、数据的收集与预处理、特征工程、各类数据分析方法(包括对比分析、分组分析、回归分析、分类分析和聚类分析等)、数据可视化,以及如何利用 ChatGPT 撰写数据分析报告等。每章都提供了丰富的示例和实用技巧,旨在帮助读者掌握利用ChatGPT 进行数据分析的方法,提高数据处理和分析的效率。本书适合数据分析师、市场研究人员、高校师生、科研人员以及任何对数据分析感兴趣的读者。通过阅读本书,读者不仅能学习到如何使用 ChatGPT 进行数据分析,还能深刻理解数据分析的核心概念和应用场景,从而在实践中更加游刃有余。
本书全面深入地探讨了有效数据管理面临的挑战、复杂性及其巨大价值;定义了一套数据管理的指导原则,阐述了如何将这些原则应用于不同的数据管理功能领域;提供了企业级数据管理实践的功能框架,涵盖广泛采用的实践、方法、技术、职能、角色、交付成果和衡量标准;确立了数据管理的通用术语体系,成为数据管理专业人员很好实践的基础。本书为数据管理和IT专业人员、企业高管、知识工作者、教育者和相关研究人员提供了数据管理知识体系框架,帮助他们更好地管理数据、优化数字基础设施。
真实世界的数据都是多模态的,真正的通用人工智能(AGI)必将超越单一模态的局限。本书基于作者多年工业界大数据技术经验,系统而全面地探讨了多模态数据技术,从基础概念到关键技术再到典型应用,全方位讲解多模态数据分析的核心技术与前沿实践。书中首先详尽介绍了多模态数据分析相关知识,涉及文本、图像、音频、视频等多模态数据;然后结合实例代码,系统介绍了统计学与数据分析、机器学习、深度学习、知识图谱、大模型等方法和模型,以及GPT与DeepSeek等大模型的多模态实践分析;最后结合医疗、直播、视频等领域的案例阐述了多模态数据分析的多种算法模型的综合应用。 本书体系化强、案例丰富,以“理论框架-技术路径-实战案例”层层递进的方式提供了完整的知识链路,主体基于Python语言的大量实例代码,可以帮助读者学以致用。 本书既可
本书以一个Kubernetes工程师的视角,全面系统地介绍Kubernetes常见的知识点、企业应用实践及运维管理方法。本书共分18章,第1、2章介绍如何快速搭建高可用的Kubernetes集群;第3~7章介绍Docker的基础和镜像的制作优化,以及Kubernetes的基础概念(Master、Node和Pod)、核心调度资源(Deployment、StatefulSet、DaemonSet、CronJob)、服务发布(Service和Ingress)和配置管理(ConfigMap和Secret)。第8~11章主要介绍Kubernetes的持久化存储、动态存储、CSI、高级调度(容忍、污点和亲和力)、服务质量、权限管理、Kubernetes资源配额管理。第12、13章主要介绍云原生存储、中间件容器化、Operator和Helm的使用。第14~16章主要介绍针对Kubernetes的日志收集(EFK)、监控告警(Prometheus和Grafana)、生产级服务发布Ingress的使用。第17章主要介绍基于Kubernetes、Jenkins、Harbor、GitLab等工具建设生产级的DevOps平台
本书以一个Kubernetes工程师的视角,全面系统地介绍Kubernetes常见的知识点、企业应用实践及运维管理方法。本书共分18章,第1、2章介绍如何快速搭建高可用的Kubernetes集群;第3~7章介绍Docker的基础和镜像的制作优化,以及Kubernetes的基础概念(Master、Node和Pod)、核心调度资源(Deployment、StatefulSet、DaemonSet、CronJob)、服务发布(Service和Ingress)和配置管理(ConfigMap和Secret)。第8~11章主要介绍Kubernetes的持久化存储、动态存储、CSI、高级调度(容忍、污点和亲和力)、服务质量、权限管理、Kubernetes资源配额管理。第12、13章主要介绍云原生存储、中间件容器化、Operator和Helm的使用。第14~16章主要介绍针对Kubernetes的日志收集(EFK)、监控告警(Prometheus和Grafana)、生产级服务发布Ingress的使用。第17章主要介绍基于Kubernetes、Jenkins、Harbor、GitLab等工具建设生产级的DevOps平台
本书以一个Kubernetes工程师的视角,全面系统地介绍Kubernetes常见的知识点、企业应用实践及运维管理方法。本书共分18章,第1、2章介绍如何快速搭建高可用的Kubernetes集群;第3~7章介绍Docker的基础和镜像的制作优化,以及Kubernetes的基础概念(Master、Node和Pod)、核心调度资源(Deployment、StatefulSet、DaemonSet、CronJob)、服务发布(Service和Ingress)和配置管理(ConfigMap和Secret)。第8~11章主要介绍Kubernetes的持久化存储、动态存储、CSI、高级调度(容忍、污点和亲和力)、服务质量、权限管理、Kubernetes资源配额管理。第12、13章主要介绍云原生存储、中间件容器化、Operator和Helm的使用。第14~16章主要介绍针对Kubernetes的日志收集(EFK)、监控告警(Prometheus和Grafana)、生产级服务发布Ingress的使用。第17章主要介绍基于Kubernetes、Jenkins、Harbor、GitLab等工具建设生产级的DevOps平台
本书以一个Kubernetes工程师的视角,全面系统地介绍Kubernetes常见的知识点、企业应用实践及运维管理方法。本书共分18章,第1、2章介绍如何快速搭建高可用的Kubernetes集群;第3~7章介绍Docker的基础和镜像的制作优化,以及Kubernetes的基础概念(Master、Node和Pod)、核心调度资源(Deployment、StatefulSet、DaemonSet、CronJob)、服务发布(Service和Ingress)和配置管理(ConfigMap和Secret)。第8~11章主要介绍Kubernetes的持久化存储、动态存储、CSI、高级调度(容忍、污点和亲和力)、服务质量、权限管理、Kubernetes资源配额管理。第12、13章主要介绍云原生存储、中间件容器化、Operator和Helm的使用。第14~16章主要介绍针对Kubernetes的日志收集(EFK)、监控告警(Prometheus和Grafana)、生产级服务发布Ingress的使用。第17章主要介绍基于Kubernetes、Jenkins、Harbor、GitLab等工具建设生产级的DevOps平台