本书是“鸢尾花数学大系——从加减乘除到机器学习”丛书的第三板块(实践板块)中的一本关于数据科学的分册。“实践”这个板块,我们将会把学到的编程、可视化,特别是数学工具应用到具体的数据科学、机器学习算法中,并在实践中加深对这些工具的理解。 本书可以归纳为7大板块——数据说、数据处理、时间数据、图论基础、图的分析、图与矩阵、图论实践。这7个板块(共25章内容)都紧紧围绕一个主题——数据! 本书以数据为名,以好奇心和疑问为驱动,主动使用“编程+可视化+数学”工具进行探索。本书将会回顾鸢尾花书前五本主要的工具,让大家对很多概念从似懂非懂变成如数家珍;同时,我们还会掌握更多工具,用来扩展大家的知识网络。 依照惯例,本书提供代码和视频教学。 本书读者群包括数据科学从业者、大数据从业者、高级数据分析师、机器
国际大电网委员会(CIGRE)是全球专享一家近百年来一直致力于电力行业工作的国际组织。变电站专业委员会以技术报告、专题讨论会、论文的形式发布与高压变电站各方面相关的知识,其中大多数是通过CIGRE网站免费提供给其会员。然而,这些材料通常涉及特定的技术主题。如果想要了解高压变电站的全面知识,但从CIGRE网站并不容易找到相关材料。本书目的是汇集这些丰富的信息,以更加全面便捷的方式呈现,以便提供有关高压变电站各方面的参考,这对所有相关工作的决策者都具有重要的价值。本书提供了高压变电站从设计施工到维护管理等整个资产生命周期的全部知识。本书共9部分54章,包括变电站规划及设计、空气绝缘变电站、气体绝缘变电站、混合式开关设备变电站和气体绝缘线路特高压和海上变电站、二次系统、变电站与环境的相互影响、变电站管理
数据工作者在处理数据时,与其说像是手忙脚乱的猴子,不如说更像是神奇的魔法师。数据很少会以“准备就绪”的形态进入我们的世界,通常需要经过几个小时的清理、过滤和重塑才能被使用。Power Query可以加速整个数据处理过程,有时甚至只需简单地单击几个按钮就能完成。Excel用户可以仅仅通过学习Power Query配合Excel公式来导入数据、清理数据和转换数据,为后续分析数据做好准备,整个过程几乎零代码。我们相信Power Query将改变Excel用户处理数据的方式。如果你正在使用Excel,其实已经拥有Power Query,自Excel2016版本起,Power Query已内置到Excel中。这本书正是教你如何通过Power Query使用更多专业的数据处理技巧的指南。
Python是众多研究人员眼中的一流工具,主要原因在于它所提供的可用于存储、操作、洞察数据的各种库。数据科学堆栈的各个部分都存在多种资源,但只有本书的新版将它们汇集于一处,包括IPython、NumPy、pandas、Matplotlib、Scikit-Learn以及其他相关工具。熟悉阅读和编写Python代码的在职科技人员和数据处理人员会发现这份全面的案头参考书的第二版非常适合处理各种日常问题:数据的操作、转换、清理;不同类型数据的可视化;使用数据建立统计或机器学习模型。一句话,这是Python科学计算的推荐参考。
本书是一本全面关注工业企业数据治理方面的工具书,主要内容分为概述篇、体系篇、工具篇、实施篇及案例篇。其中概述篇主要介绍工业企业数据治理的基础概念、主流数据治理标准及框架、数据治理的发展趋势等;体系篇主要介绍数据管控、数据战略、数据架构、主数据管理等的基本原理与管理体系;工具篇主要介绍主数据管理工具、数据模型管理工具、数据资产运营工具等;实施篇主要介绍具体实施策略及路径选择、顶层架构规划与设计、数据资产运营实施等;案例篇主要介绍电力、能源化工、钢铁、制造、战略投资等行业的数据治理案例,为读者提供专业、丰富、可信的数据治理实施范例。 本书是工业大数据应用技术国家工程实验室多年潜心研究的重要科研成果的总结和凝聚,既具有理论高度,也具备面向中国工业企业的可实操性。参与本书编著的作者均
本书介绍Spark应用开发的面向对象和函数式编程概念,讨论RDD和DataFrame基本抽象,讲述如何使用SparkSQL、GraphX和Spark来开发可扩展的、容错的流式应用程序, 介绍监控、配置、调试、测试和开发等 主题。通过本书的学习,你将能使用SparkR和PySpark API开发Spark应用程序,使用Zeppelin进行交互式数据分析,使用Alluxio进行内存数据处理,将透彻理解Spark,并能对海量数据执行全栈数据分析, 终成为数据科学家。
本书按照需求规划、需求实现、可视化的流程进行编排,通过项目开发的主要流程,介绍数据仓库的搭建过程。在整个数据仓库的搭建过程中,本书介绍了主要组件的安装部署、需求实现的具体思路,以及各种问题的解决方案等,并在其中穿插了许多与大数据和数据仓库相关的理论知识,包括数据仓库的概念、电商业务概述、数据仓库理论和数据仓库建模等。 本书共14章,其中,第1~3章是项目的前期准备阶段,主要介绍了数据仓库的概念和搭建需求,并初步搭建了本数据仓库项目所需的基本环境;第4~7章是项目的核心部分,详细介绍了数据仓库的建模理论,并完成了数据从采集到分层搭建的全过程,是本书的重点部分;第8~14章是对数据治理各功能模块的实现,针对数据治理的不同功能需求分模块进行实现。 本书适合具有一定编程基础并对大数据感兴趣的读者
作为一名有抱负的数据科学家,你理解为什么组织机构的重要决策都依赖于数据一一无论是设计网站的公司、决定如何改善服务的城市,还是致力于阻止疾病传播的科学家组织。你需要具备将一堆杂乱的数据提炼成可操作的洞见所需的技能。我们称之为数据科学生命周期:收集、整理、分析数据并从中得出结论的过程。 本书是第一本兼顾编程和统计学基础技能的书籍,内容涵盖了整个数据科学生命周期。它面向那些希望成为数据科学家或与数据科学家合作的读者,以及希望跨越“技术/非技术”界限的数据分析师。如果具备基本的Pythons编程知识,你将学到如何使用像pandas这样的行业标准工具来处理数据。
《DAMA 数据管理知识体系指南(原书第2 版)》 本书是数据管理协会(DAMA国际)组织众多国际资深专家对过去30多年数据管理领域知识和实践的总结,是市场上综合了数据管理方方面面的一部具有权威性的基础工具书。从数据治理、数据架构、数据质量、数据安全、主数据管理、参考数据管理、元数据管理、商务智能和数据参考管理、数据建模设计、数据存储和操作、数据集成和互操作、文档和内容管理、大数据、数据管理人员的道德要求等方面介绍了数据管理的知识体系。 《华为数据之道》 这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、
本书从智能信用评价体系构建、大数据信用特征构造、智能信用评价模型设计、数据缺失与非均衡数据处理等方面系统地研究了大数据环境下的智能信用评价理论与方法。研究内容包括智能信用评价体系构建理论、基于文本信息的信用特征构造方法、基于关系网络的信用特征构造方法、基于社会资本的信用特征构造方法、动态信用评价模型构建方法、可解释智能信用评价模型构建方法、数据缺失与非均衡数据处理方法及信用评价系统的评估与优化方法等,并将研究成果运用到普惠金融和中小微企业信用风险管理实践中,较好地解决了大数据环境下普惠金融和中小微企业信用评价中的关键科学问题。本书可供相关领域的研究开发人员阅读,也可作为相关专业研究生的教学参考书。
本书是面向初学者的Python人门教程,内容涵盖Python基础知识,Python数据结构、字符串和文件,面向对象编程、递归、搜索、排序和性能分析,以及AI、大数据和云计算领域的案例研究。全书共包含538个案例研究、471道练习题和项目以及557道自我测验题,通过基于IPython和Jupyter Notebook的即时反馈,以及丰富的开源库和可视化方法,帮助读者快速提升编程能力和解决实际问题的能力。本书适合作为高等院校计算机科学和数据科学等专业的教材,也适合程序设计初学者和爱好者阅读参考。
本书详细阐述了与Pandas相关的基本解决方案,主要包括Pandas基础,DataFrame基本操作,创建和保留DataFrame,开始数据分析,探索性数据分析,选择数据子集,过滤行,对齐索引,分组以进行聚合、过滤和转换,将数据重组为规整形式,组合Pandas对象,时间序列分析,使用Matplotlib、Pandas和Seaborn进行可视化,调试和测试等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。
本书为国家社会科学基金项目成果,针对个性化学习资源推荐面临的主要问题,围绕数据挖掘优化方法、学习者建模、个性化学习资源推荐等方面的内容展开研究。本书采用定性与定量研究、理论与实证研究相结合的研究方式,融合多个学科的技术成果,在研究方法和手段上有所创新。本书既包括翔实的理论阐述,又有系列的公式演示,严谨可信,具有一定的理论研究价值;并且提出的一些新型模型和理论框架具有较高的应用价值。本书适合于作为从事数据挖掘、教育信息技术等领域的专家、学者以及研究生的参考用书。
随着数字经济的发展,大数据应用范围越来越广泛,各类大数据平台承载着海量的数据资源。大量敏感资源和重要数据要赋能数字经济的发展,可信安全地利用大数据极其重要。本书汇集了作者及其研究团队的研究成果,介绍了大数据可信计算的体系及其关键技术以及相应平台系统的设计与实现,主要内容包括原位虚拟大数据中心平台体系、大数据感知与勘探技术、多源多维数据融合计算技术、基于多模型融合的信用评估技术、大数据安全的测试与评估技术、原位虚拟大数据中心平台系统、基于区块链的大数据共享与协作系统、可信金融交易风险防控系统。 本书可供从事大数据可信计算研究的科研人员参考,也可供从事数据资产评估、深度学习建模数据评估、基于大数据的交易风控等技术人员参考。
本书采用理论与实践相结合的形式,系统阐述云计算和大数据服务的具体实现。 云计算和大数据服务战略的落地,包括技术构建和运营管理、新兴的人工智能技术的应用,以及组织能力的建设。针对这一目标,全书分为七部分:云计算技术、大数据与数据智能、服务的技术运营、智能运营(AIOps)、安全技术与管理、服务质量管理和组织能力。写作本书的目的是帮助读者对云计算和大数据的重要专题从基本概念、发展思路到解决方案有一个系统认识。 本书具有非常强的可读性和实践指导意义,可作为云计算和大数据企业的高层管理人员和技术架构师的参考读物,也可作为高校相关专业师生的教学参考用书。