本书是“鸢尾花数学大系——从加减乘除到机器学习”丛书的第三板块(实践板块)中的一本关于数据科学的分册。“实践”这个板块,我们将会把学到的编程、可视化,特别是数学工具应用到具体的数据科学、机器学习算法中,并在实践中加深对这些工具的理解。 本书可以归纳为7大板块——数据说、数据处理、时间数据、图论基础、图的分析、图与矩阵、图论实践。这7个板块(共25章内容)都紧紧围绕一个主题——数据! 本书以数据为名,以好奇心和疑问为驱动,主动使用“编程+可视化+数学”工具进行探索。本书将会回顾鸢尾花书前五本主要的工具,让大家对很多概念从似懂非懂变成如数家珍;同时,我们还会掌握更多工具,用来扩展大家的知识网络。 依照惯例,本书提供代码和视频教学。 本书读者群包括数据科学从业者、大数据从业者、高级数据分析师、机器
Python是众多研究人员眼中的一流工具,主要原因在于它所提供的可用于存储、操作、洞察数据的各种库。数据科学堆栈的各个部分都存在多种资源,但只有本书的新版将它们汇集于一处,包括IPython、NumPy、pandas、Matplotlib、Scikit-Learn以及其他相关工具。熟悉阅读和编写Python代码的在职科技人员和数据处理人员会发现这份全面的案头参考书的第二版非常适合处理各种日常问题:数据的操作、转换、清理;不同类型数据的可视化;使用数据建立统计或机器学习模型。一句话,这是Python科学计算的推荐参考。
本书是一本全面关注工业企业数据治理方面的工具书,主要内容分为概述篇、体系篇、工具篇、实施篇及案例篇。其中概述篇主要介绍工业企业数据治理的基础概念、主流数据治理标准及框架、数据治理的发展趋势等;体系篇主要介绍数据管控、数据战略、数据架构、主数据管理等的基本原理与管理体系;工具篇主要介绍主数据管理工具、数据模型管理工具、数据资产运营工具等;实施篇主要介绍具体实施策略及路径选择、顶层架构规划与设计、数据资产运营实施等;案例篇主要介绍电力、能源化工、钢铁、制造、战略投资等行业的数据治理案例,为读者提供专业、丰富、可信的数据治理实施范例。 本书是工业大数据应用技术国家工程实验室多年潜心研究的重要科研成果的总结和凝聚,既具有理论高度,也具备面向中国工业企业的可实操性。参与本书编著的作者均
数据工作者在处理数据时,与其说像是手忙脚乱的猴子,不如说更像是神奇的魔法师。数据很少会以“准备就绪”的形态进入我们的世界,通常需要经过几个小时的清理、过滤和重塑才能被使用。Power Query可以加速整个数据处理过程,有时甚至只需简单地单击几个按钮就能完成。Excel用户可以仅仅通过学习Power Query配合Excel公式来导入数据、清理数据和转换数据,为后续分析数据做好准备,整个过程几乎零代码。我们相信Power Query将改变Excel用户处理数据的方式。如果你正在使用Excel,其实已经拥有Power Query,自Excel2016版本起,Power Query已内置到Excel中。这本书正是教你如何通过Power Query使用更多专业的数据处理技巧的指南。
作为一名有抱负的数据科学家,你理解为什么组织机构的重要决策都依赖于数据一一无论是设计网站的公司、决定如何改善服务的城市,还是致力于阻止疾病传播的科学家组织。你需要具备将一堆杂乱的数据提炼成可操作的洞见所需的技能。我们称之为数据科学生命周期:收集、整理、分析数据并从中得出结论的过程。 本书是第一本兼顾编程和统计学基础技能的书籍,内容涵盖了整个数据科学生命周期。它面向那些希望成为数据科学家或与数据科学家合作的读者,以及希望跨越“技术/非技术”界限的数据分析师。如果具备基本的Pythons编程知识,你将学到如何使用像pandas这样的行业标准工具来处理数据。
本书从智能信用评价体系构建、大数据信用特征构造、智能信用评价模型设计、数据缺失与非均衡数据处理等方面系统地研究了大数据环境下的智能信用评价理论与方法。研究内容包括智能信用评价体系构建理论、基于文本信息的信用特征构造方法、基于关系网络的信用特征构造方法、基于社会资本的信用特征构造方法、动态信用评价模型构建方法、可解释智能信用评价模型构建方法、数据缺失与非均衡数据处理方法及信用评价系统的评估与优化方法等,并将研究成果运用到普惠金融和中小微企业信用风险管理实践中,较好地解决了大数据环境下普惠金融和中小微企业信用评价中的关键科学问题。本书可供相关领域的研究开发人员阅读,也可作为相关专业研究生的教学参考书。
本书基于感知和可视化的科学,介绍了大量应用的提升可视化效果的关键原则和方法。新版增加了可视化领域的新进展,特别是增加了神经科学感知相关的可视化内容。
《PostGIS实战:第3版》由(美)里贾纳·奥伯,(美)利欧·许著
随着数字化时代的发展和智能化时代的到来,地质领域中各类勘探、测绘、遥感、试验以及分析成果等数据呈现出不断激增的趋势。如何更充分地获取数据的有效特征,并实现对复杂、海量地质数据的解译是目前地质研究中不可回避的问题。本书从这一角度出发,系统阐述了当前地质数据分析中面临的关键科学技术难题,给出了数据挖掘模式下复杂地质大数据分析的解决方案。考虑地质数据的时空特性,将地质数据划分为全球尺度、区域尺度、工程尺度、统计尺度及标本尺度,从理论层面及实际应用角度提出算法模型的构建方法和具体的实现流程。此外,还将上述研究基础与三维建模进行融合,从不确定性角度对现有的地质可视化理论进行了补充。最后,结合计算机软件开发等技术,研发了地质大数据智能挖掘与分析平台。本书可供广大地质研究人员、工程师以及
本书系统论述了图数据库的理论知识与行业应用实践。本书分为理论篇和实践篇,共15章。其中,理论篇包括第1~8章,由浅入深地介绍了图数据库的概念和底层技术原理,涵盖主流图数据库的内核原理与架构设计、图查询语言、图算法、图数据库客户端编程、图数据库服务端编程、图可视化、图数据库选型等内容;实践篇包括第9~15章,介绍了图数据库的行业应用案例,涵盖知识图谱、金融、泛政府、零售、制造业供应链管理、企业资产管理、生命科学等内容,通过这些案例,进一步启发读者深入思考和挖掘潜在的应用场景。针对行业案例,本书免费提供详尽的源代码,以便读者动手实践。本书适合数据库应用开发人员、数据库管理人员、数据科学家以及负责数据库选型的技术专家阅读,也适合高等院校数据库专业的高年级本科生和研究生参考。
Microsoft Excel 365功能卓越,全球无数企业和个人用户使用Excel365来收集、理解和解读数据。Excel办公系列书籍在广大读者中引起热烈反响,一直畅销不衰。本书对上一版做了全面细致的更新,娓娓道来,指引你创建和使用电子表格,编写公式和自定义函数,可视化数据,以及基于组织的数据创建报表和预测。本书既适合初级用户,也适合高级用户,将帮助你解锁数据的价值和潜力。
面对日益严峻的数据安 全形势和日趋复杂的数据应用场景,本书系统地介绍了数据安 全治理的理论、方法与实践,旨在帮助读者深入理解数据安 全治理的重要性和复杂性,掌握构建和维护有效数据安 全体系的关键技能。本书共16章,每章重点突出,为读者提供了从理论到实践指导,帮助读者理解数据安 全治理的背景与形势,掌握数据安 全治理的基本理论、方法与实践,提升组织的数据安 全治理能力,从而更好地释放数据价值,守护数据安 全,助力数字经济健康有序发展。本书还探讨了新形势下数据安 全治理面临的新威胁、法规政策发展和地缘政治挑战,展望了数据安 全治理的未来发展趋势和创新方向。本书可以为数据安 全领域相关行业从业者、研究者、政策制定者提供参考,也可以作为数据安 全领域培训或能力认证参考图书。
本书详细阐述了与Python数据预处理相关的基本解决方案,主要包括NumPy和Pandas简介、Matplotlib简介、数据、数据库、数据可视化、预测、分类、聚类分析、数据清洗、数据融合与数据集成、数据归约、数据转换等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。
本书系统论述了图数据库的理论知识与行业应用实践。本书分为理论篇和实践篇,共15章。其中,理论篇包括第1~8章,由浅入深地介绍了图数据库的概念和底层技术原理,涵盖主流图数据库的内核原理与架构设计、图查询语言、图算法、图数据库客户端编程、图数据库服务端编程、图可视化、图数据库选型等内容;实践篇包括第9~15章,介绍了图数据库的行业应用案例,涵盖知识图谱、金融、泛政府、零售、制造业供应链管理、企业资产管理、生命科学等内容,通过这些案例,进一步启发读者深入思考和挖掘潜在的应用场景。针对行业案例,本书免费提供详尽的源代码,以便读者动手实践。本书适合数据库应用开发人员、数据库管理人员、数据科学家以及负责数据库选型的技术专家阅读,也适合高等院校数据库专业的高年级本科生和研究生参考。
本书围绕着自然资源的遥感大数据监测方法展开,着重阐述了遥感大数据以及云计算在自然资源监测中的重要作用,通过运用海量遥感影像以及云计算的高速运算能力,结合机器学习与变化检测等算法,实现高时间分辨率和高空间分辨率的自然资源监测。本书针对不同自然资源要素开发出高效且实用的监测方法,通过案例介绍了各类方法在自然资源监测中的应用场景。 本书可供包括从事自然资源监测与管理、生态环境遥感监测、国土空间规划、国土整治与生态修复的科研和工作人员,以及国内外高校从事土地资源管理、遥感、资源、生态等相关专业的广大师生阅读参考。
本书聚焦于遥感云计算的生态大数据平台技术前沿,从理论、方法、实践三个方面进行系统的阐述,首先介绍了基于遥感云计算的生态大数据平台的背景、基本概念与原理;其次介绍了基于遥感云计算的生态大数据平台的数据、方法与关键技术;最后介绍了基于遥感云计算的生态大数据平台在土地覆盖和土地利用信息提取及生态学应用的近期新进展,并提供了基于遥感云计算的甘南州生态大数据平台案例。 本书的读者对象为遥感、土地利用和全球变化分析等方面的科研工作人员和地理、资源、环境以及生态等相关专业的广大师生。
《精益数据方法论:数据驱动的数字化转型》 这是一本用精益思想指导企业以数据为核心进行数字化转型的著作,它将帮助企业事半功倍地找到正确的数字化转型战略、方法与路径。 作者结合自己20余年的实战经验,将精益思想与数据利用深度融合,总结了一套从业务目标出发,以价值场景为抓手,以数据为驱动的精益数据方法论。进一步以该方法论为基础,衍生出精益数据花瓣模型、精益数字化转型三步法、数据驱动的六大能力模型,精益数字化转型共创工作坊,四大精益数据画布,数据驱动的成熟度评估模型,从认知到实践、从工具到方法,从路径到指南,全方位指导企业将数字化转型落地,在数字化转型大浪潮中有里程碑意义。 《精益数据分析:数据驱动商业决策与业务增长》 这是一本能指导不同业态、不同阶段的产品、项目和企业利用精益数据分析方法实
《数据挖掘与预测分析(第2版)》提供了从数据准备到探索性数据分析、数据建模及模型评估等整个数据分析过程的内容。《数据挖掘与预测分析(第2版)》不仅提供了理解软件底层算法的“白盒”方法,而且提供了能够使读者利用现实世界数据集开展数据挖掘与预测分析的应用方法。 《数据挖掘与预测分析(第2版)》的新内容: 添加了500多页的新内容,包括20个新章节,例如,数据建模准备、成本.效益分析、缺失数据填补、聚类优劣度量以及细分模型等。 针对前沿主题的新章节,例如,多元分类模型、BIRCH聚类、集成学习(bagging及boosting)、模型投票与趋向平均等。 每章节后均附有R语言开发园地,读者可以获得完成书中分析所需的R语言源代码,以及通过R代码生成的图、表和结果。 书中的附录为那些对统计基础生疏的读者提供了了解基本概念的材料。 超过
本书详细阐述了与Pandas数据分析相关的基本知识,主要包括数据结构、数据的输入和输出、Pandas数据类型、数据选择、数据探索和转换、理解数据可视化、数据建模、在Pandas中使用时间、探索时间序列、Pandas数据处理案例研究等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。
《学习Python(第6版)》深入浅出地讨论了大部分Python编程主题。利用从本书中学到的Python知识,读者可以掌握高质量软件研发背后的逻辑。书中采用一种易懂的、循序渐进的方法来介绍基本的编程概念,先从控制结构、函数和列表等概念开始,再深入讨论类。这有助于确保读者理解基本的编程概念,并知道如何解决现实中的问题。书中每一章都包括清晰美观的代码清单、真实世界的例子和大量练习。 《学习Python(第6版)》针对Python 3.11进行了全面更新,新增或改进了大量主题,尤其适合想要高效掌握Python新特性的读者。
本书针对科技大数据呈现的跨领域、跨学科、跨媒体、跨时空特征,充分利用人工智能理论与技术,对科技大数据进行深层次的语义学习和关联分析,实现智能化和精准化的科技大数据查询检索与智能分析。主要内容包括跨媒体科技大数据的获取与处理、科技大数据的特征提取、科技大数据语义学习与关联、科技大数据的实体关联与实体识别、科技大数据的关系预测与演进规律分析、科技大数据的知识表示与知识服务、跨媒体科技大数据知识图谱构建、基于深度学习的科技资源立体精准画像、科技资源跨媒体信息的分布式检索查询、跨媒体科技大数据的知识服务构件等。
在大数据时代,数据的获取、传输和存储融入了人类生产生活的方方面面,而大数据核心价值体现为人们对数据的分析、理解与应用。面对如此海量、高速和异构的数据,仅靠人类的认知和理解能力远不能满足价值发现的需要。同时,计算机总是针对最细粒度数据进行迭代优化的求解模式在特定场景下也不能满足数据分析的时限需求。粒计算作为一种模拟人类知识表示和问题求解的近似数据分析范式,其优点在于解决问题时能够选择合适粒度,达到求解精度和计算时效的很好平衡。所以,粒计算通常能够以更高的效率获得“有效解”。本书以引领树和云模型作为数据多粒度表示的基本方法,系统地展示了引领树和云模型在大数据多粒度聚类、数据流即时聚类、半监督学习和时间序列预测等大数据分析场景中的理论研究成果及应用案例。 本书可供计算机科学与技术、