本书是“鸢尾花数学大系——从加减乘除到机器学习”丛书的第三板块(实践板块)中的一本关于数据科学的分册。“实践”这个板块,我们将会把学到的编程、可视化,特别是数学工具应用到具体的数据科学、机器学习算法中,并在实践中加深对这些工具的理解。 本书可以归纳为7大板块——数据说、数据处理、时间数据、图论基础、图的分析、图与矩阵、图论实践。这7个板块(共25章内容)都紧紧围绕一个主题——数据! 本书以数据为名,以好奇心和疑问为驱动,主动使用“编程+可视化+数学”工具进行探索。本书将会回顾鸢尾花书前五本主要的工具,让大家对很多概念从似懂非懂变成如数家珍;同时,我们还会掌握更多工具,用来扩展大家的知识网络。 依照惯例,本书提供代码和视频教学。 本书读者群包括数据科学从业者、大数据从业者、高级数据分析师、机器
数据工作者在处理数据时,与其说像是手忙脚乱的猴子,不如说更像是神奇的魔法师。数据很少会以“准备就绪”的形态进入我们的世界,通常需要经过几个小时的清理、过滤和重塑才能被使用。Power Query可以加速整个数据处理过程,有时甚至只需简单地单击几个按钮就能完成。Excel用户可以仅仅通过学习Power Query配合Excel公式来导入数据、清理数据和转换数据,为后续分析数据做好准备,整个过程几乎零代码。我们相信Power Query将改变Excel用户处理数据的方式。如果你正在使用Excel,其实已经拥有Power Query,自Excel2016版本起,Power Query已内置到Excel中。这本书正是教你如何通过Power Query使用更多专业的数据处理技巧的指南。
本书系统论述了图数据库的理论知识与行业应用实践。本书分为理论篇和实践篇,共15章。其中,理论篇包括第1~8章,由浅入深地介绍了图数据库的概念和底层技术原理,涵盖主流图数据库的内核原理与架构设计、图查询语言、图算法、图数据库客户端编程、图数据库服务端编程、图可视化、图数据库选型等内容;实践篇包括第9~15章,介绍了图数据库的行业应用案例,涵盖知识图谱、金融、泛政府、零售、制造业供应链管理、企业资产管理、生命科学等内容,通过这些案例,进一步启发读者深入思考和挖掘潜在的应用场景。针对行业案例,本书免费提供详尽的源代码,以便读者动手实践。本书适合数据库应用开发人员、数据库管理人员、数据科学家以及负责数据库选型的技术专家阅读,也适合高等院校数据库专业的高年级本科生和研究生参考。
Python是众多研究人员眼中的一流工具,主要原因在于它所提供的可用于存储、操作、洞察数据的各种库。数据科学堆栈的各个部分都存在多种资源,但只有本书的新版将它们汇集于一处,包括IPython、NumPy、pandas、Matplotlib、Scikit-Learn以及其他相关工具。熟悉阅读和编写Python代码的在职科技人员和数据处理人员会发现这份全面的案头参考书的第二版非常适合处理各种日常问题:数据的操作、转换、清理;不同类型数据的可视化;使用数据建立统计或机器学习模型。一句话,这是Python科学计算的推荐参考。
本书是一本全面关注工业企业数据治理方面的工具书,主要内容分为概述篇、体系篇、工具篇、实施篇及案例篇。其中概述篇主要介绍工业企业数据治理的基础概念、主流数据治理标准及框架、数据治理的发展趋势等;体系篇主要介绍数据管控、数据战略、数据架构、主数据管理等的基本原理与管理体系;工具篇主要介绍主数据管理工具、数据模型管理工具、数据资产运营工具等;实施篇主要介绍具体实施策略及路径选择、顶层架构规划与设计、数据资产运营实施等;案例篇主要介绍电力、能源化工、钢铁、制造、战略投资等行业的数据治理案例,为读者提供专业、丰富、可信的数据治理实施范例。 本书是工业大数据应用技术国家工程实验室多年潜心研究的重要科研成果的总结和凝聚,既具有理论高度,也具备面向中国工业企业的可实操性。参与本书编著的作者均
本书以MySQL 8.0为主,全面系统地阐述了MySQL日常使用及管理过程中的一些常用知识点:安装、复制、binlog、备份、监控、DDL、线程池、中间件、常用工具、组复制、InnoDB Cluster、JSON、MySQL 8.0的新特性。本书定位于实战,目的是让读者拿来即用,快速上手MySQL。除了实战,本书还花费了大量的篇幅来讲解MySQL中一些常见操作、常用工具的实现原理。组复制是MySQL官方推荐的高可用方案,本书会从源码角度分析组复制的一些核心模块的实现细节,包括分布式恢复、冲突检测、事务一致性以及流量控制机制等。
《大数据分析基础:概念、技术、方法和商务(英文版)》涵盖了大数据分析的四个基本方面:概念和基础,平台和工具,方法和算法,以及社会问题和好实践。
作为一名有抱负的数据科学家,你理解为什么组织机构的重要决策都依赖于数据一一无论是设计网站的公司、决定如何改善服务的城市,还是致力于阻止疾病传播的科学家组织。你需要具备将一堆杂乱的数据提炼成可操作的洞见所需的技能。我们称之为数据科学生命周期:收集、整理、分析数据并从中得出结论的过程。 本书是第一本兼顾编程和统计学基础技能的书籍,内容涵盖了整个数据科学生命周期。它面向那些希望成为数据科学家或与数据科学家合作的读者,以及希望跨越“技术/非技术”界限的数据分析师。如果具备基本的Pythons编程知识,你将学到如何使用像pandas这样的行业标准工具来处理数据。
本书从智能信用评价体系构建、大数据信用特征构造、智能信用评价模型设计、数据缺失与非均衡数据处理等方面系统地研究了大数据环境下的智能信用评价理论与方法。研究内容包括智能信用评价体系构建理论、基于文本信息的信用特征构造方法、基于关系网络的信用特征构造方法、基于社会资本的信用特征构造方法、动态信用评价模型构建方法、可解释智能信用评价模型构建方法、数据缺失与非均衡数据处理方法及信用评价系统的评估与优化方法等,并将研究成果运用到普惠金融和中小微企业信用风险管理实践中,较好地解决了大数据环境下普惠金融和中小微企业信用评价中的关键科学问题。本书可供相关领域的研究开发人员阅读,也可作为相关专业研究生的教学参考书。
随着数据存储、数据处理等大数据技术的快速发展,数据科学在各行各业得到广泛的应用。数据清洗、特征工程、数据可视化、数据挖掘与建模等已成为高校师生和职场人士迎接数字化浪潮、与时俱进提升专业技能的必修课程。本书将“Python课程学习”与“数据科学应用”结合,为数字化人才的培养助力。全书共分13章,内容包括:第1章数据科学应用概述;第2章Python的入门基础知识;第3章数据清洗;第4~6章特征工程介绍,包括特征选择、特征处理和特征提取;第7章数据可视化应用;第8~13章介绍6种数据挖掘与建模的方法,分别为线性回归、Logistic回归、决策树、随机森林、神经网络、RFM分析。《Python数据科学应用从入门到精通》既适合作为经济学、管理学、统计学、金融学、社会学、医学、电子商务等相关专业的学生学习Python数据科学应用的专业教材或参考书,
在Oracle认证大师Richard Niemiec的帮助下,系统地识别和排除数据库的性能问题:《Oracle Database 12cR2性能调整与优化(第5版)》详细介绍 的监控、故障排除和优化方法,取自现实世界的案例研究和 实践贯穿全书,从中可以探悉如何鉴定和解决本地部署和云环境的瓶颈问题、如何配置存储设备、如何有效运行查询以及如何开发无错误的SQL和PL/SQL代码。此外还介绍了有关测试、报表和提高安全性等方面的内容。学会如何:? 正确运用 Oracle 12cR2数据库的索引和分区技术? 有效使用Oracle云、Oracle Exadata和Oracle企业管理器? 有效地管理磁盘驱动器、ASM、磁盘阵列和内存? 运用Oracle的SQL提示和Trace实用工具来优化查询? 运用V$视图和X$表对数据库实施故障排除? 创建 云数据库服务并为混合云做好准备? 运用Oracle的Statspack和AWR等工具来生成报表? 运用sar、vmstat和iostat来监控操作系
数据泄露会影响组织的经济、浪费资源、破坏组织的声誉。世界上的每个组织都有遭受数据泄露的风险,因此开发出有效的、可扩展的策略来管理数据泄露是至关重要的。本书介绍了真实的企业数据泄露案例,读者在了解这些案例的过程中,会深刻地明白,为什么数据等于风险,影响数据泄露的五个因素,数据泄露为何是危机也是机遇,数据泄露响应模型DRAMA的含义,常见的数据泄露,针对特定行业的数据泄露的响应策略,以及技术供应链上的风险转移。
本书深入探讨了云计算的关键基础设施——云数据中心的关键技术和智能管理方法。在国家重点研发计划项目、国家自然科学基金重点项目以及企事业单位研究所科技合作项目等多个层次的项目支持下,项目组攻克了一系列关键技术挑战。本书重点介绍了大规模云数据中心运行数据管理技术、大规模云数据中心运行能效评估与预测技术、大规模云数据中心资源智能管理与调度技术、大规模云工作流智能管理与调度技术。在上述关键技术攻关的基础上,本书介绍了云数据中心智能化管理与运维体系架构及相关子系统的设计与开发,并面向典型工业应用开展了应用示范。 本书可供计算机和自动化领域的工程师和研究人员参考,也可作为高等院校自动化、电子信息工程、计算机科学与技术、通信工程等相关专业的教师和研究生的教学参考书。
作为一名有抱负的数据科学家,你理解为什么组织机构的重要决策都依赖于数据一一无论是设计网站的公司、决定如何改善服务的城市,还是致力于阻止疾病传播的科学家组织。你需要具备将一堆杂乱的数据提炼成可操作的洞见所需的技能。我们称之为数据科学生命周期:收集、整理、分析数据并从中得出结论的过程。 本书是第一本兼顾编程和统计学基础技能的书籍,内容涵盖了整个数据科学生命周期。它面向那些希望成为数据科学家或与数据科学家合作的读者,以及希望跨越“技术/非技术”界限的数据分析师。如果具备基本的Pythons编程知识,你将学到如何使用像pandas这样的行业标准工具来处理数据。
本书基于感知和可视化的科学,介绍了大量应用的提升可视化效果的关键原则和方法。新版增加了可视化领域的新进展,特别是增加了神经科学感知相关的可视化内容。