阅读本书可以学习使用Python对数据集进行操作、处理、清洗和规整。第3版针对Python3.10和pandas1.4进行了更新,并通过实操讲解和实际案例向读者展示了如何高效地解决一系列数据分析问题。读者将在阅读过程中学习新版本的pandas、NumPy、IPython和Jupyter。 本书作者Wes McKinney是Python pandas项目的创始人。本书对Python数据科学工具的介绍既贴近实战又内容新颗,非常适合刚开始学习Python的数据分析师或刚开始学习数据科学和科学计算的Python程序员阅读。读者可以从GitHub获取数据文件和相关资料。 学完本书,你将能够: ·使用Jupyter notebook和IPython shell进行探索性计算。 ·掌握NumPy的基础功能和高级功能。 ·掌握pandas库中的数据分析工具。 ·使用灵活的工具对数据进行加载、清洗、转换、合并和重塑。 ·使用matplotlib进行信息可视化。 ·使用pandas的groupBy功能对数据集进行切片、切
在大数据时代,我们并不缺少数据,缺少的是利用数据分析的思维和工具去解决实际问题的能力。数据化分析是运用恰当的方法和工具,对数据进行科学、有效的分析,从而提出有理有据、具有可操作性的建议,以解决现实中的难题。本书主要介绍了数据分析的9 种思维、7 种工具、学习方法、基本方法、展现方法、制作数据分析报告的方法,以及数据分析的思维模型。本书适合所有对数据分析感兴趣的读者阅读,特别是在工作或生活中需要经常跟数据接触的人,如数据分析师、产品经理、运营人员、管理人员、财务人员等。
正则表达式能够帮助用户和开发人员更加有效地查找和操纵文本内容。而且,正则表达式已经得到了许多脚本语言、编程语言和数据库的良好支持。这本示例丰富的教程将打破所谓正则表达式难以掌握的传统神话。本书详细解释了正则表达式的各个组成部分、这些组成部分的含义、如何使用它们,以及在编写正则表达式时如何避免常见的。 通过逐章地讲解如何在流行的Windows平台的软件包括数据库、跨平台的脚本语言和编程语言中使用正则表达式,你将学习到如何有效地正则表达式所提供的强大功能,并且全面理解正则表达式的高度灵活性和无限潜能。
、最完整的Oracle DBA资源 运用《Oracle Database 12c DBA官方手册(第8版)》披露的实践和专家级技术来维护性能卓越的Oracle数据库。本书在上一版的基础上做了全面更新,涵盖新功能和实用工具,如多租户体系结构、Oracle Database In-Memory选项和更强大的云功能;并列举每种主要配置的示例。你将学习如何成功地管理高度可用、 可靠、安全和可扩展的Oracle企业级数据库环境。 主要内容 升级到Oracle Database 12c 规划和管理表空间 借助高效的物理数据库布局和存储管理方法比较大限度地提高数据 库性能 监视数据库对象使用的磁盘空间 用撤消表空间管理事务 实施专家级性能调整技术 使用新增的Oracle Database In-Memory选项提高查询速度 利用身份验证、授权和审核等方式管理数据库安全 充分利用多租户数据库体系结构 利用Oracle RAC和Oracle Active Data Guard实现高可用性和高度扩展能力 使用Ora
Oracle 12c数据库是 Oracle公司推出的旗舰级数据库系统。本书全面、详细地讲解了 Oracle 12c数据库管理技术,是学习 Oracle数据库管理的实用教材。 全书共分 24章,通过近千个范例详尽讲解了 Oracle 12c数据库体系结构、安装与卸载、各种数据库对象、 PL/SQL语言、数据库备份与恢复、用户与系统管理等技术。书中每章的内容不但概念清晰、操作步骤明了、示例丰富,而且更侧重于满足实际工作的需要。 本书适合 Oracle数据库初学者以及初级 Oracle数据库管理员使用,也适合作为 Oracle数据库管理技能培训用书。
本书以数据思维为主题,以数据分析全流程为主线,融合了编程语言、统计学基础及案例分析等内容,全书分为4篇,囊括了数据思维的概念和培养方法、数据来源及体系建设、数据分析三大思维方式及用户流失、用户转化实战等共11章的内容。本书囊括了数据分析中常用的分析方法,包括经典的海盗(AARRR)模型、麦肯锡的MECE模型、逻辑树、漏斗分析、路径分析、对比分析、A/B试验、RFM模型、K-Means算法、5W2H等分析方法,还包括各类方法的实践案例及Python实操项目。可以说本书是数据分析方法论与统计学知识、编程语言及应用案例的完美结合。
"阿里云数字新基建系列”包括5本书,涉及Kubernetes、混合云架构、云数据库、CDN原理与流媒体技术、云服务器运维(Windows),囊括了领先的云技术知识与阿里云技术团队独到的实践经验,是国内IT技术图书又一重磅作品。数据库技术,被称为"计算机三驾马车”之一,几十年来,持续支持着全球亿万数字业务的运行,而云计算的出现,赋予了数据库新的能力。云数据库按引擎能力,可以分为关系型数据库、非关系型数据库、数据仓库和分布式新型数据库。本书从技术原理入手,讲解各种数据库的特点,分析不同场景的架构选型和数据库优化,继而展开到云数据库的迁移、云数据库的运维工作,期望能帮助读者了解和掌握云数据库相关知识与技能。
本书共分为四篇。前三篇分别对应数据血缘的理论、实现和应用:第一篇阐明数据血缘的概念,主要介绍有关数据血缘概念的综合知识;第二篇介绍如何实现数据血缘,包括一些关于实现数据血缘的可行性见解和建议;第三篇介绍如何使用数据血缘,利用数据血缘结果实现不同的业务目的。第四篇是关于“构建数据血缘业务案例”的研究,介绍如何将数据血缘落地到业务案例中。本书主要面向数据开发人员和数据管理人员,用于针对数据血缘及其应用领域拓宽思路。本书也适合具有技术背景的数据业务人员参考阅读,便于更好地理解业务需求和数据血缘需求。
利用这本书,你将学习以下内容:了解如何选择Spark转换实现优化的解决方案。探索强大的转换和归约,包括reduceByKey()、combineByKey()和mapPartitions()。理解数据分区以实现优化查询。使用PySpark设计模式构建和应用模型。对图数据应用motif查找算法。使用GraphFrames API分析图数据。对临床医学和基因组数据应用PySpark算法。学习如何在ML算法中使用和应用特征工程。了解并使用实用的数据设计模式。
这是一本关于如何更好、更有效地进行数据可视化的书。本书分为3个部分。第1部分是创建有效可视化的通用指导原则,我们将了解受众的重要性,以及思考哪类图表能更好地契合他们的需求。第2部分是本书的核心部分,我们将定义和讨论80多张图表,这些图表分为八大类:比较、时间、分布、地缘、关系、构成、定性和表格。我们将看到各类图表是如何起作用的,以及它们的优缺点。第3部分整合了两块内容,一是构建数据可视化样式指南,二是如何结合不同的经验对图表进行重新设计。本书将指导你选择最适合展示相关数据的图表,并有效地传递你想传达的信息。
本书结合丰富的案例,清晰地诠释了SQL Server 2019 编程语言与数据库开发涉及的每一个核心概念和技术。全书力求阐述实际开发应用中涉及的SQL Server 2019 的功能组件和管理工具;注重实际操作,采用可视化图解的方式,对SSMS、SSCM 等关键工具的操作步骤进行了详细说明,使得读者能够直观地看到操作过程和操作效果;注重编程技巧,对于核心的T-SQL 操作,在详细介绍其语法、参数后,都会附加案例的高级编程T-SQL 代码,这些T-SQL 代码在笔者的开发环境中都经过严格的调试,读者可以直接用于自己的项目开发实践。 本书可供数据库设计与开发等方向初学者、程序开发人员阅读,也可作为高等院校计算机、软件开发相关专业的教材。
近年来,以ApacheSpark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以ApacheSpark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。本书分9章,主要包含四部分内容。第一部分大数据处理框架的基础知识(第1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分Spark大数据处理框架的核心理论(第3~4章):介绍Spark框架将应用程序转化为逻辑处理的流程,进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分典型的Spark应用(第5章):介绍迭代型的Spark机器学习应用和图计算应用。第四部分大数据处理框架性能和可靠性保障机制(第6~9章):介绍Spark框架的Shuffle机制、数据缓存机制、
本书全面介绍了数据架构与数据建模的相关知识,全书分为4篇,共16章。 第1~3章为数据架构基础篇,介绍了企业架构、数据架构及数据模型的基础概念。第4~9章为数据模型设计篇,介绍了如何通过数据模型记分卡规范化数据模型设计,以及经典数据建模方法论,包括范式建模、维度建模、Data Vault建模、统一星型建模。第10~12章为数据模型落地篇,介绍了在企业中如何实现多人协作构建模型、如何管控数据模型、数据模型数据与数据标准,以及元数据如何形成数据治理闭环。第13~16章为行业数据模型篇,分别介绍了证券、保险、教育、航空业的数据架构及数据模型。 本书既可以作为数据建模人员、数据开发人员的学习用书,也适合非IT专业但对数据有强烈兴趣的业务人员使用,还可以作为高等院校计算机、数学及相关专业的师生用书和培训学校的教材。