阅读本书可以学习使用Python对数据集进行操作、处理、清洗和规整。第3版针对Python3.10和pandas1.4进行了更新,并通过实操讲解和实际案例向读者展示了如何高效地解决一系列数据分析问题。读者将在阅读过程中学习新版本的pandas、NumPy、IPython和Jupyter。 本书作者Wes McKinney是Python pandas项目的创始人。本书对Python数据科学工具的介绍既贴近实战又内容新颗,非常适合刚开始学习Python的数据分析师或刚开始学习数据科学和科学计算的Python程序员阅读。读者可以从GitHub获取数据文件和相关资料。 学完本书,你将能够: ·使用Jupyter notebook和IPython shell进行探索性计算。 ·掌握NumPy的基础功能和高级功能。 ·掌握pandas库中的数据分析工具。 ·使用灵活的工具对数据进行加载、清洗、转换、合并和重塑。 ·使用matplotlib进行信息可视化。 ·使用pandas的groupBy功能对数据集进行切片、切
本书根据PL/SQL的新版本进行了全面更新,涵盖从基础语法、程序控制到最新的优化和调优增强等方面的知识,通过真实的实验、大量的示例讲解了PL/SQL技能,是一本逐步分解的、详尽的PL/SQL编程教程。读者可以按照本书的步骤一步一步地完成每一个关键任务,掌握Oracle 21c PL/SQL编程技术,深度探索PL/SQL编程技术及最佳实践。本书既适合新手数据库开发人员和DBA阅读,也适合有一定经验的从业人员阅读。
这是一本关于如何更好、更有效地进行数据可视化的书。本书分为3个部分。第1部分是创建有效可视化的通用指导原则,我们将了解受众的重要性,以及思考哪类图表能更好地契合他们的需求。第2部分是本书的核心部分,我们将定义和讨论80多张图表,这些图表分为八大类:比较、时间、分布、地缘、关系、构成、定性和表格。我们将看到各类图表是如何起作用的,以及它们的优缺点。第3部分整合了两块内容,一是构建数据可视化样式指南,二是如何结合不同的经验对图表进行重新设计。本书将指导你选择最适合展示相关数据的图表,并有效地传递你想传达的信息。
Python是一种面向对象的脚本语言,其代码简洁优美,类库丰富,开发效率也很高,得到越来越多开发者的喜爱,广泛应用于Web开发、网络编程、爬虫开发、自动化运维、云计算、人工智能、科学计算等领域。预测技术在当今智能分析及其应用领域中发挥着重要作用,也是大数据时代的核心价值所在。随着AI技术的进一步深化,预测技术将更好地支撑复杂场景下的预测需求,其商业价值不言而喻。基于Python来做预测,不仅能够在业务上快速落地,还让代码维护更加方便。对预测原理的深度剖析和算法的细致解读,是本书的一大亮点。本书共分为3篇。第1篇介绍预测基础,主要包括预测概念理解、预测方法论、分析方法、特征技术、模型优化及评价,读者通过这部分内容的学习,可以掌握预测的基本步骤和方法思路。第2篇介绍预测算法,该部分包含多元回归分析、复杂
商业分析有用吗?当然有用!商业分析是行走职场、创业启航的一项推荐技能。作者结合自己多年的工作经验,用生动的语言介绍如何用数据分析解决商业问题。本书分为6篇,共17章,其中第1篇是概念篇,讲述商业分析的基本概念;第2篇是基础篇,讲述如何用基础的分析方法评估企业经营状况;第3篇是进阶篇,讲述如何构建分析体系解决较复杂的问题;第4篇是高阶篇,讲述如何应对复杂的商业难题;第5篇是基础实践篇,通过案例讲述如何解决更复杂的商业问题;第6篇是高阶实践篇,通过案例讲述如何解决商业分析中的疑难杂症。本书的讲解思路是层层递进的,从简单场景到复杂场景,从基础的方法到复杂的方法。因此,无论读者是否有数据分析基础和经验,都建议从头开始阅读,这样可以一步步提升认知,更快地掌握商业分析的方法。
《深入浅出数据分析》以类似"章回小说”的活泼形式,生动地向读者展现出色的数据分析人员应知应会的技术:数据分析基本步骤、实验方法、优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧;正文之后,意犹未尽地以三篇附录介绍数据分析十大要务、R工具及ToolPak工具,在充分展现目标知识以外,为读者搭建了走向深入研究的桥梁。
本书深入探讨了大数据技术的核心概念和实际应用。从大数据的基础架构Hadoop开始,逐步解析了分布式协调服务Zookeeper、数据仓库Hive、面向列的数据库HBase等关键技术。此外,还介绍了数据迁移工具Sqoop、数据采集工具Flume、发布订阅消息系统Kafka等实用工具。本书还深入讲解了数据处理分析引擎Spark、全文搜索引擎Elasticsearch及分布式处理引擎Flink的工作原理和应用实例。最后,通过电商推荐系统实战和Flink实现电商用户行为分析两个案例,展示了大数据技术在实际业务中的应用。本书附带全书实例源代码、电子版本教程(下载方式见封底),以及可扫码观看的长达13个小时的部分实例操作视频,帮助读者更深入了解大数据技术的具体内容,非常适合对大数据技术感兴趣的读者,尤其是想要深入了解大数据技术原理和应用的开发者和管理者阅读。
在大数据时代,我们并不缺少数据,缺少的是利用数据分析的思维和工具去解决实际问题的能力。数据化分析是运用恰当的方法和工具,对数据进行科学、有效的分析,从而提出有理有据、具有可操作性的建议,以解决现实中的难题。本书主要介绍了数据分析的9 种思维、7 种工具、学习方法、基本方法、展现方法、制作数据分析报告的方法,以及数据分析的思维模型。本书适合所有对数据分析感兴趣的读者阅读,特别是在工作或生活中需要经常跟数据接触的人,如数据分析师、产品经理、运营人员、管理人员、财务人员等。
本书详细介绍了Oracle、MySQL、PostgreSQL、SQL Server、DB2等各种关系数据库的SQL查询技巧和一些基础的SQL查询语句,并且通过短小精悍的实例,不仅讲解了如何插入、更新和删除数据,还介绍了如何检索记录、为查询结果排序、同时操作多张数据库表、查询元数据、处理涉及字符串和数值的操作、根据时间数据和日期数据进行运算、执行层次查询和区间查询等。随着多种SQL实现大量采用窗口函数,本书第2版针对相关实例做了优化,还新增了为数据科学家和算法工程师量身定制的实例。本书适合数据分析师、数据库管理员以及与SQL打交道的数据科学家和算法工程师阅读。
《企业级数据架构:核心要素、架构模型、数据管理与平台搭建》由李杨著
本书分为以下几个主要部分:第1-3章介绍方法和技术。在这些章节中,我们描述了一种性能调优方法。还提供了一些关于MongoDB架构和MongoDB提供的用于调查、监控和诊断MongoDB性能的工具的背景知识。第4章和第5章介绍应用程序和数据库设计。第6-10章介绍应用程序代码的优化。第11-14章讨论MongoDB服务器及其运行硬件的优化。
本书介绍了如何使用 Python 实现企业级的大数据全栈式开发、设计和编程工作,涉及的知识点包括数据架构整体设计、数据源和数据采集、数据同步、消息队列、关系数据库、NoSQL 数据库、批处理、流处理、图计算、人工智能、数据产品开发。 本书既深入浅出地介绍了不同技术组件的基本原理,又通过详细对比介绍了如何根据不同场景选择很好实践技术方案,并通过代码实操帮助读者快速掌握常用技术的应用过程,最后通过项目案例介绍了如何将所学知识应用于实际业务场景中。
本书全面介绍了预测性分析相关方法,不仅直观地阐述了相关概念,还给出了现实的示例问题和真实的案例研究—包括从失败项目获得的经验教训。本书理论和实践内容相对平衡,便于读者加深理解。全书共9章,外加一个附录。第1章为分析导论,第2章为预测性分析和数据挖掘导论,第3章介绍预测性分析的标准流程,第4章介绍预测性分析的数据和方法,第5章介绍预测性分析算法,第6章探讨预测性建模中的高阶主题,第7章介绍文本分析、主题建模和情感分析,第8章介绍预测性分析使用的大数据,第9章介绍深度学习和认知计算,附录展望了商业分析和数据科学工具的前景。本书适合计算机科学、数据科学和商业分析领域的相关从业人员阅读。
本书紧密结合当前边缘计算领域近期新的发展趋势与研究成果,本着务实具体、详略得当、启发创新的指导思想,系统、全面地介绍了边缘计算的原理与应用,包括基本概念、架构原理、核心技术、主要研究方向与挑战,以及多个应用的近期新研究进展。撰写本书时最艰难的是选择从哪些应用视角来讲述边缘计算。最终,我们选择了计算卸载、服务部署、视频分析、模型推断、联邦学习等当下应用最为广泛的若干应用进行了阐述。
本书提供了学习大数据技术及架构的一站式解决方案,覆盖了大数据生态圈中的完整技术体系,包括数据采集、数据存储、分布式资源管理、数据计算、数据分析、任务调度、数据检索、大数据底层基础技术和大数据集群安装与管理。 本书还介绍了多个企业级大数据应用案例(包括海量数据采集、“双十一”数据大屏、海量数据全文搜索系统等)和大数据平台架构案例(包括离线数据仓库架构、实时数据仓库架构、批流一体化数据仓库架构、数据中台架构、直播大数据平台架构、电商大数据平台架构等),可以帮助读者从全局角度理解大数据。 在本书中,技术内容基本上都是从零讲起的,结合原理和架构,以“图解+实战”的形式帮助读者轻松理解复杂的知识。 本书适合对大数据感兴趣的开发人员。无论读者是否接触过大数据开发,只要具备一定的Java开发
在数字中国这一国家战略的牵引下,数据要素和数字化转型的研究和落地如火如荼。数据中台是企业开展数据要素相关实践和数字化转型的关键基础设施,本书在这样的时代背景下,以帮助企业“管好数据、用好数据”为宗旨,内容围绕数据中台架构与建设方法论、数据中台建设流程和内容、数据中台工程化交付、数据中台行业解决方案4个维度全面、深度展开。 本书一共17章,逻辑上分为四个部分: *第1部分数据中台建设方法与架构设计(第1~3章) 首先,从产生、定义、认知、相关概念、建设方法论、架构等方面对数据中台进行了全面介绍,帮助读者建立对数据中台的清晰认识和理解,熟悉数据中台的建设机制;然后,总结了企业数据应用成熟度评估、数据中台在各个行业的应用场景,以及数据中台的成功要素。 *第2部分数据中台建设内容与运营方法(第4~10章)
本书根据PL/SQL的新版本进行了全面更新,涵盖从基础语法、程序控制到近期新的优化和调优增强等方面的知识,通过真实的实验、大量的示例讲解了PL/SQL技能,是一本逐步分解的、详尽的PL/SQL编程教程。读者可以按照本书的步骤一步一步地完成每一个关键任务,掌握Oracle 21c PL/SQL编程技术,深度探索PL/SQL编程技术及很好实践。本书既适合新手数据库开发人员和DBA阅读,也适合有一定经验的从业人员阅读。
这是一本从OLAP核心概念出发,以Presto为例,从整体执行流程到不同SQL的执行原理,完整呈现OLAP查询的核心流程和OLAP引擎设计思路,并指导读者形成OLAP引擎设计解决方案的专业技术工具书。本书不仅面向初级读者介绍了OLAP查询的基本原理和Presto使用方法,还从源码级剖析了OLAP引擎核心原理,包括SQL查询解析器、优化器、调度器、执行器等核心组件,并将内容扩展到OLAP引擎的常见高性能优化方案上。全书由浅入深,图文并茂,把晦涩难懂的内容讲解得透彻易懂。本书分为6篇,包括14章。第一篇(第1章和第2章)总体介绍业界常见的OLAP引擎并分析其优劣,讨论OLAP引擎的技术发展趋势及选型方法,介绍Presto背景知识及其使用方法、技巧。第二篇(第3章和第4章)串讲OLAP查询执行的整个过程,并概要性介绍查询解析器、优化器、调度器、执行器等核心模块的工作原理,
本书教你如何从基于时间的数据(如日志、客户分析和其他事件流)中获得即时、有意义的预测。在这本通俗易懂的书中,作者通过带有注释的Python代码进行全面演示,你将学习用于时间序列预测的统计和深度学习方法。通过跟随书中的实例锻炼你的技能,你很快就会准备好建立自己的准确、有洞察力的预测。
本书由国内资深MySQL专家亲自执笔,国内外多位数据库专家联袂推荐。作为国内专享一本关于InnoDB的专著,本书的第1版广受好评,第2版不仅针对近期新的MySQL 5.6对相关内容进行了全面的补充,还根据广大读者的反馈意见对第1版中存在的不足进行了完善,全书大约重写了50%的内容。本书从源代码的角度深度解析了InnoDB的体系结构、实现原理、工作机制,并给出了大量很好实践,能帮助你系统而深入地掌握InnoDB,更重要的是,它能为你设计管理高性能、高可用的数据库系统提供不错的指导。 全书一共10章,首先宏观地介绍了MySQL的体系结构和各种常见的存储引擎以及它们之间的比较;接着以InnoDB的内部实现为切入点,逐一详细讲解了InnoDB存储引擎内部的各个功能模块的实现原理,包括InnoDB存储引擎的体系结构、内存中的数据结构、基于InnoDB存储引擎的表和页的物理存