本书由一线数据分析师精心编写,通过大量案例介绍了数据分析工作中常用的数据分析方法与工具。本书包括5章内容,分别是数据分析入门、数据分析 从玩转Excel开始、海量数据管理 拿MySQL说事儿、数据可视化 Tableau的使用、数据分析进阶 Python数据分析。本书通俗易懂、通过大量贴近企业真实场景的案例,帮助读者在提高数据处理技能的同时加深对数据分析思维的理解。 本书适合有志于从事数据分析工作或已从事初级数据分析工作的人士自学,也可作为产品经理、运营人员、市场人员、对数据分析感兴趣的企业高管以及创业者的参考用书。
本书从数据库角度全面系统地介绍数据挖掘的概念、方法和技术以及技术研究进展,并重点关注近年来该领域重要和 新的课题——数据仓库和数据立方体技术,流数据挖掘,社会化网络挖掘,空间、多媒体和其他复杂数据挖掘。本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都的一本书。
SQL是使用最广泛的数据库语言,绝大多数重要的DBMS支持SQL。本书由浅入深地讲解了SQL的基本概念和语法,涉及数据的排序、过滤和分组,以及表、视图、联结、子查询、游标、存储过程和触发器等内容,实例丰富,便于查阅。新版对书中的案例进行了全面的更新,并增加了章后挑战题,便于读者巩固所学知识。
教材系统地介绍文本数据挖掘的相关概念,利用Python作为工具进行相关试验,其内容主要包括:文本挖掘产生的背景及发展;文本挖掘的概念、文本模型表示、文本内容的预处理,包括分词、去停用词以及特征抽取;文本相似度的概念等。介绍文本分类的概念及常用方法,如KNN算法、SVM算法等,并对分类结果进行评价;在介绍文本聚类聚类的概念时是,同样介绍聚类常用算法,如K均值算法、层次聚类法、密度聚类法等,作为有文本分类、文本聚类的应用,*后给出了信息抽取、社会网络中的实体关系抽取和事件抽取。
本书与以往统计学中的概率论略有不同,添加了一些复杂数据类型的概率基础知识和模拟计算中的相关概率知识。具体安排如下所述。本书共分6章。第1章为概率与计数,基本内容是随机事件、概率空间、计数方法、概率的确定方法。第2章为条件概率,基本内容是条件概率与乘法公式、事件的独立性、全概率公式与贝叶斯公式。第3章为随机变量,基本内容是随机变量及其分布函数、随机变量的分类、二维随机向量、随机变量的独立性、随机变量函数的分布。第4章为常用的概率分布,基本内容是常用的离散型随机变量、常用的连续型随机变量、随机数的产生。第5章为随机变量的数字特征,基本内容是数学期望、方差和协方差、矩和矩母函数、条件期望。第6章为不等式和极限定理,基本内容是概率不等式、大数定律及其应用、中心极限定理。
内容介绍 本书从业务、数据、运营3个维度为电商的经营和决策提供了科学的方法论,是一部电商运营真经,真正做到了“业务中有数据,数据中有运营”。作者是资深的电商行业专家,从事电商数据分析与数据化运营10余年,本书是他在多个知名电商品牌操盘多个千万级项目的经验总结。 为了增强本书的趣味性和读者的角色代入感,本书采用了纪实和叙事的写作手法,书中虚拟了3个核心人物: ?Alex:临危受命、勇挑重担、运筹帷幄的BI部门经理(资深数据分析师)。 ?叶子:有电商行业从业经验但是不懂数据分析的业务员。 ?大白:从其他行业转型到电商行业的数据分析师。 全书有两条主线: ?暗线:叶子和大白在Alex的指导和帮助下成长为“精业务、精数据、精运营”的“三精”数据分析师的经历,这对数据分析师的职业规划和成长有重要借鉴意义。 ?明线:Alex将
数据湖仓是一个现代化的开放式架构,拥有当今热门的开源数据技术的广度和灵活性。本书从初学者的角度出发,通过对数据湖仓重要概念的剖析,对数据湖仓的相关知识进行深入浅出的讲解。全书共18章,对数据湖仓的基础知识、数据工程、业务价值、数据集成等方面进行深入探讨,同时展望数据架构的演化趋势,使读者能够领会数据湖仓的精髓,最终轻松、全面地管理数据湖仓项目。 本书适合数据架构师、业务人员和系统开发人员,以及对数据管理、数据分析感兴趣的读者阅读。
本书系统讲述数据仓库的基本概念、基本原理以及建立数据仓库的方法和过程。主要内容包括:决策支持系统的发展、数据仓库环境结构、数据仓库设计、数据仓库粒度划分、数据仓库技术、分布式数据仓库、ElS系统和数据仓库的关系,外部和非结构化数据与数据仓库的关系、数据装载问题、数据仓库与Web、ERP与数据仓库以及数据仓库设计的复查要目。 本书是数据仓库之父撰写的关于数据仓库的 权威著作,既可作为相关专业的研究生教材,也是数据仓库的研究、开发和管理人员的指南。
算力、数据、AI已经成为驱动当今社会技术发展的三架马车,而算力也从传统的超级计算向云超算的方向发展。本书旨在探讨当前超级计算与云计算的融合而给算力带来的新的发展,介绍当前在算力领域的一些实践和探索,从理论到工程,帮助读者了解超级计算的关键技术与未来发展,从而更好地应用和发展高性能技术。
这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、方法论、规范、模型、解决方案和案例,不仅能让读者即学即用,还能让读者了解华为数字化建设的历程。 全书共10章,内容从逻辑上分为四个部分。 第一部分(第1~3章) 第1章以非数字原生企业在数字化转型方面面临的挑战开篇,介绍了华为在数据治理和数字化转型方面的目标、愿景、蓝图和框架;第2章从企业政策和架构协同的角度,介绍了企业级的数据综合治理体系,理顺了数据与变革、运营、IT之间的协同关系,明确了数据管理的责任主体在业务;第3章详细阐述了不同类型的数据的管理方式和
部分(第1~4章)为基础和背景部分,主要介绍数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的本质,以及实践中常见分析项目类型的介绍。第二部分(第6~13章)是数据分析挖掘中的具体技巧和案例分享部分,主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示。第三部分(第5章,第14~19章)是有关数据分析师的责任、意识、思维的培养和提升的总结和探索,以及一些有效的项目质控制度和经典的方法论介绍。
Elasticsearch是一款高性能的文档数据库,广泛应用于分布式搜索和分析引擎等相关领域,本书首先介绍了数据建模的通用设计原理,然后针对Elasticsearch 介绍了文档数据库建模的特点和要求,例如和设计模式有关的实现、注意事项,以及实践过程中的注意点等。 本书的两位作者,一位是资深的Elasticsearch 专家,一位是建模领域的大师,联合为读者呈现了这本著作。如果你是一名希望扩展Elasticsearch 建模技能的读者,或者是一名了解Elasticsearch 但需要提高模式设计技能的从业人员,推荐阅读本书。
本书是一本系统介绍Clickhouse的指导型工具书,全书总共分为11章: 第1章 介绍ClickHouse的由来、发展历程、核心特点与核心特点。第2~6章 介绍了ClickHouse基础使用部分,包括整体架构、如何安装、数据定义、数据引擎、数据查询和函数的特性和使用方法。第7~9章介绍了ClickHouse高级特性部分,包括数据库管理操作,数据分片、数据副本和高可用的特性和使用方法。第10~11章介绍了如果自己手动实现ClickHouse中间件的思路和示例,同时也介绍了几款可视化工具与ClickHouse集成的方法。
本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
了解数据结构与算法是透彻理解计算机科学的前提。随着Python日益广泛的应用,Python程序员需要实现与传统的面向对象编程语言相似的数据结构与算法。本书是用Python描述数据结构与算法的开山之作,汇聚了作者多年的实战经验,向读者透彻讲解在Python环境下,如何通过一系列存储机制有效地实现各类算法。通过本书,读者将深刻理解Python数据结构、递归、搜索、排序、树与图的应用,等等。这一版重写了书中的示例代码,并对诸多内容做了修正。
大数据审计已经成为目前审计领域研究与应用的热点。本书按照从常用电子数据审计方法到大数据审计方法的思路,不仅系统地分析了电子数据审计的理论知识(特别是大数据审计),还重点结合实际案例和具体操作,从审计数据采集、审计数据预处理和审计数据分析等电子数据审计的关键步骤出发,系统地分析了如何开展电子数据审计(特别是大数据审计)。附录中设计了9个实验模块(包括3个大数据审计实验模块),满足了开设实验课程的需要。 本书可作为高等院校审计、会计和信息管理等专业的教材,也可作为审计从业人员的专业培训教材和业务学习资料。
本书通过选购笔记本电脑的案例引入数据包络分析(dataenvelopmentanalysis,DEA)的基本概念和模型,并运用简单的EXCEL模型让读者更易理解和运用DEA。本书着重阐述如何将DEA作为一种运营分析工具,进行绩效评估,找出基准标杆。探讨的主题包括:平衡的基准,昀佳实践,相对效率的概念及绩效提升。特别地,本书探讨的数据分析方法能够帮助一个组织重新审视它对生产效率高低的已有观点是否合理,并为组织不断改进提供指导。本书是市面上唯一本不要求读者具备线性规划和线性代数知识,就可以熟练应用DEA方法的DEA方法指导用书。
本书将现代统计学的重要思想引入数理统计课程中,强调了数据分析、图形工具和计算机技术,并注重统计的实务和应用.本书内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法,主要包括概率、*变量、联合分布、期望、极限定理、抽样调查、参数估计、假设检验、数据汇总、两样本比较、方差分析、分类数据分析和线性小二乘等. 本书用真实数据分析了实际问题,以此增强读者对理论的理解;作者将自助方法与传统的推论性过程结合起来,增加了蒙特卡罗方法.此外,为了使概念更清晰,书中提供了大量的示例,而且还有丰富的习题,以增强读者的计算能力. 本书适合作为统计学、数学、其他理工科专业以及社会科学和经济学专业高年级本科生和低年级研究生的教材,同时也可供相关领域技术人员参考.