本书描述了数据的混杂特性、当前关于首席数据官报告体系的分歧、自适应规划的需求、平衡的实现以及特定的新执行模型;介绍了首席数据官过程改进框架,通过数据管理知识体系和数据管理成熟度模型描述了数据领导者使用的核心概念、技术和策略以及集成;描述了在当前领导者之外维持数据和实践改进所需的关键角色,以及首席数据官在其组织中实施解决方案时可能会面临的问题;*后描述了在公共领域正在进行的工作及将对公共和私营部门产生的影响。通过这本书,有助于首席数据官为他们的组织创造以数据为中心的价值,适合从事大数据、数据管理的人士阅读。
教材系统地介绍文本数据挖掘的相关概念,利用Python作为工具进行相关试验,其内容主要包括:文本挖掘产生的背景及发展;文本挖掘的概念、文本模型表示、文本内容的预处理,包括分词、去停用词以及特征抽取;文本相似度的概念等。介绍文本分类的概念及常用方法,如KNN算法、SVM算法等,并对分类结果进行评价;在介绍文本聚类聚类的概念时是,同样介绍聚类常用算法,如K均值算法、层次聚类法、密度聚类法等,作为有文本分类、文本聚类的应用,*后给出了信息抽取、社会网络中的实体关系抽取和事件抽取。
Power BI是微软推出的商业智能分析工具,它融合了数据准备、数据分析、数据可视化到报告协作分享的整个数据处理流程,帮助用户上手数据分析。 本书从实用的角度出发,结合作者本人的学习经验,从*基础的Power BI架构和操作界面开始,先通过一个小示例体验Power BI的强大和便捷,然后按照数据处理的流程和难易程度,分别介绍数据准备模块Power Query、数据建模以及Power BI数据分析语言DAX、可视化图表制作、丰富的交互方式和报表设计,*后用一个完整的分析示例带读者全面认识Power BI数据处理流程。 不论读者是学生、职场人士还是自由职业者,不论从事的领域是运营、财务、人力、管理还是电商,只要在平时的学习和工作中需要处理大量信息,分析各种数据,你就适合阅读本书学习Power BI,即使之前没有任何基础,它也可以帮你快速上手,提升自身竞争力。
大数据审计已经成为目前审计领域研究与应用的热点。本书按照从常用电子数据审计方法到大数据审计方法的思路,不仅系统地分析了电子数据审计的理论知识(特别是大数据审计),还重点结合实际案例和具体操作,从审计数据采集、审计数据预处理和审计数据分析等电子数据审计的关键步骤出发,系统地分析了如何开展电子数据审计(特别是大数据审计)。附录中设计了9个实验模块(包括3个大数据审计实验模块),满足了开设实验课程的需要。 本书可作为高等院校审计、会计和信息管理等专业的教材,也可作为审计从业人员的专业培训教材和业务学习资料。
本书介绍了数据工程的基本概念和理论基础,围绕数据资源建设的规划和管理问题,介绍数据资源规划和管理的概念、特征、作用和功能,系统介绍了数据资源规划理论的发展过程、核心思想基础、主流方法体系和具体实施步骤,以及数据资源管理涉及的治理、质量、集成等理论知识、支撑平台、关键技术和主流工具。本书内容划分为数据工程基础篇、数据资源规划篇、数据资源管理篇三个部分,其中数据工程基础篇涵盖数据工程概述、数据标准、数据模型等内容,数据资源规划篇涵盖数据资源规划理论、规划方法、需求分析、模型构建、实践与工具等内容,数据资源管理篇涵盖数据治理、数据质量管理、数据集成、数据中台等内容。 本书既可以作为高等院校信息管理与信息系统、信息资源管理、大数据工程以及计算机信息管理等专业本科生的教材,还
本书为 1 X 职业技能等级证书配套教材,按国家 1 X 大数据平台运维职业技能等级标准编写。本书属于大数据平台运维初级教材,从大数据平台运维工程师角度由浅入深、全方位地介绍大数据平台运维的相关基础知识和基本实操。本书共分6个部分18章,*部分为大数据平台安装,涉及平台操作系统的使用、Hadoop平台安装、平台基础环境配置;第二部分为大数据平台配置,涉及Hadoop文件参数配置、Hadoop集群运行;第三部分为大数据平台组件的安装与配置,涉及Hive、HBase、ZooKeeper、Sqoop和Flume组件的安装与配置;第四部分为大数据平台实施,涉及大数据平台实施方案、培训方案;第五部分为大数据平台监控,涉及基于大数据平台的监控命令、监控界面和报表、日志和告警信息监控;第六部分为大数据运维综合实战案例,以实际项目为例介绍从平台部署、数据业务采集、数据
强化学习是一类重要的机器学习方法,在很多领域得到了成功的应用,*近几年与深度学习结合起来,进一步推动了人工智能的发展?本书首先介绍了强化学习的基本原理,然后介绍典型的强化学习算法,包括时序差分? SARSA? Q-Learning? DeepQ-network? Double DQN?竞争网络结构? Rainbow? Actor-Critic? A2C? A3C? TRPO和PPO等,每种算法基本上利用了主流的开源机器学习框架TensorFlow,使用Python编程进行实现?此外,还介绍了一些上述算法的应用?本书可以使读者快速理解强化学习的基本知识,并通过简单的案例加深对算法的理解?本书适合对强化学习感兴趣的普通高校师生以及相关专业人员阅读? Copyright ? Packt Publishing 2018First published in the English language under the title “Deep Learning with TensorFlow-SecondEdition- ( 9781788831109)” Copyright in the Chinese language( simplified characters) ? 2020 China Machine PreesThis title is published in China b
大数据导论是了解和学习大数据的基础,本书系统地讲解了大数据基本概念、大数据的架构、大数 据的采集方式和预处理、数据仓库的构建模式、大数据的存储,数据挖掘的方法及大数据的可视化技术, 从而更好地将大数据技术应用在各行业领域,更深入地开展大数据技术的应用研究。从基础开始,由浅 入深进行学习,逐步理清大数据的核心技术和发展趋势。 本书系统地讲解了大数据基本概念,尽可能希望通过理论与实际案例相结合,寻找合适的切入点, 让读者对理论知识的掌握更直接、更快速。可以作为培养应用型人才的课程教材,也适用于大数据初学 者对大数据基础理论有需求的广大读者。
本书系统地介绍了图数据库的历史由来、建模方法、工作原理和一些真实的用户用例,详细地说明了图数据解决的是什么样的问题,并以Neo4j数据库和Cypher查询语言为例,阐述了图数据库的建模方法和领域用例,还介绍了图数据库的工作原理以及一些实用的图论算法。本书适合开发人员和数据库管理人员了解和学习图数据库时阅读,作为一门新的知识和独特的数据库领域来拓宽视野,也适合提供解决方案的负责人了解行业动向和新的解决问题的方式。通过阅读本书,读者可以对图数据库这一领域有一个透彻的了解。
Kibana是广泛地应用在数据检*和数据可视化领域的ELK中的一员。本书专门介绍Kibana,通过不同的用例场景,带领读者全面体验Kibana的可视化功能。全书共9章,主要包括数据驱动架构简介、安装和配置Kibana 5.0、用Kibana进行业务分析、用Kibana进行日志分析、用Kibana和Metricbeat进行指标分析、探*Kibana中的Graph、定制Kibana的Timelion、用Kibana进行异常检测、为Kibana开发自定义插件等内容。书中包括丰富的示例,可以帮助读者解决各种常见的数据可视化问题。本书适合想要学习如何用Elastic Stack部署数据驱动架构,特别是如何用Kibana对那些Elasticsearch*引的数据进行可视化的开发人员、运维团队、业务分析师和数据架构师阅读。
《数据分析思维与可视化》以实用为设计理念,并结合数据分析相关理论,系统地介绍了数据分析的相关内容,包括电商数据分析概述、数据分析业务指标、数据准备与处理、数据分析常用方法、常用数据分析工具、数据可视化、数据图表专业化、撰写数据分析报告等,能够帮助读者掌握数据分析的整个流程。 《数据分析思维与可视化》附有配套的教学PPT、题库、教学视频、教学设计等相关资源。同时,为了帮助初学者及时地解决学习过程中遇到的问题,还提供了专业的在线答疑平台。 《数据分析思维与可视化》可作为高等院校本、专科相关专业的数据分析课程的教材,也可作为企业数据分析岗位培训教材。
本书使用MPI标准介绍了数据科学中的高性能计算,帮助读者了解分布式存储模型中的并行编程的知识。全书分为两部分,*部分(第1~6章)基于消息传递接口介绍高性能计算,内容包括:阻塞与非阻塞的点对点通信、死锁、全局通信函数(广播、散播等)、协同计算(归约)的基本概念;互联网络的拓扑结构(环、环面和超立方体)以及相应的全局通信程序;基于分布式内存的并行排序及其实现,涵盖相关并行线性代数知识;MapReduce模型。第二部分(第7~11章)介绍计算机集群中的高性能数据分析,内容包括:数据聚类技术(平面划分聚类、层次聚类);基于k-NN的有监督分类;核心集以及相关降维技术;图算法(稠密子图、图同构检测)。每章章末附有各种难度的练习和参考文献,可供读者进行自测和深入学习。本书适合作为“高性能计算”相关课程的本科生教材。
本书详细介绍了一*大数据应用案例 电影推荐系统(Scala版),案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA、Spring等系统和软件的安装与使用方法。案例采用的编程语言是Scala和Java。
《大数据真相 谁动了我的数据》由浪潮集团广东区云事业部总经理杨绪宾编著,书中依据目前个人大数据利用的乱象系统阐述了个人大数据的概念、财产属性、权力属性,以及如何保证数据安全、数据如何量化、实现数据共享和未来数据权利如何分配等内容,跨越经济、社会、文化和法律制度、IT设计、土地开发及系统建设等多个主题。 书中提出了开发 数说 APP的概念,展现数据采集、整合、分类、赋值、交易等思路,结合区块链技术对个人数据进行存储和价值*化处理,并对实现数字永生的未来世界进行展望。本书围绕着个人大数据系统提出了个人数据的概念、财产属性、权力属性、数据安全、数据量化、数据共享和未来的 数据 等方面的内容,跨越经济、社会、文化和法律制度,以及IT设计、城市规划、土地开发、系统建设等诸多领域。作者作为IT行业和城市
《数据素养:数据使用者指南》是一本实用的数据分析和数据素养指南。我们在数据的海洋中遨游,这本书教会我们洞悉数据的意义,识别数据中的陷阱,而非被数据淹没。本书面向那些没有数据分析或者统计学背景的数据领域初学者,使用面向公众开放的数据源来练习Excel软件的各项分析模块,并借此展现如何从数据中洞察有用的信息。在本书的不同章节中,作者借用大量插图、带有详细操作步骤的各式案例来帮助读者学习如何识别、获取、评估、清洗、分析和可视化数据。在此基础上,作者提及数据库管理软件Microsoft Access和MYSQL,数据分析软件SPSS、SAS和R等更复杂的工具,供读者进一步学习参考。
本书概要介绍了如何使用Hadoop和Spark处理数据科学涉及的一系列主题:数据提取、数据再加工(datamunging,通常包含数据清洗和整合)、特征提取、机器学习、预测建模、异常检测和自然语言处理。整书侧重于具体的例子,并通过不同方式来提供对商业价值的洞察,全书共分三部分,第 一部分包括第1、2、3章,第二部分包括第4、5、6章,第三部分包括第7、8、9、10、11、12章,后在附录中提供了本书参考材料。
本书以数据库应用系统实现为线索,内容除数据库技术外,还涵盖系统分析、设计、开发和部署方法,并引入 互联网 思维和热点技术。全书以一个完整的 e学习 系统实际案例驱动,采用MySQL和ASP.NET为实验环境,帮助读者通过实际应用理解数据库应用系统的相关知识和开发方法,掌握实践技能,综合运用前沿信息技术实现领域创新应用。本书提供丰富的教学资源,可以登录华信教育资源网(www.hxedu.com.cn)免费获取相关资源包,也可以扫描书中的二维码获取相关资源或观看演示视频。本书通俗易懂、实例鲜活、技术先进,可作为各类高等学校数据库技术、信息系统设计的入门教材,或者作为计算机基础教育较高层次课程的教材,也可以作为数据库应用系统开发实践的技术参考书。
本书部分是基础篇(第1~7章)主要讲解数据库的基础知识。第二部分是设计篇(第8~10章)主要内容包括关系数据库规范化理论、实体联系模型以及数据库设计。第三部分是“系统篇(第11~14章)内容包括安全管理、查询处理与查询优化技术等。第四部分是“发展篇”(第15章和16章)主要讲解数据库前沿技术的概念及应用。
如今,海量的数据无处不在,从数据中提取关键信息的能力显得愈发重要。本书从崭新的视角认识大数据,研究了钢铁行业中的典型大数据案例,为读者提供进行数据网络分析、数据中有效信息提取的详细步骤和指导方法。特别是在网络分析方法方面,对数据采集、研究方法设计及分析、数据结果呈现进行了介绍。同时,介绍了相关网络分析软件:UCINET、NetMiner、R、NodeXL及Gephi。本书适合分析师、研究工程师、工业工程师、市场营销专家,以及对大数据分析感兴趣的人员阅读与参考。
本书详细介绍了大数据挖掘技术,全书分为3篇,共12章。第1篇为大数据分析基础,包括第1~4章,分别为大数据概述、大数据相关技术、数据预处理、R语言工具的使用。第2篇为大数据挖掘技术,包括第5~11章,分别为线性分类方法、分类方法、聚类分析、关联规则、预测方法与离群点诊断、时间序列分析、大数据挖掘可视化。第3篇为大数据挖掘案例,包括第12章,介绍了大数据挖掘应用案例。本书既可作为高等学校计算机科学与技术、数据科学与大数据技术、统计学、数据分析等专业的高等教育教材,也可作为科研人员、从事大数据相关工作的技术人员的参考书。
本书为“1+X”职业技能等级证书配套教材,按 1+X 证书制度试点大数据平台运维职业技能等级标准编写。本书从大数据平台运维工程师的角度,由浅入深、 地介绍了大数据平台运维的相关实践知识和核心实操。本书共六部分,包括21章: 部分,大数据平台架构,涉及大数据的特点及发展趋势、大数据的实施和运维流程、大数据的应用场景与案例;第二部分,大数据平台高可用(HA)集群部署,涉及Hadoop集群基础环境的配置、Hadoop HA集群的配置、Hadoop HA集群的启动;第三部分,大数据组件的维护,涉及HBase组件的维护、Hive组件的维护、ZooKeeper组件的维护、ETL组件的维护、Spark组件的维护;第四部分,大数据平台优化,涉及Linux系统优化、HDFS配置优化、MapReduce配置优化、Spark配置优化;第五部分,大数据平台的诊断与处理,涉及Hadoop及生态圈组件负载均衡的诊断与处理、