全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了 30 多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 如果你是一名创业者,或者你是一名产品开发、产品管理、市场营销、公共关系和投资领域的商务专业人员,那么本书不容错过。
《华为数据之道》 这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、方法论、规范、模型、解决方案和案例,不仅能让读者即学即用,还能让读者了解华为数字化建设的历程。 ============= 《华为数字化转型之道》 本书由华为公司质量与流程IT团队官方出品,从认知、理念、转型框架、规划和落地方法、业务重构、平台构建等多个维度全面总结和阐述了华为自身的数字化转型历程、方法和实践,能为准备开展或正在开展数字化转型的企业提供系统、全面的参考。
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
作为数据仓库和商业智能(DW/BI)行业中有影响力的领军人物,RalphKimball、MargyRoss得到了世界范围内的认可和尊重,他们在《数据仓库与商业智能宝典(第1版)》中确立了行业标准。现在,在《数据仓库与商业智能宝典(第2版)成功设计、部署和维护DW/BI系统》中已经更新了65篇DesignTip和白皮书,从而汇集了DW/BI技术创新前沿的著作。 从项目规划和需求收集,到维度建模、ETL和BI应用,《数据仓库与商业智能宝典(第2版):成功设计、部署和维护DW/BI系统》涵盖了你在数据仓库和商业智能中将会遇到的所有内容。这些无与伦比的文章提供了成功地设计、部署和维护DW/BI系统的重要建议。 启动DW/BI项目和收集需求的注意事项 集成式企业数据仓库的要素,其中包括总线架构和矩阵 事实表的粒度性和三种基本类型 渐变维度技术 星型模式、
看似佛系,其实只是不思进取;在朋友圈假装热爱生活,真实的自我只敢去微博展露;年初列了无数计划,年底全成了打脸的笑话;人前装得无懈可击,活得却比谁都软弱无力 本书作者赵德昊, 毒鸡汤 公众号创始人,凭借《不会偷懒还假装勤奋,怪不得你又累又穷》《你这不是抑郁,是没钱和缺爱的正常表现》《就算朋友遍天下,你还是个nobody》等爆文圈粉无数。 这些热辣酸爽的金句,引起无数年轻人共鸣,也映照出他们在当下焦虑生活中无力挣扎的现实。61篇犀利扎心的硬核文章,不卖情怀只给解药,愿这些狠话能为你打破思维桎桔,重塑人生。 生活虽不易,但请你干万别假装。
本书主要作为教育领域从事教育大数据研究工作者的参考用书。本书从教育大数据的重要意义、国内外教育大数据的研究现状以及政策支持出发,对教育大数据的相关概念和内涵做阐述说明,介绍了教育大数据的技术、技术标准、治理与开放、风险管理与法律政策,重点阐述了教育大数据在教育领域的典型应用,包括教育大数据在课堂教育、校园管理、在线教育、开放远程教育、教育培训行业以及学生综合素质评价等方面的应用,*后提出教育大数据的发展趋势和机遇挑战。
本书介绍Spark应用开发的面向对象和函数式编程概念,讨论RDD和DataFrame基本抽象,讲述如何使用SparkSQL、GraphX和Spark来开发可扩展的、容错的流式应用程序,*后介绍监控、配置、调试、测试和开发等高级主题。通过本书的学习,你将能使用SparkR和PySpark API开发Spark应用程序,使用Zeppelin进行交互式数据分析,使用Alluxio进行内存数据处理,将透彻理解Spark,并能对海量数据执行全栈数据分析,*终成为数据科学家。
本书介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。 本书主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成 DNA 和 RNA 测序。 ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 ■ 推荐算法和成对文档相似性。 ■ 线性回归、Cox回归和 皮尔逊 (Pearson) 相关 分析。 ■ 等位基因频率和 DNA 挖掘。 ■ 社交网络分析(推荐系统、三角形计数和情感分析)。
《深入浅出MySQL:数据库开发、优化与管理维护(第3版)》源自网易公司多位资深数据库专家数年的经验总结和MySQL数据库的使用心得,在之前版本的基础之上,基于MySQL 5.7版本进行了内容升级,同时也对MySQL 8.0的重要功能进行了介绍。除了对原有内容的更新之外,本书还新增了作者在高可用架构、数据库自动化运维,以及数据库中间件方面的实践和积累。 《深入浅出MySQL:数据库开发、优化与管理维护(第3版)》分为 基础篇 开发篇 优化篇 管理维护篇 和 架构篇 5个部分,共32章。基础篇面向MySQL的初学者,介绍了MySQL的安装与配置、SQL基础、MySQL支持的数据类型、MySQL中的运算符、常用函数等内容。开发篇面向的是MySQL设计和开发人员,内容涵盖了表类型(存储引擎)的选择、选择合适的数据类型、字符集、索引的设计和使用、开发常用数据库对象、事务控制和
《小白轻松学Excel数据透视表》 零基础入门,让读者轻松、快速地掌握Excel数据透视表的使用方法和应用技巧。本书为读者提供了一个轻松愉快的阅读学习体验,全彩印刷、版式灵活、颜色清爽、内容优选、案例典型、视频赠送。本书包含大量案例,读者可以边学边练,书中的大多数3级标题以案例名称命名,既便于读者从目录中快速找到相应的案例,又能让读者了解每个知识点、每项技术的实际应用场景,从而实现技术与应用的无缝对接。为了便于读者学习和练习,本书附赠所有案例的源文件和重点案例的多媒体视频教程。 本书适合想要学习Excel数据透视表和从事数据分析工作的读者。如果读者对Excel数据透视表不熟悉或从未使用过Excel,那么学习本书可以让您在短时间内快速掌握数据透视表的使用方法,并使用它来解决实际应用中的问题。对于有一定使用经验的
本书基于 Spark 2.4.X版本,以 Spark商业案例实战和 Spark在生产环境下几乎所有类型的性能调优为核心,以 Spark内核解密为基石,对企业生产环境下的 Spark商业案例与性能调优抽丝剥茧地进行剖析。全书共分 4篇,内核解密篇基于 Spark源码,从一个实战案例入手,循序渐进地全面解析 Spark 2.4.X版本的新特性及 Spark内核源码;商业案例篇选取 Spark开发中*代表性的经典学习案例,在案例中综合介绍 Spark的大数据技术;性能调优篇覆盖 Spark在生产环境下的所有调优技术;Spark AI解密篇讲解深度学习实践、 Spark PyTorch案例实战、Spark TensorFlow实战以及 Spark上的深度学习内核解密。 本书适合所有 Spark学习者和从业人员使用。对于有分布式计算框架应用经验的人员,本书也可作为 Spark高手修炼的参考用书。本书还适合作为高等院校的大数据课程教材。
《从零进阶!数据分析的统计基础》共 6 章,分别讲解了数据分析的步骤和方法、描述性统计分析、抽样估计、假设检验、方差分析、 相关与回归分析,使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概率论等方面 的理论内容,并使用图示的方法详细介绍了使用 Excel 2013 进行简单的描述性统计分析和使用 SPSS 进行相 关的数据分析的过程与结果分析。 《从零进阶!数据分析的统计基础》适合需要提升自身数据分析理论和实践能力的职场新人;在市场营销、金融、财务、人力资源管理 中需要数据分析的人士;从事咨询、研究、分析等的专业人士。也可以作为数据分析师职业培训的教材,普通高等院校非统计专业数据分析的选修教材。 《胸有成竹!数据分析的SAS EG进阶》共5章,涉及使用SAS EG做数据分析的主要分析方法。其中,第1章为数
本书是为“数据结构”课程编写的教材,前面两章介绍数学基础和算法相关预备知识,第3章至第10章介绍常见数据结构的抽象数据类型、算法实现、性能分析及其应用。本书注重全面运用数据结构知识解决实际问题的案例介绍,同时穿插程序设计的技巧。全书采用Java语言作为数据结构和算法的描述语言,介绍JDK中常见的数据结构的实现原理,如ArrayList、LinkedList、HashMap等,对于高效使用这些对象,提高程序性能有指导意义,特别适合Java语言的进阶学习者。本书提供了大量设计精良的代码,且不乏对算法背后所蕴含数学原理的精彩介绍,使读者不仅能够编写出高效、精致的程序,而且达到“知其然,也知其所以然”的效果。
《数据恢复技术深度揭秘》第二版是在版的基础之上增加和充实了服务器磁盘阵列(RAID)的恢复技术,新增了大量实战案例的分析和讲解,并精选书中的部分案例由作者制作成视频教学资料(DVD光盘)随书附赠。本书从逻辑类恢复和物理类恢复两个层面全面讲解当前实用的数据恢复技术。在逻辑类数据恢复方面,内容包括MBR磁盘分区、动态磁盘分区、GPT磁盘分区、Solaris分区、APM分区、BSD分区的恢复技术;Windows平台的FAT32、FAT16文件系统、NTFS文件系统、ExFAT文件系统的恢复技术;UNIX平台的UFS1、UFS2文件系统恢复技术;Apple平台的HFS 文件系统恢复技术;Linux平台的EXT3、EXT4文件系统恢复技术;还包括Windows、UNIX、Apple、Linux平台的RAID-0、RAID-1、RAID -1E、RAID-5、RAID-5EE、RAID-6、HP双循环等磁盘阵列恢复技术。在物理类数据恢复方面,内容包括各大品牌硬盘出现电路故障、磁头
数据工程在过去十年间发展迅速,许多软件工程师、数据科学家和分析师都在寻找相关实践的全面观点。通过这本实践用书,你将学习如何通过评估数据工程生命周期框架中可用的技术来规划和构建系统,以满足你的组织和客户的需求。 作者Joe Reis和Matt Housley将为你介绍数据工程的生命周期,向你展示如何综合运用各种云技术,以满足下游数据消费者的需求。你将理解如何应用数据生成、摄取、编排、转换、存储和治理的概念,无论底层技术是什么,这些概念在任何数据环境中都至关重要。
《中国数据中心运维管理指针》主要针对数据中心运维管理、监控系统、基础设施管理技术,结合《数据中心设计规范》(GB50174-2013),总结了国内外数据中心技术发展情况,从技术、规范、设计及产品应用等方面进行了阐述。本书主要包括以下三个方面的内容:一、数据中心运维管理技术:数据中心运维白皮书简介、数据中心ITIL运维框架、数据中心运维组织架构、数据中心基础设施运维之监控系统、数据中心基础设施运维之日常工作、数据中心基础设施运维之应急处理、数据中心网络运维、数据中心客户服务、数据中心现场运维之基础工作、数据中心基础及应用平台运维、数据中心运维管理工具、数据中心运维质量保障体系、数据中心运维相关认证、数据中心运维之行业实例、数据中心能耗测评、数据中心运维之能效管理、数据中心测试验证和数据中心运维之供
本书基于国内外数据中心建设标准,总结归纳了数据中心规划与设计的理论、方法和实践经验,注重理论与实践相结合,为中国数据中心建设提供全新的理论架构、设计逻辑和方法、评估模型与实践经验。 本书主要内容包括数据中心概述、绿色数据中心的评价指标、网络及物理模型、可靠性/可用性模型、能效和经济模型、基础设施规划、技术要求、选址指南、装饰装修、供配电系统、防雷和接地系统设计、制冷、综合布线系统的建设、消防系统的建设、监控与管理、数据中心的评估。 本书可作为数据中心规划、设计、施工、系统集成、运行维护等管理、技术和建设人员的参考用书,也可作为电子信息行业、高等院校和研究院所相关人员的参考用书。
《数典 : 大数据标准术语体系 : 汉、阿、英、法、德、》名《数典》,定义为大数据标准术语体系,是迄今为止全球全面系统研究大数据标准术语的多语种专业工具书。《数典 : 大数据标准术语体系 : 汉、阿、英、法、德、》以全球语境和未来视角,对大数据知识体系进行了全面梳理,提出了九个方面的术语架构,并以十一种语言对照编纂,形成了统一规范、符合国际通用规则的多语种学术话语体系和术语标准体系。
本书以文本数据处理为核心,从理论到实践介绍了文本数据管理与分析的关键问题,广泛涵盖了信息检索和文本数据挖掘领域的主要概念、技术和方法,并包括许多专门设计并辅以配套软件工具包(例如META)的动手练习,来帮助读者学习如何运用文本挖掘和信息检索的技术来分析和处理现实世界中的文本数据,以及如何试验数据和为具体应用任务来改进一些算法。 具体内容: l 文本信息获取与挖掘基础:统计与概率论、信息论等相关理论和文本数据理解技术。 l 文本信息获取关键技术:信息检索的模型、实现和评价,网络搜索以及推荐系统等。 l 文本挖掘关键技术:文档分类,文档聚类,文本摘要,主题分析,观点挖掘与情感分析,文本与结构化数据联合分析等。 l 文本管理和分析系统:整合信息检索与文本分析技术,结合配套软件工具META,构建统一的
SQL是数据查询的基本语言,Excel是数据分析和展示的很常见工具。两者结合,可以组成一个强大且易于理解的业务数据分析工具。很多类重要的数据分析并不需要复杂且昂贵的数据挖掘工具。答案就在你的电脑桌上。这是一本实用指南,作者Gordon S.Linoff是数据挖掘领域的专家。书中介绍了如何使用SQL和Excel来设计并完成复杂的数据分析。本书的靠前版被广泛认可,第2版涵盖了对SQL和Excel新功能的介绍,同时包括新的技术和实际业务示例。第2版介绍了业务经理和数据分析人员所需掌握的近期新信息。本书首先介绍数据挖掘所用的SQL基础知识,如何使用Excel展示结果,以及用于理解数据的简单的统计学概念。熟悉执行SQL和操作Excel后,本书介绍了核心分析技术。本书内容逐步从基础查询扩展到复杂的应用,使读者能够学习到某种数据分析的使用原因和时机,如何设计和实
为推广数据中心的建设技术,贯彻执行国家标准,本书总结了数据中心供配电系统、空调系统、机柜系统和布线系统的理论和实践经验,阐述了数据中心用电设备对于电能的基本要求,介绍了数据中心环境要求、设备布局、空调系统规划、未来的发展趋势以及数据中心空调系统的评估和优化。
《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都包含两章:前面一章讲述基本概念、代表性算法和评估技术,后面一章较深入地讨论高级概念和算法,目的是使读者在透彻地理解数据挖掘基础的同时,还能了解更多重要的高级主题。《大数据:互联网大规模数据挖掘与分布式处理(第2版)》 源自斯坦福大学 海量数据挖掘 (CS246: Mining Massive Datasets)课程,主要关注极大规模数据的挖掘。主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。两本书都提供了大量示例、图表和习题。
本书从整体上进行了改编、扩展和提升。主题内容也有所延伸,其中包括数据的类型与域、表的比较、映像关系、聚集操作符与汇总、视图更新以及子查询。还特别收录了一个新附录 NoSQL与关系理论。 本书涵盖以下内容: 是否可以编写SQL查询找到在公司每个编程部门都至少工作过一次的员工? 你是否可以确保查询的正确性?为什么恰当的列命名非常重要? 数据库中的null会带来错误的答案。为什么?你又能做什么? 映像关系如何能帮助你表述复杂的SQL查询? 虽然SQL支持 量化比较 ,但是尽量不要使用。为什么?怎样才能避免使用?