全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了 30 多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 如果你是一名创业者,或者你是一名产品开发、产品管理、市场营销、公共关系和投资领域的商务专业人员,那么本书不容错过。
《华为数据之道》 这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、方法论、规范、模型、解决方案和案例,不仅能让读者即学即用,还能让读者了解华为数字化建设的历程。 ============= 《华为数字化转型之道》 本书由华为公司质量与流程IT团队官方出品,从认知、理念、转型框架、规划和落地方法、业务重构、平台构建等多个维度全面总结和阐述了华为自身的数字化转型历程、方法和实践,能为准备开展或正在开展数字化转型的企业提供系统、全面的参考。
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
看似佛系,其实只是不思进取;在朋友圈假装热爱生活,真实的自我只敢去微博展露;年初列了无数计划,年底全成了打脸的笑话;人前装得无懈可击,活得却比谁都软弱无力 本书作者赵德昊, 毒鸡汤 公众号创始人,凭借《不会偷懒还假装勤奋,怪不得你又累又穷》《你这不是抑郁,是没钱和缺爱的正常表现》《就算朋友遍天下,你还是个nobody》等爆文圈粉无数。 这些热辣酸爽的金句,引起无数年轻人共鸣,也映照出他们在当下焦虑生活中无力挣扎的现实。61篇犀利扎心的硬核文章,不卖情怀只给解药,愿这些狠话能为你打破思维桎桔,重塑人生。 生活虽不易,但请你干万别假装。
本书介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。 本书主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成 DNA 和 RNA 测序。 ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 ■ 推荐算法和成对文档相似性。 ■ 线性回归、Cox回归和 皮尔逊 (Pearson) 相关 分析。 ■ 等位基因频率和 DNA 挖掘。 ■ 社交网络分析(推荐系统、三角形计数和情感分析)。
本书试图较全面地介绍大数据技术的基本原理和方法,包括以统计模型为主的各类数据模型以及它们的计算方法,同时还将介绍这些方法在一些领域(如人工智能)中的应用。
本书中文版分为基础篇和进阶篇,深入探讨了数据挖掘的各个方面,从基础知识到复杂的数据类型及其应用,涉及数据挖掘的各种问题领域。它超越了传统上对数据挖掘问题的关注,引入了高级数据类型,例如文本、时间序列、离散序列、空间数据、图数据和社交网络数据。到目前为止,还没有一本书以如此全面和综合的方式探讨所有这些主题。 基础篇(包括原书的第1-13章)详细介绍了针对数据挖掘的四个主要问题(聚类、分类、关联模式挖掘和异常分析)的各种解决方法、用于文本数据领域的特定挖掘方法,以及对于数据流的挖掘应用。 进阶篇(包括原书的第14-20章)主要讨论了用于不同数据领域(例如时序数据、序列数据、空间数据、图数据)的特定挖掘方法,以及重要的数据挖掘应用(例如Web数据挖掘、排名、推荐、社交网络分析和隐私保护)。 本书在
作为数据仓库和商业智能(DW/BI)行业中有影响力的领军人物,RalphKimball、MargyRoss得到了世界范围内的认可和尊重,他们在《数据仓库与商业智能宝典(第1版)》中确立了行业标准。现在,在《数据仓库与商业智能宝典(第2版)成功设计、部署和维护DW/BI系统》中已经更新了65篇DesignTip和白皮书,从而汇集了DW/BI技术创新前沿的著作。 从项目规划和需求收集,到维度建模、ETL和BI应用,《数据仓库与商业智能宝典(第2版):成功设计、部署和维护DW/BI系统》涵盖了你在数据仓库和商业智能中将会遇到的所有内容。这些无与伦比的文章提供了成功地设计、部署和维护DW/BI系统的重要建议。 启动DW/BI项目和收集需求的注意事项 集成式企业数据仓库的要素,其中包括总线架构和矩阵 事实表的粒度性和三种基本类型 渐变维度技术 星型模式、
《数据恢复技术深度揭秘》第二版是在版的基础之上增加和充实了服务器磁盘阵列(RAID)的恢复技术,新增了大量实战案例的分析和讲解,并精选书中的部分案例由作者制作成视频教学资料(DVD光盘)随书附赠。本书从逻辑类恢复和物理类恢复两个层面全面讲解当前实用的数据恢复技术。在逻辑类数据恢复方面,内容包括MBR磁盘分区、动态磁盘分区、GPT磁盘分区、Solaris分区、APM分区、BSD分区的恢复技术;Windows平台的FAT32、FAT16文件系统、NTFS文件系统、ExFAT文件系统的恢复技术;UNIX平台的UFS1、UFS2文件系统恢复技术;Apple平台的HFS 文件系统恢复技术;Linux平台的EXT3、EXT4文件系统恢复技术;还包括Windows、UNIX、Apple、Linux平台的RAID-0、RAID-1、RAID -1E、RAID-5、RAID-5EE、RAID-6、HP双循环等磁盘阵列恢复技术。在物理类数据恢复方面,内容包括各大品牌硬盘出现电路故障、磁头
为落实国家大数据战略部署,工业和信息化部办公厅于2016年5月,向地方工业和信息化主管部门及大型企业下发了《工业和信息化部办公厅关于组织开展大数据优秀产品、服务和应用解决方案征集活动的通知》(工厅信软〔2016〕441号),在全国范围内广泛征集大数据优秀产品、服务和应用解决方案,经过四十余位业内专家三轮的严格评审,遴选了50个优秀案例。本书是50个优秀案例的汇编,充分展示了部分先行先试的国内企业在大数据技术、产品、服务以及应用方面的经验和模式,以及取得的初步成效。编者希望通过这种展示方式,为相关地区、行业、企业发展和应用大数据提供有益的借鉴与思考,同时促进政产学研用深度合作,指导和帮助地方、企业和用户加强沟通交流。本书可为政府部门、行业企业、科研机构,及其从事大数据政策制定、管理决策和咨询研究的
《数典 : 大数据标准术语体系 : 汉、阿、英、法、德、》名《数典》,定义为大数据标准术语体系,是迄今为止全球全面系统研究大数据标准术语的多语种专业工具书。《数典 : 大数据标准术语体系 : 汉、阿、英、法、德、》以全球语境和未来视角,对大数据知识体系进行了全面梳理,提出了九个方面的术语架构,并以十一种语言对照编纂,形成了统一规范、符合国际通用规则的多语种学术话语体系和术语标准体系。
本书是为“数据结构”课程编写的教材,前面两章介绍数学基础和算法相关预备知识,第3章至第10章介绍常见数据结构的抽象数据类型、算法实现、性能分析及其应用。本书注重全面运用数据结构知识解决实际问题的案例介绍,同时穿插程序设计的技巧。全书采用Java语言作为数据结构和算法的描述语言,介绍JDK中常见的数据结构的实现原理,如ArrayList、LinkedList、HashMap等,对于高效使用这些对象,提高程序性能有指导意义,特别适合Java语言的进阶学习者。本书提供了大量设计精良的代码,且不乏对算法背后所蕴含数学原理的精彩介绍,使读者不仅能够编写出高效、精致的程序,而且达到“知其然,也知其所以然”的效果。
SQL是数据查询的基本语言,Excel是数据分析和展示的很常见工具。两者结合,可以组成一个强大且易于理解的业务数据分析工具。很多类重要的数据分析并不需要复杂且昂贵的数据挖掘工具。答案就在你的电脑桌上。这是一本实用指南,作者Gordon S.Linoff是数据挖掘领域的专家。书中介绍了如何使用SQL和Excel来设计并完成复杂的数据分析。本书的靠前版被广泛认可,第2版涵盖了对SQL和Excel新功能的介绍,同时包括新的技术和实际业务示例。第2版介绍了业务经理和数据分析人员所需掌握的近期新信息。本书首先介绍数据挖掘所用的SQL基础知识,如何使用Excel展示结果,以及用于理解数据的简单的统计学概念。熟悉执行SQL和操作Excel后,本书介绍了核心分析技术。本书内容逐步从基础查询扩展到复杂的应用,使读者能够学习到某种数据分析的使用原因和时机,如何设计和实
《数据治理:工业企业数字化转型》是一本全面关注工业企业数据治理方面的工具书,主要内容分为概述篇、体系篇、工具篇、实施篇及案例篇。其中概述篇主要介绍工业企业数据治理的基础概念、主流数据治理标准及框架、数据治理的发展趋势等;体系篇主要介绍数据管控、数据战略、数据架构、主数据管理等的基本原理与管理体系;工具篇主要介绍主数据管理工具、数据模型管理工具、数据资产运营工具等;实施篇主要介绍具体实施策略及路径选择、顶层架构规划与设计、数据资产运营实施等;案例篇主要介绍电力、能源化工、钢铁、制造、战略投资等行业的数据治理案例,为读者提供专业、丰富、可信的数据治理实施范例。 《数据治理:工业企业数字化转型》是工业大数据应用技术国家工程实验室多年潜心研究的重要科研成果的总结和凝聚,既具有理论高
本书基于 Spark 2.4.X版本,以 Spark商业案例实战和 Spark在生产环境下几乎所有类型的性能调优为核心,以 Spark内核解密为基石,对企业生产环境下的 Spark商业案例与性能调优抽丝剥茧地进行剖析。全书共分 4篇,内核解密篇基于 Spark源码,从一个实战案例入手,循序渐进地全面解析 Spark 2.4.X版本的新特性及 Spark内核源码;商业案例篇选取 Spark开发中*代表性的经典学习案例,在案例中综合介绍 Spark的大数据技术;性能调优篇覆盖 Spark在生产环境下的所有调优技术;Spark AI解密篇讲解深度学习实践、 Spark PyTorch案例实战、Spark TensorFlow实战以及 Spark上的深度学习内核解密。 本书适合所有 Spark学习者和从业人员使用。对于有分布式计算框架应用经验的人员,本书也可作为 Spark高手修炼的参考用书。本书还适合作为高等院校的大数据课程教材。
本书主要作为教育领域从事教育大数据研究工作者的参考用书。本书从教育大数据的重要意义、国内外教育大数据的研究现状以及政策支持出发,对教育大数据的相关概念和内涵做阐述说明,介绍了教育大数据的技术、技术标准、治理与开放、风险管理与法律政策,重点阐述了教育大数据在教育领域的典型应用,包括教育大数据在课堂教育、校园管理、在线教育、开放远程教育、教育培训行业以及学生综合素质评价等方面的应用,*后提出教育大数据的发展趋势和机遇挑战。
本书以当前热点的数据挖掘应用贯穿全书,通过详解大数据挖掘技术在系统日志、工作票、可持续性研究、推荐系统、智能问答系统、社交媒体、生物信息学与健康医疗、隐私保护等方面的实际应用案例,阐述了如何更好地应用和学习数据挖掘技术。本书融入了数据挖掘前沿技术和典型应用,不仅适合热爱和关心数据挖掘技术的学术界和工业界人士阅读,还适合作为各大高校的数据挖掘和机器学习课堂的实践教材和参考书籍。本书有助于读者更好地理解数据挖掘技术背后的根源和本质。
谁将是忠实的客户?谁将不是呢?哪些消息对哪些客户细分有效?如何大化客户的价值?如何将客户的价值大化?《数据挖掘技术(第3版):应用于市场营销、销售与客户关系管理》提供了强大的工具,可以从上述和其他重要商业问题所在的公司数据库中提取它们的答案。自该书第1版问世以来,数据挖掘已经日益成为现代商业不可缺少的工具。在这个新版本中,作者对每个章节都进行了大量的更新和修订,并且添加了几个新的章节。该书保留了早期版本的重点,指导市场分析师、业务经理和数据挖掘专家利用数据挖掘方法和技术来解决重要的商业问题。在不牺牲准确度的前提下,为了简单起见,即使是复杂的主题,作者也进行了简洁明了的介绍,并尽量减少对技术术语或数学公式的使用。每个技术主题都通过案例研究和源自作者经验的真实案例进行说明,每
《中国数据中心运维管理指针》主要针对数据中心运维管理、监控系统、基础设施管理技术,结合《数据中心设计规范》(GB50174-2013),总结了国内外数据中心技术发展情况,从技术、规范、设计及产品应用等方面进行了阐述。本书主要包括以下三个方面的内容:一、数据中心运维管理技术:数据中心运维白皮书简介、数据中心ITIL运维框架、数据中心运维组织架构、数据中心基础设施运维之监控系统、数据中心基础设施运维之日常工作、数据中心基础设施运维之应急处理、数据中心网络运维、数据中心客户服务、数据中心现场运维之基础工作、数据中心基础及应用平台运维、数据中心运维管理工具、数据中心运维质量保障体系、数据中心运维相关认证、数据中心运维之行业实例、数据中心能耗测评、数据中心运维之能效管理、数据中心测试验证和数据中心运维之供
本书一共分为3篇:基础篇、案例篇和工具篇。 基础篇 从理论基础和基本原理层面介绍了MySQL的安装与配置、升级和体系结构,information_schema、sys_schema、performance_schema和mysql_schema,MySQL复制,MySQL事务,SQL语句优化及架构设计基础知识。 案例篇 从硬件和系统、MySQL架构等方面给出了性能优化的十几个案例,包括:性能测试的基本优化思路和*需要关注的性能指标解释、对日常SQL语句执行慢的基本定位、避免x86可用性的一般性方法、节能模式会怎样影响性能、I/O存储作为数据库*重要的依赖是如何影响数据库性能的、主备复制不一致可能有哪些原因、字符集不一致会造成哪些性能问题、在实际场景中锁的争用是怎样的。 工具篇 介绍了在MySQL性能优化过程中需要用到的各种工具,包括:dmidecode、top、dstat等硬件和系统排查工具;FIO、sysbench、HammerDB等压力测试工具;mysqldump
《小白轻松学Excel数据透视表》 零基础入门,让读者轻松、快速地掌握Excel数据透视表的使用方法和应用技巧。本书为读者提供了一个轻松愉快的阅读学习体验,全彩印刷、版式灵活、颜色清爽、内容优选、案例典型、视频赠送。本书包含大量案例,读者可以边学边练,书中的大多数3级标题以案例名称命名,既便于读者从目录中快速找到相应的案例,又能让读者了解每个知识点、每项技术的实际应用场景,从而实现技术与应用的无缝对接。为了便于读者学习和练习,本书附赠所有案例的源文件和重点案例的多媒体视频教程。 本书适合想要学习Excel数据透视表和从事数据分析工作的读者。如果读者对Excel数据透视表不熟悉或从未使用过Excel,那么学习本书可以让您在短时间内快速掌握数据透视表的使用方法,并使用它来解决实际应用中的问题。对于有一定使用经验的
本书基于国内外数据中心建设标准,总结归纳了数据中心规划与设计的理论、方法和实践经验,注重理论与实践相结合,为中国数据中心建设提供全新的理论架构、设计逻辑和方法、评估模型与实践经验。 本书主要内容包括数据中心概述、绿色数据中心的评价指标、网络及物理模型、可靠性/可用性模型、能效和经济模型、基础设施规划、技术要求、选址指南、装饰装修、供配电系统、防雷和接地系统设计、制冷、综合布线系统的建设、消防系统的建设、监控与管理、数据中心的评估。 本书可作为数据中心规划、设计、施工、系统集成、运行维护等管理、技术和建设人员的参考用书,也可作为电子信息行业、高等院校和研究院所相关人员的参考用书。
《从零进阶!数据分析的统计基础》共 6 章,分别讲解了数据分析的步骤和方法、描述性统计分析、抽样估计、假设检验、方差分析、 相关与回归分析,使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概率论等方面 的理论内容,并使用图示的方法详细介绍了使用 Excel 2013 进行简单的描述性统计分析和使用 SPSS 进行相 关的数据分析的过程与结果分析。 《从零进阶!数据分析的统计基础》适合需要提升自身数据分析理论和实践能力的职场新人;在市场营销、金融、财务、人力资源管理 中需要数据分析的人士;从事咨询、研究、分析等的专业人士。也可以作为数据分析师职业培训的教材,普通高等院校非统计专业数据分析的选修教材。 《胸有成竹!数据分析的SAS EG进阶》共5章,涉及使用SAS EG做数据分析的主要分析方法。其中,第1章为数