全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了 30 多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 如果你是一名创业者,或者你是一名产品开发、产品管理、市场营销、公共关系和投资领域的商务专业人员,那么本书不容错过。
《华为数据之道》 这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、方法论、规范、模型、解决方案和案例,不仅能让读者即学即用,还能让读者了解华为数字化建设的历程。 ============= 《华为数字化转型之道》 本书由华为公司质量与流程IT团队官方出品,从认知、理念、转型框架、规划和落地方法、业务重构、平台构建等多个维度全面总结和阐述了华为自身的数字化转型历程、方法和实践,能为准备开展或正在开展数字化转型的企业提供系统、全面的参考。
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
《Doris实时数据仓库理论与实战》系统地介绍了Doris的核心概念、架构原理和各项功能。全书共7章。第1章对Doris做了初步介绍。第2章重点介绍了Doris的数据表设计。第3章聚焦于Doris的数据导入。第4章介绍了Doris的数据导出和数据管理。第5章讨论了Doris中的数据更新和删除操作。第6章将读者带入Doris的进阶使用领域。第7章展示了Doris的生态扩展。通过《Doris实时数据仓库理论与实战》的学习,读者可以全面而深入地了解运用Doris构建高效、可扩展、实时数据仓库系统的方法,从理论到实践,从基础到进阶。 《Doris实时数据仓库理论与实战》适用于Doris开发人员和数据工程师,或有志从事数据仓库开发的技术人员。
本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分,介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理,以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。本书对华为等厂商推出的NPU芯片设计也做了架构描述,中国也拥有独立自主知识产权的高算力芯片,并且支持多芯片、高带宽互连。本书也回顾了近20年来主流的CPU、GPU芯片架构的特点,介绍了存储与互连总线技术,即大模型专用AI超级计算机的中枢核心。
本书旨在为包括研究生和工业从业者在内的研究人员提供有关为数据驱动的进化优化而开发的最新方法的全面描述。本书共分12章,第1~4章简要介绍了优化、进化计算和机器学习中精心挑选的重要主题和方法。第5章提供了数据驱动优化的基础知识,包括启发式算法和基于获取函数的代理模型管理。第6章介绍使用多个代理模型进行单目标优化的方法。第7~8章中描述用于求解多目标和多目标优化算法的代表性进化算法以及代理模型辅助数据驱动的进化多目标和多目标优化。第9章详细阐述了高维数据驱动优化的方法。第10章描述迁移学习和迁移优化。第11章讨论离线数据驱动的进化优化,以翼型设计优化等实际优化问题为例、原油蒸馏优化和急救系统优化。最后,第12章强调了深度神经架构搜索作为数据驱动的昂贵优化问题。
看似佛系,其实只是不思进取;在朋友圈假装热爱生活,真实的自我只敢去微博展露;年初列了无数计划,年底全成了打脸的笑话;人前装得无懈可击,活得却比谁都软弱无力 本书作者赵德昊, 毒鸡汤 公众号创始人,凭借《不会偷懒还假装勤奋,怪不得你又累又穷》《你这不是抑郁,是没钱和缺爱的正常表现》《就算朋友遍天下,你还是个nobody》等爆文圈粉无数。 这些热辣酸爽的金句,引起无数年轻人共鸣,也映照出他们在当下焦虑生活中无力挣扎的现实。61篇犀利扎心的硬核文章,不卖情怀只给解药,愿这些狠话能为你打破思维桎桔,重塑人生。 生活虽不易,但请你干万别假装。
利用这本书,你将学习以下内容:了解如何选择Spark转换实现优化的解决方案。探索强大的转换和归约,包括reduceByKey()、combineByKey()和mapPartitions()。理解数据分区以实现优化查询。使用PySpark设计模式构建和应用模型。对图数据应用motif查找算法。使用GraphFrames API分析图数据。对临床医学和基因组数据应用PySpark算法。学习如何在ML算法中使用和应用特征工程。了解并使用实用的数据设计模式。
本书介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。 本书主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成 DNA 和 RNA 测序。 ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 ■ 推荐算法和成对文档相似性。 ■ 线性回归、Cox回归和 皮尔逊 (Pearson) 相关 分析。 ■ 等位基因频率和 DNA 挖掘。 ■ 社交网络分析(推荐系统、三角形计数和情感分析)。
本书介绍可以帮助读者处理真实数据分析挑战的概念和技能。它涵盖了概率论、统计推断、线性回归和机器学习等概念。它还帮助读者提升如下技能:R编程、数据清洗、数据可视化、预测算法构建、使用UNIX/Linux shell组织文件、使用Git和GitHub进行版本控制以及可复制的文档准备。全书分为六个部分,分别为R、数据可视化、统计与R、数据清洗、机器学习和生产力工具。
《数据中台:让数据用起来 第2版》 在数字中国这一国家战略的牵引下,数据要素和数字化转型的研究和落地如火如荼。数据中台是企业开展数据要素相关实践和数字化转型的关键基础设施,本书在这样的时代背景下,以帮助企业“管好数据、用好数据”为宗旨,内容围绕数据中台架构与建设方法论、数据中台建设流程和内容、数据中台工程化交付、数据中台行业解决方案4个维度全面、深度展开。 ============== 《华为数据之道 》 这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、方法论、规范、模型、解决方案和案例,不仅能让读者即学即用,还能让
本书中文版分为基础篇和进阶篇,深入探讨了数据挖掘的各个方面,从基础知识到复杂的数据类型及其应用,涉及数据挖掘的各种问题领域。它超越了传统上对数据挖掘问题的关注,引入了高级数据类型,例如文本、时间序列、离散序列、空间数据、图数据和社交网络数据。到目前为止,还没有一本书以如此全面和综合的方式探讨所有这些主题。 基础篇(包括原书的第1-13章)详细介绍了针对数据挖掘的四个主要问题(聚类、分类、关联模式挖掘和异常分析)的各种解决方法、用于文本数据领域的特定挖掘方法,以及对于数据流的挖掘应用。 进阶篇(包括原书的第14-20章)主要讨论了用于不同数据领域(例如时序数据、序列数据、空间数据、图数据)的特定挖掘方法,以及重要的数据挖掘应用(例如Web数据挖掘、排名、推荐、社交网络分析和隐私保护)。 本书在
这是一本能为数字化转型企业的数据治理提供全面指导的著作。拥有集团官方出品,得到了用友集团董事长王文京、DAMA中国区主席汪广盛等9位企业界和学术界数字化专家的一致好评 它基于国际主流的数据治理框架和用友多年的数据治理经验,从道、法、术、器4个维度全面、深入展开,不仅有数据治理在战略层面的顶层设计,还有数据治理在执行层面的实施方法,既可以作为数据治理的纲领性指南,又可作为数据治理的实操手册。 从数据治理的战略规划到落地实施,本书将各环节的核心内容凝练为“3 个战略机制、8 项关键举措、7 种技术能力、7 个治理工具”: 数据治理之道:3个战略机制 高屋建瓴地介绍了数据治理的数据战略、组织机制和数据文化。这3个机制能够帮助企业形成数据治理的自我驱动、自我进化、可持续发展和长效运营
《数据恢复技术深度揭秘》第二版是在版的基础之上增加和充实了服务器磁盘阵列(RAID)的恢复技术,新增了大量实战案例的分析和讲解,并精选书中的部分案例由作者制作成视频教学资料(DVD光盘)随书附赠。本书从逻辑类恢复和物理类恢复两个层面全面讲解当前实用的数据恢复技术。在逻辑类数据恢复方面,内容包括MBR磁盘分区、动态磁盘分区、GPT磁盘分区、Solaris分区、APM分区、BSD分区的恢复技术;Windows平台的FAT32、FAT16文件系统、NTFS文件系统、ExFAT文件系统的恢复技术;UNIX平台的UFS1、UFS2文件系统恢复技术;Apple平台的HFS 文件系统恢复技术;Linux平台的EXT3、EXT4文件系统恢复技术;还包括Windows、UNIX、Apple、Linux平台的RAID-0、RAID-1、RAID -1E、RAID-5、RAID-5EE、RAID-6、HP双循环等磁盘阵列恢复技术。在物理类数据恢复方面,内容包括各大品牌硬盘出现电路故障、磁头
国际大电网委员会(CIGRE)是全球专享一家近百年来一直致力于电力行业工作的国际组织。变电站专业委员会以技术报告、专题讨论会、论文的形式发布与高压变电站各方面相关的知识,其中大多数是通过CIGRE网站免费提供给其会员。然而,这些材料通常涉及特定的技术主题。如果想要了解高压变电站的全面知识,但从CIGRE网站并不容易找到相关材料。本书目的是汇集这些丰富的信息,以更加全面便捷的方式呈现,以便提供有关高压变电站各方面的参考,这对所有相关工作的决策者都具有重要的价值。本书提供了高压变电站从设计施工到维护管理等整个资产生命周期的全部知识。本书共9部分54章,包括变电站规划及设计、空气绝缘变电站、气体绝缘变电站、混合式开关设备变电站和气体绝缘线路特高压和海上变电站、二次系统、变电站与环境的相互影响、变电站管理
作为数据仓库和商业智能(DW/BI)行业中有影响力的领军人物,RalphKimball、MargyRoss得到了世界范围内的认可和尊重,他们在《数据仓库与商业智能宝典(第1版)》中确立了行业标准。现在,在《数据仓库与商业智能宝典(第2版)成功设计、部署和维护DW/BI系统》中已经更新了65篇DesignTip和白皮书,从而汇集了DW/BI技术创新前沿的著作。 从项目规划和需求收集,到维度建模、ETL和BI应用,《数据仓库与商业智能宝典(第2版):成功设计、部署和维护DW/BI系统》涵盖了你在数据仓库和商业智能中将会遇到的所有内容。这些无与伦比的文章提供了成功地设计、部署和维护DW/BI系统的重要建议。 启动DW/BI项目和收集需求的注意事项 集成式企业数据仓库的要素,其中包括总线架构和矩阵 事实表的粒度性和三种基本类型 渐变维度技术 星型模式、
本书介绍Spark应用开发的面向对象和函数式编程概念,讨论RDD和DataFrame基本抽象,讲述如何使用SparkSQL、GraphX和Spark来开发可扩展的、容错的流式应用程序, 介绍监控、配置、调试、测试和开发等 主题。通过本书的学习,你将能使用SparkR和PySpark API开发Spark应用程序,使用Zeppelin进行交互式数据分析,使用Alluxio进行内存数据处理,将透彻理解Spark,并能对海量数据执行全栈数据分析, 终成为数据科学家。
本书从大数据和人工智能的角度,系统、全面介绍海洋预测预报与挖掘分析技术。全书分为三个部分:第一部分(第1~3章)是数据部分,对海洋大数据的特征、资源分析、处理评估、平台架构、存储管理、分析处理等进行阐述;第二部分(第4~5章)是方法部分,介绍基于机器学习的海洋大数据典型挖掘分析方法,包括回归方法、聚类方法、关联方法、分类方法及可视分析方法,并给出典型的深度学习预测方法;第三部分(第6~10章)是应用部分,展示利用海洋大数据处理方法对各类海洋数据进行分析预报的成果,包括对海表温度、海面高度、海洋三维温盐、台风路径和赤潮发生概率的分析预报。