全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
数据、模型与决策是应用数学建模和计算机技术帮助决策者解决问题。作为国外一本优秀的数据、模型与决策的教材,本书具有以下特色: 1.对枯燥、复杂和技术化的数学问题用简明易懂的语言予以解释,兼顾严谨的数理逻辑。 2.突出建模分析框架和基础逻辑的讲授和训练,在某种程度上实现了艺术与科学的有机融合。 3.课后习题丰富,并配有网络题库,供自学者加强训练,及时检查对理论模型及其求解方法的掌握程度。 第12版把修订重点放在企业和组织的*技术发展上,增加了商业分析(第1章)、项目风险(第8章)以及数据挖掘(第14章)等内容。
《数据恢复技术深度揭秘》第二版是在版的基础之上增加和充实了服务器磁盘阵列(RAID)的恢复技术,新增了大量实战案例的分析和讲解,并精选书中的部分案例由作者制作成视频教学资料(DVD光盘)随书附赠。本书从逻辑类恢复和物理类恢复两个层面全面讲解当前实用的数据恢复技术。在逻辑类数据恢复方面,内容包括MBR磁盘分区、动态磁盘分区、GPT磁盘分区、Solaris分区、APM分区、BSD分区的恢复技术;Windows平台的FAT32、FAT16文件系统、NTFS文件系统、ExFAT文件系统的恢复技术;UNIX平台的UFS1、UFS2文件系统恢复技术;Apple平台的HFS 文件系统恢复技术;Linux平台的EXT3、EXT4文件系统恢复技术;还包括Windows、UNIX、Apple、Linux平台的RAID-0、RAID-1、RAID -1E、RAID-5、RAID-5EE、RAID-6、HP双循环等磁盘阵列恢复技术。在物理类数据恢复方面,内容包括各大品牌硬盘出现电路故障、磁头
本书按照需求规划、需求实现、需求可视化的流程进行编排,遵循项目开发的实际流程,全面介绍了数据仓库的搭建过程。在整个数据仓库的搭建过程中,本书介绍了主要组件的安装部署过程、需求实现的具体思路、部分问题的解决方案等,并在其中穿插了许多与大数据和数据仓库相关的理论知识,包括大数据概论、数据仓库概论、电商业务概述、数据仓库理论准备、数据仓库建模等。 本书从逻辑上可以分为三部分:一是大数据与数据仓库概论及项目需求描述,主要介绍了数据仓库的概念、应用场景和搭建需求;二是项目部署的环境准备,介绍了如何从零开始搭建一个完整的数据仓库环境;三是需求模块实现,针对不同需求分模块进行实现,是本书的重点部分。 本书适合具有一定的编程基础并对大数据感兴趣的读者阅读。通过阅读本书,读者可以快速了解数据
本书以LabVIEW 2017为基础,讲述LabVIEW图形化编程语言的原理,以及如何利用LabVIEW完成虚拟仪器设计。全书共15章,分为两篇,分别是基础知识篇(第1~13章)和实际应用篇(第14、15章)。第1章,综述虚拟仪器技术的构建思想和方法论。第2~7章,讲述LabVIEW图形化编程语言的基本原理以及编程方法,内容包括LabVIEW入门、基本数据类型、程序结构、复合数据类型、文件I/O、图形显示及其他技巧。第8~12章,阐述如何利用LabVIEW去控制仪器硬件以实现对被测信号的数据采集,内容包括选择专用的数据采集卡进行数据采集; 利用计算机自带的声卡实现数据采集; 利用摄像头完成图像采集; 仪器控制和控制单片机。第13章,讲述用LabVIEW实现仪器应用的若干算法和信号分析处理的相关知识。第14、15章,介绍利用LabVIEW完成有实际应用背景的两个虚拟仪器项目,分别是用LabVIEW构建函
本书从整体上进行了改编、扩展和提升。主题内容也有所延伸,其中包括数据的类型与域、表的比较、映像关系、聚集操作符与汇总、视图更新以及子查询。还特别收录了一个新附录 NoSQL与关系理论。 本书涵盖以下内容: 是否可以编写SQL查询找到在公司每个编程部门都至少工作过一次的员工? 你是否可以确保查询的正确性?为什么恰当的列命名非常重要? 数据库中的null会带来错误的答案。为什么?你又能做什么? 映像关系如何能帮助你表述复杂的SQL查询? 虽然SQL支持 量化比较 ,但是尽量不要使用。为什么?怎样才能避免使用?
《数据化运营:系统方法与实践案例》本书以互联网企业中常见数据运营场景为切入点,以工作中实际面临解决的问题为案例,从方法、技术、业务、实践4个维度讲述数据运营的场景及应用方式。书中从实践出发,结合工作中数据运营经验,以应用案例为主线,通过业务分析 代码实践这种更 接地气 的方式讲述数据的应用。书中对于搭建数据监控指标体系、数据分析、数据挖掘、ABTest、埋点策略、用户画像建模等常见数据运营方式做了详细的介绍。 《电商数据分析与数据化运营》本书从业务、数据、运营3个维度为电商的经营和决策提供了科学的方法论,是一部电商运营真经,真正做到了 业务中有数据,数据中有运营 。作者是资深的电商行业专家,从事电商数据分析与数据化运营10余年,本书是他在多个知名电商品牌操盘多个千万级项目的经验总结。 为了增
本书介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。 本书主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成 DNA 和 RNA 测序。 ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 ■ 推荐算法和成对文档相似性。 ■ 线性回归、Cox回归和 皮尔逊 (Pearson) 相关 分析。 ■ 等位基因频率和 DNA 挖掘。 ■ 社交网络分析(推荐系统、三角形计数和情感分析)。
全书理论联系实际,全面讲述数据挖据理论、技术及应用的教材。研讨了数据挖掘的方方面面,从基础理论到复杂数据类型及其应用。不仅讨论传统的数据挖掘问题,而且介绍了 数据类型,例如文本、时间序列、离散序列、空间数据、图数据和社会网络。本书由基础篇和进阶篇组成。基础篇对应原书的 ~11章,进阶篇对应原书的 2~20章。
十三五 以来,中石油、中石化、万华化学、华谊化工、国家电网、宝武钢铁等国内流程行业领头者开展了数字化、智能化建设,加快数字化油田、智能炼厂、智慧电网、智慧炼钢等建设。信息化与自动化互相交织融合,积累了大量的工业数据,给以油田开发、石油石化、化工、钢铁、电力为代表的流程工业带来了新的挑战与机遇,也为其创新带来了新的技术能力。本书以大数据治理、大数据分析为主线,以油气开发、石油石化、化工、钢铁、电力为代表的流程工业大数据创新为分支,详细阐述了大数据分析在流程工业中的应用案例和今后的发展趋势。为广大的流程工业界研究人员、企业管理者、工程技术专家提供了一本不可多得的涵盖数字化转型、大数据分析的学习材料。