全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
本书按照需求规划、需求实现、需求可视化的流程进行编排,遵循项目开发的实际流程,全面介绍了数据仓库的搭建过程。在整个数据仓库的搭建过程中,本书介绍了主要组件的安装部署过程、需求实现的具体思路、部分问题的解决方案等,并在其中穿插了许多与大数据和数据仓库相关的理论知识,包括大数据概论、数据仓库概论、电商业务概述、数据仓库理论准备、数据仓库建模等。 本书从逻辑上可以分为三部分:一是大数据与数据仓库概论及项目需求描述,主要介绍了数据仓库的概念、应用场景和搭建需求;二是项目部署的环境准备,介绍了如何从零开始搭建一个完整的数据仓库环境;三是需求模块实现,针对不同需求分模块进行实现,是本书的重点部分。 本书适合具有一定的编程基础并对大数据感兴趣的读者阅读。通过阅读本书,读者可以快速了解数据
本书从整体上进行了改编、扩展和提升。主题内容也有所延伸,其中包括数据的类型与域、表的比较、映像关系、聚集操作符与汇总、视图更新以及子查询。还特别收录了一个新附录 NoSQL与关系理论。 本书涵盖以下内容: 是否可以编写SQL查询找到在公司每个编程部门都至少工作过一次的员工? 你是否可以确保查询的正确性?为什么恰当的列命名非常重要? 数据库中的null会带来错误的答案。为什么?你又能做什么? 映像关系如何能帮助你表述复杂的SQL查询? 虽然SQL支持 量化比较 ,但是尽量不要使用。为什么?怎样才能避免使用?
十三五 以来,中石油、中石化、万华化学、华谊化工、国家电网、宝武钢铁等国内流程行业领头者开展了数字化、智能化建设,加快数字化油田、智能炼厂、智慧电网、智慧炼钢等建设。信息化与自动化互相交织融合,积累了大量的工业数据,给以油田开发、石油石化、化工、钢铁、电力为代表的流程工业带来了新的挑战与机遇,也为其创新带来了新的技术能力。本书以大数据治理、大数据分析为主线,以油气开发、石油石化、化工、钢铁、电力为代表的流程工业大数据创新为分支,详细阐述了大数据分析在流程工业中的应用案例和今后的发展趋势。为广大的流程工业界研究人员、企业管理者、工程技术专家提供了一本不可多得的涵盖数字化转型、大数据分析的学习材料。
为抢抓区块链技术发展的重大战略机遇,充分发挥区块链技术的应用价值,服务于建设创新型国家和世界科技强国的目标,研究和制定我国区块链技术发展战略规划具有十分重要的意义。本书从区块链理论、技术与平台、及创新应用系统梳理了区块链各方面的发展现状和趋势,主要包括:瞄准区块链发展研究前沿,调研分析区块链密码学理论、区块链共识理论、区块链计算与存储理论、区块链隐私保护理论等基础科学理论。研究分析国内外区块链技术的发展趋势及面临的重大问题,客观评价我国区块链技术整体水平,深入分析我国区块链技术发展面临的挑战。
本书完整全面地讲述数据挖掘的概念、方法、技术和近期新研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。 本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都推荐阅读的参考书,是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。
MongoDB自2009年推出以来,历经了近十年的发展,在这十年中,数据库领域可谓经历了翻天覆地的变化。本书深入剖析MongoDB新旧版本的特性,结合生产案例详细讲解MongoDB的常见故障;学习MongoDB索引,以便更好地掌握MongoDB性能调优技巧;描述备份恢复的重要性,让读者掌握MongoDB备份恢复技巧;充分利用MongoDB的水平扩展能力,详解MongoDB复制集、分片架构环境;很后讲解如何使用PMM性能监控平台,做好线上MongoDB的监控工作。
本书以网络安全中主要子领域为主线,以数据挖掘算法为基础,搜集了大量基于数据挖掘的网络安全技术研究成果,汇编了数据挖掘技术在隐私保护、恶意软件检测、入侵检测、日志分析、网络流量分析、网络安全态势评估、数字取证等网络安全领域的应用,介绍了常用的网络安全数据集,并搜集了大量的网络安全资源,以供读者能将本书内容应用于实际的研究或学习中。本书可作为研究人员、网络安全工程人员和对基于数据挖掘的网络安全技术感兴趣的研究生的参考书,也可作为高等院校高年级课程的教学用书,还可供相关领域工作的读者参考。
本书系统地介绍数据结构基础理论知识及算法设计方法,~7章从抽象数据类型的角度讨论各种基本类型的数据结构及其应用,主要包括线性表、栈和队列、串、数组和广义表、树和二叉树及图; 第8章和第9章主要讨论查找和排序的各种实现方法及其综合比较; 0章介绍数据结构课程实验的目的、步骤及内容; 附录给出全书习题的参考答案。全书采用类C语言作为数据结构和算法的描述语言,随书配备电子教案。本书在内容选取上符合人才培养目标的要求及教学规律和认知规律,在组织编排上体现“先理论、后应用、理论与应用相结合”的原则,并兼顾学科的广度和深度,力求适用面广。本书具有结构严谨、层次清楚、概念准确、深入浅出、描述清晰等特点。 本书可以作为计算机类专业和信息类相关专业的本科或专科教材,也可以供从事计算机工程与应用工作的科技
本书由数据中心IT建设和运营管理(ITBOM)联盟基于国家标准GB/T 33136- 2016《信息技术服务 数据中心服务能力成熟度模型》编写。全书选取业界代表性单位,从流程关键管控点、管理要求和电子化工具等角度,对战略发展、运营保障和组织治理等各流程的真实情况进行详细说明,以期为业界的服务能力建设与成熟度提升提供参考与指导。
随着Python应用领域的拓展,越来越多的人将Python用于处理大型数值数据集,使用标准格式来进行数据的存储和通信也显得越来越重要,而HDF5也正迅速成为人们存储科学数据的选择。本书向任何有Python数据分析基本背景的人介绍如何在Python下使用HDF5。 本书将着重于HDF5的本地功能集,而不是Python的高层抽象。熟悉Python和NumPy的读者,更容易阅读和掌握本书的内容。本书适合有基础的Python开发者,尤其适合要使用Python开发数据存储和处理等相关应用的读者阅读参考。
ODPS(Open Data Processing Service)是阿里巴巴自主研发的海量数据处理和分析的服务平台,主要应用于数据分析、海量数据统计、数据挖掘、机器学习和商业智能等领域。目前,ODPS不仅在阿里内部得到广泛应用,享有很好的口碑,正逐步走向第三方开放市场。 《ODPS指南 阿里大数据平台应用开发实践》是学习和掌握ODPS的指南,作者来自阿里ODPS团队。全书共13章,主要内容包括:ODPS入门、整体架构、数据通道、MapReduce编程、SQL查询分析、安全,以及基于真实数据的各种场景分析实战。本书基于很多范例解析,通过在各种应用场景下的示例来说明如何通过ODPS完成各种需求,以期引导读者从零开始轻松掌握和使用ODPS。同时,本书不局限于示例分析,也致力于提供更多关于大数据处理的编程思想和经验分享。书中所有示例代码都可以在作者提供的网站上免费下载。
随着信息科技的发展,人类进入了大数据时代。挖掘互联网上海量主观性文本已成为决策支持的重要手段。从产品消费、服务、医疗保健、金融服务、再到社会事件和政治选举,观点挖掘几乎渗透到现实生活中每一个可能的领域。这些实际的应用为观点挖掘的研究提供了强烈的动机。本书在分析观点挖掘相关理论和相关技术研究现状基础上,阐述了方面级观点挖掘方法的分类、如何利用CRF方法以及主题模型进行方面级观点挖掘、以及在观点挖掘环境下实体和方面的指代消解研究。实现了在线评论的智能化观点挖掘,故本书书名为《在线评论方面级观点挖掘理论与方法》,并进一步研究将观点挖掘的结果应用于用户满意度评价及产品属性绩效类型界定方法。每部分研究工作详细描写了背景、问题、研究思路、实验结果、结论与总结等。各部分工作相关,又独成体系,
本书分为三个主要部分。靠前部分介绍了数据湖的概念、企业中数据湖泊的重要性,以及Lambda架构的很新进展。第二部分将深入研究使用Lambda架构构建数据湖的主要组件,介绍了一些流行的大数据技术,如Apache Hadoop、Spark、Sqoop、Flume和弹性搜索。第三部分以实际操作的方式展示如何实现一个企业数据湖,并介绍了几个实际的用例,而且展示了如何将其他外围组件添加到湖中以提高效率。在本书的很后,读者将能够选择正确的大数据技术,使用lambda架构模式来构建企业数据湖。