全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
本书按照需求规划、需求实现、需求可视化的流程进行编排,遵循项目开发的实际流程,全面介绍了数据仓库的搭建过程。在整个数据仓库的搭建过程中,本书介绍了主要组件的安装部署过程、需求实现的具体思路、部分问题的解决方案等,并在其中穿插了许多与大数据和数据仓库相关的理论知识,包括大数据概论、数据仓库概论、电商业务概述、数据仓库理论准备、数据仓库建模等。 本书从逻辑上可以分为三部分:一是大数据与数据仓库概论及项目需求描述,主要介绍了数据仓库的概念、应用场景和搭建需求;二是项目部署的环境准备,介绍了如何从零开始搭建一个完整的数据仓库环境;三是需求模块实现,针对不同需求分模块进行实现,是本书的重点部分。 本书适合具有一定的编程基础并对大数据感兴趣的读者阅读。通过阅读本书,读者可以快速了解数据
本书从整体上进行了改编、扩展和提升。主题内容也有所延伸,其中包括数据的类型与域、表的比较、映像关系、聚集操作符与汇总、视图更新以及子查询。还特别收录了一个新附录 NoSQL与关系理论。 本书涵盖以下内容: 是否可以编写SQL查询找到在公司每个编程部门都至少工作过一次的员工? 你是否可以确保查询的正确性?为什么恰当的列命名非常重要? 数据库中的null会带来错误的答案。为什么?你又能做什么? 映像关系如何能帮助你表述复杂的SQL查询? 虽然SQL支持 量化比较 ,但是尽量不要使用。为什么?怎样才能避免使用?
十三五 以来,中石油、中石化、万华化学、华谊化工、国家电网、宝武钢铁等国内流程行业领头者开展了数字化、智能化建设,加快数字化油田、智能炼厂、智慧电网、智慧炼钢等建设。信息化与自动化互相交织融合,积累了大量的工业数据,给以油田开发、石油石化、化工、钢铁、电力为代表的流程工业带来了新的挑战与机遇,也为其创新带来了新的技术能力。本书以大数据治理、大数据分析为主线,以油气开发、石油石化、化工、钢铁、电力为代表的流程工业大数据创新为分支,详细阐述了大数据分析在流程工业中的应用案例和今后的发展趋势。为广大的流程工业界研究人员、企业管理者、工程技术专家提供了一本不可多得的涵盖数字化转型、大数据分析的学习材料。
为抢抓区块链技术发展的重大战略机遇,充分发挥区块链技术的应用价值,服务于建设创新型国家和世界科技强国的目标,研究和制定我国区块链技术发展战略规划具有十分重要的意义。本书从区块链理论、技术与平台、及创新应用系统梳理了区块链各方面的发展现状和趋势,主要包括:瞄准区块链发展研究前沿,调研分析区块链密码学理论、区块链共识理论、区块链计算与存储理论、区块链隐私保护理论等基础科学理论。研究分析国内外区块链技术的发展趋势及面临的重大问题,客观评价我国区块链技术整体水平,深入分析我国区块链技术发展面临的挑战。
全书理论联系实际,全面讲述数据挖据理论、技术及应用的教材。研讨了数据挖掘的方方面面,从基础理论到复杂数据类型及其应用。不仅讨论传统的数据挖掘问题,而且介绍了 数据类型,例如文本、时间序列、离散序列、空间数据、图数据和社会网络。本书由基础篇和进阶篇组成。基础篇对应原书的 ~11章,进阶篇对应原书的 2~20章。
在传统的数据处理流程中,总是先收集数据,然后将数据放到DB中。当人们需要的时候通过DB对数据做query,得到答案或进行相关的处理。这样看起来虽然很好合理,但是结果却很好的紧凑,尤其是在一些实时搜索应用环境中的某些具体问题,类似于MapReduce方式的离线处理并不能很好地解决问题。这就引出了一种新的数据计算结构---流计算方式。它可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息,并把结果发送到下一计算节点。本书讲解流计算原理。
Python凭借其简单、易读、可扩展性以及拥有巨大而活跃的科学计算社区,在需要分析、处理大量数据的金融行业得到了广泛而迅速的应用,并且成为该行业开发核心应用的编程语言。《Python金融大数据分析》提供了使用Python进行数据分析,以及开发相关应用程序的技巧和工具。 《Python金融大数据分析》总计分为3部分,共19章,部分介绍了Python在金融学中的应用,其内容涵盖了Python用于金融行业的原因、Python的基础架构和工具,以及Python在计量金融学中的一些具体入门实例;第2部分介绍了金融分析和应用程序开发中重要的Python库、技术和方法,其内容涵盖了Python的数据类型和结构、用matplotlib进行数据可视化、金融时间序列数据处理、高性能输入/输出操作、高性能的Python技术和库、金融学中需要的多种数学工具、随机数生成和随机过程模拟、Python统计学应用、Python
本书是一本全面关注企业数据标准化方面的工具书,主要分为5 篇。 篇介绍了数据标准化是数据治理的基础,包括数据标准化与数据治理的关系,以及数据标准化主要内容、本书阅读导引。 第2 篇介绍了数据标准化框架体系,包括架构类数据标准、对象类数据标准、基础类数据标准。 第3 篇介绍了数据标准化实施流程与方法,包括建立数据标准化保障机制、现状分析及评估、技术平台和工具、数据标准化关键域实施。 第4 篇介绍了数据标准化评价,包括数据标准化评价方法、数据标准成熟度评价、数据标准化成熟度评价流程。 第5 篇介绍了数据标准化案例,包括油气行业、多元化集团、装备制造行业、核电行业、汽车行业、金融行业、政务行业、互联网行业等行业的数据治理案例,为读者提供了专业、丰富、可信的数据治理实施范例。 本书是工业大数据
本书以零基础讲解为宗旨,用实例引导的方法,深入浅出地介绍了Oracle的相关知识和实战技能。本书篇基础知识主要讲解Oracle的安装与配置、SQL的基础知识、不错SQL限定查询、Oracle的单行函数、多表查询、分组统计查询、子查询、Oracle数据的基本操作、Oracle的表创建与管理以及Oracle的数据完整性等;第2篇核心技术主要讲解Oracle数据库对象的使用、PL/SQL编程、游标、存储过程与函数、触发器和程序包、表空间管理、控制文件及日志文件的管理、Oracle的安全管理以及数据库备份与恢复等;第3篇不错应用主要介绍PowerDesigner设计工具及数据库设计、在ASP中访问Oracle、在Java中访问Oracle、在JSP中访问Oracle、在PHP中访问Oracle等;第4篇项目实战主要讲解基于B/S结构的求职网的设计与实现以及闲置品交易网站的设计与实现。本书提供了与图书内容全程同步的教学录像。此外,还赠
本书由数据中心IT建设和运营管理(ITBOM)联盟基于国家标准GB/T 33136- 2016《信息技术服务 数据中心服务能力成熟度模型》编写。全书选取业界代表性单位,从流程关键管控点、管理要求和电子化工具等角度,对战略发展、运营保障和组织治理等各流程的真实情况进行详细说明,以期为业界的服务能力建设与成熟度提升提供参考与指导。
米特尼克被称为“世界头号黑客”,传奇的人生成为业内和各大媒体津津乐道的话题。1995年联邦法院以25宗罪名起诉米特尼克,而且未经审判就将米特尼克关押了4年半,这是美国司法史上对一名高智商罪犯所采取的最严厉措施。 出狱之后米特尼克改邪归正,目前已经成为世界著名的白帽子黑客,用自己的经验来指导知名企业与组织增强他们的安全防护措施。 在《线上幽灵:世界头号黑客米特尼克自传》中,米特尼克回顾了自己的心路历程,令人眼花缭乱的各类大案要案,以及与警察和特工的“斗智斗勇”……跌宕起伏的情节,将读者带入一个完全不同的惊险世界!