全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
利用这本书,你将学习以下内容:了解如何选择Spark转换实现优化的解决方案。探索强大的转换和归约,包括reduceByKey()、combineByKey()和mapPartitions()。理解数据分区以实现优化查询。使用PySpark设计模式构建和应用模型。对图数据应用motif查找算法。使用GraphFrames API分析图数据。对临床医学和基因组数据应用PySpark算法。学习如何在ML算法中使用和应用特征工程。了解并使用实用的数据设计模式。
《Hadoop海量数据处理》从Hadoop的基础知识讲起,逐步深入Hadoop分布式文件系统(HDFS)和MapReduce分布式编程框架的核心技术,帮助读者全面、系统、深入地理解Hadoop海量数据处理技术的精髓。本书在讲解技术原理时穿插大量的典型示例,并详解两个典型项目实战案例,帮助读者提高实际项目开发水平。 《Hadoop海量数据处理》共15章,分为4篇。第1篇Hadoop基础知识,包括大数据概述、Hadoop概述、Hadoop环境搭建与配置;第2篇Hadoop分布式存储技术,包括HDFS概述、HDFS基础操作、HDFS的读写原理和工作机制、Hadoop 3.x的新特性;第3篇MapReduce分布式编程框架,包括MapReduce概述、MapReduce开发基础、MapReduce框架的原理、MapReduce数据压缩、YARN资源调度器、Hadoop企业级优化;第4篇项目实战,包括Hadoop高可用集群搭建实战和统计TopN经典项目案例实战。 《Hadoop海量数据处理》通俗易懂、案
财务管理对所有企业而言都具有重要战略意义。一个能全盘掌握企业信息,并能清晰地提供决策所需资料的数据处理系统将是企业提升财务管理系统的核心平台。Oracle公司是全球的信息管理软件及服务供应商,Oracle数据库已成为世界上使用最广泛的数据库系统之一。在市场竞争日趋激烈的今天,该系统可以为企业培养迅捷的反应能力和整合资源提供极大的便利。 本书以版本的Oracle 11i E Business Suit为对象,全面系统地介绍了Oracle 11i财务系统的操作使用流程和方法。从教学内容上来看,本书涵盖了财务模块的所有构成部分,表述了会计核算和财务分析的主要流程,体系完整; 从教学方法上看,本书提供了丰富的示例和技巧说明,并辅以明晰的图示,读者可以轻松地在实践中掌握相关技巧。本书的目的是力争让每一位希望实现企业财务管理软件化、现代化、智能化
《云制造》首先从制造业的发展趋势及挑战、制造业信息化的发展历程以及云计算、物联网、服务计算、智能科学等新技术的发展等方面论述云制造产生的背景,在此基础上介绍云制造的概念、特点、与其他制造模式的区别与联系以及云制造模式、体系结构、技术体系,然后系统地介绍云制造主要的关键技术及部分成功的应用案例。本书是作者团队近5年的研究成果的总结。本书可供从事云制造、物联网、软件工程、信息管理等领域的工程技术人员、研究人员阅读,也可供高等院校相关专业研究生参考。
本书是针对openGauss开源数据库的源码进行分模块解析的书籍。全书共分为10章。章对openGauss进行简介。第2章介绍了内核开发所需的入门知识,包括openGauss的安装、基本使用、开发、编译、参与社区开源项目等。第3~10章针对openGauss不同的功能模块分别进行源码介绍。第3章针对系统表、多线程架构、内存管理等作用于整个数据库系统的公共组件从定义、原理、流程等方面进行源码介绍; 第4章介绍openGauss满足OLTP、OLAP不同业务场景的存储引擎实现及对应的源码; 第5章介绍保证数据库ACID属性的事务机制的原理和源码; 第6章介绍SQL 引擎的SQL解析和查询优化代码主流程; 第7章介绍openGauss执行器的整体架构和各类执行算子的源码; 第8章介绍openGauss在人工智能与数据库结合领域探索的源码; 第9章从系统整体角度出发,针对 基础和高阶的安全能力进行全面介绍和源码解读; 0章介绍openGau
本书从整体上进行了改编、扩展和提升。主题内容也有所延伸,其中包括数据的类型与域、表的比较、映像关系、聚集操作符与汇总、视图更新以及子查询。还特别收录了一个新附录 NoSQL与关系理论。 本书涵盖以下内容: 是否可以编写SQL查询找到在公司每个编程部门都至少工作过一次的员工? 你是否可以确保查询的正确性?为什么恰当的列命名非常重要? 数据库中的null会带来错误的答案。为什么?你又能做什么? 映像关系如何能帮助你表述复杂的SQL查询? 虽然SQL支持 量化比较 ,但是尽量不要使用。为什么?怎样才能避免使用?
本书介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。 本书主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成 DNA 和 RNA 测序。 ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 ■ 推荐算法和成对文档相似性。 ■ 线性回归、Cox回归和 皮尔逊 (Pearson) 相关 分析。 ■ 等位基因频率和 DNA 挖掘。 ■ 社交网络分析(推荐系统、三角形计数和情感分析)。