Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。
本书重点介绍数据质量管理与安全管理的理论及应用。首先通过数据管理现况和问题的分析,提出数据质量管理的步必须是将各种来源的数据标准化,具有统一的数据格式和规则。书稿中强调了提高数据质量不仅可提高信息系统的质量,还可提高经营活动的质量。需要制定质量管理计划或执行具体的质量管理活动。定义了数据质量的准确性、一致性、可用性、可达性、及时性、安全性这6个标准以及对应的管理流程,划分了5个能力成熟度的等级,界定了从管理者到执行者等各个质量管理活动和责任。提出多项数据质量管理主要技术和各国实用案例,还进一步在Orange数据库中实践了数据质量诊断流程。书稿后半部针对日益增长的数据库安全性的需求,提出了安全管理系统构建、访问控制,数据伪装等具体可行的技术手段,最后还将数据安全技术推广到大数据的应用场景
查询优化器是数据库中很重要的模块之一,只有掌握好查询优化的方法且了解查询优化的细节,在对数据库调优的过程中才能有的放矢,否则调优的过程就如无本之木、无源之水,虽上下求索而不得其法。本书揭示了PostgreSQL数据库中查询优化的实现技术细节,首先对子查询提升、外连接消除、表达式预处理、谓词下推、连接顺序交换、等价类推理等逻辑优化方法进行了详细描述,然后结合统计信息、选择率、代价对扫描路径创建、路径搜索方法、连接路径建立、Non-SPJ路径建立、执行计划简化与生成等进行了深度探索,使读者对PostgreSQL数据库的查询优化器有深层次的了解。本书适合数据库内核开发人员及相关领域的研究人员、数据库DBA、高等院校相关专业的本科生或者研究生阅读。
R语言作为如今热门的编程语言之一,它由统计学家开发,在解决数据分析问题时具有先天优势。它是一门新兴的语言,掌握它,就是掌握了一门高校的数据分析软件。随着大数据的轰炸,R语言的功能越来越丰富,越来越多的人对R语言产生了兴趣。R语言的特点主要是开源性、全面性、操作简便性、可扩展性等。《基于R语言数据挖掘的统计与分析》的编写是为了让对R语言有兴趣的读者能更加了解R语言,了解大数据时代的数据挖掘等。
本书在广泛调研、深入研究和实际应用基础上,详细解析数据中心基础设施具体包括供电、制冷、监控和机柜等各部分的设备级、系统级、整体级测试技术及维护测试技术,并作了较为深刻的经验总结。本书的编写与出版,不仅填补了数据中心测试技术研究书籍的空白,而且实际案例解析资料丰富、分析深入透彻、具有较高的系统性、创新性和实用性,为保障数据中心基础设施领域可靠、安全、稳定运行具有重要的参考价值与现实意义。
查询优化器是数据库中很重要的模块之一,只有掌握好查询优化的方法且了解查询优化的细节,在对数据库调优的过程中才能有的放矢,否则调优的过程就如无本之木、无源之水,虽上下求索而不得其法。本书揭示了PostgreSQL数据库中查询优化的实现技术细节,首先对子查询提升、外连接消除、表达式预处理、谓词下推、连接顺序交换、等价类推理等逻辑优化方法进行了详细描述,然后结合统计信息、选择率、代价对扫描路径创建、路径搜索方法、连接路径建立、Non-SPJ路径建立、执行计划简化与生成等进行了深度探索,使读者对PostgreSQL数据库的查询优化器有深层次的了解。本书适合数据库内核开发人员及相关领域的研究人员、数据库DBA、高等院校相关专业的本科生或者研究生阅读。
PostgreSQL作为当今进的开源关系型数据库,本书揭示PostgreSQL查询引擎运行原理和实现技术细节,其中包括:基础数据结构;SQL词法语法分析及查询语法树;查询分析及查询重写;子连接及子查询处理;查询访问路径创建;查询计划生成,等等。以深入浅出的方式讨论每个主题并结合基础数据结构、图表、源码等对所讨论的主题进行详细分析,以使读者对PostgreSQL查询引擎的运行机制及实现细节能有全面且深入的认识。
本书在广泛调研、深入研究和实际应用基础上,详细解析数据中心基础设施具体包括供电、制冷、监控和机柜等各部分的设备级、系统级、整体级测试技术及维护测试技术,并作了较为深刻的经验总结。本书的编写与出版,不仅填补了数据中心测试技术研究书籍的空白,而且实际案例解析资料丰富、分析深入透彻、具有较高的系统性、创新性和实用性,为保障数据中心基础设施领域可靠、安全、稳定运行具有重要的参考价值与现实意义。