Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。
R语言作为如今热门的编程语言之一,它由统计学家开发,在解决数据分析问题时具有先天优势。它是一门新兴的语言,掌握它,就是掌握了一门高校的数据分析软件。随着大数据的轰炸,R语言的功能越来越丰富,越来越多的人对R语言产生了兴趣。R语言的特点主要是开源性、全面性、操作简便性、可扩展性等。《基于R语言数据挖掘的统计与分析》的编写是为了让对R语言有兴趣的读者能更加了解R语言,了解大数据时代的数据挖掘等。
本书由数据中心IT建设和运营管理(ITBOM)联盟基于国家标准GB/T33136-2016《信息技术服务数据中心服务能力成熟度模型》编写。全书选取业界代表性单位,从流程关键管控点、管理要求和电子化工具等角度,对战略发展、运营保障和组织治理等各流程的真实情况进行详细说明,以期为业界的服务能力建设与成熟度提升提供参考与指导。
在这本书里,读者将会跟随作者一同对Oracle数据库的相关知识进行梳理,很终共同提炼出必须很先掌握的那部分知识,无论你是数据库开发、管理、优化、设计人员,还是从事Java、C的开发人员。接下来作者再将这部分知识中很实用的内容进一步提炼,浓缩出很精华的部分,分享给大家。这是“二八现象”的一次经典应用。这部分知识就是Oracle的物理体系结构、逻辑体系结构、表、索引以及表连接五大部分。通过阅读本书中的这些章节,读者将会在短时间内以一种有史以来很轻松的方式,完成对Oracle数据库的整体认识,不仅能解决工作中的常规问题,还能具备的设计和调优能力。通过对这些章节的学习,读者在Oracle的学习中会有极大的收获。然而,作者更希望看到的是:让读者的收获,不止Oracle。为达到此目的,作者精心将全书分成上下两篇,刚才所描述的具体知
作为数据仓库和商业智能(DW/BI)行业中有影响力的领军人物,RalphKimball、MargyRoss得到了世界范围内的认可和尊重,他们在《数据仓库与商业智能宝典(第1版)》中确立了行业标准。现在,在《数据仓库与商业智能宝典(第2版)成功设计、部署和维护DW/BI系统》中已经更新了65篇DesignTip和白皮书,从而汇集了DW/BI技术创新前沿的著作。从项目规划和需求收集,到维度建模、ETL和BI应用,本书涵盖了你在数据仓库和商业智能中将会遇到的所有内容。这些无与伦比的文章提供了成功地设计、部署和维护DW/BI系统的重要建议。主要内容:启动DW/BI项目和收集需求的注意事项集成式企业数据仓库的要素,其中包括总线架构和矩阵事实表的粒度性和三种基本类型渐变维度技术星型模式、外支架和桥接表维度建模高级模式提取、转换和加载(ETL)子系统与数据质量BI应用佳实践大数据注意事项
查询优化器是数据库中很重要的模块之一,只有掌握好查询优化的方法且了解查询优化的细节,在对数据库调优的过程中才能有的放矢,否则调优的过程就如无本之木、无源之水,虽上下求索而不得其法。本书揭示了PostgreSQL数据库中查询优化的实现技术细节,首先对子查询提升、外连接消除、表达式预处理、谓词下推、连接顺序交换、等价类推理等逻辑优化方法进行了详细描述,然后结合统计信息、选择率、代价对扫描路径创建、路径搜索方法、连接路径建立、Non-SPJ路径建立、执行计划简化与生成等进行了深度探索,使读者对PostgreSQL数据库的查询优化器有深层次的了解。本书适合数据库内核开发人员及相关领域的研究人员、数据库DBA、高等院校相关专业的本科生或者研究生阅读。