Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
本全书内容主要包括11章和三个附录,其中11章又分为两大部分,部分是一些基础的介绍性的内容,章和第二章完整地讲述了元数据的意义以及一些基本的概念,第三章则从总体上分明绍了当前主要的元数据标准。第二部分则根据无数据的仓储项目生命周期的各个阶段,分别在第四章到第九章介绍了元数据的工具的评估,元数据仓储项目的组织和人员的配置,如何制定元数据的项目计划,元数据体系的结构的设计,如何通过元数据来提高数据的质量以及元模型的构造,此外,第十章还详细地介绍了开发周期的各个阶段该交付的产品以及取得的阶段性的成果,最后第十一章展望了元数据的未来发展的趋势。
现代数据服务面临的两大问题是数据保障和不间断服务,即数据服务的高可用性(HighAvailability)。本书论述Oracle在此方面的两类解决方案:数据卫士(Data Guard)和数据集群(Real Application Cluster,RAC)。数据卫士将主数据库的数据变更通过异步或同步的方式传播到网络(局域网或广域网)上的另一台或多台主机上,从而实现对主数据库的数据保护。不仅如此,这些跟随主数据库数据变化的主机(备用数据库)还可以实现联机的只读访问或暂时的数据读/写,这就大大增强了数据卫士的应用价值。RAC数据集群则是将数据库同时运行在高速局域网的多个不同的主机上,这种处理方式不仅可以将应用系统的访问负荷分散到不同的服务器上,还可以通过多台主机服务之间的冗余来防范单节点故障,从而为用户提供不间断的数据访问。RAC和Data Guard的联合应用,可以实现当前IT业
现代数据服务面临的两大问题是数据保障和不间断服务,即数据服务的高可用性(HighAvailability)。本书论述Oracle在此方面的两类解决方案:数据卫士(Data Guard)和数据集群(Real Application Cluster,RAC)。数据卫士将主数据库的数据变更通过异步或同步的方式传播到网络(局域网或广域网)上的另一台或多台主机上,从而实现对主数据库的数据保护。不仅如此,这些跟随主数据库数据变化的主机(备用数据库)还可以实现联机的只读访问或暂时的数据读/写,这就大大增强了数据卫士的应用价值。RAC数据集群则是将数据库同时运行在高速局域网的多个不同的主机上,这种处理方式不仅可以将应用系统的访问负荷分散到不同的服务器上,还可以通过多台主机服务之间的冗余来防范单节点故障,从而为用户提供不间断的数据访问。RAC和Data Guard的联合应用,可以实现当前IT业