Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
数据新闻作为一种新型的新闻报道形式,弥补了传统新闻或叙事性新闻无法呈现的效果。数据新闻采用可视化的方法将单调的数据用一种直观、便于理解、更具说服力的方法呈献给读者。大量的数据比采访几十个对象获取的信息更多,做出的结论更客观易懂,也更容易阐明观点。 本书介绍在大数据环境下数据新闻的制作流程。以丰富的实践案例解析数据新闻的制作理念和方法。紧密围绕新闻人在制作数据新闻中的实际需求,全面介绍了数据新闻概述,获取数据的工具和方法,使用Openrefine清理和分析数据,数据质量分析,使用Tableau实现数据分析及可视化,以及标签云、关系图制作、Echarts和HTML5等其他数据新闻制作工具。 本书理论与实践结合,偏重数据新闻的具体制作方法。不仅包含的理论知识,而且包含具体的实践案例,多角度启发和引导读者的创新思维,增