本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在靠前版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL两个子项目也发生了较大变化,本书为关注Spark发展趋势的读者提供了与时俱进的资料,例如Dataset和DataFrame的使用,以及与DataFrame API高度集成的Spark ML API。
近年来,流处理变得越来越流行。作为高度创新的开源流处理器,Flink拥有诸多优势,包括容错性、高吞吐、低延迟,以及同时支持流处理和批处理的能力。本书分为6章,侧重于介绍Flink的核心设计理念、功能和用途,内容涉及事件时间和处理时间、窗口和水印机制、检查点机制、性能测评,以及Flink如何实现批处理。本书面向有兴趣学习如何分析大规模流数据的读者。
本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在靠前版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL两个子项目也发生了较大变化,本书为关注Spark发展趋势的读者提供了与时俱进的资料,例如Dataset和DataFrame的使用,以及与DataFrame API高度集成的Spark ML API。
本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在靠前版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL两个子项目也发生了较大变化,本书为关注Spark发展趋势的读者提供了与时俱进的资料,例如Dataset和DataFrame的使用,以及与DataFrame API高度集成的Spark ML API。
......
本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在靠前版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark使用了全新的核心API,MLlib和SparkSQL两个子项目也发生了较大变化,本书为关注Spark发展趋势的读者提供了与时俱进的资料,例如Dataset和DataFrame的使用,以及与DataFrameAPI高度集成的SparkMLAPI。
......
......
......
......