堪称相关行业的“动向”和“密码”的“大数据”究竟是什么?为什么如此受众人关注?未来大数据将改变什么?本书以图解的方式为大家详细解读众人关注的焦点——大数据。 大数据不仅仅是行业的热门话题,也是各行各业关注的焦点。因为它不仅改变了社会,也改变了我们的生活和工作方式。大数据还可应用于各个领域,比如气象预测、预防犯罪、医疗领域等,其功能无比强大。读完本书,你将读懂什么是大数据!
本书结合理论和实践,由浅入深,多方面介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。本书是一本很好不错、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的很新发展和应用,程序员可以