本书结合理论和实践,由浅入深,多方面介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。本书是一本很好不错、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的很新发展和应用,程序员可以
本书紧扣“大数据”这一时代主题,着眼于侦查领域大数据运用在法律研究方面的空白,构建起包括思维、模式、方法等全方位的大数据侦查体系,同时对大数据侦查可能产生的法律问题进行探讨,为侦查实务中大数据的运用提供方法、法律理论及程序上的指导。
本书结合理论和实践,由浅入深,多方面介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。本书是一本很好不错、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的很新发展和应用,程序员可以
本书以一个故事开始,阐释制作可视化数据图表的基本方法论,以及如何结合D3高效、快速地创建可视化图表。本书首先解释了可视化的基本涵义,以及D3的适用人群,然后从一个具体的例子入手,告诉我们如何去挑选合适的数据集,以什么样的形式来展现数据,同时对SVG进行了基础铺垫。在D3部分,本书介绍了D3的核心概念“选择集”与“数据连接”,同时对数据连接的几个经典场景进行了演绎,还结合D3介绍了绘图所要掌握的坐标系统、比例尺等基本概念。在数据加载方面,本书讲解了D3可以解析的多种数据格式,以及从后端加载数据的多种方法,同时解释了D3动画的制作方式,为制作交互式图表奠定了基础。最后,本书揭示了掌握D3的不二法门,并希望读者能够不断实践、持之以恒。全书写作风格生动有趣、内容通俗易懂,既适合D3初学者入门,也有助于有经验的
数据新闻作为一种新型的新闻报道形式,弥补了传统新闻或叙事性新闻无法呈现的效果。数据新闻采用可视化的方法将单调的数据用一种直观、便于理解、更具说服力的方法呈献给读者。大量的数据比采访几十个对象获取的信息更多,做出的结论更客观易懂,也更容易阐明观点。 本书介绍在大数据环境下数据新闻的制作流程。以丰富的实践案例解析数据新闻的制作理念和方法。紧密围绕新闻人在制作数据新闻中的实际需求,全面介绍了数据新闻概述,获取数据的工具和方法,使用Openrefine清理和分析数据,数据质量分析,使用Tableau实现数据分析及可视化,以及标签云、关系图制作、Echarts和HTML5等其他数据新闻制作工具。 本书理论与实践结合,偏重数据新闻的具体制作方法。不仅包含的理论知识,而且包含具体的实践案例,多角度启发和引导读者的创新思维,增
本书从Power BI的基础功能讲起,逐步深入到Power BI进阶实战,以业务案例为导向,以Power BI桌面版操作为基础进行讲解,深入讲述Power BI在各个业务部门的应用。本书包括7篇共21章内容,分业务场景进行讲解。篇用1章内容讲述Power BI基础操作,方便读者快速入门;第2篇用4章内容讲述如何用Power BI爬取天气、电影、销售、股票等数据;第3篇用4章内容讲述销售部门如何用Power BI分解销售目标,分析业绩达成、会员RFM和业绩构成;第4篇用5章内容讲述产品相关应用,包括存货分析、帕累托分析、关联分析、款分析和数据化陈列;第5篇用2章内容讲述在财务方面的应用,包括盈亏平衡分析和上市公司利润表分析;第6篇用3章内容讲述人力资源应用,包括人员结构及离职率分析、新员工分析和考勤分析;第7篇用2章内容讲述简化报告的技巧。
“大数据”近年成为IT领域的热点话题,人们每天都会通过互联网、移动设备等产生大量数据。如何管理大数据、掌握大数据的核心技术、理解大数据相关的生态系统等,是作为大数据开发者必须学习和熟练掌握的。本系列书以“大数据开发者”应掌握的技术为主线,共分两卷,以7个模块分别介绍如何管理大数据生态系统、如何存储和处理数据、如何利用Hadoop工具、如何利用NoSQL与Hadoop协同工作,以及如何利用Hadoop商业发行版和管理工具。本系列书涵盖了大数据开发工作的核心内容,全面且详尽地涵盖了大数据开发的各个领域。 本书为卷,共4个模块,分别介绍大数据基础知识、大数据生态系统的管理、HDFS和MapReduce以及Hadoop工具(如Hive、Pig和Oozie等)。本书适用于想成为大数据开发者以及所有对大数据开发感兴趣的技术人员和决策者阅读。