本书结合理论和实践,由浅入深,多方面介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。本书是一本很好不错、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的很新发展和应用,程序员可以
本书紧扣“大数据”这一时代主题,着眼于侦查领域大数据运用在法律研究方面的空白,构建起包括思维、模式、方法等全方位的大数据侦查体系,同时对大数据侦查可能产生的法律问题进行探讨,为侦查实务中大数据的运用提供方法、法律理论及程序上的指导。
《Oracle数据库管理与应用:基于Oracle12c版本(第2版)/高等教育精品教材》是一本全面介绍Oracle数据库技术基本架构、DBA管理和对象数据库等知识的教程。全书包括5部分共21章。部分讨论了Oracle数据库的基本架构,包括物理架构和逻辑架构,第二部分全面介绍了Oraclel2c的新特性——多租户数据库及Oracle常用的数据对象,第三部分全面介绍了Oracle数据库的PL/SQL语言,第四部分探讨了Oracle数据库的备份及恢复策略,第五部分详细介绍了基于Oracle数据库的对象关系数据库的设计方法、步骤及其实现脚本等。《Oracle数据库管理与应用:基于Oracle12c版本(第2版)/高等教育精品教材》内容全面、概念清晰、语言流畅、图文并茂,可作为高等院校计算机相关专业Oracle数据库课程的教材,也可供从事于计算机软件工作的科技人员(如数据分析系统、电子商务网站开发人员等)参阅。
互联网的蓬勃发展,业务驱动技术不断升级,在系统越来越庞大,技术越来越复杂,应用部署集群化,所有压力指向数据库,数据量巨大,数据库优化也到极限了,数据库的运维难以为继,在这种情况下,分布式数据库似乎成为的解决方案。为了解决传统数据库的分布式化这个技术难题,各种数据库中间件应运而生,从早期的Amoeba、TDDL、Cobar,到如今的Mycat,技术日新月异,发展迅猛。Mycat已经成为了一个强大的开源分布式数据库中间件产品。面对企业应用的海量数据事务处理,是目前的开源解决方案。支持多种数据库,开发活跃,已有数百个项目使用,预期Mycat的采用将有爆发式增长趋势。所以Mycat开源社区核心开发者共同撰写了本书,帮助企业更好的使用Mycat中间件架构企业分布式数据库系统。
本书以一个故事开始,阐释制作可视化数据图表的基本方法论,以及如何结合D3高效、快速地创建可视化图表。本书首先解释了可视化的基本涵义,以及D3的适用人群,然后从一个具体的例子入手,告诉我们如何去挑选合适的数据集,以什么样的形式来展现数据,同时对SVG进行了基础铺垫。在D3部分,本书介绍了D3的核心概念“选择集”与“数据连接”,同时对数据连接的几个经典场景进行了演绎,还结合D3介绍了绘图所要掌握的坐标系统、比例尺等基本概念。在数据加载方面,本书讲解了D3可以解析的多种数据格式,以及从后端加载数据的多种方法,同时解释了D3动画的制作方式,为制作交互式图表奠定了基础。最后,本书揭示了掌握D3的不二法门,并希望读者能够不断实践、持之以恒。全书写作风格生动有趣、内容通俗易懂,既适合D3初学者入门,也有助于有经验的
本书从Power BI的基础功能讲起,逐步深入到Power BI进阶实战,以业务案例为导向,以Power BI桌面版操作为基础进行讲解,深入讲述Power BI在各个业务部门的应用。本书包括7篇共21章内容,分业务场景进行讲解。篇用1章内容讲述Power BI基础操作,方便读者快速入门;第2篇用4章内容讲述如何用Power BI爬取天气、电影、销售、股票等数据;第3篇用4章内容讲述销售部门如何用Power BI分解销售目标,分析业绩达成、会员RFM和业绩构成;第4篇用5章内容讲述产品相关应用,包括存货分析、帕累托分析、关联分析、款分析和数据化陈列;第5篇用2章内容讲述在财务方面的应用,包括盈亏平衡分析和上市公司利润表分析;第6篇用3章内容讲述人力资源应用,包括人员结构及离职率分析、新员工分析和考勤分析;第7篇用2章内容讲述简化报告的技巧。
随着大数据的蓬勃发展,不少机构开始将源源不断的数据流导入到一个叫“数据湖”的设备中去。数据湖架构 是“数据仓库”之父撰写的全新著作,是帮助读者认识数据湖架构,并把数据湖打造成公司资产的指导手册。数据湖架构 共15章,分别涉及数据湖简介、数据池据湖内部结构、数据池及其结构、各种类型的数据池等技术话题,目的在于讲解如何构建有用的数据湖,以便数据科学家和数据分析师能够解决商业挑战并找出新的商业机会。数据湖架构 适合数据管理者、学生、系统开发人员、架构师、程序员以及终用户阅读。
数据新闻作为一种新型的新闻报道形式,弥补了传统新闻或叙事性新闻无法呈现的效果。数据新闻采用可视化的方法将单调的数据用一种直观、便于理解、更具说服力的方法呈献给读者。大量的数据比采访几十个对象获取的信息更多,做出的结论更客观易懂,也更容易阐明观点。 本书介绍在大数据环境下数据新闻的制作流程。以丰富的实践案例解析数据新闻的制作理念和方法。紧密围绕新闻人在制作数据新闻中的实际需求,全面介绍了数据新闻概述,获取数据的工具和方法,使用Openrefine清理和分析数据,数据质量分析,使用Tableau实现数据分析及可视化,以及标签云、关系图制作、Echarts和HTML5等其他数据新闻制作工具。 本书理论与实践结合,偏重数据新闻的具体制作方法。不仅包含的理论知识,而且包含具体的实践案例,多角度启发和引导读者的创新思维,增
本书用最轻松的图解方式来讲解数据结构,全书采用丰富的图例阐述数据结构的基本概念及应用,并将重要理论、演算方法做最详细的诠释与举例,是一本兼具内容及专业的数据结构的教学用书。由于作者长期从事信息教育及写作,在文字的表达上简洁明了、逻辑清晰,并安排了大量的习题,供读者检验学习成果。
数据分析已经成为数据时代各行各业突破各自行业发展瓶颈的有效手段,无论是公司职员还是个体商户或大公司管理者,都需要有数据分析的能力。 n本书系统地介绍了数据分析的统计理论基础内容,共5章。章阐述了数据分析在当今生活中的重要性,以及人们成为各自领域的数据分析师的必要性和学习路径;第2章从数据描述的三个维度展开,详细介绍了如何从集中趋势、离散程度和分布形态对数据进行描述,从而使分析者充分了解自己手头的数据;第3章介绍了推断性数据统计分析的内容,介绍了如何通过样本数据特性推断出总体数据特征;第4章是关于预测分析的,介绍了变量之间的相关分析,以及如何使用容易获取的数据信息预测难以获取的数据信息,用过去的历史数据信息预测未来可能出现的数据信息;第5章介绍了数据结果可视化的内容,包括各种统计图形
所有连续的事件流都可以称为数据流。对连续数据流设计和构建流式数据架构,能够实现实时或近实时应用,提升整个组织的效率。本书以Apache Kafka 和MapRStreams为例,重点讲解如何确定使用流数据的时机、如何为多用户系统设计流式架构、为什么要求消息传递层具备某些特定功能,以及为什么需要微服务,并且描述了目前很符合流式设计需求的消息传递和流分析工具,适合架构师、大数据科学家及IT工程师阅读。