本书结合理论和实践,由浅入深,多方面介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。本书是一本很好不错、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的很新发展和应用,程序员可以
本书共分6个单元,从最基本的磁盘分区、格式化到组建RAID磁盘阵列、LVM卷,从NFS、CIFS、iSCSI共享到Cinder块存储和Swift对象存储,从搭建GlusterFS和Ceph分布式存储系统到使Ceph和OpenStack进行整合、替换OpenStack的Glance和Nova后端存储,层层递进地讲述基本存储的概念、使用方法、主流分布式存储系统的搭建以及与云平台的整合,目的是让读者快速入门基本的云存储技术。本书可作为高职高专院校云计算技术与应用专业和计算机网络技术专业的基础核心课程,也可作为云计算应用和移动应用开发技术入门的培训,还可作为云计算运维人员和计算机爱好者的自学用书。
本书主要包括MySQL的安装与配置、数据库的创建、数据表的创建、数据类型和运算符、MySQL函数、查询数据、数据表的操作(插入、更新与删除数据)、索引、存储过程和函数、视图、触发器、用户管理、数据备份与恢复、日志以及性能优化等。通过两个综合案例的数据库设计,进一步讲述MySQL在实际工作中的应用。重点介绍MySQL安装与配置、数据类型和运算符以及数据表的操作。本书注重实战操作,帮助读者循序渐进地掌握MySQL中的各项技术。 本书共有480个实例和14个综合案例,还有大量的经典习题。下载文件中赠送了近20小时培训班形式的视频教学录像,详细讲解了书中每一个知识点和每一个数据库操作的方法和技巧。同时下载文件中还提供了本书所有例子的源代码,读者可以直接查看和调用。 本书适合MySQL数据库初学者、MySQL数据库开发人员和MySQL数据库
本书紧扣“大数据”这一时代主题,着眼于侦查领域大数据运用在法律研究方面的空白,构建起包括思维、模式、方法等全方位的大数据侦查体系,同时对大数据侦查可能产生的法律问题进行探讨,为侦查实务中大数据的运用提供方法、法律理论及程序上的指导。
本书以一个故事开始,阐释制作可视化数据图表的基本方法论,以及如何结合D3高效、快速地创建可视化图表。本书首先解释了可视化的基本涵义,以及D3的适用人群,然后从一个具体的例子入手,告诉我们如何去挑选合适的数据集,以什么样的形式来展现数据,同时对SVG进行了基础铺垫。在D3部分,本书介绍了D3的核心概念“选择集”与“数据连接”,同时对数据连接的几个经典场景进行了演绎,还结合D3介绍了绘图所要掌握的坐标系统、比例尺等基本概念。在数据加载方面,本书讲解了D3可以解析的多种数据格式,以及从后端加载数据的多种方法,同时解释了D3动画的制作方式,为制作交互式图表奠定了基础。,本书揭示了掌握D3的不二法门,并希望读者能够不断实践、持之以恒。全书写作风格生动有趣、内容通俗易懂,既适合D3初学者入门,也有助于有一定经验的
过去几十年里,Web的迅速发展使其成为世界上规模zui大的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。 《世界计算机教材精选:Web数据挖掘(第2版)》旨在阐述Web数据挖掘的概念及其核心算法,使读者获得相对完整的关于Web数据挖掘的算法和技术知识。本书不仅介绍了搜索、页面爬取和资源探索以及链接分析等传统的Web挖掘主题,而且还介绍了结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等内容,这些内容在已有书籍中没有提及过,但它们在Web数据挖掘中却占有非常重要的地位。全书分为两大部分:部分包括第2章到第5章,介绍数据挖掘的基础,第二部分包括第6章到2章,介绍Web相关的挖掘任务。从本书自版出版之后,很多领域已经有了重大的进展。新版大部分的章节都已经添加了新的材料来反应这些进展,主要
《云计算网络技术与应用》是云计算技术与应用专业校企合作系列。 该书以Linux操作系统、虚拟化网络基本技术、云计算平台和SDN平台的简介等基础知识为主,培养较为系统的云网络基本技能。在技术应用方面,以云网络的基本运用、KVM虚拟网络的搭建与使用、OpenStack和Docker网络的构建为主要内容进行项目实训,便于读者对基础知识的理解。该书采用模块化的编写思路,将Linu。基础网络、虚拟网络和SDN网络模块分解为配置Linux系统基础网络、搭建Linux虚拟化网络、搭建KVM虚拟化网络、搭建云计算平台网络、搭建软件定义网络(SDN)和云网络案例综合实训6个单元。在每一个单元中,首先提出要完成的任务目标,每个任务主要包含相关的基本知识介绍和实现步骤等。在阐述中尽量做到基础知识介绍具有针对性,任务目标操作具体化。每个单元还会提供一些拓展练习
谁将是忠实的客户?谁将不是呢?哪些消息对 哪些客户细分?如何化客户的价值?如 何将部的价值化?本书提供了强大的工具,可 以从上述和其他重要商业问题所在的公司数据库中 提取它们的答案。自本书第1版问世以来,数据挖掘 已经日益成为现代商业不可缺少的工具。在沙版本中,作者对每个章节都进行了大量的更新和 修订,并且添加民个新的章节。本书保留了早期版 本的重点,指导市场分析师、业务经理和数据挖掘 专家利用数据挖掘方法和技术来解决重要的商业问 题。在不牺牲准确度的前提下,为了简单起见,即使 是复杂的主题,作者也进行了简洁明了的介绍,并尽 量减少对技术术语或数学公式的使用。每个技术主 题都通过案例研究和源自作者经验的真实案例进行 说明,每章都包含了针对从业者的宝贵提示。书中介 绍
《Druid实时大数据分析原理与实践》内容提要 Druid 作为一款开源的实时大数据分析软件,最近几年快速全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分析、运维监控分析等,在腾讯、阿里、优酷、小米等公司都有大量成功应用的案例。《Druid实时大数据分析原理与实践》的目的就是帮助技术人员更好地深入理解Druid 技术、大数据分析技术选型、Druid 的安装和使用、特性的使用,也包括一些源代码的解析,以及一些常见问题的快速回答。 Druid 的生态系统正在不断扩大和成熟,Druid 也正在解决越来越多的业务场景。希望本书能帮助技术人员做出更好的技术选型,深度了解Druid 的功能和原理,更好地解决大数据分析问题。《Druid实时大数据分析原理与实践》适合大数据分析的从业人员、IT 人员、互联网从业者
本书是畅销书升级版,向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的成果,并以模块化的方式进行组织。本书着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的价值;同时,阐述了大数据给搜索引擎带来的新特性,结合目前大数据分析的主流工具,在搜索引擎中构建知识图谱,以及进行日志反馈学习,可以使得搜索引擎更加智能。本书不仅适合作为互联网行业从业者的技术参考书,也适合作为搜索引擎爱好者的参考读物。
本书主要围绕数据结构的基本知识点,设计了8个大型综合性练习案例,通过相关背景知识的回顾、题目解析与实现要点的分析以及测试方法分析等,为学生完成综合性的数据结构实践提供参考。本书所附光盘内容为这8个课程设计案例的源程序及教材中描述的测试数据。本教材还提供了8个课程设计题目及其简要的提示。这些案例和题目大多取材于程序设计竞赛题,具有较好的趣味性和技巧性。 本教材可作为数据结构课程配套的实验教材,也适合于对C程序设计以及数据结构有初步基础的读者学习数据结构的设计方法和提高编程技巧。