本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
过去几十年里,Web的迅速发展使其成为世界上规模zui大的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。 《世界计算机教材精选:Web数据挖掘(第2版)》旨在阐述Web数据挖掘的概念及其核心算法,使读者获得相对完整的关于Web数据挖掘的算法和技术知识。本书不仅介绍了搜索、页面爬取和资源探索以及链接分析等传统的Web挖掘主题,而且还介绍了结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等内容,这些内容在已有书籍中没有提及过,但它们在Web数据挖掘中却占有非常重要的地位。全书分为两大部分:部分包括第2章到第5章,介绍数据挖掘的基础,第二部分包括第6章到2章,介绍Web相关的挖掘任务。从本书自版出版之后,很多领域已经有了重大的进展。新版大部分的章节都已经添加了新的材料来反应这些进展,主要
本书以大数据为研究背景,系统分析了传统数据技术当前存在的问题以及面临的挑战,并对比了当前主流的面向大数据的数据库解决方案,在此基础上阐述了笔者的研究工作:基于MapReduce平台高处处理大数据的OLAP研究。书中反应了当前大规模数据仓库研究的热点和成果,值得大数据研究的人员参考和应用。
本书主要以OpenTSDB的很新版本(2.3.1版本)为基础进行介绍。章从OpenTSDB的入门开始,介绍市面上多种时序数据库和云端时序数据库,OpenTSDB的基础概念、源码环境搭建及Grafana的基本使用等。第2章主要介绍OpenTSDB的网络层,涉及Java NIO基础、Netty基本使用,分析了OpenTSDB网络层的架构和实现。第3章介绍OpenTSDB中UniqueId组件的原理,主要讲解如何实现UID与字符串之间的映射。第4章介绍OpenTSDB如何实现时序数据的存储及相关优化。第5章介绍OpenTSDB如何实现时序数据的查询,其中分析了OpenTSDB查询中每个步骤的实现。第6章和第7章主要介绍OpenTSDB中的元数据及Tree结构的实现和功能。第8章主要分析OpenTSDB中的插件及工具类实现原理。