本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
过去几十年里,Web的迅速发展使其成为世界上规模zui大的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。 《世界计算机教材精选:Web数据挖掘(第2版)》旨在阐述Web数据挖掘的概念及其核心算法,使读者获得相对完整的关于Web数据挖掘的算法和技术知识。本书不仅介绍了搜索、页面爬取和资源探索以及链接分析等传统的Web挖掘主题,而且还介绍了结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等内容,这些内容在已有书籍中没有提及过,但它们在Web数据挖掘中却占有非常重要的地位。全书分为两大部分:部分包括第2章到第5章,介绍数据挖掘的基础,第二部分包括第6章到2章,介绍Web相关的挖掘任务。从本书自版出版之后,很多领域已经有了重大的进展。新版大部分的章节都已经添加了新的材料来反应这些进展,主要
本书以大数据为研究背景,系统分析了传统数据技术当前存在的问题以及面临的挑战,并对比了当前主流的面向大数据的数据库解决方案,在此基础上阐述了笔者的研究工作:基于MapReduce平台高处处理大数据的OLAP研究。书中反应了当前大规模数据仓库研究的热点和成果,值得大数据研究的人员参考和应用。
本书内容简介:数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将遗传算法和社会演化算法应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值本书研究了基于遗传算法和社会演化算法的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题,并将其应用于产品研发决策中所做主要工作包括:提出一种基于遗传算法和k-medoids算法的新的聚类方法;采用遗传算法和模式聚合进行文本特征降维;采用遗传算法和潜在语义索引进行文本特征降维;采用社会演化算法进行聚类;采用混沌社会演化算法进行聚类;采用改进的遗传算法和社会演化算法进行文本聚类研究;将文本挖掘应用到产品研发决策中,构建产品研发文本知识地图,以期提高产品研发的效率和质量。
大数据是当前流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。 张俊林著的这本《大数据日知录:架构与算法》从架构与算法的角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。本书对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结
本书系统介绍以太坊智能合约的开发,对智能合约相关知识进行全面梳理,尤其是对智能合约开发语言Solidity进行了详细解读,智能合约的开发者可以从书中获得一些启发和指导。本书可以作为一本案头手册,方便开发者在开发智能合约时随时查阅。
《大数据搜索与日志挖掘及可视化方案(第2版)》提出的分布式大数据搜索与日志挖掘及可视化方案是基于ELK Stack而提出的,它能有效应对海量大数据所带来的分布式存储与处理、全文检索、日志挖掘、可视化等问题。构建在全文检索开源软件Lucene之上的Elasticsearch,不仅能对海量规模的数据完成分布式索引与检索,还能提供数据聚合分析。据国际的数据库产品评测机构DB Engines的统计,在2016年1月,Elasticsearch已超过Solr等,成为排名的搜索引擎类应用;Logstash能有效处理来源于各种数据源的日志信息;Kibana能得出可视化分析结果。了解基于ELK Stack的大数据搜索与日志挖掘及可视化方案,掌握Elasticsearch、Logstash、Kibana的基本使用方法和技巧,很有必要。
Code Halo(数据场)是围绕在人们、设备、企业和行业周围的数据,通过破译这些数据所提供的信息和洞见,我们能够创造出新的商业模型,抓住此次基于数据场实现的技术变革所带来的巨大机遇,在数据场时代立于不败地位。书中呈现了抓住此次机遇的方式方法,以及如何在自己所处的行业内为此次机遇的到来做好万全的准备,并适时出手抓住这次机遇。
《数据结构综合设计实验教程》内容共分8章,前4章为基本数据结构的应用,第5章为多种数据结构的综合应用,第6~8章为数据结构知识扩展(部分数据结构书中含有这部分内容,但由于课时等原因讲解较少或未讲,因此可以放到综合设计中进行深入讲解;还有部分数据结构书中没有这部分内容,可以作为补充材料进行讲解)。本书在最后列出了一些实用的数据结构实践题目,可以方便老师在实践教学中选用或者学生自己选做。本书附录部分给出了实验报告的基本格式和实验报告范例,学生可以参照其要求进行实验。刘城霞主编的《数据结构综合设计实验教程》可作为高等院校计算机专业及相关专业的教材或参考书,也可供从事软件开发工作的人员和计算机编程爱好者参考。
《从零进阶!数据分析的统计基础》共章,分别讲解了数据分析的步骤和方法、描述性统计分析、抽样估计、假设检验、方差分析、相关与回归分析,使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概率论等方面 的理论内容,并使用图示的方法详细介绍了使用进行简单的描述性统计分析和使用进行相 关的数据分析的过程与结果分析。 《从零进阶!数据分析的统计基础》适合需要提升自身数据分析理论和实践能力的职场新人;在市场营销、金融、财务、人力资源管理中需要数据分析的人士;从事咨询、研究、分析等的专业人士。也可以作为数据分析师职业培训的教材,普通高等院校非统计专业数据分析的选修教材。
为推广数据中心的建设技术,贯彻执行国家标准,本书总结了数据中心供配电系统、空调系统、机柜系统和布线系统的理论和实践经验,阐述了数据中心用电设备对于电能的基本要求,介绍了数据中心环境要求、设备布局、空调系统规划、未来的发展趋势以及数据中心空调系统的评估和优化。
这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、方法论、规范、模型、解决方案和案例,不仅能让读者即学即用,还能让读者了解华为数字化建设的历程。 全书共10章,内容从逻辑上分为四个部分。 部分(~3章) 章以非数字原生企业在数字化转型方面面临的挑战开篇,介绍了华为在数据治理和数字化转型方面的目标、愿景、蓝图和框架;第2章从企业政策和架构协同的角度,介绍了企业级的数据综合治理体系,理顺了数据与变革、运营、IT之间的协同关系,明确了数据管理的责任主体在业务;第3章详细阐述了不同类型的数据的管理方式和要点。 第二
本书结合大数据技术趋势和中兴通讯的长期实践,对大数据技术提出的理解,对大数据研究提供了初步的思路和建议。本书首先从大数据的需求和现状出发,分析目前大数据出现的问题,然后针对这些问题对大数据存储、大数据处理,以及大数据的可视化进行了充分的探索。