本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
为顺应国内EPC 总承包工程推广的新形势, 提高企业风险管理水平, 普及工程保险知识, 特编写本书。 书中内容紧密结合国际先进工程保险理念, 对于在EPC 工程中涉及的工程险种、 安排、 采购、 合同后管理等问题均做了较为全面、 细致的分析。 同时, 列举了我国著名企业在海内外EPC 实践中实施保险策略的典型案例。本书可供从事EPC 项目或准备从事EPC 项目的公司领导、 项目经理、 风险管理人员、 监理、 咨询人员等作为岗位继续教育教材使用; 也可作为工程管理、 保险、 经贸专业在校研究生以及本科生的教学参考书或课外读物;也适合作为建设行业推行EPC 总承包模式进行系列培训的教材或参考用书。
本书以大数据为研究背景,系统分析了传统数据技术当前存在的问题以及面临的挑战,并对比了当前主流的面向大数据的数据库解决方案,在此基础上阐述了笔者的研究工作:基于MapReduce平台高处处理大数据的OLAP研究。书中反应了当前大规模数据仓库研究的热点和成果,值得大数据研究的人员参考和应用。
本书内容简介:数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将遗传算法和社会演化算法应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值本书研究了基于遗传算法和社会演化算法的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题,并将其应用于产品研发决策中所做主要工作包括:提出一种基于遗传算法和k-medoids算法的新的聚类方法;采用遗传算法和模式聚合进行文本特征降维;采用遗传算法和潜在语义索引进行文本特征降维;采用社会演化算法进行聚类;采用混沌社会演化算法进行聚类;采用改进的遗传算法和社会演化算法进行文本聚类研究;将文本挖掘应用到产品研发决策中,构建产品研发文本知识地图,以期提高产品研发的效率和质量。
笔者认为数据挖掘的出现,正是统计学适应这一变化的新的发展方向,数据挖掘并不是为了替代传统的统计分析技术,而是统计分析方法的延伸和扩展。本书从统计学视角研究数据挖掘,以期从统计学角度对数据挖掘理论的研究有所突破和创新,同时对统计学理论在数据挖掘方向的发展做出探索。
本书首先介绍了大数据时代的特征,可以帮助你对大数据及其价值有一个概括性的了解和认识。其次,你将知道如何培养、挖掘、处理数据,使数据为自己创造更大价值。后,介绍了大数据在企业决策、运营管理、金融投资等方面的实际应用。内容简单实用,特别适合初级读者阅读。 大数据会作为一种资产存在,并将诞生一个万亿级别的交易市场。 大数据正以一种革命风暴的姿态引发全球关注。*马云指出, 互联网 已从 IT 时代到 DT (数字科技)时代,而 DT 是一个数据更充分流动的时代。而且未来大数据会作为一种资产存在,并将诞生一个万亿级别的交易市场。
进入大数据时代,让数据开口说话将成为司空见惯的事情,本书将从大数据时代的前因后果讲起,全面分析大数据时代的特征、企业实践的案例、大数据的发展方向、未来的机遇和挑战等内容,展现一个客观立体、自由开放的大数据时代。
随着信息技术特别是网络技术的飞速发展,人们收集、存贮、传输数据的能力不断提高。数据出现了爆炸性增长,与此形成鲜明对比的是:对决策有价值的知识却非常匮乏。知识发现与数据挖掘技术正是在这一背景下诞生的一门新学科。数据挖掘要在实际应用中发挥作用,高性能挖掘算法和数据挖掘软件平台是重要的技术基础。本书以数据挖掘基本问题、频繁模式与关联规则挖掘为切入点,研究高时间效率、高空间可伸缩性的挖掘算法和分布,异质、海量数据的协同挖掘软件模型,并探讨了数据挖掘过程中的隐私保护问题。 本书首先发现了基于树表示形式的虚拟投影方法,用于按深度优先挖掘密集型数据集;提出了稀疏型数据集表示形式及非过滤投影方法;进_步提出了基于伺机投影的思想,设计并实现了基于伺机投影的全新算法OpportuneProject,对比实验表明,该