本书是为广大数据分析师量身定制的入门读物,它旨在帮助读者站在大数据时代的制高点。数据分析处于统计学、计算机信息科学、运筹学、数据库等多个领域的交叉地带,大数据时代的到来大大丰富了数据分析的内涵,数据分析师的职责与以往相比发生了巨大的改变。本书全面介绍了经典数据分析、模式识别、机器学习、深度学习、数据挖掘、商务智能等多个领域的数据分析算法,将大数据时代的数据分析热点技术一网打尽。本书为每个数据分析算法都搭配了一个经典案例,并按照由易到难的原则构建知识框架,充分照顾了不同水平读者的阅读习惯。通过阅读本书,读者将对大数据时代下的数据分析有一个全面的认识。无论是入门级的数据分析员还是有一定基础的数据分析师,都能通过本书完善、加深对数据分析的认识。
本书是中山大学重点学科建设成果,获中国矿物岩石地球化学协会大数据与数学地球科学专业委员会推荐,是我国*部地质科学大数据与机器学习教材。本书是中山大学研究生试用研究型教材,对运用大数据挖掘与机器学习算法解决地球科学问题大有裨益。适合地质科学领域研究生和高年级本科生做教材,也可供科研人员研究时参考。它系统地介绍了地球科学大数据挖掘与机器学习的基本框架与原理,重点分析高维数据的降维、分类与预测、大图形社区结构识别、无限流数据处理、机器学习及人工智能地质学的建模过程,对必要的应用场景,使用Python语言给出案例。
本书通过选购笔记本电脑的案例引入数据包络分析(dataenvelopmentanalysis,DEA)的基本概念和模型,并运用简单的EXCEL模型让读者更易理解和运用DEA。本书着重阐述如何将DEA作为一种运营分析工具,进行绩效评估,找出基准标杆。探讨的主题包括:平衡的基准,昀佳实践,相对效率的概念及绩效提升。特别地,本书探讨的数据分析方法能够帮助一个组织重新审视它对生产效率高低的已有观点是否合理,并为组织不断改进提供指导。本书是市面上唯一本不要求读者具备线性规划和线性代数知识,就可以熟练应用DEA方法的DEA方法指导用书。
在新媒体时代,如果对新闻报道、网上搜索的结果或者所谓的 专家告知 不加思考地完全相信,那你就等着上当受骗吧! 本书围绕当今*受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、 安倍经济学 的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离ХХ、全球变暖问题、减肥、恩格尔系数的上升等10个主题进行数据解读,帮助读者模拟体验数据读取方法,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。 作为 大数据分析 的超级入门书,即使不擅长数学、不了解统计学的人,读完本书也可以彻底掌握数据解读方法!
本书基于作者近几年来的研究开发成果及应用实践,对物联网大数据技术体系进行了系统归纳,阐述了物联网环境下感知数据的特性、数据模型、事务模型以及调度处理方法等核心概念及关键技术,并对物联网大数据存储、管理、计算与分析的基本概念和关键技术进行了剖析。本书还介绍了自行研发的面向物联网的ChinDB实时感知数据库系统以及针对云计算环境下物联网大数据管理与应用的DeCloud云平台,介绍了它们在智能交通、智能电厂、教育、安全监控等多个行业的应用。书中所有实例,均来自作者所在团队的实际应用,大部分在物联网项目中得到了实践应用。本书对物联网应用的开发以及两化融合、工业4.0环境下的大数据处理分析具有重要参考价值。
本书以大数据为研究背景,系统分析了传统数据技术当前存在的问题以及面临的挑战,并对比了当前主流的面向大数据的数据库解决方案,在此基础上阐述了笔者的研究工作:基于MapReduce平台高处处理大数据的OLAP研究。书中反应了当前大规模数据仓库研究的热点和成果,值得大数据研究的人员参考和应用。
基于国家973和863相关项目成果,采用汤森路透德温特世界专利创新索引数据库作为统计数据来源,对信息存储领域的专利文献进行检索分析,从存储器件、设备、系统等层面,选取了目前信息存储领域中的多项重要技术,利用专利统计分析的方法对其发展态势进行了研究,特别是对信息存储领域相关专利进行宏观统计分析以及核心专利的具体分析,可以全方位了解信息存储技术的发展历程、专利的国家或地区分布、重要专利权人的竞争态势,为制定相关战略提供决策参考。同时结合华为、中兴、联想、浪潮、IBM、EMC、三星、美光等国内外知名企业的实际案例,从中国本土和全球的布局两个角度分别分析了专利产出、主要竞争者、热点技术和研发重点以及竞争态势,力求找到信息存储技术专利申请对技术产业化与企业发展的作用,供信息存储研发人员、专利工作者和
本书内容简介:数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将遗传算法和社会演化算法应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值本书研究了基于遗传算法和社会演化算法的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题,并将其应用于产品研发决策中所做主要工作包括:提出一种基于遗传算法和k-medoids算法的新的聚类方法;采用遗传算法和模式聚合进行文本特征降维;采用遗传算法和潜在语义索引进行文本特征降维;采用社会演化算法进行聚类;采用混沌社会演化算法进行聚类;采用改进的遗传算法和社会演化算法进行文本聚类研究;将文本挖掘应用到产品研发决策中,构建产品研发文本知识地图,以期提高产品研发的效率和质量。
进入大数据时代,让数据开口说话将成为司空见惯的事情,本书将从大数据时代的前因后果讲起,全面分析大数据时代的特征、企业实践的案例、大数据的发展方向、未来的机遇和挑战等内容,展现一个客观立体、自由开放的大数据时代。
《金融数据挖掘:基于大数据视角的展望》结构分为五个篇章。*篇介绍了数据挖掘方法。第二篇是银行数据挖掘篇,介绍了基于神经网络和支持向量机的信用评分方法。第三篇是证券数据挖掘篇,探讨了基于多种数据挖掘方法的股票价格预测、金融市场价格预测及股票自动交易系统。第四篇是保险及其他数据挖掘篇,研究了基于数据挖掘的保险欺诈监测、企业破产预测、财务报表欺诈监测等问题。第五篇从大数据的视角对金融数据挖掘进行了扩展和展望。 《金融数据挖掘:基于大数据视角的展望》的读者可以是对数据挖掘算法感兴趣的计算机专业人士或是对金融信息挖掘感兴趣的领域专家,也可作为金融信息工程方向的工程硕士教材或参考书。
《海量点云数据处理理论与技术》共分8章。第1章绪论,简要介绍海量点云处理技术的基础理论、方法以及主要内容。第2章介绍海量点云数据的预处理,包括点云数据的获取方案,点云的去噪、压缩、配准方法,以及点云空洞的插值方法。第3章介绍海量点云数据的重建方法,系统介绍常用的点云重建算法与特点,并详细介绍基于特征和基于切片的点云重建方法。第4章介绍点云数据及模型的质量评价,从理论和实际两方面对点云质量进行分析,总结点云配准过程中的误差传播模型,系统地归纳三维模型的质量评定方法。第5章介绍点云数据处理技术,详细介绍国内外常用的海量点云数据处理软件以及三维图像库。第6章介绍地面三维激光扫描仪在隧道监测领域的应用,系统介绍基于三维激光扫描技术的隧道点云数据获取、处理及变形分析方法。第7章介绍地面三维
数据挖掘技术,又称为数据库知识发现,是20世纪90年代在信息技术领域开始迅速发展起来的计算机技术。作者结合自己近20年从事人工智能、机器学习、数据挖掘等方面的科研工作积累与教学经验,编著此书。 本书较全面系统地介绍了数据挖掘中常用和常见的数据挖掘方法,以及文本与视频数据挖掘方法。 本书的主要内容包括:数据挖掘基本知识、数据挖掘预处理方法、决策树分类及其他分类方法、关联知识挖掘方法、各种聚类分析方法,以及文本挖掘所涉及表示、分类和聚类等方法,还包括视频挖掘所涉及的视频镜头检测、字幕提取、视频摘要和视频检索等主要分析方法。 本书作为学习、掌握和应用数据挖掘方法和技术的综合指导书,是从事数据挖掘研究与应用人员,以及希望了解数据挖掘主要方法和技术的IT技术人员的良师益友;同时也是一本可用于大学
本书以精练的语言介绍HBase的基础知识,让初学者能够快速上手使用HBase,对HBase的核心思想(如数据读取、数据备份等)和HBase架构(如LSM树、WAL)有深入的分析,让有经验的HBase开发人员也能够循序渐进地深入理解HBase源码,以便更好地去调试和解决线上遇到的各种问题。本书更加专注HBase在线实时系统的调优,让HBase集群响应延迟更低,能够更好地为在线实时系统服务。本书结合企业的“用户行为分析系统”,让读者能够快速上手的同时,也不乏企业HBase实际应用场景,理论不脱离实际,真正做到从入门到精通。 本书适合有一定Java基础的程序员作为HBase入门教程,HBase运维人员可以将本书作为参考手册来部署和监控HBase,正在将HBase应用到在线生成环境中的软件开发人员也可以参考本书来调优HBase在线集群性能。
笔者认为数据挖掘的出现,正是统计学适应这一变化的新的发展方向,数据挖掘并不是为了替代传统的统计分析技术,而是统计分析方法的延伸和扩展。本书从统计学视角研究数据挖掘,以期从统计学角度对数据挖掘理论的研究有所突破和创新,同时对统计学理论在数据挖掘方向的发展做出探索。
本书覆盖了数据仓储构建的所有主要领域,包括数据仓储的定义和环境;数据仓储的4个类型、对数据仓储的5类共15个要求;2个方法论的总结及3个构建方法。本书给出了一个高性能的参照系统结构。基于此参照系统结构,本书系统地讨论了大量设计议题、并包括21个设计建议、8个实践建议、7个设计原则、27个通用算法和技术、12个元数据驱动的通用操作符、7个工作过程、4个范式基础及范式原则。
本书首先介绍了大数据时代的特征,可以帮助你对大数据及其价值有一个概括性的了解和认识。其次,你将知道如何培养、挖掘、处理数据,使数据为自己创造更大价值。后,介绍了大数据在企业决策、运营管理、金融投资等方面的实际应用。内容简单实用,特别适合初级读者阅读。 大数据会作为一种资产存在,并将诞生一个万亿级别的交易市场。 大数据正以一种革命风暴的姿态引发全球关注。*马云指出, 互联网 已从 IT 时代到 DT (数字科技)时代,而 DT 是一个数据更充分流动的时代。而且未来大数据会作为一种资产存在,并将诞生一个万亿级别的交易市场。
《MySQL是怎样使用的:快速入门MySQL》采用通俗易懂的表达方式,对如何使用MySQL进行了详细的介绍。 《MySQL是怎样使用的:快速入门MySQL》完全从零基础用户的角度出发,依照用户认知习惯,从MySQL的安装开始,介绍了MySQL的服务器程序和客户端程序的使用、MySQL的数据类型、数据库和表的基本操作、列的属性、MySQL中的表达式和函数、简单和复杂的增删改查语句等入门知识,还介绍了视图、存储程序、备份与恢复、用户与权限管理等高级概念以及使用Java语言连接MySQL服务器等知识。 《MySQL是怎样使用的:快速入门MySQL》较好地契合了MySQL初学人员的学习曲线,内容深入浅出,通俗易懂,可帮助初学人员迅速入门MySQL。
本书以图书馆信息化为基点,从理论与实际应用角度,介绍了数据仓库与数据挖掘的概念、方法及在图书馆的应用。主要内容包括:以图书馆自动化集成系统日常工作中产生的数据为基础,详细介绍了应用微软SQL Server 2012数据仓库与数据挖掘工具进行图书馆数据仓库开发、数据集成服务、联机分析处理及常见数据挖掘技术挖掘过程。本书注重实践性,可操作性强,可作为企事业单位数据仓库与数据挖掘工作人员、研究人员参考用书
本书系统地介绍了知识图谱的相关概念、技术要素与应用,不仅涵盖了知识图谱技术的发展历程与特点,也涵盖了当前阶段知识图谱的主要应用,并分析了未来的发展趋势与挑战。本书从理论综述、技术解读、应用场景、实战分析等多个角度进行了阐述,内容全面且易于理解。 本书是一本入门级图书,面向具备一定计算机知识但没有知识图谱构建经验的读者,旨在帮助他们掌握知识图谱构建的专业知识。同时,本书还面向渴望了解知识图谱应用的各行业人员,旨在帮助他们拓展视野、开阔思路。相信所有对知识图谱感兴趣的读者通过阅读本书都能有所收获。
与十年前相比,数据挖掘作为数据分析与决策支持的重要技术,已在各行各业得到了更为广泛的应用。随着网络和]T技术的不断发展,数据挖掘应用必将更加深入和普及。作者根据,自己十多年教授“数据挖掘”课程的经验积累,编写了这本教材。 本书全面系统地介绍了数据挖掘的主要方法,并配有许多应用案例,使得读者能够更加容易地理解这些数据挖掘方法。同时本书每章后还配有许多思考题,使得这本书更适合作为“数据挖掘”课程的教材。 本书的主要内容包括数据挖掘概述、数据仓库与在线分析、分类挖掘、关联挖掘、聚类挖掘、异类挖掘、数据流挖掘、文本挖掘以及数据挖掘应用与数据挖掘云等。 本书适合作为高等院校高年级本科生、研究生相关课程的教材或参考书。对从事数据挖掘应用的技术人员以及希望了解数据挖掘方法与应用的广大
随着信息技术特别是网络技术的飞速发展,人们收集、存贮、传输数据的能力不断提高。数据出现了爆炸性增长,与此形成鲜明对比的是:对决策有价值的知识却非常匮乏。知识发现与数据挖掘技术正是在这一背景下诞生的一门新学科。数据挖掘要在实际应用中发挥作用,高性能挖掘算法和数据挖掘软件平台是重要的技术基础。本书以数据挖掘基本问题、频繁模式与关联规则挖掘为切入点,研究高时间效率、高空间可伸缩性的挖掘算法和分布,异质、海量数据的协同挖掘软件模型,并探讨了数据挖掘过程中的隐私保护问题。 本书首先发现了基于树表示形式的虚拟投影方法,用于按深度优先挖掘密集型数据集;提出了稀疏型数据集表示形式及非过滤投影方法;进_步提出了基于伺机投影的思想,设计并实现了基于伺机投影的全新算法OpportuneProject,对比实验表明,该