本书系统地介绍过程挖掘的原理、方法、技术及其在教育领域的应用,重点介绍基于Petri net 的形式化挖掘技术和基于语义的挖掘技术,并举一个完整的挖掘大学校园学生行为特征的 案例。本书既有完整的理论框架又有专门的教育领域实践应用,可供计算机、大数据、人工智 能等相关专业领域的学生和研究人员参考。
本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
本书是中山大学重点学科建设成果,获中国矿物岩石地球化学协会大数据与数学地球科学专业委员会推荐,是我国*部地质科学大数据与机器学习教材。本书是中山大学研究生试用研究型教材,对运用大数据挖掘与机器学习算法解决地球科学问题大有裨益。适合地质科学领域研究生和高年级本科生做教材,也可供科研人员研究时参考。它系统地介绍了地球科学大数据挖掘与机器学习的基本框架与原理,重点分析高维数据的降维、分类与预测、大图形社区结构识别、无限流数据处理、机器学习及人工智能地质学的建模过程,对必要的应用场景,使用Python语言给出案例。
技术是把双刃剑,当我们在积极拥抱新技术的同时,也不能忽视其所带来的风险,比如当今大数据时代个人隐私和安全问题。本书是两位作者结合各自出色的专业知识和丰富的从业经验为大众倾力奉献的一本大数据时代隐私问题的普及读物。书中展示了我们在家庭和工作中的日常活动是如何成为大数据收集的一部分的。同时,列举大量的大数据应用以及安全和隐私相关案例,包括企业如何利用大数据进行营销、执法机构如何利用大数据执法等,也包括不法分子如何利用非法或合法的手段获取数据,如何利用社交网络进行犯罪。针对上述问题,本书也列出了一些工具、技巧用来检查和防范,这在当前很有现实意义。
在新媒体时代,如果对新闻报道、网上搜索的结果或者所谓的 专家告知 不加思考地完全相信,那你就等着上当受骗吧! 本书围绕当今*受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、 安倍经济学 的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离ХХ、全球变暖问题、减肥、恩格尔系数的上升等10个主题进行数据解读,帮助读者模拟体验数据读取方法,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。 作为 大数据分析 的超级入门书,即使不擅长数学、不了解统计学的人,读完本书也可以彻底掌握数据解读方法!
本书主要以OpenTSDB的很新版本(2.3.1版本)为基础进行介绍。章从OpenTSDB的入门开始,介绍市面上多种时序数据库和云端时序数据库,OpenTSDB的基础概念、源码环境搭建及Grafana的基本使用等。第2章主要介绍OpenTSDB的网络层,涉及Java NIO基础、Netty基本使用,分析了OpenTSDB网络层的架构和实现。第3章介绍OpenTSDB中UniqueId组件的原理,主要讲解如何实现UID与字符串之间的映射。第4章介绍OpenTSDB如何实现时序数据的存储及相关优化。第5章介绍OpenTSDB如何实现时序数据的查询,其中分析了OpenTSDB查询中每个步骤的实现。第6章和第7章主要介绍OpenTSDB中的元数据及Tree结构的实现和功能。第8章主要分析OpenTSDB中的插件及工具类实现原理。
本书以大数据为研究背景,系统分析了传统数据技术当前存在的问题以及面临的挑战,并对比了当前主流的面向大数据的数据库解决方案,在此基础上阐述了笔者的研究工作:基于MapReduce平台高处处理大数据的OLAP研究。书中反应了当前大规模数据仓库研究的热点和成果,值得大数据研究的人员参考和应用。
《MySQL从入门到精通》从初学者角度出发,通过通俗易懂的语言以及丰富多彩的实例,详细介绍了MySQL开发应该掌握的各方面技术。《MySQL从入门到精通》共分为4篇23章,包括数据库基础,初识MySQL,使用MySQL图形化管理工具,数据库操作,存储引擎及数据类型,操作数据表,MySQL基础,表数据的增、删、改操作,数据查询,常用函数,索引,视图,数据完整性约束,存储过程与存储函数,触发器,事务的应用,事件,备份与恢复,MySQL性能优化,权限管理及安全控制,PHP管理MySQL数据库中的数据,Apache+PHP+MySQL实现网上社区,Struts 2+Spring+Hibernate+ MySQL实现网络商城等内容。所有知识都结合具体实例进行介绍,涉及的程序代码也给出了详细的注释,可以使读者轻松领会MySQL的精髓,快速提高开发技能。 《MySQL从入门到精通》内容详尽,实例丰富,非常适合作为编程初学
本书内容简介:数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将遗传算法和社会演化算法应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值本书研究了基于遗传算法和社会演化算法的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题,并将其应用于产品研发决策中所做主要工作包括:提出一种基于遗传算法和k-medoids算法的新的聚类方法;采用遗传算法和模式聚合进行文本特征降维;采用遗传算法和潜在语义索引进行文本特征降维;采用社会演化算法进行聚类;采用混沌社会演化算法进行聚类;采用改进的遗传算法和社会演化算法进行文本聚类研究;将文本挖掘应用到产品研发决策中,构建产品研发文本知识地图,以期提高产品研发的效率和质量。
近年来,随着Web技术的发展和应用的普及,大量用户将线下行为转移到线上进行,并且通过各种社会媒体随时随地进行社会交互和情感表达。这些海量的社会行为形成的大数据,催生了社会计算这个新的跨学科的研究和应用领域。《清华大学学术专著·社会计算:用户在线行为分析与挖掘》在大数据的时代背景和社会计算的框架下,介绍从大量用户在线行为数据中发现其中隐含的用户行为模式和兴趣偏好的方法和技术。全书主要内容分为7个部分,分别介绍用户在线搜索行为、网上购物行为、浏览行为、社会标注行为、评论行为以及社交行为等方面的数据分析技术和方法,涉及搜索意图的分析、购物模式的发现、周期行为的挖掘、标签的有效聚类、评论意见的挖掘、用户偏好的发现、个性化方法、链接分析以及社会网络的分析方法等研究内容。 《清华大学学术专
《从零进阶!数据分析的统计基础(第2版)》 共 6 章,分别讲解了数据分析的步骤和方法、描述性统计分析、抽样估计、假设检验、方差分析、 相关与回归分析,使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概率论等方面 的理论内容,并使用图示的方法详细介绍了使用 Excel 2013 进行简单的描述性统计分析和使用 SPSS 进行相 关的数据分析的过程与结果分析。
数据库的性能优化一直是DBA日常工作中非常重要的组成部分,然而很多DBA在学习了大量技术,参加了大量培训后,仍然会在实际工作中遇到难以下手的问题。实际上,在数据库优化工作中,方法和思路远比技术实现重要得多。 《DBA的思想天空:感悟Oracle数据库本质》重在介绍Oracle数据库的性能调优方法及相应的工作思路,但并不拘泥于技术细节。作者通过大量真实案例,深度剖析了相关技术原理,同时还阐述了理论知识在实践中的应用方法。优化工作的本质其实就是透过表象探寻根源,解决问题实现调优,正所谓 思路是道,操作方法是技 ,得道是极大的提升,也是DBA的思想精髓。 n
大数据是当前流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。 张俊林著的这本《大数据日知录:架构与算法》从架构与算法的角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。本书对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结
数据仓库项目开发者面临着许多独特的管理挑战,这些挑战足以难倒最富经验的项目管理者。本书针对这些挑战,用流畅易读的语言,为项目经理提供了管理数据仓库设计、开发、实现等方面的指导性意见。作者Sid Adelman和Larissa Moss拥有丰富的实战经验,他们指出了成功管理数据仓库的关键要素,揭示了许多必须提防的陷阱,并提供了可行的解决人案,帮助读者成功地完成数据仓库项目。 通过本书,你将能够深入地了解以下方面的内容; ·成功的关键要素和失败原因 ·结果评价 ·成本-效益分析 ·选择正确的工具软件和供应商 ·开发组成员的角色及责任 ·快速应用开发和并行开发途径的方法 ·为整合数据而开发逻辑数据模型和物理数据模型 ·数据质量的重要性以及如何清理原文件中的脏数据 在每一章结尾处,作者通过“警示”提
《Druid实时大数据分析原理与实践》内容提要 Druid 作为一款开源的实时大数据分析软件,最近几年快速全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分析、运维监控分析等,在腾讯、阿里、优酷、小米等公司都有大量成功应用的案例。《Druid实时大数据分析原理与实践》的目的就是帮助技术人员更好地深入理解Druid 技术、大数据分析技术选型、Druid 的安装和使用、特性的使用,也包括一些源代码的解析,以及一些常见问题的快速回答。 Druid 的生态系统正在不断扩大和成熟,Druid 也正在解决越来越多的业务场景。希望本书能帮助技术人员做出更好的技术选型,深度了解Druid 的功能和原理,更好地解决大数据分析问题。《Druid实时大数据分析原理与实践》适合大数据分析的从业人员、IT 人员、互联网从业者
本书着眼于真实的案例和真实的数据。每章通过对一个实际问题的描述和讨论引出特定的预测分析模型,分析的结果通过可视化图表进行展示,章节末尾提供了R语言编写的应用程序。通过对建模技术和编程工具的实际演示,把抽象化的概念转化为具体的例子,让这些可以成功运行的案例程序更易于理解。 本书不但适合计算机、统计等相关专业选作教材,还适合进行公司决策分析、大数据分析等的相关人员参考阅读。
本书分为两部分,共10章,从架构到管理,从自动化测试到持续集成,通过丰富的工作实例,系统而深入地讲解敏捷DW/BI的基本原理、关键技术和项目管理实践,为在真实商业智能和数据仓库项目上应用敏捷分析方法提供系统使用指南。从管理角度,详细介绍敏捷分析的基本原则,敏捷项目管理的有效实践,包括章程、规划、执行和检测敏捷分析项目的有效实践,展现如何使用案例和用户故事驱使价值持续传递,并讲解团队管理和领导的敏捷风格如何有效地替代传统命令控制风格;从技术角度,深入讲解能够持续传递商业价值并有质量保障的技术方法,包括设计推进、测试驱动的数据仓库开发、版本控制和项目自动化,以及应用敏捷分析时的一些注意事项。本书内容全面,讲解深入,并且涵盖许多经过实践检验的解决方案,适合IT决策者、数据仓库专业人士、数据库