当今社会,大数据技术已广泛应用于各行各业,大数据相关的存储和分布式计算等基本知识也成为了时下大学生尤其是计算机相关专业学生应具备的常识。本书在内容上去繁就简,重点介绍大数据的相关基本概念和原理,包括存储原理和分布式处理的原理。本书主要围绕Hadoop大数据处理平台(第2章),介绍其中涉及的HDFS(第3章)、HBase(第4章)等存储技术和Hadoop MapReduce分布式处理技术(第6章);介绍了大数据相关的存储技术NoSQL数据库(第5章)以及数据仓库技术Hive(第7章);并对新兴的大数据平台Spark(第8章)以及其他流行的大数据技术(第9章)进行了介绍。 本书适合计算机专业的低年级学生作为大数据入门课程的教材或者其他专业学生的大数据课程教材。
本书借助大数据技术、统计学方法、人工智能技术对社会热点事件展开情感实证分析。以技术为主、分析为此、情感为辅。通过先进的技术分析情感的发展。本研究以微博平台作为切入口获取情感挖掘的大数据来源,通过构建一个较为全面的社会性事件情感分类词典,对社交网络中微博用户情感进行挖掘与可视化。通过对公众情感类型的多维度解析,从情感传播环境、情感传播方式、社会网络结构和用户行为模式四个方面探索社交网络中的舆情传播特征,由此提出合理引导网络舆情的相关对策建议。
本书以大数据为研究背景,系统分析了传统数据技术当前存在的问题以及面临的挑战,并对比了当前主流的面向大数据的数据库解决方案,在此基础上阐述了笔者的研究工作:基于MapReduce平台高处处理大数据的OLAP研究。书中反应了当前大规模数据仓库研究的热点和成果,值得大数据研究的人员参考和应用。
《不确定信息的处理与知识挖掘》在作者对粗糙集相关理论进行研究及应用的基础上,系统论述了不确定信息的处理与知识挖掘理论、方法体系,囊括了包含作者近期成果在内的一些先进模型、算法和实例。主要内容包括:基于广义决策系统分割点区分度的连续属性离散化方法、基于改进粒子群优化的连续属性离散化方法、基于相对分辨矩阵和信息熵的属性约简算法、基于属性区分频度的约简改进算法、基于全局寻优的完备信息系统知识获取算法、基于相容矩阵计算的不完备信息系统知识获取算法,后介绍了不确定信息的处理在城市交通领域中的应用研究。
本书是《实用数据结构基础(第四版)》(陈元春、王中华、张亮、王勇编著,中国铁道出版社出版) 的配套学习指导书。全书内容分为5部分:教学内容指导(包括对主教材第1~10章的知识点分析、典型 习题分析和各章习题解答);自主设计实验指导(对10个自主设计实验的设计思想、算法分析进行了详细 指导);模拟试卷;模拟试卷参考答案;数据结构课程设计报告样例。 本书对数据结构的概念和原理的阐述通俗易懂,例子翔实;习题难易适中,题型丰富;对数据结构 基本运算的分析注重实现的过程。本书以C/C++语言作为算法的描述语言,对于书中的实验和一些重要 的算法均给出了完整的C/C++语言源程序,并全部在Visual C++ 6.0环境下运行通过。 本书适合作为普通高等院校计算机类专业数据结构课程的教学辅导书,也可作为成
《数据链技术及应用》是一本全面介绍数据链系统概念、原理、组成、功能、集成及作战应用的教科书。全书共分7章,围绕数据链系统这一核心概念,主要介绍了数据链系统的基本概念、组成及工作原理,详细阐述了数据链系统的信息传输、信息安全、网络管理以及数据链与平台的集成,最后介绍了数据链在作战中的应用。《数据链技术及应用》可作为军队院校通信工程和指挥信息系统工程等相关专业的本科生教材,也可作为地方高等院校国防生相关专业教材和各类军队干部培训(轮训)教材,还可以作为国防科技人员和军事爱好者的参考资料。
本书主要包括绪论、线性表、栈和队列、串、数组、树形结构、图、内部排序、查找。教材中对各类数据结构的分析按照“逻辑结构—存储结构—基本运算的实现—时空性分析—实例”的顺序进行讲述,结构规范,条理清晰。书中给出的程序和算法都是经过仔细筛选的经典内容,便于读者理解和掌握,程序采用C语言描述并容易调试通过;每章有重点介绍和总结,总结对重要的知识点进行穿线,每章后针对本章重要知识点配有大量习题。本书可作为高等院校计算机有关专业本科生、专科生教材,也可作为自考成人教育的教材。
本书是数据挖掘精髓的浓缩。第1章用通俗易懂的语言回答五个基本问题,包括什么是数据,什么是大数据,什么是数据挖掘,以及数据挖掘能挖掘出哪些东西和会产生什么价值。然后用6章的篇幅介绍k-均值、k-近邻、朴素贝叶斯、决策树、回归分析和关联规则挖掘等6种方法。第8章介绍一些实际的应用,演示简单的数据挖掘方法如何产生巨大的价值。本书可供高校的数据科学与大数据、智能科学与技术、人工智能、计算机科学与技术和统计类、应用数学等相关专业的学生作为教材使用,也可供高校的商科大数据、金融等专业的学生、优秀的中学生、科技企业的管理者和相关行业的投资人学习参考。
朱东妹著的这本《数据仓库与数据挖掘概念、方法及图书馆应用》以图书馆信息化为基点,从理论与实际应用角度,介绍了数据仓库与数据挖掘的概念、方法及在图书馆的应用。主要内容包括:以图书馆自动化集成系统日常工作中产生的数据为基础,详细介绍了应用微软SQL Server 2012数据仓库与数据挖掘工具进行图书馆数据仓库开发、数据集成服务、联机分析处理及常见数据挖掘技术挖掘过程。 本书注重实践性,可操作性强,可作为企事业单位数据仓库与数据挖掘工作人员、研究人员参考用书。
MongoDB是一种面向文档的分布式数据库,可扩展,表结构自由,并且支持丰富的查询语句和数据类型。时至今日,MongoDB以其灵活的数据存储方式逐渐成为IT行业非常流行的一种非关系型数据库(NoSql)。 本书从学习与实践者的视角出发,本着通俗精简、注重实践、突出精髓的原则,精准剖析了MongoDB的诸多概念和要点。全书共分4个部分,分别从基础知识、深入理解MongoDB、监控与管理MongoDB和应用实践几个维度详细地介绍了MongoDB的特点及应用实例。 本书适合有海量数据存储需求的人员、数据库管理开发人员、数据挖掘与分析人员以及各类基于数据库的应用开发人员。读者将从书中获得诸多实用的知识和开发技巧。
《数据链技术及应用》是一本全面介绍数据链系统概念、原理、组成、功能、集成及作战应用的教科书。全书共分7章,围绕数据链系统这一核心概念,主要介绍了数据链系统的基本概念、组成及工作原理,详细阐述了数据链系统的信息传输、信息安全、网络管理以及数据链与平台的集成,最后介绍了数据链在作战中的应用。《数据链技术及应用》可作为军队院校通信工程和指挥信息系统工程等相关专业的本科生教材,也可作为地方高等院校国防生相关专业教材和各类军队干部培训(轮训)教材,还可以作为国防科技人员和军事爱好者的参考资料。
本书系统的讲述了数据挖掘技术的基本概念和基本原理,并列举了在相应领域具有参考价值的算法及其改进和应用,是作者多年来从事教学和科研实践的成果。全书共8章,主要内容有:绪论,数据,关联规则,分类规则,聚类分析,粗糙集理论,属性约简算法,数据挖掘的应用。
本书系统的讲述了数据挖掘技术的基本概念和基本原理,并列举了在相应领域具有参考价值的算法及其改进和应用,是作者多年来从事教学和科研实践的成果。全书共8章,主要内容有:绪论,数据,关联规则,分类规则,聚类分析,粗糙集理论,属性约简算法,数据挖掘的应用。
本书以任务驱动为主线,围绕企业级应用进行项目任务设计,主要内容包括数据采集与预处理准备、网络爬虫实践、日志数据采集实践和数据预处理实践,全面地讲述了Scrapy、Flume、Pig、Kettle、Pandas、OpenRefine等技术,以及urllib、Selenium基本库和BeautifulSoup解析库的相关知识与应用案例。 本书内容实用,可操作性强,语言精练、通俗易懂,可作为高等院校计算机应用技术、大数据技术与应用、软件技术、云计算技术与应用等计算机相关专业的教材,也可作为大数据分析、云计算应用领域技术人员的参考用书。
随着信息技术的飞速的发展,大数据时代已经到来。面对海量多源异构数据,企业如何通过挖掘大数据,进而改善用户服务是一个备受关注的问题。推荐系统是在大数据环境下解决“信息过载”问题,并向用户提供个性化服务的有效手段。本书将围绕个性化推荐,介绍推荐系统的原理、经典算法以及面向大数据的前沿推荐算法,并对推荐系统研究中的算法评价和常见问题进行介绍、分析和总结。此外,本书还提出了一种基于大数据网络的推荐算法,该算法基于用户网络和商品网络进行推荐系统的设计,为大数据环境下数据稀疏问题的解决提供了帮助。
朱东妹著的这本《数据仓库与数据挖掘概念、方法及图书馆应用》以图书馆信息化为基点,从理论与实际应用角度,介绍了数据仓库与数据挖掘的概念、方法及在图书馆的应用。主要内容包括:以图书馆自动化集成系统日常工作中产生的数据为基础,详细介绍了应用微软SQL Server 2012数据仓库与数据挖掘工具进行图书馆数据仓库开发、数据集成服务、联机分析处理及常见数据挖掘技术挖掘过程。 本书注重实践性,可操作性强,可作为企事业单位数据仓库与数据挖掘工作人员、研究人员参考用书。
本书分为上篇(基础篇)、中篇(编程篇)和下篇(应用篇)三篇,共13章。书中主要内容包括大数据技术概述、大数据处理平台Hadoop、分布式文件系统HDFS、分布式计算框架MapReduce、内存型计算框
空间数据挖掘是一个从海量数据中概括知识的不确定过程,不同用户在不同条件下有着不同的挖掘要求。本书提出空间数据挖掘视角,描述不同的数据挖掘需求,实现从相同数据向多种知识的变粒度挖掘。空间数据挖掘不确定性