本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
本书是中山大学重点学科建设成果,获中国矿物岩石地球化学协会大数据与数学地球科学专业委员会推荐,是我国*部地质科学大数据与机器学习教材。本书是中山大学研究生试用研究型教材,对运用大数据挖掘与机器学习算法解决地球科学问题大有裨益。适合地质科学领域研究生和高年级本科生做教材,也可供科研人员研究时参考。它系统地介绍了地球科学大数据挖掘与机器学习的基本框架与原理,重点分析高维数据的降维、分类与预测、大图形社区结构识别、无限流数据处理、机器学习及人工智能地质学的建模过程,对必要的应用场景,使用Python语言给出案例。
部分(第1~4章)为基础和背景部分,主要介绍数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的本质,以及实践中常见分析项目类型的介绍。第二部分(第6~13章)是数据分析挖掘中的具体技巧和案例分享部分,主要介绍实践中常见的分析挖掘技术的实用技巧,并对大量的实践案例进行了全程分享展示。第三部分(第5章,第14~19章)是有关数据分析师的责任、意识、思维的培养和提升的总结和探索,以及一些有效的项目质控制度和经典的方法论介绍。
本书是《实用数据结构基础(第四版)》(陈元春、王中华、张亮、王勇编著,中国铁道出版社出版) 的配套学习指导书。全书内容分为5部分:教学内容指导(包括对主教材第1~10章的知识点分析、典型 习题分析和各章习题解答);自主设计实验指导(对10个自主设计实验的设计思想、算法分析进行了详细 指导);模拟试卷;模拟试卷参考答案;数据结构课程设计报告样例。 本书对数据结构的概念和原理的阐述通俗易懂,例子翔实;习题难易适中,题型丰富;对数据结构 基本运算的分析注重实现的过程。本书以C/C++语言作为算法的描述语言,对于书中的实验和一些重要 的算法均给出了完整的C/C++语言源程序,并全部在Visual C++ 6.0环境下运行通过。 本书适合作为普通高等院校计算机类专业数据结构课程的教学辅导书,也可作为成
数据仓库与数据挖掘是计算机专业和其他一些与计算机技术关系密切专业必修的核心课程。《数据仓库与数据挖掘技术》系统地介绍了数据仓库和数据挖掘的基本概念、相关知识和基本方法,每种数据挖掘方法都有详尽的实例描述和具体实现步骤。《数据仓库与数据挖掘技术》结构严谨,条理清晰,语言浅显易懂,循序渐进地表达了知识内容;《数据仓库与数据挖掘技术》坚持理论与实际相结合,概念和具体方法相结合,使知识具体化,生动化;实例实现的过程建立在sql2005数据挖掘软件的基础上,以帮助读者在学习后达到学以致用的目的。 本书可以作为计算机类、信息类等相关专业本科生数据挖掘课程的教材,也可以作为其他专业技术人员的自学参考书。
本书重点介绍数据质量管理与安全管理的理论及应用。首先通过数据管理现况和问题的分析,提出数据质量管理的步必须是将各种来源的数据标准化,具有统一的数据格式和规则。书稿中强调了提高数据质量不仅可提高信息系统的质量,还可提高经营活动的质量。需要制定质量管理计划或执行具体的质量管理活动。定义了数据质量的准确性、一致性、可用性、可达性、及时性、安全性这6个标准以及对应的管理流程,划分了5个能力成熟度的等级,界定了从管理者到执行者等各个质量管理活动和责任。提出多项数据质量管理主要技术和各国实用案例,还进一步在Orange数据库中实践了数据质量诊断流程。书稿后半部针对日益增长的数据库安全性的需求,提出了安全管理系统构建、访问控制,数据伪装等具体可行的技术手段,后还将数据安全技术推广到大数据的应用场景。
李於洪主编的《数据仓库与数据挖掘导论》为数据仓库与数据挖掘的基础教程,是作者多年来从事数据仓库与数据挖掘课程教学经验的梳理和总结。为了增强内容的直观性和可理解度,全书以大量图、表、实例融入其中。全书共分为四篇14章。篇为导引,共分2章:用实例和实例分析引导学生理解数据仓库与数据挖掘的概念内涵及其产生背景。第二篇为数据仓库,共分5章:详细介绍了数据仓库的体系结构及其组成部分的功能;从商业需求的角度介绍了数据仓库维度建模方法和联机分析处理操作;介绍了元数据在数据仓库建设中的重要性、分类方法与作用。第三篇为数据挖掘,共分4章:通过浅显易懂的语言及实例,深入浅出地介绍了关联分析方法、神经网络算法、决策树算法和聚类分析方法。第四篇为实验与工具,共分3章:提供了数据仓库实验、神经网络建模实
本书全面、系统地介绍了数据仓库的原理、开发和应用技术。主要内容包含数据仓库、联机分析处理和数据挖掘的基本概念、体系结构、开发模型、项目规划、创建过程和应用管理,涵盖了数据仓库的完整生命周期。本书力求从务实的角度出发,揭开笼罩在数据仓库、联机分析处理和数据挖掘上面的神秘面纱,使读者能对数据仓库、联机分析处理和数据挖掘有一个正确认识,以推动数据仓库在我国的健康发展。 本书为授课教师免费提供电子教案,此教案用PowerPoint制作,可以任意修改。需要者可以从中国水利水电出版社网站www.waterpub.com.cn下载,也可与北京万水电子信息有限公司联系,联系电话:(010)82564395。
本书是与张宏军教授等编著的《作战仿真数据工程》教材配套的实验指导书。本书根据《作战仿真数据工程》教材的组织特点编排了实验内容。紧密配合理论教学.合理安排数据工程的实验教学,使学生能够在有限的实验课时中,加深对所学知识的理解与掌握,熟练使用常用的数据工程相关处理软件,培养和提高学生的实际操作水平。 本书涵盖了作战仿真数据规划、数据建模、数据集成、元数据集拟制、数据分析与数据挖掘、数据可视化、数据管理等方面的实验项目,实验内容饱满、步骤详细,有助于提高学生的实验效果。 本书可作为相关专业研究生和高年级本科生的实验教材,也可作为工程技术人员的参考书。
本书是一本全面介绍数据挖掘和知识发现技术的专业书籍,它系统地阐述了数据挖掘和知识发现技术的产生、发展、应用以及相关概念、原理和算法,对数据挖掘中的主要技术分支,包括关联规则、分类、聚类、序列、空间以及web挖掘等进行了理沦剖析和算法描述。本书的许多内容是作者们在攻读博士学位期间的工作总结,一方面,对于相关概念和技术的阐述尽量先从理论分析人手,在此基础上进行技术归纳;另一方面,为了保证技术的系统性,所有的挖掘模型和算法描述都在统一的技术归纳框架下进行。同时,为了避免抽象算法描述给读者带来的理解困难,本书的所有典型算法都通过具体跟踪执行实例来进一步说明。 本书共分8章,各章相对独立成篇,以利于读者选择性学习。在每章后面都设置专门一节来对本章内容和文献引用情况进行归纳,它不仅可以帮
本书对面向应用的数据挖掘方法进行了清晰的阐述,包括经典的多元统计方法、贝叶斯多元统计方法、基于机器学习的数据挖掘方法和基于计算的数据挖掘方法等。介绍了数据挖掘领域中许多*的研究成果,如关联规则、序列规则、图示马尔可夫模型、基于存储的推理、信用风险和Web挖掘等。并详细介绍了选自实际工业项目的6个应用实例,强调了数据挖掘方法的实用性。 本书主要面向计算机科学、信息管理、应用统计学和经济学等专业的高年级本科生和研究生。对实际从事海量数据分析和处理的技术人员也有很好的指导作用和参考价值。
《先进制造理论研究与工程技术系列:误差理论与数据处理》系统地介绍测量误差的基本理论与测量数据处理的基本方法,包括测量误差的基本概念、特征规律性、表述方法及传递计算,一般测量问题中的数据处理方法,不确定度的估计与合成,小二乘法和回归分析。 《误差理论与数据处理》为高等工科院校机械、材料、精密仪器等专业本科生教材,也可供相关专业工程技术人员参考。
本书是一本Oracle数据库管理的入门教材,适合于初中级的读者,是作者二十多年IT工作和教学实践的总结与升华。 本着“把Oracle数据从高雅的象牙塔中带出来,使它的贵族身份贫民化,为普通人提供一套能买得起,而且容易读懂的Oracle数据库实用教材”的写作理念,本书使用生动而简单的生活例子来解释复杂的计算机和数据库概念,避免用计算机的例子来解释计算机和数据库的概念。本书是自封闭的,除了的SQL知识之外,读者可以在没有任何计算机专业知识的情况下从头开始阅读此书,而且也不需要其他的参考书。为了消除读者对IT教材常有的畏惧感,书中使用的语言轻松而幽默。 本书是一本Oracle数据库管理的实用教材。虽然它覆盖了OCP(Oracle认证专家)或OCA考试的几乎全部的内容,但重点放在实际工作能力的训练。因此本书中的每章附有大量的例题,而且
《数据仓库与数据挖掘技术》主要介绍数据仓库和数据挖掘技术的基本概念、相关技术和应用案例及方法。全书共分为9章,主要内容包括:数据仓库与数据挖掘的概念和体系结构、数据仓库开发模型、etl技术、olap技术、商务智能系统、数据预处理技术、数据挖掘技术、数据仓库开发实例、报表设计等内容。本书各章节的案例均使用microsoftsql server2005进行操作实践讲解。通过对具体实例的学习和实践,使读者掌握数据仓库和数据挖掘中必要的知识点,达到学以致用的目的。 《数据仓库与数据挖掘技术》适合作为高等院校本科学生的教材,也可供企业信息化管理人员、技术人员以及软件开发人员阅读参考。
本书系统讲解数据库的基本概念,数据库设计的基本方法和数据库应用开发的基本技术,并介绍了数据库技术新进展。本书强调理论与实践,技术与应用的结合。内容系统全面,深入浅出。 本书可作为高等学校计算机基础教学课程中数据库系统的教材,也可以供数据库应用部门,从事计算机应用系统设计和开发部门的工程技术人员参考。
知识发现是从数据集中抽取和精化新的模式的过程,基于数据库的知识发现(Knowledge Discovery in Database,KDD))是知识发现研究的主体和热点,而聚类知识发现又是知识发现的重要方面。如何有效处理巨量、高维的数据,是当前聚类分析的关键技术。本书围绕高维数据的聚类问题展开研究,在讨论高维数据相似I生尤其是高维二元数据相似性定义的基础上,提出了基于粗图模型的硬聚类和软聚类算法、高维二元数据的映射聚类算法、基于蚂蚁行为的聚类算法等,并进一步提出基于映射聚类的离群点检测方法;还特别讨论了高维聚类结果的表示方法问题,提出了应用粗糙集高效表达聚类结果的方法;后探讨了聚类知识发现数据建模的基本步骤,给出了聚类知识发现的典型应用案例。 本书学术性、知识性并重,可供从事数据仓库与数据挖掘教学、研究的师生、学者阅读
这是一本根据应用场景讲解如何通过Spark进行大数据分析与应用构建的著作,以实战为导向。作者结合典型应用场景,抽象出通用与简化后的模型,以便于读者能举一反三,直接应用。 本书首先从技术层面讲解了Spark的机制、生态系统与开发相关的内容;然后从应用角度讲解了日志分析、推荐系统、情感分析、协同过滤、搜索引擎、社交网络分析、新闻数据分析等多个常见的大数据场景下的数据分析。在每个场景中,首先是对场景进行抽象与概括,然后将Spark融入其中构建数据分析算法与应用,后结合其他开源系统或工具构建更为丰富的数据分析流水线。
本书首先详尽介绍了使用Visual Basic和SQL Server开发数据库应用程序所应具备的各项技术,然后具体介绍了7个流行的系统的开发实例。在本书光盘中还为每个实例制作了PPT文件,详细介绍和演示实例所需的实用技术和开发过程,方便读者学习使用。 本书案例贴近实际,内容精练,适合大中专院校的学生和软件开发人员参考使用。
本书是中国人民大学出版社出版的教材《统计数据分析基础教程(第二版)——基于SPSS 20和Excel 2010的调查数据分析》的配套辅导书。 由于本次修订对教材内容进行了更加适当的筛选,同时对例题和上机实验题进行了大幅更新,于是本同步配套辅导书也做了相应的修订。 本书以习题和上机实验指导的方式给出了教材中“思考题与上机实验题”的解答,以便帮助读者消化教材内容。本书包含10章的上机实验指导共32个。包括:*抽样、调查问卷制作、问卷数据的录入与清理、单选题的一维频率分析、两个单选题的交叉表分析、多选题的一维频率分析和交叉表分析、描述统计分析、假设检验、单因素方差分析、线性相关分 析与线性回归分析等。 本书可作为各级各类高等院校本科生统计数据分析的入门书,也可以作为MBA学生、研究生以及从事统计数据分析工作的人士
MongoDB是一种面向文档的分布式数据库,可扩展,表结构自由,并且支持丰富的查询语句和数据类型。时至今日,MongoDB以其灵活的数据存储方式逐渐成为IT行业非常流行的一种非关系型数据库(NoSql)。 本书从学习与实践者的视角出发,本着通俗精简、注重实践、突出精髓的原则,精准剖析了MongoDB的诸多概念和要点。全书共分4个部分,分别从基础知识、深入理解MongoDB、监控与管理MongoDB和应用实践几个维度详细地介绍了MongoDB的特点及应用实例。 本书适合有海量数据存储需求的人员、数据库管理开发人员、数据挖掘与分析人员以及各类基于数据库的应用开发人员。读者将从书中获得诸多实用的知识和开发技巧。