本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
本书是为广大数据分析师量身定制的入门读物,它旨在帮助读者站在大数据时代的制高点。数据分析处于统计学、计算机信息科学、运筹学、数据库等多个领域的交叉地带,大数据时代的到来大大丰富了数据分析的内涵,数据分析师的职责与以往相比发生了巨大的改变。本书全面介绍了经典数据分析、模式识别、机器学习、深度学习、数据挖掘、商务智能等多个领域的数据分析算法,将大数据时代的数据分析热点技术一网打尽。本书为每个数据分析算法都搭配了一个经典案例,并按照由易到难的原则构建知识框架,充分照顾了不同水平读者的阅读习惯。通过阅读本书,读者将对大数据时代下的数据分析有一个全面的认识。无论是入门级的数据分析员还是有一定基础的数据分析师,都能通过本书完善、加深对数据分析的认识。
本书是中山大学重点学科建设成果,获中国矿物岩石地球化学协会大数据与数学地球科学专业委员会推荐,是我国*部地质科学大数据与机器学习教材。本书是中山大学研究生试用研究型教材,对运用大数据挖掘与机器学习算法解决地球科学问题大有裨益。适合地质科学领域研究生和高年级本科生做教材,也可供科研人员研究时参考。它系统地介绍了地球科学大数据挖掘与机器学习的基本框架与原理,重点分析高维数据的降维、分类与预测、大图形社区结构识别、无限流数据处理、机器学习及人工智能地质学的建模过程,对必要的应用场景,使用Python语言给出案例。
本书通过选购笔记本电脑的案例引入数据包络分析(dataenvelopmentanalysis,DEA)的基本概念和模型,并运用简单的EXCEL模型让读者更易理解和运用DEA。本书着重阐述如何将DEA作为一种运营分析工具,进行绩效评估,找出基准标杆。探讨的主题包括:平衡的基准,昀佳实践,相对效率的概念及绩效提升。特别地,本书探讨的数据分析方法能够帮助一个组织重新审视它对生产效率高低的已有观点是否合理,并为组织不断改进提供指导。本书是市面上唯一本不要求读者具备线性规划和线性代数知识,就可以熟练应用DEA方法的DEA方法指导用书。
在新媒体时代,如果对新闻报道、网上搜索的结果或者所谓的 专家告知 不加思考地完全相信,那你就等着上当受骗吧! 本书围绕当今*受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、 安倍经济学 的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离ХХ、全球变暖问题、减肥、恩格尔系数的上升等10个主题进行数据解读,帮助读者模拟体验数据读取方法,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。 作为 大数据分析 的超级入门书,即使不擅长数学、不了解统计学的人,读完本书也可以彻底掌握数据解读方法!
为顺应国内EPC 总承包工程推广的新形势, 提高企业风险管理水平, 普及工程保险知识, 特编写本书。 书中内容紧密结合国际先进工程保险理念, 对于在EPC 工程中涉及的工程险种、 安排、 采购、 合同后管理等问题均做了较为全面、 细致的分析。 同时, 列举了我国著名企业在海内外EPC 实践中实施保险策略的典型案例。本书可供从事EPC 项目或准备从事EPC 项目的公司领导、 项目经理、 风险管理人员、 监理、 咨询人员等作为岗位继续教育教材使用; 也可作为工程管理、 保险、 经贸专业在校研究生以及本科生的教学参考书或课外读物;也适合作为建设行业推行EPC 总承包模式进行系列培训的教材或参考用书。
本书基于作者近几年来的研究开发成果及应用实践,对物联网大数据技术体系进行了系统归纳,阐述了物联网环境下感知数据的特性、数据模型、事务模型以及调度处理方法等核心概念及关键技术,并对物联网大数据存储、管理、计算与分析的基本概念和关键技术进行了剖析。本书还介绍了自行研发的面向物联网的ChinDB实时感知数据库系统以及针对云计算环境下物联网大数据管理与应用的DeCloud云平台,介绍了它们在智能交通、智能电厂、教育、安全监控等多个行业的应用。书中所有实例,均来自作者所在团队的实际应用,大部分在物联网项目中得到了实践应用。本书对物联网应用的开发以及两化融合、工业4.0环境下的大数据处理分析具有重要参考价值。
本书以大数据为研究背景,系统分析了传统数据技术当前存在的问题以及面临的挑战,并对比了当前主流的面向大数据的数据库解决方案,在此基础上阐述了笔者的研究工作:基于MapReduce平台高处处理大数据的OLAP研究。书中反应了当前大规模数据仓库研究的热点和成果,值得大数据研究的人员参考和应用。
《数据建模与DB设计》重点介绍数据建模与数据库设计的理论及应用。从数据模型的发展历程及其必要性引入,基于作者在研究和项目实践中积累的经验,让读者理解数据建模是业务负责人与数据设计者之间沟通的工具,数据模型决定数据处理性能与数据管理便利性。书中首先将数据建模划分为概念建模、逻辑建模、物理建模以及后的数据库设计四个阶段,明确了导出实体、设定实体的重要关系、设定键的数据建模流程。为了提高数据整合性和业务流程性能,先后提出了范式化和反范式化过程,在构建容易理解的数据结构的同时兼顾数据库的访问成本,寻找盈亏平衡点。《数据建模与DB设计》无论对数据分析设计领域的初学者还是实际业务的实践者,都很有启发和指导作用。
全书共分为六章:*章为绪论,介绍了大数据时代隐私内涵的构成要素以及发展变迁历史,并从技术层面、社会层面、个人层面列举了大数据环境下隐私安全的表现形式,总结了当前个人隐私被侵害的类型以及呈现的特征;第二章为隐私泄露风险评估与度量方法,针对常用的隐私保护方法,详细介绍了当前隐私量化模型与度量标准的相关研究,并分析了主流的隐私度量方法的性能优劣以及评价指标;第三章为位置服务中隐私保护技术,并介绍了P2P结构与独立架构两种模式下位置隐私保护技术方案。第四章为深度学习训练数据集隐私保护技术,提出了两种差分?
传统客户/服务器的分布式计算模式主要解决的是部门或企业内部的应用,关注的是局部应用,建立的应用系统多数是为完成某种需求而建立,因此是孤立封闭的。即使在同一个部门或者企业内部,应用系统相互之间也常常因为没有通信而导致信息无法共享,使得各个IT资源成为一个个信息孤岛。随着互联网软件技术及其应用的迅速发展,如何提供一个统一开放的交互环境,使得各个应用实体之间能够相互发现、了解各自所提供的服务,并将这些应用低代价、方便地连接在一起,实现开放式网络环境中的互联、互通、互操作的目标,是当前互联网环境下所面临的一个重要问题。 想要有效地整合现有的应用系统并实现信息共享,关键在于实现这些应用系统间的数据交换。数据交换是网络环境下分布式应用的共性、基础性和关键性的需求,它用于解决信息化过
从数据中心机房监控系统的自定制技术、监控系统可信方法等方面,综述国内外研究进展,确定研究内容。第1章,主要讲述智能绿色数据中心机房监控系统的内涵;第2章,主要讲述基于大批量定制的绿色数据中心机房的自定制机理与方法;第3章,主要讲述绿色数据中心机房的用户身份认证、完整性等可信方法;第4章,给出了绿色数据中心机房智能监控技术应用,研制绿色智能机房监控系统,在该绿色智能机房监控系统架构上实施用户自定制技术、可信增强技术模块功能,并测试各项技术及整个系统的应用效果。 本书是作者长期从事数据中心机房监控系统,特别是数据中心机房监控系统自定制、可信性研究工作的方法和应用成果的总结,本书所研究技术应用到实际数据中心机房运行,这些实践工作对本书的形成具有十分重要的意义。
本书重点介绍数据质量管理与安全管理的理论及应用。首先通过数据管理现况和问题的分析,提出数据质量管理的步必须是将各种来源的数据标准化,具有统一的数据格式和规则。书稿中强调了提高数据质量不仅可提高信息系统的质量,还可提高经营活动的质量。需要制定质量管理计划或执行具体的质量管理活动。定义了数据质量的准确性、一致性、可用性、可达性、及时性、安全性这6个标准以及对应的管理流程,划分了5个能力成熟度的等级,界定了从管理者到执行者等各个质量管理活动和责任。提出多项数据质量管理主要技术和各国实用案例,还进一步在Orange数据库中实践了数据质量诊断流程。书稿后半部针对日益增长的数据库安全性的需求,提出了安全管理系统构建、访问控制,数据伪装等具体可行的技术手段,后还将数据安全技术推广到大数据的应用场景。
本书从切实可行的大数据方案选择方法着手,面向不懂大数据相关概念、不知道如何将大数据项目引入何种领域的IT团队和实际经营团队,以自己的实际经验为基础,创立并介绍了大数据项目构建方法。帮助需要引入大数据项目的所有企业解决核心课题,以顺利开展大数据项目,并避免运行过程中出现过多失误,实现正确的策划和执行。书中收录了大数据分析与研究案例、企业引入大数据项目时发生的实际问题、策划及运营过程、实际分析时需要的技巧等,利用清晰的图表和示意图直观反映了核心法则和原理。
本专著主要基于软件领域数据的特性和预测模型的不同应用场景,对软件缺陷预测前言的若干关键技术进行了研究和总结。主要内容包括迁移学 习环境下的缺陷预测技术,半监督环境下的缺陷预测技术,主动学习环境下的缺陷预测技术,基于核理论的缺陷预测技术,所应用的理论、 算法及应用成果的介绍和展示。
由宋媚所*的《大数据征信背景下的信息质量度量与提升研究》主要关注大数据背景下的信息质量度量方法,并有针对性地提出了信息质量管理提升策略。《大数据征信背景下的信息质量度量与提升研究》具体包括:大数据征信背景下的信息质量评价与管控;征信信息质量度量模型的构建;征信信息质量度量模型应用;征信系统的信息质量管理与价值提升策略分析。
大数据为何如此聪明?它是否会chao越人类理性的控制?本书选取人机关系这一切入点作为分析视角,综合以往哲学界做出的相关论述,阐释了新的概念与理论体系下大数据如何在人机交互中构建和涌现智能。 本书以大数据时代作为总的分析背景,进行了 人机关系的内涵分析 人机关系与心物关系问题的关联 大数据的构建与其意向性的负载 大数据的可建构性研究 人机关系视域下的大数据的伦理问题 等方面的论述,在跟随时代热点的同时也对 心物关系 和 他心知 等经典的哲学问题做出了视角较为新颖的回应。本书知识性、系统性较强,可作为科技哲学领域研究的专家学者进一步从事人工智能哲学和技术哲学等领域研究的参考用书。
本书以SQL Server分析服务为环境介绍数据仓库和数据挖掘应用技术,包括数据仓库和数据挖掘概述、OLAP和多维数据模型、数据仓库设计和SQL Server数据仓库开发实例、关联分析算法、决策树分类算法、贝叶斯分类算法、神经网络算法、回归分析算法、时间序列分析和聚类算法。本书内容翔实,循序渐进地介绍各个知识点,并提供全面而丰富的教学资源,可作为各类高等院校计算机及相关专业 数据仓库和数据挖掘应用技术 和 SQL Server高级应用 课程的教学用书,也适合计算机应用人员和计算机爱好者参考。
本书以面向应用、面向实战为指导思想,紧扣企业技术人才培养的特点,在知识点讲解和实验中避免复杂的理论,使读者能快速上手体验、验证大数据处理的魅力,以激发读者的学习兴趣。 本书覆盖了大数据生命周期中的主要技术要点,全书共8章,第1章介绍大数据的产生和特点及思维的变革,第2章了解大数据生态系统,第3~7章按照大数据的生命周期,分别讨论大数据采集与预处理、大数据管理、大数据分析、大数据可视化、大数据应用的基本原理和方法,第8章讨论大数据安全面临的挑战。 本书可作为本科、高职院校大数据技术或数据科学课程的参考书或教材,也可供数据科学相关技术人员阅读。
本书系统地介绍了知识图谱的相关概念、技术要素与应用,不仅涵盖了知识图谱技术的发展历程与特点,也涵盖了当前阶段知识图谱的主要应用,并分析了未来的发展趋势与挑战。本书从理论综述、技术解读、应用场景、实战分析等多个角度进行了阐述,内容全面且易于理解。 本书是一本入门级图书,面向具备一定计算机知识但没有知识图谱构建经验的读者,旨在帮助他们掌握知识图谱构建的专业知识。同时,本书还面向渴望了解知识图谱应用的各行业人员,旨在帮助他们拓展视野、开阔思路。相信所有对知识图谱感兴趣的读者通过阅读本书都能有所收获。
本书以图书馆信息化为基点,从理论与实际应用角度,介绍了数据仓库与数据挖掘的概念、方法及在图书馆的应用。主要内容包括:以图书馆自动化集成系统日常工作中产生的数据为基础,详细介绍了应用微软SQL Server 2012数据仓库与数据挖掘工具进行图书馆数据仓库开发、数据集成服务、联机分析处理及常见数据挖掘技术挖掘过程。本书注重实践性,可操作性强,可作为企事业单位数据仓库与数据挖掘工作人员、研究人员参考用书
大数据时代的到来,使我们的生活在政治、经济、社会、文化各个领域都产生了很大改变。 数据科学 一词应运而生。如何更好地对海量数据进行分析、得出结论并做出智能决策是统计工作者面临的机遇与挑战。 本书介绍数据挖掘与统计机器学习领域常用的模型和算法,包括基础的线性回归和线性分类方法,以及模型选择和模型评价的概念和方法,进而介绍非线性的回归和分类方法(包括决策树与组合方法、支持向量机、神经网络以及在此基础上发展的深度学习方法)。后介绍无监督的学习中的聚类方法和业界广泛使用的推荐系统方法。除了方法的理论讲解之外,我们给出了每种方法的R语言实现,以及应用Python语言实现深度学习和支持向量机两种方法。本书的一个亮点是后一章给出的两个大数据案例,数据量均在10G左右。我们同时给出了单机版(Python、数据库、R
本书着力于介绍数据挖掘基础知识、基本原理、常用算法,主要内容包括数据挖掘概述、数据的描述与可视化、数据的采集和预处理、数据的归约、关联规则挖掘、分类与预测、 非线性预测模型、聚类分析、深度学习简介、使用 Weka 进行数据挖掘。本书通俗易懂,注重基础知识、基本原理和基本方法,注重启发和引申,以培养学生独立思考和独立发现的能力。本书适合作为数据科学与大数据、信息管理、统计等专业的本科层次基础课教材,也可作为相关专业研究生层次的参考用书。
本书根据*高等学校计算机基础教学指导委员会编制的《普通高等学校计算机基础教学基本要求》,为满足高等教育对数据库技术和程序设计方面的基本要求进行编写。本书共11章,包括数据库基础知识、Access 20*数据库、表的创建与使用、查询设计、结构化查询语言SQL、窗体设计、报表设计、宏、VBA与模块、数据库管理、数据库安全等。书中有丰富的案例和大量的练习题,还提供课后习题参考答案。本书内容叙述清楚、示例丰富、图文并茂、步骤清晰、易懂易学,适合广大应用型本科和高职高专院校教学使用,以及有一定计算机基础的爱好者自学使用,也可作为全国计算机等级考试参考书。