《数据质量管理基础》正文由7章组成(重点考虑关系型结构化数据):章简介数据质量问题;第2章展开讨论条件依赖理论;第3章阐述发现条件依赖,以及基于发现条件依赖检测数据不一致、修复数据的实践技术;第4章介绍依赖匹配作为数据去重的匹配规则;第5章重温经典的两个信息完整性假定,即封闭世界假定和开放世界假定,并提出和研究相对信息完整性理论;第6章进行数据时效性建模,以便时间戳缺失情况下,在数据库中进行实体值辨别并基于此返回查询结果;第7章探索数据质量问题之间的交互作用。
本书分为六部分,共16章。部分(~4章)讨论对数据质量和数据管理意义重大的一组术语,涉及数据的扩展定义、符号性功能、与数据和数据管理相关的角色、与数据管理相关的概念以及数据质量维度的概念。第二部分(第5章和第6章)描述创建DQAF的原因,概括框架的假设、定义和管理思路,并给出48种测量类型的简短描述。第三部分(第7~9章)阐释数据评估方案,涉及数据评估的目标与输入、如何剖析数据、测量与数据质量改进项目的关系以及将持续测量用于维持数据质量的一般原则。第四部分(0章和1章)展示DQAF类别如何用于编制数据质量的需求,以便指定数据质量的联机测量、控制和定期测量。第五部分(2章和3章)讨论定义数据质量战略的环境和方法,涉及数据质量战略的概念与总体策略,还讨论建立组织的数据质量战略的12个指令。第六部分(4~16章)
本全书内容主要包括11章和三个附录,其中11章又分为两大部分,部分是一些基础的介绍性的内容,章和第二章完整地讲述了元数据的意义以及一些基本的概念,第三章则从总体上分明绍了当前主要的元数据标准。第二部分则根据无数据的仓储项目生命周期的各个阶段,分别在第四章到第九章介绍了元数据的工具的评估,元数据仓储项目的组织和人员的配置,如何制定元数据的项目计划,元数据体系的结构的设计,如何通过元数据来提高数据的质量以及元模型的构造,此外,第十章还详细地介绍了开发周期的各个阶段该交付的产品以及取得的阶段性的成果,第十一章展望了元数据的未来发展的趋势。
本书是在作者多年从事数据挖掘行业实践和相关科学研究的基础上编写而成,书中包括数据挖据理论研究及实际应用的现状分析、研究内容的组织框架、研究方法与技术路线的描述、数据挖掘理论及应用的综述、不确定性理论、多目标优化的分类器方法、模糊多目标优化的分类器模型和算法、基于粗糙集和统计贡献度的特征选择算法、基于粗糙集预处理和粗近似的多目标优化的分类器模型和算法以及基于模糊化、核方法和惩罚因子的多目标优化的分类器模型和算法等内容。本书含有不确定性多目标优化的数据挖掘在信用评分、Web客户忠诚度分析、蛋白质交互的热点区域预测以及重大疾病的医疗诊断和预测等几个经典领域中的实际应用的描述。最后,通过对研究内容和实际应用效果的总结,展望了进一步研究和应用的方向。本书可供从事数据挖掘、机器学习与知识工
特征选择是机器学习的重要研究内容,有着广泛的应用价值。特征选择主要从数据(尤其是高维数据)中选取有效特征来表示数据,从而提高机器学习算法的性能。《高维数据的特征选择:理论与算法》以重庆工商大学等单位的机器学习、图像处理课题为基础,系统地介绍特征选择的基本概念,以及相关的理论和算法,也对它的前沿研究(如无监督特征选择)和其在计算机视觉中的应用进行详细介绍,最后对特征选择的发展方向进行展望。 《高维数据的特征选择:理论与算法》理论联系实际,对教学、科研具有重要指导意义,可作为高等院校和科研机构从事机器学习的学者的参考书,亦可供从事大数据分析(如基因数据、计算机视觉)的专业技术人员参考。
本书介绍了 PostgreSQL 内部的工作原理,包括数据库对象的逻辑组织与物理实现,进程与内存的架构。并依次剖析了几个重要的子:查询处理、外部数据包装器、并发控制、清理过程、缓冲 区管理、WAL、备份及流复制。本书为 DBA 与开发者提供了一幅全景概念地图,有助于读者形 成对数据库实现的整体认识,亦可作为深入学习 PostgreSQL 源代码的导读手册,对于理解数据库原 理与 PostgreSQL 内部实现大有裨益。 本书适合数据库开发人员及相关领域的研究人员、数据库 DBA 及高等院校相关的学生阅读。
本书全面介绍了数据开发利用技术,包括大数据计算、大数据管理、大数据安全、大数据可视化、数据自治、数据爬虫、知识图谱、大数据挖掘、深度学习、区块链等技术,还介绍了数据产品生产技术。这些技术涵盖了数据获取与管理、数据分析与应用、数据安全与流通等数据开发利用的各个环节,形成一个较为完整的大数据技术体系。
AuthorizedtranslationfromtheEnglishlanguageedition,entitledBeyondBigData:UsingSocialMDMtoDriveDeepCustomerInsight,0 13 350980 XbyMartinOberhofer,publishedbyPearsonEducation,Inc,publishingasIBM,copyright?i2014.AllRightsReserved.Nopartofthiookmaybereproducedortransmittedinanyformorbyanymeans,electronicormechanical,includingphotocopying,recordingorbyanyinformationstorageretrievalsystem,withoutpermissionfromPearsoneducation,Inc.CHINESESIMPLIFIEDlanguageeditionpublishedbyTSINGHUAUNIVERSITYPRESSCopyright?i2016.
为推广数据中心的建设技术,贯彻执行国家标准,本书总结了数据中心供配电系统、空调系统、机柜系统和布线系统的理论和实践经验,阐述了数据中心用电设备对于电能的基本要求,介绍了数据中心环境要求、设备布局、空调系统规划、未来的发展趋势以及数据中心空调系统的评估和优化。
本书是作者及所在课题组近年来关于数据驱动全局优化方法研究成果的总结。先介绍数据驱动优化方法的发展现状、关键技术及常用的测试函数,然后介绍基于空间缩减的全局优化方法、基于混合代理模型的全局优化方法、基于多代理模型全局优化方法、代理模型辅助的约束全局优化方法及离散全局优化方法、代理模型辅助的高维全局优化方法。本书介绍的数据驱动全局优化方法优化效率高,新颖性和先进性强,可广泛用于解决工程优化问题。