本书是一部通过提供一套易于遵守及操作的方法论来实现高质量数据管理的实践指南。内容全面、详细,并有许多实用的建议和模板,第1版推出后,已成为全球信息质量实践者的书籍,甚至已成为美国阿肯色大学信息质量
在阿里巴巴集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。 《大数据之路:阿里巴巴大数据实践》就是在此背景下完成的。《大数据之路:阿里巴巴大数据实践》中讲到的阿里巴巴大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。 《大数据之路:阿里巴巴大数据实践》由阿里巴巴数据技术及产品部组织并完成写作,是阿里巴巴分享对
为推广数据中心的建设技术,贯彻执行国家标准,本书总结了数据中心供配电系统、空调系统、机柜系统和布线系统的理论和实践经验,阐述了数据中心用电设备对于电能的基本要求,介绍了数据中心环境要求、设备布局、空调系统规划、未来的发展趋势以及数据中心空调系统的评估和优化。
本书重点介绍数据质量管理与安全管理的理论及应用。首先通过数据管理现况和问题的分析,提出数据质量管理的步必须是将各种来源的数据标准化,具有统一的数据格式和规则。书稿中强调了提高数据质量不仅可提高信息系统的质量,还可提高经营活动的质量。需要制定质量管理计划或执行具体的质量管理活动。定义了数据质量的准确性、一致性、可用性、可达性、及时性、安全性这6个标准以及对应的管理流程,划分了5个能力成熟度的等级,界定了从管理者到执行者等各个质量管理活动和责任。提出多项数据质量管理主要技术和各国实用案例,还进一步在Orange数据库中实践了数据质量诊断流程。书稿后半部针对日益增长的数据库安全性的需求,提出了安全管理系统构建、访问控制,数据伪装等具体可行的技术手段,最后还将数据安全技术推广到大数据的应用场景
特征选择是机器学习的重要研究内容,有着广泛的应用价值。特征选择主要从数据(尤其是高维数据)中选取有效特征来表示数据,从而提高机器学习算法的性能。《高维数据的特征选择:理论与算法》以重庆工商大学等单位的机器学习、图像处理课题为基础,系统地介绍特征选择的基本概念,以及相关的理论和算法,也对它的前沿研究(如无监督特征选择)和其在计算机视觉中的应用进行详细介绍,最后对特征选择的发展方向进行展望。 《高维数据的特征选择:理论与算法》理论联系实际,对教学、科研具有重要指导意义,可作为高等院校和科研机构从事机器学习的学者的参考书,亦可供从事大数据分析(如基因数据、计算机视觉)的专业技术人员参考。
本书以检验检测机构日常检验检测工作为主,通过对检测机构检测方法的确认评价、检测过程的数据处理、检测结果的质量控制过程中所涉及的数学方法的具体计算,略去数学公式的推导和论证,详细介绍了检测数据的有效位数合理性控制、可疑检测数据的取舍、多次平行测定结果的评定、两组检验检测数据平均值的评定、多组检测数据平均值的评定、两组及多组检测数据精度的评定、检验检测机构之间检测数据的单因素结果评定、两因素多水平的方差检测、检测标准曲线、检测质量控制图的绘制、各分析步骤的误差对分析结果的影响、标准检测方法的确认(验证)、检验检测机构自制分析方法、统计方法在不确定度与风险评估中的应用。本书可供检验检测机构的技术人员,食品、农产品等监管人员参考使用,也可供大专院校作使用。
本书是作者及所在课题组近年来关于数据驱动全局优化方法研究成果的总结。先介绍数据驱动优化方法的发展现状、关键技术及常用的测试函数,然后介绍基于空间缩减的全局优化方法、基于混合代理模型的全局优化方法、基于多代理模型全局优化方法、代理模型辅助的约束全局优化方法及离散全局优化方法、代理模型辅助的高维全局优化方法。本书介绍的数据驱动全局优化方法优化效率高,新颖性和先进性强,可广泛用于解决工程优化问题。
Python在数据分析领域得到了越来越广泛的应用。第一部分着眼于风险对股市指数期权的价值、股票、利率的影响。第二部分介绍套利定价理论、离散时间内风险中性估值,持续时间,介绍了两种流行的期权定价方法。最后,第三部分介绍市场估值工作的整个过程。
为推广数据中心的建设技术,贯彻执行国家标准,本书总结了数据中心供配电系统、空调系统、机柜系统和布线系统的理论和实践经验,阐述了数据中心用电设备对于电能的基本要求,介绍了数据中心环境要求、设备布局、空调系统规划、未来的发展趋势以及数据中心空调系统的评估和优化。