全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。
本书重点介绍数据质量管理与安全管理的理论及应用。首先通过数据管理现况和问题的分析,提出数据质量管理的步必须是将各种来源的数据标准化,具有统一的数据格式和规则。书稿中强调了提高数据质量不仅可提高信息系统的质量,还可提高经营活动的质量。需要制定质量管理计划或执行具体的质量管理活动。定义了数据质量的准确性、一致性、可用性、可达性、及时性、安全性这6个标准以及对应的管理流程,划分了5个能力成熟度的等级,界定了从管理者到执行者等各个质量管理活动和责任。提出多项数据质量管理主要技术和各国实用案例,还进一步在Orange数据库中实践了数据质量诊断流程。书稿后半部针对日益增长的数据库安全性的需求,提出了安全管理系统构建、访问控制,数据伪装等具体可行的技术手段,最后还将数据安全技术推广到大数据的应用场景
本书是《Oracle . Edwards技术与应用丛书》系列丛书的基础篇,全书共分五章,通过介绍信息化的概念和内容,从而引出企业信息化的ERP的概念,及在企业实现ERP的软件应用系统Oracle . Edwards EnterpriseOne系统。进而以企业应用. Edwards EnterpriseOne为主线,通过一些模拟企业的使用场景,让读者学习. Edwards EnterpriseOne的基本应用功能、财务、分销和生产管理的使用方法、. Edwards的项目实施方法学和. Edwards OBA(Oracle Business Accelerated )(Oracle业务加速器)。本书兼顾需要Oracle . Edwards EnterpriseOne知识的各类相关读者,它是Oracle . Edwards EnterpriseOne系统的入门指南,通过阅读本书,读者可以对E有一个直观和感性的认识。
为推广数据中心的建设技术,贯彻执行国家标准,本书总结了数据中心供配电系统、空调系统、机柜系统和布线系统的理论和实践经验,阐述了数据中心用电设备对于电能的基本要求,介绍了数据中心环境要求、设备布局、空调系统规划、未来的发展趋势以及数据中心空调系统的评估和优化。
作者围绕着机器能否拥有心智这一问题,深入浅出地介绍了人工智能方面所取得的成就以及面临的困境。通过重新审视那种机器可以拥有心智、甚至意识的观点,对人工智能研究前景进行了深刻的反思。
本书是在作者多年从事数据挖掘行业实践和相关科学研究的基础上编写而成,书中包括数据挖据理论研究及实际应用的现状分析、研究内容的组织框架、研究方法与技术路线的描述、数据挖掘理论及应用的综述、不确定性理论、多目标优化的分类器方法、模糊多目标优化的分类器模型和算法、基于粗糙集和统计贡献度的特征选择算法、基于粗糙集预处理和粗近似的多目标优化的分类器模型和算法以及基于模糊化、核方法和惩罚因子的多目标优化的分类器模型和算法等内容。本书含有不确定性多目标优化的数据挖掘在信用评分、Web客户忠诚度分析、蛋白质交互的热点区域预测以及重大疾病的医疗诊断和预测等几个经典领域中的实际应用的描述。最后,通过对研究内容和实际应用效果的总结,展望了进一步研究和应用的方向。本书可供从事数据挖掘、机器学习与知识工