Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。
本书重点介绍数据质量管理与安全管理的理论及应用。首先通过数据管理现况和问题的分析,提出数据质量管理的步必须是将各种来源的数据标准化,具有统一的数据格式和规则。书稿中强调了提高数据质量不仅可提高信息系统的质量,还可提高经营活动的质量。需要制定质量管理计划或执行具体的质量管理活动。定义了数据质量的准确性、一致性、可用性、可达性、及时性、安全性这6个标准以及对应的管理流程,划分了5个能力成熟度的等级,界定了从管理者到执行者等各个质量管理活动和责任。提出多项数据质量管理主要技术和各国实用案例,还进一步在Orange数据库中实践了数据质量诊断流程。书稿后半部针对日益增长的数据库安全性的需求,提出了安全管理系统构建、访问控制,数据伪装等具体可行的技术手段,最后还将数据安全技术推广到大数据的应用场景
Authorized translation from the English language edition, entitled Beyond Big Data: Using Social MDM to Drive Deep Customer Insight, 0 13 350980 X by Martin Oberhofer, published by Pearson Education, Inc, publishing as IBM, copyright ?i 2014.All Rights Reserved. No part of thiook may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson education, Inc. CHINESE SIMPLIFIED language edition published by TSINGHUA UNIVERSITY PRESS Copyright ?i 2016.
本书介绍了 PostgreSQL 内部的工作原理,包括数据库对象的逻辑组织与物理实现,进程与内存的架构。并依次剖析了几个重要的子系统:查询处理、外部数据包装器、并发控制、清理过程、缓冲 区管理、WAL、备份及流复制。本书为 DBA 与系统开发者提供了一幅全景概念地图,有助于读者形 成对数据库实现的整体认识,亦可作为深入学习 PostgreSQL 源代码的导读手册,对于理解数据库原 理与 PostgreSQL 内部实现大有裨益。 本书适合数据库开发人员及相关领域的研究人员、数据库 DBA 及高等院校相关专业的学生阅读。
本书详细介绍了OMG推出的公共仓库元模型的标准,从而帮助读者利用元数据轻松完成不同产品间的数据交换。本书从CWM的来源讲起,介绍了制定CWM的必要性、CWM的基础知识、CWM的体系结构以及如何利用CWM开发元数据解决方案,如何实现CWM等问题。本收结构清晰,内容丰富,几位作者都是参与制定CWM的专家,具有丰富的实践经验。因此,本书极具实用性,适用数据仓库的设计者、维护者、制定决策的管理人员阅读。
本书在系统地介绍各种类型RAID的结构和工作原理的基础上,深入浅出地讲解了RAID数据恢复的方法和技巧,同时,针对市场上主流的Windows、Linux、UNIX和Apple等多种文件系统,提供了大量RAID数据恢复的实际案例供读者学习。采用自然形象的方式描述RAID系统的抽象概念;同一个恢复案例,注重对不同的恢复方法进行比较分析。 本书概念清楚,逻辑性强,图文并茂,内容新颖。 本书适合数据恢复、信息安全等领域的从业人员以及对RAID数据恢复技术感兴趣的人员阅读,也可作为大专院校计算机相关专业学生的教材或参考书。
微软MVP倾情之作 管理SQL Server 2014的实践 《SQL Server 2014管理实践(第3版)/SQL Server 数据库经典译丛》丰富而全面的指南阐明了成功管理SQL Server所需的技能,包括变更管理、安全性、性能调整、监控和备份。本书的作者都是SQL Server的专家,他们将带领读者掌握SQL Server 2014的新功能,包括通过SQL Server Management Studio将云和本地管理更好地集成在一起、性能优化增强、新的基数估计器以及新的AlwaysOn可用性组功能。这本全面的指南将帮助读者提高SQL Server环境的效率、可扩展性和性能,从而花更少的时间,做更多的事情。 主要内容 概述了SQL Azure和AlwaysOn可用性组的新功能
聚类是数据挖掘领域的一个重要分支。 《数据聚类》全面系统地介绍聚类的主要方法。首先,对涉及聚类的各个方面进行简略的综述;然后,对各类聚类算法进行较详细的讨论。 《数据聚类》主要内容分为部分:部分是经典算法部分(第2~6章),讨论k-均值、DBSCAN等传统算法;第二部分是高级算法部分(第7~12章),讨论半监督聚类、高维数据聚类、不确定数据聚类等;第三部分是多源数据聚类部分(3章),主要讨论多视角聚类和多任务聚类。 《数据聚类》可供数据科学与人工智能等领域的研究人员、工程技术人员、相关学科研究生和基础较好的高年级本科生参考阅读。
数据作为一种基础性与战略性资源得到了广泛认可,数据服务成为很多组织和机构日常运营中必不可少的重要环节。当下,数据质量在理论越来越受到关注,不仅是制约数据产业发展的关键问题,也是大数据应用研究中绕不开的重大问题。《大数据质量》汇集了国内外数据质量研究的经典理论、技术和方法,以及的前沿发展趋势;首先介绍了传统数据质量研究的各种代表性成果,并在此基础上,分析大数据时代下数据质量面临的挑战,并详细介绍基于大数据的数据质量相关技术的实现;最后,通过一个实际案例,提出一套完整的大数据质量解决方案。
本书介绍了 PostgreSQL 内部的工作原理,包括数据库对象的逻辑组织与物理实现,进程与内存的架构。并依次剖析了几个重要的子系统:查询处理、外部数据包装器、并发控制、清理过程、缓冲 区管理、WAL、备份及流复制。本书为 DBA 与系统开发者提供了一幅全景概念地图,有助于读者形 成对数据库实现的整体认识,亦可作为深入学习 PostgreSQL 源代码的导读手册,对于理解数据库原 理与 PostgreSQL 内部实现大有裨益。 本书适合数据库开发人员及相关领域的研究人员、数据库 DBA 及高等院校相关专业的学生阅读。