聚类是数据挖掘领域的一个重要分支。 《数据聚类》全面系统地介绍聚类的主要方法。首先,对涉及聚类的各个方面进行简略的综述;然后,对各类聚类算法进行较详细的讨论。 《数据聚类》主要内容分为部分:部分是经典算法部分(第2~6章),讨论k-均值、DBSCAN等传统算法;第二部分是高级算法部分(第7~12章),讨论半监督聚类、高维数据聚类、不确定数据聚类等;第三部分是多源数据聚类部分(3章),主要讨论多视角聚类和多任务聚类。 《数据聚类》可供数据科学与人工智能等领域的研究人员、工程技术人员、相关学科研究生和基础较好的高年级本科生参考阅读。
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。
数据作为一种基础性与战略性资源得到了广泛认可,数据服务成为很多组织和机构日常运营中必不可少的重要环节。当下,数据质量在理论越来越受到关注,不仅是制约数据产业发展的关键问题,也是大数据应用研究中绕不开的重大问题。《大数据质量》汇集了国内外数据质量研究的经典理论、技术和方法,以及的前沿发展趋势;首先介绍了传统数据质量研究的各种代表性成果,并在此基础上,分析大数据时代下数据质量面临的挑战,并详细介绍基于大数据的数据质量相关技术的实现;最后,通过一个实际案例,提出一套完整的大数据质量解决方案。
本书介绍了 PostgreSQL 内部的工作原理,包括数据库对象的逻辑组织与物理实现,进程与内存的架构。并依次剖析了几个重要的子系统:查询处理、外部数据包装器、并发控制、清理过程、缓冲 区管理、WAL、备份及流复制。本书为 DBA 与系统开发者提供了一幅全景概念地图,有助于读者形 成对数据库实现的整体认识,亦可作为深入学习 PostgreSQL 源代码的导读手册,对于理解数据库原 理与 PostgreSQL 内部实现大有裨益。 本书适合数据库开发人员及相关领域的研究人员、数据库 DBA 及高等院校相关专业的学生阅读。
本书介绍了 PostgreSQL 内部的工作原理,包括数据库对象的逻辑组织与物理实现,进程与内存的架构。并依次剖析了几个重要的子系统:查询处理、外部数据包装器、并发控制、清理过程、缓冲 区管理、WAL、备份及流复制。本书为 DBA 与系统开发者提供了一幅全景概念地图,有助于读者形 成对数据库实现的整体认识,亦可作为深入学习 PostgreSQL 源代码的导读手册,对于理解数据库原 理与 PostgreSQL 内部实现大有裨益。 本书适合数据库开发人员及相关领域的研究人员、数据库 DBA 及高等院校相关专业的学生阅读。
在信息技术革命之后,我们将迎来数据革命。在大数据的概念、性质和价值已得到政府和社会的认可之后,大家关注的是数据如何获取,以及有了数据以后如何挖掘数据的价值。仅适合特定行业、满足特定需求的技术不足以应对一场革命,大数据不但是超出计算机软硬件处理的能力,更是超出人类的认知能力。只有实现对数据的认知,利用数据辅助决策,才是适合不同行业数据价值实现的通用手段。本书描述了数据革命的起源、实现的思路、所用的技术和要达到的目标,针对当今社会热点描述了在数据时代的应对之策。本书宏观和微观、人文和技术、启迪思想和关注实用并举,既适合宏观层面的领导启迪思维,提出工作目标,又适合微观层次的执行人员找到实现的方法和路径。本书介绍的理论和技术均可在智慧城市、智能制造领域实际使用。本书适合政府、企业决