本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
当前不乏大数据具体技术组件的书籍,但却很少有从大数据平台整体建设和产品形态的宏观角度入手来阐释的。本书重点介绍大数据开发平台服务构建的整体思路和解决方案,内容涵盖一个成熟的大数据开发平台必不可少的各类核心组件:工作流调度系统、集成开发环境、元数据管理系统、数据交换服务、数据可视化服务、数据质量管理服务,以及测试环境的建设等。书中还凝结了作者多年平台建设的实践经验,以及对大数据相关从业人员能力建设和职业规划的宝贵建议。本书适合广大志在深入了解大数据平台建设、开发和应用的在职人员及院校师生。
本书以当前主流的大型数据库管理系统SQL server 2014和数据库建模工具PowerDesigner 16.5为操作平台,精心组织设计了14个上机实验和1个课程设计。本书实验目的明确,实验步骤清晰,可操作性强,知识点编排循序渐进、由浅人深,使读者能够有效地将理论应用到实践当中,便于对数据库理论知识的巩固和加深。每个实验后均配有适量习题,便于学生课后练习。 本书可作为高等院校软件工程专业、计算机相关专业本科生数据库课程上机实验和课程设计的教材,也可作为数据库管理人员及数据库应用系统开发人员的参考用书。
本书针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助,涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。全书分为6章, ~ 2章帮助读者深入理解Spark的内部机制以及它们在生产流程中的含义;第3章和第5章阐述了针对配置参数的法则和权衡方案,用来调优Spark,改善性能,获得高可用性和容错性;第4章专门讨论Spark应用中的安全问题;第6章则全面介绍生产流,以及把一个应用迁移到一个生产工作流中时所需要的各种组件,同时对Spark生态系统进行了梳理。
本书全面系统地讲解如何规划、设计、构建和管理数据仓库/商务智能解决方案。本书介绍在数据仓库开发项目中如何激励用户,在整个企业范围内更好地驱动决策制定,从专业的开发人员获取详细的指导和实践经验。本书内容涉及如何选择恰当的组件、构建企业数据模型、配置数据集市和数据仓库、构建数据流并降低风险,还涉及项目开发中变更管理、数据监理和安全方面的问题。
本书汇集了作者有关数据库管理的真知灼见,讲述了dba 的方方面面,有技术的,还有生活的。作者本人不仅专业技术过硬,还当过篮球教练,对人生,尤其是dba 的生存之道有很独到的领悟。书中语言浅显易懂,生动 幽默,还配有多个技术审稿人的精彩评注。这些评注与作者的文字相辅相成,和而不同,因此本书可谓是博采众家之长,值得一读。 本书为dba 量身订做。如果你是dba,那么不可错过;如果你有意成为dba,或者想了解dba 的生存之道,本书同样适合你。
本书是安徽省高等学校“十一五”省级规划教材。 全书较全面地介绍了数据库系统的基本原理、设计和应用技术。内容包括数据库基础知识、关系数据模型、关系数据库语言SQL、关系数据库理论、关系数据库设计和应用系统开发、数据库的安全性与完整性、并发控制、数据库故障恢复技术和数据库新技术。 本书以学习数据库理论基础、培养数据库应用并发能力为目标,以大型数据库系统Oracle为实例贯穿全书。在重视学习数据库基本原理的基础上,突出了实用技术的学习,各章都备有适量的例题和习题。 本书既可以作为高等院校计算机、软件工程、信息管理与信息系统等工科类相关专业数据库课程的教材,也可供从事计算机软件以及数据库应用、管理和开发的工程技术人员阅读参考。