本书是安徽省高等学校“十一五”省级规划教材。 全书较全面地介绍了数据库系统的基本原理、设计和应用技术。内容包括数据库基础知识、关系数据模型、关系数据库语言SQL、关系数据库理论、关系数据库设计和应用系统开发、数据库的安全性与完整性、并发控制、数据库故障恢复技术和数据库新技术。 本书以学习数据库理论基础、培养数据库应用并发能力为目标,以大型数据库系统Oracle为实例贯穿全书。在重视学习数据库基本原理的基础上,突出了实用技术的学习,各章都备有适量的例题和习题。 本书既可以作为高等院校计算机、软件工程、信息管理与信息系统等工科类相关专业数据库课程的教材,也可供从事计算机软件以及数据库应用、管理和开发的工程技术人员阅读参考。
本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
当前不乏大数据具体技术组件的书籍,但却很少有从大数据平台整体建设和产品形态的宏观角度入手来阐释的。本书重点介绍大数据开发平台服务构建的整体思路和解决方案,内容涵盖一个成熟的大数据开发平台必不可少的各类核心组件:工作流调度系统、集成开发环境、元数据管理系统、数据交换服务、数据可视化服务、数据质量管理服务,以及测试环境的建设等。书中还凝结了作者多年平台建设的实践经验,以及对大数据相关从业人员能力建设和职业规划的宝贵建议。本书适合广大志在深入了解大数据平台建设、开发和应用的在职人员及院校师生。