《数据库设计与关系理论》中,关系数据库领域的泰斗C.ate用超过40年的经验证明了为什么恰当的数据库设计是非常关键的,他用数据库设计者和开发者可以轻松理解的方式介绍了设计理论,弥补了其他图书的空缺。《数据库设计与关系理论》每章都包括一组习题,它们要么展示在实践中如何应用理论,提供更多的信息,要么要求你证明一些简单的理论结果。如果你是一位熟悉关系模型的数据库专业人员,并对数据库设计有非凡的兴趣,那么《数据库设计与关系理论》正是为你准备的。
本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
互联网的蓬勃发展,业务驱动技术不断升级,在系统越来越庞大,技术越来越复杂,应用部署集群化,所有压力指向数据库,数据量巨大,数据库优化也到极限了,数据库的运维难以为继,在这种情况下,分布式数据库似乎成为的解决方案。为了解决传统数据库的分布式化这个技术难题,各种数据库中间件应运而生,从早期的Amoeba、TDDL、Cobar,到如今的Mycat,技术日新月异,发展迅猛。Mycat已经成为了一个强大的开源分布式数据库中间件产品。面对企业应用的海量数据事务处理,是目前的开源解决方案。支持多种数据库,开发活跃,已有数百个项目使用,预期Mycat的采用将有爆发式增长趋势。所以Mycat开源社区核心开发者共同撰写了本书,帮助企业更好的使用Mycat中间件架构企业分布式数据库系统。