本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
本书将整体内容分为两部分,在第1部分中以影响数据读取效率的所有 要素为类别,对其各自的概念、原理、 特征、应用准则,以及表的结构特 征、多样化的索引类型、优化器的内部作用、优化器为各种结果制定的执行 计划予以详细说明,并以对优化器的正确理解为基础,提出对执行计划和执 行速度产生影响的索引构建战略方案;在第2部分中主要介绍提高数据 读取效率的具体战略方案,在这部分中介绍与数据读取效率相关的局部范围 扫描的原理和具体应用方法,以及对被认为是提高数据库使用效率基础的表 连接的所有类型予以详细说明。 《海量数据库解决方案》系列丛书深受广大读者的喜爱已经长达10年之久,在被誉为“”的同时,它已经变成了数据库用户不可或缺的书籍。作者竭力探求能够让IT工作者在实际工作中轻松应用并掌控的巧妙方法 ,提供事半
本书是一本从理论到实践的全面且细致的企业数据驱动指南,作者见证并献身百度大数据的建设,毫无保留地将成败摸索实践的真实场景进行完整还原,并对近十年大数据从业经验与心得做了归纳和总结,同时详解大数据本质、理念与现状,并围绕数据驱动四环节——采集、建模、分析、指标,深入浅出地讲述企业如何从零到一将完整的数据驱动方案落地,全面展示大数据在各领域内的应用情况与趋势展望。
本书是江苏省高等学校精品教材和“十二五”江苏省高等学校重点教材(编号:2015-1-072)。全书突出基础性、新颖性、实用性、操作性,系统全面、深入浅出、实例丰富,以关系数据库系统为核心,将数据库基本原理、方法和应用技术相结合。本书主要内容包括数据库系统概述、关系数据库、关系数据库标准语言SQL、关系规范化理论、数据库设计、数据库保护技术、SQL Server 2012的应用、数据库应用系统开发和数据库技术新进展等。每章均配有小结并附有适量的习题,便于读者巩固所学知识。书后所附习题答案可以帮助读者检验学习和练习效果。此外,本书配有教学课件及数据库应用系统开发源程序。本书可作为高等院校计算机科学与技术、软件工程、信息管理与信息系统、信息与计算科学以及相关专业的本科生教材,也可作为从事计算机软件工作的科技人员和工程
本书主要介绍了数据库系统的基本概念,包括数据库设计、数据库语言和系统实现。第4版中扩展了ER模型、SQL、数据仓库、OLAP、数据挖掘的内容,新增了XML、数据库管理、应用开发等章节,更新并扩展了信息检索部分。本书可作为三、四年级本科生一年级研究生的数据库课程的教材,同时,可供数据库领域的技术人员参考。涵盖了数据模型、基本对象的系统和XML、数据库存储和检索、事务处理、 数据库系统体系结构等多方面的内容,采用直观的方式描述所有概念,并以结构清晰的图示和例子代替形式化的证明,以银行数据库实例生动地解释重要概念,增强了本书的易读性。
本书通过作者在金融领域的数据分析应用实践,介绍了作者在应用数据创造价值方面的一些方法和思考。全书共分为7章,章介绍了作者为何会踏上数据分析的道路,以及作者在生活、学习和工作实践中形成的特有的“数据”价值观。第2章讲解在工作和学习中,如何养成良好习惯的方法。第3章针对产品设计与数据分析如何结合进行了介绍。第4章重点介绍在数据分析中会遇到的种种“陷阱”以及如何多维度思考以避免陷入这些“陷阱”。第5章用一些与数据相关的小故事来说明跨界看问题的重要性。第6章讲的是工作和生活中的数据分析案例。第7章是关于作者对当下一些流行趋势的看法。
MongoDB如何帮你管理通过Web应用收集的海量数据呢?通过本书的解读,你会了解面向文档数据库的诸多优点,会发现MongoDB如此稳定、性能优越甚至能够无限水平扩展背后的原因。 本书的两位作者均来自开发并支持开源数据库MongoDB的公司10gen。数据库开发人员可将此书作为参考指南,系统管理员可以从本书中找到配置技巧,其他用户可以了解一些基本概念和用例。你会发现,将数据组织成自包含的JSON风格的文档比组织成关系型数据库中的记录要容易得多。
本书是一本从理论到实践的全面且细致的企业数据驱动指南,作者见证并献身百度大数据的建设,毫无保留地将成败摸索实践的真实场景进行完整还原,并对近十年大数据从业经验与心得做了归纳和总结,同时详解大数据本质、理念与现状,并围绕数据驱动四环节——采集、建模、分析、指标,深入浅出地讲述企业如何从零到一将完整的数据驱动方案落地,全面展示大数据在各领域内的应用情况与趋势展望。
本书结合编者多年教学经验,系统地介绍了数据结构的基本概念和知识,条理清晰、理论精炼、重点突出、图文并茂,内容安排循序渐进、深入浅出,既注重理论知识,又注重算法设计的训练,突出了实践性与实用性。全书共分9章,章作为全书的综述和基础,介绍了数据结构、算法的相关概念和算法分析方法等,其后各章分别讨论了线性表、栈与队列、串、数组和广义表、树与二叉树和图等数据结构的定义、表示和实现,两章介绍了查找和内部排序的各种方法和实现算法。在重点章节中,还结合精心编写的应用实例,介绍了应用数据结构和算法解决实际问题和进行程序设计的方法,增强了读者对基本知识的理解与掌握,更有利于分析问题能力和程序设计能力的提高。全书采用C语言作为数据结构和算法的描述语言,书中所有算法和程序代码均在DEV-C 5环境下调试通过