本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
如今,我们要面对和使用的数据正在变得越来越庞大和复杂。如果说数据是新的石油。那么数据库就是油田、炼油厂、钻井和油泵。作为一名现代的软件开发者,我们需要了解数据管理的新领域,既包括RDBMS,也包括NoSQL。 本书遵循《七周七语言》的写作风格和体例,带领你学习和了解当令最热门的开源数据库。在简单的介绍之后,本书分章介绍了7种数据库。这些数据库分别属于5种不同的数据库风格,但每种数据库都有自己保存数据和看待世界的方式。它们依次是PostgreSQL、Riak、ApacheHBase、MongoDB、ApacheCouchDB、Neo4J和Redis。本书将深入每一种数据库,介绍它们的优势和不足,以及如何选取一种你的应用需求的数据库。 本书适合数据库架构师、数据库管理员,以及想要了解和学习各种NoSQL数据库技术的程序员阅读。本书将帮助读者了解、选择和应用这些数据库,从而更
本书是江苏省高等学校精品教材和“十二五”江苏省高等学校重点教材(编号:2015-1-072)。全书突出基础性、新颖性、实用性、操作性,系统全面、深入浅出、实例丰富,以关系数据库系统为核心,将数据库基本原理、方法和应用技术相结合。本书主要内容包括数据库系统概述、关系数据库、关系数据库标准语言SQL、关系规范化理论、数据库设计、数据库保护技术、SQL Server 2012的应用、数据库应用系统开发和数据库技术新进展等。每章均配有小结并附有适量的习题,便于读者巩固所学知识。书后所附习题答案可以帮助读者检验学习和练习效果。此外,本书配有教学课件及数据库应用系统开发源程序。本书可作为高等院校计算机科学与技术、软件工程、信息管理与信息系统、信息与计算科学以及相关专业的本科生教材,也可作为从事计算机软件工作的科技人员和工程
随着大数据研究热潮的兴起,各种数据可视化图表层出不穷,大数据生动呈现就成为了具有挑战性的工作,随之出现了大量的可视化软件。本书是基于行业占有率比较高的Microsoft Power BI近期新版本所编写的,详细介绍Microsoft Power BI的数据可视化功能,包括数据类型和运算符、软件的安装、连接数据源、数据基础操作、可视化设计原则、可视化图表、自定义可视化效果、报表、仪表板、查询编辑器、运行R脚本、数据不错操作、数据分析表达式、网页流量数据分析、超市运营数据分析、Power BI移动应用和Power BI应用开发等内容。
本书是一本从理论到实践的全面且细致的企业数据驱动指南,作者见证并献身百度大数据的建设,毫无保留地将成败摸索实践的真实场景进行完整还原,并对近十年大数据从业经验与心得做了归纳和总结,同时详解大数据本质、理念与现状,并围绕数据驱动四环节——采集、建模、分析、指标,深入浅出地讲述企业如何从零到一将完整的数据驱动方案落地,全面展示大数据在各领域内的应用情况与趋势展望。
本书是为 数据结构 课程编写的教材,也可以作为学习数据结构及算法的c程序设计的参考教材。本书系统地介绍了数据结构基础理论知识及算法设计方法,前半部分从抽象数据类型的角度讨论了各种基本类型的数据结构及其应用,主要包括线性表、栈和队列、串、数组和广义表、树和二叉树及图;后半部分主要讨论了查找和排序的各种实现方法及其综合比较;最后一章介绍了数据结构实验目的、步骤及内容;附录给出了全书习题参考答案。全书采用类c语言作为数据结构和算法的描述语言。随书配备电子教案。 本书在内容选取上符合人才培养目标的要求及教学规律和认知规律,在组织编排上体现 先理论、后应用、理论与应用相结合 的原则,并兼顾学科的广度和深度,力求适用面广。书结构严谨、层次清楚、概念准确、深入浅出、描述清晰。 本书可以作为计
本书是一本广受好评的Cassandra图书。与传统的关系型数据库不同,Cassandra是一种开源的分布式存储系统。书中介绍了它无中心架构、高可用、无缝扩展等引人注目的特点,讲述了如何安装、配置Cassandra及如何在其上运行实例,还介绍了对它的监控、维护和性能调优手段,同时还涉及了Cassandra相关的集成工具Hadoop及其类似的其他NoSQL数据库。 本书适合数据库开发人员与网站开发者阅读。
如果你是一位在校大学生,对大数据感兴趣,也知道使用的企业越来越多,市场需求更是日新月异,但苦于自己基础不够,心有余而力不足;也看过不少大数据方面的书籍、博客、视频等,但感觉进步不大;如果你是一位在职人员,但目前主要使用传统技术,虽然对大数据很有兴趣,也深知其对未来的影响,但因时间不够,虽有的基础,常常也是打两天鱼、晒三天网,进展不是很理想。如果你有上述疑惑或遇到相似问题,本书正好比较适合你。本书从OpenStack云平台搭建、软件部署、需求开发实现到结果展示,以纵向角度讲解了生产性大数据项目上线的整个流程;以完成一个实际项目需求贯穿各章节,讲述了Hadoop生态圈中互联网爬虫技术、Sqoop、Hive、HBase组件协同工作流程,并展示了Spark计算框架、R制图软件和SparkRHive组件的使用方法。
如今,我们要面对和使用的数据正在变得越来越庞大和复杂。如果说数据是新的石油。那么数据库就是油田、炼油厂、钻井和油泵。作为一名现代的软件开发者,我们需要了解数据管理的新领域,既包括RDBMS,也包括NoSQL。 本书遵循《七周七语言》的写作风格和体例,带领你学习和了解当令最热门的开源数据库。在简单的介绍之后,本书分章介绍了7种数据库。这些数据库分别属于5种不同的数据库风格,但每种数据库都有自己保存数据和看待世界的方式。它们依次是PostgreSQL、Riak、ApacheHBase、MongoDB、ApacheCouchDB、Neo4J和Redis。本书将深入每一种数据库,介绍它们的优势和不足,以及如何选取一种你的应用需求的数据库。 本书适合数据库架构师、数据库管理员,以及想要了解和学习各种NoSQL数据库技术的程序员阅读。本书将帮助读者了解、选择和应用这些数据库,从而更
本书对常用的数据结构做了系统的介绍,既注重原理又强调实践,配有大量的图表和习题,概念讲解清晰、逻辑性强、可读性好。主要内容包括:数据结构的基本概念;算法描述和算法分析初步;线性表栈、队列、串和广义表、树、图等结构:排序和查找的各种方法。每章均例举了典型应用实例,并配有算法和相应源程序以供教学和实践使用。另外还在附录中设计了上机实验题供读者独立完成,以加深读者对所学知识的理解和应用。 作为“21世纪计算机系列规划教材”之一,本书可作为高等院校应用型本科及高职高专院校计算机专业教材,也可以作为大学非计算机专业学生的选修课教材和广大从事计算机应用的科技人员的参考书。
本书汇集了作者有关数据库管理的真知灼见,讲述了dba 的方方面面,有技术的,还有生活的。作者本人不仅专业技术过硬,还当过篮球教练,对人生,尤其是dba 的生存之道有很独到的领悟。书中语言浅显易懂,生动 幽默,还配有多个技术审稿人的精彩评注。这些评注与作者的文字相辅相成,和而不同,因此本书可谓是博采众家之长,值得一读。 本书为dba 量身订做。如果你是dba,那么不可错过;如果你有意成为dba,或者想了解dba 的生存之道,本书同样适合你。
《Cassandra实战》是国内首本Cassandra专著,由Cassandra领域的先驱者和实践者亲自执笔,多位数据库专家联袂,性毋庸置疑。《Cassandra实战》内容全面,基于Cassandra版撰写,系统地讲解了Cassandra的所有功能特性和使用方法;实战性强,不仅包含大量示例代码,而且还设计了一个完整的在线交易系统实例;有一定的深度,不仅结合源代码分析了Cassandra的底层机制和工作原理,而且还精心总结了一些关于Cassandra的实践。 《Cassandra实战》一共分为13章,首先简单介绍了NoSQL的优势,以及几种具有代表性的NoSQL数据库的功能特性;其次详细讲解了Cassandra的安装和配置、数据模型和排序规则、编程接口等基础知识;接着以迭代的方式演示了一个基于Cassandra的在线交易系统的完整开发过程,很好地将基础理论融入到了实践中;再接着结合源代码分析了Cassandra的集群机制、内部数据存储
《高等院校计算机科学与技术规划教材:数据库原理及应用(第3版)》重点介绍了数据库系统的基本概念、基本原理和基本设计方法,同时基于SQLServer2005介绍了据库原理及应用。本书力求对传统的数据库理论和应用进行精炼。保留实用的部分。使其更为通俗易懂,更为简明实用。 《高等院校计算机科学与技术规划教材:数据库原理及应用(第3版)》共有7章,主要内容包括:数据库系统概述、数据模型、关系数据库理论、SQL语言、关系数据库设计理沦、数据库安全保护、数据库设计和SQLServer2005数据库管理系统等。 本书内容循序渐进、深入浅川,每章都给出了较多的示例,各章后均有适量的习题以便于渎者练习与巩固所学知识。 本书可作为汁算机各专业及信息类、电子类等相关专业的本科、专科“数据库原理及应用”类课程的教材,同时也可以供参
本书瞄准云计算和大数据产业,论述云计算环境下的数据治理成熟度模型规范,为用户提供通用的数据治理模型方法;针对靠前外市场对云端数据治理的迫切需求,给云端数据治理的用户提供很好实践方法;给出云端数据治理成熟度的评估方法和流程,帮助用户开展云端数据治理成熟度评估并实现用户的数据治理成熟度持续改进;进行云端数据治理示例分析,对云端数据治理成熟度应用和评估方法予以说明,并给出实施方法和应用步骤。
本书是一本从理论到实践的全面且细致的企业数据驱动指南,作者见证并献身百度大数据的建设,毫无保留地将成败摸索实践的真实场景进行完整还原,并对近十年大数据从业经验与心得做了归纳和总结,同时详解大数据本质、理念与现状,并围绕数据驱动四环节——采集、建模、分析、指标,深入浅出地讲述企业如何从零到一将完整的数据驱动方案落地,全面展示大数据在各领域内的应用情况与趋势展望。
数据分析实战 由实战经验丰富的两位数据分析师执笔,数据分析实战 首先介绍了商业领域里通用的数据分析框架,然后根据该框架,结合8个真实的案例,详细解说了通过数据分析解决各种商业问题的流程,让读者在解决问题的过程中学习各种数据分析方法,包括柱状图、交叉列表统计、A B测试、多元回归分析、逻辑回归分析、聚类、主成分分析、决策树分析、机器学习等。特别是书中使用的数据都是未经清洗的原始数据,对如何加工数据以用于数据分析也进行了详细的介绍。读者可以使用R语言实际操作数据,体验真实的数据分析流程,避免纸上谈兵。
数据库管理已经从一种专门的计算机应用发展为现代计算环境中的一个核心部分,因此,有关数据库系统的知识已成为计算机科学教育的基本部分。《数据库系统概念(第5版)(影印版)》介绍了数据库管理的基本概念,包括数据库设计、数据库语言和数据库系统实现。《数据库系统概念(第5版)(影印版)》可作为本科三年级或四年级的数据库入门教材,也可作为研究生一年级的教材。除了具有可作为入门课程的基本内容外,《数据库系统概念(第5版)(影印版)》还包括可作为课程补充的内容或课程的入门性材料。书中的基本概念和算法通常基于已有的商品化或实验用的数据库系统中的概念和算法。我们的目的是以一种一般化的形式来描述这些概念和算法,而不是与某种特定的数据库联系在一起。特定数据库系统的细节在第9章“实例研究”中讨论。
本书基于互联网和商业智能应用环境,介绍操作型数据库和分析型数据库的基本概念、设计方法和使用技巧,兼具时效性、理论性和实用性。主要内容包括:数据库基础知识,数据库需求与ER建模,关系数据库建模,SQL,数据库的实现与使用;数据仓库概念,数据仓库与数据集市建模,数据仓库的实现与使用;DBMS功能与数据库管理。书中包含丰富的实例、图示、代码和练习,配有教学网站和课程资源,帮助读者举一反三、学以致用。本书适合作为高等院校计算机相关专业数据库原理与设计课程的教材,也可作为数据库技术人员的参考书。
数据库管理已经从一种专门的计算机应用发展为现代计算环境中的一个核心部分,因此,有关数据库系统的知识已成为计算机科学教育的基本部分。《数据库系统概念(第5版)(影印版)》介绍了数据库管理的基本概念,包括数据库设计、数据库语言和数据库系统实现。《数据库系统概念(第5版)(影印版)》可作为本科三年级或四年级的数据库入门教材,也可作为研究生一年级的教材。除了具有可作为入门课程的基本内容外,《数据库系统概念(第5版)(影印版)》还包括可作为课程补充的内容或课程的入门性材料。书中的基本概念和算法通常基于已有的商品化或实验用的数据库系统中的概念和算法。我们的目的是以一种一般化的形式来描述这些概念和算法,而不是与某种特定的数据库联系在一起。特定数据库系统的细节在第9章“实例研究”中讨论。