本书提供了一种简单、高效、通用的关系型数据库索引设计方法。作者通过系统的讲解及大量的案例清晰地阐释了关系型数据库的访问路径选择原理,以及表和索引的扫描方式,详尽地讲解了如何快速地估算SQL运行的CPU时间及执行时间,帮助读者从原理上理解SQL、表及索引结构、访问方式等对关系型数据库造成的影响,并能够运用量化的方法进行判断和优化,指导关系型数据库的索引设计。
《数据结构》是计算机专业的专业基础课和核心课程。本书内容全面,所有算法都是用C语言描述,能够直接运行,在每一章的所有知识点都给出了算法的具体使用。本书内容包括数据结构概述、C语言程序设计基础、线性表、栈、队列、串、数组、广义表、树和二叉树、图、查找、内排序和外排序。为了便于读者学习,在讲解每一个知识点时,都结合图和具体实例进行分析,在每个知识点的最后都给出算法的具体应用,每一个例子都比较典型且知识点覆盖完整。 本书可作为大中专院校的计算机相关专业数据结构的教材,也可作为计算机软件开发、考验和软件等级考试相关人员的参考书。
《解惑大数据》是一本系统介绍大数据的技术普及读物,可帮助读者迅速了解大数据的概况。全书分为4章,共120个问题,内容涵盖大数据概念、大数据技术、大数据应用等各个方面。章为大数据概述篇,介绍了大数据的概念、技术特点及应用方向等;第2章为分布式平台篇,介绍了大数据的核心计算平台;第3章为分布式数据库篇,介绍大数据中广泛使用的分布式数据库;第4章为大数据与数据挖掘篇,介绍经典的数据挖掘算法以及大数据如何实现规模化和并行化处理。 《解惑大数据》可作为对大数据技术感兴趣的读者以及工程技术人员、行业管理人员、大数据系统的设计开发人员的技术参考资料,也可以作为大学本科高年级学生和研究生相关课程的参考书。
本书主要介绍了数据库系统的基本概念,包括数据库设计、数据库语言和系统实现。第4版中扩展了ER模型、SQL、数据仓库、OLAP、数据挖掘的内容,新增了XML、数据库管理、应用开发等章节,更新并扩展了信息检索部分。本书可作为三、四年级本科生一年级研究生的数据库课程的教材,同时,可供数据库领域的技术人员参考。涵盖了数据模型、基本对象的系统和XML、数据库存储和检索、事务处理、 数据库系统体系结构等多方面的内容,采用直观的方式描述所有概念,并以结构清晰的图示和例子代替形式化的证明,以银行数据库实例生动地解释重要概念,增强了本书的易读性。
本书将现代统计学的重要思想引入数理统计课程中,强调了数据分析、图形工具和计算机技术,并注重统计的实务和应用.本书内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法,主要包括概率、变量、联合分布、期望、极限定理、抽样调查、参数估计、假设检验、数据汇总、两样本比较、方差分析、分类数据分析和线性最小二乘等. 本书用真实数据分析了实际问题,以此增强读者对理论的理解;作者将自助方法与传统的推论性过程结合起来,增加了蒙特卡罗方法.此外,为了使概念更清晰,书中提供了大量的示例,而且还有丰富的习题,以增强读者的计算能力. 本书适合作为统计学、数学、其他理工科专业以及社会科学和经济学专业高年级本科生和低年级研究生的教材,同时也可供相关领域技术人员参考.
本书由斯坦福大学知名计算机科学家Jeffrey Ullman和JenniferWidom合作编写。本书首先介绍流行的关系数据库和对象关系数据库内容,涉及关系数据模型、E/R模型、UML模型以及对象模型等高级数据模型。然后介绍了有关半结构化数据组织管理中比较流行的XML等内容,既包括了数据组织模型的内容,也给出了相关编程语言,如XPath、XQuery、XSLT等。 本书举例丰富翔实,既可用作大学本科、研究生计算机及相关专业数据库课程的教科书,也可用作数据库领域技术人员的参考书。
本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
随着互联网的发展,近年来关于Web数据挖掘的研究方兴未艾,加之多年从事数据挖掘方面的教学工作,笔者一直希望撰写一本这方面的书,以飨读者,其目的就是作为想了解和进人Web数据挖掘研究和实践领域的工作者的“他山之石”,帮助他们把握本领域的全貌,掌握研究和解决Web数据挖掘问题的切入点。 伴随互联网的应用,社区、论坛、微博上留下了浩瀚的数据信息,这些数据蕴藏着巨大的商机和社会价值。与此同时,Web上信息爆炸与知识贫乏的矛盾依然存在,如何在海量的Web数据中发现知识,并用于社会实践,仍然是亟待解决的问题。
《数据库程序员面试笔试真题库》针对当前各大IT企业面试笔试中的特性与侧重点,精心挑选了近3年来近百家典型IT企业的面试笔试真题,这些企业涉及业务包括系统软件、搜索引擎、电子商务、手机APP、安全软件等,面试笔试真题非常具有代表性与参考性。同时,《数据库程序员面试笔试真题库》对这些题目进行了合理的划分与归类,并且对其进行庖丁解牛式的分析与讲解,针对试题中涉及的部分重难点问题,本书还进行了适当的扩展与延伸,力求对知识点的讲解清晰而明了,全面而精练,使读者通过本书不仅能够获取到求职的知识,同时更有针对性地进行求职准备,终能够收获一份满意的工作。 《数据库程序员面试笔试真题库》是一本计算机相关专业毕业生面试、笔试的求职用书,同时也适合期望在计算机软、硬件行业大显身手的计算机爱好者阅读。
《现代模式识别(第2版)(研究生教学用书)》系统深入地论述了各类经典的模式识别的理论与方法,同时还较全面地反映了本学科的新近科技成果。书中讨论的主流模式识别技术有:统计模式识别、模糊模式识别、神经网络技术、人工智能方法、子空间模式识别及结构模式识别等。 《现代模式识别(第2版)(研究生教学用书)》共17章。章为引论;第二章至第七章介绍统计模式识别,包括:聚类分析、判别域代数界面方程法、统计判决、统计决策中的学习与错误率估计、最近邻法和特征提取与选择;第八章为模糊模式识别方法;第九章介绍神经网络技术;第十章信息融合主要论述识别与决策中的有关融合技术;第十一章为结构模式识别;第十二章智能化方法侧重讨论不确定推理;第十三章阐述决策树;第十四章论述支持矢量机;第十五章讨论隐马尔可夫模
随着大数据的蓬勃发展,不少机构开始将源源不断的数据流导入到一个叫“数据湖”的设备中去。数据湖架构 是“数据仓库”之父撰写的全新著作,是帮助读者认识数据湖架构,并把数据湖打造成公司资产的指导手册。数据湖架构 共15章,分别涉及数据湖简介、数据池据湖内部结构、数据池及其结构、各种类型的数据池等技术话题,目的在于讲解如何构建有用的数据湖,以便数据科学家和数据分析师能够解决商业挑战并找出新的商业机会。数据湖架构 适合数据管理者、学生、系统开发人员、架构师、程序员以及终用户阅读。