本书的主要内容是作者及其合作者在复杂数据模型这一领域近些年的研究成果, 以及相关的最新进展. 全书共 6 章. 第 1 章简要介绍几类复杂数据模型和 bootstrap 等预备知识和相关研究问题. 第 2~6 章, 系统讨论各种复杂数据统计推断中的 bootstrap 基本理论、方法及其应用, 包括 Behrens-Fisher问题、异方差回归模型、异方差 ANOVA 和 MANOVA 模型、混合效应模型及高维数据分析中的 bootstrap 统计推断.
现在网络上的数据库发展得很快,包含了各类文献信息,如何能科学、准确地获取到自己需要的信息,是我们信息教育的主要内容,《数据库检索技巧》将侧重网络数据库的检索技巧,特别是对检索词的选择进行了详细的介绍,并针对用户的不同需求,通过运用的检索技巧而找到满意的结果。为了使不同程度的读者都能掌握信息检索的技巧,《数据库检索技巧》对一般的检索方法、检索的技巧、课题跟踪、信息推送等数据库提供的新的功能进行了详细的介绍,使读者通过学习能掌握和运用数据库的新技术,使信息资源的获取加及时,加科学。
《数据库程序员面试笔试宝典》针对当前各大 IT 企业面试笔试的特性与侧重点,精心挑选了近3年以来近百家 IT 企业的数据库面试笔试真题,这些企业涉及的业务包括系统软件、搜索引擎、电子商务、手机App、安全关键软件等,面试笔试真题非常具有代表性与参考性。同时,《数据库程序员面试笔试宝典》对这些题目进行了合理的划分与归类,并且对其进行了庖丁解牛式的分析与讲解。针对试题中涉及的部分重难点问题,本书都进行了适当地扩展与延伸,力求对知识点的讲解清晰而不紊乱,全面而不啰嗦,不仅如此,《数据库程序员面试笔试宝典》除了对数据库的基础知识进行深度剖析以外,还针对Oracle、MySQL、SQL Server等常见数据库的笔试面试做了非常详细的介绍。 《数据库程序员面试笔试宝典》是一本计算机相关专业毕业生面试、笔试的求职用书,同时也适合
《现代数据库技术及其新进展研究》以当前主流的关系数据库为主线,全面阐述了数据库的基本原理、基本技术、基本方法和应用技术,介绍了数据库技术的研究动态,探讨了数据库领域研究的新进展。《现代数据库技术及其新进展研究》主要内容包括:关系理论、关系数据库标准语言SQL、关系规范化理论、关系数据库设计、数据库的实施与调优、数据完整性约束、数据库的安全性、事务管理和锁、数据库的备份和恢复、现代数据库技术新进展等。 《现代数据库技术及其新进展研究》注熏数据库技术的实际应用,强调理论与实践紧密结合,可供从事数据库技术领域工作的科技人员参考使用。
数据挖掘是一门面向应用的新兴学科分支。李竹林、刘芬著的《数据挖掘算法研究与实现》以各类数据挖掘算法为核心,对数据挖掘研究领域的主要理论和典型算法进行了研究,并注重靠前外近期新研究进展的融入,力求内容系统、全面、优选。 本书主要内容包括数据挖掘中的数据预处理、数据的存储与数据仓库、关联规则挖掘算法、数据分类和预测挖掘算法、时间序列与序列模式挖掘算法的实现、数据聚类分析算法的实现、复杂类型的数据挖掘算法等。 本书结构合理,条例清晰,内容丰富新颖,是一本值得学习研究的著作。
本书在数据挖掘领域介绍的内容全面,讲解细致,保留了相当的篇幅讲述数据挖掘各方面的基本概念和方法,如数据挖掘的概述、数据描述和处理、基本统计分析方法、常用的统计学习算法和深度学习算法。本书还介绍了数据挖掘技术应用实例,如数据挖掘技术在睡眠分期中的应用。因此既适合初学者学习又适合专业人员参考。除了包含 外教材中的内容和特点外,还包括了应用实例的介绍,其内容具有合理性、丰富性和 性的特点。尤其在数据挖掘应用实例方面,针对具体问题提出解决方案,并附有关键代码,对理解数据、进行数据分析、理解算法实现等 有帮助。
本书以项目实践作为主线,结合必需的理论知识,以任务的形式进行内容设计,每个任务都包含任务描述及任务实施的步骤,读者按照实施步骤进行操作就可以完成相应的学习任务,从而不断提升项目实践能力。本书主要内容涉及机器学习的基础知识,模型评估与选择,回归、分类、聚类等机器学习算法,数据挖掘的基础知识,数据分析与应用,以及通过用户行为分析预测项目学习如何将机器学习与数据挖掘应用到实际中。 本书适合使用机器学习与数据挖掘技术进行大数据处理的程序员、架构师和产品经理作为技术参考和培训资料,也可作为高校本科生和研究生的教材。
作为《谁说菜鸟不会数据分析》家族的新成员,本书依然通俗地讲解数据分析的实践。《谁说菜鸟不会数据分析(SPSS篇)》继续采用职场三人行的方式来构建内容,细致梳理了准专业数据分析的常见问题,并且挑选出企业
科大讯飞大数据专家团队撰写,不囿于Spark机器学习库,突出算法的工程化思维与实践。从基础引出算法,从算法实践到场景应用,层层推进,分享笔者的一些想法和见解,铺展开 为深入、全面的思路。 6大机器学习模型构建 分类:刻画事物特征的类标识,有效预测未知数据的归类情况。 聚类:根据相似程度生成对象集合,同集合相似,不同集合相异。 回归:找出数据规律和趋势,预测数据未来变化。 关联规则:挖掘关联关系,辅助商业决策。 协同过滤:刻画用户相似兴趣,实现偏好预测。 降维:有效地消除无关和冗余特征,提升模型精度。 5大典型应用场景 异常检测:有效解决入侵检测、欺诈检测、社交假新闻等问题。 用户画像:高度精炼用户的特征标识,为产品与决策提供数据支持和事实依据。 点击率预估:预估点击概率,计
本书以Kettle实现ETL流程为目标,将ETL知识点与任务相结合,配套真实案例,深入浅出地介绍了ETL数据整合与处理的相关内容。全书共8章,第1章介绍了ETL概念和ETL工具,让读者在了解ETL相关的概念后,立刻上手ETL工具Kettle;第2~6章介绍了Kettle工具转换相关的组件,包括源数据获取、记录处理、字段处理、 转换、迁移和装载等内容,内容与ETL流程匹配,能帮助读者快速掌握ETL;第7章介绍了Kettle工具任务的相关组件,能够帮助读者串联不同的任务,以及实现调度的功能;第8章介绍了无人售货机ETL项目,通过项目案例的形式,帮助读者将所学知识融会贯通。
ODPS(Open Data Processing Service)是自主研发的海量数据处理和分析的服务平台,主要应用于数据分析、海量数据统计、数据挖掘、机器学习和商业智能等领域。目前,ODPS不仅在阿里内部得到广泛应用,享有很好的口碑,正逐步走向第三方开放市场。 李妹芳著的《ODPS 指南(阿里大数据平台应用开发实践)》是学习和掌握ODPS的 指南,作者来自阿里ODPS团队。全书共13章,主要内容包括:ODPS入门、整体架构、数据通道、MapReduce编程、SQL查询分析、安全,以及基于真实数据的各种场景分析实战。本书基于很多范例解析,通过在各种应用场景下的示例来说明如何通过ODPS完成各种需求,以期引导读者从零开始轻松掌握和使用ODPS。同时,本书不局限于示例分析,也致力于提供 多关于大数据处理的编程思想和经验分享。书中所有示例代码都可以在作者提供的网站上免费下载。
本书系统介绍Hive数据仓库的相关知识和技术。全书共12章,主要内容包括Hive数据仓库基础、Hive环境搭建、Hive基础、Hive数据定义、Hive数据操作、HQL查询、Hive函数、Hive数据压缩、Hive优化、Hive综合案例和上机实验等。本书知识结构简单明了,案例生动具体,内容设计新颖。本书免费提供教学大纲、电子课件和所有案例源代码,书后附有部分习题参考答案。本书可作为普通高校数据科学与大数据相关专业的教材,也可作为想继续深入了解大数据存储和开发的读者的参考书,还可作为各类大数据相关培训的教材。
本书以项目实践作为主线,结合必需的理论知识,以任务的形式进行内容设计,每个任务都包含任务描述及任务实施的步骤,读者按照实施步骤进行操作就可以完成相应的学习任务,从而不断提升项目实践能力。本书主要内容涉及机器学习的基础知识,模型评估与选择,回归、分类、聚类等机器学习算法,数据挖掘的基础知识,数据分析与应用,以及通过用户行为分析预测项目学习如何将机器学习与数据挖掘应用到实际中。 本书适合使用机器学习与数据挖掘技术进行大数据处理的程序员、架构师和产品经理作为技术参考和培训资料,也可作为高校本科生和研究生的教材。
本书通过选购笔记本电脑的案例引入数据包络分析(dataenvelopmentanalysis,DEA)的基本概念和模型,并运用简单的EXCEL模型让读者 易理解和运用DEA。本书着重阐述如何将DEA作为一种运营分析工具,进行绩效评估,找出基准标杆。探讨的主题包括:平衡的基准,昀佳实践,相对效率的概念及绩效提升。特别地,本书探讨的数据分析方法能够帮助一个组织重新审视它对生产效率高低的已有观点是否合理,并为组织不断改进提供指导。本书是市面上**本不要求读者具备线性规划和线性代数知识,就可以熟练应用DEA方法的DEA方法指导用书。