在这本书里,读者将会跟随作者一同对Oracle数据库的相关知识进行梳理,很终共同提炼出必须很先掌握的那部分知识,无论你是数据库开发、管理、优化、设计人员,还是从事Java、C的开发人员。接下来作者再将这部分知识中很实用的内容进一步提炼,浓缩出很精华的部分,分享给大家。这是“二八现象”的一次经典应用。这部分知识就是Oracle的物理体系结构、逻辑体系结构、表、索引以及表连接五大部分。通过阅读本书中的这些章节,读者将会在短时间内以一种有史以来很轻松的方式,完成对Oracle数据库的整体认识,不仅能解决工作中的常规问题,还能具备的设计和调优能力。通过对这些章节的学习,读者在Oracle的学习中会有极大的收获。然而,作者更希望看到的是:让读者的收获,不止Oracle。为达到此目的,作者精心将全书分成上下两篇,刚才所描述的具体知
IaH.Witten,EibeFrankandMarkA.Hall:DataMining:PracticalMachineLearningToolsandTechniques,ThirdEditio(ISBN978-0-12-374856-0).OriginalEnglishlanguageeditiocopyright2011byElsevierInc.Allrightsreserved.AuthorizedEnglishlanguagereprinteditiopublishedbytheProprietor.Copyright2012byElsevier(Singapore)PteLtd.PrintediChinabyChinaMachinePressunderspecialarrangementwithElsevier(Singapore)PteLtd.ThiseditioisauthorizedforsaleiChinaonly,excludingHongKong,MacaoSARsandTaiwan.UnauthorizedexportofthiseditioisaviolatiooftheCopyrightAct.ViolatioofthisLawissubjecttoCivilandCriminalPenalties.
本书不仅系统介绍各种传统的数据结构以及搜索和内、外排序算法,还引入了一些新数据结构,如伸展树和跳表。本书在重视理论的同时,强调应用性和实践性,对上机实习赋予足够重视。每章包括程序设计题,并将实习指导和实习题作为专门的章节编写。全书条理清晰,内容详实。书中算法都有完整的C程序。程序结构清晰,构思精巧。所有程序都已在VC环境下编译通过并能正确运行。本书深入浅出,配有大量的实例和图示,并有丰富的习题和实习题,适于自学。本书可作为电气信息类、电子信息科学类以及计算机、管理信息系统、电子商务,教育技术等其他相关专业学生数据结构课程的教材,并可供其他计算机应用工程技术人员参考。
当代商业和科学领域大量激增的数据量要求我们采用更加复杂和精细的工具来进行数据分析、处理和挖掘。尽管近年来数据挖掘技术取得的长足进展使得我们广泛收集数据越来越容易,但技术的发展依然难以匹配爆炸性的数据增长以及随之而来的大量数据处理需求,因此我们比以往更加迫切地需要新技术和自动化工具来帮助我们将这些数据转换为有用的信息和知识。本书前版曾被KDnuggets的读者评选为欢迎的数据挖掘专著,是一本可读性的教材。它从数据库角度全面系统地介绍数据挖掘的概念、方法和技术以及技术研究进展,并重点关注近年来该领域重要和的课题——数据仓库和数据立方体技术,流数据挖掘,社会化网络挖掘,空间、多媒体和其他复杂数据挖掘。每章都针对关键专题有单独的指导,提供算法,并对怎样将技术运用到实际工作中给出了经过实践检验的
本书采用SAS公司的统计软件包JMP?Pro进行实践性应用,使用引人入胜的实际案例来构建关键数据挖掘方法(尤其是分类和预测的预测模型)的理论及其实践理解。本书所讨论的主题包括数据可视化、降维、聚类、线性和逻辑回归、分类和回归树、判别分析、朴素贝叶斯、人工神经网络、增量模型、集成算法以及时间序列预测等。
在集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——大数据实践》就是在此背景下完成的。本书中讲到的大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由数据技术及产品部组织并完成写作,是分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。
《生态学数据分析:方法、程序与软件》介绍了生态学数据处理方法,包括数据转换和标准化、物种和遗传水平的多样性、种群空间分布格局、生态位、聚类分析、主成分分析、除趋势对应分析、典范对应分析、基于熵模型的物种分布区预测,以及生态学实验中的单因素与双因素方差分析、成对样本T-检验、独立样本T-检验等。对于每一种方法,提供了相应的程序和软件,《生态学数据分析:方法、程序与软件》的重点不是介绍生态学数据处理方法的理论基础和数学公式推导,而是在简要介绍方法的基础上,利用案例数据,手把手地教大家如何利用《生态学数据分析:方法、程序与软件》介绍的程序和软件实现数据定量分析。可作为生态学、环境科学及其他相关领域(例如植物学、动物学、农学和土壤科学)本科生和研究生的教材,也可作为相关专业科研人员的自学参
《数据质量管理基础》正文由7章组成(重点考虑关系型结构化数据):章简介数据质量问题;第2章展开讨论条件依赖理论;第3章阐述发现条件依赖,以及基于发现条件依赖检测数据不一致、修复数据的实践技术;第4章介绍依赖匹配作为数据去重的匹配规则;第5章重温经典的两个信息完整性假定,即封闭世界假定和开放世界假定,并提出和研究相对信息完整性理论;第6章进行数据时效性建模,以便时间戳缺失情况下,在数据库中进行实体值辨别并基于此返回查询结果;第7章探索数据质量问题之间的交互作用。
《数据质量管理基础》正文由7章组成(重点考虑关系型结构化数据):章简介数据质量问题;第2章展开讨论条件依赖理论;第3章阐述发现条件依赖,以及基于发现条件依赖检测数据不一致、修复数据的实践技术;第4章介绍依赖匹配作为数据去重的匹配规则;第5章重温经典的两个信息完整性假定,即封闭世界假定和开放世界假定,并提出和研究相对信息完整性理论;第6章进行数据时效性建模,以便时间戳缺失情况下,在数据库中进行实体值辨别并基于此返回查询结果;第7章探索数据质量问题之间的交互作用。
《中国数据中心运维管理指针》主要针对数据中心运维管理、监控系统、基础设施管理技术,结合《数据中心设计规范》(GB50174-2013),总结了外数据中心技术发展情况,从技术、规范、设计及产品应用等方面进行了阐述。本书主要包括以下三个方面的内容:一、数据中心运维管理技术:数据中心运维白皮书简介、数据中心ITIL运维框架、数据中心运维组织架构、数据中心基础设施运维之监控系统、数据中心基础设施运维之日常工作、数据中心基础设施运维之应急处理、数据中心网络运维、数据中心客户服务、数据中心现场运维之基础工作、数据中心基础及应用平台运维、数据中心运维管理工具、数据中心运维质量保障体系、数据中心运维相关认证、数据中心运维之行业实例、数据中心能耗测评、数据中心运维之能效管理、数据中心测试验证和数据中心运维之供应商
特征选择是机器学习的重要研究内容,有着广泛的应用价值。特征选择主要从数据(尤其是高维数据)中选取有效特征来表示数据,从而提高机器学习算法的性能。《高维数据的特征选择:理论与算法》以重庆工商大学等单位的机器学习、图像处理课题为基础,系统地介绍特征选择的基本概念,以及相关的理论和算法,也对它的前沿研究(如无监督特征选择)和其在计算机视觉中的应用进行详细介绍,最后对特征选择的发展方向进行展望。 《高维数据的特征选择:理论与算法》理论联系实际,对教学、科研具有重要指导意义,可作为高等院校和科研机构从事机器学习的学者的参考书,亦可供从事大数据分析(如基因数据、计算机视觉)的专业技术人员参考。