Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
本书详细介绍了OMG推出的公共仓库元模型的标准,从而帮助读者利用元数据轻松完成不同产品间的数据交换。本书从CWM的来源讲起,介绍了制定CWM的必要性、CWM的基础知识、CWM的体系结构以及如何利用CWM开发元数据解决方案,如何实现CWM等问题。本收结构清晰,内容丰富,几位作者都是参与制定CWM的专家,具有丰富的实践经验。因此,本书极具实用性,适用数据仓库的设计者、维护者、制定决策的管理人员阅读。
计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语来表达。本书介绍了这些领域的一些重要概念。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩图。本书内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。 本书可作为高等院校相关专业本科生和研究生的教材,对于统计学相关人员、科学界和业界关注数据挖掘的人,本书值得一读。
数据仓库与数据挖掘是决策支持的两项重要技术,它们共同的特点是都需要利用大量的数据资源,并从数据资源中提取信息和知识。由于数据资源丰富,因此数据仓库与数据挖掘的决策支持效果显著。《数据仓库与数据挖掘技术及应用研究》系统地研究数据仓库和数据挖掘的核心技术,并结合应用实例,力求理论联系实际。全书深入浅出,通俗易懂,内容系统、完整,是一本值得学习研究的著作,能为软件工程及相关专业学生的提供参考,也可供计算机研究和开发人员以及相关专业人士参考。
本书从初学者的角度介绍了Spark应用程序体系架构的核心技术,共6章。章介绍了详细大数据与Spark以及其他数据处理框架;第2章主要讲解Spark集群的搭建,包括Standalone、Spark on YARN、Spark HA模式,另外介绍了Spark的运行架构与原理,以及Spark Shell的简单使用;第3章到第6章主要讲解SparkRDD弹性分布式数据集、Spark SQL处理结构化数据和多数据源操作、Spark Streaming实时计算框架,并包含了实战案例。本书适合作为高等职业院校电子信息大类各专业学习Spark大数据技术的,也可作为培训学校的培训,还可作为大数据爱好者的自学用书。
本书将数据库的理论知识与实践教学以及实际应用相结合,理论联系实践,内容层层递进,首先概述数据库及其技术发展、数据库系统设计与管理,然后对数据库课程教学改革与模式创新进行了讨论,在此基础上对数据库应用与共享平台设计进行了更深层次的探究。希望读者通过阅读本书,加强对数据库相关理论的掌握,对数据库及其教学应用有更深入的了解,推动数据库应用技术的发展。 本书适合作为高等学校计算机、信息管理、软件工程、电子商务等相关专业数据库类课程本科生教材,也适合作为从事数据库系统研究、数据库管理和数据库系统开发者的参考用书。
随着国家电网公司坚强智能电网建设的逐步推进,电力企业生产运行产生的实时数据种类越来越丰富,数据总量越来越大,这些数据是公司的重要财富,是实现精益化管理的重要基础。《电力企业海量实时数据库应用系统》结合网省公司海量实时/历史数据平台建设实践,对电力企业海量实时数据库应用系统建设从建设原则、建设方法及完整解决方案进行较为全面的阐述。 《电力企业海量实时数据库应用系统》共分七章,~三章介绍了电力企业信息化建设历程、信息集成方法及实时数据库在信息集成中的重要作用;第四~六章介绍了实时数据库应用系统建设总体解决方案;第七章对实时数据库应用系统建设经验进行了总结与回顾,并对智能电网建设背景下,如何更大地发挥实时数据库应用系统价值,在智能变电、智能配电、新能源等领域的应用延伸进行了介绍
《Oracle大数据解决方案 由Oracle大数据团队成员联袂撰写,全面介绍用于获取、组织、分析和利用非结构化数据的Oracle综合集成化产品。本书讨论成功实现大数据方案必需的策略和技术,包括Apache Hadoop、Oracle大数据机、Oracle大数据连接器、Oracle NoSQL数据库、Oracle Endeca、Oracle分析和Oracle开源R产品,还讲述迁移既有系统并将现有数据仓库和分析解决方案集成到企业大数据基础架构的 实践。 主要内容 理解综合性大数据战略的价值 限度地提高Apache Hadoop平台的分布式处理能力 介绍将Oracle大数据机用作Hadoop和Oracle NoSQL数据库工程系统的优势 使用Oracle大数据机来配置、部署、监控Hadoop和Oracle NoSQL数据库 将现有数据仓库和分析基础架构集成到大数据架构 使用Oracle数据连接器在Hadoop和关系型数据库之间共享数据 理解如何将Oracle NoSQL数据库集成到Oracle大数据架构 使用数据
这是一部全面的、以实践为导向的企业私有云建设指南,内容严谨、语言平实,匠心之作。 作者是云计算、系统架构和运维领域的专家,基于VMWare和OpenStack两种解决方案,从技术选型、规划和建设、设计和部署、平台建设和管理、实践、成熟度评估6个维度对私有云的建设展开了全景式的讲解。 全书一共10章: 章总结性地介绍了云计算的参考架构、典型解决方案架构和涉及的关键技术; 第2章从需求分析入手,详细讲解了私有云的技术选型,以及资源管理、监控和运维; 第3章从计算、网络、存储资源池等方面讲解了私有云的规划和建设,以及私有云建设的总体原则。 第4~5章分别讲解了基于开源的OpenStack和商业的VMWare的私有云设计与部署,从计算资源、网络资源、存储资源、系统架构、高可用实现、备份和容灾、扩展等方面私有云建设应遵循的实践原则和经验; 第6
《从零进阶!数据分析的统计基础》共章,分别讲解了数据分析的步骤和方法、描述性统计分析、抽样估计、假设检验、方差分析、相关与回归分析,使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概率论等方面 的理论内容,并使用图示的方法详细介绍了使用进行简单的描述性统计分析和使用进行相 关的数据分析的过程与结果分析。 《从零进阶!数据分析的统计基础》适合需要提升自身数据分析理论和实践能力的职场新人;在市场营销、金融、财务、人力资源管理中需要数据分析的人士;从事咨询、研究、分析等的专业人士。也可以作为数据分析师职业培训的教材,普通高等院校非统计专业数据分析的选修教材。