现代数据服务面临的两大问题是数据保障和不间断服务,即数据服务的高可用性(HighAvailability)。本书论述Oracle在此方面的两类解决方案:数据卫士(Data Guard)和数据集群(Real Application Cluster,RAC)。数据卫士将主数据库的数据变更通过异步或同步的方式传播到网络(局域网或广域网)上的另一台或多台主机上,从而实现对主数据库的数据保护。不仅如此,这些跟随主数据库数据变化的主机(备用数据库)还可以实现联机的只读访问或暂时的数据读/写,这就大大增强了数据卫士的应用价值。RAC数据集群则是将数据库同时运行在高速局域网的多个不同的主机上,这种处理方式不仅可以将应用系统的访问负荷分散到不同的服务器上,还可以通过多台主机服务之间的冗余来防范单节点故障,从而为用户提供不间断的数据访问。RAC和Data Guard的联合应用,可以实现当前IT业
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
本全书内容主要包括11章和三个附录,其中11章又分为两大部分,部分是一些基础的介绍性的内容,章和第二章完整地讲述了元数据的意义以及一些基本的概念,第三章则从总体上分明绍了当前主要的元数据标准。第二部分则根据无数据的仓储项目生命周期的各个阶段,分别在第四章到第九章介绍了元数据的工具的评估,元数据仓储项目的组织和人员的配置,如何制定元数据的项目计划,元数据体系的结构的设计,如何通过元数据来提高数据的质量以及元模型的构造,此外,第十章还详细地介绍了开发周期的各个阶段该交付的产品以及取得的阶段性的成果,最后第十一章展望了元数据的未来发展的趋势。
郝忠孝所著的《时空数据库新理论》系统论述和分析了时空数据库、空间数据库、移动数据库等查询、空间数据推理新技术和新理论。全书共分8章。内容包括:基于Voronoi图的线段反向最近邻查询;空间数据间的序及数据查询;不确定性平面、区域的平面线段的近邻查询、平面动态线段的索引和查询;基于聚类的空间数据索引优化及代价分析;高维主存kNN查询,△-tree的非递归、递归深度,自底向上深度递归kNN查询,自顶向下主存△-tree的高维数据相似连接;区域对象间主方向关系的反关系推理、三维空间方向关系的表达与推理、基于定性坐标的位置表达及主方向关系推理等。 《时空数据库新理论》可作为计算机科学与技术学科、地理信息系统、机器人技术、人工智能、卫星遥感、气象分析、地质灾害分析等专业的高年级本科生或硕士生选修课教材,也可供从事上述
本书详细介绍了OMG推出的公共仓库元模型的标准,从而帮助读者利用元数据轻松完成不同产品间的数据交换。本书从CWM的来源讲起,介绍了制定CWM的必要性、CWM的基础知识、CWM的体系结构以及如何利用CWM开发元数据解决方案,如何实现CWM等问题。本收结构清晰,内容丰富,几位作者都是参与制定CWM的专家,具有丰富的实践经验。因此,本书极具实用性,适用数据仓库的设计者、维护者、制定决策的管理人员阅读。
计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语来表达。本书介绍了这些领域的一些重要概念。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩图。本书内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。 本书可作为高等院校相关专业本科生和研究生的教材,对于统计学相关人员、科学界和业界关注数据挖掘的人,本书值得一读。
本书分为两部分,共10章,从架构到管理,从自动化测试到持续集成,通过丰富的工作实例,系统而深入地讲解敏捷DW/BI的基本原理、关键技术和项目管理实践,为在真实商业智能和数据仓库项目上应用敏捷分析方法提供系统使用指南。从管理角度,详细介绍敏捷分析的基本原则,敏捷项目管理的有效实践,包括章程、规划、执行和检测敏捷分析项目的有效实践,展现如何使用案例和用户故事驱使价值持续传递,并讲解团队管理和领导的敏捷风格如何有效地替代传统命令控制风格;从技术角度,深入讲解能够持续传递商业价值并有质量保障的技术方法,包括设计推进、测试驱动的数据仓库开发、版本控制和项目自动化,以及应用敏捷分析时的一些注意事项。本书内容全面,讲解深入,并且涵盖许多经过实践检验的解决方案,适合IT决策者、数据仓库专业人士、数据库
本书以建设财政大数据智能分析决策平台为目标,从项目的角度,提出了财政数字化转型平台需求规格说明书,并进行了平台总体的技术架构规划、平台架构规划与功能架构规划。本书主要内容包括财政数字化转型平台的背景分析、财政数字化转型项目需求规格说明、基于大智移云技术的财政数字化转型平台总体建设方案、财政数字化转型平台数据中台详细设计、财政数字化转型平台数据智能详细设计、财政数字化转型平台共享系统建设方案、财政数字化转型其他功能设计、财政数字化转型项目管理方案等。
本书分为部分,共九章。第壹部分(章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第2~7章)首先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多种优化方式;然后,介绍了Druid的基本原理、集群的搭建过程、数据摄入过程,以及在查询过程中如何实现Druid查询API;接着介绍了日志收集系统Flume的基本架构和关键组件,以及分层日志收集架构的设计与实践;后介绍了分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章)主要介绍了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监控系统。
教材紧紧围绕系统的开发过程,将开发过程中所涉及的知识点逐一分解成各个单元,只要学生顺利地完成各个单元中的任务,就完成了整个系统。初级篇项目选用"学生信息管理系统”,课堂举例和课堂练习围绕子系统"学生成绩管理系统”展开,拓展练习围绕子系统"学生住宿管理系统”展开,采用砌砖式逐步累加的方式完成。篇围绕"网上商城系统”数据库的设计、实施和管理维护展开。
本教材《Hadoop大数据平台集群部署与开发/华晟经世ICT专业群系列教材》介绍了Hadoop伪分布式搭建及使用方法;项目2主要对Hadoop的核心元素、接口操作进行了细致讲解;项目3对为实现HadoopHA所需的Zookeeper的架构、部署等进行了解释;项目4至项目6详细介绍了Hadoop生态圈中的几个核心组件——分布式存储数据库(HBase)、数据迁移神器(Sqoop)、数据采集神器(Flume)以及数据仓库(Hive),在介绍这几个核心组件的同时也融入了对于大数据综合实验的分析。《Hadoop大数据平台集群部署与开发/华晟经世ICT专业群系列教材》具有较强实用性,教材内容以“学”和“导学”交织呈现,十分适合学习者使用。
l 数据仓库、大数据、数据科学的简单介绍。 l 了解企业建立数据湖的各种途径。 l 探索如何构建自助服务模型,以及如何让分析师便捷访问数据的实践。 l 使用不同的方法来构建数据湖。 l 了解不同行业专家实现数据湖的方法。
从表面上来看,设计实践和数据科学似乎并没有什么明显的联系。但这两门学科的目标其实是一样的,都是为了帮助设计人员和产品经理理解用户,以便于打造出良好的数字化体验。数据能够增强设计,同时设计也可以赋予数据更深层次的意义。这本实用指南展示了如何生成数据驱动的A/B测试,用于帮助执行各种设计决策,无论是细小的调校,还是大规模的UX概念。另外还配合真实案例,告诉你怎样完成产品设计流程中数据驱动设计部分的工作。