Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
本书详细介绍了OMG推出的公共仓库元模型的标准,从而帮助读者利用元数据轻松完成不同产品间的数据交换。本书从CWM的来源讲起,介绍了制定CWM的必要性、CWM的基础知识、CWM的体系结构以及如何利用CWM开发元数据解决方案,如何实现CWM等问题。本收结构清晰,内容丰富,几位作者都是参与制定CWM的专家,具有丰富的实践经验。因此,本书极具实用性,适用数据仓库的设计者、维护者、制定决策的管理人员阅读。
计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语来表达。本书介绍了这些领域的一些重要概念。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩图。本书内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。 本书可作为高等院校相关专业本科生和研究生的教材,对于统计学相关人员、科学界和业界关注数据挖掘的人,本书值得一读。
零基础入门,让读者轻松、快速地掌握使用PowerBI创建和设计报表的整体流程。本书为读者提供了一个轻松愉快的阅读学习体验,全彩印刷、版式灵活、颜色清爽、内容优选、案例典型、视频赠送。本书包含大量案例,读者可以边学边练,书中的大多数3级标题以案例名称命名,既便于读者从目录中快速找到相应的案例,又能让读者了解每个知识点、每项技术的实际应用场景,从而实现技术与应用的无缝对接。为了便于读者学习和练习,本书附赠所有案例的源文件和重点案例的多媒体视频教程。本书适合想要学习使用PowerBI或PowerBIforExcel进行数据分析和报表制作的读者。如果读者对PowerBI不熟悉或从未使用过PowerBI,那么学习本书可以让您在短时间内快速掌握PowerBI的使用方法,并使用它来解决实际应用中的问题。对于有使用经验的读者来说,学习本书有助于梳理PowerBI的知
本书将教你充分利用集群硬件优势的架构,以及专门设计用来捕获和分析网络规模数据的新工具,来创建这些系统。其中描述了一个可扩展的、易于理解大数据系统的方法,可以由小团队构建并运行;并利用一个实际示例,基于大数据系统的理论在实践中实现它们来指导读者。本书共18章。章介绍了数据系统的原理,并对Lambda架构进行了概述;第2章到第9章集中阐述了Lambda架构的批处理层;0章和1章讲述服务层的内容;2章到17章讲述速度层的内容;8章再次巩固Lambda架构的相关知识,并进行查漏补缺。
本书结合大量实例介绍了Mesos的使用方法、核心原理及框架开发的相关内容。通过这些内容读者可以在数据中心环境中利用Mesos搭建分布式系统、进行大数据分析及开发分布式应用。全书分为8章分别从使用、开发和运维等角度全面展示了Mesos作为数据中心内核的强大能力、设计方面的精髓及在工程中的实践。书中还介绍了Mesos项目的进展和未来的发展方向,并给出了大量参考文献和相关链接方便读者进一步深入了解Mesos。
本书以建设财政大数据智能分析决策平台为目标,从项目的角度,提出了财政数字化转型平台需求规格说明书,并进行了平台总体的技术架构规划、平台架构规划与功能架构规划。本书主要内容包括财政数字化转型平台的背景分析、财政数字化转型项目需求规格说明、基于大智移云技术的财政数字化转型平台总体建设方案、财政数字化转型平台数据中台详细设计、财政数字化转型平台数据智能详细设计、财政数字化转型平台共享系统建设方案、财政数字化转型其他功能设计、财政数字化转型项目管理方案等。
本书分为部分,共九章。第壹部分(章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第2~7章)首先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多种优化方式;然后,介绍了Druid的基本原理、集群的搭建过程、数据摄入过程,以及在查询过程中如何实现Druid查询API;接着介绍了日志收集系统Flume的基本架构和关键组件,以及分层日志收集架构的设计与实践;后介绍了分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章)主要介绍了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监控系统。
本书分为两部分,共10章,从架构到管理,从自动化测试到持续集成,通过丰富的工作实例,系统而深入地讲解敏捷DW/BI的基本原理、关键技术和项目管理实践,为在真实商业智能和数据仓库项目上应用敏捷分析方法提供系统使用指南。从管理角度,详细介绍敏捷分析的基本原则,敏捷项目管理的有效实践,包括章程、规划、执行和检测敏捷分析项目的有效实践,展现如何使用案例和用户故事驱使价值持续传递,并讲解团队管理和领导的敏捷风格如何有效地替代传统命令控制风格;从技术角度,深入讲解能够持续传递商业价值并有质量保障的技术方法,包括设计推进、测试驱动的数据仓库开发、版本控制和项目自动化,以及应用敏捷分析时的一些注意事项。本书内容全面,讲解深入,并且涵盖许多经过实践检验的解决方案,适合IT决策者、数据仓库专业人士、数据库
大数据时代已经来临,这将引起深刻的行业变革。但是,大数据的真意在于数据分析,即从繁多的数据中找出洞见,并将其应用于实际决策中,以产生更明智的决策。这是一个看起来简单、做起来较难的事情。《发现数据之美:数据分析原理与实践》从一个自底向上的角度,全面地阐述了数据分析所涉及的知识和技术,对于经典算法和工具的介绍也不止于泛泛而谈,而是加入了作者的经验和理解。所谓自底向上的角度,即从数据分析实践开始时所需要的数据准备、数据探查、数据再处理等,到经典的统计分析和数据挖掘算法及应用,还讲述了模型的部署,优化技术的引入,最终到决策自动化。《发现数据之美:数据分析原理与实践》对企业管理者、数据分析从业者及高校的学生都有参考意义。管理者能看到一个较全面的数据分析的阐述,明确自身的需求;从业者能
Python凭借其简单、易读、可扩展性以及拥有巨大而活跃的科学计算社区,在需要分析、处理大量数据的金融行业得到了广泛而迅速的应用,并且成为该行业开发核心应用的编程语言。《Python金融大数据分析》提供了使用Python进行数据分析,以及开发相关应用程序的技巧和工具。《Python金融大数据分析》总计分为3部分,共19章,部分介绍了Python在金融学中的应用,其内容涵盖了Python用于金融行业的原因、Python的基础架构和工具,以及Python在计量金融学中的一些具体入门实例;第2部分介绍了金融分析和应用程序开发中重要的Python库、技术和方法,其内容涵盖了Python的数据类型和结构、用matplotlib进行数据可视化、金融时间序列数据处理、高性能输入/输出操作、高性能的Python技术和库、金融学中需要的多种数学工具、随机数生成和随机过程模拟、Python统计学应用、Python和E
《Tableau8权威指南》对如何利用Tableau软件制作交互美观的仪表板做了详细而全面的介绍。全书主要分为7个主题:如何连接各种数据源、如何快速创建各种图形、如何创建地图及自定义地图、如何使用各种函数创建新的字段、如何使用参数、如何设计交互的仪表板以及如何共享仪表板并让其自动刷新,适合数据分析师、视觉设计师和对数据感兴趣的开发人员学习提高。如果你是初次接触Tableau软件,那么《Tableau8权威指南》对你一定大有帮助。书中对Tableau的每一步操作、每一个按钮的作用都有详尽的说明,加上Tableau8软件本身简单易用,读完本书可让你迅速掌握Tableau8的完整功能。如果你是Tableau软件的老用户,阅读《Tableau8权威指南》也能让你对Tableau8的细节功能有更深入的认识。例如,在Tableau8中,用蓝色标记的字段说明其值是离散的,用绿色标记的字段说明其值是连
本书结合大量实例介绍了Mesos的使用方法、核心原理及框架开发的相关内容。通过这些内容读者可以在数据中心环境中利用Mesos搭建分布式系统、进行大数据分析及开发分布式应用。全书分为8章分别从使用、开发和运维等角度全面展示了Mesos作为数据中心内核的强大能力、设计方面的精髓及在工程中的实践。书中还介绍了Mesos项目的进展和未来的发展方向,并给出了大量参考文献和相关链接方便读者进一步深入了解Mesos。
空间数据库索引是近年来的热点研究领域,是一门前沿交叉学科。本书全面介绍了传统数据库、空间数据库及时空数据库相关的基本概念、应用领域、数据存储机制、数据检索操作及相关的数据索引技术结构,重点分析了空间数据库索引技术的特点、要求及相关实现算法。本书条理清晰、叙述严谨、实例丰富,既适合计算机及相关专业的本科生、研究生教学需要,也适合IT业的研究人员、技术人员研究开发需要及阅读参考。
这是一本让人脑洞大开的内容玩法书,给新一代叙事者提供了十八般武器。清晰的构架、简洁的语言、坦率的态度,整本书无不流露着新一代互联网原住民颠覆传统的创新基因。运营无招,数据有度。握好数据的尺度,把数据做出角度、深度、温度、态度,这是整本书的核心。围绕“新消费、玩互动、融呈现、变模式”四个维度,本书从场景化叙事聊到用户激励和内容产品经理,分享了内容、传播、团队该如何迎接变革的心路历程。产品的玩法本身会经历兴衰,但只要人的创新精神在,就可以在新的场景下也能够持续玩好内容。作者的探索与思考,无疑可以给内容运营从业者带来多元的启发。推荐准备从事内容传播和广告策划工作的在校生、即将从事互联网产品运营的人、移动互联网内容创新研究者、企业市场和品牌传播从业者参考阅读。
布林思科、卡里姆、默西的《保修数据收集与分析》主要讨论产品保修期数据的收集与分析方法。涵盖的內容包括产品保修相关的基本概念,保修期数据的收集方法、建模方法、通过收集的数据预计保修期花费的方法、基于保修期数据改进产品的方法以及应用案例。在工具与技术上,本书重点讨论一维和二维保修的保修索赔建模与保修费用预计方法,同时介绍统计分析和统计推断的一些基础工具,并在此基础上进行保修数据分析,举例说明了多种产品的索赔和补充数据。全书不仅阐述产品保修数据分析相关理论,而且提出能够指导工程应用的可行方法,具有很强的工程参考价值和教学研究价值。本书主要面向从事产品可靠性研究的科研人员、项目管理者,也可作为可靠性工程、管理工程等学科的教师和研究生的教学参考资料。
《数据建模与DB设计》重点介绍数据建模与数据库设计的理论及应用。从数据模型的发展历程及其必要性引入,基于作者在研究和项目实践中积累的经验,让读者理解数据建模是业务负责人与数据设计者之间沟通的工具,数据模型决定数据处理性能与数据管理便利性。书中首先将数据建模划分为概念建模、逻辑建模、物理建模以及的数据库设计四个阶段,明确了导出实体、设定实体的重要关系、设定键的数据建模流程。为了提高数据整合性和业务流程性能,先后提出了范式化和反范式化过程,在构建理解的数据结构的同时兼顾数据库的访问成本,寻找盈亏平衡点。《数据建模与DB设计》无论对数据分析设计领域的初学者还是实际业务的实践者,都很有启发和指导作用。
本书以网络安全中主要子领域为主线,以数据挖掘算法为基础,搜集了大量基于数据挖掘的网络安全技术研究成果,汇编了数据挖掘技术在隐私保护、恶意软件检测、入侵检测、日志分析、网络流量分析、网络安全态势评估、数字取证等网络安全领域的应用,介绍了常用的网络安全数据集,并搜集了大量的网络安全资源,以供读者能将本书内容应用于实际的研究或学习中。本书可作为研究人员、网络安全工程人员和对基于数据挖掘的网络安全技术感兴趣的研究生的参考书,也可作为高等院校高年级课程的教学用书,还可供相关领域工作的读者参考。