大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》作者就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。基于《重构大数据统计》内容开发的数据分析工具已经在集团内部的多个部门使用,并取得显著效果。另外,《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。《重构大数据统计》适合对大数据分析感兴趣的读者阅读,《重
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
在集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——大数据实践》就是在此背景下完成的。本书中讲到的大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由数据技术及产品部组织并完成写作,是分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。
本书分为两部分,共10章,从架构到管理,从自动化测试到持续集成,通过丰富的工作实例,系统而深入地讲解敏捷DW/BI的基本原理、关键技术和项目管理实践,为在真实商业智能和数据仓库项目上应用敏捷分析方法提供系统使用指南。从管理角度,详细介绍敏捷分析的基本原则,敏捷项目管理的有效实践,包括章程、规划、执行和检测敏捷分析项目的有效实践,展现如何使用案例和用户故事驱使价值持续传递,并讲解团队管理和领导的敏捷风格如何有效地替代传统命令控制风格;从技术角度,深入讲解能够持续传递商业价值并有质量保障的技术方法,包括设计推进、测试驱动的数据仓库开发、版本控制和项目自动化,以及应用敏捷分析时的一些注意事项。本书内容全面,讲解深入,并且涵盖许多经过实践检验的解决方案,适合IT决策者、数据仓库专业人士、数据库
马宗民、严丽编写的《模糊信息XML与数据库建模技术研究》系统介绍了模糊数据建模的基本概念、原理、方法及应用技术,主要内容包括模糊概念数据模型、模糊XML模型、模糊数据库模型、模糊模型间映射、模糊数据库数据操作,介绍了一个模糊工程信息数据库建模的应用实例。 《模糊信息XML与数据库建模技术研究》对信息领域从事非传统应用的专业人员具有重要的参考价值,可作为高等学校计算机、智能科学与技术、信息系统专业研究生和高年级本科生的教材,也可供计算机及相关专业科技工作者参考。
随着国家电网公司坚强智能电网建设的逐步推进,电力企业生产运行产生的实时数据种类越来越丰富,数据总量越来越大,这些数据是公司的重要财富,是实现精益化管理的重要基础。《电力企业海量实时数据库应用系统》结合网省公司海量实时/历史数据平台建设实践,对电力企业海量实时数据库应用系统建设从建设原则、建设方法及完整解决方案进行较为全面的阐述。 《电力企业海量实时数据库应用系统》共分七章,~三章介绍了电力企业信息化建设历程、信息集成方法及实时数据库在信息集成中的重要作用;第四~六章介绍了实时数据库应用系统建设总体解决方案;第七章对实时数据库应用系统建设经验进行了总结与回顾,并对智能电网建设背景下,如何更大地发挥实时数据库应用系统价值,在智能变电、智能配电、新能源等领域的应用延伸进行了介绍
本书将教你充分利用集群硬件优势的架构,以及专门设计用来捕获和分析网络规模数据的新工具,来创建这些系统。其中描述了一个可扩展的、易于理解大数据系统的方法,可以由小团队构建并运行;并利用一个实际示例,基于大数据系统的理论在实践中实现它们来指导读者。本书共18章。第1章介绍了数据系统的原理,并对Lambda架构进行了概述;第2章到第9章集中阐述了Lambda架构的批处理层;第10章和第11章讲述服务层的内容;第12章到17章讲述速度层的内容;第18章再次巩固Lambda架构的相关知识,并进行查漏补缺。
零基础入门,让读者轻松、快速地掌握使用PowerBI创建和设计报表的整体流程。本书为读者提供了一个轻松愉快的阅读学习体验,全彩印刷、版式灵活、颜色清爽、内容优选、案例典型、视频赠送。本书包含大量案例,读者可以边学边练,书中的大多数3级标题以案例名称命名,既便于读者从目录中快速找到相应的案例,又能让读者了解每个知识点、每项技术的实际应用场景,从而实现技术与应用的无缝对接。为了便于读者学习和练习,本书附赠所有案例的源文件和重点案例的多媒体视频教程。本书适合想要学习使用PowerBI或PowerBIforExcel进行数据分析和报表制作的读者。如果读者对PowerBI不熟悉或从未使用过PowerBI,那么学习本书可以让您在短时间内快速掌握PowerBI的使用方法,并使用它来解决实际应用中的问题。对于有一定使用经验的读者来说,学习本书有助于梳理PowerBI
本书是一本大数据时代下进行小数据分析的入门级教材,通过数据分析的知识点,将各类分析工具进行串联和对比,例如:在进行线性规划的时候可以选择使用Excel或LINGO或CrystalBall。工具的应用难易结合,让读者循序渐进地学习相关工具。JMP和Mintab用来分析数据,分析的结果使用Excel、LINGO、CrystalBall来建立数据模型,最后使用Xcelsius来动态展示数据分析的结果。书中以两个人的对话为叙述方式,场景描写多,容易进入学习状态,完全是用生动的故事和实用的案例尽可能地贴近生活和工作,让数据分析生动有趣,基本上有高中数学知识就可以理解线性规划等数据分析内容。本书不仅介绍Excel而且介绍使用其他工具软件进行数据分析,可用来拓展互联网公司、传统企业、电商企业、管理咨询公司等各行各业从事数据分析工作的分析师和管理者对数据分析的认知,也适合初
本书以建设财政大数据智能分析决策平台为目标,从项目的角度,提出了财政数字化转型平台需求规格说明书,并进行了平台总体的技术架构规划、平台架构规划与功能架构规划。本书主要内容包括财政数字化转型平台的背景分析、财政数字化转型项目需求规格说明、基于大智移云技术的财政数字化转型平台总体建设方案、财政数字化转型平台数据中台详细设计、财政数字化转型平台数据智能详细设计、财政数字化转型平台共享系统建设方案、财政数字化转型其他功能设计、财政数字化转型项目管理方案等。
本书分为部分,共九章。第壹部分(章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第2~7章)首先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多种优化方式;然后,介绍了Druid的基本原理、集群的搭建过程、数据摄入过程,以及在查询过程中如何实现Druid查询API;接着介绍了日志收集系统Flume的基本架构和关键组件,以及分层日志收集架构的设计与实践;后介绍了分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章)主要介绍了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监控系统。