全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了 30 多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 如果你是一名创业者,或者你是一名产品开发、产品管理、市场营销、公共关系和投资领域的商务专业人员,那么本书不容错过。
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
内容简介这是一部能指引零基础读者顺利完成数据资产入表的实操性著作。它不仅为读者提供了数据资产入表所需的全部知识,还给出了实际操作层面的方法指引;既是数据资产入表的初学者指南,也是企业实施数据资产入表操作的工作手册。本书由数据资产管理领域的标杆企业亿信华辰倾情奉献,同时融合了行业的先进实践经验,开创性提出 数据资产三次入表理论 (数据原始资源入表、数据产品入表、数据金融资产入表),得到了来自学术界和企业界的12位数据资产管理专家的高度评价和强烈推荐。本书分为四部分,不仅从战略、方法、工具、实操、案例等角度为读者提供了全面的数据资产入表知识体系,还前瞻性地探讨了数据资产入表后的价值挖掘、资产评估和金融创新。第一部分 数据资产入表全景概览(第1和第2章)深入分析数据资产入表的宏观背景、核
《Doris实时数据仓库理论与实战》系统地介绍了Doris的核心概念、架构原理和各项功能。全书共7章。第1章对Doris做了初步介绍。第2章重点介绍了Doris的数据表设计。第3章聚焦于Doris的数据导入。第4章介绍了Doris的数据导出和数据管理。第5章讨论了Doris中的数据更新和删除操作。第6章将读者带入Doris的进阶使用领域。第7章展示了Doris的生态扩展。通过《Doris实时数据仓库理论与实战》的学习,读者可以全面而深入地了解运用Doris构建高效、可扩展、实时数据仓库系统的方法,从理论到实践,从基础到进阶。 《Doris实时数据仓库理论与实战》适用于Doris开发人员和数据工程师,或有志从事数据仓库开发的技术人员。
本书是一本数据科学的入门与提升教程,全书共5篇,按照由浅入深、循序渐进的方式介绍R语言的基本语法与实际应用,并结合现实数据进行实战操作。内容涵盖R语言的安装与运行、数据对象的创建与编程、R语言初级与高级绘图、数据的管理与清洗、统计分析与数据降维、无监督与有监督学习、利用R Markdown创建动态报告和制作幻灯片等。本书为读者提供了相关案例的源码(获取方式见封底)。 本书适合对数据可视化、统计建模、数据分析、数据挖掘感兴趣的研究人员和工程技术人员阅读,也可作为高等院校数学、统计学、数据科学、计算机科学、人工智能、云计算、大数据分析、生物医学、工业统计等方向本科生或研究生的参考教程。
内容简介这既是一本系统讲解数据资产价值变现的入门书,又是一本全面介绍数据要素的科普书,它能帮助零基础的读者厘清数据要素各种概念并建立系统的知识体系,同时还能掌握数据资产价值变现的认知、实现路径和实操方法。本书由凯捷咨询前亚太区副总裁、阿里云中国区前咨询总经理撰写,全球数据资产理事会(DAC)联合出品。本书是《精益数据方法论:数据驱动的数字化转型》一书的姊妹篇,后者讲了如何制定数据战略、梳理数据场景、开发数据产品,如何利用精益数据方法转型为数字化企业;前者为数字化企业的数据资产变现给出了方案。全书一共17章,分为5篇。第一篇 数据要素基础与政策环境首先详细介绍了数据要素的定义、特征以及20余个该领域的相关概念,彻底厘清读者对数据要素的认知;然后全面分析了国家在数据要素领域的布局以及与之相
利用这本书,你将学习以下内容:了解如何选择Spark转换实现优化的解决方案。探索强大的转换和归约,包括reduceByKey()、combineByKey()和mapPartitions()。理解数据分区以实现优化查询。使用PySpark设计模式构建和应用模型。对图数据应用motif查找算法。使用GraphFrames API分析图数据。对临床医学和基因组数据应用PySpark算法。学习如何在ML算法中使用和应用特征工程。了解并使用实用的数据设计模式。
本书介绍可以帮助读者处理真实数据分析挑战的概念和技能。它涵盖了概率论、统计推断、线性回归和机器学习等概念。它还帮助读者提升如下技能:R编程、数据清洗、数据可视化、预测算法构建、使用UNIX/Linux shell组织文件、使用Git和GitHub进行版本控制以及可复制的文档准备。全书分为六个部分,分别为R、数据可视化、统计与R、数据清洗、机器学习和生产力工具。
《企业数据治理与SAP MDG实现》从讲解大数据与企业数据治理之间的重要关系出发,首先阐述数据治理在企业数字化转型过程中的定位与作用。然后通过讲述数据治理框架以及企业数据管理规划等方面的基础内容来阐述数据治理相关内容在企业中推进的顶层方向、推行范围与落地方式。通过概念解析、方案实例等方式讲述了主数据管理维度在数据管理中的定位、作用、目标以及某行业中此类项目建设的部分实际内容,如对数据管控方案和相关主数据平台产品(SAP MDG)进行了重点介绍。接着对企业数字化转型中的数字化共享平台,尤其是企业中台(包括业务中台、数据中台)的概念、内容与核心目标等方面进行了阐述。*后通过大数据平台规划与大数据应用层面的内容,详细讲述了数字化转型的特点和大数据平台规划与建设的手段与实例,让读者从点到面了解企业数字
本书深入浅出介绍后摩尔时代的并行计算核心技术,理论与实践并重,同时兼顾数学模型、结构模型、编程模型。本书具有以下特色:从概念上明确算势与算力的联系与区别,强调在后摩尔时代背景下从潜在能力(算势)到实际能力(算力)的充分转化的重要性;注重量化分析和理论推导,单列一章对计算性能模型和存储性能进行了介绍;注重并行应用程序的设计,单列一章介绍并对比分析了共享存储编程与非共享存储编程的基本原理;注重融会贯通,培养整体观念,分别考察了共享存储结构和分布式存储结构,揭示潜在的可利用的并行硬件资源以及对应的编程方法;编制了大量的原创的有助于提高读者理解深度和应用知识能力的例题;在国内外同类教材或专著中,率先以算势和算力的统一的视角,系统对比了经典并行计算与量子并行计算,促进两个领域的沟通融
《Hadoop海量数据处理》从Hadoop的基础知识讲起,逐步深入Hadoop分布式文件系统(HDFS)和MapReduce分布式编程框架的核心技术,帮助读者全面、系统、深入地理解Hadoop海量数据处理技术的精髓。本书在讲解技术原理时穿插大量的典型示例,并详解两个典型项目实战案例,帮助读者提高实际项目开发水平。 《Hadoop海量数据处理》共15章,分为4篇。第1篇Hadoop基础知识,包括大数据概述、Hadoop概述、Hadoop环境搭建与配置;第2篇Hadoop分布式存储技术,包括HDFS概述、HDFS基础操作、HDFS的读写原理和工作机制、Hadoop 3.x的新特性;第3篇MapReduce分布式编程框架,包括MapReduce概述、MapReduce开发基础、MapReduce框架的原理、MapReduce数据压缩、YARN资源调度器、Hadoop企业级优化;第4篇项目实战,包括Hadoop高可用集群搭建实战和统计TopN经典项目案例实战。 《Hadoop海量数据处理》通俗易懂、案
财务管理对所有企业而言都具有重要战略意义。一个能全盘掌握企业信息,并能清晰地提供决策所需资料的数据处理系统将是企业提升财务管理系统的核心平台。Oracle公司是全球的信息管理软件及服务供应商,Oracle数据库已成为世界上使用最广泛的数据库系统之一。在市场竞争日趋激烈的今天,该系统可以为企业培养迅捷的反应能力和整合资源提供极大的便利。 本书以版本的Oracle 11i E Business Suit为对象,全面系统地介绍了Oracle 11i财务系统的操作使用流程和方法。从教学内容上来看,本书涵盖了财务模块的所有构成部分,表述了会计核算和财务分析的主要流程,体系完整; 从教学方法上看,本书提供了丰富的示例和技巧说明,并辅以明晰的图示,读者可以轻松地在实践中掌握相关技巧。本书的目的是力争让每一位希望实现企业财务管理软件化、现代化、智能化
本书深入探讨了大数据技术的核心概念和实际应用。从大数据的基础架构Hadoop开始,逐步解析了分布式协调服务Zookeeper、数据仓库Hive、面向列的数据库HBase等关键技术。此外,还介绍了数据迁移工具Sqoop、数据采集工具Flume、发布订阅消息系统Kafka等实用工具。本书还深入讲解了数据处理分析引擎Spark、全文搜索引擎Elasticsearch及分布式处理引擎Flink的工作原理和应用实例。最后,通过电商推荐系统实战和Flink实现电商用户行为分析两个案例,展示了大数据技术在实际业务中的应用。 本书附带全书实例源代码、电子版本教程(下载方式见封底),以及可扫码观看的长达13个小时的部分实例操作视频,帮助读者更深入了解大数据技术的具体内容,非常适合对大数据技术感兴趣的读者,尤其是想要深入了解大数据技术原理和应用的开发者和管理者阅读。
在信息技术革命之后,我们将迎来数据革命。在大数据的概念、性质和价值已得到政府和社会的认可之后,大家关注的是数据如何获取,以及有了数据以后如何挖掘数据的价值。仅适合特定行业、满足特定需求的技术不足以应对一场革命,大数据不但是超出计算机软硬件处理的能力,更是超出人类的认知能力。只有实现对数据的认知,利用数据辅助决策,才是适合不同行业数据价值实现的通用手段。本书描述了数据革命的起源、实现的思路、所用的技术和要达到的目标,针对当今社会热点描述了在数据时代的应对之策。本书宏观和微观、人文和技术、启迪思想和关注实用并举,既适合宏观层面的领导启迪思维,提出工作目标,又适合微观层次的执行人员找到实现的方法和路径。本书介绍的理论和技术均可在智慧城市、智能制造领域实际使用。本书适合政府、企业决
当代商业和科学领域大量激增的数据量要求我们采用更加复杂和精细的工具来进行数据分析、处理和挖掘。尽管近年来数据挖掘技术取得的长足进展使得我们广泛收集数据越来越容易,但技术的发展依然难以匹配爆炸性的数据增长以及随之而来的大量数据处理需求,因此我们比以往更加迫切地需要新技术和自动化工具来帮助我们将这些数据转换为有用的信息和知识。 本书前版曾被KDnuggets的读者评选为欢迎的数据挖掘专著,是一本可读性的。它从数据库角度全面系统地介绍数据挖掘的概念、方法和技术以及技术研究进展,并重点关注近年来该领域重要和的课题数据仓库和数据立方体技术,流数据挖掘,社会化网络挖掘,空间、多媒体和其他复杂数据挖掘。每章都针对关键专题有单独的指导,提供算法,并对怎样将技术运用到实际工作中给出了经过实践检验的实
《数据恢复和PC-3000 for Windows基础与应用案例全解析》正是基于传播数据恢复基础知识、解决数据恢复问题的理念而编写的,重点从数据恢复基础、PC-3000 for Windows 应用指南和数据恢复案例解析这3 个方面进行讲解,其中涉及磁盘基础知识、数据存储结构、数据恢复技术原理、磁盘固件,PC-3000 for Windows基础知识和基本操作,以及数据恢复软件操作解析、软硬件故障与软硬件修复案例解析、数据存储安全等多方面内容。本书不但对数据恢复理论知识进行了全面深入的剖析,还配以大量的典型案例,手把手地教给读者具体的操作方法,实践性和实用性很强,会深受广大读者的喜爱。
《数据库系统基础(第6版)》是被世界众多高校广泛采用的讲述数据库系统的经典教材。本书全面阐述了数据库系统在设计、使用、实现和应用中所需的基本概念,既有对理论与设计的清晰阐述,同时又涵盖了大量模型和实际系统,紧跟现代数据库技术的发展,注重对数据库系统基本原理的介绍,着重强调数据库系统中的数学模型、设计问题、关系代数和关系演算。 《数据库系统基础(第6版)》提供了大量实验和习题,为学生进行数据库的基础设计和实现提供了实践机会。书中使用现实世界的贴切案例来阐述数据库概念,有助于读者理解和掌握这些概念。第6版仍然延续前5版的特点,涵盖了大多数的数据库论题,如sql、安全性、数据挖掘等,另外,本版还加入了诸如xml、半结构化数据、信息检索等新的主题,可供大学三、四年级的学生或研究生作为数据库系统课程的教