全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了 30 多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 如果你是一名创业者,或者你是一名产品开发、产品管理、市场营销、公共关系和投资领域的商务专业人员,那么本书不容错过。
这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、方法论、规范、模型、解决方案和案例,不仅能让读者即学即用,还能让读者了解华为数字化建设的历程。 全书共10章,内容从逻辑上分为四个部分。 第壹部分(第1~3章) 第1章以非数字原生企业在数字化转型方面面临的挑战开篇,介绍了华为在数据治理和数字化转型方面的目标、愿景、蓝图和框架;第2章从企业政策和架构协同的角度,介绍了企业级的数据综合治理体系,理顺了数据与变革、运营、IT之间的协同关系,明确了数据管理的责任主体在业务;第3章详细阐述了不同类型的数据的管理方式
内容简介这是一部能指引零基础读者顺利完成数据资产入表的实操性著作。它不仅为读者提供了数据资产入表所需的全部知识,还给出了实际操作层面的方法指引;既是数据资产入表的初学者指南,也是企业实施数据资产入表操作的工作手册。本书由数据资产管理领域的标杆企业亿信华辰倾情奉献,同时融合了行业的先进实践经验,开创性提出 数据资产三次入表理论 (数据原始资源入表、数据产品入表、数据金融资产入表),得到了来自学术界和企业界的12位数据资产管理专家的高度评价和强烈推荐。本书分为四部分,不仅从战略、方法、工具、实操、案例等角度为读者提供了全面的数据资产入表知识体系,还前瞻性地探讨了数据资产入表后的价值挖掘、资产评估和金融创新。第一部分 数据资产入表全景概览(第1和第2章)深入分析数据资产入表的宏观背景、核
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
数据、模型与决策是应用数学建模和计算机技术帮助决策者解决问题。作为国外一本优秀的数据、模型与决策的教材,本书具有以下特色: 1.对枯燥、复杂和技术化的数学问题用简明易懂的语言予以解释,兼顾严谨的数理逻辑。 2.突出建模分析框架和基础逻辑的讲授和训练,在某种程度上实现了艺术与科学的有机融合。 3.课后习题丰富,并配有网络题库,供自学者加强训练,及时检查对理论模型及其求解方法的掌握程度。 第12版把修订重点放在企业和组织的*技术发展上,增加了商业分析(第1章)、项目风险(第8章)以及数据挖掘(第14章)等内容。
内容简介 这是一部全面讲解数据产品经理核心知识体系的著作。12位作者大多来自国内的知名企业,涉及不同的行业,让本书拥有了更广泛的视角,能帮助读者从不同的角度去了解数据产品经理如何在数据、产品、运营、市场等多个方面产生价值。本书的*终目的是让读者全面了解数据产品经理的工作内容、系统掌握数据产品的核心知识体系,快速实现从入门到进阶的突破。 全书一共11章,重点讲解了数据产品经理应该掌握的11个核心知识点,可以概括为四个部分。 第壹部分 基础知识(第1章) 首先介绍了数据产品的定义、组成、分类,其次介绍了数据产品经理的分类和能力模型,*后介绍了数据产品经理的招聘、应聘和面试。 第二部分 通用能力(第2~3章) 讲解了数据产品经理应该具备的数据分析能力和项目运作能力(产品路线图)。 第三部分 数据管理(第4~9章
数字经济已成为各国经济增长的新动能,并上升为国家发展战略,各国政府和人民对数据跨境流动安全问题的关注与日俱增。本书系统介绍了全球数据跨境规则的产生背景及其发展演变的脉络,重点分析了全球主要国家和地区数据跨境治理规则的内容和相互之间的异同,特别介绍了欧盟、美国话语权下的数据跨境流动规则及规则间的弥合,也介绍了其他国际性文件及十余个重点国家和地区的立法现状,同时展望了全球数据跨境规则的未来走向,在此基础上对我国的数据跨境流动治理规则现状进行梳理,并对其实施与完善提出了相关建议。本书语言平实易读,主要以法律法规、执法部门的解释性指南、判决书等一手资料作为参考,介绍分析了国内外立法现状和法律实践。
本书面向数学与工程计算,主要讲解了MATLAB 2017a软件基础、初等数学专题概要、高等数学基本问题、线性代数与矩阵论基本问题、概率论与数理统计基本问题、数值分析基本问题、CASIO fx 991CN X(中文版)函数科学计算器简介七方面的内容。本书适合大中专院校理工科学生学习使用,也可供广大科研人员、学者、工程技术人员及MATLAB专业人员参考。
洞见产业新生态,解码数字新经济 行业场景真实展示 实际案例深度梳理,感受数字转型路径风格 谭建荣院士、郭华东院士、邬贺铨院士、张宏科院士 共同推荐 《产业数字化 释义、场景及应用案例》以《 十四五 数字经济发展规划》中产业数字化部分的核心内容为纲领,从入选工业和信息化部的大数据产业发展示范项目中,选取了具有产业代表性的来自生产一线的数字化转型实践案例,连同数字化建设和转型的共性基础内容,组织了42 个案例,从实践背景、方法手段、主要应用的技术、实践过程中遇到的典型问题、实施流程、典型应用场景等方面,分享了多个行业、多家单位的实践经验,以期帮助读者对产业数字化转型产生更为具体的了解和体会、获得间接经验,为读者提升数字认知和工作能力做一定的基础铺垫。 本书适合具有产业数字化转型需求的相关企业的管理者、
R语言在心理语言学研究中的应用已经有相当长的历史,但什么情况下要对数据进行怎样的处理,模型应该如何构建,得到结果后应该如何科学地读取和规范地报告等问题仍未得到很好的解决,本书意在解决这些问题。 本书首先介绍了R语言基础知识、基本统计思路和初步数据整理,对经由真实眼动研究得到的数据进行清理、转换和描述性统计,以及数据可视化等操作,然后介绍了线性混合模型和最大随机效应,结果解释、整理和提升,power分析和Bayes分析在R语言中的实现;接着介绍了线性混合模型和重复测量方差分析结果的比较;最后介绍了多种眼动指标整理的方法。
本书的主要内容包括网络数据的定义及相关指标、大规模网络中的链路预测、网络聚类分析、网络数据中的空间自回归模型、大规模网络数据中的模型估计方法、网络数据中的空间自回归模型的拓展及应用、网络中的空间自回归模型的其他研究方向等。本书关注大规模网络数据分析中的模型方法。除模型方法本身的理论拓展之外,在估计方法等方面会涉及大规模数据中的快速计算方法。由于网络分析本身的范围非常广泛,故本书涉及的内容仅局限于作者及团队研究工作中使用到的一部分。在本书的后,为了启发读者思路,对于部分已有网络研究进行了梳理。
SPSS是一款经典流行的统计分析软件,完全适合作为各行业进行数据挖掘和数据分析的工具。全书内容共12章,书中第1~2章介绍SPSS的基本界面和窗口操作、调查研究、SPSS数据整理与数据挖掘的基本知识;第3~12章采用10个典型应用的综合案例分别介绍以SPSS 25.0版本在数据挖掘和数据分析中的具体应用。 本书内容由浅入深、循序渐进、结构安排合理,企业中的经营预测者与决策者、财会人员、市场营销人员、生产管理等部门的工作者、经济管理部门或政府的广大工作者都可将本书用作参考书。同时,本书还可供大专院校经济管理类各专业的高年级本科生、研究生、MBA学员学习和参考。
从统计学科与计算机科学的性质认知,大数据是指那些超过传统数据系统处理能力、超出经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合,对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新的统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。 《大数据:统计理论、方法与应用》共分五章,其内容包括大数据下的统计理论体系、大数据下的数据集整合分析、大数据下的高维变量选择方法、大数据下的统计方法并行计算和大数据下的统计方法应用——网络舆情分析。 本书内容新颖,取材国内外资料,同时认真总结了作者近年来的科研成果,重点反映统计学对大数据发展的影响,突出五大特点: (1)充分体现学科融合; (2)
本书试图较全面地介绍大数据技术的基本原理和方法,包括以统计模型为主的各类数据模型以及它们的计算方法,同时还将介绍这些方法在一些领域(如人工智能)中的应用。
空间关联和并置模式被统称为空间模式,空间模式发现是空间数据挖掘中重要的任务之一。本书围绕挖掘的目标(如关联或并置)和对象(如经典数据、区间数据、不确定性数据或模糊数据等),系统地介绍了作者在空间模式挖掘领域的主要研究成果。内容包括:绪论;空间模式挖掘基础;空间关联规则挖掘;经典数据的空间colocation模式挖掘(1)、(2);不确定性数据的空间colocation模式挖掘;区间数据的空间colocation模式挖掘;模糊数据的空间colocation模式挖掘;加权colocation模式及其挖掘算法;负colocation模式挖掘及SCPMiner开发等。 本书可供高等院校计算机及相关专业的本科生、研究生参考,对从事计算机开发及应用的科技人员及开发人员也有较大的参考价值。
本书主要提出云模型、数据场、地学粗空间和空间数据挖掘视角等新技术,构建空间数据挖掘金字塔,研究空间数据挖掘的数据源,导出空间观测数据清理的“李德仁法”,研究基于空间统计学的图像数据挖掘,提出“数据场一云”聚类、基于数据场的模糊综合聚类和基于数学形态学的聚类知识挖掘算法,研究基于归纳学习的空间数据挖掘、基于概念格的遥感图像数据挖掘和地理信息系统(GIS)数据挖掘,结合滑坡监测、银行经营收益分析及选址评价、遥感图像土地利用分类、土地资源评价、火车运行安全检测等实例系统研究空间数据挖掘可操作性,并在此基础上自主研制了空间数据挖掘原型系统GISDBMiner和RSImageMiner。 本书可供空间数据挖掘、计算机科学、地球空间信息科学、GIS、遥感(RS) 、全球定位系统(GPS)、数据分析、人工智能、认知科学、空间资源规划、土地
国家高度重视并积极推动新型基础设施的建设和发展。5G作为新基建的排头兵,凭借其万物物联和泛在智能的优势,将为社会带来根本性的变革。本书从新基建基本内涵出发,着眼于5G新基建中的网络规划建设和融合业务发展两条主线展开论述,详细介绍了5G网络架构和关键技术、5G网络规划与建设及5G融合业务应用与实践案例等。 本书内容丰富且深入浅出,适用于通信运营商、规划设计院、业务集成解决方案提供商、5G行业咨询机构等单位的相关技术人员参阅,同时也可以作为对口大专院校和科研机构研究生及教师的参考用书。
本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。 本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。 本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。
本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。 本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。 本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。
本书从整体上进行了改编、扩展和提升。主题内容也有所延伸,其中包括数据的类型与域、表的比较、映像关系、聚集操作符与汇总、视图更新以及子查询。还特别收录了一个新附录 NoSQL与关系理论。 本书涵盖以下内容: 是否可以编写SQL查询找到在公司每个编程部门都至少工作过一次的员工? 你是否可以确保查询的正确性?为什么恰当的列命名非常重要? 数据库中的null会带来错误的答案。为什么?你又能做什么? 映像关系如何能帮助你表述复杂的SQL查询? 虽然SQL支持 量化比较 ,但是尽量不要使用。为什么?怎样才能避免使用?
数据仓库专家KrishKrishnan以清晰和简明的阐述,带领我们了解在大数据时代如何升级数据仓库并帮助企业做出智能决策。全书分为三部分:部分讨论大数据技术及其应用案例;第二部分讲解数据仓库技术,包括数据仓库的架构选择、工作负载和新兴技术;第三部分讨论大数据和数据仓库的集成,包括数据分析、数据可视化、信息生命周期管理、数据科学家的角色变迁等。本书适合从事数据架构、分析、挖掘等工作的技术人员和管理人员阅读,也适合学习相关专业的学生参考。