这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、方法论、规范、模型、解决方案和案例,不仅能让读者即学即用,还能让读者了解华为数字化建设的历程。 全书共10章,内容从逻辑上分为四个部分。 第壹部分(第1~3章) 第1章以非数字原生企业在数字化转型方面面临的挑战开篇,介绍了华为在数据治理和数字化转型方面的目标、愿景、蓝图和框架;第2章从企业政策和架构协同的角度,介绍了企业级的数据综合治理体系,理顺了数据与变革、运营、IT之间的协同关系,明确了数据管理的责任主体在业务;第3章详细阐述了不同类型的数据的管理方式
数据、模型与决策是应用数学建模和计算机技术帮助决策者解决问题。作为国外一本优秀的数据、模型与决策的教材,本书具有以下特色: 1.对枯燥、复杂和技术化的数学问题用简明易懂的语言予以解释,兼顾严谨的数理逻辑。 2.突出建模分析框架和基础逻辑的讲授和训练,在某种程度上实现了艺术与科学的有机融合。 3.课后习题丰富,并配有网络题库,供自学者加强训练,及时检查对理论模型及其求解方法的掌握程度。 第12版把修订重点放在企业和组织的*技术发展上,增加了商业分析(第1章)、项目风险(第8章)以及数据挖掘(第14章)等内容。
本书的主要内容包括网络数据的定义及相关指标、大规模网络中的链路预测、网络聚类分析、网络数据中的空间自回归模型、大规模网络数据中的模型估计方法、网络数据中的空间自回归模型的拓展及应用、网络中的空间自回归模型的其他研究方向等。本书关注大规模网络数据分析中的模型方法。除模型方法本身的理论拓展之外,在估计方法等方面会涉及大规模数据中的快速计算方法。由于网络分析本身的范围非常广泛,故本书涉及的内容仅局限于作者及团队研究工作中使用到的一部分。在本书的后,为了启发读者思路,对于部分已有网络研究进行了梳理。
本书的主要内容是作者及其合作者在复杂数据模型这一领域近些年的研究成果, 以及相关的最新进展. 全书共 6 章. 第 1 章简要介绍几类复杂数据模型和 bootstrap 等预备知识和相关研究问题. 第 2~6 章, 系统讨论各种复杂数据统计推断中的 bootstrap 基本理论、方法及其应用, 包括 Behrens-Fisher问题、异方差回归模型、异方差 ANOVA 和 MANOVA 模型、混合效应模型及高维数据分析中的 bootstrap 统计推断.
从统计学科与计算机科学的性质认知,大数据是指那些超过传统数据系统处理能力、超出经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合,对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新的统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。 《大数据:统计理论、方法与应用》共分五章,其内容包括大数据下的统计理论体系、大数据下的数据集整合分析、大数据下的高维变量选择方法、大数据下的统计方法并行计算和大数据下的统计方法应用——网络舆情分析。 本书内容新颖,取材国内外资料,同时认真总结了作者近年来的科研成果,重点反映统计学对大数据发展的影响,突出五大特点: (1)充分体现学科融合; (2)
本书系统讲授数据挖掘的原理、主要方法及其Python实现,共分三部分:第一部分包含第1~2章,介绍数据挖掘的基本概念、流程和数据预处理;第二部分包含第3~11章,介绍经典的分类算法(包括朴素贝叶斯分类器、决策树、k-近邻、支持向量机等)、经典的聚类分析、关联分析、人工神经网络和Web挖掘等方法;第三部包含第12~14章,共有3个综合案例,包括泰坦尼克号生存数据分析、心脏病预测分析和旅游评论倾向性分析。
改变命运的不只是努力,比努力更重要的是决策。过去的决策决定了现状,正在做的决策注定将影响未来。如何汲取前人的预测和决策智慧?利用大数据技术提高决策质量和效率?本书围绕上述问题,介绍决策与生活和工作的关系、决策的历史渊源、传统文化中的决策智慧,阐述现代决策理论与基本过程、如何提高决策质量和效率,探索大数据时代的预测与决策。本书不是 决策操作手册 ,而尝试为各类组织机构的管理者、涉及数据技术的科技工作者和具有一定传统文化基础的普通读者提供可资借鉴的智慧。
Impala是 Cloudera公司主导开发的新型查询系统,它提供 SQL语义,能查询存储在 Hadoop的 HDFS和 HBase中的 PB级大数据。Impala 1.0版比原来基于 MapReduce的 Hive SQL查询速度提升 3~90倍,因此, Impala有可能完全取代 Hive。作者基于自己在本职工作中应用 Impala的实践和心得编写了本书。 本书共分 10章,全面介绍开源大数据分析引擎 Impala的技术背景、安装与配置、架构、操作方法、性能优化,以及富技术含量的应用设计原则和应用案例。本书紧扣目前计算技术发展热点,适合所有大数据分析人员、大数据开发人员和大数据管理人员参考使用。
本书以当前热点的数据挖掘应用贯穿全书,通过详解大数据挖掘技术在系统日志、工作票、可持续性研究、推荐系统、智能问答系统、社交媒体、生物信息学与健康医疗、隐私保护等方面的实际应用案例,阐述了如何更好地应用和学习数据挖掘技术。本书融入了数据挖掘前沿技术和典型应用,不仅适合热爱和关心数据挖掘技术的学术界和工业界人士阅读,还适合作为各大高校的数据挖掘和机器学习课堂的实践教材和参考书籍。本书有助于读者更好地理解数据挖掘技术背后的根源和本质。
空间关联和并置模式被统称为空间模式,空间模式发现是空间数据挖掘中重要的任务之一。本书围绕挖掘的目标(如关联或并置)和对象(如经典数据、区间数据、不确定性数据或模糊数据等),系统地介绍了作者在空间模式挖掘领域的主要研究成果。内容包括:绪论;空间模式挖掘基础;空间关联规则挖掘;经典数据的空间colocation模式挖掘(1)、(2);不确定性数据的空间colocation模式挖掘;区间数据的空间colocation模式挖掘;模糊数据的空间colocation模式挖掘;加权colocation模式及其挖掘算法;负colocation模式挖掘及SCPMiner开发等。 本书可供高等院校计算机及相关专业的本科生、研究生参考,对从事计算机开发及应用的科技人员及开发人员也有较大的参考价值。
本书主要提出云模型、数据场、地学粗空间和空间数据挖掘视角等新技术,构建空间数据挖掘金字塔,研究空间数据挖掘的数据源,导出空间观测数据清理的“李德仁法”,研究基于空间统计学的图像数据挖掘,提出“数据场一云”聚类、基于数据场的模糊综合聚类和基于数学形态学的聚类知识挖掘算法,研究基于归纳学习的空间数据挖掘、基于概念格的遥感图像数据挖掘和地理信息系统(GIS)数据挖掘,结合滑坡监测、银行经营收益分析及选址评价、遥感图像土地利用分类、土地资源评价、火车运行安全检测等实例系统研究空间数据挖掘可操作性,并在此基础上自主研制了空间数据挖掘原型系统GISDBMiner和RSImageMiner。 本书可供空间数据挖掘、计算机科学、地球空间信息科学、GIS、遥感(RS) 、全球定位系统(GPS)、数据分析、人工智能、认知科学、空间资源规划、土地
现代信息社会已经迈入大数据时代,但大数据给人们带来了前所未有的挑战,如何有效地从动态变化,结构化、半结构化和非结构化等多模态数据共存的大数据中进行高效实时的数据挖掘并发现有价值知识已成为当前信息科学领域亟待解决的问题。《大数据挖掘的原理与方法——基于粒计算与粗糙集的视角》针对大数据呈现的体量巨大、多源异构、动态性和不确定性等特点,以粒计算理论为基础,以典型粗糙集模型为对象,以增量学习技术为手段,以云计算并行框架为支撑平台,构建大数据分析与挖掘的原理和方法及其算法,并融入了相关领域学者在动态知识发现、数据融合和大数据并行处理等成果,力图展现基于粒计算和粗糙集视角处理大数据的*新进展。
《大嘴巴漫谈数据挖掘(第2季产品篇)》沿袭第1季图 文的轻松易懂的写作形式,以产品构想、原型设计、测试、上市商用的产品生命周期为主线,用数据挖掘的手段对用户需求与市场竞争环境,以秉承以用户为中心的理念,综合技术、市场两种驱动能力,以科学严谨的方法,进行准确有效的收集并分析,为产品运营、业务支撑和数据管理等相关人员的工作提供系统化的指导,进一步辅助企业管理人员解决经营决策中所面临的问题。。
本书分为两部分,共10章,从架构到管理,从自动化测试到持续集成,通过丰富的工作实例,系统而深入地讲解敏捷DW/BI的基本原理、关键技术和项目管理实践,为在真实商业智能和数据仓库项目上应用敏捷分析方法提供系统使用指南。从管理角度,详细介绍敏捷分析的基本原则,敏捷项目管理的有效实践,包括章程、规划、执行和检测敏捷分析项目的有效实践,展现如何使用案例和用户故事驱使价值持续传递,并讲解团队管理和领导的敏捷风格如何有效地替代传统命令控制风格;从技术角度,深入讲解能够持续传递商业价值并有质量保障的技术方法,包括*设计推进、测试驱动的数据仓库开发、版本控制和项目自动化,以及应用敏捷分析时的一些注意事项。本书内容全面,讲解深入,并且涵盖许多经过实践检验的解决方案,适合IT决策者、数据仓库专业人士、
本书为数据挖掘的基础教程,是作者多年来从事数据挖掘和专家系统课程教学经验的总结。它从商业角度介绍了数据挖掘的原理以及从数据中提取隐含模式的技术。本书首先帮助读者建立起数据挖掘的概念,进而通过13个数据挖掘示例帮助读者掌握数据挖掘的原理。本书的后部分还介绍了结合专家系统和智能代理解决复杂问题的方法。 本书适合作为信息管理系统(MIS)和计算机科学专业的大学教授。它还可以为研究生提供数据挖掘和知识发现的基础知识。它也适合对使用数据挖掘解决商业问题感兴趣的专业人士作为自学指导。
数据采集和存储技术的进步导致了数据规模的日益增加,数据是一种宝贵的信息资源,但这种资源同矿藏一样,只有通过管理、分析、挖掘、提炼等操作,才能使潜在的资源变成可用的财富。 本书系统地介绍了数据挖掘技术的产生、发展、应用及相关原理和算法,其主要内容包括:数据挖掘基本知识、数据挖掘处理流程、数据仓库和联机分析处理、关联规则发现方法、序列模式挖掘方法、决策树分类方法、贝叶斯分类法、各种聚类方法、Web挖掘以及分类方法在医学图像中的应用。本书包含了作者多年来在数据挖掘中的研究成果。 本书可作为计算机专业、自动化专业、生物医学专业等高年级本科生与研究生课程的教材,也可作为需要了解数据挖掘有关方法与技术的研究、设计和开发人员的参考书。
本书讲述如何从技术和市场信息特别是专利信息中挖掘获得潜在的竞争情报,从介绍技术挖掘的基础概念、原理开始,讲解数据采集、基本分析、高级分析、趋势分析、专利分析的方法和技巧,给出技术挖掘指标组合,并结合具体案例指出技术挖掘过程中的注意事项,帮助读者了解技术挖掘流程和掌握技术挖掘方法。本书还列出了可供选择使用的科技数据库、技术挖掘软件的资源清单,为有意实际进行技术挖掘的读者提供了指引。 本书可作为技术研究人员,使用技术成果的分析人员和直接从事管理的人员的指导书,也可以作为技术分析机构和研究生课程的参考书。
对大数据的搜索与挖掘,在当今网络时代是很有必要的。高凯编著的这本《实战Elasticsearch Logstash Kibana--分布式大数据搜索与日志挖掘及可视化解决方案》提出的分布式大数据搜索与日志挖掘及可视化解决方案是基于Elasticsearch、 Logstash和Kibana而形成的,它能有效应对海量大数据所带来的分布式存储与处理、全文检索、日志挖掘、可视化等的挑战。构建在全文检索开源软件Lucene 之上的Elasticsearch,不仅能对海量规模的数据完成分布式索引与检索,还能提供数据聚合分析; Logstash能有效处理来源于各种不同数据源的日志信息;Kibana能得出可视化分析结果。本书讲解有关 Elasticsearch、Logstash、Kibana的使用,相关内容以模块化的方式进行组织,注重实战,强调实践,内容新颖,组织合理。 本书可为高校相关专业(如计算机科学与技术、软件工程、情报学、图书馆学、信息管
如果你是一名IT工程师,CTO希望你在一周内提交一份公司未来IT系统基础架构的初步建议;如果你是一位IT营销人员,客户需要你在一周内向他汇报未来大数据系统的大致技术方向; 在这个信息严重过剩的时代,一周内从浩渺的技术细节的海洋中抓住关键的技术脉络,并进一步提出有一定理论依据的技术思考,这几乎是不可能完成的任务。您是否想过阅读一本关于大数据的图书帮助解决如上问题?浩如烟海的大数据领域图书可以大致归纳为三类:类是描述大数据的应用前景与社会意义;第二类是研讨大数据作为一个大型IT系统的系统架构与技术架构;第三类是研讨大数据领域的具体技术,例如HADOOP相关的编程等。对于需要快速掌握大数据系统技术脉络,或者是需要对未来IT系统做系统思考的技术工作者来说,需要的是第二类图书所提供的系统化知识。但目前业界大数
《从零进阶!数据分析的统计基础》共 6 章,分别讲解了数据分析的步骤和方法、描述性统计分析、抽样估计、假设检验、方差分析、 相关与回归分析,使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概率论等方面 的理论内容,并使用图示的方法详细介绍了使用 Excel 2013 进行简单的描述性统计分析和使用 SPSS 进行相 关的数据分析的过程与结果分析。 《从零进阶!数据分析的统计基础》适合需要提升自身数据分析理论和实践能力的职场新人;在市场营销、金融、财务、人力资源管理 中需要数据分析的人士;从事咨询、研究、分析等的专业人士。也可以作为数据分析师职业培训的教材,普通高等院校非统计专业数据分析的选修教材。 《胸有成竹!数据分析的SAS EG进阶》共5章,涉及使用SAS EG做数据分析的主要分析方法。其中,第1章为数
如果你是一名IT工程师,CTO希望你在一周内提交一份公司未来IT系统基础架构的初步建议; 如果你是一位IT营销人员,客户需要你在一周内向他汇报未来大数据系统的大致技术方向; 在这个信息严重过剩的时代,一周内从浩渺的技术细节的海洋中抓住关键的技术脉络,并进一步提出有一定理论依据的技术思考,这几乎是不可能完成的任务。 您是否想过阅读一本关于大数据的图书帮助解决如上问题? 浩如烟海的大数据领域图书可以大致归纳为三类:*类是描述大数据的应用前景与社会意义;第二类是研讨大数据作为一个大型IT系统的系统架构与技术架构;第三类是研讨大数据领域的具体技术,例如HADOOP相关的编程等。 对于需要快速掌握大数据系统技术脉络,或者是需要对未来IT系统做系统思考的技术工作者来说,*需要的是第二类图书所提供的系统化知
《数典 : 大数据标准术语体系 : 汉、阿、英、法、德、》名《数典》,定义为大数据标准术语体系,是迄今为止全球全面系统研究大数据标准术语的多语种专业工具书。《数典 : 大数据标准术语体系 : 汉、阿、英、法、德、》以全球语境和未来视角,对大数据知识体系进行了全面梳理,提出了九个方面的术语架构,并以十一种语言对照编纂,形成了统一规范、符合国际通用规则的多语种学术话语体系和术语标准体系。
你是否有过这样的经历:在项目的后一刻突然被要求在图中修改或添加某个数据点?这时为了完成项目,你将不得不冒着降低准确性的风险,然而,在Tableau中不会发生这种情况。Tableau是一个革命性的工具包,利用它可以简单、高效地创建高质量的数据可视化图形。本书通过大量的具体案例,详细讲解了如何利用Tableau软件进行数据可视化分析,包括基本使用方法、具体操作步骤、实现原理及一些实用技巧等,为快速掌握Tableau软件提供了翔实指导。 本书共9章,第1章讲解如何连接不同数据源,包括文本、Excel、Access数据库文件及服务器上的数据;第2~5章循序渐进讲解各种图形的创建方法,包括单变量图、双变量图、多变量图和地图;第7~8章详细讲解了如何自定义图中各个元素以及如何将做好的可视化图形打包分享;第6章和第9章主要介绍Tableau的高级功能,包括自