全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了 30 多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 如果你是一名创业者,或者你是一名产品开发、产品管理、市场营销、公共关系和投资领域的商务专业人员,那么本书不容错过。
计算广告是一项新兴的研究课题,它涉及大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化以及微观经济学等诸多领域的知识。本书从实践出发,系统地介绍计算广告的产品、问题、系统和算法,并且从工业界的视角对这一领域进行具体技术的深入剖析。 本书立足于广告市场的根本问题,从计算广告各个阶段所遇到的市场挑战出发,以广告系统业务形态的需求和变化为主线,依次介绍合约广告系统、竞价广告系统、程序化交易市场等重要课题,并对计算广告涉及的关键技术和算法做深入的探讨。这一版中更是加入了深度学习的基础方法论及其在计算广告中的应用。 无论是互联网公司商业化部门的产品技术人员,还是对个性化系统、大数据变现或交易有兴趣的产品技术人员,传统企业互联网化进程的决策者,传统广告业务的从业者,互联网创
这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、方法论、规范、模型、解决方案和案例,不仅能让读者即学即用,还能让读者了解华为数字化建设的历程。 全书共10章,内容从逻辑上分为四个部分。 第壹部分(第1~3章) 第1章以非数字原生企业在数字化转型方面面临的挑战开篇,介绍了华为在数据治理和数字化转型方面的目标、愿景、蓝图和框架;第2章从企业政策和架构协同的角度,介绍了企业级的数据综合治理体系,理顺了数据与变革、运营、IT之间的协同关系,明确了数据管理的责任主体在业务;第3章详细阐述了不同类型的数据的管理方式
内容简介这是一部能指引零基础读者顺利完成数据资产入表的实操性著作。它不仅为读者提供了数据资产入表所需的全部知识,还给出了实际操作层面的方法指引;既是数据资产入表的初学者指南,也是企业实施数据资产入表操作的工作手册。本书由数据资产管理领域的标杆企业亿信华辰倾情奉献,同时融合了行业的先进实践经验,开创性提出 数据资产三次入表理论 (数据原始资源入表、数据产品入表、数据金融资产入表),得到了来自学术界和企业界的12位数据资产管理专家的高度评价和强烈推荐。本书分为四部分,不仅从战略、方法、工具、实操、案例等角度为读者提供了全面的数据资产入表知识体系,还前瞻性地探讨了数据资产入表后的价值挖掘、资产评估和金融创新。第一部分 数据资产入表全景概览(第1和第2章)深入分析数据资产入表的宏观背景、核
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
数据、模型与决策是应用数学建模和计算机技术帮助决策者解决问题。作为国外一本优秀的数据、模型与决策的教材,本书具有以下特色: 1.对枯燥、复杂和技术化的数学问题用简明易懂的语言予以解释,兼顾严谨的数理逻辑。 2.突出建模分析框架和基础逻辑的讲授和训练,在某种程度上实现了艺术与科学的有机融合。 3.课后习题丰富,并配有网络题库,供自学者加强训练,及时检查对理论模型及其求解方法的掌握程度。 第12版把修订重点放在企业和组织的*技术发展上,增加了商业分析(第1章)、项目风险(第8章)以及数据挖掘(第14章)等内容。
内容简介 这是一部全面讲解数据产品经理核心知识体系的著作。12位作者大多来自国内的知名企业,涉及不同的行业,让本书拥有了更广泛的视角,能帮助读者从不同的角度去了解数据产品经理如何在数据、产品、运营、市场等多个方面产生价值。本书的*终目的是让读者全面了解数据产品经理的工作内容、系统掌握数据产品的核心知识体系,快速实现从入门到进阶的突破。 全书一共11章,重点讲解了数据产品经理应该掌握的11个核心知识点,可以概括为四个部分。 第壹部分 基础知识(第1章) 首先介绍了数据产品的定义、组成、分类,其次介绍了数据产品经理的分类和能力模型,*后介绍了数据产品经理的招聘、应聘和面试。 第二部分 通用能力(第2~3章) 讲解了数据产品经理应该具备的数据分析能力和项目运作能力(产品路线图)。 第三部分 数据管理(第4~9章
本书以LabVIEW 2017为基础,讲述LabVIEW图形化编程语言的原理,以及如何利用LabVIEW完成虚拟仪器设计。全书共15章,分为两篇,分别是基础知识篇(第1~13章)和实际应用篇(第14、15章)。第1章,综述虚拟仪器技术的构建思想和方法论。第2~7章,讲述LabVIEW图形化编程语言的基本原理以及编程方法,内容包括LabVIEW入门、基本数据类型、程序结构、复合数据类型、文件I/O、图形显示及其他技巧。第8~12章,阐述如何利用LabVIEW去控制仪器硬件以实现对被测信号的数据采集,内容包括选择专用的数据采集卡进行数据采集; 利用计算机自带的声卡实现数据采集; 利用摄像头完成图像采集; 仪器控制和控制单片机。第13章,讲述用LabVIEW实现仪器应用的若干算法和信号分析处理的相关知识。第14、15章,介绍利用LabVIEW完成有实际应用背景的两个虚拟仪器项目,分别是用LabVIEW构建函
数字经济已成为各国经济增长的新动能,并上升为国家发展战略,各国政府和人民对数据跨境流动安全问题的关注与日俱增。本书系统介绍了全球数据跨境规则的产生背景及其发展演变的脉络,重点分析了全球主要国家和地区数据跨境治理规则的内容和相互之间的异同,特别介绍了欧盟、美国话语权下的数据跨境流动规则及规则间的弥合,也介绍了其他国际性文件及十余个重点国家和地区的立法现状,同时展望了全球数据跨境规则的未来走向,在此基础上对我国的数据跨境流动治理规则现状进行梳理,并对其实施与完善提出了相关建议。本书语言平实易读,主要以法律法规、执法部门的解释性指南、判决书等一手资料作为参考,介绍分析了国内外立法现状和法律实践。
本书从Power BI的基础功能讲起,逐步深入到Power BI进阶实战,以业务案例为导向,以Power BI桌面版操作为基础进行讲解,深入讲述Power BI在各个业务部门的应用。本书包括7篇共21章内容,分业务场景进行讲解。第1篇用1章内容讲述Power BI基础操作,方便读者快速入门;第2篇用4章内容讲述如何用Power BI爬取天气、电影、销售、股票等数据;第3篇用4章内容讲述销售部门如何用Power BI分解销售目标,分析业绩达成、会员RFM和业绩构成;第4篇用5章内容讲述产品相关应用,包括存货分析、帕累托分析、关联分析、畅销款分析和数据化陈列;第5篇用2章内容讲述在财务方面的应用,包括盈亏平衡分析和上市公司利润表分析;第6篇用3章内容讲述人力资源应用,包括人员结构及离职率分析、新员工分析和考勤分析;第7篇用2章内容讲述简化报告的技巧。
面对小数据和大数据,数据分析师应该如何收集数据信息?传统的业务框架如何与统计学相关联?测量学扮演着什么角色?建模过程有哪些预分析技术和修正技术?建模工作完成后,如何解析?如何归因?如何预测?等等,这些数据分析能力构成了本书的分析框架。本书分为8章,小数据与大数据分析模式的动态切换贯穿全书,展示了数据分析案例的模块化分析思路。第1~3章为数据预分析部分,强调业务问题与统计问题的衔接;第4~6章为统计建模阶段,其中附有对行业案例和业务敏感度的训练、对统计和业务整合的审美建议,进而构造出一套具有灵活调校的数据分析模式。第7~8章解决的问题是,如何将晦涩难懂的统计解释转换成业务解释。由衷地希望本书能够成为数据运营人员与初中级数据分析师分析数据的行动指南。
洞见产业新生态,解码数字新经济 行业场景真实展示 实际案例深度梳理,感受数字转型路径风格 谭建荣院士、郭华东院士、邬贺铨院士、张宏科院士 共同推荐 《产业数字化 释义、场景及应用案例》以《 十四五 数字经济发展规划》中产业数字化部分的核心内容为纲领,从入选工业和信息化部的大数据产业发展示范项目中,选取了具有产业代表性的来自生产一线的数字化转型实践案例,连同数字化建设和转型的共性基础内容,组织了42 个案例,从实践背景、方法手段、主要应用的技术、实践过程中遇到的典型问题、实施流程、典型应用场景等方面,分享了多个行业、多家单位的实践经验,以期帮助读者对产业数字化转型产生更为具体的了解和体会、获得间接经验,为读者提升数字认知和工作能力做一定的基础铺垫。 本书适合具有产业数字化转型需求的相关企业的管理者、
随着中台概念被广泛讨论,其中数据中台又被赋予担任企业智能化任务的重任。当前,不仅是大企业,很多企业都在开始打造或者引入中台,用来解决企业面临的系统重复建设与数据孤岛的问题,在这个过程中,中台产品经理需要做什么事,解决什么问题,又会遇到怎样的困难与挑战? 本书第1~2章讲解了中台起源与数据中台产品需要什么样的能力;第3~6章主要讲解中台中的数据中台的建设与规划、数据分析的方法与策略、数据体系建设方法与应用和企业数据的价值等;第7~9章主要讲解数据平台的需求分析与数据知识、系统平台的建设实战和用户画像体系的建设等内容。
内 容 简 介 本书针对未来想要从事数据分析工作的在校学生、想要转行做数据分析的在职人员,以及想要在数据分析领域提高自己或跳槽的从业人员,深入浅出地讲解了面试和未来实际工作中所需的知识与技能,让读者对数据分析师这个岗位有更为全面和深刻的了解。 全书主要分为面试前的准备、面试中的技巧、面试中所需的知识储备、编程技能、实战技能,以及进一步学习提高的方法几部分,内容涵盖数据分析师面试的全流程,全方位提高读者在未来面试中的竞争力。
Python 是一种面向对象的脚本语言,其代码简洁优美,类库丰富,开发效率也很高,得到越来越多开发者的喜爱,广泛应用于Web 开发、网络编程、爬虫开发、自动化运维、云计算、人工智能、科学计算等领域。预测技术在当今智能分析及其应用领域中发挥着重要作用,也是大数据时代的核心价值所在。随着AI 技术的进一步深化,预测技术将更好地支撑复杂场景下的预测需求,其商业价值不言而喻。基于Python 来做预测,不仅能够在业务上快速落地,还让代码维护更加方便。对预测原理的深度剖析和算法的细致解读,是本书的一大亮点。本书共分为3 篇。第1 篇介绍预测基础,主要包括预测概念理解、预测方法论、分析方法、特征技术、模型优化及评价,读者通过这部分内容的学习,可以掌握预测的基本步骤和方法思路。第2 篇介绍预测算法,该部分包含多元回归分析、
本书主要作为教育领域从事教育大数据研究工作者的参考用书。本书从教育大数据的重要意义、国内外教育大数据的研究现状以及政策支持出发,对教育大数据的相关概念和内涵做阐述说明,介绍了教育大数据的技术、技术标准、治理与开放、风险管理与法律政策,重点阐述了教育大数据在教育领域的典型应用,包括教育大数据在课堂教育、校园管理、在线教育、开放远程教育、教育培训行业以及学生综合素质评价等方面的应用,*后提出教育大数据的发展趋势和机遇挑战。
《谁说菜鸟不会数据分析(Python篇)》从解决工作实际问题出发,提炼总结工作中Python 常用的数据处理、数据分析实战方法与技巧。本书力求通俗易懂地介绍相关知识,在不影响学习理解的前提下,尽可能地避免使用晦涩难懂的Python 编程、统计术语或模型公式。 《谁说菜鸟不会数据分析(Python篇)》定位是带领Python 数据分析初学者入门,并能解决学习、工作中大部分的问题或需求。入门后如还需要进一步进阶学习,可自行扩展阅读相关书籍或资料,学习是永无止境的,正所谓 师傅领进门,修行在个人 。
Origin是国际科技出版界公认的标准作图软件,它功能强大、操作简单,被科研人员、工程技术人员、高校师生等广泛使用。Origin软件不仅具有强大的数据可视化功能,还具有统计分析、信号处理、函数拟合、峰值分析等功能,且支持多种格式的数据导入和导出。 本书基于Origin 2021和Origin 2022版本进行案例讲解,旨在帮助读者快速入门,并掌握Origin软件的使用技巧。本书由浅入深地讲解了Origin软件的功能和相关案例,涉及基础2D图、等高线图、3D图以及专业图的绘制,也涵盖了数学运算、拟合分析、信号处理、多峰分析等主题。 本书适用于Origin软件的初学者和希望提高科技绘图及数据分析处理能力的读者,尤其适用于大中专院校的师生以及广大科研工作者。
本书采用 理论 实战 的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书秉承循序渐进、易于理解、学以致用和便于查询的讲授理念,讲解时结合了大量实例和作者多年积累的一线开发经验。本书作者拥有丰富的视频制作与在线教学经验,曾经与极客学院合作开设过在线视频教学课程。为了帮助读者高效、直观地学习本书内容,作者特意为本书录制了配套教学视频,这些教学视频和本书配套源代码文件读者都可以免费获取。 本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程 使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析 特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例 游戏应
从统计学科与计算机科学的性质认知,大数据是指那些超过传统数据系统处理能力、超出经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合,对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新的统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。 《大数据:统计理论、方法与应用》共分五章,其内容包括大数据下的统计理论体系、大数据下的数据集整合分析、大数据下的高维变量选择方法、大数据下的统计方法并行计算和大数据下的统计方法应用——网络舆情分析。 本书内容新颖,取材国内外资料,同时认真总结了作者近年来的科研成果,重点反映统计学对大数据发展的影响,突出五大特点: (1)充分体现学科融合; (2)
人文社会科学和自然科学研究过程中积累了大量的研究数据,这些数据如何管理、共享、出版和引证?如何再次利用他人的数据?过程中牵涉到哪些知识产权?本书的几位作者不仅熟悉全球尤其欧美的研究数据管理的实践应用,而且在英国数据档案馆拥有多年数据相关专业工作的管理与实践经验,他们在本书中将多年积累的**数据管理实践建议、指导和培训倾囊呈现。本书前三章对研究数据管理和共享进行总括介绍,包括管理和共享的重要性、研究数据生命周期以及如何制订研究数据管理计划。第四章至第六章介绍了研究数据管理的具体方法,包括数据文档编制、数据格式与组织以及数据存储与传输。第七章至第十一章讨论了数据管理与共享所涉及的问题,包括法律和伦理、知识产权、合作研究、利用他人数据以及出版和引证。
当数据存储在多个数据库中,如何查询数据?特别是当这些数据库是由不同的人分别设计。这是个全面介绍数据集成的书,由业界三个受人尊敬的专家撰写。这本书讲解数据集成技术的理论知识,使用大量实例来解释基本概念。数据集成是解决跨多个数据源(如数据库,网页)的问题。目前在多种环境中都涉及数据集成问题,包括企业信息集成,在网络上的查询处理,政府机构之间的协调和科学家之间的合作。在某些情况下,数据集成是某个领域取得进展的关键。本书提供了数据集成的概念和工具,可用于数据集成的具体实现。本书作者是威斯康星大学麦迪逊分校计算机科学副教授,同时在微软AdCenter实验室与雅虎研究实验室担任咨询顾问。