全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
计算广告是一项新兴的研究课题,它涉及大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化以及微观经济学等诸多领域的知识。本书从实践出发,系统地介绍计算广告的产品、问题、系统和算法,并且从工业界的视角对这一领域进行具体技术的深入剖析。 本书立足于广告市场的根本问题,从计算广告各个阶段所遇到的市场挑战出发,以广告系统业务形态的需求和变化为主线,依次介绍合约广告系统、竞价广告系统、程序化交易市场等重要课题,并对计算广告涉及的关键技术和算法做深入的探讨。这一版中更是加入了深度学习的基础方法论及其在计算广告中的应用。 无论是互联网公司商业化部门的产品技术人员,还是对个性化系统、大数据变现或交易有兴趣的产品技术人员,传统企业互联网化进程的决策者,传统广告业务的从业者,互联网创
本书全面介绍车辆轨迹数据的处理、分析与可视化方法,并深入探讨了基于Python的车辆轨迹数 据处理技术,旨在帮助读者快速掌握车辆时空轨迹数据处理的基本方法和编程技巧,同时提供丰富的实际案例和技术解决方案,覆盖了从数据采集到深入分析的完整技术链条,是交通时空大数据领域车辆轨迹数据处理分析的全面指南。 本书内容涵盖从车辆轨迹数据的基本特征、采集原理到预处理、质量分析、可视化,再到高级应用如路网匹配、排放计算、多智能体仿真,以及特定案例分析如电动汽车充电需求识别和无人机航拍轨迹数据分析。 本书适合计算机相关专业的学生、数据分析师、研究人员以及技术开发人员阅读。
《谁说菜鸟不会数据分析》(入门篇)是一本有趣的数据分析书!本书基于通用的Excel工具,加上必知必会的数据分析概念,以小说般通俗易懂的方式讲解。本书基于职场三人行来构建内容,完全按照数据分析工作的完整流程来讲解。全书共8章,依次讲解数据分析必知必会知识、数据分析的结构化思维、数据处理技巧、数据展现的技术、提升图表之美的专业化视角,以及专业分析报告的撰写方法等内容。本书有足够的魅力让你一口气读下去,在无形之中掌握数据分析的技能,提升职场竞争能力。本书能有效帮助职场新人提升职场竞争力,也能帮助市场营销、金融、财务、人力资源管理人员及产品经理解决实际问题,还能帮助从事咨询、研究、分析行业的人士及各级管理人士提高专业水平。
随着TheDataWarehouseToolkit(1996)第1版的出版发行,RalphKimball为整个行业引入了维度建模技术。从此,维度建模成为一种被广泛接受的表达数据仓库和商业智能(DW/BI)系统中数据的方法。该经典书籍被认为是维度建模技术、模式和实践的资源。 该书汇集了到目前为止全面的维度建模技术。 该书采用新的思路和实践对上一版本进行了全面修订,给出了设计维度模型的全面指南,既适合数据仓库新手,也适合经验丰富的专业人员。 该书涉及的所有技术都基于作者实际从事DW/BI的设计经验,通过实际案例加以描述。 该书主要内容: 实用设计技术 有关维度和事实表的基本和高级技术。 14个案例研究,涉及零售业、电子商务、客户关系管理、采购、库存、订单管理、会计、人力资源、金融服务、医疗卫生、保险、教育、电信和运输等。
本书共8章,立足于能源大数据领域核心业务,介绍了世界及中国的能源格局及能源转型背景,阐述了大数据技术的基本原理及其在能源领域的规划、预测等应用中开展实践情况,系统阐明能源大数据中心建设关键问题,深入讲解碳核算方法学。同时向读者说明了能源大数据在服务于 双碳 管理、政府治理中起到的关键作用,展示了能源大数据领域的实践成果和经验。
《EViews在数据分析中的应用》结合大量实战案例,全面、系统地介绍EViews软件的基本用法及其在数据分析中的应用。本书每章的最后都提供上机练习题,帮助读者提高动手能力。另外,本书提供配套教学视频,帮助读者高效、直观地学习,还提供教学PPT和大纲,方便相关高校的老师教学。 《EViews在数据分析中的应用》共13章,分为4篇。第1篇 EViews数据分析基础 ,涵盖EViews概述、EViews基本数据分析(单序列)、EViews基本数据分析(序列组)和EViews数据图形化分析;第2篇 EViews经典线性回归模型 ,涵盖经典回归模型和违背经典线性回归模型假设的修正;第3篇 EViews时间序列模型 ,涵盖时间序列模型与预测、带季节效应的时间序列模型、条件异方差模型、向量自回归模型和协整相关模型;第4篇 EViews的其他模型 ,涵盖离散和受限因变量模型,以及混合数据与面板数据分
数字技术为企业的管理方式带来颠覆性变革,我们正在经历从依赖企业管理者解读数据并做出业务决策,到由算法通过计算数据做出分析和判断,然后自动指挥业务活动的转变。作为企业管理者,需要思考如何顺应时代趋势,利用数字技术,实现企业管理方式升级,提升管理效率,降低管理费用,提高企业竞争力。撰写本书的主要目的是,帮助企业体系化地推进数字化管理升级。本书的主要内容包括数字技术驱动企业管理方式升级、企业数字化管理体系的四条线、企业数字化管理体系建设七步法、企业数字化管理体系建设实战、企业数字化管理体系建设中的瓶颈与难点、企业数字化管理体系建设的技术架构,以及未来数字智能技术展望。
《Processing程序交互与数据视觉艺术实践》全面而深入地讲解了Processing在数据可视化设计领域的基础编程知识与创作实践技巧。全书共分为8章,内容包括初识数据视觉艺术、代码艺术与视觉创意、生成艺术、动态视觉效果、数据的视觉表达、数据接入与应用、传感器与数据交互,以及GUI交互设计。书中不仅展示了使用Processing处理文本和表格数据的方法、应用网络数据的技巧,而且讲解了通过Arduino传感器、摄像头、麦克风等设备进行数据采集的方式。此外,本书还详细介绍了如何利用鼠标、键盘与图形用户界面(GUI)进行交互协作的方法,旨在帮助读者创作出优秀的数据可视化新媒体作品。 本书可作为高等院校视觉传达设计、信息艺术设计、广告设计、数字媒体、新媒体艺术等专业的教材,也可作为数据信息视觉化设计从业者的参考书。
《问卷数据分析:破解SPSS软件的六类分析思路(第2版)》系统介绍了使用SPSS软件进行问卷数据分析的思路及方法,分为四部分,分别是问卷设计、六类问卷分析思路、数据分析方法在SPSS软件中的操作和答疑解惑。其中问卷设计部分适用于所有读者,建议读者在设计问卷前详细阅读这部分内容。读者可以结合实际情况选读六类问卷分析思路部分的内容。数据分析方法在SPSS软件中的操作部分详细讲解了各类数据分析方法在SPSS软件中的操作细节,并且对输出结果进行说明。答疑解惑部分罗列了使用各类分析方法时常见的疑难杂症,并且提供了解决方法。本书侧重于问卷分析的应用性,力求让读者在*短的时间内掌握使用SPSS软件分析问卷数据的方法并完成高质量的问卷数据分析报告。 使用SPSS软件分析调查问卷数据常见于各类学术研究、论文写作、企业市场调研和各类
作为一本 Power Query 初级入门读本,《Power Query 智能化数据汇总与分析》不深入介绍 M 函数,而是结合大量的实际案例,利用 Power Query 可视化的操作向导,来解决实际工作中烦琐的数据整理、汇总和分析问题,让读者在短时间内,能够对 Power Query 有一个较为全面的了解和掌握,并能迅速提升数据处理和统计分析效率。 《Power Query 智能化数据汇总与分析》适合具有 Excel 基础知识并经常处理大量数据的各类人员阅读,也可作为大专院校经济类本科生、研究生和 MBA 学员的教材或参考书。
K线图已经成为金融交易平台和图表程序的关键组成部分。使用这些图表,交易者们从中学习基础模式,用于解释价格走势历史,并预测未来市场。这本详细的指南向投资组合经理、量化分析师、策略师和分析师展示了如何使用Python来识别、扫描K线图模式,根据模式进行交易,并回测K线图模式的盈利能力。 金融作家、交易顾问和机构市场策略师Sofien Kaabar在本书中展示了如何创建K线图扫描器和指标,通过这些指标,我们可以比较不同模式的盈利能力。通过这本实践指南,你还将探索一种类似K线图的新型图表系统,以及从未介绍过的新模式。 通过这本书,你将学会: 创建并理解经典和现代K线图模式所需的条件。 学习这些模式背后的市场心理。 使用一个框架来学习如何进行交易策略的回测。 探索不同的图表系统并理解它们的局限性 在Python中导入不同时间框架的OHLC
XGBoost是一种经过行业验证的开源软件库,为快速高效地处理数十亿数据点提供了梯度提升框架。首先,本书在介绍机器学习和XGBoost在scikit-learn中的应用后,逐步深入梯度提升背后的理论知识。读者将学习决策树,并分析在机器学习环境中的装袋技术,同时学习拓展到XGBoost的超参数;并将从零开始构建梯度提升模型,将梯度提升扩展到大数据领域,同时通过计时器的使用了解速度限制。接着,本书重点探讨XGBoost的细节,着重于速度提升和通过数学推导导出参数。通过详细案例研究,读者将练习使用scikit-learn及原始的Python API构建和微调XGBoost分类器与回归器;并学习如何利用XGBoost的超参数来提高评分、纠正缺失值、缩放不平衡数据集,并微调备选基学习器。最后,读者将学习应用高级XGBoost技术,如构建非相关的集成模型、堆叠模型,并使用稀疏矩阵、定制转换器和
本书以实际案例和具体应用为驱动,以培养科研统计思维为目标,借助 SPSS,系统地讲授了差异显著性检验、方差分析、相关性分析、回归分析、聚类分析、主成分分析,以及结构方程模型的概念、原理和具体使用。 全书共 8 章。第 1 章系统地讨论了科研统计思维及统计分析的相关概念,并以量化类典型论文为例抛出统计思维的核心问题。第 2 章介绍了数据的规范化及预处理,重点讲解了基于数据做论证所必需的前置操作。第 3 章介绍了统计描述及数据加工。第 4 章讲解了差异显著性检验。第 5 章介绍了方差分析及其高级应用,阐述了单因素方差分析、多因素方差分析、协方差分析、多因变量方差分析等内容,以及事后检验、均值边际图等高级应用的相关知识。第 6 章介绍了关联性分析技术和回归分析。第 7 章讲解了聚类分析技术。第 8 章介绍了因子分析与降维
本书的主要内容有:熟悉Spark的编程模型和生态系统。学习数据科学的一般方法。检查分析大型公共数据集执行步骤的完整性。发现哪些机器学习工具对特定问题有帮助。探索可适应多种用途的代码。
《基于Python的大数据分析基础及实战》是一本介绍如何用Python 3.6进行数据处理和分析的学习指南。其主要内容包括:Python语言基础、数据处理、数据分析、数据可视化,以及利用Python对数据库的操作、自建Python应用库的共享发布等。 《基于Python的大数据分析基础及实战》分3个部分:第1部分为基础知识,第2部分为实战案例,第3部分为拓展与延伸。本书内容丰富,讲解通俗易懂,非常适合本科生、研究生,以及对Python语言感兴趣或者想要使用Python语言进行数据分析的广大读者。
大数据时代,对数据进行统计、分析和学习变得尤为重要,并被应用在各方各面,如无人驾驶汽车、AlphaGo、机器学习和人工智能等,而统计思维也成为大数据时代的基本思维。不仅这些高科技以统计学为基础理论,大数据时代的每个人都应该懂点统计学,学会读懂并分析数据,学会让数据说话,让数据为自己服务。《大数据时代的统计学思维:让你从众多数据中找到真相》就是大数据时代统计学思维的科普书籍,全书共10章,第1章用几个有趣好玩的例子引导读者进入统计学的世界,并调动读者学习统计学的兴趣。第2~10章结合生活和工作中的例子全面介绍统计学原理和方法,涵盖统计学中的数据收集、数据处理和统计推断等内容,既有抽样调查、概率、相关性分析、回归分析等实用统计方法,也有大数定律和中心极限定理等基本统计学原理。用实例引导理论,通俗
AI时代,ChatGPT作为一款基于人工智能技术的聊天机器人,具有极广泛的应用场景。《ChatGPT Excel高效数据计算与处理:视频教学版》旨在带领读者学习如何使用ChatGPT来简化Excel的数据处理、分析及计算工作。 《ChatGPT Excel高效数据计算与处理:视频教学版》共分 6章,内容包括对 ChatGPT的基本了解、掌握在 Excel中高效提问的技巧、使用 ChatGPT辅助数据的整理和优化、了解ChatGPT给予Excel函数的帮助、借助ChatGPT辅助生成Excel函数公式以及通过 ChatGPT生成VBA代码实现自动化处理。 《ChatGPT Excel高效数据计算与处理:视频教学版》适用于经常使用Excel进行数据处理与分析的职场办公人士。同时,对于职场新人,如果您对Excel的使用不够熟练,或者对数据分析及函数应用知识了解有限,《ChatGPT Excel高效数据计算与处理:视频教学版》将为您提供极大的帮助。
这是一本教我们如何制作完美可视化图表,挖掘大数据背后意义的书。作者认为,可视化是一种媒介,向我们揭示了数据背后的故事。他循序渐进、深入浅出地道出了数据可视化的步骤和思想。本书让我们知道了如何理解数据可视化,如何探索数据的模式和寻找数据间的关联,如何选择适合自己的数据和目的的可视化方式,有哪些我们可以利用的可视化工具以及这些工具各有怎样的利弊。 作者给我们提供了丰富的可视化信息以及查看、探索数据的多元视角,丰富了我们对于数据、对于可视化的认知。对那些对设计和分析过程感兴趣的人,本书无疑就是一本书。
本书由浅入深,全面系统地介绍了Wireshark数据抓包和数据包分析。本书提供了大量实例,供读者实战演练Wireshark的各项功能。同时,对抓取的数据包按照协议层次,逐层讲解各个协议在数据包中的体现。这样,读者就可以掌握数据包抓取到信息获取的每个环节。 本书共分3篇。第1篇介绍Wireshark的各项功能,包括基础知识、Wireshark的定制、捕获过滤器和显示过滤器的使用、数据包的着色、导出和重组等;第2篇介绍基于Wireshark对TCP/IP协议族中常用协议的详细分析,如ARP、IP、UDP、TCP、HTTP、HTTPS和FTP等;第3篇介绍借助Wireshark分析操作系统启动过程中的网络通信情况。 本书涉及面广,内容包括工具使用、网络协议和应用。本书适合各类读者群体,如想全面学习Wireshark的初学者、网络管理员、渗透测试人员及网络安全专家等。对于网络数据分析人士,本书更是一
本书介绍数据存储架构与技术,涵盖存储盘与存储介质、存储阵列、存储协议、键值存储、文件系统、网络存储体系结构、分布式存储系统、存储可靠性、存储安全、数据保护等基础内容,对存储维护、存储解决方案、存储技术趋势与发展等主题进行了深入讨论,以新的研究成果作为案例,同时提供习题帮助读者加深对数据存储的理解与运用。 本书适合计算机及相关专业高年级本科生或研究生阅读、学习,同时也可供相关专业技术人员参考。
继煤炭、钢铁和石油之后,数据正在成为重要的国家战略资源和国家间竞争的战略工具。数据主权是国家主权在网络空间的逻辑延伸和核心表现,关乎数据安全、个人隐私和数字经济发展,是国家安全和发展的核心利益所在。 《数据主权与治理模式辨析》围绕数据主权及治理模式进行剖析,调研全球主要经济体的数据主权治理模式演化过程,在厘清数据主权内涵和概念、借鉴国外数据主权治理模式的基础上,以主权平等、合作共治为原则,从跨境数据流动、数据本地化存储、数字贸易、 长臂管辖 及其反制策略等方面,分析比较各国数据主权治理的模式及其实施效果,构建匹配中国数字经济和数据资源体量、符合中国数据规制要求,兼顾各国利益的数据主权治理规则,推动全球数字经济全面健康发展,是中国数据治理的重要使命和时代担当。
本书由浅入深地阐述了时序大数据平台TDengine的核心原理与实战案例。首先,本书为读者提供了时序数据的基础知识和TDengine的核心特性概览,包括数据模型、数据写入、数据查询、数据订阅和流计算等;其次,详细介绍了TDengine的日常运维管理,包括安装部署、资源规划、图形化管理、数据安全等关键内容;然后,深入讲解了如何利用TDengine进行应用开发,涵盖多种编程语言的连接器使用、订阅数据,以及自定义函数的开发等高级功能;接下来,为数据库研发爱好者揭秘TDengine的内核设计,从分布式架构到存储引擎、查询引擎、数据订阅,再到流计算引擎的详细阐述;最后,通过分析典型应用场景案例,展示TDengine如何在实际业务中发挥作用。 本书架构清晰,内容丰富,理论与实践相结合,适合作为需要使用TDengine进行大数据处理的开发者、架构师和产品经理的技
本书围绕数据挖掘竞赛,讲解了各种类型数据挖掘竞赛的解题思路、方法和技巧,并辅以对应的实战案例。全书共11章。第1章介绍数据挖掘竞赛的背景、意义和现状。从第2章开始,介绍了各种不同类型的数据挖掘竞赛包括结构化数据、自然语言处理、计算机视觉(图像)、计算机视觉(视频)、强化学习。每种类型的数据挖掘竞赛包含理论篇和实战篇:理论篇介绍通用的解题流程和关键技术;实战篇选取比较有代表性的赛题,对赛题的优秀方案进行深入分析,并提供方案对应的实现代码。 本书适合数据挖掘竞赛爱好者、人工智能相关专业在校大学生、人工智能方向从业人员及对人工智能感兴趣的读者阅读。