《数据库内核揭秘:存储引擎的设计与实现》深入探讨数据库存储引擎内部机制,详细阐述存储引擎在数据管理中的核心作用,包括数据的存储、检索和管理方式。 《数据库内核揭秘:存储引擎的设计与实现》共分为9章,内容从基础概念到高级技术,逐步深入,旨在为读者提供全面的理解框架。前两章为读者打下坚实的基础,介绍数据库系统的概览以及操作系统和硬件设备的相关知识。接下来的章节按照自底向上的逻辑顺序,深入探讨存储引擎的关键模块。第3章讲解数据在文件系统中的组织和存储方式。第4章聚焦于缓冲池的设计和缓存替换算法。作为存储引擎的核心,索引在本书占据了3章的篇幅(第5~7章),详细介绍哈希表、LSM树和B树家族。第8章讨论数据库系统中的故障恢复问题,重点介绍了ARIES算法及其应用。第9章关注事务的并发控制,包括多种并发控制算法
《DAMA数据管理知识体系指南(第2版修订版)》是在DMBOK1和DMBOK2的基础上进行的第三次修订,是DAMA国际对过去30多年数据管理领域领域知识和实践的总结,是一部数据管理基础工具书。本书从数据处理道德规范、数据治理、数据架构、数据建模和设计、数据存储和操作、数据安全、数据集成和互操作性、文档和内容管理、参考数据和主数据、数据仓库和商业智能、元数据管理、数据质量管理、大数据数据科学、数据管理成熟度评估、数据管理组织和角色期望、数据管理和组织变革管理等方面对数据管理知识体系进行了系统介绍,并描述如何在数据管理功能领域中应用这些原则。
本书旨在向广大有志于投身芯片设计行业的人士及正在从事芯片设计的工程师普及芯片设计知识和工作方法,使其更加了解芯片行业的分工与动向。 本书共分9个章节,从多角度透视芯片设计,特别是数字芯片设计的流程、工具、设计方法、仿真方法等环节。凭借作者多年业内经验,针对IC新人关心的诸多问题,为其提供了提升个人能力,选择职业方向的具体指导。本书第1章是对IC设计行业的整体概述,并解答了IC新人普遍关心的若干问题。第2章和第3章分别对数字IC的设计方法和仿真验证方法进行了详细阐述,力图介绍实用、规范的设计和仿真方法,避免了Verilog语法书中简单的语法堆砌及填鸭式的灌输。第4章是在前两章的基础上,通过实例进一步阐述设计方法中的精髓。第5章详细介绍了作为当今数字芯片主流的SoC芯片架构和设计方法,并对比了非SoC架构的设计,
本书从ChatGPT的基础原理讲起,逐步深入ChatGPT的基础使用和插件功能,并结合各种数据分析实战案例,重点介绍了ChatGPT在各种数据分析场景中的应用方法,让读者不但可以系统地学习ChatGPT相关知识,而且能对ChatGPT在数据分析中的实战应用有更为深入的理解。本书分为12章,涵盖的主要内容有:ChatGPT简介与基本原理;ChatGPT使用方法;ChatGPT插件应用;ChatGPT构建指标体系、ChatGPT 数据采集与清洗、ChatGPT探索性数据分析和可视化、ChatGPT推断性统计分析、ChatGPT预测分析、ChatGPT文本分析、ChatGPT分类和聚类分析、ChatGPT推荐算法、ChatGPT行业数据分析等的应用方法和实战项目案例。 本书内容通俗易懂、案例丰富、实用性强,特别适合对数据分析和人工智能感兴趣的读者,包括但不限于数据分析师、数据科学家、数据工程师、有数据分析需求的业务人员、研究人员、学生
本书是国际数据管理协会(DAMA国际)组织众多国际专家对过去30多年数据管理领域知识和实践的总结,是市场上综合了数据管理方方面面的一部具有性的基础工具书。从数据治理、数据架构、数据质量、数据安全、主数据管理、参考数据管理、元数据管理、商务智能和数据参考管理、数据建模设计、数据存储和操作、数据集成和互操作、文档和内容管理、大数据、数据管理人员的道德要求等方面介绍了数据管理的知识体系。
统计学是在概率论基础上发展起来的一门应用数学的学问。在自然科学、工程学、社会学、人文学、军事学等诸多应用领域,凡是涉及数据的收集、处理、分析、可视化和解释等方面的问题,都是统计学大显身手的舞台。 统计学既是应用数学的一个分支,又是一门推断的艺术,其中不乏有哲学思辩和信念差异。来自不同学派的观点相互碰撞,使得统计学在二十世纪飞速发展。今天,借助计算机的帮助,人们可以从各个角度探索数据的本质。然而,我们仍需时刻提醒自己,在算力之上,精巧的算法永远重要。 本书延续了《随机之美》的写作风格,以二十世纪最伟大的两位统计学家罗纳德 艾尔默 费舍尔和耶泽 内曼为故事的主角,介绍了现代统计学的一些主要成果。这两位统计学大师同属频率派,均为贝叶斯主义的反对者,然而二人之间也有过很多饶有趣味的学术
《Hadoop海量数据处理》从Hadoop的基础知识讲起,逐步深入Hadoop分布式文件系统(HDFS)和MapReduce分布式编程框架的核心技术,帮助读者全面、系统、深入地理解Hadoop海量数据处理技术的精髓。本书在讲解技术原理时穿插大量的典型示例,并详解两个典型项目实战案例,帮助读者提高实际项目开发水平。 《Hadoop海量数据处理》共15章,分为4篇。第1篇Hadoop基础知识,包括大数据概述、Hadoop概述、Hadoop环境搭建与配置;第2篇Hadoop分布式存储技术,包括HDFS概述、HDFS基础操作、HDFS的读写原理和工作机制、Hadoop 3.x的新特性;第3篇MapReduce分布式编程框架,包括MapReduce概述、MapReduce开发基础、MapReduce框架的原理、MapReduce数据压缩、YARN资源调度器、Hadoop企业级优化;第4篇项目实战,包括Hadoop高可用集群搭建实战和统计TopN经典项目案例实战。 《Hadoop海量数据处理》通俗易懂、案
大模型在众多领域得到了广泛应用,促进了AI技术的整合和创新。然而,在实际应用过程中,直接将大模型应用于特定行业常常难以达到预期效果。本书详细阐述如何在游戏经营分析场景中利用大模型实现数据体系的建设。 本书分为6个部分,共16章。第1部分主要介绍大模型技术的发展与应用,从大模型的发展现状展开,重点介绍大模型与数据体系的相关知识。第2部分主要介绍大模型下的关键基础设施,涵盖湖仓一体引擎、湖仓的关键技术、实时数据写入和高效数据分析等内容。第3部分主要介绍大模型下的数据资产,围绕数据资产重塑、数据资产标准、数据资产建设、数据资产运营展开。第4部分主要介绍自研领域大模型的技术原理,涵盖领域大模型的基础、需求理解算法、需求匹配算法、需求转译算法等内容。第5部分主要介绍大模型的工程化原理,涉及工程化的
全书围绕IKCEST国际大数据竞赛,即IKCEST 一带一路 国际大数据竞赛暨百度 西安交大大数据竞赛展开,针对每次比赛内容进行深度解析,从任务、基础到冠军模型,以理论和代码相结合的方式,全流程深度剖析比赛过程。九次竞赛题均关注当年的热点领域和方向,分别是 人物关系 知识挖掘、提取子句中的核心实体、宠物分类、商家招牌分类、基于卫星遥感影像和用户行为的城市区域功能分类、高致病性传染病的传播趋势预测和基于车载影像的实时环境感知、 一带一路 重点语种法俄泰阿与中文互译、社交网络中多模态虚假信息甄别,涵盖了社交网络、计算机视觉、自然语言处理等大数据应用的热门领域。 本书可作为全国高等学校大数据及相关专业的教材,也可作为感兴趣的读者了解IKCEST国际大数据竞赛的参考书。
本书以实战案例为主线,以函数理论基础为核心,引导读者从整体上理解Power Query的灵活应用,从实例中获得解决问题的思路和灵感。 本书共24章,分为原理篇、实战篇、函数篇、扩展篇,详细讲解了PQ的原理和函数应用。原理篇详细讲述三大数据结构(简称为三大容器)的原理和M函数的传参,实战篇通过案例讲函数,函数篇按照类名讲函数,扩展篇讲解自定义函数等灵活的应用。 本书的特点是,举一反三把逻辑原理讲透、用类比法强化记忆、案例配套在线视频。不管使用Excel还是PQ处理数据,不仅要求快,更要准确,本书列举了许多数据处理的思维和细节,提醒读者避坑。 本书面向会PQ界面操作的用户,作为从基础到中级水平的进阶参考书。
这本书对GDPR进行了详细的评论,解释了您需要对数据保护和信息安全制度进行的更改,并确切地告诉您需要采取什么措施以避免严重的经济处罚。产品概述EU GDPR ?C实施和合规性指南是此新数据保护法的清晰而全面的指南,解释了该法规,并以您可以理解的术语列出了数据处理者和控制者的义务。任何组织中接触个人数据的的人员都应该掌握相关知识。
本书介绍数据分析的统计基础、种类划分,并列举大量实例以说明数据分析方法和算法。内容主要分为4部分,第1部分为第1章,介绍一些概念,简单描述数据分析方法和一些实例; 第2部分包括第2~7 章,介绍描述性分析和数据预处理的主要方法,包括描述统计、多元描述分析、聚类以及频繁模式挖掘等;第3部分包括第8~12章,介绍预测性分析的主要方法,其中包括多种回归算法、二元回归、分类的性能测量以及基于概率和距离测量的方法,以及决策树、人工神经网络和支持向量机等较为先进的方法; 第4部分为第13章,利用描述和预测这两种方法,简单讨论文本、网页以及社交媒体的应用。
本书基于社会学领域学生和学者的需求,将统计学的理论概念和详细的技术指导有机结合起来,通过众多来自社会学不同领域的有趣示例来呈现丰富的统计方法和模型,鼓励读者在了解理论的同时学习应用Stata软件来实现研究的目的。本书除了用5个章节渐进式地详细阐述线性回归模型之外,还进一步涵盖logistic回归、多层次分析、面板数据分析、探索性因子分析、结构方程模型和验证性因子分析等内容。本书通过配套网站提供各章配套的测试题、视频、数据集和Stata代码,方便读者学习并检查学习效果。 本书可作为社会学领域本科生或研究生定量研究课程的教材或参考书,也可作为想要学习应用Stata软件进行定量研究的社会学者的参考书。
本书系统地介绍分数阶微积分学领域的理论知识与数值计算方法。特别地,作者提出并实现一整套高精度的分数阶微积分学的数值计算方法; 提出线性、非线性分数阶微分方程的通用数值解法和基于框图的通用仿真框架; 提出并实现了基于框图的分数阶隐式微分方程、延迟微分方程与分数阶微分方程边值问题的通用求解方法。本书所有知识点均配有高质量的MATLAB 代码与Simulink 模型,有助于读者更好地理解知识点的内涵,更重要的是,读者可以使用这些代码创造性地解决相关问题。 本书可供数学与应用科学领域的高年级本科生、研究生与工程师系统学习分数阶微积分学理论及其计算方法,并用其解决实际应用问题。
内容简介这是一部立足于当下行业实践和政策指引,从工作程序和实体法律角度,对企业数据资产入表的基本内涵、具体流程、数据交易与入表工作的合规要点进行分析归纳的专著,旨在通过深入浅出的分析帮助读者实现在数据交易、数据资产入表领域的快速认知同步。作者曾经在金融监管部门、金融机构和头部互联网平台工作,是国内较早开展数据领域法律实践的律师,曾经为众多企业在场内进行数据交易的产品提供合规评估,为多个大型数据平台企业和金融机构提供数据合规、金融科技的法律服务,包括个人信息合规自评估、证券业跨行业数据共享监管沙盒项目、垂类大模型合规项目等,具有丰富的法律实践和研究深度、广度。全书共12章,主要内容如下:第1和2章 数据要素市场与数据资产入表的内涵介绍首先,从数据要素市场出发对国家层面的政策和法律沿
以低碳为代表的可持续发展,是继工业化和信息化后全球经济转型的第三次浪潮,它将全球的 社会 经济 技术 系统提升到了一个新的复杂度水平。未来十年企业的业务变革,将由可持续发展转型来定义,而数字化技术的应用是驱动可持续发展必不可少的技术支撑。 本书是国内第一本将可持续发展与数字化实践相结合的专业书籍。全书从数字化转型驱动可持续发展的理论、可持续发展的数字化方案原理、可持续发展的数字化实践与创新三个维度,围绕通过气候行动实现零排放、通过循环经济实现零浪费、通过社会责任实现零不平等这三个可持续发展的领域,介绍相关知识、方案和案例。这些内容代表了全球可持续发展的最新经验和方案,并融入了中国市场的发展需求,帮助读者既了解全球的最新趋势,也能联系实际,思考当下的实际问题。 本书的读者包括对可
本书将从内部组件、外部应用和数据结构3个方面为读者介绍Redis常见、经典的用法与实例,并且所有实例均附有完整的Python代码,方便读者学习和参考。全书分3个部分:第一部分讲内部组件,介绍的实例通常用于系统内部,如缓存、锁、计数器、迭代器、速率限制器等,这些都是很多系统中不可或缺的部分;第二部分讲外部应用,介绍的实例都是一些日常常见的、用户可以直接接触到的应用,如直播弹幕、社交关系、排行榜、分页、地理位置等;第三部分讲数据结构,介绍的实例是一些使用Redis实现的常见数据结构,如先进先出队列、栈、优先队列和矩阵等。本书希望通过展示常见的Redis应用实例来帮助读者了解使用Redis解决各类问题的方法,并加深读者对Redis各项命令及数据结构的认识,使读者真正成为能够使用Redis解决各类问题的Redis专家。 本书适合对Redis有基
随着数字化的发展,数据逐渐融入生产、分配、流通、消费和社会服务管理等环节,为数据的拥有者或使用者带来经济效益,成为一种新型的生产要素,给生产方式、生活方式和社会治理方式带来了深刻的变革。 本书主要介绍数据要素化时代的数据治理。本书分为5篇。第一篇 数据治理新趋势 介绍DataOps的发展及实践,产业级数据治理新趋势,数据治理的场景化、工程化和智能化,以及数据资产的安全运营。第二篇 新理论、新方法和新技术 介绍数业的逻辑及路径、数据治理的闭环管理方法、数据资产价值的呈现、数据治理的共治共享、精益数据治理,以及数据治理的 新四化 。第三篇 新型数据基础设施 详细介绍来自平安人寿、阿里巴巴和镜舟科技3家企业的数据中台产品的创新情况。第四篇 行业数据治理与数据安全治理 首先介绍高校是如何进行数据治理的,然后
本书是一本全面关注工业企业数据治理方面的工具书,主要内容分为概述篇、体系篇、工具篇、实施篇及案例篇。其中概述篇主要介绍工业企业数据治理的基础概念、主流数据治理标准及框架、数据治理的发展趋势等;体系篇主要介绍数据管控、数据战略、数据架构、主数据管理等的基本原理与管理体系;工具篇主要介绍主数据管理工具、数据模型管理工具、数据资产运营工具等;实施篇主要介绍具体实施策略及路径选择、顶层架构规划与设计、数据资产运营实施等;案例篇主要介绍电力、能源化工、钢铁、制造、战略投资等行业的数据治理案例,为读者提供专业、丰富、可信的数据治理实施范例。本书是工业大数据应用技术国家工程实验室多年潜心研究的重要科研成果的总结和凝聚,既具有理论高度,也具备面向中国工业企业的可实操性。参与本书编著的作者均
本书系统的阐释Power Pivot for Excel及Power BI中DAX语言的应用。本书是基于笔者多年的DAX学习与使用经验的基础上所采用的一种全新布局与讲解方式,整书依据读者易于理解的方式,由浅入深进行循序渐进式的讲解。本书要探索的重点是,如何利用简捷的办法,让读者在一至两个月之内轻松、系统、全面地掌握DAX语言。 全书共分为5篇:篇为入门篇(第1章和第2章),第二篇为基础篇(第3~5章),第三篇为强化篇(第6章和第7章),第四篇为进阶篇(第8~10章), 第五篇为案例篇(第11章)。书中主要内容包括DAX基础、表的基础应用、查询表、计算列、迭代行、度量值、时间智能、Power BI简介、筛选调节、DAX高阶、综合案例。 本书是为非计算机专业及非统计学专业想快速掌握DAX数据分析及商业智能而准备的。另外,本书也适用于财务、人事行政、电商客服、质量统计等与数
DolphinDB不仅支持海量数据的高效存储与查询,更开创性地提供了功能完备的编程语言以支持复杂分析,以及高吞吐、低延时、开发便捷的流数据分析框架,是计算能力最强的数据库系统之一。本书从入门概念开始介绍,到实践应用分析,讲解深入浅出、易于理解,是一本具有实践意义的数据分析工具书。本书介绍了如何使用 DolphinDB这一集存储和高性能计算的数据库系统进行数据分析实践,提供了大量金融和物联网等场景的实践案例,读者可以通过借鉴和修改案例中的解决方案,将它们应用于自己的数据分析系统之中。即使是零基础的读者,也能通过学习本书,快速上手实践。
本书以敏捷分析工具Tableau为基础,部分章节辅以SQL讲解,系统介绍了数据可视化分析的体系和方法,内容涵盖问题分析方法、数据合并和建模、可视化图形的选择和构建、多种交互方式及其组合、仪表板设计与高级交互、基本计算和高级计算等。 本书以Tableau Desktop的应用为中心,借工具讲解原理,以原理深化工具应用,并由点及面地介绍了业务分析的思考和原理,特别是提出了实践性的"业务 数据 分析 层次框架,并以三类"详细级别 的概念贯通数据模型、高级筛选和高级计算三大主题。 本书重点介绍工具应用背后的思考方式和原理,帮助读者建立"详细级别 的思考框架,举一反三,从而实现多维、结构化分析。
本书以TiDB数据库为基础介绍分布式数据库的运行原理、性能优化和应用场景架构设计。首先,剖析分布式数据库的运行原理与架构;然后,阐述分布式数据库TiDB在表与索引的设计优化、SQL优化、系统级优化方面的方法论,通过融入多个有代表性的案例,帮助读者将方法论对应到生产实践中;最后,梳理场景选型和架构设计过程中读者应该掌握的主要知识点,并对一些分布式数据库的优势场景进行了详细介绍。本书适合希望了解分布式数据库原理,学习TiDB数据库的开发工程师、数据库管理员和架构师阅读,也可以作为高等学校教师或学生学习分布式数据库的参考教材。
本书针对高校商学院商业分析课程编写,内容涵盖了所有相关的商业分析主题,而且各个主题在设计上都是模块化的,教师授课时可灵活地选择最符合其课程目标的主题。比如,本书可以适用于涵盖数据处理(第2章)、数据可视化(第3章)、综合指标(第3章)、统计理论(第4章和第5章)和回归分析(第6章和第7章)的入门课程,或侧重于预测(第8、9、10、11和12章)和预测性建模(第13章)的高级商业分析课程。 为适应不同学生对于统计软件的需求,本书每个知识点都提供了Excel和 R语言两种分析方法和实际操作,而且所有的例题和习题都是使用撰写本书时最新版本的软件解决的,即Microsoft Office Professional 2016、Analytic Solver 2019和 R语言3.5.3版本。 本书的最终目的是让学生更好地理解、管理和可视化数据,学会应用适当的分析工具,并对研究结果及其相关性进行沟通