这是一本需要 动手实践 的图书,通过带领大家从零构建一款分布式向量数据库,让大家透彻理解向量数据库的技术原理和实现细节。 本书共分为三大部分,内容由浅入深、循序渐进。 第一部分 认识向量数据库 (第1~3章)是基础篇,介绍向量数据库的基础知识,涵盖向量及数据库的基本概念、向量数据库的发展历程和核心功能。 第二部分 构建向量数据库 (第4~6章)是核心篇,详细介绍如何从零开始构建并优化向量数据库,巨细靡遗地展示数据库内核的技术实现细节并辅以代码示例、技术架构图等,旨在让大家真正实现动手写向量数据库。 第三部分 向量数据库的实践与展望 (第7~8章)是结束篇,通过实践案例展示向量数据库在AI应用中的使用方法,并尝试勾勒向量数据库的未来。 本书面向数据库开发人员、数据库管理员、数据库架构师等数据库从业人
《数据分析思维:分析方法和业务知识》分为两大部分: 方法篇 和 实战篇 。 方法篇 介绍了数据分析中常用的业务指标、分析方法以及如何用数据分析解决问题的步骤。 实战篇 讲解了如何应用*篇的方法来解决工作中的问题,分享十二个行业(国内电商、跨境电商、金融信贷、金融第三方支付、家政、旅游、在线教育、运营商、内容、房产、汽车、零售)的业务知识,以及该行业内用数据分析解决问题的实例。每个行业都包括业务模式、业务指标、案例分析三方面的内容。 通过本书的学习,你会熟悉数据分析的方法,并将其灵活应用在自己所处的行业中。
本书是一本基于 Python 实现全部例题计算的统计学教材,书中例题解答均给出了详细的实现代码和结果。全书共 11 章,第1章和第2章介绍数据、Python 的下载与安装、Python的数据类型和基本操作、Python 绘图基础等。第3章和第4章介绍数据的描述性分析方法,包括数据可视化和描述统计量。第5~7章介绍数据的推断性分析方法,包括概率分布、参数估计和假设检验。第8~11章介绍实际中常用的一些统计方法,包括类别变量分析、方差分析、回归分析、时间序列分析等。 本书可作为高等院校各专业开设统计学课程的教材,也可作为数据分析工作者、Python 数据分析和可视化爱好者的参考书。
《数据库内核揭秘:存储引擎的设计与实现》深入探讨数据库存储引擎内部机制,详细阐述存储引擎在数据管理中的核心作用,包括数据的存储、检索和管理方式。 《数据库内核揭秘:存储引擎的设计与实现》共分为9章,内容从基础概念到高级技术,逐步深入,旨在为读者提供全面的理解框架。前两章为读者打下坚实的基础,介绍数据库系统的概览以及操作系统和硬件设备的相关知识。接下来的章节按照自底向上的逻辑顺序,深入探讨存储引擎的关键模块。第3章讲解数据在文件系统中的组织和存储方式。第4章聚焦于缓冲池的设计和缓存替换算法。作为存储引擎的核心,索引在本书占据了3章的篇幅(第5~7章),详细介绍哈希表、LSM树和B树家族。第8章讨论数据库系统中的故障恢复问题,重点介绍了ARIES算法及其应用。第9章关注事务的并发控制,包括多种并发控制算法
《数字化生存》描绘了数字科技为我们的生活、工作、教育和娱乐带来的各种冲击和其中值得深思的问题,是跨入数字化新世界的*指南。英文版曾高居《纽约时报》畅销书排行榜。 信息的DNA 正在迅速取代原子而成为人类生活中的基本交换物。尼葛洛庞帝向我们展示出这一变化的巨大影响。电视机与计算机屏幕的差别变得只是大小不同而已。从前所说的 大众 传媒正演变成个人化的双向交流。信息不再被 推给 消费者,相反,人们或他们的数字勤务员将把他们所需要的信息 拿过来 并参与到创造它们的活动中。信息技术的革命将把受制于键盘和显示器的计算机解放出来,使之成为我们能够与之交谈,与之一道旅行,能够抚摸甚至能够穿戴的对象。这些发展将变革我们的学习方式、工作方式、娱乐方式 一句话,我们的生活方式。犀利的见解使尼葛洛庞帝成为《连线》
《R语言数据分析从入门到精通》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了R语言基础知识、核心技术与高级应用。全书分为3篇,共16章,包括初识R语言、集成开发环境RStudio、R语言入门、数据结构、流程控制语句、日期和时间序列、获取数据、数据处理与清洗、数据计算与分组统计、基本绘图、ggplot2高级绘图、lattice高级绘图、基本统计分析、方差分析、回归分析和时间序列分析等内容。所有知识都结合具体实例进行讲解,涉及的程序代码给出了详细的注释,还有部分代码解析。
《中文版 SPSS 28 统计分析从入门到精通(实战案例版)》详细介绍了 SPSS 28 在数据统计分析方面的使用方法 和应用技巧,它是一本 SPSS 基础教程,同时包含了大量的 SPSS 视频教程。 《中文版 SPSS 28 统计分析从入门到精通(实战案例版)》全书共 20 章,内容包括 SPSS 28 概述、初识 SPSS 28、SPSS 数据结构、数据管理、数据分类、数据清洗和数据加工、数据计算、数据分析图表、数据分布的特征分析、参数检验、非参数检验、均值分析、单因素方差分析、多因素方差分析、相关性分析、列联表相关性分析、回归分析、聚类分析、判别分析和电力中断数据分析实例等知识。通过丰富的实例,详细介绍了 SPSS 数据统计分析的全方位知识。本书在讲解过程中理论联系实际,并配有详细的操作步骤,图文对应,可以提高读者的动手能力,并加深对知识点的理解。 《中文版 SPSS 28
本书以案例的形式,介绍从思维模型分析到场景实践的数据分析方法。全书围绕 数据分析 与 运营增长 两大关键要素,在系统介绍数据分析思维、数据分析方法、数据采集技能、数据清洗技能等基础知识的同时,以问题为导向,解读运营与增长的关键性业务内容,在获客、激活、留存、变现、自传播循环等各个核心运营环节展开数据分析实战。 本书提供案例相关数据集与源码包,适合数据分析、产品运营、市场营销等行业有数据分析具体业务需求的人士阅读,也适合相关专业的师生阅读。
伴随人类社会数字化进程的深入,数据正不断渗透于日常的生活、生产、分配、流通、消费等各个环节,对人类社会的影响日益凸显。数据已成为继土地、劳动力、资本、技术之后的第五大生产要素,对其他生产要素的整合能力也使其成为既有要素中比较重要的和难以替代的关键要素,并成为值得重点讨论的时代性议题与理解数字时代的基本入手点。 对数据要素的理解涉及多学科、多视野,本书从与数据要素关系较为密切的信息、权属、价值、安全、交易等五个维度出发,汇聚不同学科背景的既有文献,整合现有观点,对数据要素的多维特性进行探讨,以丰富人们对数据要素的认知,凝聚共识,澄清数字时代的发展与治理迷思,为未来的相关创新提供起点。
一本书如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么 做 线性回归分析,在你遇到实际数据时仍然不知道如何分析。在《白话统计》中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据笔者多年的分析经验,它们在实践中通常是奏效的。《白话统计》凝结了作者十多年来对统计分析的理解,对各种方法的介绍采用全新的理念和思路,不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。当然,本书同时提供了如何实现结果的软件(
本书从ChatGPT的基础原理讲起,逐步深入ChatGPT的基础使用和插件功能,并结合各种数据分析实战案例,重点介绍了ChatGPT在各种数据分析场景中的应用方法,让读者不但可以系统地学习ChatGPT相关知识,而且能对ChatGPT在数据分析中的实战应用有更为深入的理解。本书分为12章,涵盖的主要内容有:ChatGPT简介与基本原理;ChatGPT使用方法;ChatGPT插件应用;ChatGPT构建指标体系、ChatGPT 数据采集与清洗、ChatGPT探索性数据分析和可视化、ChatGPT推断性统计分析、ChatGPT预测分析、ChatGPT文本分析、ChatGPT分类和聚类分析、ChatGPT推荐算法、ChatGPT行业数据分析等的应用方法和实战项目案例。 本书内容通俗易懂、案例丰富、实用性强,特别适合对数据分析和人工智能感兴趣的读者,包括但不限于数据分析师、数据科学家、数据工程师、有数据分析需求的业务人员、研究人员、学生
本书以 实战、实用、实效 为原则,充分考虑智慧公安、智慧交通、智慧金融、智慧城市等用户的大数据应用痛点,紧贴大数据实践的业务场景,汇集数据分析模型全生命 周期的关键应用技术,包括数据准备、工作表管理、可视化图表创建、数据大屏制作、数据模型创建和自定义算子设计等内容。 本书内容通俗易懂,案例丰富,图文并茂,同时配有教学视频和建模平台,适合初级、中级数据分析师和广大数据分析爱好者参考学习。通过本书,读者无须具备计算机、 软件开发等专业知识背景,即可熟练掌握大数据分析建模的基本方法和技巧。
目前,大数据成为人们耳熟能详的名词。在人工智能、大数据时代,数据处理、数据分析成为非常重要的工作,但是数据存储在哪里,数据是怎么存储的,数据库的工作原理是什么,面对大量数据,我们应该如何操作,很多人可能并不清楚。本书就用通俗易懂的文字,结合直观清晰的插图,对这些问题的关键技术 数据库相关知识点进行了详细解说。具体内容包括数据库的基础知识 理解数据库的基本概念、数据的存储方式 关系型数据库的特征、操作数据库 SQL的使用方法、管理数据 避免非法数据的功能、引入数据库 数据库的结构与表的设计、运用数据库 旨在安全运用、用于保护数据库的基础知识 故障恢复与安全措施、活用数据库 在应用程序中使用数据库等。本书适合所有对数据、数据库感兴趣的读者学习。
本书介绍数据分析的统计基础、种类划分,并列举大量实例以说明数据分析方法和算法。内容主要分为4部分,第1部分为第1章,介绍一些概念,简单描述数据分析方法和一些实例; 第2部分包括第2~7 章,介绍描述性分析和数据预处理的主要方法,包括描述统计、多元描述分析、聚类以及频繁模式挖掘等;第3部分包括第8~12章,介绍预测性分析的主要方法,其中包括多种回归算法、二元回归、分类的性能测量以及基于概率和距离测量的方法,以及决策树、人工神经网络和支持向量机等较为先进的方法; 第4部分为第13章,利用描述和预测这两种方法,简单讨论文本、网页以及社交媒体的应用。
这本书对GDPR进行了详细的评论,解释了您需要对数据保护和信息安全制度进行的更改,并确切地告诉您需要采取什么措施以避免严重的经济处罚。产品概述EU GDPR ?C实施和合规性指南是此新数据保护法的清晰而全面的指南,解释了该法规,并以您可以理解的术语列出了数据处理者和控制者的义务。任何组织中接触个人数据的的人员都应该掌握相关知识。
《Hadoop海量数据处理》从Hadoop的基础知识讲起,逐步深入Hadoop分布式文件系统(HDFS)和MapReduce分布式编程框架的核心技术,帮助读者全面、系统、深入地理解Hadoop海量数据处理技术的精髓。本书在讲解技术原理时穿插大量的典型示例,并详解两个典型项目实战案例,帮助读者提高实际项目开发水平。 《Hadoop海量数据处理》共15章,分为4篇。第1篇Hadoop基础知识,包括大数据概述、Hadoop概述、Hadoop环境搭建与配置;第2篇Hadoop分布式存储技术,包括HDFS概述、HDFS基础操作、HDFS的读写原理和工作机制、Hadoop 3.x的新特性;第3篇MapReduce分布式编程框架,包括MapReduce概述、MapReduce开发基础、MapReduce框架的原理、MapReduce数据压缩、YARN资源调度器、Hadoop企业级优化;第4篇项目实战,包括Hadoop高可用集群搭建实战和统计TopN经典项目案例实战。 《Hadoop海量数据处理》通俗易懂、案
当应用于大型分布式数据集时,标准算法和数据结构可能会变慢或完全失效。选择专为大数据设计的算法可以节省时间、提高准确性并降低处理成本。《漫画算法与数据结构(大规模数据集)》将最前沿的研究论文提炼为实用的技术,用于绘制、流式传输并组织磁盘和云中的大规模数据集,十分独特。 大规模数据集的算法与数据结构为大型分布式数据引入了处理和分析技术。《漫画算法与数据结构(大规模数据集)》作为指南,包含了行业故事和有趣的插图,使复杂的概念也易于理解。在学习如何将强大的算法(如Bloom 过滤器、计数最小草图、HyperLogLog和LSM树)映射到你自己的用例时,将对真实世界的示例进行探索。 主要内容: ● 概率草图数据结构 ● 选择正确的数据库引擎 ● 设计高效的磁盘数据结构和算法 ● 大规模系统中的算法权衡 ● 有限空间资源下的百分
全书围绕IKCEST国际大数据竞赛,即IKCEST 一带一路 国际大数据竞赛暨百度 西安交大大数据竞赛展开,针对每次比赛内容进行深度解析,从任务、基础到冠军模型,以理论和代码相结合的方式,全流程深度剖析比赛过程。九次竞赛题均关注当年的热点领域和方向,分别是 人物关系 知识挖掘、提取子句中的核心实体、宠物分类、商家招牌分类、基于卫星遥感影像和用户行为的城市区域功能分类、高致病性传染病的传播趋势预测和基于车载影像的实时环境感知、 一带一路 重点语种法俄泰阿与中文互译、社交网络中多模态虚假信息甄别,涵盖了社交网络、计算机视觉、自然语言处理等大数据应用的热门领域。 本书可作为全国高等学校大数据及相关专业的教材,也可作为感兴趣的读者了解IKCEST国际大数据竞赛的参考书。
《极速Python:高性能编码、计算与数据分析》系统性地介绍了Python高性能编程的各种工具和方法,并重点讲解了Python在大数据中的应用。书中配有清晰的示例和详实的分析,可帮助读者熟练掌握NumPy和Pandas,实现高性能的数据存储和I/O。本书高屋建瓴、不留遗漏,读者学习本书后,能从代码到架构对系统进行整体优化。 主要内容 ● 使用Cython重构关键代码。 ● 设计健壮的数据结构。 ● 精简不同架构的代码。 ● 实现Python GPU计算。
本书系统地介绍分数阶微积分学领域的理论知识与数值计算方法。特别地,作者提出并实现一整套高精度的分数阶微积分学的数值计算方法; 提出线性、非线性分数阶微分方程的通用数值解法和基于框图的通用仿真框架; 提出并实现了基于框图的分数阶隐式微分方程、延迟微分方程与分数阶微分方程边值问题的通用求解方法。本书所有知识点均配有高质量的MATLAB 代码与Simulink 模型,有助于读者更好地理解知识点的内涵,更重要的是,读者可以使用这些代码创造性地解决相关问题。 本书可供数学与应用科学领域的高年级本科生、研究生与工程师系统学习分数阶微积分学理论及其计算方法,并用其解决实际应用问题。
本书是热销书《SQL基础教程》的作者MICK为志在向中级进阶的数据库工程师编写的一本SQL技能提升指南。全书可分为两大部分。部分介绍了SQL语言不同寻常的使用技巧,带领读者重新认识CASE表达式、窗口函数、自连接、EXISTS谓词、HAVING子句、外连接、行间比较、集合运算、数列处理等SQL常用技术,发掘它们的新用法。这部分不仅穿插讲解了这些技巧背后的逻辑和相关知识,而且辅以丰富的示例程序,旨在帮助读者从面向过程的思维方式转换为面向集合的思维方式。第二部分介绍了关系数据库的发展史,并从集合论和逻辑学的角度讲述了SQL和关系模型的理论基础,旨在帮助读者加深对SQL语言和关系数据库的理解。此外,本书很多节的末尾设置有练习题,并在书末提供了解答,方便读者检验自己对书中知识点的掌握程度。