这是一本需要 动手实践 的图书,通过带领大家从零构建一款分布式向量数据库,让大家透彻理解向量数据库的技术原理和实现细节。 本书共分为三大部分,内容由浅入深、循序渐进。 第一部分 认识向量数据库 (第1~3章)是基础篇,介绍向量数据库的基础知识,涵盖向量及数据库的基本概念、向量数据库的发展历程和核心功能。 第二部分 构建向量数据库 (第4~6章)是核心篇,详细介绍如何从零开始构建并优化向量数据库,巨细靡遗地展示数据库内核的技术实现细节并辅以代码示例、技术架构图等,旨在让大家真正实现动手写向量数据库。 第三部分 向量数据库的实践与展望 (第7~8章)是结束篇,通过实践案例展示向量数据库在AI应用中的使用方法,并尝试勾勒向量数据库的未来。 本书面向数据库开发人员、数据库管理员、数据库架构师等数据库从业人
本书是一部异构制造大数据智能融合技术的学术专著。本书以制造业大数据为背景,围绕旋转设备的运行状态展开,系统介绍了在多源异构制造大数据的基础上利用多源数据融合的方法实现旋转设备的运行状态监测和智能诊断。 本书的最大亮点和特色是遵循理论性与实践性相结合、先进性与实用性相结合、专业性与通用性相结合的原则。 本书适合以下读者: 对人工智能、机器学习、数据融合感兴趣的读者;希望用计算机的算法解决机械相关领域问题的研究者、工程设计人员和应用人员。本书可以作为计算机专业和机械专业的本科毕业设计和研究生学术论文的参考资料,尤其是可供研究多源数据融合和机械设备故障诊断方向的学生、研究人员参考;还可以作为相关工程技术人员的辅助参考。
随着信息化建设的推进,电子数据资源成为企事业单位的重要基础设施。云计算因能够实现计算和存储资源按需分配、快速部署等而迅猛发展。越来越多的团体或个人倾向于将数据迁移至云存储系统,基于云的存储和计算应用已经深入金融、工业、交通、医疗健康等传统行业。安全、高效地提供云服务对于相关技术人员来说既是机遇也是挑战。本书从云数据安全存储这一视角切入,重点解决云数据去重技术中面临的安全和效率问题,提出并系统地讲解了一系列适用于抗侧信道攻击的云数据隐私保护去重技术。本书共9章: 第1章介绍了云数据去重技术的基础知识和国内外研究现状;第2、3章介绍了一些基于上传流量混淆的去重技术;第4~7章介绍了基于响应值混淆的去重技术;第8、9章介绍了基于广义去重的云数据安全存储技术。 本书内容丰富,算法翔实,实用性强,
数据分析是现在不仅在互联网行业同时也在基础行业中必不可缺的运营手段,是业务提升效率、增强收益的有效方法。 本书的前8个章节精选提炼了多种数据分析中重要方法,包括ROI分析、数据标签和评分、用户生命周期、因果推断、可解释模型、PSM理论、ABtest、时序分析等,并通过更清晰、简单的方式向读者全方位的展示数据分析在以下诸多原理上的阐释,并且针对每种方法都提供了充足的生活和业务中的前沿案例作为辅助讲解,帮助读者更好的理解数据分析在传统行业、互联网行业及各类新兴行业的实际应用,同时也能更快的运用在实际工作和生活中,所以通过阅读前8个章节,读者可以系统的学习数据分析的理知识,拥有数据化思维,为读者能够在数据分析行业中不断深耕打下良好的理论基础并将数据分析能力逐步应用于实际的工作和生活中,成为一名合格的
《数据分析思维:分析方法和业务知识》分为两大部分: 方法篇 和 实战篇 。 方法篇 介绍了数据分析中常用的业务指标、分析方法以及如何用数据分析解决问题的步骤。 实战篇 讲解了如何应用*篇的方法来解决工作中的问题,分享十二个行业(国内电商、跨境电商、金融信贷、金融第三方支付、家政、旅游、在线教育、运营商、内容、房产、汽车、零售)的业务知识,以及该行业内用数据分析解决问题的实例。每个行业都包括业务模式、业务指标、案例分析三方面的内容。 通过本书的学习,你会熟悉数据分析的方法,并将其灵活应用在自己所处的行业中。
《数字化生存》描绘了数字科技为我们的生活、工作、教育和娱乐带来的各种冲击和其中值得深思的问题,是跨入数字化新世界的*指南。英文版曾高居《纽约时报》畅销书排行榜。 信息的DNA 正在迅速取代原子而成为人类生活中的基本交换物。尼葛洛庞帝向我们展示出这一变化的巨大影响。电视机与计算机屏幕的差别变得只是大小不同而已。从前所说的 大众 传媒正演变成个人化的双向交流。信息不再被 推给 消费者,相反,人们或他们的数字勤务员将把他们所需要的信息 拿过来 并参与到创造它们的活动中。信息技术的革命将把受制于键盘和显示器的计算机解放出来,使之成为我们能够与之交谈,与之一道旅行,能够抚摸甚至能够穿戴的对象。这些发展将变革我们的学习方式、工作方式、娱乐方式 一句话,我们的生活方式。犀利的见解使尼葛洛庞帝成为《连线》
伴随人类社会数字化进程的深入,数据正不断渗透于日常的生活、生产、分配、流通、消费等各个环节,对人类社会的影响日益凸显。数据已成为继土地、劳动力、资本、技术之后的第五大生产要素,对其他生产要素的整合能力也使其成为既有要素中比较重要的和难以替代的关键要素,并成为值得重点讨论的时代性议题与理解数字时代的基本入手点。 对数据要素的理解涉及多学科、多视野,本书从与数据要素关系较为密切的信息、权属、价值、安全、交易等五个维度出发,汇聚不同学科背景的既有文献,整合现有观点,对数据要素的多维特性进行探讨,以丰富人们对数据要素的认知,凝聚共识,澄清数字时代的发展与治理迷思,为未来的相关创新提供起点。
《数据库系统概念》是数据库系统方面的经典教材之一,其内容由浅入深,既包含数据库系统基本概念,又反映数据库技术新进展。本书基于该书第7版进行改编,保留其中的基本内容,压缩或删除了一些高级内容,更加适合作为国内高校计算机及相关专业本科生数据库课程教材。
本书以案例的形式,介绍从思维模型分析到场景实践的数据分析方法。全书围绕 数据分析 与 运营增长 两大关键要素,在系统介绍数据分析思维、数据分析方法、数据采集技能、数据清洗技能等基础知识的同时,以问题为导向,解读运营与增长的关键性业务内容,在获客、激活、留存、变现、自传播循环等各个核心运营环节展开数据分析实战。 本书提供案例相关数据集与源码包,适合数据分析、产品运营、市场营销等行业有数据分析具体业务需求的人士阅读,也适合相关专业的师生阅读。
《中文版 SPSS 28 统计分析从入门到精通(实战案例版)》详细介绍了 SPSS 28 在数据统计分析方面的使用方法 和应用技巧,它是一本 SPSS 基础教程,同时包含了大量的 SPSS 视频教程。 《中文版 SPSS 28 统计分析从入门到精通(实战案例版)》全书共 20 章,内容包括 SPSS 28 概述、初识 SPSS 28、SPSS 数据结构、数据管理、数据分类、数据清洗和数据加工、数据计算、数据分析图表、数据分布的特征分析、参数检验、非参数检验、均值分析、单因素方差分析、多因素方差分析、相关性分析、列联表相关性分析、回归分析、聚类分析、判别分析和电力中断数据分析实例等知识。通过丰富的实例,详细介绍了 SPSS 数据统计分析的全方位知识。本书在讲解过程中理论联系实际,并配有详细的操作步骤,图文对应,可以提高读者的动手能力,并加深对知识点的理解。 《中文版 SPSS 28
数据是什么?如何应用数据?如何把数据变成更有价值的东西?本书主要适合刚开始使用数据的读者,能让他们对数据的含义、价值及用途有清晰的认识和了解,本书目的是介绍数据的相关知识,同时鼓励人们参与到日益增多的与数据有关的对话中。 本书通过介绍简单数据相关知识,即从一个总体目标、两种思维系统、三大应用领域、四种数据尺度、五种数据分析方法、六种数据展现方式、七种数据活动、八个提前问的问题分别展开阐释数据和分析的方法和思维方式。
目前,大数据成为人们耳熟能详的名词。在人工智能、大数据时代,数据处理、数据分析成为非常重要的工作,但是数据存储在哪里,数据是怎么存储的,数据库的工作原理是什么,面对大量数据,我们应该如何操作,很多人可能并不清楚。本书就用通俗易懂的文字,结合直观清晰的插图,对这些问题的关键技术 数据库相关知识点进行了详细解说。具体内容包括数据库的基础知识 理解数据库的基本概念、数据的存储方式 关系型数据库的特征、操作数据库 SQL的使用方法、管理数据 避免非法数据的功能、引入数据库 数据库的结构与表的设计、运用数据库 旨在安全运用、用于保护数据库的基础知识 故障恢复与安全措施、活用数据库 在应用程序中使用数据库等。本书适合所有对数据、数据库感兴趣的读者学习。
本书介绍了柴油发电机组的分类、组成和工作原理,分析了柴油发电机组的功率标定和技术指标, 重点讨论了不同性质负载对柴油发电机组带载能力的影响,详细介绍了柴油发电机组供电方案的电源架 构和运行方式以及柴油发电机组的运维保养方法。此外,还介绍了机房安装的柴油发电机组和集装箱式 柴油发电机组的设计、安装的相关知识。 本书力求理论性和实践性相结合,书中所列的柴油发电机系统的供电方案及运维保养方法对当前主 流的数据中心柴油发电机系统普遍适用。本书是数据中心柴油发电机系统运维工作流程的指导性教材, 相信阅读本书一定会对数据中心柴油发电机系统运维管理从业人员大有裨益。
本书从Power BI的基础功能讲起,逐步深入到Power BI进阶实战,以系统化的实操步骤和丰富的实际案例让读者快速入门Power BI数据分析,掌握Power BI在多个业务领域的实际应用。全书共8章:商业智能与数据分析概述;Power BI简介;数据分析与可视化制作全过程;Power BI数据预处理;Power BI数据建模;Power BI数据可视化;Power BI在线服务;Power BI数据分析实战案例。 本书通俗易懂、循序渐进、内容全面、讲解详细,配备全套数据集、教学课件和学习视频,既适合读者自学Power BI数据分析与可视化,也适合大专院校作为教材,更适合从事销售、产品、电商运营、仓储物流、财务管理、人力资源等岗位的职场人士提升技能。
在大数据爆发的短短10多年中,NoSQL成为处理大数据必须掌握的热门核心技术之一。《NoSQL数据库入门与实践(基于MongoDB、Redis)(第2版)》正是在这种背景下应运而生的,本书结合MongoDB、Redis和测试工具等全面介绍NoSQL数据库技术,是一本NoSQL数据库入门图书,也是初学者了解NoSQL 技术全貌的图书。全书包括3部分,其中NoSQL基础部分包括初识NoSQL、TRDB与NoSQL的技术比较、NoSQL数据存储模式;NoSQL实践部分(电商大数据)分别介绍了文档数据库MongoDB和键值数据库Redis 入门及提高知识,并通过两个电商平台综合案例详细介绍了MongoDB和Redis在实现不同业务(如日志存储、商品评价、订单信息记录、点击量存储、商品推荐、购物车、记录浏览商品行为等)功能模块开发过程中的具体应用;NoSQL提高部分(电商大数据〉介绍了大数据环境下MongoDB和Redis 在操作速度和数据存储方面的优化方法
一本书如果没有作者自己的观点,而只是知识的堆叠,那么这类书是没有太大价值的。尤其在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么 做 线性回归分析,在你遇到实际数据时仍然不知道如何分析。在《白话统计》中,你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据笔者多年的分析经验,它们在实践中通常是奏效的。《白话统计》凝结了作者十多年来对统计分析的理解,对各种方法的介绍采用全新的理念和思路,不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。当然,本书同时提供了如何实现结果的软件(
《极速Python:高性能编码、计算与数据分析》系统性地介绍了Python高性能编程的各种工具和方法,并重点讲解了Python在大数据中的应用。书中配有清晰的示例和详实的分析,可帮助读者熟练掌握NumPy和Pandas,实现高性能的数据存储和I/O。本书高屋建瓴、不留遗漏,读者学习本书后,能从代码到架构对系统进行整体优化。 主要内容 ● 使用Cython重构关键代码。 ● 设计健壮的数据结构。 ● 精简不同架构的代码。 ● 实现Python GPU计算。
本书是热销书《SQL基础教程》的作者MICK为志在向中级进阶的数据库工程师编写的一本SQL技能提升指南。全书可分为两大部分。部分介绍了SQL语言不同寻常的使用技巧,带领读者重新认识CASE表达式、窗口函数、自连接、EXISTS谓词、HAVING子句、外连接、行间比较、集合运算、数列处理等SQL常用技术,发掘它们的新用法。这部分不仅穿插讲解了这些技巧背后的逻辑和相关知识,而且辅以丰富的示例程序,旨在帮助读者从面向过程的思维方式转换为面向集合的思维方式。第二部分介绍了关系数据库的发展史,并从集合论和逻辑学的角度讲述了SQL和关系模型的理论基础,旨在帮助读者加深对SQL语言和关系数据库的理解。此外,本书很多节的末尾设置有练习题,并在书末提供了解答,方便读者检验自己对书中知识点的掌握程度。
本书是一本系统介绍Clickhouse的指导型工具书,全书总共分为11章: 第1章 介绍ClickHouse的由来、发展历程、核心特点与核心特点。第2~6章 介绍了ClickHouse基础使用部分,包括整体架构、如何安装、数据定义、数据引擎、数据查询和函数的特性和使用方法。第7~9章介绍了ClickHouse高级特性部分,包括数据库管理操作,数据分片、数据副本和高可用的特性和使用方法。第10~11章介绍了如果自己手动实现ClickHouse中间件的思路和示例,同时也介绍了几款可视化工具与ClickHouse集成的方法。
在数据湖仓的所有新增要素中,排名的就是可以利于数据分析和机器学习所用的分析基础设施。分析基础设施包括一众大家广为熟悉的东西,当然也包括一些可能对大家还有些陌生或略带新鲜感的概念。比如包括:元数据、数据血缘、 数据体量的度量 、数据创建的历史记录、数据转换描述。 数据湖仓的第二个新增要素,是识别和使用通用连接器。通用连接器允许合并和比较所有不同来源的数据。如果没有通用连接器,就很难(实际上是几乎不可能)将数据湖仓中的不同数据关联起来。但有了这个中西,就可以关联任何类型的数据。 使用数据湖仓,就有可能实现以往任何其它方式都不可行或不可能实现的某种程度的数据分析和机器学习。 但与其它架构一样,我们需要理解数据湖仓的架构以及它的能力,以便于我们基于这种架构创建数据分析蓝图和开展数据分析规
当应用于大型分布式数据集时,标准算法和数据结构可能会变慢或完全失效。选择专为大数据设计的算法可以节省时间、提高准确性并降低处理成本。《漫画算法与数据结构(大规模数据集)》将最前沿的研究论文提炼为实用的技术,用于绘制、流式传输并组织磁盘和云中的大规模数据集,十分独特。 大规模数据集的算法与数据结构为大型分布式数据引入了处理和分析技术。《漫画算法与数据结构(大规模数据集)》作为指南,包含了行业故事和有趣的插图,使复杂的概念也易于理解。在学习如何将强大的算法(如Bloom 过滤器、计数最小草图、HyperLogLog和LSM树)映射到你自己的用例时,将对真实世界的示例进行探索。 主要内容: ● 概率草图数据结构 ● 选择正确的数据库引擎 ● 设计高效的磁盘数据结构和算法 ● 大规模系统中的算法权衡 ● 有限空间资源下的百分
广博的网络空间里,藏品以数字化的形态储存,检索、提取、分析、欣赏,物与人之间 零距离 ;多种类的服务场景里,博物馆体验走向定制化,打破虚拟与现实的边界,公众在展厅内外开启自由多样的智识旅程。在智慧博物馆,千里在俄顷,三江坐超忽。 历经信息化、数字化时代,博物馆已走上智慧化实践的征程。利用物联网、大数据、云计算和移动通信等新技术,整合博物馆信息资源,重建信息交流通道,实现智慧服务、智慧保护、智慧管理。通过感知、互通和互联,智慧博物馆更加突出 以人为中心 。 本书辨析智慧博物馆公众服务的定义、特征和内容,构建智慧博物馆公众服务的系统框架;分析面向公众服务的数据资源建设与管理,阐述系统感知、运行和发展的过程;构建绩效评价指标体系和完善机制保障,从内外部确保智慧博物馆公众服务的平稳有效运