当前,数据驱动的理念已渗透到各个领域,数据科学和人工智能技术在制造业、金融、教育等多个行业中得到了广泛应用。Python作为一种编程语言,已成为数据科学和人工智能领域的事实标准,它丰富的生态系统进一步增强了它在这些领域中的重要性。然而,随着数据量的不断增长,如何利用Python加速数据科学处理,并将它扩展到集群上的并行计算,已成为数据科学家面临的重要挑战。本书详细介绍了4种数据科学工具:Dask、Ray、Xorbits和mpi4py,这些工具可以帮助数据工程师和科学家处理更大规模的数据集、训练更复杂的模型,并更高效地进行机器学习模型的迭代和部署。本书面向具备一定数据科学基础的数据工程师、数据科学家或领域专家,同时也适合大学生和研究生作为进入高性能数据科学领域的入门读物。
本书系统地介绍向量数据库的原理、技术实现及其应用,重点分析传统数据库在处理高维向量数据时的局限性,并提供相应的解决方案。本书分为4个部分,共13章,内容涵盖从理论基础到技术实践的多个方面,详细讨论高维向量表示中的信息丢失、嵌入空间误差和维度诅咒等问题,结合FAISS和Milvus等主流开源工具,深入剖析向量数据库的索引机制、搜索算法和优化策略。通过实际案例,展示向量数据库在推荐系统、行为分析、智能诊断、语义搜索等领域的应用,并特别强调企业级语义搜索系统的开发与部署经验。 本书不仅提供深度的理论指导,还通过丰富的案例帮助读者掌握如何构建高效的向量搜索引擎,适合从事搜索引擎与推荐系统开发的工程师,数据科学、人工智能及相关领域的从业者、研究人员,以及对向量数据库与相似性搜索感兴趣的读者,也可作为培训
ChatGPT能够辅助用户完成从数据收集、预处理、分析到报告撰写的全过程,大大降低了数据分析的门槛。本书共分为 12 章,内容包括ChatGPT 的注册与登录、提示词的设计、GPTs、数据的收集与预处理、特征工程、各类数据分析方法(包括对比分析、分组分析、回归分析、分类分析和聚类分析等)、数据可视化,以及如何利用 ChatGPT 撰写数据分析报告等。每章都提供了丰富的示例和实用技巧,旨在帮助读者掌握利用ChatGPT 进行数据分析的方法,提高数据处理和分析的效率。本书适合数据分析师、市场研究人员、高校师生、科研人员以及任何对数据分析感兴趣的读者。通过阅读本书,读者不仅能学习到如何使用 ChatGPT 进行数据分析,还能深刻理解数据分析的核心概念和应用场景,从而在实践中更加游刃有余。
本书旨在帮助数据行业的从业者在 AI 时代提升数据管理和数据技术认知水平,内容覆盖数据价值创造的理论、技术和实践。 本书共 8 章。第 1 章回顾企业数据的发展历史,并讲解现代企业数据组织。第 2 章从多维度解析数据价值的创造路径,包括从构建数字化决策、加速业务创新和推动 AI 变革等视角介绍数据价值创造的方法和成果。第 3 章系统讲解数据管理的方法与技术,包括数据资产管理、数据资产运营、数据平台架构的规划及实践案例。第 4 章讲解数据要素价值化的路径探索,包括数据要素在多行业的应用、基础体系、可信数据流通技术及数据资产入表。第 5 章讲解数据底座的技术与实践,包括数据底座的架构要求、分布式存储技术、分布式计算技术等,以及多种架构介绍。第 6 章讲解数据与 AI 的融合,包括推荐系统、基于 LLM 的数据治理分析、数据标注
本书主要分为4部分:第1部分主要介绍SQL的基础语法,包括查询操作、数据统计、高级查询、内置函数、数据修改、表的操作、列的属性等:第2部分主要介绍sQL的高级技术,包括多表查询、视图、索引、存储程序、游标、事务等。第3部分通过一一个完整的案例,将前面所介绍的知识串连起来,帮助读者融汇贯通:第4部分提供了用于参考的各种常用操作。 为了让读者更好地掌握书中内容,作者基于实际工作以及面试经验,精心设置了大量高质量的练习题。此外,本书还配有课件PPT以及各种资源,以便各大高校的老师教学使用。
本书以Origin 2023中文版为软件平台,结合编者多年的数据分析经验,通过大量应用实例详细介绍Origin在科研数据处理与数据作图中的使用方法与技巧。全书共13章:第1~6章主要讲解Origin的基础知识与科技绘图,包括Origin的操作界面、窗口类型、绘图基本设置、数据操作管理、二维及三维图的绘制、统计图形绘制等;第7~13章结合Origin数据处理与统计分析功能,分别讲解线性拟合、非线性拟合、数据操作与分析、基础统计分析、参数与非参数检验、数字信号处理等知识,最后介绍如何在Origin中进行版面设计与输出操作。通过阅读本书,可以帮助读者快速掌握Origin的应用,从而更好地处理和分析科研数据。本书注重基础,内容翔实,突出示例讲解,既可以作为从事数据分析处理的科研工程技术人员的自学用书,也可以作为高等学校相关专业的本科生、研究生的教学用书
大数据时代,掌握必要的数据分析能力,将大大提升你的工作效率和自身竞争力。Python是数据分析的一大利器,本书将详细讲解利用Python进行数据分析与可视化的相关知识。《Python数据分析从小白到高手》主要内容包括:Python入门、搭建开发环境、语法、数据类型、数据加载、数据准备、数据可视化、机器学习、深度学习、自然语言处理等,并通过三个综合案例将这些知识加以运用。本书内容丰富,采用全彩印刷,配套视频讲解,结合随书附赠的素材边看边学边练,能够大大提高学习效率,迅速掌握Python数据分析技能,并用于实践。本书适合数据分析初学者、初级数据分析师、数据库技术人员等自学使用。同时,本书也可用作职业院校、培训机构相关专业的教材及参考书。
大数据驱动的科学研究第四范式为社交网络信息交流行为研究开启了新的研究视角—客观行为数据视角。本书应用人类动力学理论与方法,针对单点模式下社交网络信息发布行为、点对点模式下社交网络信息发布-转发评论行为、一对多模式下社交网络信息发布-转发行为、多对多模式下社交网络信息发布-评论行为,分别构建基于兴趣驱动、任务驱动的社交网络信息发布行为动力学模型、基于社会交互的社交网络信息发布-转发评论行为动力学模型、基于社会影响理论的社交网络信息发布-转发行为动力学模型、基于二分网络演化的社交网络信息发布-评论行为动力学模型。本书将基于人类动力学的社交网络信息交流行为规律应用于社交网络推荐服务优化,提出融入用户兴趣漂移特征的微博信息个性化推荐方法和基于兴趣传播的微博超话群推荐方法。为方便读者阅读,本
本书围绕数据分析与建模的核心主题,以解决实际问题为导向,通过紧凑的章节内容、丰富的案例代码和详尽的操作步骤,展示了如何在各种情境中应用Stata进行数据整理和分析的工作。本书致力于实用、高效和系统地呈现Stata软件的数据分析功能。循序渐进、问题导向以及案例丰富是本书的三大特色。 全书共分为14章,第1~5章为基础章节,这部分内容侧重Stata的基础操作与常用命令的讲解。第6~10章为进阶章节,这部分内容侧重Stata的函数、矩阵、循环语句以及编程等方面的操作讲解。第11~14章为应用章节,这部分内容侧重数据分析的综合案例操作以及分析结果报告。本书为每个模块均提供了可复制的代码和数据,并对代码进行了详细的注释,以便读者更好地学习、掌握和应用相关的知识点。 本书可供经济学、管理学、统计学、金融学、社会学、医学以及其他相
《Power BI商业数据分析完全自学教程》是一本系统地讲解利用Power BI进行商业数据智能分析的自学宝典。本书以“完全精通Power BI”为出发点,以“用好Power BI”为目标来安排内容,全书共5篇,分为14章,循序渐进地介绍了Power BI的基本操作、数据导入、数据整理、数据建模、数据可视化分析、数据发布等相关技能。第1篇为基础入门篇(第1~3章),主要针对初学者,从零开始,系统、全面地讲解了Power BI的入门知识点、基本操作及数据的输入和连接操作。第2篇为数据处理篇(第4~6章),介绍了Power BI数据的整理操作、表格中行/列数据的管理,以及Power BI数据的高级处理、M函数的使用等。第3篇为数据分析篇(第7~9章),介绍了Power BI数据的建模操作及DAX语言的入门和进阶操作等。第4篇为数据可视化篇(第10~12章),介绍了Power BI数据的可视化呈现过程及如何对报表
DolphinDB不仅支持海量数据的高效存储与查询,更开创性地提供了功能完备的编程语言以支持复杂分析,以及高吞吐、低延时、开发便捷的流数据分析框架,是计算能力不错的数据库系统之一。本书不仅介绍了如何使用DolphinDB这一兼有存储和高性能计算功能的数据库系统进行数据分析实践,还提供了大量金融和物联网等场景的实践案例,使读者通过借鉴和修改案例中的解决方案,将它们应用于自己的数据分析系统之中。本书从入门概念到实践应用分析均讲解得深入浅出、易于理解,是一本具有实践意义的数据分析工具书。即使是零基础的读者,也能通过学习本书,快速上手实践。
在互联网时代,有三个非常清晰的事实: 数据的产生速度持续加快,超出了人们的处理速度; 高昂的数据交换成本大量消耗人们和组织的资源和生产力; 社会对互联网技术的依赖并没有实质性地解决以上问题。 为此,本书希望帮助读者理解数据在社会中的角色和作用,并帮助个人和组织提高他们的数据素养。 本书分为三大部分。第一部分首先讲解什么是数据和数据素养,随后概述大众数据素养的现状,表达了对于数据素养缺失的担忧,并给出提高大众数据素养的具体需求。第二部分介绍一个数字公民框架,针对移动数据传播者、成人数据传播者、知识工作者、数据教师和数据专家分别提供数据素养的基本知识、使用数据所需的推荐技能,以及一些相关的练习方法。第三部分介绍如何培养具备数据素养的组织,并给出提升组织数据素养的十二步法。 本书适合所有
《SQL Server从入门到精通(第5版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了SQL Server开发所必需的各方面技术。全书分为4篇共19章,内容包括数据库基础、SQL Server数据库环境搭建、创建与管理数据库、操作数据表、SQL基础、SQL函数的使用、SQL数据查询基础、SQL数据高级查询、视图的使用、存储过程、触发器、游标的使用、索引与数据完整性、SQL中的事务、维护SQL Server数据库、数据库的安全机制、Visual C++ + SQL Server实现酒店客房管理系统、C# + SQL Server实现企业人事管理系统和Java + SQL Server实现学生成绩管理系统。所有知识都结合具体实例进行介绍,涉及的程序代码给出了详细的注释,读者可以轻松领会SQL Server 2022的精髓,快速提升开发技能。
本书以时间流线为经,以项目管理的三要素(质量、进度、投资)作纬,概述数据中心全过程的概念和优势,介绍项目前期工作、规划设计、工程实施、运维管理等阶段,以及不同的建设模式,旨在提供数据中心项目管理指引,帮助数据中心从业者实现安 全可靠、节能降碳的建设目标,推动数据中心行业朝可持续发展的方向转型。 本书适合数据中心建设和运维的各相关从业人员,以及政府和企事业单位的信息化部门、网络部门、运维部门等的各相关工作人员阅读。
本书涵盖了 Python 编程语言的方方面面,包括文件系统控制、手机控制、注册表控制、绘图、特效和滤镜以及对 Office、PDF、微信和 QQ 等软件的控制。本书通过丰富的实例和详细的解释,帮助读者快速掌握 Python 编程技能,发掘 Python 第三方库的无限可能。本书共分为六章,每章都围绕一个主题展开。第一章介绍了 Python 的历史和特点,并指导读者安装和配置 Python 环境。第二章讲解了如何使用 Python 进行文件系统控制,包括文件和目录操作以及文件读写。第三章介绍了如何使用 Python 进行手机控制,包括连接手机和手机操作。第四章讲解了如何使用 Python 进行注册表控制,包括注册表概述和注册表操作。第五章介绍了如何使用 Python 进行绘图、特效和滤镜处理,包括绘图库简介、绘制基本图形以及特效和滤镜应用。第六章讲解了如何使用 Python 对 Office、PDF、微信和 QQ 等
如果你想从事计算或技术领域的工作,理解线性代数是少不了的。线性代数的研究对象是矩阵及其运算,是几乎所有计算机算法和分析的数学基础。但它在几十年前的教科书中的呈现方式与专业人员如今用来解决现实世界问题的方式有很大不同。这本来自Mike X Cohen的实用指南讲授了以Python实现的线性代数的核心概念,包括如何在数据科学、机器学习、深度学习、计算模拟和生物医学数据处理应用中使用它们。有了这本书,理解、实现和适应繁多的现代分析方法和算法将不再是问题。
本书结合作者多年在大数据领域的开发实践经验,采用“理论+实战”的形式,以大量实例全面介绍Hadoop和Spark的基础知识及其高级应用。作者将丰富的教学经验,融入为读者精心录制的配套教学视频中,并提供了书中所有实例的源码,方便读者学习和实践。 本书分为4篇,共12章。第1篇(第1、2章)准备篇,主要介绍Hadoop和Spark的基本概念,以及如何快速搭建Hadoop和Spark的学习环境。第2篇(第3~6章)入门篇,涵盖Hadoop的高级特性、Spark的基础知识与高级特性,以及大数据安全。第3篇(第7~10章)进阶篇,深入讲解数据采集与清洗、数据存储与管理、数据分析与挖掘以及实时数据处理。第4篇(第11、12章)项目实战篇,通过Hadoop和Spark实现一站式数据分析系统设计,以及ChatGPT赋能Hadoop与Spark大数据分析的项目实战。 本书内容全面、结构清晰、案例丰富,既适合初学者自学
全书共10章:第1章介绍金融业务系统架构、数据库使用现状及太保的数据库转型历程;第2章介绍金融行业分布式数据库选型标准以及数据库选型考察要点;第3章重点介绍金融数据库转型降本策略,包括应用改造、测试成本、迁移成本、硬件成本、架构设计等环节,具有指导意义;第4~7章结合数据库转型实战经验以及OceanBase 4.2版本新特性,从数据库配置基线、开发规范、性能调优、管理转型等方面介绍OceanBase的很好实践;第8~9章介绍数据库改造及迁移案例,内容翔实;第10章介绍OceanBase备份与恢复的很好实践。 本书适用于金融IT从业者及OceanBase使用者。
本书结合大量实战案例,全面、系统地介绍EViews软件的基本用法及其在数据分析中的应用。本书每章的最后都提供上机练习题,帮助读者提高动手能力。另外,本书提供配套教学视频,帮助读者高效、直观地学习,还提供教学PPT和大纲,方便相关高校的老师教学。 本书共13章,分为4篇。第1篇“EViews数据分析基础”,涵盖EViews概述、EViews基本数据分析(单序列)、EViews基本数据分析(序列组)和EViews数据图形化分析;第2篇“EViews经典线性回归模型”,涵盖经典回归模型和违背经典线性回归模型假设的修正;第3篇“EViews时间序列模型”,涵盖时间序列模型与预测、带季节效应的时间序列模型、条件异方差模型、向量自回归模型和协整相关模型;第4篇“EViews的其他模型”,涵盖离散和受限因变量模型,以及混合数据与面板数据分析。 本书内容丰富,结构合理,逻
普及医疗大数据挖掘与可视化技术,对提升医疗行业数据的质量与处理效率、实现数据的价值优选化、推动精准医疗深入应用有着重要的作用。本书内容立足于医疗大数据的挖瓢与可视化,分为总体篇、数据基础篇、数据挖据篇、可视化篇、应用篇等5个部分,共10章,包含医疗大数据及其平台的概述,医疗大数据的采集、清洗、融合,医疗大数据挖掘概述、工具与方法,医疗大数据可视化概述、工具与方法,以及用实例展示医疗大数据可视化分析平台的设计与使用方法等内容。本书结构清晰,图文并茂,从实际应用角度探讨医疗大数据与数据挖掘及可视化技术的深度结合,适合从事医疗大数据相关工作的读者阅读,也适合作为高校相关专业学生的参考书。
首席数据官(Chief Data Officer,CDO)是数字时代的产物,它在数字化转型的过程中,以及在转型成功后的数字经济中,都会起到关键作用。本书旨在建立一套相对完整的关于首席数据官的知识体系,帮助读者更好地参与数字时代的发展。 本书分为5篇。“第一篇 CDO概论”介绍CDO产生的背景、发展趋势、主要职责、推荐技能和工作路径等。“第二篇 管好数据”讲解CDO如何管理好数据,涉及数据战略、数据治理、数据制度、数据标准、数据架构、数据质量、数据安全、数据合规、数据建模、数据集成、数据存储、数据分析和挖掘、数据伦理、数据开放与共享等。“第三篇 做好转型”讲解CDO如何做好数字化转型。“第四篇 建好团队”讲解CDO如何构建、领导和考核数据团队。“第五篇 新技术、新模式、新业态”介绍一些与数据及CDO相关的新技术、新模式和新业态。 本书适
本书以一个计算机教师的教学过程为场景,讲解数据结构和相关算法的知识。全书以趣味方式来叙述,大量引用各种各样的生活知识来类比,并充分运用全彩色图形语言来解读抽象内容,对数据结构所涉及的一些经典算法做出逐行分析、多算法比较。与同类图书相比,本书内容有趣易读,算法讲解细致深入,是一本非常适合自学的读物。对于学习数据结构来说,难点之一是对相关算法的理解。本书创新性地采用全彩印刷,图表、流程、代码等内容结合色彩来重新进行约定和归纳,使得对一些难以理解的知识点的解析更加清晰顺畅,极大提升了阅读体验。本书主要内容包含:数据结构介绍、算法推导大O阶的方法;顺序结构与链式结构差异、栈与队列的应用;串的朴素模式匹配、KMP模式匹配算法;二叉树前中后序遍历、哈夫曼树及应用;图的深度、广度遍历;最小生成
本书用25章的篇幅帮助读者使用SQL构建高效的数据库,高效地检索数据,以及掌握从管理数据库性能到数据库安全等各个方面的知识。 本书在第6版的基础上进行了全面修订和重新组织,节奏更紧凑,更有助于深入理解现代SQL开发。本书基于标准化的SQL,使用免费、易用的Oracle Database Express展示代码。此外,本书还带有更多示例和实践练习。 本书以直观、循序渐进的方式展示如何使用数据库结构、对象、查询、表等。读者将学习如何应用高级技术,包括事务、连接,以及使用视图和子查询进行复杂数据检索。 循序渐进的示例引导读者完成最常见的SQL任务。 答疑和实践练习帮助读者测试所学知识并提升技能。 “注意”“提示”“警告”指出学习要点和问题解决方案。 本书主要内容 关系型数据库和SQL的概念 如何理解“数据”这一概念 建立数据库并规划高效的数据库