《谁说菜鸟不会数据分析》(入门篇)是一本有趣的数据分析书!本书基于通用的Excel工具,加上必知必会的数据分析概念,以小说般通俗易懂的方式讲解。本书基于职场三人行来构建内容,完全按照数据分析工作的完整流程来讲解。全书共8章,依次讲解数据分析必知必会知识、数据分析的结构化思维、数据处理技巧、数据展现的技术、提升图表之美的专业化视角,以及专业分析报告的撰写方法等内容。本书有足够的魅力让你一口气读下去,在无形之中掌握数据分析的技能,提升职场竞争能力。本书能有效帮助职场新人提升职场竞争力,也能帮助市场营销、金融、财务、人力资源管理人员及产品经理解决实际问题,还能帮助从事咨询、研究、分析行业的人士及各级管理人士提高专业水平。
《问卷数据分析:破解SPSS软件的六类分析思路(第2版)》系统介绍了使用SPSS软件进行问卷数据分析的思路及方法,分为四部分,分别是问卷设计、六类问卷分析思路、数据分析方法在SPSS软件中的操作和答疑解惑。其中问卷设计部分适用于所有读者,建议读者在设计问卷前详细阅读这部分内容。读者可以结合实际情况选读六类问卷分析思路部分的内容。数据分析方法在SPSS软件中的操作部分详细讲解了各类数据分析方法在SPSS软件中的操作细节,并且对输出结果进行说明。答疑解惑部分罗列了使用各类分析方法时常见的疑难杂症,并且提供了解决方法。本书侧重于问卷分析的应用性,力求让读者在*短的时间内掌握使用SPSS软件分析问卷数据的方法并完成高质量的问卷数据分析报告。 使用SPSS软件分析调查问卷数据常见于各类学术研究、论文写作、企业市场调研和各类
《向量数据库:大模型驱动的智能检索与应用》系统地介绍向量数据库的原理、技术实现及其应用,重点分析传统数据库在处理高维向量数据时的局限性,并提供相应的解决方案。《向量数据库:大模型驱动的智能检索与应用》分为4个部分,共13章,内容涵盖从理论基础到技术实践的多个方面,详细讨论高维向量表示中的信息丢失、嵌入空间误差和维度诅咒等问题,结合FAISS和Milvus等主流开源工具,深入剖析向量数据库的索引机制、搜索算法和优化策略。通过实际案例,展示向量数据库在推荐系统、行为分析、智能诊断、语义搜索等领域的应用,并特别强调企业级语义搜索系统的开发与部署经验。 《向量数据库:大模型驱动的智能检索与应用》不仅提供深度的理论指导,还通过丰富的案例帮助读者掌握如何构建高效的向量搜索引擎,适合从事搜索引擎与推荐系统开发的
数据是数字经济的关键生产要素与核心资源。数据要素市场的培育是一个动态演化和持续迭代的过程,而信任的建立是市场建设的关键一步。本书通过“信任”这一视角,对数据流通进行全方位的解读,对中国数据要素市场的建设实践进行回顾与展望。基于“TIME”分析框架,对数据可信流通技术、数据流通机构、可信的数据流通模式以及促进数据可信流通的治理方案进行全面系统的介绍。本书旨在为数据要素市场参与者、数字经济从业者、数据治理人员以及关注数据流通交易的读者提供实用的参考,帮助他们理解数据流通的可行模式,破解数据要素市场发展难题,充分释放数据要素流通潜力,赋能实体经济高质量发展。
本书以实际案例和具体应用为驱动,以培养科研统计思维为目标,借助 SPSS,系统地讲授了差异显著性检验、方差分析、相关性分析、回归分析、聚类分析、主成分分析,以及结构方程模型的概念、原理和具体使用。 全书共 8 章。第 1 章系统地讨论了科研统计思维及统计分析的相关概念,并以量化类典型论文为例抛出统计思维的核心问题。第 2 章介绍了数据的规范化及预处理,重点讲解了基于数据做论证所必需的前置操作。第 3 章介绍了统计描述及数据加工。第 4 章讲解了差异显著性检验。第 5 章介绍了方差分析及其高级应用,阐述了单因素方差分析、多因素方差分析、协方差分析、多因变量方差分析等内容,以及事后检验、均值边际图等高级应用的相关知识。第 6 章介绍了关联性分析技术和回归分析。第 7 章讲解了聚类分析技术。第 8 章介绍了因子分析与降维
XGBoost是一种经过行业验证的开源软件库,为快速高效地处理数十亿数据点提供了梯度提升框架。首先,本书在介绍机器学习和XGBoost在scikit-learn中的应用后,逐步深入梯度提升背后的理论知识。读者将学习决策树,并分析在机器学习环境中的装袋技术,同时学习拓展到XGBoost的超参数;并将从零开始构建梯度提升模型,将梯度提升扩展到大数据领域,同时通过计时器的使用了解速度限制。接着,本书重点探讨XGBoost的细节,着重于速度提升和通过数学推导导出参数。通过详细案例研究,读者将练习使用scikit-learn及原始的Python API构建和微调XGBoost分类器与回归器;并学习如何利用XGBoost的超参数来提高评分、纠正缺失值、缩放不平衡数据集,并微调备选基学习器。最后,读者将学习应用高级XGBoost技术,如构建非相关的集成模型、堆叠模型,并使用稀疏矩阵、定制转换器和
本书全面介绍车辆轨迹数据的处理、分析与可视化方法,并深入探讨了基于Python的车辆轨迹数 据处理技术,旨在帮助读者快速掌握车辆时空轨迹数据处理的基本方法和编程技巧,同时提供丰富的实际案例和技术解决方案,覆盖了从数据采集到深入分析的完整技术链条,是交通时空大数据领域车辆轨迹数据处理分析的全面指南。 本书内容涵盖从车辆轨迹数据的基本特征、采集原理到预处理、质量分析、可视化,再到高级应用如路网匹配、排放计算、多智能体仿真,以及特定案例分析如电动汽车充电需求识别和无人机航拍轨迹数据分析。 本书适合计算机相关专业的学生、数据分析师、研究人员以及技术开发人员阅读。
本书系统介绍了使用SPSSAU进行问卷与量表数据分析的思路和方法,分为四部分,分别是问卷设计、八类问卷分析思路、数据分析方法在SPSSAU中的操作和答疑解惑。其中,问卷设计部分适用于所有读者,建议读者在设计问卷前仔细阅读。读者可以结合实际情况选读八类问卷分析思路部分中的分析思路、分析方法与案例解读的内容。数据分析方法在SPSSAU中的操作部分详细讲解了各类数据分析方法在SPSSAU中的操作细节,并且对输出结果进行了说明。答疑解惑部分罗列了使用各类分析方法时常见的疑难问题,并且提供了解决方法。本书主要介绍问卷与量表数据分析思路和方法的应用,力求让读者在最短的时间内掌握如何使用SPSSAU分析问卷与量表数据,并完成高质量的问卷数据分析报告。 本书将全面介绍使用SPSSAU替代SPSS完成学术研究中调查问卷或量表的数据分析的方法,使
本书由浅入深,全面系统地介绍了Wireshark数据抓包和数据包分析。本书提供了大量实例,供读者实战演练Wireshark的各项功能。同时,对抓取的数据包按照协议层次,逐层讲解各个协议在数据包中的体现。这样,读者就可以掌握数据包抓取到信息获取的每个环节。 本书共分3篇。第1篇介绍Wireshark的各项功能,包括基础知识、Wireshark的定制、捕获过滤器和显示过滤器的使用、数据包的着色、导出和重组等;第2篇介绍基于Wireshark对TCP/IP协议族中常用协议的详细分析,如ARP、IP、UDP、TCP、HTTP、HTTPS和FTP等;第3篇介绍借助Wireshark分析操作系统启动过程中的网络通信情况。 本书涉及面广,内容包括工具使用、网络协议和应用。本书适合各类读者群体,如想全面学习Wireshark的初学者、网络管理员、渗透测试人员及网络安全专家等。对于网络数据分析人士,本书更是一本
本书共13章,分三个部分:基础篇、实战篇、提高篇。 (1)基础篇(第1~5章),第1章的主要内容是数据挖掘概述;第2章对本书所用到的数据挖掘建模工具Python语言进行了简明扼要的说明;第3章、第4章、第5章对数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。 (2)实战篇(第6~12章),重点对数据挖掘技术在金融、航空、零售、农业、制造和互联网等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的,在建模过程关键环节,穿插程序实现代码。最后通过上机实践,加深数据挖掘技术在案例应用中的理解。 (3)提高篇(第13章),围绕去编程化的TipDM大数据挖掘建模平台,先介绍了平台每个模块的功能,再以航空公司客户价值
本书主要以项目实战为主线,从0到1的项目开发流程,教会读者如何开发全栈项目。它基于最新的Spring Boot3.1以上版本和Vue.js3.0版本的前后端分离项目开发,以及面向用户端的uni-app的小程序开发。本书基础的知识会在项目的开发过程中穿插讲解,不会单独的基础知识讲解,采用实战驱动学习知识的教学方法,并通过详细的代码示例、清晰的图解和源码解析帮助读者快速理解和掌握全栈项目开发的技巧和最佳项目实践。 本书共22章,包括Spring Boot篇、Vue篇和uni-app篇。Spring Boot篇(第1~14章)从环境搭建到项目上线,逐步深入讲解项目开发流程,并使用了众多企业级流行的开发技术,如Redis、Docker、Jenkins、Mybatis-plus等。Vue.js篇(第15~19章)使用Vue 3.0版本,采用开源的Vue.js框架Vue-Vben-Admin作为项目启动模板,帮助快速搭建后台管理系统,节约时间成本等。uni-app篇(第20~22章
本书介绍了超级计算机算力和AI算力的异同,从CPU流水线开始,描述主要的众核处理器架构和功能部件设计。在GPU和NPU等加速器部分,介绍了GPU为何能从单纯的图形任务处理器变成通用处理器。GPU在设计逻辑、存储体系、线程管理,以及面向AI的张量处理器方面成为最近几年全世界科技行业最瞩目的明星。本书对华为等厂商推出的NPU芯片设计也做了架构描述,中国也拥有独立自主知识产权的高算力芯片,并且支持多芯片、高带宽互连。本书也回顾了近20年来主流的CPU、GPU芯片架构的特点,介绍了存储与互连总线技术,即大模型专用AI超级计算机的中枢核心。
数据、模型与决策是应用数学建模和计算机技术帮助决策者解决问题。作为国外一本优秀的数据、模型与决策的教材,本书具有以下特色: 1.对枯燥、复杂和技术化的数学问题用简明易懂的语言予以解释,兼顾严谨的数理逻辑。 2.突出建模分析框架和基础逻辑的讲授和训练,在某种程度上实现了艺术与科学的有机融合。 3.课后习题丰富,并配有网络题库,供自学者加强训练,及时检查对理论模型及其求解方法的掌握程度。 第12版把修订重点放在企业和组织的*技术发展上,增加了商业分析(第1章)、项目风险(第8章)以及数据挖掘(第14章)等内容。
数据湖仓是一个现代化的开放式架构,拥有当今热门的开源数据技术的广度和灵活性。本书从初学者的角度出发,通过对数据湖仓重要概念的剖析,对数据湖仓的相关知识进行深入浅出的讲解。全书共18章,对数据湖仓的基础知识、数据工程、业务价值、数据集成等方面进行深入探讨,同时展望数据架构的演化趋势,使读者能够领会数据湖仓的精髓,最终轻松、全面地管理数据湖仓项目。 本书适合数据架构师、业务人员和系统开发人员,以及对数据管理、数据分析感兴趣的读者阅读。
《基于Python的大数据分析基础及实战》是一本介绍如何用Python 3.6进行数据处理和分析的学习指南。其主要内容包括:Python语言基础、数据处理、数据分析、数据可视化,以及利用Python对数据库的操作、自建Python应用库的共享发布等。 《基于Python的大数据分析基础及实战》分3个部分:第1部分为基础知识,第2部分为实战案例,第3部分为拓展与延伸。本书内容丰富,讲解通俗易懂,非常适合本科生、研究生,以及对Python语言感兴趣或者想要使用Python语言进行数据分析的广大读者。
本书共8章,立足于能源大数据领域核心业务,介绍了世界及中国的能源格局及能源转型背景,阐述了大数据技术的基本原理及其在能源领域的规划、预测等应用中开展实践情况,系统阐明能源大数据中心建设关键问题,深入讲解碳核算方法学。同时向读者说明了能源大数据在服务于 双碳 管理、政府治理中起到的关键作用,展示了能源大数据领域的实践成果和经验。
现今,数据已无处不在、无时不用,数据驱动管理决策、科学研究、技术发明、经济生活,数据驱动创新发展,数据成为企业资产、成为生产要素。开发大数据应用、实现数字化转型、提升核心竞争力是各类主体所希望的。开发一个大数据应用项目,需要进行充分的数据准备和技术准备,设计好实施方案,解决实际应用中的问题。本书介绍了多个领域的大数据应用案例研究与实践,包括工业、农业、金融、物流、旅游、气象、医疗、城市管理、城市交通等领域。这些应用案例涵盖了大数据应用的大部分领域,也从一个侧面展示了大数据在实际应用中的挑战。
《EViews在数据分析中的应用》结合大量实战案例,全面、系统地介绍EViews软件的基本用法及其在数据分析中的应用。本书每章的最后都提供上机练习题,帮助读者提高动手能力。另外,本书提供配套教学视频,帮助读者高效、直观地学习,还提供教学PPT和大纲,方便相关高校的老师教学。 《EViews在数据分析中的应用》共13章,分为4篇。第1篇 EViews数据分析基础 ,涵盖EViews概述、EViews基本数据分析(单序列)、EViews基本数据分析(序列组)和EViews数据图形化分析;第2篇 EViews经典线性回归模型 ,涵盖经典回归模型和违背经典线性回归模型假设的修正;第3篇 EViews时间序列模型 ,涵盖时间序列模型与预测、带季节效应的时间序列模型、条件异方差模型、向量自回归模型和协整相关模型;第4篇 EViews的其他模型 ,涵盖离散和受限因变量模型,以及混合数据与面板数据分
数字经济已成为各国经济增长的新动能,并上升为国家发展战略,各国政府和人民对数据跨境流动安全问题的关注与日俱增。本书系统介绍了全球数据跨境规则的产生背景及其发展演变的脉络,重点分析了全球主要国家和地区数据跨境治理规则的内容和相互之间的异同,特别介绍了欧盟、美国话语权下的数据跨境流动规则及规则间的弥合,也介绍了其他国际性文件及十余个重点国家和地区的立法现状,同时展望了全球数据跨境规则的未来走向,在此基础上对我国的数据跨境流动治理规则现状进行梳理,并对其实施与完善提出了相关建议。本书语言平实易读,主要以法律法规、执法部门的解释性指南、判决书等一手资料作为参考,介绍分析了国内外立法现状和法律实践。
Apache ShardingSphere 是一个基于可插拔特性和云原生原则的新开源生态系统,将其用于分布式数据基础设施有助于增强数据库性能。本书首先简要概述数据库管理系统在生产环境中面临的主要挑战和数据库软件的内核概念;然后介绍使用分布式数据库解决方案、弹性伸缩、用户身份认证、SOL授权、全链路监控、数据库网关和 DistSOL的真实示例,全面讲解 ShardingSphere 的架构组件,以及如何利用它们配置和插入现有的基础架构并管理数据和应用;接着介绍生态系统的客户端 ShardingSphere-JDBC 和 ShardingSphere-Proxy,以及它们如何同时或独立地工作以满足实际需求;最后讲解如何定制可插拔架构以定义个性化的用户策略和无缝管理多个配置,并在各种场景下对数据库进行基准测试和性能测试。
大数据知识工程旨在从大数据中获取知识、表示知识,并基于这些知识进行推理计算,解决大数据背景下的实际工程问题。大数据知识工程是信息化迈向智能化的必由之路。本书全面系统地介绍大数据知识工程的有关内容。全书共9章,第1章介绍大数据知识工程的背景;第2章介绍大数据知识工程的“三跨”特点及面临的“散、杂、乱”挑战;第3~6章介绍知识表示、知识获取与融合、知识表征学习、知识推理四个核心环节;第7章介绍教育、税务、网络舆情领域的大数据知识工程应用;第8章指出未来研究方向;第9章对全书进行总结。
本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
R语言在心理语言学研究中的应用已经有相当长的历史,但什么情况下要对数据进行怎样的处理,模型应该如何构建,得到结果后应该如何科学地读取和规范地报告等问题仍未得到很好的解决,本书意在解决这些问题。 本书首先介绍了R语言基础知识、基本统计思路和初步数据整理,对经由真实眼动研究得到的数据进行清理、转换和描述性统计,以及数据可视化等操作,然后介绍了线性混合模型和最大随机效应,结果解释、整理和提升,power分析和Bayes分析在R语言中的实现;接着介绍了线性混合模型和重复测量方差分析结果的比较;最后介绍了多种眼动指标整理的方法。
面对小数据和大数据,数据分析师应该如何收集数据信息?传统的业务框架如何与统计学相关联?测量学扮演着什么角色?建模过程有哪些预分析技术和修正技术?建模工作完成后,如何解析?如何归因?如何预测?等等,这些数据分析能力构成了本书的分析框架。本书分为8章,小数据与大数据分析模式的动态切换贯穿全书,展示了数据分析案例的模块化分析思路。第1~3章为数据预分析部分,强调业务问题与统计问题的衔接;第4~6章为统计建模阶段,其中附有对行业案例和业务敏感度的训练、对统计和业务整合的审美建议,进而构造出一套具有灵活调校的数据分析模式。第7~8章解决的问题是,如何将晦涩难懂的统计解释转换成业务解释。由衷地希望本书能够成为数据运营人员与初中级数据分析师分析数据的行动指南。