在数据湖仓的所有新增要素中,排名的就是可以利于数据分析和机器学习所用的分析基础设施。分析基础设施包括一众大家广为熟悉的东西,当然也包括一些可能对大家还有些陌生或略带新鲜感的概念。比如包括:元数据、数据血缘、 数据体量的度量 、数据创建的历史记录、数据转换描述。 数据湖仓的第二个新增要素,是识别和使用通用连接器。通用连接器允许合并和比较所有不同来源的数据。如果没有通用连接器,就很难(实际上是几乎不可能)将数据湖仓中的不同数据关联起来。但有了这个中西,就可以关联任何类型的数据。 使用数据湖仓,就有可能实现以往任何其它方式都不可行或不可能实现的某种程度的数据分析和机器学习。 但与其它架构一样,我们需要理解数据湖仓的架构以及它的能力,以便于我们基于这种架构创建数据分析蓝图和开展数据分析规
本书重点介绍Amos、Mplus 和SmartPLS 统计软件里的结构方程分析方法。包括结构方程模型路径图的构建与数据的收集,结构方程模型的识别、分析结果评价及修正,反映型指标、形成型指标与二阶段分析,调节效应分析、中介效应分析、多群体差异分析与潜在平均分析,以及结构方程模型高级的分析方法即贝叶斯检验、混合回归分析、潜在成长模型、MTMM 模型等内容。没有复杂的理论推导,而是结合作者自身的教学与科研实践,以数据为依托,深入浅出,使读者能在短时间内理解并掌握结构方程模型分析方法,进而应用到自己的研究实践中。
`
数据结构教程(第3版) 第3版第2次印刷
本书紧密围绕商业运作的需要来强调数据在经营活动中的实践应用,采用项目驱动方式,通过实训为指导来强化数据库相关知识点的深入学习。全书始终围绕网络书店销售管理系统为例子,通过共9章内容系统展示了从系统应用需求分析开始到数据库设计、数据库实现、网络数据库开发、数据库管理程序开发等一系列以满足商业需求为发端的、以数据库开发应用为线索的相关工作。这种一以贯之的学习方式提高了学习的成就感与目标性,有助于提高对于新管理实践和新技术发展的理解和掌握。
本书介绍了数据工程的基本概念和理论基础,围绕数据资源建设的规划和管理问题,介绍数据资源规划和管理的概念、特征、作用和功能,系统介绍了数据资源规划理论的发展过程、核心思想基础、主流方法体系和具体实施步骤,以及数据资源管理涉及的治理、质量、集成等理论知识、支撑平台、关键技术和主流工具。本书内容划分为数据工程基础篇、数据资源规划篇、数据资源管理篇三个部分,其中数据工程基础篇涵盖数据工程概述、数据标准、数据模型等内容,数据资源规划篇涵盖数据资源规划理论、规划方法、需求分析、模型构建、实践与工具等内容,数据资源管理篇涵盖数据治理、数据质量管理、数据集成、数据中台等内容。 本书既可以作为高等院校信息管理与信息系统、信息资源管理、大数据工程以及计算机信息管理等专业本科生的教材,还
本书是《数据结构》一书配套的实验教材,用于辅助实验教学。全书共分三篇。*篇为基础实验,介绍数据结构与算法基础知识的实验,包括线性表、栈和队列、串、数组,以及广义表、树和二叉树、图、查找、排序等内容,一共有12个实验。第二篇为综合实验,是数据结构知识的应用与提高,包括链表的应用,栈和队列的应用,树结构的应用,图结构的应用以及文本文件检索等综合性实验内容,共10个实验。第三篇为课程设计,详细介绍了7个课程设计的课题,综合性较强,另外还给出了一部分实训项目,内容涉及数据结构课程的多个应用领域,以引导学生进行开发实践。
数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行 清理 ,使 脏 数据变为 干净 数据。本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集
本书将理论与应用结合,介绍了大数据技术、大数据分析方法以及大数据伦理规范等基础知识,可供读者入门学习使用。本书共9章,包括大数据概述、数据分析基础、回归分析、聚类算法、 算法、文本挖掘、启发式算法、支持向量机和神经网络。各章都附有对应案例和习题,以帮助读者理解和应用。 本书作为大数据公共通识课程的导论教材,为高校学生选修大数据课程编写,主要面向大数据应用型人才培养,也可供相关技术人员参考。
本书分为两大部分:第一部分介绍依赖Python基本模块的编程基础,包括常用表达式、数据类型、表格处理、数据可视化等;第二部分介绍常用的统计模型和方法,包括假设检验、置信区间、参数估计、线性回归、分类、聚类等。不同于以概率论出发的数理统计教材,本书以丰富的实际案例为引子,逐步引入统计概念并利用Python实现统计方法。
这是一本需要“动手实践”的图书,通过带领大家从零构建一款分布式向量数据库,让大家透彻理解向量数据库的技术原理和实现细节。 本书共分为部分,内容由浅入深、循序渐进。“部分 认识向量数据库”(~3章)是基础篇,介绍向量数据库的基础知识,涵盖向量及数据库的基本概念、向量数据库的发展历程和核心功能。“第二部分 构建向量数据库”(第4~6章)是核心篇,详细介绍如何从零开始构建并优化向量数据库,巨细靡遗地展示数据库内核的技术实现细节并辅以代码示例、技术架构图等,旨在让大家真正实现动手写向量数据库。“第三部分 向量数据库的实践与展望”(第7~8章)是结束篇,通过实践案例展示向量数据库在AI应用中的使用方法,并尝试勾勒向量数据库的未来。 本书面向数据库开发人员、数据库管理员、数据库架构师等数据库从业人员,A
随着大数据的蓬勃发展,不少机构开始将源源不断的数据流导入到一个叫“数据湖”的设备中去。 恩门著,吴文磊译的《数据湖架构》是“数据仓库”之父撰写的新著作,是帮助读者认识数据湖架构,并把数据湖打造成公司资产的指导手册。全书共15章,分别涉及数据湖简介、数据池据湖内部结构、数据池及其结构、各种类型的数据池等技术话题,目的在于讲解如何构建有用的数据湖,以便数据科学家和数据分析师能够解决商业挑战并找出新的商业机会。 本书适合数据管理者、学生、系统开发人员、架构师、程序员以及 终用户阅读。
本书基于MySQL介绍数据库的基本概念、基本原理和基本设计方法,以面向工作过程的教学方法为导向,合理安排各项目的内容。本书突出实用性,减少理论知识的介绍,并设计大量的项目实训和课外拓展内容,符合高职高专教育的特点。 本书包括三篇,由8个项目组成。 篇知识储备(项目1和项目2)讲述从理论层次设计数据库的方法;第二篇基础应用(项目3~项目5)讲述基于MySQL创建数据库的方法和数据库的基本应用;第三篇 应用(项目6~项目8)讲述数据库的 应用和维护MySQL数据库安全的方法。 本书可作为高职高专院校、成人教育类院校数据库原理及应用课程的教材,也可供参加自学考试的人员、数据库应用系统开发设计人员、工程技术人员及其他相关人员参阅。