数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行 清理 ,使 脏 数据变为 干净 数据。本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集
本书以数据库应用系统实现为线索,内容除数据库技术外,还涵盖系统分析、设计、开发和部署方法,并引入 互联网 思维和热点技术。全书以一个完整的 e学习 系统实际案例驱动,采用MySQL和ASP.NET为实验环境,帮助读者通过实际应用理解数据库应用系统的相关知识和开发方法,掌握实践技能,综合运用前沿信息技术实现领域创新应用。本书提供丰富的教学资源,可以登录华信教育资源网(www.hxedu.com.cn)免费获取相关资源包,也可以扫描书中的二维码获取相关资源或观看演示视频。本书通俗易懂、实例鲜活、技术先进,可作为各类高等学校数据库技术、信息系统设计的入门教材,或者作为计算机基础教育较高层次课程的教材,也可以作为数据库应用系统开发实践的技术参考书。
中国大数据专家委员会刘鹏教授联合全国上百家高校从事一线教学科研任务的教师,一起编撰高级大数据人才培养从书。本书是丛书之一,其定位是大数据挖掘技术与应用。本书系统地介绍了数据挖掘算法理论与方法、工具和应用,包括经典数据挖掘算法,大数据环境下常用数据挖掘算法的优化,大数据新常态下催生的数据分析方法(如推荐系统、链接分析与网页排序、互联网信息抽取、日志挖掘与查询分析)、工具与应用。本书适合作为相关专业本科和研究生教材。高职高专学校也可以选用部分内容开展教学。本书也很适合作为大数据分析研发人员的自学书籍。
大数据管理与应用主要以信息科学、计算机科学和管理科学等学科为理论基础,其研究内容包括大数据科学基础理论、大数据预处理、大数据计算、大数据管理和分析等。本书力图通过对大数据科学相关数据管理方面内容的综合介绍,面向大数据时代的电子商务智能数据计算领域,从大数据采集、大数据预处理、大数据存储与计算、多源异构大数据分析、大数据知识融合技术和大数据的应用管理等方面说明大数据管理与应用的主要研究内容和应用方向。
本教材依据普通高校信管类专业的培养目标,按学科的课程设置要求,突出应用型、实践性和立体化的特点编写。全书以数据库系统基本概念、关系代数、SQL语言、设计理论与工程设计、实施、维护、、应用发展和系统实例为主线,强调在网络环境、知识经济和信息经济环境下数据库系统所表现出的特点。本书结构新颖,内容详实,案例丰富,实用性较强,既可作为普通高校信息管理与信息系统、管理科学与工程、工商管理等经管类相关专业的教材,也可供企事业单位和信息系统相关人员作为参考书使用。随书配备的光盘包含丰富的习题与案例,电子教案、课程设计、优秀作业展示等资料,便于教学和自学。
数据结构教程(第3版) 第3版第2次印刷
大数据可视化是一门理论性和实践性都很强的课程。《大数据可视化》针对计算机、信息管理、经济管理和其他相关专业学生的发展需求,系统、全面地介绍大数据可视化的基本知识和技能,详细介绍了数据可视化之美、Excel数据可视化方法与应用、数据引导可视化设计、数据可视化过程、数据可视化组织、Tableau应用初步、Tableau数据管理、Tableau可视化分析、Tableau仪表板与故事以及Tableau地图分析与发布等内容,共11章,各章均配套设计了导读案例、实验与思考等内容,具有较强的系统性、可读性和实用性。 《大数据可视化》为高等院校相关专业“大数据可视化”“数据媒体设计”等课程全新设计编写,是具有丰富实践特色的主教材。还可供有一定实践经验的软件开发人员、管理人员参考和作为继续教育的教材。
本书部分是基础篇(第1~7章)主要讲解数据库的基础知识。第二部分是设计篇(第8~10章)主要内容包括关系数据库规范化理论、实体联系模型以及数据库设计。第三部分是“系统篇(第11~14章)内容包括安全管理、查询处理与查询优化技术等。第四部分是“发展篇”(第15章和16章)主要讲解数据库前沿技术的概念及应用。
本书以关系数据库管理系统SQL Server 2014作为平台,以商店销售数据库作为主线,全面系统地介绍了数据库原理、数据库系统和数据管理新技术。数据库原理部分包括数据库概述、关系数据库、关系数据库规范化理论和数据库设计;数据库系统部分包括SQL Server数据库基础、创建数据库和创建表、数据定义语言和数据操纵语言、数据查询语言、索引和视图、数据完整性、数据库程序设计、数据库编程技术、事务和锁、系统安全管理、备份和恢复、基于Visual C#和SQL Server数据库的学生管理系统的开发;数据管理新技术部分包括大数据和云计算。本书可作为高等院校计算机及相关专业的教学用书,为读者提供习题答案、教学课件、所有实例的源代码。
本书从理论、方法、技术和实现等方面系统地阐述了笔式用户界面的概念、模型、数字笔迹计算、开发方法和开发环境、关键应用系统。全文由笔式用户界面概述、笔式用户界面模型、数字笔迹技术、笔式界面软件开发方法和环境以及笔式用户界面的关键应用等内容组成.本书可作为信息科学技术领域高年级本科生或研究生的教材,也可以供从事人机交互方向的科研和技术开发人员参考。
本书系统介绍了Hadoop生态系统的核心开发技术,包括:Hadoop大数据技术概述、Hadoop开发及运行环境搭建、HDFS分布式文件系统、MapReduce分布式计算技术框架、Hadoop的文件I/O以及YARN资源管理器、Zookeeper分布式协调服务、Hadoop分布式集群搭建与管理、Hive 数据仓库和HBase分布式数据库、Hadoop生系系统常用开发技术,并通过广电收视率数据统计分析和视频网站爬虫系统开发两个实践项目,详细直观地介绍了大数据项目的开发思路及流程。 本书通俗易懂、结构清晰,内容层层递进,理论与实践相结合,通过大量的实战案例,引导读者逐步深入学习,从而全面掌握Hadoop生态系统相关技术。 本书既可作为高等院校大学本专科计算机专业的教学用书,也可作为相关技术人员的参考用书。本书配套授课电子课件,需要的教师可登录www.cmpedu.com免费注册,审核通过后下载,或联系编辑索
《数据分析(第2版)》介绍了数据分析的基本内容与方法,其特点是既重视数据分析的基本理论与方法的介绍,又强调应用计算机软件SAS进行实际分析和计算能力的培养。主要内容有:数据描述性分析、非参数秩方法、回归分析、主成分分析与因子分析、判别分析、聚类分析、时间序列分析以及常用数据分析方法的SAS过程简介。 《数据分析(第2版)》每章末附有大量实用、丰富的习题,并要求学生独立上机完成。 《数据分析(第2版)》可作为高等院校信息科学及数理统计专业的本科生教材,也可供有关专业的研究生及工程技术人员参考。
本书详细介绍了一*大数据应用案例 电影推荐系统(Scala版),案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA、Spring等系统和软件的安装与使用方法。案例采用的编程语言是Scala和Java。
本书主要介绍分布式数据库系统和大数据库系统的基本理论与实现技术。全书共分12章,第1章和第2章介绍分布式数据库系统和大数据库系统的基础和背景,主要包括系统的基本概念、体系结构、发展历史、系统分类和主要研究问题;第3~9章为全书的重点,介绍分布式数据库系统和大数据库系统的核心技术,包括分布式数据库设计、分布式查询处理与优化、分布式查询的存取优化、分布式事务管理、分布式恢复管理、分布式并发控制、数据复制与一致性,并给出了Oracle应用示例;第10章和第11章介绍两个分布式的数据管理系统案例,分别为P2P数据管理系统和Web数据库集成系统;第12章介绍大数据系统研究进展及发展趋势。
随着大数据的概念、技术、应用深入到了社会中的各个方面,它在迅速而深刻地改变着我们工作方式和生活方式。Hadoop作为大数据行业中的一位元老级成员,它提供了一种可以高效处理海量规模数据的方式,为大数据的发展提供了巨大帮助。本书紧密结合理实一体化教学,以项目的形式呈现了基于Hadoop的大数据平台的构建、使用与管理,具体包括六个模块:(1)搭建单节点Nadoop整合平台;(2)搭建高可用Hadoop整合平台;(3)Hadoop整合平台的使用与管理;(4)基于Linux的MySQL数据库平台的搭建;(5)Hive数据仓库的搭建和使用;(6)使用ETL工具Sqoop转换数据。每个项目又划分成多个学习任务,呈现出一个个真实案例,在教学中取得了良好的教学效果,让读者通过案例实践对大数据以及Hadoop平台有更直观的认识。
VisualBasic6.0基础知识、集成开发环境;窗体和常用控件;VisualBasic程序设计基础;程序控制结构;数组;过程和函数;数据库基础知识;创建Access数据库;SQL语句;数据库的Internet功能及安全性;VisualBasic数据库编程;ASP和HTML简介,综合案例。
本书将基本概念与实例相结合,由浅入深、循序渐进地对大数据思维、技术和应用做了全面系统的介绍。全书共12章,分为大数据基础篇、大数据存储篇、大数据处理篇、大数据挖掘篇和大数据应用篇。大数据基础篇的内容涵盖了大数据思维理念、大数据的产生与作用、大数据基本概念、大数据采集工具Flume和Scribe、大数据爬虫工具Nutch和Scapy、大数据预处理工具Kettle、大数据处理架构Hadoop;大数据存储篇的内容包含分布式文件存储系统HDFS、海量数据存储数据库系统HBase和海量数据仓库系统Hive;大数据处理篇主要介绍了分布式并发计算批处理模式MapReduce,基于内存的快速处理模式Spark,以及基于实时数据流的实时处理模式Spark Streaming;大数据挖掘篇主要对分类、预测、聚类和关联等各类大数据挖掘算法的原理和使用场景进行了描述,并使用Spark MLlib提供的机器学习算法