教材系统地介绍文本数据挖掘的相关概念,利用Python作为工具进行相关试验,其内容主要包括:文本挖掘产生的背景及发展;文本挖掘的概念、文本模型表示、文本内容的预处理,包括分词、去停用词以及特征抽取;文本相似度的概念等。介绍文本分类的概念及常用方法,如KNN算法、SVM算法等,并对分类结果进行评价;在介绍文本聚类聚类的概念时是,同样介绍聚类常用算法,如K均值算法、层次聚类法、密度聚类法等,作为有文本分类、文本聚类的应用,*后给出了信息抽取、社会网络中的实体关系抽取和事件抽取。
大数据审计已经成为目前审计领域研究与应用的热点。本书按照从常用电子数据审计方法到大数据审计方法的思路,不仅系统地分析了电子数据审计的理论知识(特别是大数据审计),还重点结合实际案例和具体操作,从审计数据采集、审计数据预处理和审计数据分析等电子数据审计的关键步骤出发,系统地分析了如何开展电子数据审计(特别是大数据审计)。附录中设计了9个实验模块(包括3个大数据审计实验模块),满足了开设实验课程的需要。 本书可作为高等院校审计、会计和信息管理等专业的教材,也可作为审计从业人员的专业培训教材和业务学习资料。
本书是普通高等教育 十一五 *规划教材。本书全面系统地介绍了数据挖掘和知识发现领域的基本原理、研究方法、部分产品和工业标准。全书共15章,其中,第1章介绍数据分析技术的发展历程,KDD与数据挖掘的概念、对象、过程、方法、相关领域和应用范围。第2章介绍关联规则基本模型和Apriori等经典算法。第3章在介绍距离概念的基础上,讨论包括划分、层次、密度等聚类方法。第4章介绍ID3、CART等决策树算法。第5章介绍图方法实现贝叶斯分类。第6章介绍VC维、支持向量机。第7章介绍人工神经网络。第8章介绍近期热点技术 深度学习。第9章介绍不平衡数据学习。第10章讨论过拟合、模型选择、模型评估等内容。第11、12章是不确定性、模糊性方法,分别介绍粗糙集和模糊集。第13章是Web挖掘,介绍Web链接分析、推荐系统和社交网络挖掘。第14章介绍数据预处理和可视
内容简介 这是一本能为数字化转型企业的数据治理提供全面指导的著作。拥有集团官方出品,得到了用友集团董事长王文京、DAMA中国区主席汪广盛等9位企业界和学术界数字化专家的一致好评 它基于国际主流的数据治理框架和用友多年的数据治理经验,从道、法、术、器4个维度全面、深入展开,不数据治理在战略层面的顶层设计,还有数据治理在执行层面的实施方法,既可以作为数据治理的纲领性指南,又可作为数据治理的实操手册。 从数据治理的战略规划到落地实施,本书将各环节的核心内容凝练为“3 个战略机制、8 项关键举措、7 种技术能力、7 个治理工具”: 数据治理之道:3个战略机制 高屋建瓴地介绍了数据治理的数据战略、组织机制和数据文化。这3个机制能够帮助企业形成数据治理的自我驱动、自我进化、可持续发展和长效运营机制。 数据治理之法
数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行 清理 ,使 脏 数据变为 干净 数据。本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载;第7章介绍网页结构,利用网络爬虫技术进行数据采集,利用JavaScript技术进行行为日志数据采集
大数据导论是了解和学习大数据的基础,本书系统地讲解了大数据基本概念、大数据的架构、大数 据的采集方式和预处理、数据仓库的构建模式、大数据的存储,数据挖掘的方法及大数据的可视化技术, 从而更好地将大数据技术应用在各行业领域,更深入地开展大数据技术的应用研究。从基础开始,由浅 入深进行学习,逐步理清大数据的核心技术和发展趋势。 本书系统地讲解了大数据基本概念,尽可能希望通过理论与实际案例相结合,寻找合适的切入点, 让读者对理论知识的掌握更直接、更快速。可以作为培养应用型人才的课程教材,也适用于大数据初学 者对大数据基础理论有需求的广大读者。
本书从人力资源管理的战略转型谈起,使大家进一步理解和把握人力资源发展的趋势,进而提出什么是人力资源大数据,如何在海量数据中挖掘出有用的数据,如何将大数据、人工智能与企业人力资源管理实践有机结合,如何在企业内部建立人力资源大数据分析模型和分析平台,如何形成企业人力资源报表体系和指标体系,从科学到实践、从理念到案例,深入浅出地给出了详尽的答案。为eHR、HRD、HRVP及企业CEO等高管进行人力资源大数据分析提供模型、技术方法及可借鉴的典型应用场景,为数据分析师进入人力资源领域提供了人力资源前沿理论及实践,为所有人力资源管理者及爱好者提供了崭新的理念、可操作性的技术方法及典型案例。
大数据管理与应用主要以信息科学、计算机科学和管理科学等学科为理论基础,其研究内容包括大数据科学基础理论、大数据预处理、大数据计算、大数据管理和分析等。本书力图通过对大数据科学相关数据管理方面内容的综合介绍,面向大数据时代的电子商务智能数据计算领域,从大数据采集、大数据预处理、大数据存储与计算、多源异构大数据分析、大数据知识融合技术和大数据的应用管理等方面说明大数据管理与应用的主要研究内容和应用方向。
这是一个大数据爆发的时代。面对信息的激流、多元化数据的涌现,大数据已经为个人生活、企业经营,甚至国家与社会的发展带来了机遇和挑战,大数据已经成为信息产业中*潜力的蓝海。大数据可视化这种新的视觉表达形式是应信息社会蓬勃发展而出现的 因为我们不仅要呈现世界,更重要的是通过呈现来处理更庞大的数据、理解各种各样的数据集合、表现多维数据之间的关联。换句话说,就是归纳数据内在的模式、关联和结构。复杂数据可视化既涉及科学也有关设计,它的艺术性实际上是使用独特手法展示万千世界的某个局部,从而提出问题。大数据可视化,位于科学、设计和艺术三学科的交叉领域(准确地说,应该是位于三个不同维度的人类活动的交叉领域),蕴藏着无限的可能性。大数据可视化是一门理论性和实践性都很强的课程。本书根据计算机、信息
《数据分析思维与可视化》以实用为设计理念,并结合数据分析相关理论,系统地介绍了数据分析的相关内容,包括电商数据分析概述、数据分析业务指标、数据准备与处理、数据分析常用方法、常用数据分析工具、数据可视化、数据图表专业化、撰写数据分析报告等,能够帮助读者掌握数据分析的整个流程。 《数据分析思维与可视化》附有配套的教学PPT、题库、教学视频、教学设计等相关资源。同时,为了帮助初学者及时地解决学习过程中遇到的问题,还提供了专业的在线答疑平台。 《数据分析思维与可视化》可作为高等院校本、专科相关专业的数据分析课程的教材,也可作为企业数据分析岗位培训教材。
本书详细介绍了一*大数据应用案例 电影推荐系统(Scala版),案例涉及数据预处理、数据存储与管理、数据分析和数据可视化等流程,涵盖Linux、MySQL、Hadoop、Spark、IntelliJ IDEA、Spring等系统和软件的安装与使用方法。案例采用的编程语言是Scala和Java。
《算法竞赛入门经典——训练指南(升级版)》是《算法竞赛入门经典(第2版)》一书的重要补充,旨在补充原书中没有涉及或者讲解得不够详细的内容,从而构建一个更完整的知识体系。本书通过大量有针对性的题目,让抽象复杂的算法和数学具体化、实用化。 《算法竞赛入门经典——训练指南(升级版)》共包括6章,分别为算法设计基础、数学基础、实用数据结构、几何问题、图论算法与模型以及更多算法专题。全书通过206道例题深入浅出地介绍了上述领域的各个知识点、经典思维方式以及程序实现的常见方法和技巧,并在章末给出了丰富的分类习题,供读者查漏补缺和强化学习效果。 《算法竞赛入门经典——训练指南(升级版)》题目多选自近年来ACM/ICPC区域赛和总决赛真题,内容全面,信息量大,覆盖了常见算法竞赛中的大多数细分知识点。书中还给出
本书以数据库应用系统实现为线索,内容除数据库技术外,还涵盖系统分析、设计、开发和部署方法,并引入 互联网 思维和热点技术。全书以一个完整的 e学习 系统实际案例驱动,采用MySQL和ASP.NET为实验环境,帮助读者通过实际应用理解数据库应用系统的相关知识和开发方法,掌握实践技能,综合运用前沿信息技术实现领域创新应用。本书提供丰富的教学资源,可以登录华信教育资源网(www.hxedu.com.cn)免费获取相关资源包,也可以扫描书中的二维码获取相关资源或观看演示视频。本书通俗易懂、实例鲜活、技术先进,可作为各类高等学校数据库技术、信息系统设计的入门教材,或者作为计算机基础教育较高层次课程的教材,也可以作为数据库应用系统开发实践的技术参考书。
Oracle数据库存储管理与性能优化 这本书以Oracle 11g为蓝本,在某些实践应用中也讲到了12c版本,全面系统地介绍了大型对象关系型数据库服务器Oracle性能优化方面的大部分内容,包括看懂SQL执行计划、Oracle存储管理、Oracle内存管理、Oracle性能指标及追踪、Oracle性能报告、Oracle实战案例等内容
本书系统地介绍了各种数据结构的特点、存储结构及相关算法。书中采用C语言描述算法。主要内容包括数据结构的基本概念、算法描述和算法分析初步;线性表、堆栈、队列、串、数组、树、图等结构;查找、排序等。每章后面配有小结、习题、讨论题。本书有配套的完整的习题与实验指导书,每一章节都给出了完整的C语言和C 源程序示例。本书叙述清晰,深入浅出,注意实践,便于教学与实践。本书既可作为高等院校计算机专业的教材,也可供从事计算机应用与工程工作的科技工作者自学参考。
《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。全书通过大量的实例,首先介绍如何在用户环境下安装和配置Hive,并对Hadoop和MapReduce进行详尽阐述,最终演示Hive如何在Hadoop生态系统进行工作。 《Hive编程指南》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。
《普通高等教育“十二五”规划教材:数据库技术与应用(第2版)》在延续版编写风格的基础上,根据*高等计算机基础课程教学指导委员会2011年10月出版的《高等学校计算机基础核心课程教学实施方案》(新白皮书)中关于“数据库技术及应用”课程实施方案的精神,结合作者多年教学实践与研发经验,并考虑到读者的反馈信息,遵循非计算机专业的特点,从新的视角对各个章节的内容、结构等进行了修订、调整、完善和补充。 本书以SQLServer2000为蓝本,以VisualBasic6.0和Delphi7.0作为开发工具,以应用为目的,从数据库技术与应用系统开发的角度介绍数据库系统的基本概念及应用。全书共10章,内容包括:数据库技术概论、SQLServer数据库的管理与使用、SQLServer数据表的管理与维护、数据查询、索引与视图、存储过程与触发器、SQLServer数据转换、SQLServer数据库
本书以数据库为核心,以PowerBuilder 11.5和Dreamweaver CS4为开发环境,以 按照数据库功能模块进行案例教学 为编写新思路,将数据库基本理论、数据库开发技术、网站开发环境以及多个简明完整的实验案例有机地结合在一起。本书共分为4篇,篇介绍数据库系统概论、关系数据库基础知识、标准SQL以及网络数据库系统的工作模式。第二篇介绍利用PowerBuilder 11.5开发(基于C/S结构数据库应用系统)、创建数据库、窗口和控件、数据窗口、菜单、PowerScript语言、函数及结构、数据管道、程序调试以及PBL库管理等内容。第三篇介绍利用Dreamweaver CS4开发(基于B/S结构网站系统)、ASP动态网页技术的基础、动态站点的建立及Access数据库的连接等。第四篇为两种开发环境开发的案例。数据库应用系统的个案例和网站开发的两个案例都有详细的设计步骤,特别适合初学者自学。本书可作
本书为“1+X”职业技能等级证书配套教材,按 1+X 证书制度试点大数据平台运维职业技能等级标准编写。本书从大数据平台运维工程师的角度,由浅入深、 地介绍了大数据平台运维的相关实践知识和核心实操。本书共六部分,包括21章: 部分,大数据平台架构,涉及大数据的特点及发展趋势、大数据的实施和运维流程、大数据的应用场景与案例;第二部分,大数据平台高可用(HA)集群部署,涉及Hadoop集群基础环境的配置、Hadoop HA集群的配置、Hadoop HA集群的启动;第三部分,大数据组件的维护,涉及HBase组件的维护、Hive组件的维护、ZooKeeper组件的维护、ETL组件的维护、Spark组件的维护;第四部分,大数据平台优化,涉及Linux系统优化、HDFS配置优化、MapReduce配置优化、Spark配置优化;第五部分,大数据平台的诊断与处理,涉及Hadoop及生态圈组件负载均衡的诊断与处理、