本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
本书以大数据为研究背景,系统分析了传统数据技术当前存在的问题以及面临的挑战,并对比了当前主流的面向大数据的数据库解决方案,在此基础上阐述了笔者的研究工作:基于MapReduce平台高处处理大数据的OLAP研究。书中反应了当前大规模数据仓库研究的热点和成果,值得大数据研究的人员参考和应用。
本书内容简介:数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将遗传算法和社会演化算法应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值本书研究了基于遗传算法和社会演化算法的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题,并将其应用于产品研发决策中所做主要工作包括:提出一种基于遗传算法和k-medoids算法的新的聚类方法;采用遗传算法和模式聚合进行文本特征降维;采用遗传算法和潜在语义索引进行文本特征降维;采用社会演化算法进行聚类;采用混沌社会演化算法进行聚类;采用改进的遗传算法和社会演化算法进行文本聚类研究;将文本挖掘应用到产品研发决策中,构建产品研发文本知识地图,以期提高产品研发的效率和质量。
《不确定信息的处理与知识挖掘》在作者对粗糙集相关理论进行研究及应用的基础上,系统论述了不确定信息的处理与知识挖掘理论、方法体系,囊括了包含作者近期成果在内的一些先进模型、算法和实例。主要内容包括:基于广义决策系统分割点区分度的连续属性离散化方法、基于改进粒子群优化的连续属性离散化方法、基于相对分辨矩阵和信息熵的属性约简算法、基于属性区分频度的约简改进算法、基于全局寻优的完备信息系统知识获取算法、基于相容矩阵计算的不完备信息系统知识获取算法,后介绍了不确定信息的处理在城市交通领域中的应用研究。
本书重点讲述SQL中的各项技术,内容主要包括快速搭建SQL的测试环境、数据库和数据表的创建、数据表的操作(查询、插入、更新与删除)、数据类型和运算符、索引、存储过程和函数、视图、触发器以及通过应用程序连接数据库。 本书注重实战操作,共提供了300多个实战案例,还有大量的经典习题。随书赠送了十几个小时培训班形式的视频教学录像,详细讲解了书中每一个知识点和每一个数据库操作的方法和技巧,同时还提供了本书所有例子的源代码,读者可以直接查看和调用。 本书适用于数据库和SQL语言的初学者、数据库设计人员、数据库运维人员和在学校从事数据库和SQL教学的人员。
T-SQL一直以来都是 SQL Server编程的基础。和传统的 T-SQL书籍不同,本书以独特的 “技巧”形式来介绍知识点,涵盖了数据处理(增删改、视图、索引、存储过程、触发器等)、数据应用(Web服务、 CLR集成、分布式查询等)和数据库配置(主体、安全、数据库镜像和快照、备份等)3个方面的内容。其中每一个技巧中都包含了有代表性的示例和精炼的解析。 本书实用、高效、技巧性强,适用于 SQL Server专业技术人员,也可供初学者学习参考。
数据库内核是数据库系统稳定运行的心脏,DB2数据库内核庞大而复杂。本书从DB2内核组件入手,同时介绍了其与操作系统在进程、共享内存、信号量之间的关系。作者在《高级进阶DB2:内部结构、高级管理与问题诊断》中重点介绍了各个内部组件的层次与功能、内存体系结构、存储内部结构、高级锁等。优化器是任何数据库执行SQL的关键部分,本书对优化器产生的各种执行计划进行了详细解释,这对于理解DB2内部工作原理大有裨益。同时,本书还介绍了DB2各种诊断工具的使用,各种数据库配置参数的含义及调整、数据库系统视图等。 n 最的DB2图书“三部曲”,DB2从业人员的案头书。 n n