近年来,随着Web技术的发展和应用的普及,大量用户将线下行为转移到线上进行,并且通过各种社会媒体随时随地进行社会交互和情感表达。这些海量的社会行为形成的大数据,催生了社会计算这个新的跨学科的研究和应用领域。《清华大学学术专著·社会计算:用户在线行为分析与挖掘》在大数据的时代背景和社会计算的框架下,介绍从大量用户在线行为数据中发现其中隐含的用户行为模式和兴趣偏好的方法和技术。全书主要内容分为7个部分,分别介绍用户在线搜索行为、网上购物行为、浏览行为、社会标注行为、评论行为以及社交行为等方面的数据分析技术和方法,涉及搜索意图的分析、购物模式的发现、周期行为的挖掘、标签的有效聚类、评论意见的挖掘、用户偏好的发现、个性化方法、链接分析以及社会网络的分析方法等研究内容。 《清华大学学术专
数据库的性能优化一直是DBA日常工作中非常重要的组成部分,然而很多DBA在学习了大量技术,参加了大量培训后,仍然会在实际工作中遇到难以下手的问题。实际上,在数据库优化工作中,方法和思路远比技术实现重要得多。 《DBA的思想天空:感悟Oracle数据库本质》重在介绍Oracle数据库的性能调优方法及相应的工作思路,但并不拘泥于技术细节。作者通过大量真实案例,深度剖析了相关技术原理,同时还阐述了理论知识在实践中的应用方法。优化工作的本质其实就是透过表象探寻根源,解决问题实现调优,正所谓 思路是道,操作方法是技 ,得道是极大的提升,也是DBA的思想精髓。 n
本书全面介绍了数据挖掘的理论和方法,着重介绍如何用数据挖掘知识解决各种实际问题,涉及学科领域众多,适用面广。书中涵盖5个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都包含两章:前面一章讲述基本概念、代表性算法和评估技术,后面一章较深入地讨论高级概念和算法。目的是使读者在透彻地理解数据挖掘基础的同时,还能了解更多重要的高级主题。.包含大量的图表、综合示例和丰富的习题。·不需要数据库背景。只需要很少的统计学或数学背景知识。·网上配套教辅资源丰富,包括PPT、习题解答、数据集等。
本书脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义,它界定了数据科学的研究范畴,是一本注重人文精神,多角度、全方位、深入介绍数据科学的实用指南,堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外,本书还将带领读者展望数据科学未来的发展。
《大数据搜索与日志挖掘及可视化方案(第2版)》提出的分布式大数据搜索与日志挖掘及可视化方案是基于ELK Stack而提出的,它能有效应对海量大数据所带来的分布式存储与处理、全文检索、日志挖掘、可视化等问题。构建在全文检索开源软件Lucene之上的Elasticsearch,不仅能对海量规模的数据完成分布式索引与检索,还能提供数据聚合分析。据国际的数据库产品评测机构DB Engines的统计,在2016年1月,Elasticsearch已超过Solr等,成为排名的搜索引擎类应用;Logstash能有效处理来源于各种数据源的日志信息;Kibana能得出可视化分析结果。了解基于ELK Stack的大数据搜索与日志挖掘及可视化方案,掌握Elasticsearch、Logstash、Kibana的基本使用方法和技巧,很有必要。
当下,大数据是一个热门的话题,很多领域的学者,从不同的角度进行了深入的讨论。本书从大数据的历史、内涵、哲学和技术四个角度,全面解析大数据,让读者对大数据有更深入的了解。 《品味大数据》共11章,大致分为4块:-3章主要漫谈了大数据的有趣的历史,包括数据的启蒙、信息载体的演变和数据管理的发展脉络。第4-6章主要聊聊大数据的内涵,包括大数据与哲学及第四科学范式的关联。第7-9张是大数据的杂谈,包括大数据的用途、可能面临的陷阱以及通过小故事对大数据进行一些,0-11章主要涉及大数据的技术,包括100余篇大数据论文的漫读及Hadoop的初级实战篇。
本书既介绍了数据仓库主流业务应用、企业业务逻辑模型和数据质量管理方法,也有对具有中国特色的数据仓库逻辑架构及数据仓库项目实施过程的描述。内容详细到每一个工作细节的数据仓库项目实施过程和拿来就用的项目文档模板。 本书是作者总结近几年来数据仓库在中国本土实施的大量实战经验编写而成,特别强调数据仓库的实用性和本土化。全书既介绍了数据仓库主流业务应用、企业业务逻辑模型和数据质量管理方法,也有对具有中国特色的数据仓库逻辑架构及数据仓库项目实施过程的描述。本书附带的光盘中收集了大量的数据仓库专有业务和技术名词解释,并提供了书中数据仓库项目实施模板的Word版本。 本书适合从事数据仓库项目实施和理论研究的各类读者阅读,对目前正在从事数据仓库项目实施工作的技术人员,会有较大的参考作用。
本书共章。第章是概述,阐述数据挖掘的意义与实际应用。第~章介绍网络和数据技术基础知识。这一部分内容涉及互联网上通信、交换、保存和显示信息的基础技术(如、、、、、等),并讲解用于查询网络文档和数据集的基本技术(和正则表达式)。第~章介绍网络抓取和文本挖掘的实用工具箱。这一部分由三个核心章节组成:第章讲解多种网络抓取技术,涉及正则表达式的使用、、各类接口、其他数据类型以及开源社区相关的技术;第章深入介绍用于统计性文本处理的技术;第章给出关于用管理数据的项目中常见问题的一些见解。第~章介绍实际案例分析,涉及美国参议院里的合作网络、从半结构化文档解析信息、利用预测年奥斯卡奖、绘制姓氏地理分布图、采集关于手机的数据、分析产品评论里的情绪等。这些案例分析针对日常的数据抓取和文本处理的工
本书结合大数据技术趋势和中兴通讯的长期实践,对大数据技术提出的理解,对大数据研究提供了初步的思路和建议。本书首先从大数据的需求和现状出发,分析目前大数据出现的问题,然后针对这些问题对大数据存储、大数据处理,以及大数据的可视化进行了充分的探索。
本书共16章,共三篇。基础篇(~5章),章的主要内容是数据挖掘概述;第2章对本书所用到的数据挖掘建模工具MATALB进行了简明扼要的说明;第3章、第4章、第5章对数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。实战篇(第6~15章),重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的,在建模过程关键环节,穿插程序实现代码。最后通过上机实践,加深数据挖掘技术在案例应用中的理解。提高篇(6章),介绍了基于MATLAB二次开发的数据挖掘应用软件——TipDM数据挖掘建模工具,并以此工具为例详细介绍了基于MATLAB接口完成数据挖掘二次开发的各个步骤,
本书以Microsoft Access 2003关系型数据库为背景,由数据库系统概述、关系数据库、创建数据库和表、查询、窗体、报表、数据访问页、宏、VBA编程基础、VBA高级编程等10章组成。全书以应用为目的,以案例为引导,结合数据库和管理信息系统基本知识,使学生可以较快地掌握Microsoft Access 2003软件的基本功能和操作,达到基本掌握小型管理信息系统建设的目的。 本书既适合作为普通高等院校计算机应用课程数据库方面的教材,也可以作为全国计算机等级考试二级(Access数据库程序设计)的培训教材,同时还可以作为其他人员学习Microsoft Access的参考用书。
本书以完全从底层研究开发的对象-系数据库管理系统Angel为背景,在深入分析外相关研究成果的基础上,针对对象-关系这种目前应用最为广泛、最为重要的数据库管理系统,论述了对象-关系数据库系统的原理与实现技术。作为本全面、系统而深入地论述对象-关系数据库管理系统设计思想与实现技术的专著,本书在基类扩充、对复杂对象的支持、继承语义及动态模式修改、引用语义、主动性规则、安全机制等方面实现了面向对象技术与关系技术的有机融合,其内容涵盖了对象-关系系统的数据模型、查询代数及查询语言等各个方面。 本书立论严谨,内容新颖,结构合理,语言流畅,可以作为计算机系研究生的数据库专业课教材,也可供有关数据库软件人员或高校教师参考。
本书结合大数据技术趋势和中兴通讯的长期实践,对大数据技术提出系统的理解,对大数据研究提供了初步的思路和建议。本书首先从大数据的需求和现状出发,分析目前大数据出现的问题,然后针对这些问题对大数据存储、大数据处理,以及大数据的可视化进行了充分的探索。
本书是关于信息融合理论、应用和传感器管理的一部教材。本书基于编者的研究工作,并借鉴靠前外其他学者的成果,力图较全面、系统地讲解信息融合理论、应用、传感器管理以及发展与近期新研究成果,特别是在异构、多源、动态、非理想信道、稀疏、错误容忍环境下。全书共25章,分为五个部分。靠前部分研究现状,包括多源数据融合概述、信息融合的原理和级别、多源传感器数据融合算法、多传感分布检测、传感器管理、探讨和备注; 第二部分数学理论基础,包括Bayes方法、模糊集理论、粗糙集理论、Monte Carlo理论、Dempster Shafer理论、估计理论和滤波器理论; 第三部分多源数据融合算法,包括Bayes决策、正态分布时的统计决策、优选很小决策、神经网络、支持向量机和Bayes网络; 第四部分多源数据融合应用,包括分布式检测和融合、目标追踪的高效管理策
本书紧扣“大数据”这一时代主题,着眼于侦查领域大数据运用在法律研究方面的空白,构建起包括思维、模式、方法等全方位的大数据侦查体系,同时对大数据侦查可能产生的法律问题进行探讨,为侦查实务中大数据的运用提供方法、法律理论及程序上的指导。
《MySQL从入门到精通》从初学者角度出发,通过通俗易懂的语言以及丰富多彩的实例,详细介绍了MySQL开发应该掌握的各方面技术。《MySQL从入门到精通》共分为4篇23章,包括数据库基础,初识MySQL,使用MySQL图形化管理工具,数据库操作,存储引擎及数据类型,操作数据表,MySQL基础,表数据的增、删、改操作,数据查询,常用函数,索引,视图,数据完整性约束,存储过程与存储函数,触发器,事务的应用,事件,备份与恢复,MySQL性能优化,权限管理及安全控制,PHP管理MySQL数据库中的数据,Apache+PHP+MySQL实现网上社区,Struts 2+Spring+Hibernate+ MySQL实现网络商城等内容。所有知识都结合具体实例进行介绍,涉及的程序代码也给出了详细的注释,可以使读者轻松领会MySQL的精髓,快速提高开发技能。 《MySQL从入门到精通》内容详尽,实例丰富,非常适合作为编程初学
数据库原理课程不仅是大学计算机及相关专业的必修主干课程,也是其他许多专业学生的选修课程。同时,随着数据库系统的深入发展各类人员对数据库理论与技术的需求也在不断增加。因此,需要编写一本既有原理又具应用,同时又能较好地适应新技术发展的数据库教材。 编写本书的指导思想是帮助学生掌握数据库系统的基本原理、技术和方法,了解现代数据库系统的特点及发展趋势,接受用所学知识解决实际问题的基本训练,培养学生研究和设计数据库系统的能力,为后续专业课程及开发应用打下良好的基础。
SQL用于在数据库中插入和提取数据,是操纵数据库中数据的一种国际标准。本书涵盖了SQL的方方面面,包括基础知识、数据库设计、数据库的创建,以及SQL语言在各种数据库中的应用等内容。 本书提供了一些基本代码、理论、概念和技术,以及大量有用示例,使得您能够针对各种实际情况快速设计数据库并编写SQL代码。每章末的练习都有助于您巩固所学的知识。阅读完本书后,您将能够轻松处理有关SQL的多种难题。 本书主要内容:如何从数据库中获得想要的数据;利用SQL的内置功能使用和操纵数据的过程;如何从众我不同的表中检索数据;如何在数据库中创建各种级别的安全,使得您能够编辑数据或者改变数据库的结构;标准化的理论和实际应用;高级数据库设计。 本书读者对象:本书既适合于具有编程经验并希望控究如何使用SQL开发数据库的程序员
本书完整全面地讲述数据挖掘的概念、方法、技术和研究进展。本书对前两版做了全面修订,加强和重新组织了全书的技术内容,重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容,还全面讲述了OLAP和离群点检测,并研讨了挖掘网络、复杂数据类型以及重要应用领域。 本书是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都的参考书,是一本适用于数据分析、数据挖掘和知识发现课程的教材,可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。
在《白话统计》中你可以解决很多简单的网络搜索所不能解决的问题。在当前网络发达的时代,几乎任何概念和知识点都可以从网络上查到。但是有一点你很难查到,那就是统计分析的思路和观点。比如,你可以很容易地在网上查到什么是线性回归,但你却查不到怎么“做”线性回归分析,在你遇到实际数据时仍然不知道如何分析。在《白话统计》中你可以获得这些思路和观点。尽管这些观点未必是所有人都认可的,但根据笔者多年的分析经验,它们在实践中通常是奏效的。《白话统计》凝结了作者十多年来对统计分析的理解,对各种方法的介绍采用全新的理念和思路,不再是介绍方法本身,而是试图将各种方法之间的联系阐述清楚;不再是介绍方法如何计算出结果,而是尽量说明方法背后的思想。当然,本书同时提供了如何实现结果的软件(涉及Excel、SAS、R、JMP