本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
本书以大数据为研究背景,系统分析了传统数据技术当前存在的问题以及面临的挑战,并对比了当前主流的面向大数据的数据库解决方案,在此基础上阐述了笔者的研究工作:基于MapReduce平台高处处理大数据的OLAP研究。书中反应了当前大规模数据仓库研究的热点和成果,值得大数据研究的人员参考和应用。
《不确定信息的处理与知识挖掘》在作者对粗糙集相关理论进行研究及应用的基础上,系统论述了不确定信息的处理与知识挖掘理论、方法体系,囊括了包含作者近期成果在内的一些先进模型、算法和实例。主要内容包括:基于广义决策系统分割点区分度的连续属性离散化方法、基于改进粒子群优化的连续属性离散化方法、基于相对分辨矩阵和信息熵的属性约简算法、基于属性区分频度的约简改进算法、基于全局寻优的完备信息系统知识获取算法、基于相容矩阵计算的不完备信息系统知识获取算法,后介绍了不确定信息的处理在城市交通领域中的应用研究。
本书是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供“菜单化”实战锦囊的著作。作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的“非技术”语言和大量活泼生动的案例,围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。全书共19章,分为三个部分:基础篇(~4章)系统介绍了数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的核心,以及实践中常见分析项目类型;实战篇(第6~
本书重点讲述SQL中的各项技术,内容主要包括快速搭建SQL的测试环境、数据库和数据表的创建、数据表的操作(查询、插入、更新与删除)、数据类型和运算符、索引、存储过程和函数、视图、触发器以及通过应用程序连接数据库。 本书注重实战操作,共提供了300多个实战案例,还有大量的经典习题。随书赠送了十几个小时培训班形式的视频教学录像,详细讲解了书中每一个知识点和每一个数据库操作的方法和技巧,同时还提供了本书所有例子的源代码,读者可以直接查看和调用。 本书适用于数据库和SQL语言的初学者、数据库设计人员、数据库运维人员和在学校从事数据库和SQL教学的人员。
本书引入真实的案例, 以提供优质的数据分析服务、 撰写高质量的数据分析报告为目标。在阐述数据分析时, 力求以系统的观念从所研究主题的整体着眼, 综合不同的分析角度、 数据处理方式、 分析方法和分析工具, 以揭示数据更本质的特点和更深层次的规律。书中以实际案例为背景, 说明综合采用统计方法、 数据挖掘方法进行数据分析的主要问题。 本书适合学过数据分析基础知识的读者阅读,也可供大学生、初入数据分析职场人员、参与CDA考试的人员学习使用。
本书力求简明扼要地阐述云计算的基本概念,让非IT专业人士也能轻松看懂这一现在人人都能接触(以后程度会更深)的事物――云计算。本书遵循一条由感性到理性、由浅入深的主线展开:首先采用情景描述,让外行的人对云计算也能产生感性认识;其次从计算机的基本知识开始逐步引出云计算的概念,使人产生理性认识;接着列举一系列生活中的典型云应用例子,让人们明白云计算给生活带来的确切好处;采用三个云计算实施方案让人们感受一下组建云计算中心的过程,以达到抛砖引玉之功效。本书可作为高等院校学生教材。
数据库内核是数据库系统稳定运行的心脏,DB2数据库内核庞大而复杂。本书从DB2内核组件入手,同时介绍了其与操作系统在进程、共享内存、信号量之间的关系。作者在《高级进阶DB2:内部结构、高级管理与问题诊断》中重点介绍了各个内部组件的层次与功能、内存体系结构、存储内部结构、高级锁等。优化器是任何数据库执行SQL的关键部分,本书对优化器产生的各种执行计划进行了详细解释,这对于理解DB2内部工作原理大有裨益。同时,本书还介绍了DB2各种诊断工具的使用,各种数据库配置参数的含义及调整、数据库系统视图等。 n 最的DB2图书“三部曲”,DB2从业人员的案头书。 n n
《大数据分析:点“数”成金》以大数据分析的商业及金融价值为主线,对大数据这一崭新领域进行了深入探索。《大数据分析:点“数”成金》以大数据技术的基本概念和演进历程开篇,随后详细介绍了不同类型的数据源及其对企业的重要意义、企业投资大数据技术的成功商业案例、有效利用数据集的技能,解析了打造大数据分析系统所需的存储、加工、软件平台及其他构成要素,海量数据的安全工具和技术,系统潜在风险及其规避方法,以及怎样对大数据进行分析并从中提取有价值的可用信息,并详实阐述了如何将大数据融入企业文化等问题。 《大数据分析:点“数”成金》不但向读者阐明了大数据分析的重要性,更淋漓尽致地展现了大数据分析的具体过程,从而帮助企业提升智能化水平、解决实际问题、提升利润空间、提高生产率并发现更多的商业机会
过去几十年里,Web的迅速发展使其成为世界上规模zui大的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。 《世界计算机教材精选:Web数据挖掘(第2版)》旨在阐述Web数据挖掘的概念及其核心算法,使读者获得相对完整的关于Web数据挖掘的算法和技术知识。本书不仅介绍了搜索、页面爬取和资源探索以及链接分析等传统的Web挖掘主题,而且还介绍了结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等内容,这些内容在已有书籍中没有提及过,但它们在Web数据挖掘中却占有非常重要的地位。全书分为两大部分:部分包括第2章到第5章,介绍数据挖掘的基础,第二部分包括第6章到2章,介绍Web相关的挖掘任务。从本书自版出版之后,很多领域已经有了重大的进展。新版大部分的章节都已经添加了新的材料来反应这些进展,主要
该书基于通用的Excel、 SPSS工具, 加上必知必会的数据分析概念, 以图文并茂、 理论与实操相结合的方式, 按照CDA人才培养考核要求进行编写。全书分为6章, 分别为数据分析概述、 数据收集与导入、 数据的清洗与预处理、 数据可视化呈现、 基础数据分析、 综合分析。本书适合数据分析零基础群体读者阅读, 也可供大学生、 初入数据分析职场人员、 参与CDA考试的人员学习使用。
进入大数据时代,让数据开口说话将成为司空见惯的事情,本书将从大数据时代的前因后果讲起,全面分析大数据时代的特征、企业实践的案例、大数据的发展方向、未来的机遇和挑战等内容,展现一个客观立体、自由开放的大数据时代。
随着智能终端、移动互联网以及物联网等信息技术的发展,数字社会中的数据无论在类型还是规模上都得到飞速发展,大数据迅速渗透到我们生活、工作的各个领域。想要从庞大的数据库中提取有用的信息或知识,就离不开大数据分析技术和工具。 在大数据和业务智能领域,Splunk是功能强大、简单易学并且能够快速获取直接动力的一个分析工具。你可以利用Splunk实时地监控数据,或者在海量事实中进行数据挖掘。Splunk提供的强有力的可视化工具可以帮助你从海量的数据中发现商业价值。Splunk的地理位置功能支持在地图上显示数据,你可以根据自己的兴趣下钻到某个地理区域。 通过Splunk,你可以即时地识别出不断变化的趋势和通过社会化媒体发布的公众意见,以及新的电商模式和客户行为,并积极响应。在今天这样一个快节奏的互联网业务世界中,能即时
本书从Power BI的基础功能讲起,逐步深入到Power BI进阶实战,以业务案例为导向,以Power BI桌面版操作为基础进行讲解,深入讲述Power BI在各个业务部门的应用。本书包括7篇共21章内容,分业务场景进行讲解。篇用1章内容讲述Power BI基础操作,方便读者快速入门;第2篇用4章内容讲述如何用Power BI爬取天气、电影、销售、股票等数据;第3篇用4章内容讲述销售部门如何用Power BI分解销售目标,分析业绩达成、会员RFM和业绩构成;第4篇用5章内容讲述产品相关应用,包括存货分析、帕累托分析、关联分析、款分析和数据化陈列;第5篇用2章内容讲述在财务方面的应用,包括盈亏平衡分析和上市公司利润表分析;第6篇用3章内容讲述人力资源应用,包括人员结构及离职率分析、新员工分析和考勤分析;第7篇用2章内容讲述简化报告的技巧。
这是一本依据技术版本,系统、全面、详细讲解Spark的著作,作者结合自己在微软和IBM的实践经验和对Spark源代码的研究撰写而成。首先从技术层面讲解了Spark的体系结构、工作机制、安装与部署、开发环境搭建、计算模型、Benchmark、BDAS等内容;然后从应用角度讲解了一些简单的、有代表性的案例;对Spark的性能优化进行了探讨。
本书共5章,涉及使用SAS EG做数据分析的主要分析方法。其中,章为数据分析方法概述,第2章至第4章为横截面数据分析方法。第5章为时间序列分析方法。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的思考和练习题。 本书是一本面向商业数据分析初学者的教材,从具体的商业数据分析案例入手,使读者掌握数据分析的目的、理念、思路与分析步骤。本书力图淡化技术,对于方法的介绍也尽量避免涉及过多的数学内容,和高等数学相关的内容只在线形回归和主成分分析这两节中涉及到,而且都辅以图形作形象的展现。因此本书的读者只需要具有高中水平的数学基础即可。
本书是使用Spark进行大规模数据分析的实战宝典,由大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。
本书主要介绍了商务智能一些核心技术的应用,包括数据仓库、业务报表与企业绩效管理、数据挖掘、文本与Web分析、大数据分析等内容,通过大量的案例和练习使读者容易理解和掌握商务智能在业务决策中的应用。第3版的改进主要集中在以下方面:文本与Web挖掘、大数据与分析以及商务分析的趋势与前景等。本书可以作为管理科学、电子商务和企业管理等专业的MBA、研究生以及本科生商务智能、决策支持系统等课程的教材,也可以作为管理信息系统、商务数据分析等课程的辅助教材,还适合从事企业信息管理、业务分析的人士阅读。
《Spark大数据处理技术》是一本全面介绍Spark及Spark生态圈相关技术的书籍,是国内首本深入介绍Spark原理和架构的技术书籍。主要内容有Spark基础功能介绍及内部重要模块分析,包括部署模式、调度框架、存储管理以及应用监控;同时也详细介绍了Spark生态圈中其他的软件和模块,包括SQL处理引擎Shark和SparkSQL、流式处理引擎SparkStreaming、图计算框架Graphx以及分布式内存文件系统Tachyon。《Spark大数据处理技术》从概念和原理上对Spark核心框架和生态圈做了详细的解读,并对Spark的应用现状和未来发展做了一定的介绍,旨在为大数据从业人员和Spark爱好者提供一个更深入学习的平台。 《Spark大数据处理技术》适合任何大数据、Spark领域的从业人员阅读,同时也为架构师、软件开发工程师和大数据爱好者展现了一个现代大数据框架的架构原理和实现细节。相信通过学习《Sp
大数据时代,数据成为决策最为重要的参考之一,数据分析行业迈入了一个全新的阶段。R是一款非常的统计分析软件,《数据分析:R语言实战》侧重于使用R进行数据的处理、整理和分析,重点讲述了R的数据分析流程、算法包的使用以及相关工具的应用,同时结合大量精选的数据分析问题对R软件进行科学、准确和全面的介绍,以便使读者能深刻理解R的精髓和灵活、高效的使用技巧。 通过《数据分析:R语言实战》,读者不仅能掌握使用R及相关的算法包来快速解决实际问题,而且能学会从实际问题分析入手,到利用R进行求解,以及对结果进行分析。 《数据分析:R语言实战》可作为计算机、互联网、机器学习、信息、数学、经济金融、管理、运筹、统计以及有关理工科专业的本科生、研究生的学习用书,也能帮助市场营销、金融、财务、人力资源管理人员及产品经