本书是一本从理论到实践的全面且细致的企业数据驱动指南,作者见证并献身百度大数据的建设,毫无保留地将成败摸索实践的真实场景进行完整还原,并对近十年大数据从业经验与心得做了归纳和总结,同时详解大数据本质、理念与现状,并围绕数据驱动四环节——采集、建模、分析、指标,深入浅出地讲述企业如何从零到一将完整的数据驱动方案落地,全面展示大数据在各领域内的应用情况与趋势展望。
谁将是忠实的客户?谁将不是呢?哪些消息对 哪些客户细分?如何化客户的价值?如 何将部的价值化?本书提供了强大的工具,可 以从上述和其他重要商业问题所在的公司数据库中 提取它们的答案。自本书第1版问世以来,数据挖掘 已经日益成为现代商业不可缺少的工具。在沙版本中,作者对每个章节都进行了大量的更新和 修订,并且添加民个新的章节。本书保留了早期版 本的重点,指导市场分析师、业务经理和数据挖掘 专家利用数据挖掘方法和技术来解决重要的商业问 题。在不牺牲准确度的前提下,为了简单起见,即使 是复杂的主题,作者也进行了简洁明了的介绍,并尽 量减少对技术术语或数学公式的使用。每个技术主 题都通过案例研究和源自作者经验的真实案例进行 说明,每章都包含了针对从业者的宝贵提示。书中介 绍
本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。 本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。
本书以网络安全中主要子领域为主线,以数据挖掘算法为基础,搜集了大量基于数据挖掘的网络安全技术研究成果,汇编了数据挖掘技术在隐私保护、恶意软件检测、入侵检测、日志分析、网络流量分析、网络安全态势评估、数字取证等网络安全领域的应用,介绍了常用的网络安全数据集,并搜集了大量的网络安全资源,以供读者能将本书内容应用于实际的研究或学习中。本书可作为研究人员、网络安全工程人员和对基于数据挖掘的网络安全技术感兴趣的研究生的参考书,也可作为高等院校高年级课程的教学用书,还可供相关领域工作的读者参考。
《Druid实时大数据分析原理与实践》内容提要 Druid 作为一款开源的实时大数据分析软件,最近几年快速全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分析、运维监控分析等,在腾讯、阿里、优酷、小米等公司都有大量成功应用的案例。《Druid实时大数据分析原理与实践》的目的就是帮助技术人员更好地深入理解Druid 技术、大数据分析技术选型、Druid 的安装和使用、特性的使用,也包括一些源代码的解析,以及一些常见问题的快速回答。 Druid 的生态系统正在不断扩大和成熟,Druid 也正在解决越来越多的业务场景。希望本书能帮助技术人员做出更好的技术选型,深度了解Druid 的功能和原理,更好地解决大数据分析问题。《Druid实时大数据分析原理与实践》适合大数据分析的从业人员、IT 人员、互联网从业者
过去几十年里,Web的迅速发展使其成为世界上规模zui大的公共数据源。Web挖掘的目标是从Web超链接、网页内容和使用日志中探寻有用的信息。 《世界计算机教材精选:Web数据挖掘(第2版)》旨在阐述Web数据挖掘的概念及其核心算法,使读者获得相对完整的关于Web数据挖掘的算法和技术知识。本书不仅介绍了搜索、页面爬取和资源探索以及链接分析等传统的Web挖掘主题,而且还介绍了结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等内容,这些内容在已有书籍中没有提及过,但它们在Web数据挖掘中却占有非常重要的地位。全书分为两大部分:部分包括第2章到第5章,介绍数据挖掘的基础,第二部分包括第6章到2章,介绍Web相关的挖掘任务。从本书自版出版之后,很多领域已经有了重大的进展。新版大部分的章节都已经添加了新的材料来反应这些进展,主要
本书以小说的形式展开,讲述了主人公俵太从大学文科专业毕业后进入征信所,从零开始学习数据分析的故事。书中以主人公就职的征信所所在的商业街为舞台,选取贴近生活的案例,将平均值、t检验、卡方检验、相关、回归分析、文本挖掘以及时间序列分析等数据分析的基础知识融入到了生动有趣的侦探故事中,讲解由浅入深、寓教于乐,没有深奥的理论和晦涩的术语,同时提供了大量实际数据,使用免费自由软件RStudio读者进一步体验数据分析,实践性非常强。本书适合所有对数据分析感兴趣但又苦于无从下手的读者阅读。
Presto是专门为大数据实时查询计算而设计和开发的产品。由于Presto是基于Java语言开发的,?因此,对使用者和开发者而言, Presto极易学习、使用并针对特定的业务场景进行改造开发和性能优化。无论是对多数据源支持,还是高性能、易用性、可扩展性等方面, Presto都是大数据实时查询计算产品中的佼佼者。 《Presto技术内幕》按照由浅入深的顺序对Presto进行了全方位的细致讲解,具体内容包括Presto概述、 Presto安装与部署、 Presto RESTful框架解析、提交查询、生成查询执行计划、查询调度、查询执行、队列、System Connector、 Hive Connector、 Kafka Connector、 Connector开发、 Functions开发、 -Presto功能改造、 Presto性能调优、 Presto应用场景。
本书分为三大部分,共九章。第壹部分(章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第2~7章)首先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多种优化方式;然后,介绍了Druid的基本原理、集群的搭建过程、数据摄入过程,以及在查询过程中如何实现Druid查询API;接着介绍了日志收集系统Flume的基本架构和关键组件,以及分层日志收集架构的设计与实践;后介绍了分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章)主要介绍了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监控系统。
本书结合理论和实践,由浅入深,多方面介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。本书是一本很好不错、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的很新发展和应用,程序员可以
本书瞄准云计算和大数据产业,论述云计算环境下的数据治理成熟度模型规范,为用户提供通用的数据治理模型方法;针对靠前外市场对云端数据治理的迫切需求,给云端数据治理的用户提供很好实践方法;给出云端数据治理成熟度的评估方法和流程,帮助用户开展云端数据治理成熟度评估并实现用户的数据治理成熟度持续改进;进行云端数据治理示例分析,对云端数据治理成熟度应用和评估方法予以说明,并给出实施方法和应用步骤。
本书主要围绕数据结构的基本知识点,设计了8个大型综合性练习案例,通过相关背景知识的回顾、题目解析与实现要点的分析以及测试方法分析等,为学生完成综合性的数据结构实践提供参考。本书所附光盘内容为这8个课程设计案例的源程序及教材中描述的测试数据。本教材还提供了8个课程设计题目及其简要的提示。这些案例和题目大多取材于程序设计竞赛题,具有较好的趣味性和技巧性。 本教材可作为数据结构课程配套的实验教材,也适合于对C程序设计以及数据结构有初步基础的读者学习数据结构的设计方法和提高编程技巧。
本书以“PHP与MySQL高性能应用开发”为主题,选取了其中最为核心的实践进行讲解,是一个有十余年PHP开发经验的老程序员的经验总结。首先从语言层面总结了PHP编程中的一些疑点和难点,然后重点讲解了PHP的缓冲、网络编程、缓存技术、命令行、调试、测试、用户验证策略、代码重构等知识;然后重点讲解了MySQL的驱动、存储引擎、性能优化、memcached、Sphinx全文搜索引擎等重要主题。