本书是目前有关数据挖掘在数据化运营实践领域比较全面和系统的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的著作,更是创造性地针对数据化运营中不同分析挖掘课题类型,推出一一对应的分析思路集锦和相应的分析技巧集成,为读者提供“菜单化”实战锦囊的著作。作者结合自己数据化运营实践中大量的项目经验,用通俗易懂的“非技术”语言和大量活泼生动的案例,围绕数据分析挖掘中的思路、方法、技巧与应用,全方位整理、总结、分享,帮助读者深刻领会和掌握“以业务为核心,以思路为重点,以分析技术为辅佐”的数据挖掘实践应用宝典。全书共19章,分为三个部分:基础篇(~4章)系统介绍了数据分析挖掘和数据化运营的相关背景、数据化运营中“协调配合”的核心,以及实践中常见分析项目类型;实战篇(第6~
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。
近年来,随着Web技术的发展和应用的普及,大量用户将线下行为转移到线上进行,并且通过各种社会媒体随时随地进行社会交互和情感表达。这些海量的社会行为形成的大数据,催生了社会计算这个新的跨学科的研究和应用领域。《清华大学学术专著·社会计算:用户在线行为分析与挖掘》在大数据的时代背景和社会计算的框架下,介绍从大量用户在线行为数据中发现其中隐含的用户行为模式和兴趣偏好的方法和技术。全书主要内容分为7个部分,分别介绍用户在线搜索行为、网上购物行为、浏览行为、社会标注行为、评论行为以及社交行为等方面的数据分析技术和方法,涉及搜索意图的分析、购物模式的发现、周期行为的挖掘、标签的有效聚类、评论意见的挖掘、用户偏好的发现、个性化方法、链接分析以及社会网络的分析方法等研究内容。 《清华大学学术专
当代商业和科学领域大量激增的数据量要求我们采用更加复杂和精细的工具来进行数据分析、处理和挖掘。尽管近年来数据挖掘技术取得的长足进展使得我们广泛收集数据越来越容易,但技术的发展依然难以匹配爆炸性的数据增长以及随之而来的大量数据处理需求,因此我们比以往更加迫切地需要新技术和自动化工具来帮助我们将这些数据转换为有用的信息和知识。 本书前版曾被KDnuggets的读者评选为欢迎的数据挖掘专著,是一本可读性的。它从数据库角度全面系统地介绍数据挖掘的概念、方法和技术以及技术研究进展,并重点关注近年来该领域重要和的课题数据仓库和数据立方体技术,流数据挖掘,社会化网络挖掘,空间、多媒体和其他复杂数据挖掘。每章都针对关键专题有单独的指导,提供算法,并对怎样将技术运用到实际工作中给出了经过实践检验的实
本书重点介绍数据质量管理与安全管理的理论及应用。首先通过数据管理现况和问题的分析,提出数据质量管理的步必须是将各种来源的数据标准化,具有统一的数据格式和规则。书稿中强调了提高数据质量不仅可提高信息系统的质量,还可提高经营活动的质量。需要制定质量管理计划或执行具体的质量管理活动。定义了数据质量的准确性、一致性、可用性、可达性、及时性、安全性这6个标准以及对应的管理流程,划分了5个能力成熟度的等级,界定了从管理者到执行者等各个质量管理活动和责任。提出多项数据质量管理主要技术和各国实用案例,还进一步在Orange数据库中实践了数据质量诊断流程。书稿后半部针对日益增长的数据库安全性的需求,提出了安全管理系统构建、访问控制,数据伪装等具体可行的技术手段,最后还将数据安全技术推广到大数据的应用场景