本书是一本关于如何清洗、整理和理解数据的手册,还介绍了围绕构建更可靠的数据系统的最佳实践、技术和流程,并在此过程中培养团队和利益相关方对数据的信任。本书首先引入 数据宕机 的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。之后深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、事后分析等。接着讨论数据团队在大规模宣传和普及数据质量时必须跨越的一些文化和组织障碍,并分享了几个真实案例研究和与数据工程领域领军人物的对话。
这是一部可以帮助读者从0开始理解、建设并深度实践数据血缘及其系统的专业指导手册。全书所有内容均来自两位作者长期在世界500强企业从事数据相关工作的经验总结,书中不仅从原理层面带领读者深挖数据血缘本质,还有从实践层面对数据血缘的建设方法、核心技术、主流工具、在数据治理中的应用、典型行业应用案例进行了全方位剖析。本书得到了美国南卡罗来纳大学教授、DAMA大中华区主席、中国大数据技术标准推进委员会专家、招商蛇口数字化管理及运营负责人、PowerData社区主理人等多位业界专家的鼎力推荐。本书包括4篇14章,具体内容如下。概念篇从企业面临的主要数据问题入手,逐渐延伸到对数据血缘的相关定义、特征、价值,以及数据组成的深度解读。这部分是真正落地数据血缘项目的基础,只有充分理解了这部分内容,才知道如何与上下游沟通