本书的主要内容有:研究数据管理趋势,包括技术发展、法规要求和隐私问题。深?了解可拓展架构,学习各组件之间如何协同?作。探索数据治理和数据安全、主数据管理、?助式数据市场,以及元数据的重要性。
暂无内容简介。。。。。。
《Python数据分析与大数据处理从入门到精通》主要讲解数据分析与大数据处理所需的技术、基础设施、核心概念、实施流程。从编程语言准备、数据采集与清洗、数据分析与可视化,到大型数据的分布式存储与分布式计算,贯穿了整个大数据项目开发流程。本书轻理论、重实践,目的是让读者快速上手。1篇首先介绍了Python的基本语法、面向对象开发、模块化设计等,掌握Python的编程方式。然后介绍了多线程、多进程及其相互间的通信,让读者对分布式程序有个基本的认识。第2篇介绍了网络数据采集、数据清洗、数据存储等技术。第3篇介绍了Python常用的数据分析工具,扩展了 多的数据清洗、插值方法,为 终的数据可视化奠定基础。第4篇是大数据分析的重点。首先介绍了Hadoop的框架原理、调度原理,MapReduce原理与编程模型、环境搭建,接着介绍了Spark框架原理
本书由中国计算机用户协会数据中心分会编写。本书在《中国数据中心发展蓝皮书(2018)》的基础上,对新基建浪潮下的中国数据中心新发展进行了阶段性总结,重点对2019―2020年,数据中心智慧园区、金融行业数据中心、边缘数据中心的新发展,不间断供电、柔性配电、电力储能、电磁、液冷、防雷、工厂预制化,以及当前热门的全景拼接、人脸识别、自动驾驶等技术的 应用做了介绍。书中还围绕“双碳”目标的实现,对数据中心使用绿色能源的愿景和节能降耗途径进行了阐述,成为本书的一个亮点。
本书介绍Spark应用开发的面向对象和函数式编程概念,讨论RDD和DataFrame基本抽象,讲述如何使用SparkSQL、GraphX和Spark来开发可扩展的、容错的流式应用程序, 介绍监控、配置、调试、测试和开发等 主题。通过本书的学习,你将能使用SparkR和PySpark API开发Spark应用程序,使用Zeppelin进行交互式数据分析,使用Alluxio进行内存数据处理,将透彻理解Spark,并能对海量数据执行全栈数据分析, 终成为数据科学家。