数据湖仓是一个现代化的开放式架构,拥有当今热门的开源数据技术的广度和灵活性。本书从初学者的角度出发,通过对数据湖仓重要概念的剖析,对数据湖仓的相关知识进行深入浅出的讲解。全书共18章,对数据湖仓的基础知识、数据工程、业务价值、数据集成等方面进行深入探讨,同时展望数据架构的演化趋势,使读者能够领会数据湖仓的精髓,最终轻松、全面地管理数据湖仓项目。 本书适合数据架构师、业务人员和系统开发人员,以及对数据管理、数据分析感兴趣的读者阅读。
本书是中山大学重点学科建设成果,获中国矿物岩石地球化学协会大数据与数学地球科学专业委员会推荐,是我国*部地质科学大数据与机器学习教材。本书是中山大学研究生试用研究型教材,对运用大数据挖掘与机器学习算法解决地球科学问题大有裨益。适合地质科学领域研究生和高年级本科生做教材,也可供科研人员研究时参考。它系统地介绍了地球科学大数据挖掘与机器学习的基本框架与原理,重点分析高维数据的降维、分类与预测、大图形社区结构识别、无限流数据处理、机器学习及人工智能地质学的建模过程,对必要的应用场景,使用Python语言给出案例。
技术是把双刃剑,当我们在积极拥抱新技术的同时,也不能忽视其所带来的风险,比如当今大数据时代个人隐私和安全问题。本书是两位作者结合各自出色的专业知识和丰富的从业经验为大众倾力奉献的一本大数据时代隐私问题的普及读物。书中展示了我们在家庭和工作中的日常活动是如何成为大数据收集的一部分的。同时,列举大量的大数据应用以及安全和隐私相关案例,包括企业如何利用大数据进行营销、执法机构如何利用大数据执法等,也包括不法分子如何利用非法或合法的手段获取数据,如何利用社交网络进行犯罪。针对上述问题,本书也列出了一些工具、技巧用来检查和防范,这在当前很有现实意义。
本书围绕健康医疗大数据的理论与实践展开论述。全书共分为7章,第1章主要描述大数据的基础知识、通用技术以及技术发展趋势;第2章主要对健康医疗大数据的概念、特征、分类、主要应用技术、国内外发展现状以及应用需求进行系统阐述;第3章~第6章分别对临床大数据、精细化运营大数据、健康管理大数据以及基因检测大数据的应用实践案例进行详细论述;第7章对健康医疗大数据的未来发展趋势进行展望。本书是很多应用实例和经验的总结,案例丰富翔实,将理论与实际紧密结合,对互联网技术人员、健康医疗行业的从业人士,以及高等院校相关专业的学生均有很大帮助。
在新媒体时代,如果对新闻报道、网上搜索的结果或者所谓的 专家告知 不加思考地完全相信,那你就等着上当受骗吧! 本书围绕当今*受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、 安倍经济学 的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离ХХ、全球变暖问题、减肥、恩格尔系数的上升等10个主题进行数据解读,帮助读者模拟体验数据读取方法,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。 作为 大数据分析 的超级入门书,即使不擅长数学、不了解统计学的人,读完本书也可以彻底掌握数据解读方法!
《数据密集型计算和模型》一书涵盖了数据密集型计算的体系结构、计算模型和编程方法,内容系统全面,着重介绍原理和方法。并配以图片,便于读者理解。 《数据密集型计算和模型》一书前半部分,重点介绍了数据密集型计算的概况,及其与高性能计算和云计算的异同、应用领域以及面临的挑战问题;巨量数据时代的计算机组织体系和技术;内存计算组织体系和技术;等等。后半部分重点介绍了几个常见的计算模型,如MapReduce模型、BSP模型和Dryad模型,并综合介绍了一些专门领域的计算模型,如All-Pairs模型等。 数据密集型计算是大数据时代的标志。《数据密集型计算和模型》一书借鉴了近年来在该领域的研究成果,有一定的创新,其出版较好地弥补了市场空白。
数据挖掘技术,又称为数据库知识发现,是20世纪90年代在信息技术领域开始迅速发展起来的计算机技术。作者结合自己近20年从事人工智能、机器学习、数据挖掘等方面的科研工作积累与教学经验,编著此书。 本书较全面系统地介绍了数据挖掘中常用和常见的数据挖掘方法,以及文本与视频数据挖掘方法。 本书的主要内容包括:数据挖掘基本知识、数据挖掘预处理方法、决策树分类及其他分类方法、关联知识挖掘方法、各种聚类分析方法,以及文本挖掘所涉及表示、分类和聚类等方法,还包括视频挖掘所涉及的视频镜头检测、字幕提取、视频摘要和视频检索等主要分析方法。 本书作为学习、掌握和应用数据挖掘方法和技术的综合指导书,是从事数据挖掘研究与应用人员,以及希望了解数据挖掘主要方法和技术的IT技术人员的良师益友;同时也是一本可用于大学
大数据分布式计算课程是大数据方向应用统计专业硕士学生的专业必修课,通过本课程的学习使学生能够掌握目前大数据挖掘领域常用的并行计算方法,加深学生对统计并行计算的理解,培养学生使用在现代并行架构下利用统计方法深入挖掘大数据中的数据结构并能解决一些实际问题的能力。