数据湖仓是一个现代化的开放式架构,拥有当今热门的开源数据技术的广度和灵活性。本书从初学者的角度出发,通过对数据湖仓重要概念的剖析,对数据湖仓的相关知识进行深入浅出的讲解。全书共18章,对数据湖仓的基础知识、数据工程、业务价值、数据集成等方面进行深入探讨,同时展望数据架构的演化趋势,使读者能够领会数据湖仓的精髓,最终轻松、全面地管理数据湖仓项目。 本书适合数据架构师、业务人员和系统开发人员,以及对数据管理、数据分析感兴趣的读者阅读。
这是一本需要“动手实践”的图书,通过带领大家从*构建一款分布式向量数据库,让大家透彻理解向量数据库的技术原理和实现细节。 本书共分为三大部分,内容由浅入深、循序渐进。“*部分 认识向量数据库”(第1~3章)是基础篇,介绍向量数据库的基础知识,涵盖向量及数据库的基本概念、向量数据库的发展历程和核心功能。“*部分 构建向量数据库”(第4~6章)是核心篇,详细介绍如何从*开始构建并优化向量数据库,巨细靡遗地展示数据库内核的技术实现细节并辅以代码示例、技术架构图等,旨在让大家真正实现动手写向量数据库。“第三部分 向量数据库的实践与展望”(第7~8章)是结束篇,通过实践案例展示向量数据库在AI应用中的使用方法,并尝试勾勒向量数据库的未来。 本书面向数据库开发人员、数据库管理员、数据库架构师等数据库从业
随着互联网 下半场 的到来,企业经营思路发生了重大转变,由野蛮式增长逐步向精细化运营过渡,数据成为了各大企业制胜的法宝。与之对应的是,传统的以用户体验、产品功能为主要工作内容的产品经理市场饱和度越来越高,求职竞争越来越激烈,而壁垒却越来越弱,用数据赋能业务的产品经理则在招聘市场上供不应求,策略产品经理就是其中之一。本书主要从职业发展、技能体系、工作过程以及方法论沉淀等角度来生成策略产品经理的画像,旨在帮助有志成为一名策略产品经理的人士了解策略产品经理需要具备的基本素质与能力、他们是如何工作的,以及成为一名策略产品经理的学习路径。本书适合计划成为一名策略产品经理的在校生学习,也可以为想转型为策略产品经理的职场人士提供参考。另外,也很欢迎现阶段正在从事策略产品经理工作的同行阅读本
本书借助大数据技术、统计学方法、人工智能技术对社会热点事件展开情感实证分析。以技术为主、分析为此、情感为辅。通过先进的技术分析情感的发展。本研究以微博平台作为切入口获取情感挖掘的大数据来源,通过构建一个较为全面的社会性事件情感分类词典,对社交网络中微博用户情感进行挖掘与可视化。通过对公众情感类型的多维度解析,从情感传播环境、情感传播方式、社会网络结构和用户行为模式四个方面探索社交网络中的舆情传播特征,由此提出合理引导网络舆情的相关对策建议。
本书共分14章,内容主要有R语言简介、数据读取与写入的方法,条件判断、循环等流程控制以及自定义函数,高级绘图、低级绘图、交互式绘图的说明,决策树、支持向量机、人工神经网络的介绍,基本统计、机器学习、数据挖掘、文本挖掘、大数据分析的应用,层次聚类法、K平均聚类算法、模糊C平均聚类算法、聚类指标、基因算法及人工蜂群算法的应用。本书适合没有程序设计经验、想要接触R语言的人以及对统计、机器学习、数据挖掘、文本挖掘、大数据分析有兴趣的人阅读。
本书是一本深入研究数据挖掘领域中关联规则挖掘和可变精度模糊粗糙集理论的著作,其中关联规则挖掘以频繁集挖掘为主要内容,研究包括如何充分利用模糊约束进行频繁集的挖掘,高效的**频繁集挖掘算法,以及可变精度模糊粗糙集的性质和算法。本书强调理论性和技术性的统一,在理论研究的同时提供了技术的实现。
本书采用案例和理论相结合的形式,以Anaconda和PyCharm为开发工具,系统地重点阐述了利用Python进行数据预处理、分析与可视化等相关知识,讲解了Python各种数据处理展示的函数方法的使用方法。全书共有6章,分别是数据分析概述、Python基础、利用Pandas进行数据预处理、利用Pandas进行数据分析、利用Matplotlib进行数据可视化、Python数据分析与综合应用。在教学设计中安排了知识图谱、学习目标、知识指南、任务实训、结果分析、巩固训练、每章测试等模块。本书既可以作为本科和高职院校各专业数据分析相关课程的教材,也可以作为企业电子商务、市场营销、数据分析人员的参考资料。
当前,全国首批已有38所高校开设“大数据”本科专业,预计在未来5年中开设“大数据”专业的本科和高职高专院校数量将超过500所,社会对大数据人才需求将达到100万人/年。案例教学是大数据人才培养的重要内容。 《大数据案例精析》以分析大数据在各个行业领域中的典型应用为主线,选取国际国内有代表性的近30个案例进行重点分析,行业包括政府大数据、金融大数据、医疗大数据、交通大数据、教育大数据、旅游大数据、通信大数据、电商大数据、工业大数据以及物流大数据等,每个行业平均选取3个案例进行分析,形成相对统一的案例分析体系,同时还提供相应的教学课件配套资源。
本书围绕健康医疗大数据的理论与实践展开论述。全书共分为7章,第1章主要描述大数据的基础知识、通用技术以及技术发展趋势;第2章主要对健康医疗大数据的概念、特征、分类、主要应用技术、国内外发展现状以及应用需求进行系统阐述;第3章~第6章分别对临床大数据、精细化运营大数据、健康管理大数据以及基因检测大数据的应用实践案例进行详细论述;第7章对健康医疗大数据的未来发展趋势进行展望。本书是很多应用实例和经验的总结,案例丰富翔实,将理论与实际紧密结合,对互联网技术人员、健康医疗行业的从业人士,以及高等院校相关专业的学生均有很大帮助。
本书以R语言简介、数据挖掘基础为开篇,旨在让读者对所用工具及数据挖掘方法有所了解。随后的章节借助实际案例(数据挖掘网站用户行为分析及网页智能推荐、生活服务点评网站客户分群、水冷中央空调系统的优化控制策略、电商评价文本的主题特征词分析、均线投资策略等),从数据预处理、模型选择、算法介绍、R语言实现、结论分析及评价等方面进行详尽的论述,希望读者既可以了解数据分析与挖掘的一般流程及方法,又能对常用的算法及模型有所了解。每个案例分析都是一篇完整的论文,初学者通过它们可以了解数据分析与挖掘的一般流程及方法,有一定基础的读者可以思考算法的优劣与选择。不管是对数据分析与挖掘感兴趣的入门者,还是希望获得实践经验的初学者,都可以从本书中获得支持。
本书分为三个部分:基础理论、大数据可视化方法、大数据可视化工具及应用。基础理论部分包括第1、2章,回顾了可视化发展进程,介绍了可视化领域的一些基础概念及应用,以及可视化的一般流程及设计组件。大数据可视化方法部分包括第3到7章,主要介绍了不同类型数据的可视化方法,包括:时间数据、比例数据、关系数据、文本数据、复杂数据。大数据可视化工具及应用部分包括第8到14章,选取了市场上一些主流的可视化工具,围绕它们的使用方法和应用案例展开。这些工具包括商业软件:Excel、FineBI、DataV、Tableau,开源包ECharts,以及编程语言Python、R。 本书既可以作为高等院校计算机类、大数据相关专业的教材,也可以作为软件从业人员、计算机爱好者的学习指导用书。
内容介绍 Spark SQL是 Spark大数据框架的一部分,支持使用标准SQL查询和HiveQL来读写数据,可用于结构化数据处理,并可以执行类似SQL的Spark数据查询,有助于开发人员更快地创建和运行Spark程序。全书分为4篇,共9章,*篇讲解了Spark SQL 发展历史和开发环境搭建。D二篇讲解了Spark SQL 实例,使得读者掌握Spark SQL的入门操作,了解Spark RDD、DataFrame和DataSet,并熟悉 DataFrame 各种操作。D三篇讲解了基于WiFi探针的商业大数据分析项目,实例中包含数据采集、预处理、存储、利用Spark SQL 挖掘数据,一步一步带领读者学习Spark SQL强大的数据挖掘功能。D四篇讲解了Spark SQL 优化的知识。本书适合Spark初学者、Spark数据分析人员以及Spark程序开发人员,也适合高校和培训学校相关专业的师生教学参考。
本书以任务驱动为主线,围绕企业级应用进行项目任务设计,主要内容包括数据采集与预处理准备、网络爬虫实践、日志数据采集实践和数据预处理实践,全面地讲述了Scrapy、Flume、Pig、Kettle、Pandas、OpenRefine等技术,以及urllib、Selenium基本库和BeautifulSoup解析库的相关知识与应用案例。 本书内容实用,可操作性强,语言精练、通俗易懂,可作为高等院校计算机应用技术、大数据技术与应用、软件技术、云计算技术与应用等计算机相关专业的教材,也可作为大数据分析、云计算应用领域技术人员的参考用书。