数据湖仓是一个现代化的开放式架构,拥有当今热门的开源数据技术的广度和灵活性。本书从初学者的角度出发,通过对数据湖仓重要概念的剖析,对数据湖仓的相关知识进行深入浅出的讲解。全书共18章,对数据湖仓的基础知识、数据工程、业务价值、数据集成等方面进行深入探讨,同时展望数据架构的演化趋势,使读者能够领会数据湖仓的精髓,最终轻松、全面地管理数据湖仓项目。 本书适合数据架构师、业务人员和系统开发人员,以及对数据管理、数据分析感兴趣的读者阅读。
本书是中山大学重点学科建设成果,获中国矿物岩石地球化学协会大数据与数学地球科学专业委员会推荐,是我国*部地质科学大数据与机器学习教材。本书是中山大学研究生试用研究型教材,对运用大数据挖掘与机器学习算法解决地球科学问题大有裨益。适合地质科学领域研究生和高年级本科生做教材,也可供科研人员研究时参考。它系统地介绍了地球科学大数据挖掘与机器学习的基本框架与原理,重点分析高维数据的降维、分类与预测、大图形社区结构识别、无限流数据处理、机器学习及人工智能地质学的建模过程,对必要的应用场景,使用Python语言给出案例。
本书从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
本书通过选购笔记本电脑的案例引入数据包络分析(dataenvelopmentanalysis,DEA)的基本概念和模型,并运用简单的EXCEL模型让读者更易理解和运用DEA。本书着重阐述如何将DEA作为一种运营分析工具,进行绩效评估,找出基准标杆。探讨的主题包括:平衡的基准,昀佳实践,相对效率的概念及绩效提升。特别地,本书探讨的数据分析方法能够帮助一个组织重新审视它对生产效率高低的已有观点是否合理,并为组织不断改进提供指导。本书是市面上唯一本不要求读者具备线性规划和线性代数知识,就可以熟练应用DEA方法的DEA方法指导用书。
本书是为广大数据分析师量身定制的入门读物,它旨在帮助读者站在大数据时代的制高点。数据分析处于统计学、计算机信息科学、运筹学、数据库等多个领域的交叉地带,大数据时代的到来大大丰富了数据分析的内涵,数据分析师的职责与以往相比发生了巨大的改变。本书全面介绍了经典数据分析、模式识别、机器学习、深度学习、数据挖掘、商务智能等多个领域的数据分析算法,将大数据时代的数据分析热点技术一网打尽。本书为每个数据分析算法都搭配了一个经典案例,并按照由易到难的原则构建知识框架,充分照顾了不同水平读者的阅读习惯。通过阅读本书,读者将对大数据时代下的数据分析有一个全面的认识。无论是入门级的数据分析员还是有一定基础的数据分析师,都能通过本书完善、加深对数据分析的认识。
这是一本需要“动手实践”的图书,通过带领大家从*构建一款分布式向量数据库,让大家透彻理解向量数据库的技术原理和实现细节。 本书共分为三大部分,内容由浅入深、循序渐进。“*部分 认识向量数据库”(第1~3章)是基础篇,介绍向量数据库的基础知识,涵盖向量及数据库的基本概念、向量数据库的发展历程和核心功能。“*部分 构建向量数据库”(第4~6章)是核心篇,详细介绍如何从*开始构建并优化向量数据库,巨细靡遗地展示数据库内核的技术实现细节并辅以代码示例、技术架构图等,旨在让大家真正实现动手写向量数据库。“第三部分 向量数据库的实践与展望”(第7~8章)是结束篇,通过实践案例展示向量数据库在AI应用中的使用方法,并尝试勾勒向量数据库的未来。 本书面向数据库开发人员、数据库管理员、数据库架构师等数据库从业
生态学数据分析:方法生态学研究需要从原始数据出发,通过系列计算分析,最后作出具有生态意义的解释?本书主要介绍PCORDfor Windows?CanocoforWindows?CurveExpert?SPSS和PAST 等软件在生态学数据转换?标准化?函数拟合?遗传多样性?物种多样性?生态位?空间分布格局?聚类?排序和实验数据统计检验上的应用方法?应用QBASIC和R 语言对书中的部分方法编制程序?书中的每一种方法均提供模拟数据,介绍具体的操作步骤??程序与软件
《Python大数据分析与挖掘》是一本以大数据获取与分析为核心的教材,共分为4篇11章,循序渐进地引导读者深入学习Python在大数据领域的应用。第1篇为Python基础,全面介绍Python语言的基本特点和编程基础。第2篇为Python数据分析基础,主要内容包括NumPy、Pandas和Matplotlib数据分析工具包的使用,为数据分析与可视化奠定基础。第3篇为数据采集,介绍网络爬虫方法,包括静态网页和动态网页的爬取技术,使读者能够灵活获取网络数据。第篇为大数据分析实践,涵盖了数据探索性分析、机器学习以及自然语言处理等内容,并提供了丰富的实践案例。
随着互联网 下半场 的到来,企业经营思路发生了重大转变,由野蛮式增长逐步向精细化运营过渡,数据成为了各大企业制胜的法宝。与之对应的是,传统的以用户体验、产品功能为主要工作内容的产品经理市场饱和度越来越高,求职竞争越来越激烈,而壁垒却越来越弱,用数据赋能业务的产品经理则在招聘市场上供不应求,策略产品经理就是其中之一。本书主要从职业发展、技能体系、工作过程以及方法论沉淀等角度来生成策略产品经理的画像,旨在帮助有志成为一名策略产品经理的人士了解策略产品经理需要具备的基本素质与能力、他们是如何工作的,以及成为一名策略产品经理的学习路径。本书适合计划成为一名策略产品经理的在校生学习,也可以为想转型为策略产品经理的职场人士提供参考。另外,也很欢迎现阶段正在从事策略产品经理工作的同行阅读本
在新媒体时代,如果对新闻报道、网上搜索的结果或者所谓的 专家告知 不加思考地完全相信,那你就等着上当受骗吧! 本书围绕当今*受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、 安倍经济学 的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离ХХ、全球变暖问题、减肥、恩格尔系数的上升等10个主题进行数据解读,帮助读者模拟体验数据读取方法,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。 作为 大数据分析 的超级入门书,即使不擅长数学、不了解统计学的人,读完本书也可以彻底掌握数据解读方法!
技术是把双刃剑,当我们在积极拥抱新技术的同时,也不能忽视其所带来的风险,比如当今大数据时代个人隐私和安全问题。本书是两位作者结合各自出色的专业知识和丰富的从业经验为大众倾力奉献的一本大数据时代隐私问题的普及读物。书中展示了我们在家庭和工作中的日常活动是如何成为大数据收集的一部分的。同时,列举大量的大数据应用以及安全和隐私相关案例,包括企业如何利用大数据进行营销、执法机构如何利用大数据执法等,也包括不法分子如何利用非法或合法的手段获取数据,如何利用社交网络进行犯罪。针对上述问题,本书也列出了一些工具、技巧用来检查和防范,这在当前很有现实意义。
本书主要介绍大数据可视化的基本概念和相应的技术应用。全书内容共10章,分别为大数据可视化概述、大数据可视化原理、大数据可视化方法、数据可视化工具、Excel数据可视化、Tableau数据可视化、ECharts与pyecharts数据可视化、Python数据可视化、大数据可视化行业分析以及大数据可视化综合实训。 本书将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用大数据分析的相关技术,并且对于书中重要的、核心的知识点加大练习的比例,以使读者达到熟练应用的目的。 本书可作为大数据、云计算、软件技术、信息管理、计算机网络等专业的教材,可也作为大数据爱好者的自学参考书。
本书基于作者近几年来的研究开发成果及应用实践,对物联网大数据技术体系进行了系统归纳,阐述了物联网环境下感知数据的特性、数据模型、事务模型以及调度处理方法等核心概念及关键技术,并对物联网大数据存储、管理、计算与分析的基本概念和关键技术进行了剖析。本书还介绍了自行研发的面向物联网的ChinDB实时感知数据库系统以及针对云计算环境下物联网大数据管理与应用的DeCloud云平台,介绍了它们在智能交通、智能电厂、教育、安全监控等多个行业的应用。书中所有实例,均来自作者所在团队的实际应用,大部分在物联网项目中得到了实践应用。本书对物联网应用的开发以及两化融合、工业4.0环境下的大数据处理分析具有重要参考价值。
本书采用案例和理论相结合的形式,以Anaconda和PyCharm为开发工具,系统地重点阐述了利用Python进行数据预处理、分析与可视化等相关知识,讲解了Python各种数据处理展示的函数方法的使用方法。全书共有6章,分别是数据分析概述、Python基础、利用Pandas进行数据预处理、利用Pandas进行数据分析、利用Matplotlib进行数据可视化、Python数据分析与综合应用。在教学设计中安排了知识图谱、学习目标、知识指南、任务实训、结果分析、巩固训练、每章测试等模块。本书既可以作为本科和高职院校各专业数据分析相关课程的教材,也可以作为企业电子商务、市场营销、数据分析人员的参考资料。
基于国家973和863相关项目成果,采用汤森路透德温特世界专利创新索引数据库作为统计数据来源,对信息存储领域的专利文献进行检索分析,从存储器件、设备、系统等层面,选取了目前信息存储领域中的多项重要技术,利用专利统计分析的方法对其发展态势进行了研究,特别是对信息存储领域相关专利进行宏观统计分析以及核心专利的具体分析,可以全方位了解信息存储技术的发展历程、专利的国家或地区分布、重要专利权人的竞争态势,为制定相关战略提供决策参考。同时结合华为、中兴、联想、浪潮、IBM、EMC、三星、美光等国内外知名企业的实际案例,从中国本土和全球的布局两个角度分别分析了专利产出、主要竞争者、热点技术和研发重点以及竞争态势,力求找到信息存储技术专利申请对技术产业化与企业发展的作用,供信息存储研发人员、专利工作者和
本书内容简介:数据挖掘和文本挖掘是当前信息技术中的一个重要研究领域;将遗传算法和社会演化算法应用于数据及文本挖掘方法研究,具有较大的理论意义和实用价值本书研究了基于遗传算法和社会演化算法的数据挖掘和文本挖掘方法,主要包括数据挖掘和文本挖掘中的属性约简问题、聚类问题,并将其应用于产品研发决策中所做主要工作包括:提出一种基于遗传算法和k-medoids算法的新的聚类方法;采用遗传算法和模式聚合进行文本特征降维;采用遗传算法和潜在语义索引进行文本特征降维;采用社会演化算法进行聚类;采用混沌社会演化算法进行聚类;采用改进的遗传算法和社会演化算法进行文本聚类研究;将文本挖掘应用到产品研发决策中,构建产品研发文本知识地图,以期提高产品研发的效率和质量。
本书是一本深入研究数据挖掘领域中关联规则挖掘和可变精度模糊粗糙集理论的著作,其中关联规则挖掘以频繁集挖掘为主要内容,研究包括如何充分利用模糊约束进行频繁集的挖掘,高效的**频繁集挖掘算法,以及可变精度模糊粗糙集的性质和算法。本书强调理论性和技术性的统一,在理论研究的同时提供了技术的实现。
《不确定信息的处理与知识挖掘》在作者对粗糙集相关理论进行研究及应用的基础上,系统论述了不确定信息的处理与知识挖掘理论、方法体系,囊括了包含作者近期成果在内的一些先进模型、算法和实例。主要内容包括:基于广义决策系统分割点区分度的连续属性离散化方法、基于改进粒子群优化的连续属性离散化方法、基于相对分辨矩阵和信息熵的属性约简算法、基于属性区分频度的约简改进算法、基于全局寻优的完备信息系统知识获取算法、基于相容矩阵计算的不完备信息系统知识获取算法,后介绍了不确定信息的处理在城市交通领域中的应用研究。