教材系统地介绍文本数据挖掘的相关概念,利用Python作为工具进行相关试验,其内容主要包括:文本挖掘产生的背景及发展;文本挖掘的概念、文本模型表示、文本内容的预处理,包括分词、去停用词以及特征抽取;文本相似度的概念等。介绍文本分类的概念及常用方法,如KNN算法、SVM算法等,并对分类结果进行评价;在介绍文本聚类聚类的概念时是,同样介绍聚类常用算法,如K均值算法、层次聚类法、密度聚类法等,作为有文本分类、文本聚类的应用,*后给出了信息抽取、社会网络中的实体关系抽取和事件抽取。
本书与以往统计学中的概率论略有不同,添加了一些复杂数据类型的概率基础知识和模拟计算中的相关概率知识。具体安排如下所述。本书共分6章。第1章为概率与计数,基本内容是随机事件、概率空间、计数方法、概率的确定方法。第2章为条件概率,基本内容是条件概率与乘法公式、事件的独立性、全概率公式与贝叶斯公式。第3章为随机变量,基本内容是随机变量及其分布函数、随机变量的分类、二维随机向量、随机变量的独立性、随机变量函数的分布。第4章为常用的概率分布,基本内容是常用的离散型随机变量、常用的连续型随机变量、随机数的产生。第5章为随机变量的数字特征,基本内容是数学期望、方差和协方差、矩和矩母函数、条件期望。第6章为不等式和极限定理,基本内容是概率不等式、大数定律及其应用、中心极限定理。
本书系统讲述数据仓库的基本概念、基本原理以及建立数据仓库的方法和过程。主要内容包括:决策支持系统的发展、数据仓库环境结构、数据仓库设计、数据仓库粒度划分、数据仓库技术、分布式数据仓库、ElS系统和数据仓库的关系,外部和非结构化数据与数据仓库的关系、数据装载问题、数据仓库与Web、ERP与数据仓库以及数据仓库设计的复查要目。 本书是数据仓库之父撰写的关于数据仓库的 权威著作,既可作为相关专业的研究生教材,也是数据仓库的研究、开发和管理人员的指南。
算力、数据、AI已经成为驱动当今社会技术发展的三架马车,而算力也从传统的超级计算向云超算的方向发展。本书旨在探讨当前超级计算与云计算的融合而给算力带来的新的发展,介绍当前在算力领域的一些实践和探索,从理论到工程,帮助读者了解超级计算的关键技术与未来发展,从而更好地应用和发展高性能技术。
在云计算和互联网快速发展的驱动下,分布式技术领域产生了很多新的热点,分布式数据库就是其中之一。但是,目前对分布式数据库的理解和研究多停留在理论层面,本书以Greenplum分布式数据库为例,深入剖析分布式技术在工业级产品里的实现细节,为读者呈现从理论到实践的 全景图 。 本书共3篇:第1篇主要介绍分布式数据库基础理论,包括经典的CAP理论、一致性算法相关的理论、并发控制相关的理论等;第2篇具体介绍Greenplum数据库,从分布式事务、分布式计算和分布式存储3个方面,深入代码层级,讲述分布式理论在工业上的实现;第3篇是总结和展望,介绍云原生数据库和新技术带给Greenplum和数据库管理系统的机遇和挑战。 本书打破以理论介绍和架构介绍为主的思路,深入分析工业化的实现,实践性强。本书主要面向数据库领域的科研工作者
Elasticsearch是一款高性能的文档数据库,广泛应用于分布式搜索和分析引擎等相关领域,本书首先介绍了数据建模的通用设计原理,然后针对Elasticsearch 介绍了文档数据库建模的特点和要求,例如和设计模式有关的实现、注意事项,以及实践过程中的注意点等。 本书的两位作者,一位是资深的Elasticsearch 专家,一位是建模领域的大师,联合为读者呈现了这本著作。如果你是一名希望扩展Elasticsearch 建模技能的读者,或者是一名了解Elasticsearch 但需要提高模式设计技能的从业人员,推荐阅读本书。
本书是一本系统介绍Clickhouse的指导型工具书,全书总共分为11章: 第1章 介绍ClickHouse的由来、发展历程、核心特点与核心特点。第2~6章 介绍了ClickHouse基础使用部分,包括整体架构、如何安装、数据定义、数据引擎、数据查询和函数的特性和使用方法。第7~9章介绍了ClickHouse高级特性部分,包括数据库管理操作,数据分片、数据副本和高可用的特性和使用方法。第10~11章介绍了如果自己手动实现ClickHouse中间件的思路和示例,同时也介绍了几款可视化工具与ClickHouse集成的方法。
大数据审计已经成为目前审计领域研究与应用的热点。本书按照从常用电子数据审计方法到大数据审计方法的思路,不仅系统地分析了电子数据审计的理论知识(特别是大数据审计),还重点结合实际案例和具体操作,从审计数据采集、审计数据预处理和审计数据分析等电子数据审计的关键步骤出发,系统地分析了如何开展电子数据审计(特别是大数据审计)。附录中设计了9个实验模块(包括3个大数据审计实验模块),满足了开设实验课程的需要。 本书可作为高等院校审计、会计和信息管理等专业的教材,也可作为审计从业人员的专业培训教材和业务学习资料。
本书将现代统计学的重要思想引入数理统计课程中,强调了数据分析、图形工具和计算机技术,并注重统计的实务和应用.本书内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法,主要包括概率、*变量、联合分布、期望、极限定理、抽样调查、参数估计、假设检验、数据汇总、两样本比较、方差分析、分类数据分析和线性小二乘等. 本书用真实数据分析了实际问题,以此增强读者对理论的理解;作者将自助方法与传统的推论性过程结合起来,增加了蒙特卡罗方法.此外,为了使概念更清晰,书中提供了大量的示例,而且还有丰富的习题,以增强读者的计算能力. 本书适合作为统计学、数学、其他理工科专业以及社会科学和经济学专业高年级本科生和低年级研究生的教材,同时也可供相关领域技术人员参考.
如今,推荐算法已经普遍应用于在线各个领域和场景,越来越多的商品、服务、用户通过推荐算法高效地连接彼此,每个人都享受到更加个性化的内容和服务。推荐已深刻地改变了我们与世界连接的方式。 本书聚焦在产品运营的角色上,探讨产品运营人员应该如何理解推荐算法,如何在不同的功能场景下应用推荐算法,如何从平台业务的角度对算法结果进行干预和再平衡。此外,本书着重于阐述不同功能场景下推荐的应用,辅以内容、电商、社交等业务下的应用实例。在每个章节中,都会枚举市面上已有产品功能或作者本人经历过的业务实践,以期给读者提供可以实操落地的借鉴。
随着物联网、云计算、大数据与人工智能等技术的蓬勃发展,计算服务逐渐从计算密集型向数据密集型(Data Intensive)转变。高性能、高通量的数据服务关键技术成为智慧城市、智能制造、智慧农业等国家重大需求解决方案的核心基础。并行与分布式数据处理的概念启发于上世纪80年代,源自讨论在内存及二级存储极为有限的条件下如何跨越 内存墙 ,完成计算任务的优化技术。而今,互联网与私有网络数据指数级增长、数据服务的事务性需求复杂多变、跨地域数据同步需求动态不统一、如何应对当前及未来大数据服务及其上的人工智能计算对并行与分布式数据服务提出了新的问题与挑战。本书从并行与分布式数据服务的基础理论、事务模型、数据处理语言等基础内容,并进一步讨论分布式数据一致性模型及全观性的数据处理架构方面的先进及实用的研究及系统软件
数据作为生产要素已经被提升至国家战略层面,如何激活数据要素、体现数据价值,如何有效利用数据赋能数字化转型,成为当前炙手可热的问题。本书厘清了数据治理、数据管理和数字化转型的关系,介绍了数据治理核心工作中经常出现的问题和优秀实践,明确了数字化转型的核心内容、方法路径和评估机制,通过大型企业数据治理或数字化转型案例为读者提供有价值的参考。本书适合首席执行官、首席信息官、首席数据官等从事企业管理和数据管理工作的人员阅读,有助于提升对数据治理和数字化转型的认识,为在组织中有效开展数据治理和数字化转型工作提供思路和借鉴。
本书围绕数据中心业务如何经营这一主题展开论述,以数据中心产业演变为切入点,围绕“布局-建设-服务”三大核心环节,针对数据中心产业面临的集群化布局、低碳化建设、智能化服务的机遇与挑战,通过变革中的数据中心产业、数据中心产业面临的挑战、数据中心布局之道、数据中心低碳建设之道、数据中心智能服务之道、数据中心产业政策实施之道、新形态数据中心经营之道等内容剖析原因、洞察规律、研讨案例、搭建模型,为相关经营主体给出了专业务实的策略。 本书实用性强,内涵丰富,采用情景对话方式编写,可读性强,具备较高参考价值。 本书可供通信运营商、第三方专业服务商、跨界服务商等各类数据中心运营主体的从业人员阅读,也可供主管数据中心建设与运营的政府部门的工作人员阅读。
《Power BI商务智能数据分析》是一本教你用Microsoft Power BI分析处理经营业务数据的教程。《Power BI商务智能数据分析》从职场实战出发,精选作者线下培训课程精华,能够帮助企事业单位各部门数据分析人员,通过图形化工具界面,轻松完成大数据处理与可视化交互分析。 《Power BI商务智能数据分析》共分为5章,帮助你从商业智能、数据可视化分析的*新技术入门;按照数据分析流程,逐步完成数据清洗与预处理、建立数据分析模型、可视化报表设计、在线报表发布等工作。Microsoft Power BI以互联网思维打造产品,桌面端免费,每月迭代更新,本书中的Power BI桌面版与Online版操作界面以2020年更新版本为主。 《Power BI商务智能数据分析》适合企事业单位数据分析人员阅读。
本书不是一本关于数据管理的 如何做 的书(如规范数据属性或是创建数据库),而是一本关于数据管理 如何思考 的书。本书将心理学和哲学与数据管理巧妙的融合在一起。将心理学和哲学学科与数据管理结合在一起,以创造有关我们如何感知和管理信息的知识。书中阐述了当今数据库系统通过数据来捕获现实世界的方式及缺陷,作者运用非常清晰的逻辑、仔细地描述了信息系统中所表示的现实世界的各个方面。对系统中所使用的数据模型、语言、语义和现实世界描述下的哲学问题进行了深刻的检视,对这些核心概念、其对信息系统的影响,是坊间遍寻不到的。这本书的价值在于批判性地探索解决现实世界的信息系统建模方法,这是一本令读者愉悦并具有启发性的佳作。适合从事数据建模、大数据、数据管理的人士阅读。