在集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——大数据实践》就是在此背景下完成的。本书中讲到的大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由数据技术及产品部组织并完成写作,是分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
《语音库建设与分析教程》主要介绍笔者这几年在语音语料库建设和数据分析方面所做的一些工作和积累的一些初步经验,其中包括一套录音工具和九个Praat脚本程序的功能和用法,旨在解决语音语料库建设和数据分析中的一些技术问题和效率问题,并试图为语音语料库建设及其基础研究提供一个简便的框架流程。《语音库建设与分析教程》共分八个章节,主要包括语音语料库的录制与整理、生成TextGrid标注文件、生成语音声学参数文件、编辑TextGrid和PitchTier数据对象等方面的内容。
本书详细介绍了OMG推出的公共仓库元模型的标准,从而帮助读者利用元数据轻松完成不同产品间的数据交换。本书从CWM的来源讲起,介绍了制定CWM的必要性、CWM的基础知识、CWM的体系结构以及如何利用CWM开发元数据解决方案,如何实现CWM等问题。本收结构清晰,内容丰富,几位作者都是参与制定CWM的专家,具有丰富的实践经验。因此,本书极具实用性,适用数据仓库的设计者、维护者、制定决策的管理人员阅读。
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
本书从工业测控的实际应用出发,系统地讲述了虚拟仪器软件LabVIEW的测控应用技术。首先介绍了虚拟仪器的含义、功能、结构、特点和常用开发平台,接着系统地讲述了LabVIEW程序设计基本知识,然后通过基于板卡的测控系统、串口通信测控系统等19个典型应用实例,详细地讲解了利用LabVIEW设计测控程序的方法,帮助读者完整地掌握LabVIEW测控应用实战技术。 书中提供的测控应用实例都有详细的操作步骤,读者可以按步骤用LabVIEW实现各种测控功能,因此实践操作性强是本书的一大特色。 本书内容丰富,论述深入浅出,有较强的实用性和可操作性,可供自动化、计算机应用、电子信息、机电一体化、测控仪器等专业的高等院校师生阅读,还可供从事计算机测控系统研发的工程技术人员参考。
计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语来表达。本书介绍了这些领域的一些重要概念。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩图。本书内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。 本书可作为高等院校相关专业本科生和研究生的教材,对于统计学相关人员、科学界和业界关注数据挖掘的人,本书值得一读。
计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语来表达。本书介绍了这些领域的一些重要概念。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩图。本书内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。 本书可作为高等院校相关专业本科生和研究生的教材,对于统计学相关人员、科学界和业界关注数据挖掘的人,本书值得一读。
计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。许多工具都具有共同的基础,但常常用不同的术语来表达。本书介绍了这些领域的一些重要概念。尽管应用的是统计学方法,但强调的是概念,而不是数学。许多例子附以彩图。本书内容广泛,从有指导的学习(预测)到无指导的学习,应有尽有。包括神经网络、支持向量机、分类树和提升等主题,是同类书籍中介绍得最全面的。 本书可作为高等院校相关专业本科生和研究生的教材,对于统计学相关人员、科学界和业界关注数据挖掘的人,本书值得一读。
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
确定公司可视化流数据的目标。 确定关键数据源并了解如何对其进行流式处理。 了解处理流数据的实用方法。 构建与事件、日志和记录进行交互的客户端应用程序。 探索可视化流数据的通用组件。 考虑用于开发可视化的分析概念。 定义仪表板的布局、流向和组件移动。 通过协作提高可视化质量和生产力。 探索包括安全性、物联网设备,以及应用程序数据在内的用例。
《数据库系统实践指南》的章节内容,力求简单易行,以激发学生的好奇心和兴趣;温馨小贴士分为经验之谈、理论指导和文献参阅,分别从工程经验、理论知识和深度学习三个方面强化学生学习的广度和深度;《数据库系统实践指南》的实验内容,难易结合,目的在于培养学生良好的数据库工程素养,以及提升学生的动手实践能力。 《数据库系统实践指南》共有十个实验,分为上篇和下篇。上篇的五个实验是数据库课程的基本实验,包括安装和配置数据库管理系统;建立数据库;查询数据库;应用程序访问数据库;建造复杂数据库。上篇侧重于数据库技术的基础建库能力训练,要求学生个人独立完成。下篇的五个实验针对数据库的实际应用,难度较大,包括数据库系统开发方法(配有实例系统的源程序);数据库系统安全管理;建造多媒体数据库;数据仓库
本书结合大量实例介绍了Mesos的使用方法、核心原理及框架开发的相关内容。通过这些内容读者可以在数据中心环境中利用Mesos搭建分布式系统、进行大数据分析及开发分布式应用。全书分为8章分别从使用、开发和运维等角度全面展示了Mesos作为数据中心内核的强大能力、设计方面的精髓及在工程中的实践。书中还介绍了Mesos项目的进展和未来的发展方向,并给出了大量参考文献和相关链接方便读者进一步深入了解Mesos。
马宗民、严丽编写的《模糊信息XML与数据库建模技术研究》系统介绍了模糊数据建模的基本概念、原理、方法及应用技术,主要内容包括模糊概念数据模型、模糊XML模型、模糊数据库模型、模糊模型间映射、模糊数据库数据操作,介绍了一个模糊工程信息数据库建模的应用实例。 《模糊信息XML与数据库建模技术研究》对信息领域从事非传统应用的专业人员具有重要的参考价值,可作为高等学校计算机、智能科学与技术、信息系统专业研究生和高年级本科生的教材,也可供计算机及相关专业科技工作者参考。
本书是一本大数据时代下进行小数据分析的入门级教材,通过数据分析的知识点,将各类分析工具进行串联和对比,例如:在进行线性规划的时候可以选择使用Excel或LINGO或CrystalBall。工具的应用难易结合,让读者循序渐进地学习相关工具。JMP和Mintab用来分析数据,分析的结果使用Excel、LINGO、CrystalBall来建立数据模型,最后使用Xcelsius来动态展示数据分析的结果。书中以两个人的对话为叙述方式,场景描写多,容易进入学习状态,完全是用生动的故事和实用的案例尽可能地贴近生活和工作,让数据分析生动有趣,基本上有高中数学知识就可以理解线性规划等数据分析内容。本书不仅介绍Excel而且介绍使用其他工具软件进行数据分析,可用来拓展互联网公司、传统企业、电商企业、管理咨询公司等各行各业从事数据分析工作的分析师和管理者对数据分析的认知,也适合初
这是一本让人脑洞大开的内容玩法书,给新一代叙事者提供了十八般武器。清晰的构架、简洁的语言、坦率的态度,整本书无不流露着新一代互联网原住民颠覆传统的创新基因。运营无招,数据有度。握好数据的尺度,把数据做出角度、深度、温度、态度,这是整本书的核心。围绕“新消费、玩互动、融呈现、变模式”四个维度,本书从场景化叙事聊到用户激励和内容产品经理,分享了内容、传播、团队该如何迎接变革的心路历程。产品的玩法本身会经历兴衰,但只要人的创新精神在,就可以在新的场景下也能够持续玩好内容。作者的探索与思考,无疑可以给内容运营从业者带来多元的启发。推荐准备从事内容传播和广告策划工作的在校生、即将从事互联网产品运营的人、移动互联网内容创新研究者、企业市场和品牌传播从业者参考阅读。
本书共16章,共三篇。基础篇(~5章),章的主要内容是数据挖掘概述;第2章对本书所用到的数据挖掘建模工具MATALB进行了简明扼要的说明;第3章、第4章、第5章对数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。实战篇(第6~15章),重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的,在建模过程关键环节,穿插程序实现代码。最后通过上机实践,加深数据挖掘技术在案例应用中的理解。提高篇(6章),介绍了基于MATLAB二次开发的数据挖掘应用软件TipDM数据挖掘建模工具,并以此工具为例详细介绍了基于MATLAB接口完成数据挖掘二次开发的各个步骤,使读
布林思科、卡里姆、默西的《保修数据收集与分析》主要讨论产品保修期数据的收集与分析方法。涵盖的內容包括产品保修相关的基本概念,保修期数据的收集方法、建模方法、通过收集的数据预计保修期花费的方法、基于保修期数据改进产品的方法以及应用案例。在工具与技术上,本书重点讨论一维和二维保修的保修索赔建模与保修费用预计方法,同时介绍统计分析和统计推断的一些基础工具,并在此基础上进行保修数据分析,举例说明了多种产品的索赔和补充数据。全书不仅阐述产品保修数据分析相关理论,而且提出能够指导工程应用的可行方法,具有很强的工程参考价值和教学研究价值。本书主要面向从事产品可靠性研究的科研人员、项目管理者,也可作为可靠性工程、管理工程等学科的教师和研究生的教学参考资料。