大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》作者就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。基于《重构大数据统计》内容开发的数据分析工具已经在集团内部的多个部门使用,并取得显著效果。另外,《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。《重构大数据统计》适合对大数据分析感兴趣的读者阅读,《重
本书全面阐述了新一代安全理论与安全架构,并结合作者自身经验层层剖析了包括Google公司在内的各大互联网企业所应用的各种关键安全技术的原理及具体实现。全书分为3部分,共15章。第一部分“安全理论体系”主要讲解了业界优选的安全架构体系(IPDRR模型、IA、网络韧性架构)与安全体系(ISMS管理体系、BSIMM工程体系、Google技术体系)建设理念。第二部分“基础安全运营平台”的主要内容有威胁情报、漏洞检测、入侵感知、主动防御、后门查杀、安全基线、安全大脑等。第三部分“综合安全技术”主要讲解了安全开发生命周期、企业办公安全、互联网业务安全、全栈云安全等方面的内容,并展望了前沿安全技术。期待本书可以给读者带来不一样的互联网企业整体安全架构理论和安全建设视角,让读者获得自身职业发展所需的专业信息安全知识!本书适合对信息
在Oracle 12c 版本之前,数据库版本的迭代中基本架构都没有非常明显的变化,但从Oracle 12c版本开始,引入了很多新特性,其主要的特性颠覆了之前的概念,尤其是引入了多租户的概念。本书主要针对Oracle 12c 版本以后的新特性进行讲解。本书在编写的过程中,以Oracle 18c 为环境进行测试,内容涵盖Oracle 18c 的多租户架构、In-Memory 特性的使用、ASMFD、Flex ASM,以及RAC集群环境中的GIMR 和CHM。通过学习本书的内容,读者可以快速掌握Oracle 12c 和Oracle 18c 的管理和使用方法。本书不是一本基础的入门图书,在阅读本书时需要对Oracle 的基本概念有的了解,同时具备的实际操作能力,本书适合Oracle 运维人员和具备Oracle 基础的开发人员阅读。
《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》自2016年面世后,得到行业的高度认可。本书作为《从运维菜鸟到大咖,你还有多远:数据中心设施运维指南》的续集,分享行业同仁在企业级数据中心设施的风险评估、规划、建设管理、测试验证方面的经验和教训。本书由业内专家合力编写,并延续了小说体的风格,可阅读性强,使从业人员有很强的带入感,让读者既提升理论知识,也获得更多现场经验。
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。 《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。
在集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——大数据实践》就是在此背景下完成的。本书中讲到的大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由数据技术及产品部组织并完成写作,是分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。
本书是一本面向商业数据挖掘建模分析人员的教材,从具体的商业数据分析案例入手,帮助读者掌握数据挖掘的目的、方法、工具与分析步骤。本书所采用的分析工具为目前颇受好评的IBM SPSS Modeler及开源软件Weka。IBM SPSS Modeler有很好的用户接口,也有不错的分析功能,但缺乏比较前沿的分析模块,以及很难与现有的信息系统结合,而Weka恰能弥补其缺憾。同时,这两个软件都不需要编程,适合初学者。本书具体内容由四位活跃在数据挖掘教学和项目开发一线的人员完成,内容侧重软件的实际操作。力图将复杂的技术以浅显的方式进行解释,尽量避免涉及过多的数学内容。
在Oracle 12c 版本之前,数据库版本的迭代中基本架构都没有非常明显的变化,但从Oracle 12c版本开始,引入了很多新特性,其主要的特性颠覆了之前的概念,尤其是引入了多租户的概念。本书主要针对Oracle 12c 版本以后的新特性进行讲解。本书在编写的过程中,以Oracle 18c 为环境进行测试,内容涵盖Oracle 18c 的多租户架构、In-Memory 特性的使用、ASMFD、Flex ASM,以及RAC集群环境中的GIMR 和CHM。通过学习本书的内容,读者可以快速掌握Oracle 12c 和Oracle 18c 的管理和使用方法。本书不是一本基础的入门图书,在阅读本书时需要对Oracle 的基本概念有的了解,同时具备的实际操作能力,本书适合Oracle 运维人员和具备Oracle 基础的开发人员阅读。
《语音库建设与分析教程》主要介绍笔者这几年在语音语料库建设和数据分析方面所做的一些工作和积累的一些初步经验,其中包括一套录音工具和九个Praat脚本程序的功能和用法,旨在解决语音语料库建设和数据分析中的一些技术问题和效率问题,并试图为语音语料库建设及其基础研究提供一个简便的框架流程。《语音库建设与分析教程》共分八个章节,主要包括语音语料库的录制与整理、生成TextGrid标注文件、生成语音声学参数文件、编辑TextGrid和PitchTier数据对象等方面的内容。