本书是首本专注于利用R语言进行科研数据清洗的书籍,全书主要分为两大块,首块以简洁的内容向读者介绍R语言的入门知识,让读者了解并认识R语言,为后面的内容打下基础。全书大部分篇幅主要集中在第二块内容,即数据清洗的知识。作者从实际问题出发,详细的介绍了如何利用R语言处理科研中的数据,比如缺失值的插补,异常值的查找,长宽型数据结构的转换,时间日期数据的处理,文本数据的处理等,此外,作者也将数据清洗的内容进行了适当扩展,比如书中加入了R语言与数据库的连接方法,让大数据的处理更加得心应手。
《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》基于Spark 2.2.X,以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码,从一个动手实战案例入手,循序渐进地全面解析了Spark 2.2新特性及Spark内核源码;中篇选取Spark开发中拥有有代表的经典学习案例,深入浅出地介绍,在案例中综合应用Spark的大数据技术;下篇性能调优内容基本接近覆盖了Spark在生产环境下的所有调优技术。
云上数据中台正服务着阿里生态中的数十个业务板块、百余家公司、千万级客户,在帮助决策层看清甚至决定业态走向的同时,在上万个业务场景中应用并催生创新。 本书基于作者在的十年大数据从业经历,精彩演绎云上数据中台之道。全书基于大数据探索的大趋势,讲述云上数据中台顶层设计,再以实际案例详述云上数据中台建设及其业务模式的形成过程,总结云上数据中台沉淀的独值,并开诚布公地分享以赋能为本质的大数据战略。 作者希望通过一名老数据人发自肺腑的分享,帮助尽可能多的有志于大数据构建、应用与创新者,构建自己的云上数据中台,从而拥有既“准”且“快”的“全”“统”“通”的智能大数据体系,以驱动各类业务数据化与数据业务化创新!
本书从大数据发展现状、面临的挑战和机遇以及需要突破的关键问题入手,深入研究了大数据技术发展的现状和技术体系,并从电子政务、医疗卫生、智慧交通、公共安全、科技服务五个领域叙述了大数据的行业应用,从数据租售模式、数据交易模式、数据产品租售模式、行业大数据服务模式、行业价值链重构模式、跨行业数据协同模式、租赁存储空间模式、基础技术服务模式八个方面介绍了大数据的商业模式,并进一步探讨了大数据产业生态及创新模式、大数据背景下的数据权保障制度、大数据人才培养,以及大数据背景下的智能城镇化发展,最后提出了大数据产业发展战略思路与对策。