全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了 30 多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 如果你是一名创业者,或者你是一名产品开发、产品管理、市场营销、公共关系和投资领域的商务专业人员,那么本书不容错过。
《Hadoop海量数据处理》从Hadoop的基础知识讲起,逐步深入Hadoop分布式文件系统(HDFS)和MapReduce分布式编程框架的核心技术,帮助读者全面、系统、深入地理解Hadoop海量数据处理技术的精髓。本书在讲解技术原理时穿插大量的典型示例,并详解两个典型项目实战案例,帮助读者提高实际项目开发水平。 《Hadoop海量数据处理》共15章,分为4篇。第1篇Hadoop基础知识,包括大数据概述、Hadoop概述、Hadoop环境搭建与配置;第2篇Hadoop分布式存储技术,包括HDFS概述、HDFS基础操作、HDFS的读写原理和工作机制、Hadoop 3.x的新特性;第3篇MapReduce分布式编程框架,包括MapReduce概述、MapReduce开发基础、MapReduce框架的原理、MapReduce数据压缩、YARN资源调度器、Hadoop企业级优化;第4篇项目实战,包括Hadoop高可用集群搭建实战和统计TopN经典项目案例实战。 《Hadoop海量数据处理》通俗易懂、案
作为一本 Power Query 初级入门读本,《Power Query 智能化数据汇总与分析》不深入介绍 M 函数,而是结合大量的实际案例,利用 Power Query 可视化的操作向导,来解决实际工作中烦琐的数据整理、汇总和分析问题,让读者在短时间内,能够对 Power Query 有一个较为全面的了解和掌握,并能迅速提升数据处理和统计分析效率。 《Power Query 智能化数据汇总与分析》适合具有 Excel 基础知识并经常处理大量数据的各类人员阅读,也可作为大专院校经济类本科生、研究生和 MBA 学员的教材或参考书。
数字技术为企业的管理方式带来颠覆性变革,我们正在经历从依赖企业管理者解读数据并做出业务决策,到由算法通过计算数据做出分析和判断,然后自动指挥业务活动的转变。作为企业管理者,需要思考如何顺应时代趋势,利用数字技术,实现企业管理方式升级,提升管理效率,降低管理费用,提高企业竞争力。撰写本书的主要目的是,帮助企业体系化地推进数字化管理升级。本书的主要内容包括数字技术驱动企业管理方式升级、企业数字化管理体系的四条线、企业数字化管理体系建设七步法、企业数字化管理体系建设实战、企业数字化管理体系建设中的瓶颈与难点、企业数字化管理体系建设的技术架构,以及未来数字智能技术展望。
本书的主要内容有:熟悉Spark的编程模型和生态系统。学习数据科学的一般方法。检查分析大型公共数据集执行步骤的完整性。发现哪些机器学习工具对特定问题有帮助。探索可适应多种用途的代码。
K线图已经成为金融交易平台和图表程序的关键组成部分。使用这些图表,交易者们从中学习基础模式,用于解释价格走势历史,并预测未来市场。这本详细的指南向投资组合经理、量化分析师、策略师和分析师展示了如何使用Python来识别、扫描K线图模式,根据模式进行交易,并回测K线图模式的盈利能力。 金融作家、交易顾问和机构市场策略师Sofien Kaabar在本书中展示了如何创建K线图扫描器和指标,通过这些指标,我们可以比较不同模式的盈利能力。通过这本实践指南,你还将探索一种类似K线图的新型图表系统,以及从未介绍过的新模式。 通过这本书,你将学会: 创建并理解经典和现代K线图模式所需的条件。 学习这些模式背后的市场心理。 使用一个框架来学习如何进行交易策略的回测。 探索不同的图表系统并理解它们的局限性 在Python中导入不同时间框架的OHLC
编写本书的目的是使读者可以在最z短时间内掌握Excel 数据分析。本书以数据分析的整体流程和知识难易度来安排各章内容及其在全书中的次序,每一章内容都紧密围绕数据分析展开。全书共10 章,每天学习一章,10 天就能学会Excel 中的大多数数据分析工具的用法和技巧。 本书的主要内容包括数据分析的基本概念和流程、Excel 中的数据分析工具的功能和特点、导入外部数据和输入不同类型的数据、修复有问题的数据、设置数据格式、排序、筛选、分类汇总、数据透视表、公式和函数基础知识、提取和格式化文本、汇总和统计数据、计算日期、模拟分析、单变量求解、规划求解、分析工具库、图表的基本概念和基础操作、创建不同类型的图表、导入和刷新数据、使用Power Query 编辑器整理数据、使用Power Pivot 创建数据模型、创建计算列和度量值、销售分析和客户分析等
《基于Python的大数据分析基础及实战》是一本介绍如何用Python 3.6进行数据处理和分析的学习指南。其主要内容包括:Python语言基础、数据处理、数据分析、数据可视化,以及利用Python对数据库的操作、自建Python应用库的共享发布等。 《基于Python的大数据分析基础及实战》分3个部分:第1部分为基础知识,第2部分为实战案例,第3部分为拓展与延伸。本书内容丰富,讲解通俗易懂,非常适合本科生、研究生,以及对Python语言感兴趣或者想要使用Python语言进行数据分析的广大读者。
大数据时代,对数据进行统计、分析和学习变得尤为重要,并被应用在各方各面,如无人驾驶汽车、AlphaGo、机器学习和人工智能等,而统计思维也成为大数据时代的基本思维。不仅这些高科技以统计学为基础理论,大数据时代的每个人都应该懂点统计学,学会读懂并分析数据,学会让数据说话,让数据为自己服务。《大数据时代的统计学思维:让你从众多数据中找到真相》就是大数据时代统计学思维的科普书籍,全书共10章,第1章用几个有趣好玩的例子引导读者进入统计学的世界,并调动读者学习统计学的兴趣。第2~10章结合生活和工作中的例子全面介绍统计学原理和方法,涵盖统计学中的数据收集、数据处理和统计推断等内容,既有抽样调查、概率、相关性分析、回归分析等实用统计方法,也有大数定律和中心极限定理等基本统计学原理。用实例引导理论,通俗
利用这本书,你将学习以下内容:了解如何选择Spark转换实现优化的解决方案。探索强大的转换和归约,包括reduceByKey()、combineByKey()和mapPartitions()。理解数据分区以实现优化查询。使用PySpark设计模式构建和应用模型。对图数据应用motif查找算法。使用GraphFrames API分析图数据。对临床医学和基因组数据应用PySpark算法。学习如何在ML算法中使用和应用特征工程。了解并使用实用的数据设计模式。
继煤炭、钢铁和石油之后,数据正在成为重要的国家战略资源和国家间竞争的战略工具。数据主权是国家主权在网络空间的逻辑延伸和核心表现,关乎数据安全、个人隐私和数字经济发展,是国家安全和发展的核心利益所在。 《数据主权与治理模式辨析》围绕数据主权及治理模式进行剖析,调研全球主要经济体的数据主权治理模式演化过程,在厘清数据主权内涵和概念、借鉴国外数据主权治理模式的基础上,以主权平等、合作共治为原则,从跨境数据流动、数据本地化存储、数字贸易、 长臂管辖 及其反制策略等方面,分析比较各国数据主权治理的模式及其实施效果,构建匹配中国数字经济和数据资源体量、符合中国数据规制要求,兼顾各国利益的数据主权治理规则,推动全球数字经济全面健康发展,是中国数据治理的重要使命和时代担当。
本书是为广大数据分析师量身定制的入门读物,它旨在帮助读者站在大数据时代的制高点。数据分析处于统计学、计算机信息科学、运筹学、数据库等多个领域的交叉地带,大数据时代的到来大大丰富了数据分析的内涵,数据分析师的职责与以往相比发生了巨大的改变。本书全面介绍了经典数据分析、模式识别、机器学习、深度学习、数据挖掘、商务智能等多个领域的数据分析算法,将大数据时代的数据分析热点技术一网打尽。本书为每个数据分析算法都搭配了一个经典案例,并按照由易到难的原则构建知识框架,充分照顾了不同水平读者的阅读习惯。通过阅读本书,读者将对大数据时代下的数据分析有一个全面的认识。无论是入门级的数据分析员还是有一定基础的数据分析师,都能通过本书完善、加深对数据分析的认识。
本书是中山大学重点学科建设成果,获中国矿物岩石地球化学协会大数据与数学地球科学专业委员会推荐,是我国*部地质科学大数据与机器学习教材。本书是中山大学研究生试用研究型教材,对运用大数据挖掘与机器学习算法解决地球科学问题大有裨益。适合地质科学领域研究生和高年级本科生做教材,也可供科研人员研究时参考。它系统地介绍了地球科学大数据挖掘与机器学习的基本框架与原理,重点分析高维数据的降维、分类与预测、大图形社区结构识别、无限流数据处理、机器学习及人工智能地质学的建模过程,对必要的应用场景,使用Python语言给出案例。
在新媒体时代,如果对新闻报道、网上搜索的结果或者所谓的 专家告知 不加思考地完全相信,那你就等着上当受骗吧! 本书围绕当今*受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、 安倍经济学 的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离ХХ、全球变暖问题、减肥、恩格尔系数的上升等10个主题进行数据解读,帮助读者模拟体验数据读取方法,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。 作为 大数据分析 的超级入门书,即使不擅长数学、不了解统计学的人,读完本书也可以彻底掌握数据解读方法!