全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
Stata是一种功能全面的统计分析软件包,具有易操作、运行速度快、功能强大的特点,主要针对经济、管理、医学、农学、教育、市场研究、社会调查等行业和领域,是大数据时代为流行的计量软件之一。 全书内容共分17章。第1、2章介绍Stata操作入门及数据处理基础知识、描述性统计与图形绘制基础。第3~5章介绍假设检验、方差分析、相关分析等基础分析方法。第6~10章通过相关案例介绍经典及放松各种假定条件的回归分析,包括基本线性回归分析、线性回归分析诊断与处理、非线性回归分析、因变量离散回归分析、因变量受限回归分析等应用。第11~16章以典型案例讲解主成分分析与因子分析、聚类分析、时间序列数据分析、面板数据分析、生存分析、多方程模型等高级分析方法。第17章介绍如何使用Stata进行高质量的综合性研究,讲解研究方案设计、调查问卷的制
本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了 30 多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 如果你是一名创业者,或者你是一名产品开发、产品管理、市场营销、公共关系和投资领域的商务专业人员,那么本书不容错过。
《Hadoop海量数据处理》从Hadoop的基础知识讲起,逐步深入Hadoop分布式文件系统(HDFS)和MapReduce分布式编程框架的核心技术,帮助读者全面、系统、深入地理解Hadoop海量数据处理技术的精髓。本书在讲解技术原理时穿插大量的典型示例,并详解两个典型项目实战案例,帮助读者提高实际项目开发水平。 《Hadoop海量数据处理》共15章,分为4篇。第1篇Hadoop基础知识,包括大数据概述、Hadoop概述、Hadoop环境搭建与配置;第2篇Hadoop分布式存储技术,包括HDFS概述、HDFS基础操作、HDFS的读写原理和工作机制、Hadoop 3.x的新特性;第3篇MapReduce分布式编程框架,包括MapReduce概述、MapReduce开发基础、MapReduce框架的原理、MapReduce数据压缩、YARN资源调度器、Hadoop企业级优化;第4篇项目实战,包括Hadoop高可用集群搭建实战和统计TopN经典项目案例实战。 《Hadoop海量数据处理》通俗易懂、案
本书对可视化技术、交互技术以及数据分析方法进行了系统和全面的讲解。介绍了交互式可视化数据分析解决方案的设计标准,论述了设计中的影响因素以及工作流程的检验方法。读者可以从中了解可视化编码的基础知识,以及用于多元数据、时间数据、地理空间数据和图形数据等方面的众多可视化技术。 书中专门用一章的内容来介绍与可视化效果互动的常规概念,并且利用图示来说明现代交互技术如何推动可视化数据分析的发展。针对如今庞大而复杂的数据,本书涵盖了自动化分析计算支持可视化数据分析的相关内容,另外还介绍了多屏幕环境下的高级可视化概念、数据分析过程中的用户指南以及渐进式可视化数据分析等技术。 作者用简洁明了的术语以自上而下的视角解读了交互式可视化数据分析。众多真实案例和丰富的插图将使学生、本领域专家、数据密
本书以统计学史上著名人物的伟大成就为脉络,将数据分析这一学科的发展历程娓娓道来。从开普勒仰望星空拉开统计学序幕,贝叶斯提出主观概率,到人工智能、深度学习逐步渗透今天的日常生活。本书带领读者在数据科学的熠熠星光下,看透大数据的深邃内核。
利用这本书,你将学习以下内容:了解如何选择Spark转换实现优化的解决方案。探索强大的转换和归约,包括reduceByKey()、combineByKey()和mapPartitions()。理解数据分区以实现优化查询。使用PySpark设计模式构建和应用模型。对图数据应用motif查找算法。使用GraphFrames API分析图数据。对临床医学和基因组数据应用PySpark算法。学习如何在ML算法中使用和应用特征工程。了解并使用实用的数据设计模式。
本书的主要内容有:深入探讨BigQuery的内部工作方式,包括其整体架构。学习BigQuery支持的数据类型、函数和运算符。优化查询语句和schema,从而提高性能或降低成本。使用标准SQL中高级功能,如GIS、历史快照、DDL/DML、用户定义函数和脚本。使用BigQuery ML解决各类机器学习问题。学习如何保护数据、监控作业,以及授权用户。
本书探索工业大数据的 工程方法体系 并介绍了其中的关键技术,提出了多领域的工业物理对象建模方法和查询技术。全书共10章,第1章讨论了工业大数据的内涵与特点,并给出了工业大数据工程的三个要素,即数据资源、数据分析和数据应用;第2~4章提出了领域模型驱动的数据资源的建模技术,并给出了工业大系统技术与建设方法;第5、6章讨论了敏捷工业大数据分析与运维方法,并阐述了背后的分析软件技术;第7章讨论了用户驱动的数据应用的低代码开发技术;第8~10章用风电、水电、煤矿综采三个行业,展示了工业大数据工程方法的应用过程。
随着MySQL越来越受欢迎,关于如何通过MySQL解决具体问题的疑问越来越多,这本书也应运而生。这本手册为需要快速的解决方案或技术,但没有时间从零开始解决MySQL问题的程序员或专家提供大量简短且重点突出的代码,数百个完整的示例,以及清晰简明的解说。 本书的主要内容包括: ?连接到服务器、执行查询,并获取结果。从MySQL服务器获取数据。存储、获取以及处理字符串。使用日期和时间。排序查询结果,生成汇总信息。评估数据集的特征。编写存储函数和过程。使用存储例程、触发器和计划事件。执行基本的MySQL管理员任务。理解MySQL的基础监视知识。
Python凭借其简单、易读、可扩展性以及拥有巨大而活跃的科学计算社区,在需要分析、处理大量数据的金融行业得到了广泛而迅速的应用,并且成为该行业开发核心应用的编程语言。《Python金融大数据分析》提供了使用Python进行数据分析,以及开发相关应用程序的技巧和工具。 《Python金融大数据分析》总计分为3部分,共19章,部分介绍了Python在金融学中的应用,其内容涵盖了Python用于金融行业的原因、Python的基础架构和工具,以及Python在计量金融学中的一些具体入门实例;第2部分介绍了金融分析和应用程序开发中重要的Python库、技术和方法,其内容涵盖了Python的数据类型和结构、用matplotlib进行数据可视化、金融时间序列数据处理、高性能输入/输出操作、高性能的Python技术和库、金融学中需要的多种数学工具、数生成和过程模拟、Python统计学应用、Python和Excel的集
《深入Access2010》由詹宁斯所著,这是全世界最专业、最全面、最实用的Access2010使用指南。Access专家Roger Jennings向您奉献了在使用Access2010的过程中遇到的任何问题的解决方案——创建更高效的数据库、编写更好的查询语句、建造更漂亮的报表、安全地在任何地方分享数据、实现自动化升级、应用程序的扩展等,让你更高效地处理相关问题!
本书详细介绍了Oracle、MySQL、PostgreSQL、SQL Server、DB2等各种关系数据库的SQL查询技巧和一些基础的SQL查询语句,并且通过短小精悍的实例,不仅讲解了如何插入、更新和删除数据,还介绍了如何检索记录、为查询结果排序、同时操作多张数据库表、查询元数据、处理涉及字符串和数值的操作、根据时间数据和日期数据进行运算、执行层次查询和区间查询等。随着多种SQL实现大量采用窗口函数,本书第2版针对相关实例做了优化,还新增了为数据科学家和算法工程师量身定制的实例。本书适合数据分析师、数据库管理员以及与SQL打交道的数据科学家和算法工程师阅读。