Stata是一种功能全面的统计分析软件包,具有易操作、运行速度快、功能强大的特点,主要针对经济、管理、医学、农学、教育、市场研究、社会调查等行业和领域,是大数据时代为流行的计量软件之一。 全书内容共分17章。第1、2章介绍Stata操作入门及数据处理基础知识、描述性统计与图形绘制基础。第3~5章介绍假设检验、方差分析、相关分析等基础分析方法。第6~10章通过相关案例介绍经典及放松各种假定条件的回归分析,包括基本线性回归分析、线性回归分析诊断与处理、非线性回归分析、因变量离散回归分析、因变量受限回归分析等应用。第11~16章以典型案例讲解主成分分析与因子分析、聚类分析、时间序列数据分析、面板数据分析、生存分析、多方程模型等高级分析方法。第17章介绍如何使用Stata进行高质量的综合性研究,讲解研究方案设计、调查问卷的制
《大话数据结构【溢彩加强版】》以一个计算机教师的教学过程为场景,讲解数据结构和相关算法的知识。全书以趣味方式来叙述,大量引用各种各样的生活知识来类比,并充分运用全彩色图形语言来解读抽象内容,对数据结构所涉及的一些经典算法做出逐行分析、多算法比较。与同类图书相比,《大话数据结构【溢彩加强版】》内容有趣易读,算法讲解细致深入,是一本非常适合自学的读物。 对于学习数据结构来说,难点之一是对相关算法的理解。《大话数据结构【溢彩加强版】》创新性地采用全彩印刷,图表、流程、代码等内容结合色彩来重新进行约定和归纳,使得对一些难以理解的知识点的解析更加清晰顺畅,极大提升了阅读体验。 《大话数据结构【溢彩加强版】》主要内容包含:数据结构介绍、算法推导大O阶的方法;顺序结构与链式结构差异、栈与队列
本书是畅销书《SQL基础教程》第2版,介绍了关系数据库以及用来操作关系数据库的SQL语言的使用方法。书中通过丰富的图示、大量示例程序和详实的操作步骤说明,让读者循序渐进地掌握SQL的基础知识和使用技巧,切实提高编程能力。每章结尾设置有练习题,帮助读者检验对各章内容的理解程度。另外,本书还将重要知识点总结为 法则 ,方便读者随时查阅。第2版除了将示例程序更新为对应*的DB的SQL之外,还新增了一章,介绍如何从应用程序执行SQL。
计算广告是一项新兴的研究课题,它涉及大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化以及微观经济学等诸多领域的知识。本书从实践出发,系统地介绍计算广告的产品、问题、系统和算法,并且从工业界的视角对这一领域进行具体技术的深入剖析。 本书立足于广告市场的根本问题,从计算广告各个阶段所遇到的市场挑战出发,以广告系统业务形态的需求和变化为主线,依次介绍合约广告系统、竞价广告系统、程序化交易市场等重要课题,并对计算广告涉及的关键技术和算法做深入的探讨。这一版中更是加入了深度学习的基础方法论及其在计算广告中的应用。 无论是互联网公司商业化部门的产品技术人员,还是对个性化系统、大数据变现或交易有兴趣的产品技术人员,传统企业互联网化进程的决策者,传统广告业务的从业者,互联网创
全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
《MySQL?从入门到精通(第?3?版)》从初学者角度出发,通过通俗易懂的语言和丰富多彩的实例,详细介绍了MySQL开发需要掌握的各方面技术。全书共分为4篇22章,包括数据库基础,初识MySQL,使用MySQL图形化管理工具,数据库操作,存储引擎及数据类型,数据表操作,MySQL基础,表数据的增、删、改操作,数据查询,常用函数,索引,视图,数据完整性约束,存储过程与存储函数,触发器,事务,事件,备份与恢复,MySQL性能优化,权限管理及安全控制,Python MySQL实现智慧校园考试系统和Java MySQL实现物流配货系统等内容。书中所有知识都结合具体实例进行介绍,涉及的程序代码也给出了详细的注释,可以使读者轻松领会MySQL的精髓,快速提高开发技能。
《GraphPad Prism科技绘图与数据分析》以GraphPad Prism 9.4为软件平台,结合编者多年的数据分析经验,通过大量实例系统全面地介绍Prism在科研数据处理中的使用方法与技巧。全书共11章:第1~3章主要讲解GraphPad Prism的基础知识,包括用户界面、项目组成、图形的输出、数据的输入、数据表类型、图形的修饰与美化等;第4~11章结合Prism数据表的特点,分别讲解各类数据表的数据格式、数据表能够完成的图表绘制以及可以实现的统计分析等。通过阅读本书,可以帮助读者快速掌握GraphPad的应用,从而更好地处理和分析科研数据。 本书注重基础,内容翔实,突出示例讲解,既可以作为从事数据分析处理的科研工程技术人员的自学用书,还可以作为高等学校相关专业的本科生和研究生的教学用书。
《数据分析思维:分析方法和业务知识》分为两大部分: 方法篇 和 实战篇 。 方法篇 介绍了数据分析中常用的业务指标、分析方法以及如何用数据分析解决问题的步骤。 实战篇 讲解了如何应用*篇的方法来解决工作中的问题,分享十二个行业(国内电商、跨境电商、金融信贷、金融第三方支付、家政、旅游、在线教育、运营商、内容、房产、汽车、零售)的业务知识,以及该行业内用数据分析解决问题的实例。每个行业都包括业务模式、业务指标、案例分析三方面的内容。 通过本书的学习,你会熟悉数据分析的方法,并将其灵活应用在自己所处的行业中。
《SQL Server从入门到精通(第5版)》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了SQL Server开发所必需的各方面技术。全书分为4篇共19章,内容包括数据库基础、SQL Server数据库环境搭建、创建与管理数据库、操作数据表、SQL基础、SQL函数的使用、SQL数据查询基础、SQL数据高级查询、视图的使用、存储过程、触发器、游标的使用、索引与数据完整性、SQL中的事务、维护SQL Server数据库、数据库的安全机制、Visual C SQL Server实现酒店客房管理系统、C# SQL Server实现企业人事管理系统和Java SQL Server实现学生成绩管理系统。所有知识都结合具体实例进行介绍,涉及的程序代码给出了详细的注释,读者可以轻松领会SQL Server 2022的精髓,快速提升开发技能。
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
随着TheDataWarehouseToolkit(1996)第1版的出版发行,RalphKimball为整个行业引入了维度建模技术。从此,维度建模成为一种被广泛接受的表达数据仓库和商业智能(DW/BI)系统中数据的方法。该经典书籍被认为是维度建模技术、模式和实践的资源。 该书汇集了到目前为止全面的维度建模技术。 该书采用新的思路和实践对上一版本进行了全面修订,给出了设计维度模型的全面指南,既适合数据仓库新手,也适合经验丰富的专业人员。 该书涉及的所有技术都基于作者实际从事DW/BI的设计经验,通过实际案例加以描述。 该书主要内容: 实用设计技术 有关维度和事实表的基本和高级技术。 14个案例研究,涉及零售业、电子商务、客户关系管理、采购、库存、订单管理、会计、人力资源、金融服务、医疗卫生、保险、教育、电信和运输等。
《SQL语言从入门到精通》从初学者角度出发,通过通俗易懂的语言、丰富多彩的实例,详细介绍了在开发中使用SQL语言必须掌握的技术。全书分为3篇共18章,内容包括SQL语言基础、SQL查询基础、复杂查询、数据排序、SQL函数的使用、分组统计、子查询、多表查询、添加数据、修改和删除数据、视图、存储过程、触发器、游标、索引、事务、管理数据库与数据表、数据库安全。所有知识都结合具体实例进行介绍,涉及的程序代码给出了详细的注释,读者可以轻松领会SQL语言的精髓,快速提高开发技能。
《算法竞赛入门经典 训练指南(升级版)》是《算法竞赛入门经典(第2版)》一书的重要补充,旨在补充原书中没有涉及或者讲解得不够详细的内容,从而构建一个更完整的知识体系。本书通过大量有针对性的题目,让抽象复杂的算法和数学具体化、实用化。 《算法竞赛入门经典 训练指南(升级版)》共包括6章,分别为算法设计基础、数学基础、实用数据结构、几何问题、图论算法与模型以及更多算法专题。全书通过206道例题深入浅出地介绍了上述领域的各个知识点、经典思维方式以及程序实现的常见方法和技巧,并在章末给出了丰富的分类习题,供读者查漏补缺和强化学习效果。 《算法竞赛入门经典 训练指南(升级版)》题目多选自近年来ACM/ICPC区域赛和总决赛真题,内容全面,信息量大,覆盖了常见算法竞赛中的大多数细分知识点。书中还给出了所有重
本书对可视化技术、交互技术以及数据分析方法进行了系统和全面的讲解。介绍了交互式可视化数据分析解决方案的设计标准,论述了设计中的影响因素以及工作流程的检验方法。读者可以从中了解可视化编码的基础知识,以及用于多元数据、时间数据、地理空间数据和图形数据等方面的众多可视化技术。 书中专门用一章的内容来介绍与可视化效果互动的常规概念,并且利用图示来说明现代交互技术如何推动可视化数据分析的发展。针对如今庞大而复杂的数据,本书涵盖了自动化分析计算支持可视化数据分析的相关内容,另外还介绍了多屏幕环境下的高级可视化概念、数据分析过程中的用户指南以及渐进式可视化数据分析等技术。 作者用简洁明了的术语以自上而下的视角解读了交互式可视化数据分析。众多真实案例和丰富的插图将使学生、本领域专家、数据密
对于任何依赖经常性收入和重复销售的企业来说,让客户保持活跃并持续购买是必不可少的。客户流失(或 流失 ),这种代价高昂且令人沮丧的事情是可以预防的。通过使用本书中介绍的技术,你可以识别客户流失的预警信号,并学会在客户离开之前识别并挽留他们。 《客户留存数据分析与预测》向开发人员和数据科学家传授经过实践证明的技术与方法,可以在客户流失发生之前阻止其发生。本书包含很多来自现实中的示例,介绍如何将原始数据转换为可衡量的行为指标、计算客户生命周期价值,并使用人口统计数据改进客户流失预测。通过遵循 Zuora 首席数据科学家 Carl Gold 的方法,你将获得高客户留存率带来的优势。 主要内容 ● 计算流失指标 ● 通过客户行为预测客户流失 ● 使用客户细分策略减少客户流失 ● 将客户流失分析技术应用于其他业务领域 ● 使用
本书以 实战、实用、实效 为原则,充分考虑智慧公安、智慧交通、智慧金融、智慧城市等用户的大数据应用痛点,紧贴大数据实践的业务场景,汇集数据分析模型全生命 周期的关键应用技术,包括数据准备、工作表管理、可视化图表创建、数据大屏制作、数据模型创建和自定义算子设计等内容。 本书内容通俗易懂,案例丰富,图文并茂,同时配有教学视频和建模平台,适合初级、中级数据分析师和广大数据分析爱好者参考学习。通过本书,读者无须具备计算机、 软件开发等专业知识背景,即可熟练掌握大数据分析建模的基本方法和技巧。
互联网公司里面几乎很少有公司不用MySQL,国内互联网巨头都在大规模使用MySQL。如果把MySQL比喻成数据库界的一条巨龙,则性能优化和高可用架构设计实践就是点睛之笔。本书将详细讲解 MySQL 5.7高可用和性能优化技术,细致梳理思路,并与真实生产案例相结合,通过原理阐述到实战部署,帮助读者将所学知识点运用到实际工作中。 本书分为13章,详解MySQL 5.7数据库体系结构,InnoDB存储引擎,MySQL事务和锁,性能优化,服务器全面优化、性能监控,以及MySQL主从复制、PXC、MHA、MGR、Keepalived 双主复制等高可用集群架构的设计与实践过程,并介绍海量数据分库分表和Mycat中间件的实战操作。 本书既适合有一定基础的 MySQL数据库学习者、MySQL数据库开发人员和 MySQL数据库管理人员阅读,同时也能作为高等院校和培训学校相关专业师生的参考用书。
Apache Flink项目的资深贡献者Fabian Hueske和Vasiliki Kalavri展示了如何使用Flink DataStream API实现可伸缩的流式应用,以及怎样在业务环境中持续运行和维护这些应用。流处理的理想应用场景有很多,包括低延迟ETL、流式分析、实时仪表盘以及欺诈检测、异常检测和报警。你可以在任意类型的持续数据(包括用户交互、金融交易和物联网等数据)生成后,立即对它们进行处理。本书主要内容包括: 了解有关分布式状态化流处理的概念和挑战。 探索Flink的系统架构,包括事件时间处理模式和容错模型。 理解DataStream API的基础知识和构成要素,包括基于时间和有状态的算子。 以精确一次的一致性读写外部系统。 部署和配置Flink集群。 对持续运行的流式应用进行运维。
在新媒体时代,如果对新闻报道、网上搜索的结果或者所谓的 专家告知 不加思考地完全相信,那你就等着上当受骗吧! 本书围绕当今*受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、 安倍经济学 的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离ХХ、全球变暖问题、减肥、恩格尔系数的上升等10个主题进行数据解读,帮助读者模拟体验数据读取方法,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。 作为 大数据分析 的超级入门书,即使不擅长数学、不了解统计学的人,读完本书也可以彻底掌握数据解读方法!
《matplotlib数据可视化实战》借助matplotlib讲解开展数据可视化实践所需要掌握的关键知识和技能,从设置图表基础元素(坐标轴、标签、颜色、数学符号等),到根据表现内容绘制不同类型的图表(折线图、条形图、圆饼图、小提琴图等),全面讲解了 matplotlib 的使用方法。为方便读者学习, 书中对相关操作都配以案例及代码进行讲解,读者可以根据自身需求,灵活使用其中的函数 和语句。 本书适合数据分析、数据可视化领域的爱好者、从业者阅读,也适合作为高校相关专业的教材。
主要内容 ● 监控性能,找出效果不佳的查询 ● 选取要优化的查询,**限度地提高收益 ● 使用EXPLAIN ANALYZE和Visual Explain等工具来分析查询 ● 借助多种策略改进慢查询 ● 正确使用索引和直方图,创建快速的执行计划 ● 了解并分析锁,从而解决争用问题,提升系统吞吐量
本书从需求规划、需求实现到可视化展示等,遵循项目开发的主要流程,全景介绍了电商行业Flink实时数据仓库的搭建过程。在整个项目的搭建过程中,介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并穿插了大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、电商业务概述、数据仓库理论介绍和数据仓库建模等。最核心的内容是代码中对Flink的灵活应用,为读者展示了Flink处理数据的多种可能性。本书最后还详细讲解了项目的性能调优技巧和实战案例,帮助读者掌握更多的实战经验。 本书适合具有一定编程基础的读者学习或作为参考资料,通过本书,可以使你快速了解实时数据仓库,全面掌握实时数据仓库的相关技术。