全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了 30 多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 如果你是一名创业者,或者你是一名产品开发、产品管理、市场营销、公共关系和投资领域的商务专业人员,那么本书不容错过。
本书主要以项目实战为主线,从0到1的项目开发流程,教会读者如何开发全栈项目。它基于最新的Spring Boot3.1以上版本和Vue.js3.0版本的前后端分离项目开发,以及面向用户端的uni-app的小程序开发。本书基础的知识会在项目的开发过程中穿插讲解,不会单独的基础知识讲解,采用实战驱动学习知识的教学方法,并通过详细的代码示例、清晰的图解和源码解析帮助读者快速理解和掌握全栈项目开发的技巧和最佳项目实践。 本书共22章,包括Spring Boot篇、Vue篇和uni-app篇。Spring Boot篇(第1~14章)从环境搭建到项目上线,逐步深入讲解项目开发流程,并使用了众多企业级流行的开发技术,如Redis、Docker、Jenkins、Mybatis-plus等。Vue.js篇(第15~19章)使用Vue 3.0版本,采用开源的Vue.js框架Vue-Vben-Admin作为项目启动模板,帮助快速搭建后台管理系统,节约时间成本等。uni-app篇(第20~22章
《向量数据库:大模型驱动的智能检索与应用》系统地介绍向量数据库的原理、技术实现及其应用,重点分析传统数据库在处理高维向量数据时的局限性,并提供相应的解决方案。《向量数据库:大模型驱动的智能检索与应用》分为4个部分,共13章,内容涵盖从理论基础到技术实践的多个方面,详细讨论高维向量表示中的信息丢失、嵌入空间误差和维度诅咒等问题,结合FAISS和Milvus等主流开源工具,深入剖析向量数据库的索引机制、搜索算法和优化策略。通过实际案例,展示向量数据库在推荐系统、行为分析、智能诊断、语义搜索等领域的应用,并特别强调企业级语义搜索系统的开发与部署经验。 《向量数据库:大模型驱动的智能检索与应用》不仅提供深度的理论指导,还通过丰富的案例帮助读者掌握如何构建高效的向量搜索引擎,适合从事搜索引擎与推荐系统开发的
本书旨在为包括研究生和工业从业者在内的研究人员提供有关为数据驱动的进化优化而开发的最新方法的全面描述。本书共分12章,第1~4章简要介绍了优化、进化计算和机器学习中精心挑选的重要主题和方法。第5章提供了数据驱动优化的基础知识,包括启发式算法和基于获取函数的代理模型管理。第6章介绍使用多个代理模型进行单目标优化的方法。第7~8章中描述用于求解多目标和多目标优化算法的代表性进化算法以及代理模型辅助数据驱动的进化多目标和多目标优化。第9章详细阐述了高维数据驱动优化的方法。第10章描述迁移学习和迁移优化。第11章讨论离线数据驱动的进化优化,以翼型设计优化等实际优化问题为例、原油蒸馏优化和急救系统优化。最后,第12章强调了深度神经架构搜索作为数据驱动的昂贵优化问题。
《Hadoop海量数据处理》从Hadoop的基础知识讲起,逐步深入Hadoop分布式文件系统(HDFS)和MapReduce分布式编程框架的核心技术,帮助读者全面、系统、深入地理解Hadoop海量数据处理技术的精髓。本书在讲解技术原理时穿插大量的典型示例,并详解两个典型项目实战案例,帮助读者提高实际项目开发水平。 《Hadoop海量数据处理》共15章,分为4篇。第1篇Hadoop基础知识,包括大数据概述、Hadoop概述、Hadoop环境搭建与配置;第2篇Hadoop分布式存储技术,包括HDFS概述、HDFS基础操作、HDFS的读写原理和工作机制、Hadoop 3.x的新特性;第3篇MapReduce分布式编程框架,包括MapReduce概述、MapReduce开发基础、MapReduce框架的原理、MapReduce数据压缩、YARN资源调度器、Hadoop企业级优化;第4篇项目实战,包括Hadoop高可用集群搭建实战和统计TopN经典项目案例实战。 《Hadoop海量数据处理》通俗易懂、案
《Power BI商业智能数据分析与可视化》以DAX为核心线索,围绕数据分析和数据可视化,系统全面地介绍了Power BI的核心知识体系。 《Power BI商业智能数据分析与可视化》的主要内容包括数据分析和数据可视化基础知识,Power Query数据获取、转换与加载,Power BI数据模型,DAX基础和进阶知识、DAX的实践案例、DAX驱动数据可视化交互,仪表板开发实践、仪表板多场景应用,以及AI辅助学习等。 《Power BI商业智能数据分析与可视化》体系完整、重点突出、内容新颖翔实、案例贴近实际,适合数据分析师、Power BI分析人员、Excel高级用户,以及想提高数据分析能力的各类人员阅读。
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
《Doris实时数据仓库理论与实战》系统地介绍了Doris的核心概念、架构原理和各项功能。全书共7章。第1章对Doris做了初步介绍。第2章重点介绍了Doris的数据表设计。第3章聚焦于Doris的数据导入。第4章介绍了Doris的数据导出和数据管理。第5章讨论了Doris中的数据更新和删除操作。第6章将读者带入Doris的进阶使用领域。第7章展示了Doris的生态扩展。通过《Doris实时数据仓库理论与实战》的学习,读者可以全面而深入地了解运用Doris构建高效、可扩展、实时数据仓库系统的方法,从理论到实践,从基础到进阶。 《Doris实时数据仓库理论与实战》适用于Doris开发人员和数据工程师,或有志从事数据仓库开发的技术人员。
利用这本书,你将学习以下内容:了解如何选择Spark转换实现优化的解决方案。探索强大的转换和归约,包括reduceByKey()、combineByKey()和mapPartitions()。理解数据分区以实现优化查询。使用PySpark设计模式构建和应用模型。对图数据应用motif查找算法。使用GraphFrames API分析图数据。对临床医学和基因组数据应用PySpark算法。学习如何在ML算法中使用和应用特征工程。了解并使用实用的数据设计模式。
本书循序渐进、深入讲解了R语言数据统计分析与应用的核心知识,并通过具体实例的实现过程演练了知识点的用法和流程。全书共16章,分别讲解了R语言基础、R语言数据统计语法基础、数据获取和处理、绘制可视化统计图、描述性统计分析、探索性数据分析、推论统计、回归分析、方差分析、非参数统计分析、主成分分析、聚类分析、生存分析、因子分析、基于机器学习的患者再入院预测分析系统和中概科技指数统计分析与投资系统。全书简洁而不失其技术深度,内容丰富全面,历史资料翔实齐全。同时,本书易于阅读,以极简的文字介绍了复杂的案例,同时涵盖了其他同类图书中很少涉及的历史参考资料,是学习R语言数据统计分析与应用的实用教程。
Python凭借其简单、易读、可扩展性以及拥有巨大而活跃的科学计算社区,在需要分析、处理大量数据的金融行业得到了广泛而迅速的应用,并且成为该行业开发核心应用的编程语言。《Python金融大数据分析》提供了使用Python进行数据分析,以及开发相关应用程序的技巧和工具。 《Python金融大数据分析》总计分为3部分,共19章,部分介绍了Python在金融学中的应用,其内容涵盖了Python用于金融行业的原因、Python的基础架构和工具,以及Python在计量金融学中的一些具体入门实例;第2部分介绍了金融分析和应用程序开发中重要的Python库、技术和方法,其内容涵盖了Python的数据类型和结构、用matplotlib进行数据可视化、金融时间序列数据处理、高性能输入/输出操作、高性能的Python技术和库、金融学中需要的多种数学工具、数生成和过程模拟、Python统计学应用、Python和Excel的集
本书深入探讨了大数据技术的核心概念和实际应用。从大数据的基础架构Hadoop开始,逐步解析了分布式协调服务Zookeeper、数据仓库Hive、面向列的数据库HBase等关键技术。此外,还介绍了数据迁移工具Sqoop、数据采集工具Flume、发布订阅消息系统Kafka等实用工具。本书还深入讲解了数据处理分析引擎Spark、全文搜索引擎Elasticsearch及分布式处理引擎Flink的工作原理和应用实例。最后,通过电商推荐系统实战和Flink实现电商用户行为分析两个案例,展示了大数据技术在实际业务中的应用。 本书附带全书实例源代码、电子版本教程(下载方式见封底),以及可扫码观看的长达13个小时的部分实例操作视频,帮助读者更深入了解大数据技术的具体内容,非常适合对大数据技术感兴趣的读者,尤其是想要深入了解大数据技术原理和应用的开发者和管理者阅读。
本书主要作为教育领域从事教育大数据研究工作者的参考用书。本书从教育大数据的重要意义、国内外教育大数据的研究现状以及政策支持出发,对教育大数据的相关概念和内涵做阐述说明,介绍了教育大数据的技术、技术标准、治理与开放、风险管理与法律政策,重点阐述了教育大数据在教育领域的典型应用,包括教育大数据在课堂教育、校园管理、在线教育、开放远程教育、教育培训行业以及学生综合素质评价等方面的应用,*后提出教育大数据的发展趋势和机遇挑战。
这是一本能为数字化转型企业的数据治理提供全面指导的著作。拥有集团官方出品,得到了用友集团董事长王文京、DAMA中国区主席汪广盛等9位企业界和学术界数字化专家的一致好评 它基于国际主流的数据治理框架和用友多年的数据治理经验,从道、法、术、器4个维度全面、深入展开,不仅有数据治理在战略层面的顶层设计,还有数据治理在执行层面的实施方法,既可以作为数据治理的纲领性指南,又可作为数据治理的实操手册。 从数据治理的战略规划到落地实施,本书将各环节的核心内容凝练为“3 个战略机制、8 项关键举措、7 种技术能力、7 个治理工具”: 数据治理之道:3个战略机制 高屋建瓴地介绍了数据治理的数据战略、组织机制和数据文化。这3个机制能够帮助企业形成数据治理的自我驱动、自我进化、可持续发展和长效运营