《数据分析思维:分析方法和业务知识》分为两大部分: 方法篇 和 实战篇 。 方法篇 介绍了数据分析中常用的业务指标、分析方法以及如何用数据分析解决问题的步骤。 实战篇 讲解了如何应用*篇的方法来解决工作中的问题,分享十二个行业(国内电商、跨境电商、金融信贷、金融第三方支付、家政、旅游、在线教育、运营商、内容、房产、汽车、零售)的业务知识,以及该行业内用数据分析解决问题的实例。每个行业都包括业务模式、业务指标、案例分析三方面的内容。 通过本书的学习,你会熟悉数据分析的方法,并将其灵活应用在自己所处的行业中。
本书以 实战、实用、实效 为原则,充分考虑智慧公安、智慧交通、智慧金融、智慧城市等用户的大数据应用痛点,紧贴大数据实践的业务场景,汇集数据分析模型全生命 周期的关键应用技术,包括数据准备、工作表管理、可视化图表创建、数据大屏制作、数据模型创建和自定义算子设计等内容。 本书内容通俗易懂,案例丰富,图文并茂,同时配有教学视频和建模平台,适合初级、中级数据分析师和广大数据分析爱好者参考学习。通过本书,读者无须具备计算机、 软件开发等专业知识背景,即可熟练掌握大数据分析建模的基本方法和技巧。
Apache Flink项目的资深贡献者Fabian Hueske和Vasiliki Kalavri展示了如何使用Flink DataStream API实现可伸缩的流式应用,以及怎样在业务环境中持续运行和维护这些应用。流处理的理想应用场景有很多,包括低延迟ETL、流式分析、实时仪表盘以及欺诈检测、异常检测和报警。你可以在任意类型的持续数据(包括用户交互、金融交易和物联网等数据)生成后,立即对它们进行处理。本书主要内容包括: 了解有关分布式状态化流处理的概念和挑战。 探索Flink的系统架构,包括事件时间处理模式和容错模型。 理解DataStream API的基础知识和构成要素,包括基于时间和有状态的算子。 以精确一次的一致性读写外部系统。 部署和配置Flink集群。 对持续运行的流式应用进行运维。
《人人会建的大数据可视化大屏》重点阐述数据可视化的重要性、基本概念、主要应用和意义,通过需求梳理、数据准备、屏幕测算、合理布局、图表颜色等方面的设计,呈现数据分析的关键指标,增强数据的可读性。同时,以海致科技集团自主研发的伏羲数据可视化平台应用为例,通俗易懂地介绍伏羲数据可视化大屏设计思路、组件功能和制作方法,举例说明公安、金融、交通、能源、司法等领域的数据大屏应用。 《人人会建的大数据可视化大屏》适于各行各业大数据可视化工程师、数据分析人员、大数据爱好者、人工智能从业人员、计算机软件应用专业的在读大学生等参阅。
网络图的表征能力异常强大,它能够对事物之间任意类型的相互作用关系进行建模,因此网络图数据在生物信息、交通网络、科研合作、万维网和社交网络等领域的一系列实际场景中随处可见。图数据挖掘用于从图数据中发现有用的信息和知识。然而,网络中节点和链路及其半结构形式的复杂性在各种计算任务,如节点分类、链路预测和图分类等方面提出了挑战。在这一背景下,研究人员最近提出了各种前沿的图机器学习算法,包括图嵌入和图神经网络,显著地提升了图数据挖掘的性能。 《图数据挖掘:算法、安全与应用》提供了对图数据挖掘方法的**评述,在此基础上引申出一个前沿课题,即图数据挖掘的安全性问题,并介绍了一系列检测方法来识别图数据中的对抗样本。此外,它向读者介绍了图数据增强和子图网络以进一步增强模型,即提高其准确性和鲁
"数据科学项目日益增多,每个项目在提出原型到生产的过程中都需要可靠的基础设施。使用《Effective数据科学基础设施》介绍的一些新技术和新工具,你将能建立一个适用于各类组织(无论是初创企业还是大型企业)的基础设施堆栈。 《Effective数据科学基础设施》可帮助你建立数据流程和项目工作流,为你开发项目带来强大动力。《Effective数据科学基础设施》呈现Netflix数据操作的**进工具和概念,并在此基础上介绍一种可定制的基于云的模型开发和MLOps方法,可轻松适应公司的特定需求。当团队把数据科学和机器学习应用于广泛的业务问题时,这些实用的数据流程将更高效地生成更完美的结果。 主要内容 ● 在云中处理计算和编排 ● 将基于云的工具耦合到一个内聚的数据科学环境中 ● 使用Metaflow、AWS和Python数据生态系统开发可复制的数据科学项目 ● 构建需要大型
Hive是基于Hadoop的一个数据仓库工具,用来进行数据的提取、转换、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive能将结构化的数据文件映射为一张数据库表,并能提供SQL查询分析功能,将SQL语句转换成MapReduce任务来执行,从而实现对数据进行分析的目的。本书配套示例源码、PPT课件、教学大纲。本书可作为Hive数据仓库初学者的入门书,也可作为Hive大数据分析与大数据应用开发工程师的指导手册,还可作为高等院校或者高职高专计算机技术、人工智能、大数据技术及相关专业的教材或教学参考书。 《Hive入门与大数据分析实战》共分11章,内容包括数据仓库与Hive、Hive部署与基本操作、Hive语法基础、Hive数据定义、Hive数据操作、Hive查询、Hive函数、Hive数据压缩、Hive调优、基于Hive的网站流量分析项目实战、旅游酒店评价大数据分析项
数据科学伦理是关于人们在进行数据科学方面的行为的道德规范。到目前为止,数据科学主要应用于企业和社会并产生了积极成果。 然而,就像任何技术一样,数据科学也带来了一些负面后果:隐私侵犯的增加,对敏感群体的数据驱动的歧视以及使用不可解释的复杂模型做出决策。 没有哪个数据科学家和业务经理是天生不道德的,只是他们没有接受过培训来考虑他们在工作中的伦理问题 本书旨在填补这个越来越重要的空白和解释不同的概念和技术,帮助读者理解从k-匿名和差别隐私到同态加密和零知识证明等技术已可以解决隐私侵犯问题,消除敏感群体歧视和提供各种可解释的人工智能。 现实生活中的警世故事进一步说明了数据科学伦理的重要性和潜在影响,包括种族主义机器人的故事、搜索审查和人脸识别等。本书中穿插着结构化的练习,提供假设的场景和
本书从需求规划、需求实现到可视化展示等,遵循项目开发的主要流程,全景介绍了电商行业Flink实时数据仓库的搭建过程。在整个项目的搭建过程中,介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并穿插了大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、电商业务概述、数据仓库理论介绍和数据仓库建模等。最核心的内容是代码中对Flink的灵活应用,为读者展示了Flink处理数据的多种可能性。本书最后还详细讲解了项目的性能调优技巧和实战案例,帮助读者掌握更多的实战经验。 本书适合具有一定编程基础的读者学习或作为参考资料,通过本书,可以使你快速了解实时数据仓库,全面掌握实时数据仓库的相关技术。
《专业SCRUM:敏捷要领与项目实践》分为8 章,分别介绍了如何持续改进Scrum 实践,如何打造坚实的团队基础、如何交付 完成 的产品增量、如何提高交付的价值、如何改进计划、如何帮助Scrum 团队改进和成长、组织如何改进以及如何实现业务敏捷。无论是Scrum Master、团队还是产品负责人,都可以借鉴书中提供的大量实用性建议,克服常见的难题,持续改进Scrum 实践。
近年来,生物医学和健康科学中大数据的使用得到了广泛关注。这些数据为改进各种疾病诊断、治疗和预防以及改善健康干预措施提供了重要的机会。然而,这些敏感信息的隐私和安全,也存在一定风险。本书简要概述了大数据的一些机遇和挑战,以及随着这一领域的发展,需要解决或调查的一些关键问题。
随着云技术的迅猛发展和普及,商业组织正面临着满足用户需求的巨大挑战。本书深入探讨了云技术在数字化社会中的重要地位和创新应用。通过研究、创新和发展的视角,本书引领读者走进云技术的前沿,揭示了其在构建下一代卓越计算环境中的关键作用。书中汇集了多位专家学者的研究成果和实践经验,为读者提供了宝贵的洞察和指导。无论是对于云计算领域的专业人士,还是对于对数字化社会感兴趣的读者,本书都是一本不可或缺的参考书。通过阅读本书,您将深入了解云技术在数字化社会中的影响和价值,激发您的创新思维,为您在未来的技术革新中取得卓越成就打下坚实的基础。
《Spark入门与大数据分析实战》基于Spark 3.3.1框架展开,系统介绍Spark生态系统各组件的操作,以及相应的大数据分析方法。《Spark入门与大数据分析实战》各章节均提供丰富的示例及其详细的操作步骤,并配套示例源码、PPT课件和教学大纲。 《Spark入门与大数据分析实战》共分11章,内容包括Scala编程基础、Spark框架全生态体验、Spark RDD、Spark SQL、Kafka、Spark Streaming、Spark ML、Spark GraphX、Redis等技术框架和应用,并通过广告点击实时大数据分析和电影影评大数据分析两个综合项目进行实战提升。 《Spark入门与大数据分析实战》适合Spark框架初学者,既可以作为大数据分析技术、大数据应用开发工程师的查询手册,也可以作为高等院校或高职高专计算机技术、软件工程、数据科学与大数据科学、智能科学与技术、人工智能等专业大数据课程的教材。
这些年,随着工业互联网、人工智能科技的迅猛发展,企业数字化转型是大势所趋。而企业资源计划(Enterprise Resource Planning,ERP)是信息化时代企业 重要的管理层信息系统,在数字化时代同样也是扮演着 重要的角色,依然是企业的数据枢纽。ERP为企业的信息化建设提供了一种系统的集成解决方案。本书力求从务实的角度,系统地阐述ERP的原理、设计与实施理论,为企业管理者、IT人员提供理论参考,推动ERP应用的健康发展。本书对ERP相关知识的讨论涵盖了原理、设计与实施的全部过程。前5版图书出版后均引起了很大的社会反响,作者收到大量读者来信,并与读者进行了良好的交互。鉴于工业互联网、人工智能、区块链等技术的高速发展给ERP及企业信息化带来的冲击与变革,本书再次改版。本书适合企业的各层领导、项目经理、系统分析员及 程序员阅读,也可作为
对数据生产和大数据处理带来的挑战,是当代社会和人工智能时代的重点。大数据的快速发展、信息共享和社交媒体的大众化带来了各方面的风险和挑战。我们需要遵循正确的流程、方法和沟通战略 且手头的数据必须准确,才能推演出高价值的结论。而数据越多,我们面临的陷阱可能就越深。在本书中,杰森?辛克从数据通用和收集的策略、数据分析的准则、数据展示的策略出发,讨论了应对数据挑战、获得和洞察数据的价值和内涵的可行方式。
本书是一本关于数据流挖掘与在线学习算法的著作,该书全面、系统阐述了数据流机器学习的模型、算法、平台与实例。全书共10 章,分为4 个部分:第1 部分包括第1~3 章,介绍数据流机器学习基础知识;第2 部分(第4~6章)介绍基于频繁模式的数据挖掘与在线学习算法;第3 部分是基于模型的在线学习算法,包括第7 章在线稀疏学习模型和第8 章在线低秩表示模型;第4 部分(第9、10 章)介绍基于实例的数据流概念演变检测和在线学习算法。对每种典型在线学习算法的背景、模型定义、算法设计思想以及相关实验分析等,书中都有都完整的阐述。同时,也详细分析了一些与在线学习密切相关的离线数据挖掘和机器学习算法与应用。 本书的实验平台开源、简单易用。每章后面都设计了操作性强的课程实验。在图书 下载专区 目录下,免费提供了本书代码和相关教学
《SQL Server数据库应用(全案例微课版)》是针对零基础读者编写的SQL Server入门教材,侧重案例实训,并提供扫码微课来讲解当前热门的案例。 《SQL Server数据库应用(全案例微课版)》分为20章,内容包括初识SQL Server 2019,SQL Server数据库,数据库中的数据表,Transact-SQL语言基础,掌握Transact-SQL语句,规则、默认值和完整性约束,数据的插入、更新和删除,Transact-SQL查询数据,系统函数与自定义函数,创建和使用视图,索引的创建和使用,存储过程的创建与应用,创建和使用触发器,创建和使用游标,事务和锁的应用,用户账户及角色的管理,数据库的备份与恢复,数据库的自动化管理,新闻发布系统数据库设计,开发教务选课系统。 《SQL Server数据库应用(全案例微课版)》通过精选热门案例,可以让初学者快速掌握SQL Server数据库应用技术。
本书通过理论与实践相结合的方式,深入浅出地介绍了文件系统的概念、原理和具体实现。本书涵盖本地文件系统、网络文件系统、分布式文件系统和对象存储等内容,可以说涵盖了数据持久化文件系统的主要领域。为了使读者 加深入地理解文件系统的原理,本书不仅介绍了文件系统的原理和关键技术,还结合开源项目介绍了文件系统的实现细节。 ,本书介绍了在互联网领域广泛使用的对象存储、承载海量访问请求的原理及可存储海量数据的架构。希望读者通过阅读本书对文件系统有全面、深入的认识。本书既可以作为文件系统及其他存储系统开发人员的指导用书,也可以作为软件架构师、程序员和 Linux 运维人员的参考用书。
《SAS数据分析》详细阐述了与SAS数据分析相关的基本解决方案,主要包括SAS编程入门,数据操控和转换,合并、索引、加密和压缩技术,统计、报表、转换过程和函数,高级编程技术:SAS宏,函数、选项和自动变量,Proc SQL高级编程技术,深入理解Proc SQL,数据可视化,报表机制和数据传输系统等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。 本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学用书和参考手册。
本书共包括7章,涵盖了从基础理论到实际应用的 内容。第1章深入探讨了大模型的基础理论。第2章和第3章专注于Llama 2大模型的部署和微调,提供了一系列实用的代码示例、案例分析和 实践。第4章介绍了多轮对话难题,这是许多大模型开发者和研究人员面临的一大挑战。第5章探讨了如何基于Llama 2 行业大模型,以满足特定业务需求。第6章介绍了如何利用Llama 2和LangChain构建高效的文档问答模型。第7章展示了多语言大模型的技术细节和应用场景。本书既适合刚入门的学生和研究人员阅读,也适合有多年研究经验的专家和工程师阅读。通过阅读本书,读者不仅能掌握Llama 2大模型的核心概念和技术,还能学会如何将这些知识应用于实际问题,从而在这一快速发展的领域中取得优势。
本书共包括7章,涵盖了从基础理论到实际应用的 内容。第1章深入探讨了大模型的基础理论。第2章和第3章专注于Llama 2大模型的部署和微调,提供了一系列实用的代码示例、案例分析和 实践。第4章介绍了多轮对话难题,这是许多大模型开发者和研究人员面临的一大挑战。第5章探讨了如何基于Llama 2 行业大模型,以满足特定业务需求。第6章介绍了如何利用Llama 2和LangChain构建高效的文档问答模型。第7章展示了多语言大模型的技术细节和应用场景。本书既适合刚入门的学生和研究人员阅读,也适合有多年研究经验的专家和工程师阅读。通过阅读本书,读者不仅能掌握Llama 2大模型的核心概念和技术,还能学会如何将这些知识应用于实际问题,从而在这一快速发展的领域中取得优势。
本书介绍了智能化海洋物联网云服务体系架构、云服务模式以及基于云服务的海洋物联网典型业务应用。本书以智能化海洋物联网应用系统关键技术研究与应用示范项目为支撑,通过科研实践,将海洋物联网与云计算技术融合运用,构建了智能化海洋物联网云服务体系,拓展了海洋物联网ICT资源共享和云服务模式。其中,在资源共享内容中将海洋物联网感知设施、通信设施与云计算设施统筹运用,提供了泛在的海洋物联网基础设施即服务(IaaS);在云计算服务内容中根据海洋物联网业务应用需求,提供了更为丰富的服务模式,包括海洋物联网跨域通信服务,简称通信即服务(CaaS);岸海孪生数据服务,简称数据即服务(BaaS);基于区块链技术的海洋信息安全服务,简称区块链即服务(BaaS)等多种服务。本书能够为海洋信息化领域相关研究提供一定的帮助,也能
本书从数据可视化与仪表板设计基础着手,详细介绍 Power BI 三大模块:Power Query、PowerPivot 和 Power View。然后通过\"一简一繁”两大实战案例,使读者由浅入深地掌握 Power BI的各项功能,动手制作出有设计感的仪表板报告。本书按照由易到难、循序渐进的教学方式,多处对比 Excel,解释 Power BI 核心计算原理,以案例实战为引导,清晰地展示了 Power BI 数据分析及仪表板设计的整体流程。 本书结构清晰、通俗易懂,讲解层层递进,设计美观大方,适合 Power BI 入门及进阶读者。本书面向在校大学生、数据分析相关岗位从业者、亟待提升数据分析及可视化能力的职场白领。