本书是一本从理论到实践的全面且细致的企业数据驱动指南,作者见证并献身百度大数据的建设,毫无保留地将成败摸索实践的真实场景进行完整还原,并对近十年大数据从业经验与心得做了归纳和总结,同时详解大数据本质、理念与现状,并围绕数据驱动四环节——采集、建模、分析、指标,深入浅出地讲述企业如何从零到一将完整的数据驱动方案落地,全面展示大数据在各领域内的应用情况与趋势展望。
本书提供了在线生产环境的PostgreSQL数据库的常见问题和故障快速解答,这些都基于作者作为PostgreSQL数据库培训师、用户和核心开发人员时的经验积累。每个技术都被拆分为小的方法或建议,先给出包含可工作代码的演示解决方案,然后解释这样做的原因及工作原理。本书意在成为新用户和技术专家的桌面参考手册。本书涵盖了PostgreSQL 9 所有的新功能。
《高级数据结构(C++版)/青少年信息学奥林匹克竞赛实战辅导丛书》在基本数据结构的基础上,围绕一些常用的数据结构,结合大量实战例题,深入分析“数据结构是如何服务于算法的”。 《高级数据结构(C++版)/青少年信息学奥林匹克竞赛实战辅导丛书》主要内容包括:哈希表、树与二叉树、队列与堆、并查集、线段树、树状数组、伸展树、Treap、AVL树、红一黑树、SBT、块状链表与块状树、后缀树与后缀数组、树链剖分与动态树等。 《高级数据结构(C++版)/青少年信息学奥林匹克竞赛实战辅导丛书》的适用对象包括:中学信息学竞赛选手及辅导老师、大学ACM比赛选手及教练、高等院校计算机专业的师生、程序设计爱好者等。
Hadoop正在成为数据中心进行大型数据处理的实际标准,但市场中却一直缺少关于它的详细操作说明书。《Hadoop技术详解》作者Eric Sammer系Cloudera公司的首席架构师,全书将从计划、安装、配置Hadoop系统开始讲起,一直深入到系统调试、维护等方面的知识,向读者展示了Hadoop生产运行环境的详细情况。同时,《Hadoop技术详解》并不只是简述所有的操作工序,而是突出示范了关键部署中的关键操作。 《Hadoop技术详解》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。
《高级数据结构(C++版)/青少年信息学奥林匹克竞赛实战辅导丛书》在基本数据结构的基础上,围绕一些常用的数据结构,结合大量实战例题,深入分析“数据结构是如何服务于算法的”。 《高级数据结构(C++版)/青少年信息学奥林匹克竞赛实战辅导丛书》主要内容包括:哈希表、树与二叉树、队列与堆、并查集、线段树、树状数组、伸展树、Treap、AVL树、红一黑树、SBT、块状链表与块状树、后缀树与后缀数组、树链剖分与动态树等。 《高级数据结构(C++版)/青少年信息学奥林匹克竞赛实战辅导丛书》的适用对象包括:中学信息学竞赛选手及辅导老师、大学ACM比赛选手及教练、高等院校计算机专业的师生、程序设计爱好者等。
在如今的社会,大数据的应用越来越彰显它的优势,它的应用范嗣也越来越广,如电子商务、O20、物流配送等,在物理学、生物学、环境生态学等领域以及军事、金融、通信等行业也有涉及。本书以云计算与大数据基础开篇,简单介绍了分布式文件系统HDFS与NoSQI.数据库技术,重点对分布式计算框架MapReduce、Hadoop技术、云数据中心、大数据与数据挖掘技术进行了阐述。本书叙述语言简洁、逻辑清楚、内容详尽,是一本值得学习研究的著作。
本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
本书以“酒店客房管理系统”为案例,以实际工作过程所需要的数据库知识和技能为出发点,结合教学对象的特点,通过对实例任务进行解析学习相关知识点。本书共设计了十个学习项目,包括数据库系统设计、创建和管理数据库、创建和管理数据表、数据的查询、创建和使用视图、数据库编程、创建和使用存储过程、创建和使用触发器、维护和管理数据库以及数据库项目案例——网上书店数据库管理系统,其内容基本覆盖了SQL Server 2019数据库入门所需的知识点。 本书既可作为高职高专院校和成人教育学院SQL Server课程的教材,也可以作为SQL Server培训班和职业资格等级考试或认证考试的培训教材,还可供自学考试人员、数据库应用系统开发设计人员、工程技术人员及其他相关人员参阅。
本书是针对于非统计科班出身的企业人员讲述数据分析和挖掘的著作,也是诸多数据挖掘书籍中为数不多的穿插大量真实实践应用案例和场景的著作。全书分为三大部分: 部分是基础篇(章和第2章),主要介绍数据分析的概念、术语、方法、模型等,为后续的内容展开奠定基础。 第二部分是制表篇(第3章~第5章),介绍数据的采集原则、数据整理以及常用数据报表的制作方法和技巧。 第三部分是数据分析篇(第6章~4章),这是本书的重点内容,囊括了从数据扫描、数据标注到异常值分析、回归等常用的、有代表性的功能,并以案例形式展示在数据分析过程中使用上述功能的思路、方法和技巧,指导读者进行实战操练。
世界上的大部分领域实际上都可以建模成图,而软件开发人员或是数据库管理人员却在辛辛苦苦地将这些图转化成关系型数据库中的表。想象一下,假如你再也不用去做这样的转化,假如数据库的迁移可以变得轻松简单,你愿意去接受一个全新的数据库吗?图数据库就是这样一个完全不同于关系型数据库的新型数据库,它处理的是大规模的数据和不断变化的需求,并且拥抱它们。 本书系统地介绍了图数据库的历史由来、建模方法、工作原理和一些真实的用户用例,详细地说明了图数据解决的是什么样的问题,并以Neon4j数据库和Cypher查询语言为例,阐述了图数据库的建模方法和领域用例,还介绍了图数据库的工作原理以及一些实用的图论算法。 本书的三位作者均为Neo4j Technology公司的技术高手,分别为工程师、CTO和CEO。他们对图数据库及其解决方案有丰富的
本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
《洞见数据价值:大数据挖掘要案纪实》是国际知名咨询公司毕马威的大数据团队的集大成之作,内容丰富,观点新颖,贴近大众生活、工作与学习实际场景,内容不拘泥于技术阐释,通过寓教于乐的方式,以丰富翔实的案例来解析大数据挖掘,尽量通过常见的场景来阐述数据的价值与意义。章介绍大数据在银行业、征信业、审计、传统制造业、互联网行业、舆情监控、影视业、环保产业以及体育产业等多个领域的应用方案和前景。第2章重点介绍大数据分析在商业工作和营销推广中的作用。第3章介绍大数据挖掘过程中涉及的数据的前期准备工作,重点介绍数据准备工作的要点和诀窍。第4章结合业务、生活、娱乐,寓教于乐,介绍大数据的实际应用方式。附录部分介绍一位数据工作者的成长之路,向感兴趣的读者介绍从事数据工作应该具备的素质和掌握的技能。《
数据分析实战由实战经验丰富的两位数据分析师执笔,数据分析实战首先介绍了商业领域里通用的数据分析框架,然后根据该框架,结合8个真实的案例,详细解说了通过数据分析解决各种商业问题的流程,让读者在解决问题的过程中学习各种数据分析方法,包括柱状图、交叉列表统计、AB测试、多元回归分析、逻辑回归分析、聚类、主成分分析、决策树分析、机器学习等。特别是书中使用的数据都是未经清洗的原始数据,对如何加工数据以用于数据分析也进行了详细的介绍。读者可以使用R语言实际操作数据,体验真实的数据分析流程,避免纸上谈兵。
当清廉成为一种全社会共有的风尚追求,正气便会充盈生命,清廉便能惠及中国。本书从企业自身发展和综合实力的角度来研究国有企业的党风廉洁建设,创新性提出了“廉实力”的概念,阐述其内涵、研究意义和提升途径,对其面临的风险类型、风险特征及其产生原因进行分析;在此基础上构建了国有企业廉实力评价指标体系和风险预警体系;对于廉实力的受损风险,结合国有企业的发展现状提出了有针对性的预防和控制措施;后,以某大型国有企业为案例进行廉实力评价分析,以解释说明该评价指数和风险预警体系的具体应用。
本书系统地介绍了Hadoop、Spark、Flink等开源大数据组件的相关知识和实践技能。全书共9章,涉及大数据采集、大数据存储与管理、大数据处理与分析等大数据应用生命周期中各阶段典型组件的部署、使用和基本编程方法,内容包括部署全分布模式Hadoop集群、HDFS实战、MapReduce编程、部署ZooKeeper集群和ZooKeeper实战、部署本地模式Hive和Hive实战、Flume实战、Kafka实战、Spark集群部署和基本编程、Flink集群部署和基本编程等。 本书内容翔实,案例丰富,操作过程详尽,面向高等院校计算机、大数据、人工智能等相关专业的研究生、本科生,可以作为大数据技术类课程的教材,也可以作为实验指导书或教学辅助用书,同时也可供相关技术人员参考。