本书着眼于真实的案例和真实的数据。每章通过对一个实际问题的描述和讨论引出特定的预测分析模型,分析的结果通过可视化图表进行展示,章节末尾提供了R语言编写的应用程序。通过对建模技术和编程工具的实际演示,把抽象化的概念转化为具体的例子,让这些可以成功运行的案例程序更易于理解。 本书不但适合计算机、统计等相关专业选作教材,还适合进行公司决策分析、大数据分析等的相关人员参考阅读。
《MySQL数据库应用与项目开发教程》按照读者的认知过程编排内容,由浅入深,详细得当。概念、方法、步骤都用实例说明,易于理解。对于数据库各种对象的创建方法和步骤,仅在重要处详细介绍,其他地方从略。 《MySQL数据库应用与项目开发教程》系统、全面地介绍了MySQL的实用技术,围绕“教务管理系统”的实施展开,以理论联系实际的方式,从具体问题分析开始,在解决问题的过程中讲解知识,介绍操作技能。全书分为项目实践篇、拓展应用篇,项目实践篇共有10章,包含15个课堂实践,基本实践任务(数据库的创建和管理,表的创建与管理)侧重于数据库的应用,面向数据库管理员岗位;主要实践任务(数据查询,存储过程和触发器等)侧重于数据高级查询和编程,面向应用软件开发人员,全书的示例均使用SQL语句实施和管理。拓展应用篇共有2章,分
本书分为部分,共九章。第壹部分(章)主要介绍了企业大数据系统的前期准备工作,包括如何构建企业大数据处理系统的软件环境和集群环境。第二部分(第2~7章)首先介绍了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多种优化方式;然后,介绍了Druid的基本原理、集群的搭建过程、数据摄入过程,以及在查询过程中如何实现Druid查询API;接着介绍了日志收集系统Flume的基本架构和关键组件,以及分层日志收集架构的设计与实践;后介绍了分布式消息队列Kafka的基本架构和集群搭建过程,以及使用Java语言实现客户端API的详细过程。第三部分(第8~9章)主要介绍了企业大数据处理的两个实际应用案例,分别是基于Druid构建多维数据分析平台和基于JMX指标的监控系统。
本书通过浅显易懂的叙述方式和大量的图示,详细介绍了网站分析的关键技术要点,包括: 网站分析中重要的数据、网站数据分析的工具、网站分析工具的使用技巧以及分析数据的方法。本书共分为11章,首先让读者了解网站分析的作用和做网站分析必须了解的一些重要指标;然后介绍目前广泛使用的网站分析工具——百度统计,并对百度统计中各种维度的分析报告进行详细的阐述,包括推广报告、趋势报告、来源报告、网页分析报告、访客分析报告和各种优化报告,等等。本书内容丰富、语言简洁、图文并茂,适合广大网络营销初学者及从事网络推广的企业和个体阅读,是站长和广大网站运营人员的手册。
金融从业者每天都要与海量的数据打交道,如何从这些数据中挖掘出需要的信息,并进行相应的分析,是很多金融从业者非常关心的内容。本书以功能强大且较易上手的Python语言为编程环境,全面讲解了金融数据的获取、处理、分析及结果呈现。 全书共16章,内容涉及Python基础知识、网络数据爬虫技术、数据库存取、数据清洗、数据可视化、数据相关性分析、IP代理、浏览器模拟操控、邮件发送、定时任务、文件读写、云端部署、机器学习等,可以实现舆情监控、智能投顾、量化金融、大数据风控、金融反欺诈模型等多种金融应用。无论是编程知识还是金融相关知识,本书都力求从易到难、循序渐进地讲解,并辅以商业实战案例来加深印象。 本书定位为一本金融科技入门读物,但书中的数据挖掘与分析思想对其他行业来说也具备较高的参考价值。本书又是一个金融
本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。 本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。
本书从Power BI的基础功能讲起,逐步深入到Power BI进阶实战,以业务案例为导向,以Power BI桌面版操作为基础进行讲解,深入讲述Power BI在各个业务部门的应用。本书包括7篇共21章内容,分业务场景进行讲解。篇用1章内容讲述Power BI基础操作,方便读者快速入门;第2篇用4章内容讲述如何用Power BI爬取天气、电影、销售、股票等数据;第3篇用4章内容讲述销售部门如何用Power BI分解销售目标,分析业绩达成、会员RFM和业绩构成;第4篇用5章内容讲述产品相关应用,包括存货分析、帕累托分析、关联分析、款分析和数据化陈列;第5篇用2章内容讲述在财务方面的应用,包括盈亏平衡分析和上市公司利润表分析;第6篇用3章内容讲述人力资源应用,包括人员结构及离职率分析、新员工分析和考勤分析;第7篇用2章内容讲述简化报告的技巧。
“大数据”近年成为IT领域的热点话题,人们每天都会通过互联网、移动设备等产生大量数据。如何管理大数据、掌握大数据的核心技术、理解大数据相关的生态系统等,是作为大数据开发者必须学习和熟练掌握的。本系列书以“大数据开发者”应掌握的技术为主线,共分两卷,以7个模块分别介绍如何管理大数据生态系统、如何存储和处理数据、如何利用Hadoop工具、如何利用NoSQL与Hadoop协同工作,以及如何利用Hadoop商业发行版和管理工具。本系列书涵盖了大数据开发工作的核心内容,全面且详尽地涵盖了大数据开发的各个领域。 本书为卷,共4个模块,分别介绍大数据基础知识、大数据生态系统的管理、HDFS和MapReduce以及Hadoop工具(如Hive、Pig和Oozie等)。本书适用于想成为大数据开发者以及所有对大数据开发感兴趣的技术人员和决策者阅读。
数据新闻作为一种新型的新闻报道形式,弥补了传统新闻或叙事性新闻无法呈现的效果。数据新闻采用可视化的方法将单调的数据用一种直观、便于理解、更具说服力的方法呈献给读者。大量的数据比采访几十个对象获取的信息更多,做出的结论更客观易懂,也更容易阐明观点。 本书介绍在大数据环境下数据新闻的制作流程。以丰富的实践案例解析数据新闻的制作理念和方法。紧密围绕新闻人在制作数据新闻中的实际需求,全面介绍了数据新闻概述,获取数据的工具和方法,使用Openrefine清理和分析数据,数据质量分析,使用Tableau实现数据分析及可视化,以及标签云、关系图制作、Echarts和HTML5等其他数据新闻制作工具。 本书理论与实践结合,偏重数据新闻的具体制作方法。不仅包含的理论知识,而且包含具体的实践案例,多角度启发和引导读者的创新思维,增
本书以网络安全中主要子领域为主线,以数据挖掘算法为基础,搜集了大量基于数据挖掘的网络安全技术研究成果,汇编了数据挖掘技术在隐私保护、恶意软件检测、入侵检测、日志分析、网络流量分析、网络安全态势评估、数字取证等网络安全领域的应用,介绍了常用的网络安全数据集,并搜集了大量的网络安全资源,以供读者能将本书内容应用于实际的研究或学习中。本书可作为研究人员、网络安全工程人员和对基于数据挖掘的网络安全技术感兴趣的研究生的参考书,也可作为高等院校高年级课程的教学用书,还可供相关领域工作的读者参考。
本书向读者提供了一套完整的大数据时代背景下的搜索引擎解决方案,详尽地介绍了搜索引擎的技术架构、算法体系及取得的效果,以模块化的方式进行组织。着重介绍了机器学习在搜索引擎中的应用,包括中文分词、聚类、分类等核心的机器学习算法,并结合示例加以介绍和分析,使读者可以更好地理解机器学习在搜索引擎中的价值。还阐述了大数据给搜索引擎带来的新特性,结合目前大数据分析的主流工具,在搜索引擎中构建知识图谱,以及进行日志反馈学习机制,使得搜索引擎更加智能。本书适合作为互联网行业从业者的技术参考书,也适合作为搜索引擎爱好者的参考读物。
金融从业者每天都要与海量的数据打交道,如何从这些数据中挖掘出需要的信息,并进行相应的分析,是很多金融从业者非常关心的内容。本书以功能强大且较易上手的Python语言为编程环境,全面讲解了金融数据的获取、处理、分析及结果呈现。 全书共16章,内容涉及Python基础知识、网络数据爬虫技术、数据库存取、数据清洗、数据可视化、数据相关性分析、IP代理、浏览器模拟操控、邮件发送、定时任务、文件读写、云端部署、机器学习等,可以实现舆情监控、智能投顾、量化金融、大数据风控、金融反欺诈模型等多种金融应用。无论是编程知识还是金融相关知识,本书都力求从易到难、循序渐进地讲解,并辅以商业实战案例来加深印象。 本书定位为一本金融科技入门读物,但书中的数据挖掘与分析思想对其他行业来说也具备较高的参考价值。本书又是一个金融
本书从架构、业务、技术三个维度深入浅出地介绍了大数据处理领域端到端的知识。主要内容包括三部分:部分从数据的产生、采集、计算、存储、消费端到端的角度介绍大数据技术的起源、发展、关键技术点和未来趋势,结合生动的业界产品,以及学术界的研究方向和成果,让深奥的技术浅显易懂;第二部分从业务和技术角度介绍实际案例,让读者理解大数据的用途及技术的本质;第三部分介绍大数据技术不是孤立的,讲解如何与前沿的云技术、深度学习、机器学习等相结合。
本书是由中国电子技术标准化研究院联合中国计算机用户协会数据中心分会编的系列蓝皮书之一。本书对中国数据中心的历史沿革、行业状况、发展趋势进行了阶段性的回顾和深入剖析,是对中国数据中心截至2018年年底发展状况的阶段性总结,是中国数据中心建设经验的翔实记录和未来发展的积极指引。本书是全面介绍我国数据中心产业政策和数据中心基础设施设备发展及应用情况的本蓝皮书,将对数据中心行业的发展起到重要的指导作用,适合数据中心相关从业人员阅读参考。