本书以互联网企业中常见数据运营场景为切入点,以工作中实际面临解决的问题为案例,从方法、技术、业务、实践4个维度讲述数据运营的场景及应用方式。书中从实践出发,结合工作中数据运营经验,以应用案例为主线,通过业务分析 代码实践这种更“接地气”的方式讲述数据的应用。书中对于搭建数据监控指标体系、数据分析、数据挖掘、ABTest、埋点策略、用户画像建模等常见数据运营方式做了详细的介绍。
本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS 中的坏数据的解决方案,以及使用书中介绍的方法清洗来自Twitter 和Stack Overflow 的数据。
如今,我们要面对和使用的数据正在变得越来越庞大和复杂。如果说数据是新的石油。那么数据库就是油田、炼油厂、钻井和油泵。作为一名现代的软件开发者,我们需要了解数据管理的新领域,既包括RDBMS,也包括NoSQL。 本书遵循《七周七语言》的写作风格和体例,带领你学习和了解当令最热门的开源数据库。在简单的介绍之后,本书分章介绍了7种数据库。这些数据库分别属于5种不同的数据库风格,但每种数据库都有自己保存数据和看待世界的方式。它们依次是PostgreSQL、Riak、ApacheHBase、MongoDB、ApacheCouchDB、Neo4J和Redis。本书将深入每一种数据库,介绍它们的优势和不足,以及如何选取一种你的应用需求的数据库。 本书适合数据库架构师、数据库管理员,以及想要了解和学习各种NoSQL数据库技术的程序员阅读。本书将帮助读者了解、选择和应用这些数据库,从而更
堪称相关行业的“动向”和“密码”的“大数据”究竟是什么?为什么如此受众人关注?未来大数据将改变什么?本书以图解的方式为大家详细解读众人关注的焦点——大数据。 大数据不仅仅是行业的热门话题,也是各行各业关注的焦点。因为它不仅改变了社会,也改变了我们的生活和工作方式。大数据还可应用于各个领域,比如气象预测、预防犯罪、医疗领域等,其功能无比强大。读完本书,你将读懂什么是大数据!
本书提供了监控、分析和优化Oracle Database 10g的方法,书中包含了详细的案例研究、实践和丰富的Oracle新的调整特性的代码示例。通过对本书的学习,读者可以了解到如何选择化的索引选项,有效地管理驱动器和磁盘阵列,对查询执行故障检修,以及可靠地预测将来的性能。本书还将详细介绍PL/SQL性能增强、初始化文件调整,以及的数据库调查和报告使用程序。
本书分为8个项目,内容包括:初识Access数据库、创建数据库和表、查询的创建与应用、窗体的创建与应用、报表的创建与应用、宏的使用、数据安全与数据交换、“进销存管理系统”的实现。
互联网的蓬勃发展,业务驱动技术不断升级,在系统越来越庞大,技术越来越复杂,应用部署集群化,所有压力指向数据库,数据量巨大,数据库优化也到极限了,数据库的运维难以为继,在这种情况下,分布式数据库似乎成为的解决方案。为了解决传统数据库的分布式化这个技术难题,各种数据库中间件应运而生,从早期的Amoeba、TDDL、Cobar,到如今的Mycat,技术日新月异,发展迅猛。Mycat已经成为了一个强大的开源分布式数据库中间件产品。面对企业应用的海量数据事务处理,是目前的开源解决方案。支持多种数据库,开发活跃,已有数百个项目使用,预期Mycat的采用将有爆发式增长趋势。所以Mycat开源社区核心开发者共同撰写了本书,帮助企业更好的使用Mycat中间件架构企业分布式数据库系统。
数据新闻作为一种新型的新闻报道形式,弥补了传统新闻或叙事性新闻无法呈现的效果。数据新闻采用可视化的方法将单调的数据用一种直观、便于理解、更具说服力的方法呈献给读者。大量的数据比采访几十个对象获取的信息更多,做出的结论更客观易懂,也更容易阐明观点。 本书介绍在大数据环境下数据新闻的制作流程。以丰富的实践案例解析数据新闻的制作理念和方法。紧密围绕新闻人在制作数据新闻中的实际需求,全面介绍了数据新闻概述,获取数据的工具和方法,使用Openrefine清理和分析数据,数据质量分析,使用Tableau实现数据分析及可视化,以及标签云、关系图制作、Echarts和HTML5等其他数据新闻制作工具。 本书理论与实践结合,偏重数据新闻的具体制作方法。不仅包含的理论知识,而且包含具体的实践案例,多角度启发和引导读者的创新思维,增
本书针对大多数企业常见的Oracle数据库管理任务,如安装Oracle Database 11g数据库软件、创建和升级数据库、导入和导出数据、数据库的备份与恢复以及性能调优等,全面深入地介绍了Oracle Database 11g数据库管理工作。书中详细介绍了Oracle的安装、用户管理、备份和恢复、数据库管理、性能调优等内容。 本书是Oracle管理方面的指南,适合各个层次的Oracle数据库应用开发人员或DBA。
本书结合理论和实践,由浅入深,多方面介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。本书是一本很好不错、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的很新发展和应用,程序员可以
本书由斯坦福大学知名计算机科学家Jeffrey Ullman和JenniferWidom合作编写。本书首先介绍流行的关系数据库和对象关系数据库内容,涉及关系数据模型、E/R模型、UML模型以及对象模型等高级数据模型。然后介绍了有关半结构化数据组织管理中比较流行的XML等内容,既包括了数据组织模型的内容,也给出了相关编程语言,如XPath、XQuery、XSLT等。 本书举例丰富翔实,既可用作大学本科、研究生计算机及相关专业数据库课程的教科书,也可用作数据库领域技术人员的参考书。
本书以 MySQL 数据库的基础及维护为切入点,重点介绍了 MySQL 数据库应用系统的性能调优,以及高可用可扩展的架构设计。 全书共分3篇,基础篇介绍了MySQL软件的基础知识、架构组成、存储引擎、安全管理及基本的备份恢复知识。性能优化篇从影响 MySQL 数据库应用系统性能的因素开始,针对性地对各个影响因素进行调优分析。如 MySQL Schema 设计的技巧,Query 语句的性能优化方式方法及MySQL Server中SQL层和存储引擎层的优化思路。同时还分析了 MySQL 数据库中主要存储引擎的锁定机制。架构设计篇则主要以设计一个高可用可扩展的分布式企业级数据库集群环境为目标,分析介绍了通过 MySQL 实现这一目标的多种架构方式。主要包括可扩展和高可用两部分内容,可扩展部分包括设计原则、Replication 的利用、数据切分、如何使用 Cache 和 Search,以及 NDB Cluster等内容。高可用