本书是一本系统介绍Clickhouse的指导型工具书,全书总共分为11章: 第1章 介绍ClickHouse的由来、发展历程、核心特点与核心特点。第2~6章 介绍了ClickHouse基础使用部分,包括整体架构、如何安装、数据定义、数据引擎、数据查询和函数的特性和使用方法。第7~9章介绍了ClickHouse高级特性部分,包括数据库管理操作,数据分片、数据副本和高可用的特性和使用方法。第10~11章介绍了如果自己手动实现ClickHouse中间件的思路和示例,同时也介绍了几款可视化工具与ClickHouse集成的方法。
内容简介 这是一本写给互联网消费金融行业从业者的实战指南,从产品创新、业务架构、精细化运营、数字化转型等多个维度对互联网消费金融进行了有针对性的讲解。 作者是互联网消费金融领域的先行者和布道者,从行业兴起一直深耕至今,目前是知名互联网消费金融机构运营和技术负责人,对行业创新和应用架构有深刻理解,经验非常丰富,本书是他们多年从业经验的总结。 第1章简要介绍了互联网消费金融的核心概念、生态、趋势和痛点,旨在让读者对这个行业有一个整体认识; 第2章以构建成功的客户旅程为切入点,讲解了如何以用为为中心来设计互联网消费金融类产品,这是产品创新的关键; 第3~4章首先讲解了互联网消费金融的业务架构方法论,然后具体讲解了银行、消费金融公司、金融科技公司的互联网消费金融的业务架构; 第5~6章详细讲解了互联
本书首先介绍如何设置基本的数据科学工具箱,然后带你进入数据改写和预处理阶段,这一部分主要是阐明所有与核心数据科学活动相关的数据分析过程,如数据加载、转换、修复以及数据探索和处理等。通过主要的机器学习算法、图形分析技术,以及所有易于表现结果的可视化工具,实现对数据科学的概述。 本书对上一版内容进行了全面拓展和更新,涵盖新版的Jupyter Notebook、NumPy、pandas和Scikit-learn等的新改进。此外,还介绍了深度学习(借助在Theano和Tensorflow平台上运行的Keras库)、漂亮的可视化(使用Seaborn和 ggplot)和Web部署(使用bottle)等新内容。 本书行文过程以数据科学项目为主体,辅以整洁的代码和简化的示例,能帮助你理解与项目相关的潜在原理和实际数据集。
暂无内容简介。。。。。。
本书全面分析介绍了数字营销领域,不仅对新平台、新指标、新的度量方式进行了详细解析,而且通过多种数字营销案例对工具在解读消费者行为方面的全过程应用进行了详细地描述,同时对市场上不同类别的工具进行了简要推荐介绍。本书语言轻松自然、通俗易懂,适用于现代的、以数据为导向的市场营销从业人员,或市场营销专业的高校学生。
本书提供了一种简单、高效、通用的关系型数据库索引设计方法。作者通过系统的讲解及大量的案例清晰地阐释了关系型数据库的访问路径选择原理,以及表和索引的扫描方式,详尽地讲解了如何快速地估算SQL运行的CPU时间及执行时间,帮助读者从原理上理解SQL、表及索引结构、访问方式等对关系型数据库造成的影响,并能够运用量化的方法进行判断和优化,指导关系型数据库的索引设计。
本书概要介绍了如何使用Hadoop和Spark处理数据科学涉及的一系列主题:数据提取、数据再加工(datamunging,通常包含数据清洗和整合)、特征提取、机器学习、预测建模、异常检测和自然语言处理。整书侧重于具体的例子,并通过不同方式来提供对商业价值的洞察,全书共分三部分,第 一部分包括第1、2、3章,第二部分包括第4、5、6章,第三部分包括第7、8、9、10、11、12章,后在附录中提供了本书参考材料。
《数据库程序员面试笔试真题与解析》针对当前各大IT企业面试笔试中特性与侧重点,精心挑选了3年来近百家典型IT企业的数据库面试笔试真题。这些企业业务涉及系统软件、搜索引擎、电子商务、手机APP、安全关键软件等,所提供的数据库面试笔试真题非常具有代表性与参考性。同时,本书对这些题目进行了合理的划分与归类,并且对其进行了庖丁解牛式的分析与讲解,针对试题中涉及的部分重难点问题,本书都进行了适当地扩展与延伸,力求对知识点的讲解清晰而不紊乱,全面而不啰嗦,使读者不仅能够通过本书获取到求职的知识,还能更有针对性地进行求职准备,*终获得一份满意的工作。 《数据库程序员面试笔试真题与解析》是一本计算机相关专业毕业生面试、笔试的求职用书,同时也适合期望在计算机软、硬件行业大显身手的计算机爱好者阅读。
每年都有数百万个恶意软件文件被创建,每天都会产生大量与安全相关的数据,安全已经成为一个 大数据 问题。所以,当防范恶意软件时,为什么不像数据科学家那样思考呢? 在本书中,安全数据科学家约书亚 萨克斯和希拉里 桑德斯展示了在构建自己的检测和情报系统时,如何应用机器学习、统计和数据可视化等技术。在概述了静态和动态分析等基础逆向工程概念之后,你将学习如何度量恶意软件样本中的代码相似性,并使用scikit-learn和Keras等机器学习框架构建和训练你自己的检测器。 通过阅读本书,你将学习如何: 通过共享代码分析,识别由相同攻击组织编写的新恶意软件 通过建立自己的机器学习检测系统来捕获0day恶意软件 使用ROC曲线来度量恶意软件检测器的准确性,以帮助你选择解决安全问题的*途径 使用数据可视化技术来识别和探讨恶意软
本书以笔者多年管理总结的产品经理M-P能力模型出发,介绍该能力模型中的数据驱动相关内容。书中内容主要分为建设与应用两部分,在建设部分,主要讲述产品经理如何为一家公司建立起一套数据分析体系产品。在应用部分,通过多套数据分析模型为大家讲解了如何使用搭建的数据分析体系完成三个层次的业务决策指导,这三个层次分别为业务日常运营监控、业务黑客增长的数据驱动,以及以总监级别的思维来看数据推动公司战略/产品战略。此外,在本书中还通过一个案例来贯穿全书,以帮助大家迅速掌握书中所讲述的内容。
本书描述了数据的混杂特性、当前关于首席数据官报告体系的分歧、自适应规划的需求、平衡的实现以及特定的新执行模型;介绍了首席数据官过程改进框架,通过数据管理知识体系和数据管理成熟度模型描述了数据领导者使用的核心概念、技术和策略以及集成;描述了在当前领导者之外维持数据和实践改进所需的关键角色,以及首席数据官在其组织中实施解决方案时可能会面临的问题;*后描述了在公共领域正在进行的工作及将对公共和私营部门产生的影响。通过这本书,有助于首席数据官为他们的组织创造以数据为中心的价值,适合从事大数据、数据管理的人士阅读。
本书使用MPI标准介绍了数据科学中的高性能计算,帮助读者了解分布式存储模型中的并行编程的知识。全书分为两部分,*部分(第1~6章)基于消息传递接口介绍高性能计算,内容包括:阻塞与非阻塞的点对点通信、死锁、全局通信函数(广播、散播等)、协同计算(归约)的基本概念;互联网络的拓扑结构(环、环面和超立方体)以及相应的全局通信程序;基于分布式内存的并行排序及其实现,涵盖相关并行线性代数知识;MapReduce模型。第二部分(第7~11章)介绍计算机集群中的高性能数据分析,内容包括:数据聚类技术(平面划分聚类、层次聚类);基于k-NN的有监督分类;核心集以及相关降维技术;图算法(稠密子图、图同构检测)。每章章末附有各种难度的练习和参考文献,可供读者进行自测和深入学习。本书适合作为“高性能计算”相关课程的本科生教材。