本书是一本系统介绍Clickhouse的指导型工具书,全书总共分为11章: 第1章 介绍ClickHouse的由来、发展历程、核心特点与核心特点。第2~6章 介绍了ClickHouse基础使用部分,包括整体架构、如何安装、数据定义、数据引擎、数据查询和函数的特性和使用方法。第7~9章介绍了ClickHouse高级特性部分,包括数据库管理操作,数据分片、数据副本和高可用的特性和使用方法。第10~11章介绍了如果自己手动实现ClickHouse中间件的思路和示例,同时也介绍了几款可视化工具与ClickHouse集成的方法。
本书系统讲述数据仓库的基本概念、基本原理以及建立数据仓库的方法和过程。主要内容包括:决策支持系统的发展、数据仓库环境结构、数据仓库设计、数据仓库粒度划分、数据仓库技术、分布式数据仓库、ElS系统和数据仓库的关系,外部和非结构化数据与数据仓库的关系、数据装载问题、数据仓库与Web、ERP与数据仓库以及数据仓库设计的复查要目。 本书是数据仓库之父撰写的关于数据仓库的 权威著作,既可作为相关专业的研究生教材,也是数据仓库的研究、开发和管理人员的指南。
本书将现代统计学的重要思想引入数理统计课程中,强调了数据分析、图形工具和计算机技术,并注重统计的实务和应用.本书内容丰富,几乎涵盖了所有经典和前沿的概率论与数理统计理论和方法,主要包括概率、*变量、联合分布、期望、极限定理、抽样调查、参数估计、假设检验、数据汇总、两样本比较、方差分析、分类数据分析和线性小二乘等. 本书用真实数据分析了实际问题,以此增强读者对理论的理解;作者将自助方法与传统的推论性过程结合起来,增加了蒙特卡罗方法.此外,为了使概念更清晰,书中提供了大量的示例,而且还有丰富的习题,以增强读者的计算能力. 本书适合作为统计学、数学、其他理工科专业以及社会科学和经济学专业高年级本科生和低年级研究生的教材,同时也可供相关领域技术人员参考.
本书不是一本关于数据管理的 如何做 的书(如规范数据属性或是创建数据库),而是一本关于数据管理 如何思考 的书。本书将心理学和哲学与数据管理巧妙的融合在一起。将心理学和哲学学科与数据管理结合在一起,以创造有关我们如何感知和管理信息的知识。书中阐述了当今数据库系统通过数据来捕获现实世界的方式及缺陷,作者运用非常清晰的逻辑、仔细地描述了信息系统中所表示的现实世界的各个方面。对系统中所使用的数据模型、语言、语义和现实世界描述下的哲学问题进行了深刻的检视,对这些核心概念、其对信息系统的影响,是坊间遍寻不到的。这本书的价值在于批判性地探索解决现实世界的信息系统建模方法,这是一本令读者愉悦并具有启发性的佳作。适合从事数据建模、大数据、数据管理的人士阅读。
内容简介 这是一本写给互联网消费金融行业从业者的实战指南,从产品创新、业务架构、精细化运营、数字化转型等多个维度对互联网消费金融进行了有针对性的讲解。 作者是互联网消费金融领域的先行者和布道者,从行业兴起一直深耕至今,目前是知名互联网消费金融机构运营和技术负责人,对行业创新和应用架构有深刻理解,经验非常丰富,本书是他们多年从业经验的总结。 第1章简要介绍了互联网消费金融的核心概念、生态、趋势和痛点,旨在让读者对这个行业有一个整体认识; 第2章以构建成功的客户旅程为切入点,讲解了如何以用为为中心来设计互联网消费金融类产品,这是产品创新的关键; 第3~4章首先讲解了互联网消费金融的业务架构方法论,然后具体讲解了银行、消费金融公司、金融科技公司的互联网消费金融的业务架构; 第5~6章详细讲解了互联
本书首先介绍如何设置基本的数据科学工具箱,然后带你进入数据改写和预处理阶段,这一部分主要是阐明所有与核心数据科学活动相关的数据分析过程,如数据加载、转换、修复以及数据探索和处理等。通过主要的机器学习算法、图形分析技术,以及所有易于表现结果的可视化工具,实现对数据科学的概述。 本书对上一版内容进行了全面拓展和更新,涵盖新版的Jupyter Notebook、NumPy、pandas和Scikit-learn等的新改进。此外,还介绍了深度学习(借助在Theano和Tensorflow平台上运行的Keras库)、漂亮的可视化(使用Seaborn和 ggplot)和Web部署(使用bottle)等新内容。 本书行文过程以数据科学项目为主体,辅以整洁的代码和简化的示例,能帮助你理解与项目相关的潜在原理和实际数据集。
暂无内容简介。。。。。。
本书全面分析介绍了数字营销领域,不仅对新平台、新指标、新的度量方式进行了详细解析,而且通过多种数字营销案例对工具在解读消费者行为方面的全过程应用进行了详细地描述,同时对市场上不同类别的工具进行了简要推荐介绍。本书语言轻松自然、通俗易懂,适用于现代的、以数据为导向的市场营销从业人员,或市场营销专业的高校学生。
《数据库程序员面试笔试真题库》针对当前各大IT企业面试笔试中的特性与侧重点,精心挑选了近3年来近百家典型IT企业的面试笔试真题,这些企业涉及业务包括系统软件、搜索引擎、电子商务、手机APP、安全软件等,面试笔试真题非常具有代表性与参考性。同时,《数据库程序员面试笔试真题库》对这些题目进行了合理的划分与归类,并且对其进行庖丁解牛式的分析与讲解,针对试题中涉及的部分重难点问题,本书还进行了适当的扩展与延伸,力求对知识点的讲解清晰而明了,全面而精练,使读者通过本书不仅能够获取到求职的知识,同时更有针对性地进行求职准备,终能够收获一份满意的工作。 《数据库程序员面试笔试真题库》是一本计算机相关专业毕业生面试、笔试的求职用书,同时也适合期望在计算机软、硬件行业大显身手的计算机爱好者阅读。
本书提供了一种简单、高效、通用的关系型数据库索引设计方法。作者通过系统的讲解及大量的案例清晰地阐释了关系型数据库的访问路径选择原理,以及表和索引的扫描方式,详尽地讲解了如何快速地估算SQL运行的CPU时间及执行时间,帮助读者从原理上理解SQL、表及索引结构、访问方式等对关系型数据库造成的影响,并能够运用量化的方法进行判断和优化,指导关系型数据库的索引设计。
《数据库程序员面试笔试宝典》针对当前各大 IT 企业面试笔试的特性与侧重点,精心挑选了近3年以来近百家 IT 企业的数据库面试笔试真题,这些企业涉及的业务包括系统软件、搜索引擎、电子商务、手机App、安全关键软件等,面试笔试真题非常具有代表性与参考性。同时,《数据库程序员面试笔试宝典》对这些题目进行了合理的划分与归类,并且对其进行了庖丁解牛式的分析与讲解。针对试题中涉及的部分重难点问题,本书都进行了适当地扩展与延伸,力求对知识点的讲解清晰而不紊乱,全面而不啰嗦,不仅如此,《数据库程序员面试笔试宝典》除了对数据库的基础知识进行深度剖析以外,还针对Oracle、MySQL、SQL Server等常见数据库的笔试面试做了非常详细的介绍。 《数据库程序员面试笔试宝典》是一本计算机相关专业毕业生面试、笔试的求职用书,同时也适合
本书概要介绍了如何使用Hadoop和Spark处理数据科学涉及的一系列主题:数据提取、数据再加工(datamunging,通常包含数据清洗和整合)、特征提取、机器学习、预测建模、异常检测和自然语言处理。整书侧重于具体的例子,并通过不同方式来提供对商业价值的洞察,全书共分三部分,第 一部分包括第1、2、3章,第二部分包括第4、5、6章,第三部分包括第7、8、9、10、11、12章,后在附录中提供了本书参考材料。
《数据库程序员面试笔试真题与解析》针对当前各大IT企业面试笔试中特性与侧重点,精心挑选了3年来近百家典型IT企业的数据库面试笔试真题。这些企业业务涉及系统软件、搜索引擎、电子商务、手机APP、安全关键软件等,所提供的数据库面试笔试真题非常具有代表性与参考性。同时,本书对这些题目进行了合理的划分与归类,并且对其进行了庖丁解牛式的分析与讲解,针对试题中涉及的部分重难点问题,本书都进行了适当地扩展与延伸,力求对知识点的讲解清晰而不紊乱,全面而不啰嗦,使读者不仅能够通过本书获取到求职的知识,还能更有针对性地进行求职准备,*终获得一份满意的工作。 《数据库程序员面试笔试真题与解析》是一本计算机相关专业毕业生面试、笔试的求职用书,同时也适合期望在计算机软、硬件行业大显身手的计算机爱好者阅读。
《企业数据治理那些事》全面探讨了企业数据治理的方向、策略、总体架构、治理机制、运维管理等内容。首先介绍企业数据治理的发展方向,提出了企业数据治 理的 八步走 策略。然后从项目层面对企业如何进行数据治理进行了深入分析,分别对数据治理项目的前期准备、项目实施方法论及调研分析、构建数据管理体系、存量数据清洗、完善数据交换架构、优化增量数据质量、企业数据治理项目的管理,以及数据治理项目后的数据运维工作、风险监控进行了探讨,并分享了大量数据治理项目实际案例。 《企业数据治理那些事》是一部完整的企业数据治理实战读物,内容主要面向企业信息总监、企业架构师和数据管理人员等,能够帮助读者系统地掌握企业数据治理的策略、方法。
每年都有数百万个恶意软件文件被创建,每天都会产生大量与安全相关的数据,安全已经成为一个 大数据 问题。所以,当防范恶意软件时,为什么不像数据科学家那样思考呢? 在本书中,安全数据科学家约书亚 萨克斯和希拉里 桑德斯展示了在构建自己的检测和情报系统时,如何应用机器学习、统计和数据可视化等技术。在概述了静态和动态分析等基础逆向工程概念之后,你将学习如何度量恶意软件样本中的代码相似性,并使用scikit-learn和Keras等机器学习框架构建和训练你自己的检测器。 通过阅读本书,你将学习如何: 通过共享代码分析,识别由相同攻击组织编写的新恶意软件 通过建立自己的机器学习检测系统来捕获0day恶意软件 使用ROC曲线来度量恶意软件检测器的准确性,以帮助你选择解决安全问题的*途径 使用数据可视化技术来识别和探讨恶意软
本书以笔者多年管理总结的产品经理M-P能力模型出发,介绍该能力模型中的数据驱动相关内容。书中内容主要分为建设与应用两部分,在建设部分,主要讲述产品经理如何为一家公司建立起一套数据分析体系产品。在应用部分,通过多套数据分析模型为大家讲解了如何使用搭建的数据分析体系完成三个层次的业务决策指导,这三个层次分别为业务日常运营监控、业务黑客增长的数据驱动,以及以总监级别的思维来看数据推动公司战略/产品战略。此外,在本书中还通过一个案例来贯穿全书,以帮助大家迅速掌握书中所讲述的内容。
本书描述了数据的混杂特性、当前关于首席数据官报告体系的分歧、自适应规划的需求、平衡的实现以及特定的新执行模型;介绍了首席数据官过程改进框架,通过数据管理知识体系和数据管理成熟度模型描述了数据领导者使用的核心概念、技术和策略以及集成;描述了在当前领导者之外维持数据和实践改进所需的关键角色,以及首席数据官在其组织中实施解决方案时可能会面临的问题;*后描述了在公共领域正在进行的工作及将对公共和私营部门产生的影响。通过这本书,有助于首席数据官为他们的组织创造以数据为中心的价值,适合从事大数据、数据管理的人士阅读。
本书使用MPI标准介绍了数据科学中的高性能计算,帮助读者了解分布式存储模型中的并行编程的知识。全书分为两部分,*部分(第1~6章)基于消息传递接口介绍高性能计算,内容包括:阻塞与非阻塞的点对点通信、死锁、全局通信函数(广播、散播等)、协同计算(归约)的基本概念;互联网络的拓扑结构(环、环面和超立方体)以及相应的全局通信程序;基于分布式内存的并行排序及其实现,涵盖相关并行线性代数知识;MapReduce模型。第二部分(第7~11章)介绍计算机集群中的高性能数据分析,内容包括:数据聚类技术(平面划分聚类、层次聚类);基于k-NN的有监督分类;核心集以及相关降维技术;图算法(稠密子图、图同构检测)。每章章末附有各种难度的练习和参考文献,可供读者进行自测和深入学习。本书适合作为“高性能计算”相关课程的本科生教材。
随着互联网的发展, 大数据 被置于越来越重要的位置,但很多企业对于这个概念的理解都聚焦在怎样获得更多的数据、更强的算法和更快的系统,而对于在 大数据时代 中应如何去提升员工运用数据的能力,如何培养员工用多维的视角审视数据、辩证地分析数据之能力,却少有文献提及。本书从如何建立正确的价值观开始,展示了培养多维度分析数据问题,以及养成数据分析习惯的方法;并从产品的设计、优化与数据分析的关系等角度,介绍了在数据分析道路上可能会遇到的各种陷阱,以及应对这些陷阱的方法。除此之外,本书还从其他的维度介绍了 跨界 对于数据分析的重要性,介绍了生活中的一些数据分析案例,以及在这个变革时代,个体和组织所应做好的一些准备工作。 本书涉及的内容范围较广,有些内容看似与数据分析 毫不相关 ,但正是这些不相关的跨