在集团内,数据人员面临的现实情况是:集团数据存储已经达到EB级别,部分单张表每天的数据记录数高达几千亿条;在2016年“双11购物狂欢节”的24小时中,支付金额达到了1207亿元人民币,支付峰值高达12万笔/秒,下单峰值达17.5万笔/秒,媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战。《大数据之路——大数据实践》就是在此背景下完成的。本书中讲到的大数据系统架构,就是为了满足不断变化的业务需求,同时实现系统的高度扩展性、灵活性以及数据展现的高性能而设计的。本书由数据技术及产品部组织并完成写作,是分享对大数据的认知,与生态伙伴共创数据智能的重要基石。相信本书中的实践和思考对同行会有很大的启发和借鉴意义。
《化学数据挖掘方法与应用》主要介绍了化学常用数据挖掘方法和技术的基本原理,并重点介绍了模式识别、支持向量机、集成学习方法在材料设计、工业优化、构效关系、生物信息学等领域的应用研究实例。书中所有应用研究实例全部取自作者的应用研究课题,有关算法程序可采用作者开发的应用软件HyperMiner(见附录1)。《化学数据挖掘方法与应用》可供化学、化工及相关领域的科研人员和工程技术人员阅读,亦可作为高等学校的教学参考书。
Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregatio算子和 Joi算子的实现与执行、Tungste优化技术、生产环境中的一些改造优化经验等。
数据作为一种基础性与战略性资源得到了广泛认可,数据服务成为很多组织和机构日常运营中必不可少的重要环节。当下,数据质量在理论越来越受到关注,不仅是制约数据产业发展的关键问题,也是大数据应用研究中绕不开的重大问题。《大数据质量》汇集了国内外数据质量研究的经典理论、技术和方法,以及的前沿发展趋势;首先介绍了传统数据质量研究的各种代表性成果,并在此基础上,分析大数据时代下数据质量面临的挑战,并详细介绍基于大数据的数据质量相关技术的实现;后,通过一个实际案例,提出一套完整的大数据质量解决方案。
《多传感器数据融合系统:EKF及模糊决策应用分析》提供了一个新颖的方法来解决传感器数据融合问题,即在动态决策机制基础上建立了态势感知模型,并利用态势感知、个人和环境因素之间的关系做出的安全决策。重点阐述了融合系统中如何利用模糊逻辑来制定决策。原书作者详细介绍了扩展卡尔曼滤波(EKF)的应用分析及基于模糊决策的多传感器数据融合系统。在研究中,《多传感器数据融合系统:EKF及模糊决策应用分析》选择了几个相关的传感器(激光,声纳和射频传感器)监测多个动态代理区域的安全状态,这个系统利用了传感器的相性和互补性,尤其是当使用异构传感器时,在性能上有很大的改进。
本书以了解COBOL语言为基础,通过由浅入深的讲解,循序渐进地介绍了如何使用COBOL语言进行实际开发。同时在讲解的过程中,也穿插了部分IBM大型机的知识及其在实际应用中的操作。 本书共分14章,从内容上可分为COBOL的入门篇、高级处理篇与实战篇。入门篇介绍了掌握一门语言必须了解的基础知识,包括数据类型、流程控制和各种运算;高级处理篇是针对COBOL有难度的一些技术点,包括表、子程序、数据处理、VSAM面向对象等;实战篇是通过一个完整的实例带你走完一个用COBOL开发的流程。
《数据分析及可视化研究》主要阐述数据分析及数据可视化理论与方法。针对当下较为热门的数据可视化分析方法,如“数据采集”“数据梳理”“数据可视化设计”“可视化优化”“运用软件做可视化分析”等作了较为完整的阐述。旨在让读者快速而全面地了解和学习“可视化”所蕴含的操作技巧,将“数据”更精准、更清晰地呈现出来。 《数据分析及可视化研究》图文并茂,深入浅出,共分为三篇:初探数据可视化、数据可视化图表设计、数据可视化处理工具,对数据分析及可视化的理论研究与实践应用有指导意义,可作为影视、传媒等专业师生的教学参考,对广大数据处理专业人员也有参考价值。
Authorized translation from the English language edition, entitled Beyond Big Data: Using Social MDM to Drive Deep Customer Insight, 0 13 350980 X by Martin Oberhofer, published by Pearson Education, Inc, publishing as IBM, copyright ?i 2014.All Rights Reserved. No part of thiook may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or by any information storage retrieval system, without permission from Pearson education, Inc. CHINESE SIMPLIFIED language edition published by TSINGHUA UNIVERSITY PRESS Copyright ?i 2016.
《数据建模与DB设计》重点介绍数据建模与数据库设计的理论及应用。从数据模型的发展历程及其必要性引入,基于作者在研究和项目实践中积累的经验,让读者理解数据建模是业务负责人与数据设计者之间沟通的工具,数据模型决定数据处理性能与数据管理便利性。书中首先将数据建模划分为概念建模、逻辑建模、物理建模以及最后的数据库设计四个阶段,明确了导出实体、设定实体的重要关系、设定键的数据建模流程。为了提高数据整合性和业务流程性能,先后提出了范式化和反范式化过程,在构建理解的数据结构的同时兼顾数据库的访问成本,寻找盈亏平衡点。《数据建模与DB设计》无论对数据分析设计领域的初学者还是实际业务的实践者,都很有启发和指导作用。
本书介绍了 PostgreSQL 内部的工作原理,包括数据库对象的逻辑组织与物理实现,进程与内存的架构。并依次剖析了几个重要的子系统:查询处理、外部数据包装器、并发控制、清理过程、缓冲 区管理、WAL、备份及流复制。本书为 DBA 与系统开发者提供了一幅全景概念地图,有助于读者形 成对数据库实现的整体认识,亦可作为深入学习 PostgreSQL 源代码的导读手册,对于理解数据库原 理与 PostgreSQL 内部实现大有裨益。 本书适合数据库开发人员及相关领域的研究人员、数据库 DBA 及高等院校相关专业的学生阅读。
《中国数据中心运维管理指针》主要针对数据中心运维管理、监控系统、基础设施管理技术,结合《数据中心设计规范》(GB50174-2013),总结了国内外数据中心技术发展情况,从技术、规范、设计及产品应用等方面进行了阐述。本书主要包括以下三个方面的内容:一、数据中心运维管理技术:数据中心运维白皮书简介、数据中心ITIL运维框架、数据中心运维组织架构、数据中心基础设施运维之监控系统、数据中心基础设施运维之日常工作、数据中心基础设施运维之应急处理、数据中心网络运维、数据中心客户服务、数据中心现场运维之基础工作、数据中心基础及应用平台运维、数据中心运维管理工具、数据中心运维质量保障体系、数据中心运维相关认证、数据中心运维之行业实例、数据中心能耗测评、数据中心运维之能效管理、数据中心测试验证和数据中心运维之供
本书主要介绍了化学常用数据挖掘方法和技术的基本原理,并重点介绍了模式识别、支持向量机、集成学习方法在材料设计、工业优化、构效关系、生物信息学等领域的应用研究实例。书中所有应用研究实例取自作者的应用研究课题,有关算法程序可采用作者开发的应用软件HyperMiner(见附录1)。 本书可供化学、化工及相关领域的科研人员和工程技术人员阅读,亦可作为高等学校的教学参考书。
《轻松掌握Qlik:从菜鸟到高手》从初学者的角度出发,先对BI领域进行简单的介绍,然后立足整个BI行业,选取Qlik Sense这一款具有代表性的BI工具进行深入浅出的讲解。包括工具的使用,服务器的搭建,高级可视化开发等模块,再结合正在使用这款工具的企业及其对应的众多行业案例,帮助读者一步一步地认识和熟悉这款工具,从而达到零基础入门直至熟练使用Qlik Sense进行自助式分析的终目的。
《中国数据中心运维管理指针》主要针对数据中心运维管理、监控系统、基础设施管理技术,结合《数据中心设计规范》(GB50174-2013),总结了国内外数据中心技术发展情况,从技术、规范、设计及产品应用等方面进行了阐述。本书主要包括以下三个方面的内容:一、数据中心运维管理技术:数据中心运维白皮书简介、数据中心ITIL运维框架、数据中心运维组织架构、数据中心基础设施运维之监控系统、数据中心基础设施运维之日常工作、数据中心基础设施运维之应急处理、数据中心网络运维、数据中心客户服务、数据中心现场运维之基础工作、数据中心基础及应用平台运维、数据中心运维管理工具、数据中心运维质量保障体系、数据中心运维相关认证、数据中心运维之行业实例、数据中心能耗测评、数据中心运维之能效管理、数据中心测试验证和数据中心运维之供