本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了 30 多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 如果你是一名创业者,或者你是一名产品开发、产品管理、市场营销、公共关系和投资领域的商务专业人员,那么本书不容错过。
全书分为三大部分: 主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。 我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。 主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数
随着TheDataWarehouseToolkit(1996)第1版的出版发行,RalphKimball为整个行业引入了维度建模技术。从此,维度建模成为一种被广泛接受的表达数据仓库和商业智能(DW/BI)系统中数据的方法。该经典书籍被认为是维度建模技术、模式和实践的资源。 该书汇集了到目前为止全面的维度建模技术。 该书采用新的思路和实践对上一版本进行了全面修订,给出了设计维度模型的全面指南,既适合数据仓库新手,也适合经验丰富的专业人员。 该书涉及的所有技术都基于作者实际从事DW/BI的设计经验,通过实际案例加以描述。 该书主要内容: 实用设计技术 有关维度和事实表的基本和高级技术。 14个案例研究,涉及零售业、电子商务、客户关系管理、采购、库存、订单管理、会计、人力资源、金融服务、医疗卫生、保险、教育、电信和运输等。
本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。 本书是一本权威、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的*发展和应用,程序员可以从中探
作为一本 Power Query 初级入门读本,《Power Query 智能化数据汇总与分析》不深入介绍 M 函数,而是结合大量的实际案例,利用 Power Query 可视化的操作向导,来解决实际工作中烦琐的数据整理、汇总和分析问题,让读者在短时间内,能够对 Power Query 有一个较为全面的了解和掌握,并能迅速提升数据处理和统计分析效率。 《Power Query 智能化数据汇总与分析》适合具有 Excel 基础知识并经常处理大量数据的各类人员阅读,也可作为大专院校经济类本科生、研究生和 MBA 学员的教材或参考书。
本书是中山大学重点学科建设成果,获中国矿物岩石地球化学协会大数据与数学地球科学专业委员会推荐,是我国*部地质科学大数据与机器学习教材。本书是中山大学研究生试用研究型教材,对运用大数据挖掘与机器学习算法解决地球科学问题大有裨益。适合地质科学领域研究生和高年级本科生做教材,也可供科研人员研究时参考。它系统地介绍了地球科学大数据挖掘与机器学习的基本框架与原理,重点分析高维数据的降维、分类与预测、大图形社区结构识别、无限流数据处理、机器学习及人工智能地质学的建模过程,对必要的应用场景,使用Python语言给出案例。
本书介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这本书还概要介绍了MapReduce、Hadoop和Spark。 本书主要内容包括: ■ 完成超大量交易的购物篮分析。 ■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 ■ 使用超大基因组数据完成 DNA 和 RNA 测序。 ■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 ■ 推荐算法和成对文档相似性。 ■ 线性回归、Cox回归和 皮尔逊 (Pearson) 相关 分析。 ■ 等位基因频率和 DNA 挖掘。 ■ 社交网络分析(推荐系统、三角形计数和情感分析)。
在新媒体时代,如果对新闻报道、网上搜索的结果或者所谓的 专家告知 不加思考地完全相信,那你就等着上当受骗吧! 本书围绕当今*受瞩目的大数据科学理论,通过日本政府公布的公开数据,集中针对访日游客的增加、舆论调查的可靠性、 安倍经济学 的成果、东日本大地震后的状况、相对贫困、失业率的下降、年轻人远离ХХ、全球变暖问题、减肥、恩格尔系数的上升等10个主题进行数据解读,帮助读者模拟体验数据读取方法,提高理解和分析数据的能力,挖掘出数据背后隐藏的真相。 作为 大数据分析 的超级入门书,即使不擅长数学、不了解统计学的人,读完本书也可以彻底掌握数据解读方法!
这是一部从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作。华为是一家超大型企业,华为的数据底座和数据治理方法支撑着华为在全球170多个国家/地区开展多业态、差异化的运营。书中凝聚了大量数据治理和数字化转型方面的有价值的经验、方法论、规范、模型、解决方案和案例,不仅能让读者即学即用,还能让读者了解华为数字化建设的历程。 全书共10章,内容从逻辑上分为四个部分。 部分(~3章) 章以非数字原生企业在数字化转型方面面临的挑战开篇,介绍了华为在数据治理和数字化转型方面的目标、愿景、蓝图和框架;第2章从企业政策和架构协同的角度,介绍了企业级的数据综合治理体系,理顺了数据与变革、运营、IT之间的协同关系,明确了数据管理的责任主体在业务;第3章详细阐述了不同类型的数据的管理方式和要点。 第二
本书是普通高等教育“十一五”规划教材。《数据结构(第3版)》主要内容包括绪论、线性表和数组、栈和队列、树、图、排序、查找、数据结构程序设计等,最后,以Java语言为例,介绍了面向对象程序设计的数据结构。书中各章后附有自测练习题。《数据结构(第3版)》适用于高等职业学校、高等专科学校、成人高等学校、本科院校举办的二级职业技术学院,也可供示范性软件职业技术学院、继续教育学院、民办高等学校、技能型紧缺人才培养使用,还可供本科院校、计算机专业人员和爱好者参考。
本书分为部分,分别为大数据基础理论分析、基于海量语意规则的大数据流处理技术及大数据应用。 部分介绍大数据领域的主要基础理论,包括大数据基本概念、可编程数据中心、云文件系统、云数据库系统、大数据并行编程与分析模型、大数据智能计算算法、基于大数据的数据仓库技术、大数据安全与隐私保护,以及基于大数据的语意软件工程方法等。 第二部分介绍基于海量语意规则的大数据流处理技术,包括基于规则的大数据流处理介绍、语意规则描述模型、海量语意规则网及优化、海量语意规则处理算法及海量语意规则并行处理等。 第三部分主要介绍大数据的一些典型应用,包括:文化大数据、医疗健康大数据、互联网金融大数据、教育大数据、电子商务大数据、互联网大数据、能源大数据、交通大数据、宏观经济大数据、进出口食品安全监管大数据、基
笔者认为数据挖掘的出现,正是统计学适应这一变化的新的发展方向,数据挖掘并不是为了替代传统的统计分析技术,而是统计分析方法的延伸和扩展。本书从统计学视角研究数据挖掘,以期从统计学角度对数据挖掘理论的研究有所突破和创新,同时对统计学理论在数据挖掘方向的发展做出探索。
本书以大数据为研究背景,系统分析了传统数据技术当前存在的问题以及面临的挑战,并对比了当前主流的面向大数据的数据库解决方案,在此基础上阐述了笔者的研究工作:基于MapReduce平台高处处理大数据的OLAP研究。书中反应了当前大规模数据仓库研究的热点和成果,值得大数据研究的人员参考和应用。
《从零进阶!数据分析的统计基础》共章,分别讲解了数据分析的步骤和方法、描述性统计分析、抽样估计、假设检验、方差分析、相关与回归分析,使用简单的语言介绍了这些数据分析基本方法的核心思想和涉及的统计学、概率论等方面 的理论内容,并使用图示的方法详细介绍了使用进行简单的描述性统计分析和使用进行相 关的数据分析的过程与结果分析。 《从零进阶!数据分析的统计基础》适合需要提升自身数据分析理论和实践能力的职场新人;在市场营销、金融、财务、人力资源管理中需要数据分析的人士;从事咨询、研究、分析等的专业人士。也可以作为数据分析师职业培训的教材,普通高等院校非统计专业数据分析的选修教材。
基于国家973和863相关项目成果,采用汤森路透德温特世界专利创新索引数据库作为统计数据来源,对信息存储领域的专利文献进行检索分析,从存储器件、设备、系统等层面,选取了目前信息存储领域中的多项重要技术,利用专利统计分析的方法对其发展态势进行了研究,特别是对信息存储领域相关专利进行宏观统计分析以及核心专利的具体分析,可以全方位了解信息存储技术的发展历程、专利的国家或地区分布、重要专利权人的竞争态势,为制定相关战略提供决策参考。同时结合华为、中兴、联想、浪潮、IBM、EMC、三星、美光等国内外知名企业的实际案例,从中国本土和全球的布局两个角度分别分析了专利产出、主要竞争者、热点技术和研发重点以及竞争态势,力求找到信息存储技术专利申请对技术产业化与企业发展的作用,供信息存储研发人员、专利工作者和
这是一本跟数据科学和数据科学家有关的“手册”,它还包含传统统计学、编程或计算机科学教科书中所没有的信息。 本书有3个组成部分:一是多层次地讨论数据科学是什么,以及数据科学涉及哪些其他学科;二是数据科学的技术应用层面,包括教程和案例研究;三是给正在从业和有抱负的数据科学家介绍一些职业资源。本书中有很多职业和培训相关资源(如数据集、网络爬虫源代码、数据视频和如何编写API),所以借助本书,你现在就可以开始数据科学实践,并快速地提升你的职业水平。
《金融数据挖掘:基于大数据视角的展望》结构分为五个篇章。*篇介绍了数据挖掘方法。第二篇是银行数据挖掘篇,介绍了基于神经网络和支持向量机的信用评分方法。第三篇是证券数据挖掘篇,探讨了基于多种数据挖掘方法的股票价格预测、金融市场价格预测及股票自动交易系统。第四篇是保险及其他数据挖掘篇,研究了基于数据挖掘的保险欺诈监测、企业破产预测、财务报表欺诈监测等问题。第五篇从大数据的视角对金融数据挖掘进行了扩展和展望。 《金融数据挖掘:基于大数据视角的展望》的读者可以是对数据挖掘算法感兴趣的计算机专业人士或是对金融信息挖掘感兴趣的领域专家,也可作为金融信息工程方向的工程硕士教材或参考书。
随着信息技术特别是网络技术的飞速发展,人们收集、存贮、传输数据的能力不断提高。数据出现了爆炸性增长,与此形成鲜明对比的是:对决策有价值的知识却非常匮乏。知识发现与数据挖掘技术正是在这一背景下诞生的一门新学科。数据挖掘要在实际应用中发挥作用,高性能挖掘算法和数据挖掘软件平台是重要的技术基础。本书以数据挖掘基本问题、频繁模式与关联规则挖掘为切入点,研究高时间效率、高空间可伸缩性的挖掘算法和分布,异质、海量数据的协同挖掘软件模型,并探讨了数据挖掘过程中的隐私保护问题。 本书首先发现了基于树表示形式的虚拟投影方法,用于按深度优先挖掘密集型数据集;提出了稀疏型数据集表示形式及非过滤投影方法;进_步提出了基于伺机投影的思想,设计并实现了基于伺机投影的全新算法OpportuneProject,对比实验表明,该
本书覆盖了数据仓储构建的所有主要领域,包括数据仓储的定义和环境;数据仓储的4个类型、对数据仓储的5类共15个要求;2个方法论的总结及3个构建方法。本书给出了一个高性能的参照系统结构。基于此参照系统结构,本书系统地讨论了大量设计议题、并包括21个设计建议、8个实践建议、7个设计原则、27个通用算法和技术、12个元数据驱动的通用操作符、7个工作过程、4个范式基础及范式原则。
本书是深入研究互联网思维的经典之作,从互联网思维的定义到互联网思维应用的具体案例表现。作者深入浅出、条分缕析,全面阐述互联网思维的内核与精神,逐一点评当前关于互联网思维的各种观点。本书从初级的互联网思维应用到高端的粉丝经济,平台建设,自媒体营销的方法都有详细讲解介绍。让读者了解什么是互联网思维的同时还能学会把互联网思维运用到自己的工作学习已经生活中 进入大数据时代,让数据开口说话将成为司空见惯的事情,本书将从大数据时代的前因后果讲起,全面分析大数据时代的特征、企业实践的案例、大数据的发展方向、未来的机遇和挑战等内容,展现一个客观立体、自由开放的大数据时代。