集Python、Excel、数据分析为一体是本书的一大特色。本书围绕整个数据分析的常规流程:工具熟悉-获取数据-数据熟悉-数据处理-数据分析-分析结果进行Excel 和Python 对比实现,告诉你每一个过程中都会用到什么?过程与过程之间有什么联系。这样一本书既可以作为系统学习数据分析流程操作的说明书,也可以作为一本数据分析师案头推荐的实操工具书,随时备查。本书通过对比Excel 功能操作去学习Python 的实现代码,而不是直接上来就学习Python代码,大大降低了学习门槛,消除了读者对代码的恐惧心理。适合刚入行的数据分析师,也适合对Excel 比较熟练的数据分析师,或从事其他岗位想提高工作效率的职场人。
《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。 主要包括: 完成超大量交易的购物篮分析。 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。 使用超大基因组数据完成DNA和RNA测序。 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。 推荐算法和成对文档相似性。 线性回归、Cox回归和皮尔逊(Pearson)相关分析。 等位基因频率和DNA挖掘。 社交网络分析(推荐系统、三角形计数和情感分析)。