目錄第1章 統(tǒng)計分析與并行計算1.1 并行計算與并行計算機1.2 統(tǒng)計計算的并行原理||以矩陣乘法為例1.3 基于R 的單機并行計算 1.4 基于Python 的單機并行計算 1.5 大數據背景下的數據采集和存儲 1.6 參考文獻 第2章 Hadoop 基礎 2.1 Hadoop 歷史、生態(tài)系統(tǒng) 2.2 Hadoop 的分布式文件系統(tǒng)(HDFS) 2.3 MapReduce 工作原理 2.4 Hadoop 上運行MapReduce 2.5 MapReduce 實例: 分層隨機抽樣 2.6 MapReduce 實例: 聚類分析 2.7 參考文獻 第3章 基于Hadoop 的分布式算法和模型實現(xiàn) 3.1 R 中實現(xiàn)Hadoop 分布式計算 3.2 Mahout 與大數據機器學習 3.3 利用Mahout 進行數據挖掘 3.4 Mahout 實例: Logistics 回歸和隨機森林分類算法 3.5 Mahout 實例: 隨機森林的分布式實現(xiàn) 3.6 參考文獻 第4章 統(tǒng)計模型的MapReduce 實現(xiàn)詳解 4.1 泊松回歸模型: 付費搜索廣告分析 4.2 判別分析: 氣象因素對霧霾影響分析 4.3 分塊Logistics 回歸 4.4 文本分類 4.5 樸素貝葉斯模型 4.6 嶺回歸模型 4.7 推薦系統(tǒng) 4.8 參考文獻 第5章 分布式文件訪問與計算 5.1 Hive 基礎 5.2 HiveQL 數據定義(DDL) 5.3 HBase 5.4 Hive 實例: FoodMart 案例 5.5 Hive 實例: Hive Streaming 交互計算 5.6 參考文獻 第6章 Spark 與統(tǒng)計模型 6.1 Spark 簡介 6.2 Spark 工作原理介紹 6.3 Pyspark 命令介紹 6.4 Spark 實例: 通過Word Count 了解Spark 工作流程 6.5 Spark 實例: 二分類學習 6.6 Spark 實例: 決策樹模型 6.7 參考文獻 附錄A Hadoop 安裝運行 A.1 單機偽分布式安裝 A.2 全分布式集群 附錄B Mahout 安裝與運行 附錄C Hive 安裝運行 C.1 準備 C.2 安裝Hive C.3 配置Hive 附錄D HBase 安裝運行 D.1 安裝配置HBase D.2 啟動HBase