第1章 大數據概述 1
1.1 大數據的概念 1
1.1.1 什么是大數據 1
1.1.2 大數據的產生和來源 2
1.1.3 大數據的技術 3
1.1.4 大數據的特征 8
1.1.5 數據、信息與知識 10
1.2 大數據的價值與挑戰(zhàn) 10
1.2.1 大數據的潛在價值 11
1.2.2 大數據對業(yè)務的挑戰(zhàn) 12
1.2.3 大數據對技術架構的挑戰(zhàn) 13
1.2.4 大數據對管理策略的挑戰(zhàn) 14
1.3 大數據與相關領域的關系 16
1.3.1 大數據與統計分析 16
1.3.2 大數據與數據挖掘 16
1.3.3 大數據與云計算 17
1.4 大數據發(fā)展狀況 20
參考文獻 23
第2章 大數據挖掘技術 24
2.1 數據挖掘與過程 24
2.1.1 數據挖掘的七大功能 24
2.1.2 數據挖掘的實質 25
2.2 數據挖掘過程 26
2.2.1 定義挖掘目標 27
2.2.2 數據取樣 28
2.2.3 數據探索 30
2.2.4 數據預處理 32
2.2.5 數據模式發(fā)現 37
2.2.6 模型評價 40
2.3 常用算法 47
2.3.1 決策樹 48
2.3.2 回歸 50
2.3.3 關聯規(guī)則 54
2.3.4 聚類 59
2.3.5 貝葉斯分類方法 66
2.3.6 神經網絡 69
2.3.7 支持向量機(SVM) 73
2.3.8 假設檢驗 77
2.3.9 遺傳算法 81
參考文獻 84
第3章 大規(guī)模存儲與處理技術 86
3.1 Hadoop概述 86
3.1.1 什么是Hadoop 86
3.1.2 Hadoop發(fā)展簡史 88
3.1.3 Hadoop的優(yōu)勢 90
3.1.4 Hadoop的子項目 90
3.2 HDFS 92
3.2.1 HDFS的設計目標 93
3.2.2 HDFS文件系統的原型GFS 93
3.2.3 HDFS文件的基本結構 95
3.2.4 HDFS的文件讀/寫操作 97
3.2.5 HDFS的存儲過程 101
3.3 MapReduce編程框架 105
3.3.1 MapReduce的發(fā)展歷史 105
3.3.2 MapReduce的基本工作過程 107
3.3.3 MapReduce的特點 110
3.4 建立Hadoop開發(fā)環(huán)境 111
3.4.1 相關準備工作 111
3.4.2 JDK的安裝配置 113
3.4.3 SSH無鑰登錄 113
3.4.4 安裝、配置Hadoop環(huán)境變量 115
3.5 大數據處理系統分類 118
3.5.1 批量數據處理系統 118
3.5.2 流式數據處理系統 119
3.5.3 交互式數據處理 122
3.5.4 圖數據處理系統 124
3.6 大數據查詢和分析技術:SQL on Hadoop 126
3.6.1 數據庫簡介 126
3.6.2 圖數據庫 128
3.6.3 Hive:基本的Hadoop分析 130
3.6.4 實時互動的SQL:Impala和Drill 134
3.7 以通信業(yè)務分析為例的大數據的技術環(huán)境部署 136
3.7.1 應用架構規(guī)劃與設計 136
3.7.2 技術環(huán)境部署與配置 137
第4章 大數據應用的總體架構和關鍵技術 148
4.1 大數據的業(yè)務分析 148
4.2 大數據的總架體構模型 152
4.3 大數據高級分析 161
4.3.1 數據倉庫與聯機分析處理技術 162
4.3.2 大數據分析與傳統分析 167
4.3.3 非結構化復雜數據分析 168
4.3.4 實時預測分析 177
4.4 可視化分析 181
4.4.1 可視化技術 181
4.4.2 可視化工具 192
參考文獻 195
第5章 運營商數據分析 196
5.1 案例背景 196
5.1.1 大數據運營已為大勢所趨 196
5.1.2 采取大數據運營的原因 196
5.1.3 大數據分析如何提升電信行業(yè)績效 197
5.1.4 大數據的社會價值 199
5.2 挖掘目標的提出 200
5.3 案例分析 201
5.3.1 體系架構 201
5.3.2 Hadoop集群抽取模塊 202
5.3.3 數據處理模塊 208
5.3.4 數據分發(fā) 211
5.4 MapReduce操作 218
5.5 結果分析 221
第6章 互聯網電影推薦系統 223
6.1 背景描述 223
6.2 業(yè)務目標 224
6.3 業(yè)務需求 225
6.4 協同過濾推薦系統建模 225
6.4.1 推薦系統概述 225
6.4.2 基于對立用戶的協同過濾模型 227
6.5 項目處理過程 229
6.5.1 項目數據 229
6.5.2 數據預處理 230
6.5.3 Hadoop并行算法 242
6.6 總結 250