第1章 云時代概述 (1)
1.1 “云”概述 (1)
1.1.1 什么是云計算 (2)
1.1.2 給云計算一個說法 (3)
1.1.3 云計算的使用范圍 (3)
1.1.4 云計算與一般托管環(huán)境的差別 (4)
1.2 云產生的背景 (4)
1.2.1 經濟方面 (4)
1.2.2 社會層面 (5)
1.2.3 政治層面 (6)
1.2.4 技術方面 (6)
1.3 云計算特點 (7)
1.4 云時代的七大益處 (8)
1.5 云計算與其他超級計算的區(qū)別 (11)
1.5.1 云計算與網格計算的區(qū)別 (11)
1.5.2 云計算系統(tǒng)與傳統(tǒng)超級計算機的區(qū)別 (12)
1.6 云計算的關鍵性技術 (12)
1.6.1 虛擬化 (12)
1.6.2 分布式文件系統(tǒng) (14)
1.6.3 分布式數(shù)據庫 (15)
1.6.4 資源管理技術 (15)
1.6.5 能耗管理技術 (16)
1.7 云計算基礎 (18)
1.7.1 云計算的定義 (18)
1.7.2 云計算的特征 (19)
1.7.3 交付模式 (19)
1.7.4 部署模式 (21)
1.7.5 新的應用機遇 (23)
1.8 從傳統(tǒng)IT到云 (23)
1.9 云計算的研究進展 (27)
1.10 云計算的生成系統(tǒng) (28)
1.11 云計算時代對就業(yè)的影響 (29)
1.12 大數(shù)據中的云 (30)
第2章 大數(shù)據概述 (33)
2.1 大數(shù)據概念 (33)
2.1.1 大數(shù)據的應用 (33)
2.1.2 大數(shù)據的戰(zhàn)略意義 (34)
2.1.3 大數(shù)據的作用 (34)
2.1.4 大數(shù)據與傳統(tǒng)數(shù)據庫 (34)
2.1.5 大數(shù)據與Web (34)
2.2 大數(shù)據的理解與實踐 (35)
2.2.1 理解大數(shù)據 (35)
2.2.2 實踐大數(shù)據 (36)
2.3 大數(shù)據的發(fā)展趨勢 (36)
2.3.1 大數(shù)據對社會的影響 (36)
2.3.2 云平臺數(shù)據更加完善 (38)
2.4 大數(shù)據的挑戰(zhàn)、現(xiàn)狀與展望 (38)
2.4.1 概述 (38)
2.4.2 期望特性 (40)
2.4.3 并行數(shù)據庫 (42)
2.4.4 MapReduce (43)
2.4.5 并行數(shù)據庫和MapReduce的混合架構 (47)
2.4.6 研究現(xiàn)狀 (49)
2.4.7 MapReduce與關系數(shù)據庫技術的融合 (50)
2.4.8 展望研究 (52)
2.5 大數(shù)據行業(yè)應用及未來熱點 (53)
2.5.1 分析大數(shù)據市場 (53)
2.5.2 分析大數(shù)據應用需求 (53)
2.6 大數(shù)據2012年回顧 (54)
2.6.1 2012年大數(shù)據新特征 (54)
2.6.2 進軍大數(shù)據 (55)
2.6.3 新興企業(yè)不斷涌現(xiàn) (56)
2.7 大數(shù)據引導IT支出 (56)
2.8 數(shù)據將變得更加重要 (57)
2.9 盤點全球13個大數(shù)據公司 (59)
第3章 數(shù)據挖掘 (65)
3.1 數(shù)據挖掘的定義 (65)
3.1.1 技術上的定義及含義 (65)
3.1.2 商業(yè)角度的定義 (66)
3.2 數(shù)據挖掘概述 (66)
3.2.1 數(shù)據挖掘的起源 (66)
3.2.2 數(shù)據挖掘方法論 (67)
3.2.3 數(shù)據挖掘常用方法 (69)
3.2.4 數(shù)據挖掘的實現(xiàn)步驟 (71)
3.2.5 數(shù)據挖掘的功能 (71)
3.2.6 數(shù)據挖掘常用技術 (72)
3.2.7 數(shù)據挖掘與傳統(tǒng)分析方法的異同 (78)
3.2.8 數(shù)據挖掘和數(shù)據倉庫 (78)
3.2.9 數(shù)據挖掘的應用 (79)
3.3 數(shù)據挖掘相關知識 (80)
3.3.1 詞語的重要性 (81)
3.3.2 哈希函數(shù) (82)
3.3.3 索引 (84)
3.3.4 二維存儲器 (85)
3.3.5 自然對數(shù)的底e (85)
3.3.6 冪定律 (86)
第4章 數(shù)據量化 (87)
4.1 量化分析簡介 (87)
4.2 規(guī)劃優(yōu)質量化分析 (91)
4.2.1 量化分析開發(fā)規(guī)劃的構成 (91)
4.2.2 文檔 (95)
4.3 答案綱要 (96)
4.4 三角交叉法 (103)
4.5 高級量化分析 (105)
4.5.1 其他象限 (106)
4.5.2 量化分析未成熟組織的益處 (106)
4.5.3 重復業(yè)務流程 (107)
4.5.4 其他象限的量化分析 (107)
4.6 創(chuàng)建服務目錄 (110)
4.7 構建標準和基準 (113)
4.8 量化數(shù)據談投資 (114)
第5章 大規(guī)模文件系統(tǒng)MapReduce (115)
5.1 分布式文件系統(tǒng) (115)
5.1.1 NFS和AFS的區(qū)別 (118)
5.1.2 計算節(jié)點的物理結構 (118)
5.2 MapReduce模型 (119)
5.2.1 Map任務 (120)
5.2.2 分組與聚合 (120)
5.2.3 Reduce任務 (120)
5.3 MapReduce使用算法 (123)
5.3.1 向量乘法實現(xiàn) (123)
5.3.2 內存處理 (123)
5.3.3 關系運算 (124)
5.3.4 分布文件系統(tǒng)實例 (128)
5.4 MapReduce復合鍵值對的使用 (138)
5.4.1 合并鍵值 (138)
5.4.2 用復合鍵排序 (139)
5.5 鏈接MapReduce作業(yè) (142)
5.5.1 順序鏈接MapReduce作業(yè) (142)
5.5.2 復雜的MapReduce鏈接 (143)
5.5.3 前后處理的鏈接 (143)
5.5.4 鏈接不同的數(shù)據 (145)
5.6 MapReduce遞歸擴展 (152)
5.7 集群計算算法的效率問題 (154)
5.7.1 集群計算的通信開銷模型 (154)
5.7.2 多路連接 (155)
第6章 相似項挖掘 (157)
6.1 近鄰搜索的應用 (157)
6.1.1 Jaccard相似度 (157)
6.1.2 文檔相似度 (157)
6.2 文檔的shingling算法 (162)
6.2.1 k-shingle (162)
6.2.2 大小選擇 (163)
6.2.3 對shingle進行哈希 (163)
6.3 最小哈希 (164)
6.3.1 矩陣表示集合 (164)
6.3.2 最小哈希概述 (164)
6.3.3 Jaccard相似度 (165)
6.3.4 最小哈希簽名 (165)
6.3.5 簽名計算 (166)
6.4 語音文檔局部敏感哈希算法 (168)
6.4.1 局部敏感哈希概述 (168)
6.4.2 行條化策略的分析 (172)
6.5 距離測試 (174)
6.5.1 距離測度的定義 (174)
6.5.2 歐氏距離 (174)
6.5.3 Jaccard距離 (175)
6.5.4 余弦距離 (175)
6.5.5 編輯距離 (176)
6.5.6 海明距離 (177)
6.6 其他距離測度的LSH函數(shù)族 (178)
6.6.1 海明距離的LSH函數(shù)族 (178)
6.6.2 隨機超平面與余弦距離 (179)
6.6.3 歐氏距離的LSH函數(shù)族 (180)
6.7 LSH函數(shù)的應用 (181)
6.7.1 實體關聯(lián) (181)
6.7.2 指紋匹配 (183)
6.7.3 論文相似性檢測服務 (185)
6.8 高相似度方法 (186)
6.8.1 相等項發(fā)現(xiàn) (186)
6.8.2 集合字串表示法 (187)
6.8.3 長度過濾 (187)
6.8.4 前綴索引 (188)
6.8.5 位置信息使用 (188)
6.8.6 使用位置和長度信息的索引 (190)
第7章 HDFS存儲海量數(shù)據 (192)
7.1 HDFS簡介 (192)
7.1.1 HDFS的特點 (192)
7.1.2 HDFS的設計需求 (193)
7.1.3 HDFS體系結構 (195)
7.1.4 HDFS的可靠性措施 (196)
7.1.5 數(shù)據均衡 (200)
7.2 HDFS存取機制 (200)
7.3 圖像存儲 (202)
7.3.1 圖像存儲基本思想 (202)
7.3.2 圖像存儲設計目標 (202)
7.3.3 圖像存儲體系結構 (203)
7.3.4 系統(tǒng)功能結構 (204)
7.4 HDFS管理操作 (205)
7.4.1 權限管理 (205)
7.4.2 配額管理 (207)
7.4.3 文件歸檔 (207)
7.5 FS Shell使用指南 (208)
7.6 API使用 (214)
7.7 HDFS的缺點 (216)
7.8 HDFS存儲海量數(shù)據 (217)
第8章 HBase存儲百科數(shù)據 (219)
8.1 HBase的系統(tǒng)框架 (219)
8.2 HBase基本特征 (222)
8.2.1 RDBMS與HBase (222)
8.2.2 NoSQL數(shù)據庫 (223)
8.2.3 HBase的特點 (225)
8.3 HBase的基本接口 (226)
8.3.1 HBase訪問接口 (226)
8.3.2 HBase的存儲格式 (227)
8.3.3 HBase的讀寫流程 (227)
8.4 模塊總體設計 (228)
8.4.1 數(shù)據庫模塊總體設計 (228)
8.4.2 模塊詳細設計 (229)
8.4.3 數(shù)據庫模塊交互設計 (233)
8.5 HBase數(shù)據模型 (234)
8.6 HBase的安裝與配置 (238)
8.7 HBase實例分析 (240)
8.7.1 HBase的HFileOutputFormat (240)
8.7.2 HBase的TableOutputFormat (243)
第9章 大數(shù)據鏈接分析 (247)
9.1 鏈接分析中的數(shù)據采集研究 (247)
9.1.1 鏈接分析概述 (247)
9.1.2 相關研究 (248)
9.1.3 系統(tǒng)功能設計 (249)
9.1.4 實驗 (251)
9.1.5 結論 (252)
9.2 PageRank工具 (252)
9.2.1 PageRank概述 (253)
9.2.2 PageRank定義 (253)
9.2.3 相關算法 (255)
9.2.4 避免終止點 (256)
9.2.5 采集器陷阱及“抽稅”法 (258)
9.2.6 影響PageRank的因素 (259)
9.3 PageRank算法 (259)
9.4 搜索引擎研究 (262)
9.4.1 搜索引擎未來的發(fā)展方向 (262)
9.4.2 通用型搜索引擎 (264)
9.4.3 主題型搜索引擎 (268)
9.4.4 性能指標 (270)
9.5 鏈接作弊 (270)
9.5.1 垃圾農場的架構 (270)
9.5.2 垃圾農場的分析 (271)
9.5.3 TrustRank (272)
9.5.4 垃圾質量 (273)
9.6 導航頁和權威頁 (273)
第10章 聚類 (276)
10.1 聚類概述 (276)
10.1.1 聚類的典型應用 (276)
10.1.2 聚類的典型要求 (276)
10.1.3 聚類的計算方法 (277)
10.1.4 聚類分析的特征 (278)
10.2 聚類技術 (279)
10.2.1 點、空間和距離 (279)
10.2.2 維數(shù)災難 (279)
10.3 層次聚類 (280)
10.3.1 歐氏空間下的層次聚類 (281)
10.3.2 控制層次聚類的其他規(guī)則 (284)
10.3.3 非歐空間下的層次聚類 (284)
10.4 K-均值算法 (285)
10.4.1 K-均值算法的簇初始化 (285)
10.4.2 K值的選擇 (286)
10.4.3 BFR算法 (287)
10.4.4 BFR算法中的數(shù)據處理 (288)
10.5 CURE算法 (290)
10.5.1 CURE算法流程 (290)
10.5.2 CURE算法設計 (290)
10.5.3 數(shù)據取樣算法 (293)
10.6 流聚類及并行化 (293)
10.6.1 流計算模型 (294)
10.6.2 二次聚類算法 (294)
10.7 非歐空間下的聚類 (297)
10.7.1 GRGPF算法的簇表示 (297)
10.7.2 簇樹的初始化 (297)
10.7.3 算法中加入點 (298)
10.7.4 分裂與合并 (299)
第11章 項集與系統(tǒng) (301)
11.1 項集與系統(tǒng)概述 (301)
11.2 項集 (302)
11.2.1 規(guī)則 (303)
11.2.2 內存使用 (304)
11.2.3 單調性 (305)
11.2.4 二元組計數(shù) (305)
11.2.5 A-Priori算法 (306)
11.2.6 頻繁項集上的A-Priori算法 (307)
11.3 更大數(shù)據集處理 (308)
11.3.1 PCY算法 (309)
11.3.2 多階段算法 (310)
11.3.3 多哈希算法 (311)
11.4 有限掃描算法 (312)
11.4.1 隨機算法 (312)
11.4.2 SON算法 (313)
11.4.3 MapReduce算法 (313)
11.4.4 Toivonen算法 (314)
11.5 流中的頻繁項 (315)
11.5.1 抽樣法 (315)
11.5.2 衰減窗口的頻繁項集 (316)
11.5.3 混合方法 (316)
11.6 推薦模型系統(tǒng) (317)
11.6.1 效用矩陣 (317)
11.6.2 長尾現(xiàn)象 (317)
11.6.3 效用矩陣的填充 (318)
11.7 內容的推薦 (318)
11.7.1 項模型 (319)
11.7.2 項模型的表示 (319)
11.7.3 分類算法 (320)
11.8 協(xié)同過濾 (321)
11.8.1 協(xié)同過濾的優(yōu)缺點 (321)
11.8.2 協(xié)同過濾案例 (321)
11.9 降維處理 (322)
11.9.1 基于中心流形理論的降維方法 (322)
11.9.2 Lyapunov-Schmidt(L-S)方法 (323)
11.9.3 Galerkin方法 (324)
11.9.4 正交分解技術的降維方法 (327)
11.9.5 其他降維方法 (328)
11.10 Netflix大獎賽與推薦系統(tǒng) (331)
參考文獻 (336)