大數(shù)據(jù)：互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理

定　價(jià)：￥59.00

作　者：	（美） Anand Rajaraman （美） Jeffrey David Ullman 著，王斌譯
出版社：	人民郵電出版社
叢編項(xiàng)：
標(biāo)　簽：	數(shù)據(jù)倉庫與數(shù)據(jù)挖掘

購買這本書可以去

ISBN：	9787115291318	出版時(shí)間：	2012-09-01	包裝：	平裝
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　本書源自作者在斯坦福大學(xué)教授多年的“Web挖掘”課程材料，主要關(guān)注大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘的實(shí)際算法。書中分析了海量數(shù)據(jù)集數(shù)據(jù)挖掘常用的算法，介紹了目前Web應(yīng)用的許多重要話題。主要內(nèi)容包括：□ 分布式文件系統(tǒng)以及Map-Reduce工具；□ 相似性搜索；□ 數(shù)據(jù)流處理以及針對易丟失數(shù)據(jù)等特殊情況的專用處理算法；□ 搜索引擎技術(shù)，如谷歌的PageRank；□ 頻繁項(xiàng)集挖掘；□ 大規(guī)模高維數(shù)據(jù)集的聚類算法；□ Web應(yīng)用中的關(guān)鍵問題：廣告管理和推薦系統(tǒng)。本書配套網(wǎng)http：//infolab.stanford.edu/~ullman/mmds.html上提供英文版初稿以及一些課件和項(xiàng)目作業(yè)。

作者簡介

　　AnandRajaraman　數(shù)據(jù)庫和Web技術(shù)領(lǐng)域權(quán)威，創(chuàng)業(yè)投資基金Cambrian聯(lián)合創(chuàng)始人，斯坦福大學(xué)計(jì)算機(jī)科學(xué)系助理教授。Rajaraman職業(yè)生涯非常成功：1996年創(chuàng)辦Junglee公司，兩年后該公司被亞馬遜以2.5億美元收購，Rajaraman被聘為亞馬遜技術(shù)總監(jiān)，推動亞馬遜從一個(gè)零售商轉(zhuǎn)型為零售平臺；2000年與人合創(chuàng)Cambrian，孵化出幾個(gè)后來被谷歌收購的公司；2005年創(chuàng)辦Kosmix公司并任CEO，該公司2011年被沃爾瑪集團(tuán)收購。Rajaraman生于印度，在斯坦福大學(xué)獲得計(jì)算機(jī)科學(xué)碩士和博士學(xué)位。求學(xué)期間與人合著的一篇論文榮列近20年來被引用次數(shù)最多的論文之一。博客地址http：//anand.typepad.com/datawocky/。Jeffrey DavidUllman　美國國家工程院院士，計(jì)算機(jī)科學(xué)家，斯坦福大學(xué)教授。Ullman早年在貝爾實(shí)驗(yàn)室工作，之后任教于普林斯頓大學(xué)，十年后加入斯坦福大學(xué)直至退休，一生的科研、著書和育人成果卓著。他是ACM會員，曾獲SIGMOD貢獻(xiàn)獎(jiǎng)、Knuth獎(jiǎng)等多項(xiàng)科研大獎(jiǎng)；他是“龍書”《編譯原理》、數(shù)據(jù)庫領(lǐng)域權(quán)威指南《數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)》的合著者；麾下多名學(xué)生成為了數(shù)據(jù)庫領(lǐng)域的專家，其中最有名的當(dāng)屬谷歌創(chuàng)始人SergeyBrin；本書第一作者也是他的得意弟子。Ullman目前任Gradiance公司CEO。譯者簡介：王斌　博士，中國科學(xué)院計(jì)算技術(shù)研究所博士生導(dǎo)師。中國科學(xué)院信息工程研究所客座研究員。主要研究方向?yàn)樾畔z索、自然語言處理和數(shù)據(jù)挖掘?！缎畔z索導(dǎo)論》譯者。主持國家973、863、國家自然科學(xué)基金、國際合作基金、國家支撐計(jì)劃等課題20余項(xiàng)，發(fā)表學(xué)術(shù)論文120余篇?，F(xiàn)為ACM會員、中國中文信息學(xué)會理事、中文信息學(xué)會信息檢索專委會委員、《中文信息學(xué)報(bào)》編委、中國計(jì)算機(jī)學(xué)會高級會員及計(jì)算機(jī)學(xué)會中文信息處理專委會委員。自2006年起在中國科學(xué)院研究生院（現(xiàn)改名“中國科學(xué)院大學(xué)”）講授《現(xiàn)代信息檢索》研究生課程，選課人數(shù)累計(jì)近千人。2010年開始指導(dǎo)研究生，迄今培養(yǎng)博士、碩士研究生30余名。

圖書目錄

第1章　數(shù)據(jù)挖掘基本概念　　1
1.1　數(shù)據(jù)挖掘的定義　　1
1.1.1　統(tǒng)計(jì)建?！　?
1.1.2　機(jī)器學(xué)習(xí)　　1
1.1.3　建模的計(jì)算方法　　2
1.1.4　數(shù)據(jù)匯總　　2
1.1.5　特征抽取　　3
1.2　數(shù)據(jù)挖掘的統(tǒng)計(jì)限制　　4
1.2.1　整體情報(bào)預(yù)警　　4
1.2.2　邦弗朗尼原理　　4
1.2.3　邦弗朗尼原理的一個(gè)例子　　5
1.2.4　習(xí)題　　6
1.3　相關(guān)知識　　6
1.3.1　詞語在文檔中的重要性　　6
1.3.2　哈希函數(shù)　　7
1.3.3　索引　　8
1.3.4　二級存儲器　　10
1.3.5　自然對數(shù)的底e　　10
1.3.6　冪定律　　11
1.3.7　習(xí)題　　12
1.4　本書概要　　13
1.5　小結(jié)　　14
1.6　參考文獻(xiàn)　　14
第2章　大規(guī)模文件系統(tǒng)及Map-Reduce　　16
2.1　分布式文件系統(tǒng)　　16
2.1.1　計(jì)算節(jié)點(diǎn)的物理結(jié)構(gòu)　　17
2.1.2　大規(guī)模文件系統(tǒng)的結(jié)構(gòu)　　18
2.2　 Map-Reduce　　18
2.2.1　 Map任務(wù)　　19
2.2.2　分組和聚合　　20
2.2.3　 Reduce任務(wù)　　20
2.2.4　組合器　　21
2.2.5　 Map-Reduce的執(zhí)行細(xì)節(jié)　　21
2.2.6　節(jié)點(diǎn)失效的處理　　22
2.3　使用Map-Reduce的算法　　22
2.3.1　基于Map-Reduce的矩陣—向量乘法實(shí)現(xiàn)　　23
2.3.2　向量v無法放入內(nèi)存時(shí)的處理　　23
2.3.3　關(guān)系代數(shù)運(yùn)算　　24
2.3.4　基于Map-Reduce的選擇運(yùn)算　　26
2.3.5　基于Map-Reduce的投影運(yùn)算　　26
2.3.6　基于Map-Reduce的并、交和差運(yùn)算　　27
2.3.7　基于Map-Reduce的自然連接運(yùn)算　　27
2.3.8　一般性的連接算法　　28
2.3.9　基于Map-Reduce的分組和聚合運(yùn)算　　28
2.3.10　矩陣乘法　　29
2.3.11　基于單步Map-Reduce的矩陣乘法　　29
2.3.12　習(xí)題　　30
2.4　 Map-Reduce的擴(kuò)展　　31
2.4.1　工作流系統(tǒng)　　31
2.4.2　 Map-Reduce的遞歸擴(kuò)展版本　　32
2.4.3　 Pregel系統(tǒng)　　34
2.4.4　習(xí)題　　35
2.5　集群計(jì)算算法的效率問題　　35
2.5.1　集群計(jì)算的通信開銷模型　　35
2.5.2　實(shí)耗通信開銷　　36
2.5.3　多路連接　　37
2.5.4　習(xí)題　　40
2.6　小結(jié)　　40
2.7　參考文獻(xiàn)　　42
第3章　相似項(xiàng)發(fā)現(xiàn)　　44
3.1　近鄰搜索的應(yīng)用　　44
3.1.1　集合的Jaccard相似度　　44
3.1.2　文檔的相似度　　45
3.1.3　協(xié)同過濾——一個(gè)集合相似問題　　46
3.1.4　習(xí)題　　47
3.2　文檔的Shingling　　47
3.2.1　 k-Shingle　　47
3.2.2　 shingle大小的選擇　　48
3.2.3　對shingle進(jìn)行哈?！　?8
3.2.4　基于詞的shingle　　49
3.2.5　習(xí)題　　49
3.3　保持相似度的集合摘要表示　　49
3.3.1　集合的矩陣表示　　50
3.3.2　最小哈?！　?0
3.3.3　最小哈希及Jaccard相似度　　51
3.3.4　最小哈希簽名　　52
3.3.5　最小哈希簽名的計(jì)算　　52
3.3.6　習(xí)題　　54
3.4　文檔的局部敏感哈希算法　　55
3.4.1　面向最小哈希簽名的LSH　　56
3.4.2　行條化策略的分析　　57
3.4.3　上述技術(shù)的綜合　　58
3.4.4　習(xí)題　　59
3.5　距離測度　　59
3.5.1　距離測度的定義　　59
3.5.2　歐氏距離　　60
3.5.3　 Jaccard距離　　60
3.5.4　余弦距離　　61
3.5.5　編輯距離　　62
3.5.6　海明距離　　63
3.5.7　習(xí)題　　63
3.6　局部敏感函數(shù)理論　　64
3.6.1　局部敏感函數(shù)　　65
3.6.2　面向Jaccard距離的局部敏感函數(shù)族　　66
3.6.3　局部敏感函數(shù)族的放大處理　　66
3.6.4　習(xí)題　　68
3.7　面向其他距離測度的LSH函數(shù)族　　68
3.7.1　面向海明距離的LSH函數(shù)族　　69
3.7.2　隨機(jī)超平面和余弦距離　　69
3.7.3　梗概　　70
3.7.4　面向歐氏距離的LSH函數(shù)族　　71
3.7.5　面向歐氏空間的更多LSH函數(shù)族　　72
3.7.6　習(xí)題　　72
3.8　 LSH函數(shù)的應(yīng)用　　73
3.8.1　實(shí)體關(guān)聯(lián)　　73
3.8.2　一個(gè)實(shí)體關(guān)聯(lián)的例子　　74
3.8.3　記錄匹配的驗(yàn)證　　74
3.8.4　指紋匹配　　75
3.8.5　適用于指紋匹配的LSH函數(shù)族　　76
3.8.6　相似新聞報(bào)道檢測　　77
3.8.7　習(xí)題　　78
3.9　面向高相似度的方法　　79
3.9.1　相等項(xiàng)發(fā)現(xiàn)　　79
3.9.2　集合的字符串表示方法　　79
3.9.3　基于長度的過濾　　80
3.9.4　前綴索引　　81
3.9.5　位置信息的使用　　82
3.9.6　使用位置和長度信息的索引　　83
3.9.7　習(xí)題　　85
3.10　小結(jié)　　85
3.11　參考文獻(xiàn)　　87
第4章　數(shù)據(jù)流挖掘　　89
4.1　流數(shù)據(jù)模型　　89
4.1.1　一個(gè)數(shù)據(jù)流管理系統(tǒng)　　89
4.1.2　流數(shù)據(jù)源的例子　　90
4.1.3　流查詢　　91
4.1.4　流處理中的若干問題　　92
4.2　流當(dāng)中的數(shù)據(jù)抽樣　　92
4.2.1　一個(gè)富于啟發(fā)性的例子　　93
4.2.2　代表性樣本的獲取　　93
4.2.3　一般的抽樣問題　　94
4.2.4　樣本規(guī)模的變化　　94
4.2.5　習(xí)題　　95
4.3　流過濾　　95
4.3.1　一個(gè)例子　　95
4.3.2　布隆過濾器　　96
4.3.3　布隆過濾方法的分析　　96
4.3.4　習(xí)題　　97
4.4　流中獨(dú)立元素的數(shù)目統(tǒng)計(jì)　　98
4.4.1　獨(dú)立元素計(jì)數(shù)問題　　98
4.4.2　 FM算法　　98
4.4.3　組合估計(jì)　　99
4.4.4　空間需求　　100
4.4.5　習(xí)題　　100
4.5　矩估計(jì)　　100
4.5.1　矩定義　　100
4.5.2　二階矩估計(jì)的AMS算法　　101
4.5.3　 AMS算法有效的原因　　102
4.5.4　更高階矩的估計(jì)　　103
4.5.5　無限流的處理　　103
4.5.6　習(xí)題　　104
4.6　窗口內(nèi)的計(jì)數(shù)問題　　105
4.6.1　精確計(jì)數(shù)的開銷　　105
4.6.2　 DGIM算法　　105
4.6.3　 DGIM算法的存儲需求　　107
4.6.4　 DGIM算法中的查詢應(yīng)答　　107
4.6.5　 DGIM條件的保持　　108
4.6.6　降低錯(cuò)誤率　　109
4.6.7　窗口內(nèi)計(jì)數(shù)問題的擴(kuò)展　　109
4.6.8　習(xí)題　　110
4.7　衰減窗口　　110
4.7.1　最常見元素問題　　110
4.7.2　衰減窗口的定義　　111
4.7.3　最流行元素的發(fā)現(xiàn)　　111
4.8　小結(jié)　　112
4.9　參考文獻(xiàn)　　113
第5章　鏈接分析　　115
5.1　 PageRank　　115
5.1.1　早期的搜索引擎及詞項(xiàng)作弊　　115
5.1.2　 PageRank的定義　　117
5.1.3　 Web結(jié)構(gòu)　　119
5.1.4　避免終止點(diǎn)　　121
5.1.5　采集器陷阱及“抽稅”法　　123
5.1.6　 PageRank在搜索引擎中的使用　　125
5.1.7　習(xí)題　　125
5.2　 PageRank的快速計(jì)算　　126
5.2.1　轉(zhuǎn)移矩陣的表示　　127
5.2.2　基于Map-Reduce的PageRank迭代計(jì)算　　128
5.2.3　結(jié)果向量合并時(shí)的組合器使用　　128
5.2.4　轉(zhuǎn)移矩陣中塊的表示　　129
5.2.5　其他高效的PageRank迭代方法　　130
5.2.6　習(xí)題　　131
5.3　面向主題的PageRank　　131
5.3.1　動機(jī)　　131
5.3.2　有偏的隨機(jī)游走模型　　132
5.3.3　面向主題的PageRank的使用　　133
5.3.4　基于詞匯的主題推斷　　134
5.3.5　習(xí)題　　134
5.4　鏈接作弊　　135
5.4.1　垃圾農(nóng)場的架構(gòu)　　135
5.4.2　垃圾農(nóng)場的分析　　136
5.4.3　與鏈接作弊的斗爭　　137
5.4.4　 TrustRank　　137
5.4.5　垃圾質(zhì)量　　137
5.4.6　習(xí)題　　138
5.5　導(dǎo)航頁和權(quán)威頁　　139
5.5.1　 HITS的直觀意義　　139
5.5.2　導(dǎo)航度和權(quán)威度的形式化　　139
5.5.3　習(xí)題　　142
5.6　小結(jié)　　143
5.7　參考文獻(xiàn)　　145
第6章　頻繁項(xiàng)集　　146
6.1　購物籃模型　　146
6.1.1　頻繁項(xiàng)集的定義　　146
6.1.2　頻繁項(xiàng)集的應(yīng)用　　148
6.1.3　關(guān)聯(lián)規(guī)則　　149
6.1.4　高可信度關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)　　150
6.1.5　習(xí)題　　151
6.2　購物籃及A-Priori算法　　152
6.2.1　購物籃數(shù)據(jù)的表示　　152
6.2.2　項(xiàng)集計(jì)數(shù)中的內(nèi)存使用　　153
6.2.3　項(xiàng)集的單調(diào)性　　154
6.2.4　二元組計(jì)數(shù)　　155
6.2.5　 A-Priori算法　　155
6.2.6　所有頻繁項(xiàng)集上的A-Priori算法　　157
6.2.7　習(xí)題　　158
6.3　更大數(shù)據(jù)集在內(nèi)存中的處理　　159
6.3.1　 PCY算法　　160
6.3.2　多階段算法　　161
6.3.3　多哈希算法　　163
6.3.4　習(xí)題　　164
6.4　有限掃描算法　　166
6.4.1　簡單的隨機(jī)化算法　　166
6.4.2　抽樣算法中的錯(cuò)誤規(guī)避　　167
6.4.3　 SON算法　　168
6.4.4　 SON算法和Map-Reduce　　168
6.4.5　 Toivonen算法　　169
6.4.6　 Toivonen算法的有效性分析　　170
6.4.7　習(xí)題　　170
6.5　流中的頻繁項(xiàng)計(jì)數(shù)　　171
6.5.1　流的抽樣方法　　171
6.5.2　衰減窗口中的頻繁項(xiàng)集　　172
6.5.3　混合方法　　172
6.5.4　習(xí)題　　173
6.6　小結(jié)　　173
6.7　參考文獻(xiàn)　　175
第7章　聚類　　176
7.1　聚類技術(shù)介紹　　176
7.1.1　點(diǎn)、空間和距離　　176
7.1.2　聚類策略　　177
7.1.3　維數(shù)災(zāi)難　　178
7.1.4　習(xí)題　　179
7.2　層次聚類　　179
7.2.1　歐氏空間下的層次聚類　　180
7.2.2　層次聚類算法的效率　　183
7.2.3　控制層次聚類的其他規(guī)則　　183
7.2.4　非歐空間下的層次聚類　　185
7.2.5　習(xí)題　　186
7.3　 k-均值算法　　187
7.3.1　 k-均值算法基本知識　　187
7.3.2　 k-均值算法的簇初始化　　187
7.3.3　選擇k的正確值　　188
7.3.4　 BFR算法　　189
7.3.5　 BFR算法中的數(shù)據(jù)處理　　191
7.3.6　習(xí)題　　192
7.4　 CURE算法　　193
7.4.1　 CURE算法的初始化　　194
7.4.2　 CURE算法的完成　　195
7.4.3　習(xí)題　　195
7.5　非歐空間下的聚類　　196
7.5.1　 GRGPF算法中的簇表示　　196
7.5.2　簇表示樹的初始化　　196
7.5.3　 GRGPF算法中的點(diǎn)加入　　197
7.5.4　簇的分裂及合并　　198
7.5.5　習(xí)題　　199
7.6　流聚類及并行化　　199
7.6.1　流計(jì)算模型　　199
7.6.2　一個(gè)流聚類算法　　200
7.6.3　桶的初始化　　200
7.6.4　桶合并　　200
7.6.5　查詢應(yīng)答　　202
7.6.6　并行環(huán)境下的聚類　　202
7.6.7　習(xí)題　　203
7.7　小結(jié)　　203
7.8　參考文獻(xiàn)　　205
第8章　 Web廣告　　207
8.1　在線廣告相關(guān)問題　　207
8.1.1　廣告機(jī)會　　207
8.1.2　直投廣告　　208
8.1.3　展示廣告的相關(guān)問題　　208
8.2　在線算法　　209
8.2.1　在線和離線算法　　209
8.2.2　貪心算法　　210
8.2.3　競爭率　　211
8.2.4　習(xí)題　　211
8.3　廣告匹配問題　　212
8.3.1　匹配及完美匹配　　212
8.3.2　最大匹配貪心算法　　213
8.3.3　貪心匹配算法的競爭率　　213
8.3.4　習(xí)題　　214
8.4　 Adwords問題　　214
8.4.1　搜索廣告的歷史　　215
8.4.2　 Adwords問題的定義　　215
8.4.3　 Adwords問題的貪心方法　　216
8.4.4　 Balance算法　　217
8.4.5　 Balance算法競爭率的一個(gè)下界　　217
8.4.6　多投標(biāo)者的Balance算法　　219
8.4.7　一般性的Balance算法　　220
8.4.8　 Adwords問題的最后論述　　221
8.4.9　習(xí)題　　221
8.5　 Adwords的實(shí)現(xiàn)　　221
8.5.1　投標(biāo)和搜索查詢的匹配　　222
8.5.2　更復(fù)雜的匹配問題　　222
8.5.3　文檔和投標(biāo)之間的匹配算法　　223
8.6　小結(jié)　　224
8.7　參考文獻(xiàn)　　226
第9章　推薦系統(tǒng)　　227
9.1　一個(gè)推薦系統(tǒng)的模型　　227
9.1.1　效用矩陣　　227
9.1.2　長尾現(xiàn)象　　228
9.1.3　推薦系統(tǒng)的應(yīng)用　　230
9.1.4　效用矩陣的填充　　230
9.2　基于內(nèi)容的推薦　　231
9.2.1　項(xiàng)模型　　231
9.2.2　文檔的特征發(fā)現(xiàn)　　231
9.2.3　基于Tag的項(xiàng)特征獲取　　232
9.2.4　項(xiàng)模型的表示　　233
9.2.5　用戶模型　　234
9.2.6　基于內(nèi)容的項(xiàng)推薦　　235
9.2.7　分類算法　　235
9.2.8　習(xí)題　　237
9.3　協(xié)同過濾　　238
9.3.1　相似度計(jì)算　　238
9.3.2　相似度對偶性　　241
9.3.3　用戶聚類和項(xiàng)聚類　　242
9.3.4　習(xí)題　　243
9.4　降維處理　　243
9.4.1　 UV分解　　244
9.4.2　 RMSE　　244
9.4.3　 UV分解的增量式計(jì)算　　245
9.4.4　對任一元素的優(yōu)化　　247
9.4.5　一個(gè)完整UV分解算法的構(gòu)建　　248
9.4.6　習(xí)題　　250
9.5　 NetFlix競賽　　250
9.6　小結(jié)　　251
9.7　參考文獻(xiàn)　　253
索引　　254