零基礎(chǔ)學(xué)大數(shù)據(jù)算法

定　價：￥59.00

作　者：	王宏志
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	計(jì)算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)庫

購買這本書可以去

ISBN：	9787121289378	出版時間：	2016-06-01	包裝：	平塑
開本：		頁數(shù)：	268	字?jǐn)?shù)：

內(nèi)容簡介

　　本書是通俗易懂的大數(shù)據(jù)算法教程。通篇采用師生對話的形式，旨在用通俗的語言、輕松的氣氛，幫助讀者理解大數(shù)據(jù)計(jì)算領(lǐng)域中的基礎(chǔ)算法和思想。本書由背景篇、理論篇、應(yīng)用篇和實(shí)踐篇四部分組成。背景篇介紹大數(shù)據(jù)、算法、大數(shù)據(jù)算法等基本概念和背景；理論篇介紹解決大數(shù)據(jù)問題的亞線性算法、磁盤算法、并行算法、眾包算法的基本思想和理論知識；應(yīng)用篇介紹與大數(shù)據(jù)問題息息相關(guān)的數(shù)據(jù)挖掘和推薦系統(tǒng)的相關(guān)知識；實(shí)踐篇從實(shí)際應(yīng)用出發(fā)，引導(dǎo)讀者動手操作，幫助讀者通過實(shí)際程序和實(shí)驗(yàn)驗(yàn)證磁盤算法、并行算法和眾包算法。在講解每一個大數(shù)據(jù)問題之前，本書都會介紹大量的經(jīng)典算法和基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)知識，不僅可以幫助學(xué)習(xí)過數(shù)據(jù)結(jié)構(gòu)與算法、算法設(shè)計(jì)與分析等課程的同學(xué)復(fù)習(xí)，同時能夠讓入門的“小菜鳥”們，不會因?yàn)闆]有學(xué)習(xí)過經(jīng)典算法而對本書望而卻步，輕松地掌握大數(shù)據(jù)算法！

作者簡介

　　博士畢業(yè)以來一直哈爾濱工業(yè)大學(xué)計(jì)算機(jī)學(xué)院任職，根據(jù)2012年教育部學(xué)科評估，該學(xué)科排名第4。王博士現(xiàn)任軟件與理論學(xué)科副教授，博士生導(dǎo)師。發(fā)表論文100余篇，出版學(xué)術(shù)專著《XML查詢處理》和英文專著《Innovative Techniques and Applications of Entity Resolution》，撰寫3篇專著章節(jié)，擁有3項(xiàng)軟件著作權(quán)，完成經(jīng)典教材《算法導(dǎo)論（第三版）》最后5章的翻譯，其論文被SCI/EI檢索60余次，引用300余次，其中5篇論文發(fā)表于頂級國際會議上。獲得微軟學(xué)者（亞太地區(qū)40人獲獎）、中國優(yōu)秀數(shù)據(jù)庫工程師（全國10人獲獎）、IBM博士英才（大中華區(qū)8人獲獎）等稱號，“海量數(shù)據(jù)計(jì)算的理論和技術(shù)”獲得黑龍江省自然科學(xué)獎1項(xiàng)，其博士論文“XML數(shù)據(jù)查詢處理技術(shù)的研究”獲得哈爾濱工業(yè)大學(xué)優(yōu)秀博士論文和中國計(jì)算機(jī)學(xué)會優(yōu)秀博士論文。其在2014年與慕課網(wǎng)開設(shè)《大數(shù)據(jù)算法》課程，這是國內(nèi)首次公開開設(shè)與大數(shù)據(jù)算法相關(guān)的課程，迄今已經(jīng)有超過2萬人選課。其2008年在國際頂級會議VLDB上發(fā)表的論文是2000年以來第一篇國內(nèi)學(xué)者獨(dú)立完成的VLDB論文，在國內(nèi)外產(chǎn)生了較大影響。2011年在微軟亞洲研究院期間提出的海量圖數(shù)據(jù)的匹配算法國際上首次將子圖匹配算法擴(kuò)展到了在規(guī)模為10億級別的圖上，該算法于2012年發(fā)表以來已被引用超過30次，并已經(jīng)進(jìn)入微軟亞洲研究院的Trinity系統(tǒng)。王博士在國內(nèi)外多個知名數(shù)據(jù)庫會議擔(dān)任程序委員會委員20余次，在國際學(xué)術(shù)領(lǐng)域有一定影響。王博士在大數(shù)據(jù)管理、Web數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理、圖數(shù)據(jù)管理的研究和開發(fā)方面都有用豐富的經(jīng)驗(yàn)。

圖書目錄

第1 篇　背景篇第1 章　何謂大數(shù)據(jù) 4 1.1　身邊的大數(shù)據(jù) 4 1.2　大數(shù)據(jù)的特點(diǎn)和應(yīng)用 6 第2 章　何謂算法 8 2.1　算法的定義 8 2.2　算法的分析 14 2.3　基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)——線性表 24 2.4　遞歸——以階乘為例 28 第3 章　何謂大數(shù)據(jù)算法 31 第2 篇　理論篇第4 章　窺一斑而見全豹——亞線性算法 34 4.1　亞線性算法的定義 34 4.2　空間亞線性算法 35 4.2.1　水庫抽樣 35 4.2.2　數(shù)據(jù)流中的頻繁元素 37 4.3　時間亞線性計(jì)算算法 40 4.3.1　圖論基礎(chǔ)回顧 40 4.3.2　平面圖直徑 45 4.3.3　最小生成樹 46 4.4　時間亞線性判定算法 53 4.4.1　全0 數(shù)組的判定 53 4.4.2　數(shù)組有序的判定 55 第5 章　價錢與性能的平衡——磁盤算法 58 5.1　磁盤算法概述 58 5.2　外排序 62 5.3　外存數(shù)據(jù)結(jié)構(gòu)——磁盤查找樹 71 5.3.1　二叉搜索樹回顧 71 5.3.2　外存數(shù)據(jù)結(jié)構(gòu)——B 樹 78 5.3.3　高維外存查找結(jié)構(gòu)——KD 樹 80 5.4　表排序 83 5.5　表排序的應(yīng)用 86 5.5.1　歐拉回路技術(shù) 86 5.5.2　父子關(guān)系判定 87 5.5.3　前序計(jì)數(shù) 88 5.6　時間前向處理技術(shù) 90 5.7　縮圖法 98 第6 章　1+1＞2——并行算法 103 6.1　MapReduce 初探 103 6.2　MapReduce 算法實(shí)例 106 6.2.1　字?jǐn)?shù)統(tǒng)計(jì) 106 6.2.2　平均數(shù)計(jì)算 108 6.2.3　單詞共現(xiàn)矩陣計(jì)算 111 6.3　MapReduce 進(jìn)階算法 115 6.3.1　join 操作 115 6.3.2　MapReduce 圖算法概述 122 6.3.3　基于路徑的圖算法 125 第7 章　超越MapReduce 的并行計(jì)算 131 7.1　MapReduce 平臺的局限 131 7.2　基于圖處理平臺的并行算法 136 7.2.1　概述 136 7.2.2　BSP 模型下的單源最短路徑 137 7.2.3　計(jì)算子圖同構(gòu) 141 第8 章　眾人拾柴火焰高——眾包算法 144 8.1　眾包概述 144 8.1.1　眾包的定義 144 8.1.2　眾包應(yīng)用舉例 146 8.1.3　眾包的特點(diǎn) 149 8.2　眾包算法例析 152 第3 篇　應(yīng)用篇第9 章　大數(shù)據(jù)中有黃金——數(shù)據(jù)挖掘 158 9.1　數(shù)據(jù)挖掘概述 158 9.2　數(shù)據(jù)挖掘的分類 159 9.3　聚類算法——k-means 160 9.4　分類算法——Naive Bayes 166 第10 章　推薦系統(tǒng) 170 10.1　推薦系統(tǒng)概述 170 10.2　基于內(nèi)容的推薦方法 173 10.3　協(xié)同過濾模型 176 第4 篇　實(shí)踐篇第11 章　磁盤算法實(shí)踐 186 第12 章　并行算法實(shí)踐 194 12.1　Hadoop MapReduce 實(shí)踐 194 12.1.1　環(huán)境搭建 194 12.1.2　配置Hadoop 201 12.1.3　“Hello World”程序—— WordCount 203 12.1.4　Hadoop 實(shí)踐案例——記錄去重 213 12.1.5　Hadoop 實(shí)踐案例——等值連接 216 12.1.6　多機(jī)配置 221 12.2　適于迭代并行計(jì)算的平臺——Spark 224 12.2.1　Spark 初探 224 12.2.2　單詞出現(xiàn)行計(jì)數(shù) 230 12.2.3　在Spark 上實(shí)現(xiàn)WordCount 236 12.2.4　在HDFS 上使用Spark 241 12.2.5　Spark 的核心操作——Transformation 和Action 244 12.2.6　Spark 實(shí)踐案例——PageRank 247 第13 章　眾包算法實(shí)踐 251 13.1　認(rèn)識AMT 251 13.2　成為眾包工人 252