注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡家庭與辦公軟件零基礎學大數據算法

零基礎學大數據算法

零基礎學大數據算法

定 價:¥59.00

作 者: 王宏志
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 計算機/網絡 數據倉庫與數據挖掘 數據庫

購買這本書可以去


ISBN: 9787121289378 出版時間: 2016-06-01 包裝: 平塑
開本: 頁數: 268 字數:  

內容簡介

  本書是通俗易懂的大數據算法教程。通篇采用師生對話的形式,旨在用通俗的語言、輕松的氣氛,幫助讀者理解大數據計算領域中的基礎算法和思想。本書由背景篇、理論篇、應用篇和實踐篇四部分組成。背景篇介紹大數據、算法、大數據算法等基本概念和背景;理論篇介紹解決大數據問題的亞線性算法、磁盤算法、并行算法、眾包算法的基本思想和理論知識;應用篇介紹與大數據問題息息相關的數據挖掘和推薦系統(tǒng)的相關知識;實踐篇從實際應用出發(fā),引導讀者動手操作,幫助讀者通過實際程序和實驗驗證磁盤算法、并行算法和眾包算法。在講解每一個大數據問題之前,本書都會介紹大量的經典算法和基礎數據結構知識,不僅可以幫助學習過數據結構與算法、算法設計與分析等課程的同學復習,同時能夠讓入門的“小菜鳥”們,不會因為沒有學習過經典算法而對本書望而卻步,輕松地掌握大數據算法!

作者簡介

  博士畢業(yè)以來一直哈爾濱工業(yè)大學計算機學院任職,根據2012年教育部學科評估,該學科排名第4。王博士現(xiàn)任軟件與理論學科副教授,博士生導師。發(fā)表論文100余篇,出版學術專著《XML查詢處理》和英文專著《Innovative Techniques and Applications of Entity Resolution》,撰寫3篇專著章節(jié),擁有3項軟件著作權,完成經典教材《算法導論(第三版)》最后5章的翻譯,其論文被SCI/EI檢索60余次,引用300余次,其中5篇論文發(fā)表于頂級國際會議上。獲得微軟學者(亞太地區(qū)40人獲獎)、中國優(yōu)秀數據庫工程師(全國10人獲獎)、IBM博士英才(大中華區(qū)8人獲獎)等稱號,“海量數據計算的理論和技術”獲得黑龍江省自然科學獎1項,其博士論文“XML數據查詢處理技術的研究”獲得哈爾濱工業(yè)大學優(yōu)秀博士論文和中國計算機學會優(yōu)秀博士論文。其在2014年與慕課網開設《大數據算法》課程,這是國內首次公開開設與大數據算法相關的課程,迄今已經有超過2萬人選課。其2008年在國際頂級會議VLDB上發(fā)表的論文是2000年以來第一篇國內學者獨立完成的VLDB論文,在國內外產生了較大影響。2011年在微軟亞洲研究院期間提出的海量圖數據的匹配算法國際上首次將子圖匹配算法擴展到了在規(guī)模為10億級別的圖上,該算法于2012年發(fā)表以來已被引用超過30次,并已經進入微軟亞洲研究院的Trinity系統(tǒng)。王博士在國內外多個知名數據庫會議擔任程序委員會委員20余次,在國際學術領域有一定影響。王博士在大數據管理、Web數據管理、數據質量管理、圖數據管理的研究和開發(fā)方面都有用豐富的經驗。

圖書目錄

第1 篇 背景篇 第1 章 何謂大數據 4 1.1 身邊的大數據 4 1.2 大數據的特點和應用 6 第2 章 何謂算法 8 2.1 算法的定義 8 2.2 算法的分析 14 2.3 基礎數據結構——線性表 24 2.4 遞歸——以階乘為例 28 第3 章 何謂大數據算法 31 第2 篇 理論篇 第4 章 窺一斑而見全豹——亞線性算法 34 4.1 亞線性算法的定義 34 4.2 空間亞線性算法 35 4.2.1 水庫抽樣 35 4.2.2 數據流中的頻繁元素 37 4.3 時間亞線性計算算法 40 4.3.1 圖論基礎回顧 40 4.3.2 平面圖直徑 45 4.3.3 最小生成樹 46 4.4 時間亞線性判定算法 53 4.4.1 全0 數組的判定 53 4.4.2 數組有序的判定 55 第5 章 價錢與性能的平衡——磁盤算法 58 5.1 磁盤算法概述 58 5.2 外排序 62 5.3 外存數據結構——磁盤查找樹 71 5.3.1 二叉搜索樹回顧 71 5.3.2 外存數據結構——B 樹 78 5.3.3 高維外存查找結構——KD 樹 80 5.4 表排序 83 5.5 表排序的應用 86 5.5.1 歐拉回路技術 86 5.5.2 父子關系判定 87 5.5.3 前序計數 88 5.6 時間前向處理技術 90 5.7 縮圖法 98 第6 章 1+1>2——并行算法 103 6.1 MapReduce 初探 103 6.2 MapReduce 算法實例 106 6.2.1 字數統(tǒng)計 106 6.2.2 平均數計算 108 6.2.3 單詞共現(xiàn)矩陣計算 111 6.3 MapReduce 進階算法 115 6.3.1 join 操作 115 6.3.2 MapReduce 圖算法概述 122 6.3.3 基于路徑的圖算法 125 第7 章 超越MapReduce 的并行計算 131 7.1 MapReduce 平臺的局限 131 7.2 基于圖處理平臺的并行算法 136 7.2.1 概述 136 7.2.2 BSP 模型下的單源最短路徑 137 7.2.3 計算子圖同構 141 第8 章 眾人拾柴火焰高——眾包算法 144 8.1 眾包概述 144 8.1.1 眾包的定義 144 8.1.2 眾包應用舉例 146 8.1.3 眾包的特點 149 8.2 眾包算法例析 152 第3 篇 應用篇 第9 章 大數據中有黃金——數據挖掘 158 9.1 數據挖掘概述 158 9.2 數據挖掘的分類 159 9.3 聚類算法——k-means 160 9.4 分類算法——Naive Bayes 166 第10 章 推薦系統(tǒng) 170 10.1 推薦系統(tǒng)概述 170 10.2 基于內容的推薦方法 173 10.3 協(xié)同過濾模型 176 第4 篇 實踐篇 第11 章 磁盤算法實踐 186 第12 章 并行算法實踐 194 12.1 Hadoop MapReduce 實踐 194 12.1.1 環(huán)境搭建 194 12.1.2 配置Hadoop 201 12.1.3 “Hello World”程序—— WordCount 203 12.1.4 Hadoop 實踐案例——記錄去重 213 12.1.5 Hadoop 實踐案例——等值連接 216 12.1.6 多機配置 221 12.2 適于迭代并行計算的平臺——Spark 224 12.2.1 Spark 初探 224 12.2.2 單詞出現(xiàn)行計數 230 12.2.3 在Spark 上實現(xiàn)WordCount 236 12.2.4 在HDFS 上使用Spark 241 12.2.5 Spark 的核心操作——Transformation 和Action 244 12.2.6 Spark 實踐案例——PageRank 247 第13 章 眾包算法實踐 251 13.1 認識AMT 251 13.2 成為眾包工人 252

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號