注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)挖掘/數(shù)據(jù)倉(cāng)庫(kù)Hadoop實(shí)戰(zhàn)

Hadoop實(shí)戰(zhàn)

Hadoop實(shí)戰(zhàn)

定 價(jià):¥59.00

作 者: (美) 拉姆 (Lam,C.) 著 ; 韓冀中譯
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘

ISBN: 9787115264480 出版時(shí)間: 2011-10-01 包裝: 平裝
開(kāi)本: 16 頁(yè)數(shù): 263 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  作為云計(jì)算所青睞的分布式架構(gòu),Hadoop 是一個(gè)用Java 語(yǔ)言實(shí)現(xiàn)的軟件框架,在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)的分布式計(jì)算,是谷歌實(shí)現(xiàn)云計(jì)算的重要基石。本書分為3 個(gè)部分,深入淺出地介紹了Hadoop 框架、編寫和運(yùn)行Hadoop 數(shù)據(jù)處理程序所需的實(shí)踐技能及Hadoop 之外更大的生態(tài)系統(tǒng)?!禜adoop實(shí)戰(zhàn)》適合需要處理大量離線數(shù)據(jù)的云計(jì)算程序員、架構(gòu)師和項(xiàng)目經(jīng)理閱讀參考。

作者簡(jiǎn)介

  Chuck Lam 目前建立了一個(gè)名為RollCall的移動(dòng)社交網(wǎng)絡(luò)公司,讓活躍的個(gè)體用戶擁有了一個(gè)社交助理。他以前曾是RockYou的高級(jí)技術(shù)組長(zhǎng),開(kāi)發(fā)了社交應(yīng)用 程序和數(shù)據(jù)處理基礎(chǔ)架構(gòu),能夠支撐上億的用戶。在斯坦福大學(xué)攻讀博士的時(shí)候,Chuck就對(duì)大數(shù)據(jù)產(chǎn)生了興趣。他的論文"Computational Data Acquisition"首創(chuàng)了可用于機(jī)器學(xué)習(xí)的數(shù)據(jù)采集方法,吸納了來(lái)自開(kāi)源軟件和網(wǎng)絡(luò)游戲等領(lǐng)域的思想。韓冀中 博士,中國(guó)科學(xué)院計(jì)算技術(shù)研究所副研究員,研究生導(dǎo)師,長(zhǎng)期從事并行分布式計(jì)算領(lǐng)域的科研工作,國(guó)內(nèi)早期的Hadoop使用者之一,有豐富的相關(guān)應(yīng)用開(kāi)發(fā)經(jīng)驗(yàn)。

圖書目錄

第一部分  Hadoop——一種分布式編程框架
第1 章  Hadoop簡(jiǎn)介  2
1.1  為什么寫《Hadoop 實(shí)戰(zhàn)》  3
1.2  什么是Hadoop   3
1.3  了解分布式系統(tǒng)和Hadoop   4
1.4  比較SQL 數(shù)據(jù)庫(kù)和Hadoop  5
1.5  理解MapReduce  6
1.5.1  動(dòng)手?jǐn)U展一個(gè)簡(jiǎn)單程序  7
1.5.2  相同程序在MapReduce中的擴(kuò)展  9
1.6  用Hadoop統(tǒng)計(jì)單詞——運(yùn)行第一個(gè)程序  11
1.7  Hadoop歷史  15
1.8  小結(jié)  16
1.9  資源  16
第2 章  初識(shí)Hadoop   17
2.1  Hadoop 的構(gòu)造模塊  17
2.1.1  NameNode   17
2.1.2  DataNode   18
2.1.3  Secondary NameNode   19
2.1.4  JobTracker  19
2.1.5  TaskTracker  19
2.2  為Hadoop 集群安裝SSH  21
2.2.1  定義一個(gè)公共賬號(hào)  21
2.2.2  驗(yàn)證SSH安裝  21
2.2.3  生成SSH密鑰對(duì)  21
2.2.4  將公鑰分布并登錄驗(yàn)證  22
2.3  運(yùn)行Hadoop   22
2.3.1  本地(單機(jī))模式  23
2.3.2   偽分布模式  24
2.3.3  全分布模式  25
2.4  基于Web 的集群用戶界面  28
2.5  小結(jié)  30
第3 章  Hadoop組件  31
3.1  HDFS 文件操作  31
3.1.1  基本文件命令  32
3.1.2  編程讀寫HDFS  35
3.2  剖析MapReduce 程序  37
3.2.1  Hadoop數(shù)據(jù)類型  39
3.2.2  Mapper  40
3.2.3  Reducer  41
3.2.4  Partitioner:重定向Mapper輸出  41
3.2.5  Combiner:本地reduce   43
3.2.6  預(yù)定義mapper和Reducer類的單詞計(jì)數(shù)  43
3.3  讀和寫  43
3.3.1  InputFormat   44
3.3.2  OutputFormat  49
3.4  小結(jié)  50
第二部分  實(shí)戰(zhàn)
第4 章  編寫MapReduce基礎(chǔ)程序  52
4.1  獲得專利數(shù)據(jù)集  52
4.1.1  專利引用數(shù)據(jù)  53
4.1.2  專利描述數(shù)據(jù)  54
4.2  構(gòu)建MapReduce 程序的基礎(chǔ)模板  55
4.3  計(jì)數(shù)  60
4.4  適應(yīng)Hadoop API 的改變  64
4.5  Hadoop 的Streaming    67
4.5.1  通過(guò)Unix命令使用Streaming    68
4.5.2  通過(guò)腳本使用Streaming   69
4.5.3  用Streaming處理鍵/值對(duì)   72
4.5.4  通過(guò)Aggregate包使用Streaming  75
4.6  使用combiner 提升性能   80
4.7  溫故知新  83
4.8  小結(jié)  84
4.9  更多資源  84
第5 章  高階MapReduce    85
5.1  鏈接MapReduce 作業(yè)   85
5.1.1  順序鏈接MapReduce作業(yè)   85
5.1.2  具有復(fù)雜依賴的MapReduce鏈接  86
5.1.3  預(yù)處理和后處理階段的鏈接  86
5.2  聯(lián)結(jié)不同來(lái)源的數(shù)據(jù)   89
5.2.1  Reduce側(cè)的聯(lián)結(jié)   90
5.2.2  基于DistributedCache的復(fù)制聯(lián)結(jié)   98
5.2.3  半聯(lián)結(jié):map側(cè)過(guò)濾后在reduce側(cè)聯(lián)結(jié)  101
5.3  創(chuàng)建一個(gè)Bloom filter   102
5.3.1  Bloom filter做了什么  102
5.3.2  實(shí)現(xiàn)一個(gè)Bloom filter   104
5.3.3  Hadoop 0.20 以上版本的Bloom filter    110
5.4  溫故知新   110
5.5  小結(jié)   111
5.6  更多資源   112
第6 章  編程實(shí)踐   113
6.1  開(kāi)發(fā)MapReduce 程序   113
6.1.1  本地模式   114
6.1.2  偽分布模式   118
6.2  生產(chǎn)集群上的監(jiān)視和調(diào)試  123
6.2.1  計(jì)數(shù)器  123
6.2.2  跳過(guò)壞記錄  125
6.2.3  用IsolationRunner重新運(yùn)行出錯(cuò)的任務(wù)  128
6.3  性能調(diào)優(yōu)   129
6.3.1  通過(guò)combiner來(lái)減少網(wǎng)絡(luò)流量  129
6.3.2  減少輸入數(shù)據(jù)量  129
6.3.3  使用壓縮  129
6.3.4  重用JVM   132
6.3.5  根據(jù)猜測(cè)執(zhí)行來(lái)運(yùn)行  132
6.3.6  代碼重構(gòu)與算法重寫  133
6.4  小結(jié)  134
第7 章  細(xì)則手冊(cè)  135
7.1  向任務(wù)傳遞作業(yè)定制的參數(shù)   135
7.2  探查任務(wù)特定信息  137
7.3  劃分為多個(gè)輸出文件  138
7.4  以數(shù)據(jù)庫(kù)作為輸入輸出  143
7.5  保持輸出的順序  145
7.6  小結(jié)   146
第8 章  管理Hadoop  147
8.1  為實(shí)際應(yīng)用設(shè)置特定參數(shù)值   147
8.2  系統(tǒng)體檢  149
8.3  權(quán)限設(shè)置  151
8.4  配額管理  151
8.5  啟用回收站  152
8.6  刪減DataNode   152
8.7  增加DataNode   153
8.8  管理NameNode 和SNN   153
8.9  恢復(fù)失效的NameNode   155
8.10  感知網(wǎng)絡(luò)布局和機(jī)架的設(shè)計(jì)  156
8.11  多用戶作業(yè)的調(diào)度  157
8.11.1  多個(gè)JobTracker    158
8.11.2  公平調(diào)度器  158
8.12  小結(jié)   160
第三部分  Hadoop也瘋狂
第9 章  在云上運(yùn)行Hadoop    162
9.1  Amazon Web Services 簡(jiǎn)介  162
9.2  安裝AWS  163
9.2.1  獲得AWS身份認(rèn)證憑據(jù)  164
9.2.2  獲得命令行工具  166
9.2.3  準(zhǔn)備SSH密鑰對(duì)  168
9.3  在EC2 上安裝Hadoop  169
9.3.1  配置安全參數(shù)  169
9.3.2  配置集群類型  169
9.4  在EC2 上運(yùn)行MapReduce 程序  171
9.4.1  將代碼轉(zhuǎn)移到Hadoop集群上  171
9.4.2  訪問(wèn)Hadoop集群上的數(shù)據(jù)  172
9.5  清空和關(guān)閉EC2 實(shí)例  175
9.6  Amazon Elastic MapReduce 和其他AWS 服務(wù)  176
9.6.1  Amazon Elastic MapReduce   176
9.6.2  AWS導(dǎo)入/導(dǎo)出  177
9.7  小結(jié)  177
第10 章  用Pig編程  178
10.1  像Pig 一樣思考  178
10.1.1  數(shù)據(jù)流語(yǔ)言  179
10.1.2  數(shù)據(jù)類型  179
10.1.3  用戶定義函數(shù)  179
10.2  安裝Pig   179
10.3  運(yùn)行Pig   180
10.4  通過(guò)Grunt 學(xué)習(xí)Pig Latin  182
10.5  談?wù)凱ig Latin   186
10.5.1  數(shù)據(jù)類型和schema  186
10.5.2  表達(dá)式和函數(shù)  187
10.5.3  關(guān)系型運(yùn)算符  189
10.5.4  執(zhí)行優(yōu)化  196
10.6  用戶定義函數(shù)  196
10.6.1  使用UDF   196
10.6.2  編寫UDF   197
10.7  腳本  199
10.7.1  注釋  199
10.7.2  參數(shù)替換  200
10.7.3  多查詢執(zhí)行  201
10.8  Pig 實(shí)戰(zhàn)——計(jì)算相似專利的例子  201
10.9  小結(jié)  206
第11 章  Hive及Hadoop群  207
11.1  Hive   207
11.1.1  安裝與配置Hive   208
11.1.2  查詢的示例  210
11.1.3  深入HiveQL   213
11.1.4  Hive小結(jié)  221
11.2  其他Hadoop 相關(guān)的部分  221
11.2.1  HBase   221
11.2.2  ZooKeeper   221
11.2.3  Cascading   221
11.2.4  Cloudera   222
11.2.5  Katta   222
11.2.6  CloudBase   222
11.2.7  Aster Data和Greenplum   222
11.2.8  Hama和Mahout   223
11.2.9  search-hadoop.com   223
11.3  小結(jié)  223
第12 章  案例研究  224
12.1  轉(zhuǎn)換《紐約時(shí)報(bào)》1100 萬(wàn)個(gè)庫(kù)存圖片文檔  224
12.2  挖掘中國(guó)移動(dòng)的數(shù)據(jù)  225
12.3  在StumbleUpon 推薦最佳網(wǎng)站  229
12.3.1  分布式StumbleUpon 的開(kāi)端  230
12.3.2  HBase 和StumbleUpon   230
12.3.3  StumbleUpon 上的更多Hadoop 應(yīng)用  236
12.4  搭建面向企業(yè)查詢的分析系統(tǒng)——IBM的ES2 項(xiàng)目  238
12.4.1  ES2 系統(tǒng)結(jié)構(gòu)  240
12.4.2  ES2 爬蟲(chóng)  241
12.4.3  ES2 分析  242
12.4.4  小結(jié)  249
12.4.5  參考文獻(xiàn)  250
附錄A  HDFS文件命令  251

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)