實時分析：流數(shù)據(jù)的分析與可視化技術(shù)

定　價：￥79.00

作　者：	拜倫·埃利斯
出版社：	機(jī)械工業(yè)出版社
叢編項：
標(biāo)　簽：	計算機(jī)/網(wǎng)絡(luò) 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘數(shù)據(jù)庫

購買這本書可以去

ISBN：	9787111532163	出版時間：	2016-04-01	包裝：	平裝
開本：	128開	頁數(shù)：	299	字?jǐn)?shù)：

內(nèi)容簡介

　　本書共11章。第1章介紹常見的流數(shù)據(jù)的來源、應(yīng)用以及三個重要特性：持續(xù)交付、結(jié)構(gòu)松散和高基數(shù)，并闡釋對流數(shù)據(jù)使用基礎(chǔ)架構(gòu)和算法的重要性。第2~6章介紹實時流架構(gòu)的各組件涉及的軟件、框架和方法。第2章概述實時流架構(gòu)設(shè)計涉及的組件、特性、編程語言等。第3章介紹實時流架構(gòu)的服務(wù)配置和協(xié)調(diào)，重點介紹協(xié)調(diào)服務(wù)器ZooKeeper。第4章闡述實時流架構(gòu)中數(shù)據(jù)流程的管理，涉及用來管理數(shù)據(jù)流程的兩個軟件包Kafka和Flume。第5章分析流數(shù)據(jù)的處理，涉及如何用Storm或Samza來處理數(shù)據(jù)。第6章介紹流數(shù)據(jù)的存儲問題。第7~11章重點關(guān)注流數(shù)據(jù)架構(gòu)的應(yīng)用構(gòu)建問題。第7章討論從流環(huán)境向最終用戶的數(shù)據(jù)交付問題。這是構(gòu)建儀表板以及其他監(jiān)控應(yīng)用所使用的核心機(jī)制。第8章涵蓋流環(huán)境下的聚集計算問題，特別是對多分辨率時間序列數(shù)據(jù)的聚集計算問題。第9章簡要介紹統(tǒng)計學(xué)和概率論的基礎(chǔ)知識。第10章討論略圖，略圖通常具有更快的更新速度和更小的內(nèi)存占用空間，特別適合流環(huán)境。第11章討論聚集計算之外能夠應(yīng)用于流數(shù)據(jù)的一些更深入的話題。

作者簡介

　　作者簡介Byron Ellis是Spongecell公司的CTO，該公司是一個總部位于紐約的廣告技術(shù)公司，在舊金山、芝加哥和倫敦設(shè)有辦事處。他負(fù)責(zé)公司的研發(fā)和計算基礎(chǔ)設(shè)施的維護(hù)工作，在加盟Spongecell之前，他是在線交互技術(shù)“領(lǐng)頭羊”企業(yè)Liveperson公司的首席數(shù)據(jù)科學(xué)家。他還在當(dāng)時世界最大的廣告交換公司之一adBrite擔(dān)任過多項職務(wù)。他擁有哈佛大學(xué)統(tǒng)計學(xué)博士學(xué)位，攻讀博士學(xué)位期間主要研究高吞吐量生物學(xué)實驗數(shù)據(jù)中網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)方法。技術(shù)編輯簡介JoseQuinteiro有20年技術(shù)經(jīng)驗，參與過許多終端用戶、企業(yè)、Web軟件系統(tǒng)和應(yīng)用的設(shè)計與開發(fā)工作。他對于包括前后端的設(shè)計和實現(xiàn)在內(nèi)的全套Web技術(shù)有著豐富經(jīng)驗。Jose在威廉瑪麗學(xué)院獲得化學(xué)學(xué)士學(xué)位。Luke Hornof擁有計算機(jī)科學(xué)博士學(xué)位，曾參與創(chuàng)建了多個成功的高科技初創(chuàng)企業(yè)。他在編程語言方面發(fā)表了十多篇同行評審的論文，曾為微處理器、廣告和音樂行業(yè)開發(fā)過商用軟件。他目前的興趣之一是使用數(shù)據(jù)分析技術(shù)來改善Web和移動應(yīng)用。Ben Peirce在Spongecell廣告技術(shù)公司負(fù)責(zé)研究工作和基礎(chǔ)設(shè)施的管理。加盟Spongecell之前，他在醫(yī)療健康技術(shù)初創(chuàng)企業(yè)擔(dān)任過多項職務(wù)，他還是SETMedia公司的聯(lián)合創(chuàng)始人之一，該公司是一個視頻廣告技術(shù)公司。他在哈佛大學(xué)工程與應(yīng)用科學(xué)學(xué)院獲得博士學(xué)位，研究方向是控制系統(tǒng)和機(jī)器人。

圖書目錄

目　　錄

譯者序

前言

致謝

作者簡介

技術(shù)編輯簡介

第1章　流數(shù)據(jù)簡介1

1.1流數(shù)據(jù)的來源2

1.1.1運行監(jiān)控2

1.1.2Web分析2

1.1.3在線廣告3

1.1.4社交媒體3

1.1.5移動數(shù)據(jù)和物聯(lián)網(wǎng)4

1.2流數(shù)據(jù)的特別之處5

1.2.1始終在線，持續(xù)流動5

1.2.2松散結(jié)構(gòu)5

1.2.3高基數(shù)的存儲6

1.3基礎(chǔ)架構(gòu)和算法6

1.4總結(jié)7

第一部分　流分析架構(gòu)

第2章　實時流架構(gòu)設(shè)計10

2.1實時架構(gòu)的組件10

2.1.1數(shù)據(jù)采集11

2.1.2數(shù)據(jù)流程11

2.1.3數(shù)據(jù)處理13

2.1.4數(shù)據(jù)存儲13

2.1.5數(shù)據(jù)交付14

2.2實時架構(gòu)的特性16

2.2.1高可用性16

2.2.2低延遲17

2.2.3水平可擴(kuò)展性17

2.3實時編程語言18

2.3.1Java18

2.3.2Scala和Clojure19

2.3.3JavaScript19

2.3.4Go語言20

2.4實時架構(gòu)概覽20

2.4.1數(shù)據(jù)采集20

2.4.2數(shù)據(jù)流程21

2.4.3數(shù)據(jù)處理21

2.4.4數(shù)據(jù)存儲21

2.4.5數(shù)據(jù)交付22

2.5總結(jié)22

第3章　服務(wù)配置和協(xié)調(diào)24

3.1　配置和協(xié)調(diào)系統(tǒng)的研發(fā)動機(jī)24

3.2　維護(hù)分布式狀態(tài)25

3.2.1不可靠的網(wǎng)絡(luò)連接25

3.2.2時鐘同步25

3.2.3不可靠環(huán)境下的一致性25

3.3Apache ZooKeeper26

3.3.1znode27

3.3.2監(jiān)視和通知28

3.3.3保持一致性28

3.3.4創(chuàng)建ZooKeeper集群28

3.3.5ZooKeeper本地Java客戶端33

3.3.6Curator客戶端39

3.3.7Curator Recipes組件45

3.4總結(jié)50

第4章　流分析中的數(shù)據(jù)流程管理52

4.1分布式數(shù)據(jù)流程52

4.1.1至少交付一次52

4.1.2“n＋1”問題53

4.2Apache Kafka：高吞吐量分布式消息機(jī)制54

4.2.1設(shè)計與實現(xiàn)54

4.2.2配置Kafka環(huán)境57

4.2.3與Kafka代理交互65

4.3Apache Flume：分布式日志采集系統(tǒng) 66

4.3.1Flume agent67

4.3.2配置agent68

4.3.3Flume數(shù)據(jù)模型68

4.3.4channel選擇器69

4.3.5Flume source71

4.3.6Flume sink78

4.3.7sink processor80

4.3.8Flume channel80

4.3.9Flume Interceptor81

4.3.10集成定制Flume組件83

4.3.11運行Flume agent83

4.4總結(jié)83

第5章　流數(shù)據(jù)的處理85

5.1分布式流數(shù)據(jù)處理85

5.1.1協(xié)調(diào)86

5.1.2分區(qū)和融合86

5.1.3事務(wù)86

5.2用Storm處理數(shù)據(jù)86

5.2.1Storm集群的組件87

5.2.2配置Storm集群88

5.2.3分布式集群89

5.2.4本地集群92

5.2.5Storm拓?fù)?2

5.2.6實現(xiàn)bolt95

5.2.7實現(xiàn)并使用spout99

5.2.8分布式遠(yuǎn)程過程調(diào)用104

5.2.9Trident：Storm的DSL105

5.3用Samza處理數(shù)據(jù)111

5.3.1Apache YARN111

5.3.2從YARN和Samza開始112

5.3.3將Samza集成進(jìn)數(shù)據(jù)流程115

5.3.4Samza作業(yè)116

5.4總結(jié)122

第6章　流數(shù)據(jù)的存儲123

6.1一致性哈希123

6.2“NoSQL”存儲系統(tǒng)124

6.2.1Redis125

6.2.2MongoDB132

6.2.3Cassandra150

6.3其他存儲技術(shù)159

6.3.1關(guān)系數(shù)據(jù)庫160

6.3.2分布式內(nèi)存數(shù)據(jù)網(wǎng)格160

6.4存儲技術(shù)的選擇160

6.4.1鍵-值存儲160

6.4.2文檔存儲160

6.4.3分布式哈希表存儲161

6.4.4內(nèi)存網(wǎng)格161

6.4.5關(guān)系數(shù)據(jù)庫161

6.5數(shù)據(jù)倉庫161

6.5.1將Hadoop作為ETL和數(shù)據(jù)倉庫162

6.5.2Lambda架構(gòu)166

6.6總結(jié)166

第二部分　流分析與可視化

第7章　流度量的交付168

7.1流Web應(yīng)用168

7.1.1使用Node169

7.1.2用NPM管理Node項目171

7.1.3基于Node開發(fā)Web應(yīng)用174

7.1.4　基本的流儀表板176

7.1.5　向Web應(yīng)用加入流180

7.2　數(shù)據(jù)可視化190

7.2.1　HTML5 Canvas和內(nèi)聯(lián)SVG190

7.2.2　數(shù)據(jù)驅(qū)動文檔：D3.js196

7.2.3　高層工具204

7.3　移動流應(yīng)用208

7.4　總結(jié)209

第8章　精確的聚集計算和交付211

8.1　定時計數(shù)與求和214

8.1.1　基于Bolt的計數(shù)214

8.1.2　基于Trident的計數(shù)216

8.1.3　基于Samza的計數(shù)217

8.2　多分辨率時間序列的聚集計算218

8.3　隨機(jī)優(yōu)化222

8.4　時間序列數(shù)據(jù)的交付223

8.4.1　用D3.js繪制帶狀圖224

8.4.2　高速Canvas圖225

8.4.3　地平線圖226

8.5　總結(jié)227

第9章　流數(shù)據(jù)的統(tǒng)計近似229

9.1　數(shù)值計算庫229

9.2　概率和分布230

9.2.1　期望和方差231

9.2.2　統(tǒng)計分布232

9.2.3　離散分布232

9.2.4　連續(xù)分布233

9.2.5　聯(lián)合分布235

9.3　參數(shù)估計236

9.3.1　參數(shù)推斷236

9.3.2　Delta方法237

9.3.3　分布不等式238

9.4　隨機(jī)數(shù)產(chǎn)生器238

9.5　抽樣過程242

9.5.1　從固定數(shù)據(jù)集中抽樣242

9.5.2　從流數(shù)據(jù)中抽樣243

9.5.3　有偏流抽樣244

9.6　總結(jié)245

第10章　使用略圖近似流數(shù)據(jù)246

10.1　寄存器和哈希函數(shù)246

10.1.1　寄存器247

10.1.2　哈希函數(shù)247

10.2　集合249

10.3　Bloom Filter251

10.3.1　算法251

10.3.2　Bloom Filter大小的選擇253

10.3.3　并集和交集253

10.3.4　基數(shù)估計254

10.3.5　有趣的變體255

10.4　Distinct Value略圖258

10.4.1　Min-Count算法258

10.4.2　HyperLogLog算法260

10.5　Count-Min略圖264

10.5.1　點查詢265

10.5.2　Count-Min略圖的實現(xiàn)265

10.5.3　Top-K和“Heavy Hitters”266

10.5.4　范圍查詢和分位數(shù)查詢268

10.6　其他應(yīng)用270

10.7　總結(jié)271

第11章　流數(shù)據(jù)的應(yīng)用272

11.1　實時數(shù)據(jù)模型273

11.1.1　簡單時間序列模型273

11.1.2　線性模型276

11.1.3　邏輯回歸280

11.1.4　神經(jīng)網(wǎng)絡(luò)模型281

11.2　用模型預(yù)測289

11.2.1　指數(shù)平滑法289

11.2.2　回歸法291

11.2.3　神經(jīng)網(wǎng)絡(luò)法293

11.3　監(jiān)控294

11.3.1　離群點檢測294

11.3.2　變化檢測296

11.4　實時優(yōu)化297

11.5　總結(jié)298