Flink大數(shù)據(jù)分析實(shí)戰(zhàn)

定　價(jià)：￥89.00

作　者：	張偉洋著
出版社：	清華大學(xué)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購(gòu)買這本書(shū)可以去

ISBN：	9787302598183	出版時(shí)間：	2022-01-01	包裝：
開(kāi)本：		頁(yè)數(shù)：		字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書(shū)由資深大數(shù)據(jù)專家精心編寫(xiě)，循序漸進(jìn)地介紹了Flink生態(tài)系統(tǒng)主流的大數(shù)據(jù)開(kāi)發(fā)技術(shù)。全書(shū)共7章，第1章講解Flink的基礎(chǔ)知識(shí)，包括Flink應(yīng)用場(chǎng)景、主要組件、編程模型等，后通過(guò)一個(gè)單詞計(jì)數(shù)示例帶領(lǐng)讀者快速體驗(yàn)Flink應(yīng)用程序的編寫(xiě)；第2、3章講解Flink的多種運(yùn)行時(shí)架構(gòu)、任務(wù)調(diào)度原理、數(shù)據(jù)分區(qū)以及Flink集群的安裝部署，同時(shí)包括Flink命令行操作、應(yīng)用程序提交、常用Shell命令等；第4～7章講解了Flink流式計(jì)算DataStream API、關(guān)系型計(jì)算Table&SQL API以及圖計(jì)算框架Gelly等的基礎(chǔ)知識(shí)、架構(gòu)原理，同時(shí)包括常用Shell命令、API操作、內(nèi)核源碼剖析，并通過(guò)多個(gè)實(shí)際案例講解各個(gè)框架的具體應(yīng)用以及與Hadoop生態(tài)系統(tǒng)框架Hive、Kafka的整合操作。本書(shū)內(nèi)容翔實(shí)，實(shí)例豐富，適合Flink新手、大數(shù)據(jù)開(kāi)發(fā)人員閱讀，也可作為培訓(xùn)機(jī)構(gòu)和大專院校相關(guān)專業(yè)的教學(xué)用書(shū)。

作者簡(jiǎn)介

　　張偉洋，大數(shù)據(jù)領(lǐng)域資深專家，擁有多年互聯(lián)網(wǎng)公司軟件研發(fā)經(jīng)驗(yàn)，曾在互聯(lián)網(wǎng)旅游公司任軟件研發(fā)事業(yè)部經(jīng)理。先后多次為中國(guó)海洋大學(xué)、曲阜師范大學(xué)、青島理工大學(xué)等高校舉行大數(shù)據(jù)專題講座，對(duì)Hadoop及周邊大數(shù)據(jù)框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有深入的研究。已出版《Hadoop大數(shù)據(jù)技術(shù)開(kāi)發(fā)實(shí)戰(zhàn)》《Spark大數(shù)據(jù)分析實(shí)戰(zhàn)》等圖書(shū)，公眾號(hào) “奮斗在IT” 的創(chuàng)辦人。

圖書(shū)目錄

第1章初識(shí)Flink 1
1.1 大數(shù)據(jù)開(kāi)發(fā)總體架構(gòu) 1
1.2 什么是Flink 3
1.3 Flink的應(yīng)用場(chǎng)景 5
1.4 流計(jì)算框架對(duì)比 6
1.5 Flink的主要組件 8
1.6 Flink編程模型 9
1.6.1 數(shù)據(jù)集 9
1.6.2 編程接口 11
1.6.3 程序結(jié)構(gòu) 12
1.7 快速體驗(yàn)Flink程序 13
1.7.1 IntelliJ IDEA安裝Scala插件 13
1.7.2 IntelliJ IDEA創(chuàng)建Flink項(xiàng)目 15
1.7.3 示例：批處理單詞計(jì)數(shù) 17
1.7.4 示例：流處理單詞計(jì)數(shù) 20
第2章 Flink運(yùn)行架構(gòu)及原理 23
2.1 Flink運(yùn)行時(shí)架構(gòu) 23
2.1.1 YARN集群架構(gòu) 23
2.1.2 Flink Standalone架構(gòu) 27
2.1.3 Flink On YARN的架構(gòu) 29
2.2 Flink任務(wù)調(diào)度原理 30
2.2.1 任務(wù)鏈 30
2.2.2 并行度 31
2.2.3 共享Task Slot 32
2.2.4 數(shù)據(jù)流 33
2.2.5 執(zhí)行圖 34
2.2.6 執(zhí)行計(jì)劃 35
2.3 Flink數(shù)據(jù)分區(qū) 38
2.3.1 分區(qū)數(shù)量 38
2.3.2 分區(qū)策略 39
第3章 Flink安裝及部署 41
3.1 Flink集群搭建 41
3.1.1 Flink本地模式搭建 42
3.1.2 Flink Standalone搭建 44
3.1.3 Flink On YARN搭建 46
3.2 Flink HA模式 54
3.2.1 Flink Standalone模式的HA
架構(gòu) 55
3.2.2 Flink Standalone模式HA集群
搭建 56
3.2.3 Flink On YARN模式HA集群
搭建 60
3.3 Flink命令行界面 61
3.4 Flink應(yīng)用提交 65
3.5 Flink Shell的使用 67
第4章 Flink DataStream API 72
4.1 基本概念 72
4.2 執(zhí)行模式 73
4.3 作業(yè)流程 76
4.4 程序結(jié)構(gòu) 77
4.5 Source數(shù)據(jù)源 79
4.5.1 基本數(shù)據(jù)源 79
4.5.2 高級(jí)數(shù)據(jù)源 81
4.5.3 自定義數(shù)據(jù)源 81
4.6 Transformation數(shù)據(jù)轉(zhuǎn)換 85
4.7 Sink數(shù)據(jù)輸出 97
4.8 數(shù)據(jù)類型與序列化 98
4.9 分區(qū)策略 100
4.9.1 內(nèi)置分區(qū)策略 101
4.9.2 自定義分區(qū)策略 114
4.10 窗口計(jì)算 117
4.10.1 事件時(shí)間 117
4.10.2 窗口分類 118
4.10.3 窗口函數(shù) 124
4.10.4 觸發(fā)器 133
4.10.5 清除器 134
4.11 水印 137
4.11.1 計(jì)算規(guī)則 138
4.11.2 允許延遲與側(cè)道輸出 140
4.11.3 生成策略 142
4.12 狀態(tài)管理 147
4.12.1 Keyed State 149
4.12.2 Operator State 152
4.13 容錯(cuò)機(jī)制 156
4.13.1 Checkpoint 156
4.13.2 Barrier 162
4.13.3 重啟與故障恢復(fù)策略 165
4.13.4 Savepoint 167
4.14 案例分析：計(jì)算5秒內(nèi)輸入的單詞
數(shù)量 168
4.15 案例分析：統(tǒng)計(jì)5分鐘內(nèi)每個(gè)用戶
產(chǎn)生的日志數(shù)量 170
4.16 案例分析：統(tǒng)計(jì)24小時(shí)內(nèi)每個(gè)用戶的
訂單平均消費(fèi)額 173
4.17 案例分析：計(jì)算5秒內(nèi)每個(gè)信號(hào)燈
通過(guò)的汽車數(shù)量 177
4.18 案例分析：Flink整合Kafka計(jì)算
實(shí)時(shí)單詞數(shù)量 183
4.19 案例分析：天貓雙十一實(shí)時(shí)交易額
統(tǒng)計(jì) 188
4.19.1 創(chuàng)建自定義數(shù)據(jù)源 188
4.19.2 計(jì)算各個(gè)分類的訂單總額 189
4.19.3 計(jì)算全網(wǎng)銷售總額與
分類Top3 192
第5章 Flink Table API&SQL 196
5.1 基本概念 196
5.1.1 計(jì)劃器 197
5.1.2 API架構(gòu) 197
5.1.3 程序結(jié)構(gòu) 199
5.2 動(dòng)態(tài)表 200
5.2.1 流映射為動(dòng)態(tài)表 201
5.2.2 連續(xù)查詢 201
5.2.3 動(dòng)態(tài)表轉(zhuǎn)換為流 203
5.3 TableEnvironment API 205
5.3.1 基本概念 205
5.3.2 創(chuàng)建TableEnvironment 205
5.3.3 示例：簡(jiǎn)單訂單統(tǒng)計(jì) 206
5.4 Table API 210
5.4.1 基本概念 210
5.4.2 示例：訂單分組計(jì)數(shù) 211
5.4.3 示例：每小時(shí)訂單分組求
平均值 213
5.4.4 關(guān)系操作 214
5.5 SQL API 217
5.5.1 DDL操作 218
5.5.2 DML操作 221
5.5.3 DQL操作 222
5.5.4 窗口函數(shù) 223
5.5.5 窗口聚合 230
5.5.6 分組聚合 233
5.5.7 OVER聚合 235
5.5.8 連接查詢 237
5.6 TopN查詢 240
5.6.1 OVER子句 240
5.6.2 示例：計(jì)算產(chǎn)品類別銷
售額TopN 242
5.6.3 示例：搜索詞熱度統(tǒng)計(jì) 243
5.6.4 窗口TopN 246
5.7 Catalog元數(shù)據(jù)管理 248
5.8 Flink SQL整合Kafka 250
5.8.1 基本概念 250
5.8.2 示例：Flink SQL整合Kafka實(shí)現(xiàn)
實(shí)時(shí)ETL 253
5.9 Flink SQL CLI 258
5.9.1 啟動(dòng)SQL CLI 259
5.9.2 執(zhí)行SQL查詢 260
5.9.3 可視化結(jié)果模式 262
5.10 Flink SQL整合Hive 263
5.10.1 整合步驟 264
5.10.2 Table API操作Hive 272
5.10.3 示例：Flink SQL整合Hive分析
搜狗用戶搜索日志 274
5.11 案例分析：Flink SQL實(shí)時(shí)單詞
計(jì)數(shù) 279
5.12 案例分析：Flink SQL實(shí)時(shí)計(jì)算
5秒內(nèi)用戶訂單總金額 283
5.13 案例分析：微博用戶行為分析 288
5.13.1 離線與實(shí)時(shí)計(jì)算業(yè)務(wù)架構(gòu) 288
5.13.2 Flume數(shù)據(jù)采集架構(gòu) 291
5.13.3 Kafka消息隊(duì)列架構(gòu) 293
5.14 案例分析：Flink SQL智慧交通數(shù)據(jù)
分析 294
5.14.1 項(xiàng)目介紹 294
5.14.2 數(shù)據(jù)準(zhǔn)備 295
5.14.3 統(tǒng)計(jì)正常卡口數(shù)量 297
5.14.4 統(tǒng)計(jì)車流量排名前3的
卡口號(hào) 299
5.14.5 統(tǒng)計(jì)每個(gè)卡口通過(guò)速度快的
前3輛車 300
5.14.6 車輛軌跡分析 302
第6章 Flink內(nèi)核源碼 304
6.1 流圖 304
6.1.1 StreamGraph核心對(duì)象 305
6.1.2 StreamGraph生成過(guò)程 308
6.2 作業(yè)圖 310
6.2.1 JobGraph的核心對(duì)象 312
6.2.2 JobGraph的生成過(guò)程 312
6.3 執(zhí)行圖 319
6.3.1 ExecutionGraph的核心對(duì)象 319
6.3.2 ExecutionGraph的生成過(guò)程 320
第7章 Gelly圖計(jì)算 324
7.1 什么是Gelly 324
7.2 個(gè)Gelly程序 325
7.3 Gelly數(shù)據(jù)結(jié)構(gòu) 328
7.4 如何使用Gelly 329
7.5 圖操作 330
7.5.1 基本操作 330
7.5.2 屬性操作 332
7.5.3 結(jié)構(gòu)操作 335
7.5.4 連接操作 335
7.6 圖常用API 337
7.6.1 創(chuàng)建圖 337
7.6.2 圖的轉(zhuǎn)換 339
7.6.3 圖的添加與移除 342
7.6.4 圖的鄰域方法 343
7.7 案例分析：Gelly計(jì)算社交網(wǎng)絡(luò)中
粉絲的平均年齡 346