定 價:¥39.00
作 者: | 黃天春,劉振棟,宋建華,周希宸,陽攀,曹勇 |
出版社: | 清華大學出版社 |
叢編項: | |
標 簽: | 暫缺 |
ISBN: | 9787302606932 | 出版時間: | 2022-06-01 | 包裝: | 平裝-膠訂 |
開本: | 16開 | 頁數(shù): | 字數(shù): |
項目1 大數(shù)據(jù)集群環(huán)境搭建 1
【項目知識】 2
知識1.1 大數(shù)據(jù)處理框架 2
1.1.1 大數(shù)據(jù)的基本概念 2
1.1.2 大數(shù)據(jù)處理框架分類 3
1.1.3 大數(shù)據(jù)處理框架的選擇 3
知識1.2 組件介紹 4
1.2.1 Hadoop分布式系統(tǒng)框架 4
1.2.2 Hadoop生態(tài)圈 4
1.2.3 Hadoop典型應用架構 5
【項目實施】 6
任務1 安裝Linux系統(tǒng) 6
【1】任務簡介 6
【2】相關知識 6
【3】任務實施 6
【4】任務拓展 16
任務2 安裝JDK 1.8 16
【1】任務簡介 16
【2】相關知識 16
【3】任務實施 16
【4】任務拓展 18
任務3 安裝Zookeeper 19
【1】任務簡介 19
【2】相關知識 19
【3】任務實施 20
【4】任務拓展 22
任務4 安裝Hadoop 23
【1】任務簡介 23
【2】相關知識 23
【3】任務實施 25
【4】任務拓展 29
任務5 安裝HBase 30
【1】任務簡介 30
【2】相關知識 30
【3】任務實施 36
【4】任務拓展 40
任務6 安裝Spark 40
【1】任務簡介 40
【2】相關知識 40
【3】任務實施 40
【4】任務拓展 43
任務7 安裝Sqoop 43
【1】任務簡介 43
【2】相關知識 43
【3】任務實施 44
【4】任務拓展 46
任務8 安裝Flume 46
【1】任務簡介 46
【2】相關知識 47
【3】任務實施 47
【4】任務拓展 48
項目2 數(shù)據(jù)倉庫構建 49
【項目知識】 50
知識2.1 數(shù)據(jù)倉庫 50
2.1.1 數(shù)據(jù)倉庫的基本概念 50
2.1.2 數(shù)據(jù)倉庫的特點 50
2.1.3 數(shù)據(jù)倉庫的建立過程 51
知識2.2 Hadoop環(huán)境下數(shù)據(jù)倉庫的組件介紹 51
2.2.1 Hadoop MySQL Hive數(shù)據(jù)倉庫的架構 51
2.2.2 MySQL介紹 52
2.2.3 Hive介紹 52
【項目實施】 54
任務1 安裝MySQL數(shù)據(jù)庫 54
【1】任務簡介 54
【2】相關知識 54
【3】任務實施 54
【4】任務拓展 56
任務2 安裝Hive 57
【1】任務簡介 57
【2】相關知識 57
【3】任務實施 57
【4】任務拓展 59
項目3 Java訪問Hadoop實踐 61
【項目知識】 62
知識3.1 HDFS基礎知識 62
3.1.1 HDFS的基本概念 62
3.1.2 HDFS的Java訪問接口 62
3.1.3 Java訪問HDFS主要編程步驟 63
知識3.2 MapReduce基礎知識 63
3.2.1 MapReduce概述 63
3.2.2 MapReduce編程模型 63
3.2.3 MapReduce編程組件 64
【項目實施】 64
任務1 基礎開發(fā)環(huán)境準備 64
【1】任務簡介 64
【2】相關知識 65
【3】任務實施 65
任務2 HDFS Java程序開發(fā) 66
【1】任務簡介 66
【2】相關知識 66
【3】任務實施 66
【4】任務拓展 69
任務3 基于HDFS實現(xiàn)網(wǎng)絡云盤開發(fā) 70
【1】任務簡介 70
【2】相關知識 70
【3】任務實施 71
【4】任務拓展 83
任務4 MapReduce離線計算之詞頻統(tǒng)計 83
【1】任務簡介 83
【2】相關知識 83
【3】任務實施 84
【4】任務拓展 89
任務5 MapReduce離線計算之排序 90
【1】任務簡介 90
【2】相關知識 90
【3】任務實施 90
【4】任務拓展 96
項目4 大數(shù)據(jù)采集實踐 97
【項目知識】 98
知識4.1 數(shù)據(jù)采集基礎知識 98
4.1.1 數(shù)據(jù)采集技術綜述 98
4.1.2 數(shù)據(jù)采集的方式 98
知識4.2 網(wǎng)絡爬蟲基礎知識 98
4.2.1 網(wǎng)絡爬蟲的定義 98
4.2.2 網(wǎng)絡爬蟲的原理 99
4.2.3 網(wǎng)絡爬蟲的分類 99
4.2.4 網(wǎng)絡爬取策略分類 100
4.2.5 簡單網(wǎng)絡爬蟲的架構 100
4.2.6 網(wǎng)頁內(nèi)容解析技術 100
【項目實施】 101
任務1 Python開發(fā)環(huán)境配置 101
【1】任務簡介 101
【2】相關知識 101
【3】任務實施 101
【4】任務拓展 107
任務2 利用urllib獲取新聞信息 107
【1】任務簡介 107
【2】相關知識 107
【3】任務實施 108
【4】任務拓展 111
任務3 利用Requests進行圖片爬取 111
【1】任務簡介 111
【2】相關知識 111
【3】任務實施 111
【4】任務拓展 112
任務4 瀏覽器偽裝與XPath解析 113
【1】任務介紹 113
【2】相關知識 113
【3】任務實施 113
【4】任務拓展 114
項目5 大數(shù)據(jù)清洗實踐 115
【項目知識】 116
知識5.1 大數(shù)據(jù)清洗的概念 116
知識5.2 大數(shù)據(jù)清洗的目的 117
知識5.3 大數(shù)據(jù)清洗的技術 118
知識5.4 大數(shù)據(jù)清洗的路徑 121
【項目實施】 122
任務1 基于Web信息的清洗 122
【1】任務簡介 122
【2】相關知識 122
【3】任務實施 126
【4】任務拓展 136
任務2 基于Kettle的數(shù)據(jù)清洗 136
【1】任務簡介 136
【2】相關知識 136
【3】任務實施 137
【4】任務拓展 140
項目6 大數(shù)據(jù)分析實踐 141
【項目知識】 142
知識6.1 大數(shù)據(jù)分析的概念 142
知識6.2 大數(shù)據(jù)分析的工具 142
知識6.3 大數(shù)據(jù)分析的方法 142
知識6.4 大數(shù)據(jù)分析的范疇 144
知識6.5 大數(shù)據(jù)分析的步驟 144
【項目實施】 145
任務1 利用Hive對電商數(shù)據(jù)進行分析 145
【1】任務簡介 145
【2】相關知識 146
【3】任務實施 148
【4】任務拓展 150
任務2 利用Spark SQL對MySQL數(shù)據(jù)進行分析 150
【1】任務簡介 150
【2】相關知識 150
【3】任務實施 152
【4】任務拓展 156
項目7 大數(shù)據(jù)可視化實踐 157
【項目知識】 158
知識7.1 大數(shù)據(jù)可視化的概念 158
知識7.2 大數(shù)據(jù)可視化常用工具 159
【項目實施】 172
任務1 利用Excel對數(shù)據(jù)進行可視化 172
【1】任務簡介 172
【2】相關知識 172
【3】任務實施 172
【4】任務拓展 176
任務2 利用ECharts對數(shù)據(jù)進行可視化 176
【1】任務簡介 176
【2】相關知識 176
【3】任務實施 179
【4】任務拓展 184
任務3 大數(shù)據(jù)分析處理可視化綜合實踐 184
【1】任務簡介 184
【2】相關知識 185
【3】任務實施 185
【4】任務拓展 201
參考文獻 202