注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件Spark大數(shù)據(jù)分析與實戰(zhàn)

Spark大數(shù)據(jù)分析與實戰(zhàn)

Spark大數(shù)據(jù)分析與實戰(zhàn)

定 價:¥49.00

作 者: 黑馬程序員 著
出版社: 清華大學出版社
叢編項: 大數(shù)據(jù)技術與應用叢書
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302534327 出版時間: 2019-08-01 包裝: 平裝
開本: 16開 頁數(shù): 228 字數(shù):  

內容簡介

  本書從初學者角度詳細介紹了Spark應用程序體系架構的核心技術,全書共9章。第1章詳細介紹開發(fā)Spark框架的Scala編程語言;第2~4、7~8章主要講解Spark核心基礎、SparkRDD彈性分布式數(shù)據(jù)集、Spark SQL處理結構化數(shù)據(jù)、Spark Streaming實時計算框架、Spark MLlib機器學習庫,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解決大數(shù)據(jù)工作中遇到的基本問題。第5~6章主要講解大數(shù)據(jù)環(huán)境中常見的輔助系統(tǒng),HBase數(shù)據(jù)庫以及Kafka流處理平臺,包含輔助系統(tǒng)的搭建方式、使用方法以及相關底層實現(xiàn)的基本原理;第9章是一個綜合項目,利用Spark框架開發(fā)流式計算系統(tǒng)。掌握Spark相關技術,能夠很好地適應企業(yè)開發(fā)的技術需要,為離線、實時數(shù)據(jù)處理平臺的開發(fā)奠定基礎。 本書附有配套源代碼、教學PPT、題庫、教學視頻、教學補充案例、教學設計等資源。為了幫助初學者更好地學習本書中的內容,還提供了在線答疑,歡迎讀者關注。 本書可作為高等院校本、??朴嬎銠C相關專業(yè),大數(shù)據(jù)課程的專用教材,是一本適合廣大計算機編程愛好者的優(yōu)秀讀物。

作者簡介

暫缺《Spark大數(shù)據(jù)分析與實戰(zhàn)》作者簡介

圖書目錄

目錄
第1章Scala語言基礎1
1.1初識Scala1
1.1.1Scala概述1
1.1.2Scala的下載安裝2
1.1.3在IDEA開發(fā)工具中下載安裝
Scala插件4
1.1.4開發(fā)第一個Scala程序6
1.2Scala的基礎語法9
1.2.1聲明值和變量9
1.2.2數(shù)據(jù)類型9
1.2.3算術和操作符重載10
1.2.4控制結構語句10
1.2.5方法和函數(shù)13
1.3Scala的數(shù)據(jù)結構15
1.3.1數(shù)組15
1.3.2元組18
1.3.3集合19
1.4Scala面向對象的特性24
1.4.1類與對象24
1.4.2繼承25
1.4.3單例對象和伴生對象26
1.4.4特質28
1.5Scala的模式匹配與樣例類29
1.5.1模式匹配30
1.5.2樣例類31
1.6本章小結31
1.7課后習題32
第2章Spark基礎33
2.1初識Spark33目錄Spark大數(shù)據(jù)分析與實戰(zhàn)
2.1.1Spark概述33
2.1.2Spark的特點34
2.1.3Spark應用場景35
2.1.4Spark與Hadoop對比36
2.2搭建Spark開發(fā)環(huán)境37
2.2.1環(huán)境準備37
2.2.2Spark的部署方式37
2.2.3Spark集群安裝部署38
2.2.4Spark HA集群部署41
2.3Spark運行架構與原理45
2.3.1基本概念45
2.3.2Spark集群運行架構45
2.3.3Spark運行基本流程46
2.4體驗第一個Spark程序47
2.5啟動SparkShell49
2.5.1運行SparkShell命令49
2.5.2運行SparkShell讀取HDFS文件50
2.6IDEA開發(fā)WordCount程序52
2.6.1以本地模式執(zhí)行Spark程序52
2.6.2集群模式執(zhí)行Spark程序54
2.7本章小結58
2.8課后習題59
第3章Spark RDD彈性分布式數(shù)據(jù)集60
3.1RDD簡介60
3.2RDD的創(chuàng)建方式61
3.2.1從文件系統(tǒng)加載數(shù)據(jù)創(chuàng)建RDD61
3.2.2通過并行集合創(chuàng)建RDD62
3.3RDD的處理過程63
3.3.1轉換算子63
3.3.2行動算子67
3.3.3編寫WordCount詞頻統(tǒng)計案例70
3.4RDD的分區(qū)71
3.5RDD的依賴關系71
3.6RDD機制73
3.6.1持久化機制73
3.6.2容錯機制75
3.7Spark的任務調度76
3.7.1DAG的概念76
3.7.2RDD在Spark中的運行流程76
3.8本章小結78
3.9課后習題78
第4章Spark SQL結構化數(shù)據(jù)文件處理80
4.1Spark SQL的基礎知識80
4.1.1Spark SQL的簡介80
4.1.2Spark SQL架構81
4.2DataFrame的基礎知識82
4.2.1DataFrame簡介82
4.2.2DataFrame的創(chuàng)建83
4.2.3DataFrame的常用操作86
4.3Dataset的基礎知識89
4.3.1Dataset簡介89
4.3.2Dataset對象的創(chuàng)建89
4.4RDD轉換為DataFrame90
4.4.1反射機制推斷Schema90
4.4.2編程方式定義Schema92
4.5Spark SQL操作數(shù)據(jù)源94
4.5.1操作MySQL94
4.5.2操作Hive數(shù)據(jù)集96
4.6本章小結99
4.7課后習題99
第5章HBase分布式數(shù)據(jù)庫101
5.1HBase的基礎知識101
5.1.1HBase的簡介101
5.1.2HBase的數(shù)據(jù)模型102
5.2HBase的集群部署103
5.3HBase的基本操作107
5.3.1HBase的Shell操作107
5.3.2HBase的Java API操作112
5.4深入學習HBase原理120
5.4.1HBase架構121
5.4.2物理存儲122
5.4.3尋址機制123
5.4.4HBase讀寫數(shù)據(jù)流程124
5.5HBase和Hive的整合125
5.6本章小結130
5.7課后習題130
第6章Kafka分布式發(fā)布訂閱消息系統(tǒng)132
6.1Kafka的基礎知識132
6.1.1消息傳遞模式簡介132
6.1.2Kafka簡介133
6.2Kafka工作原理134
6.2.1Kafka核心組件介紹134
6.2.2Kafka工作流程分析136
6.3Kafka集群部署與測試138
6.3.1安裝Kafka138
6.3.2啟動Kafka服務140
6.4Kafka生產者和消費者實例141
6.4.1基于命令行方式使用Kafka141
6.4.2基于Java API方式使用Kafka143
6.5Kafka Streams148
6.5.1Kafka Streams概述149
6.5.2Kafka Streams開發(fā)單詞計數(shù)應用149
6.6本章小結153
6.7課后習題153
第7章Spark Streaming實時計算框架155
7.1實時計算的基礎知識155
7.1.1什么是實時計算155
7.1.2常用的實時計算框架155
7.2Spark Streaming的基礎知識156
7.2.1Spark Streaming簡介156
7.2.2Spark Streaming工作原理157
7.3Spark的DStream157
7.3.1DStream簡介157
7.3.2DStream編程模型158
7.3.3DStream轉換操作158
7.3.4DStream窗口操作164
7.3.5DStream輸出操作168
7.3.6DStream實例——實現(xiàn)網(wǎng)站熱詞排序170
7.4Spark Streaming整合Kafka實戰(zhàn)173
7.4.1KafkaUtils.createDstream方式173
7.4.2KafkaUtils.createDirectStream方式177
7.5本章小結180
7.6課后習題180
第8章Spark MLlib 機器學習算法庫182
8.1初識機器學習182
8.1.1什么是機器學習182
8.1.2機器學習的應用183
8.2Spark機器學習庫MLlib的概述184
8.2.1MLlib的簡介184
8.2.2Spark機器學習工作流程185
8.3數(shù)據(jù)類型186
8.3.1本地向量186
8.3.2標注點186
8.3.3本地矩陣187
8.4Spark MLlib基本統(tǒng)計188
8.4.1摘要統(tǒng)計188
8.4.2相關統(tǒng)計189
8.4.3分層抽樣190
8.5分類191
8.5.1線性支持向量機191
8.5.2邏輯回歸192
8.6案例——構建推薦系統(tǒng)193
8.6.1推薦模型分類194
8.6.2利用MLlib實現(xiàn)電影推薦194
8.7本章小結200
8.8課后習題200
第9章綜合案例——Spark實時交易數(shù)據(jù)統(tǒng)計202
9.1系統(tǒng)概述202
9.1.1系統(tǒng)背景介紹202
9.1.2系統(tǒng)架構設計202
9.1.3系統(tǒng)預覽203
9.2Redis數(shù)據(jù)庫203
9.2.1Redis介紹204
9.2.2Redis部署與啟動204
9.2.3Redis操作及命令205
9.3模塊開發(fā)——構建工程結構206
9.4模塊開發(fā)——構建訂單系統(tǒng)211
9.4.1模擬訂單數(shù)據(jù)211
9.4.2向Kafka集群發(fā)送訂單數(shù)據(jù)212
9.5模塊開發(fā)——分析訂單數(shù)據(jù)215
9.6模塊開發(fā)——數(shù)據(jù)展示219
9.6.1搭建Web開發(fā)環(huán)境219
9.6.2實現(xiàn)數(shù)據(jù)展示功能221
9.6.3可視化平臺展示227
9.7本章小結228

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號