注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計算機(jī)/網(wǎng)絡(luò)家庭與辦公軟件Spark大數(shù)據(jù)實例開發(fā)教程

Spark大數(shù)據(jù)實例開發(fā)教程

Spark大數(shù)據(jù)實例開發(fā)教程

定 價:¥59.00

作 者: 王家林,徐香玉 等
出版社: 機(jī)械工業(yè)出版社
叢編項:
標(biāo) 簽: 暫缺

ISBN: 9787111519096 出版時間: 2015-12-01 包裝:
開本: 16開 頁數(shù): 332 字?jǐn)?shù):  

內(nèi)容簡介

  書中第1章首先通過介紹Spark的生態(tài)系統(tǒng)和RDD編程模型,使讀者能夠快速的對Spark技術(shù)的生態(tài)環(huán)境以及對Spark的RDD編程模型有個非常直觀的了解。第2章,首先介紹了Spark應(yīng)用的兩種部署模式;然后在應(yīng)用部署模式基礎(chǔ)上,開始Spark實戰(zhàn)的案例與解析,通過提供一個完整的基礎(chǔ)案例,使讀者了解一個Spark應(yīng)用的大致處理流程;接著對實戰(zhàn)中的重點部分,結(jié)合源碼分析、監(jiān)控日志分析等深入解析了Spark運行機(jī)制、DAG圖等關(guān)鍵內(nèi)容;后給出Spark開發(fā)者常用的應(yīng)用程序構(gòu)建案例與分析,以及調(diào)試環(huán)境搭建的案例與應(yīng)用調(diào)試的案例。第3章重點針對SparkSQL子模塊進(jìn)行實戰(zhàn),首先概要分析了Spark1.3版本中引入的DataFrame,然后基于DataFrame編程模型給出一個完整的基礎(chǔ)案例與解析,接著也是針對實戰(zhàn)中的難度、重點部分,給予了更豐富的案例與深入地分析,后,重點關(guān)注Spark1.3版本中DataFrame當(dāng)前支持的各種數(shù)據(jù)源,并給出各種數(shù)據(jù)源基礎(chǔ)上的案例與分析,數(shù)據(jù)源包括各種結(jié)構(gòu)化數(shù)據(jù)文件、Hive表、外部數(shù)據(jù)庫或現(xiàn)有的RDD。第4章針對流處理進(jìn)行實戰(zhàn),首先分析流處理中的關(guān)鍵點和難度,并通過實例進(jìn)行深入解析。然后針對各種數(shù)據(jù)源的情景,給出由淺入深的實戰(zhàn)案例與解析,并結(jié)合部分源碼,分析流處理的性能調(diào)優(yōu)等,并給出實例與分析。第5章針對著名的分布式內(nèi)存存儲系統(tǒng)Tachyon進(jìn)行實戰(zhàn),并對實戰(zhàn)案例進(jìn)行分析,內(nèi)容包括從Tachyon集群部署的案例與分析、Tachyon集群配置的案例與分析等,后關(guān)注Tachyon對Spark應(yīng)用的性能調(diào)優(yōu)的影響,給出實戰(zhàn)案例及其深入解析。第6章通過大約30個動手實踐的案例循序漸進(jìn)地展示SparkGraphX框架方方面面的功能和使用方法,并對SparkGraphX的源碼進(jìn)行解析,并用綜合實戰(zhàn)案例鞏固知識;第7章從快速入門機(jī)器學(xué)習(xí)開始,詳細(xì)解析MLlib框架,通過對線性回歸、聚類、協(xié)同過濾的算法解析、源碼解析和案例實戰(zhàn),循序漸進(jìn)地揭秘MLLib,后通過對MLlib中BasicStatics、樸素貝葉斯算法、決策樹的解析和實戰(zhàn),進(jìn)一步提升掌握Spark機(jī)器學(xué)習(xí)的技能。

作者簡介

暫缺《Spark大數(shù)據(jù)實例開發(fā)教程》作者簡介

圖書目錄

第1章Spark簡介
1.1什么是Spark
1.2Spark生態(tài)圈
1.2.1伯克利數(shù)據(jù)分析協(xié)議棧
1.2.2Spark開源社區(qū)發(fā)展
1.3RDD編程模型
1.3.1RDD抽象概念
1.3.2RDD的操作
1.3.3RDD的依賴關(guān)系
1.3.4一個典型的DAG示意圖
第2章Spark RDD實踐案例與解析
2.1Spark應(yīng)用程序部署
2.1.1Spark應(yīng)用的基本概念
2.1.2應(yīng)用程序的部署方式
2.2RDD數(shù)據(jù)的輸入、處理、輸出的基本案例與解析
2.2.1集群環(huán)境的搭建
2.2.2交互式工具的啟動
2.2.3文本數(shù)據(jù)的ETL案例實踐與解析
2.2.4文本數(shù)據(jù)的初步統(tǒng)計案例實踐與解析
2.2.5文本數(shù)據(jù)統(tǒng)計結(jié)果的持久化案例實踐與解析
2.2.6RDD的Lineage關(guān)系的案例與源碼解析
2.2.7RDD的持久化案例與解析
2.2.8RDD的構(gòu)建案例與解析
2.2.9分區(qū)數(shù)設(shè)置的案例與源碼解析
2.3RDD API的應(yīng)用案例與解析
2.3.1如何查找RDD API的隱式轉(zhuǎn)換
2.3.2RDD\\[T\\]的分區(qū)相關(guān)的API
2.3.3RDD\\[T\\]常用的聚合API
2.3.4DoubleRDDFunctions(self:RDD\\[Double\\])常用的API
2.3.5PairRDDFunctions[K,V]聚合相關(guān)的API
2.3.6RDD相互間操作的API
2.3.7PairRDDFunctions[K,V]間的相關(guān)API
2.3.8OrderedRDDFunctions[K,V,P<:Product2[K,V]]常用的API
2.4Spark應(yīng)用程序構(gòu)建
2.4.1基于SBT構(gòu)建Spark應(yīng)用程序的實例
2.4.2基于IDEA構(gòu)建Spark應(yīng)用程序的實例
2.4.3Spark提交應(yīng)用的調(diào)試實例
2.5移動互聯(lián)網(wǎng)數(shù)據(jù)分析案例與解析
2.5.1移動互聯(lián)網(wǎng)數(shù)據(jù)的準(zhǔn)備
2.5.2移動互聯(lián)網(wǎng)數(shù)據(jù)分析與解析
2.6Spark RDD實踐中的常見問題與解答
第3章Spark SQL實踐案例與解析
3.1Spark SQL概述
3.2DataFrame處理的案例與解析
3.2.1DataFrame編程模型
3.2.2DataFrame基本操作案例與解析
3.2.3DataFrame與RDD之間的轉(zhuǎn)換案例與解析
3.2.4緩存表(列式存儲)的案例與解析
3.2.5DataFrame API的應(yīng)用案例與分析
3.3Spark SQL處理各種數(shù)據(jù)源的案例與解析
3.3.1通用的加載/保存功能的案例與解析
3.3.2Parquet文件處理的案例與解析
3.3.3JSON數(shù)據(jù)集操作的案例與解析
3.3.4操作Hive表的案例與解析
3.3.5使用JDBC 操作其他數(shù)據(jù)庫的案例與解析
3.3.6集成Hive數(shù)據(jù)倉庫的案例與解析
3.4基于Hive的人力資源系統(tǒng)數(shù)據(jù)處理案例與解析
3.4.1人力資源系統(tǒng)的數(shù)據(jù)庫與表的構(gòu)建
3.4.2人力資源系統(tǒng)的數(shù)據(jù)的加載
3.4.3人力資源系統(tǒng)的數(shù)據(jù)的查詢
第4章Spark Streaming實踐案例與解析
4.1Spark Streaming概述
4.2Spark Streaming基礎(chǔ)概念
4.3企業(yè)信息實時處理的案例與解析
4.3.1處理TCP數(shù)據(jù)源的案例與解析
4.3.2處理HDFS文件數(shù)據(jù)源的案例與解析
4.3.3處理Kafka數(shù)據(jù)源的準(zhǔn)備工作
4.3.4基于Receiver讀取Kafka數(shù)據(jù)的案例與解析
4.3.5直接讀取(無Receiver)Kafka數(shù)據(jù)的案例與解析
4.3.6處理Flume數(shù)據(jù)源的實踐準(zhǔn)備
4.3.7基于Flume風(fēng)格的推送數(shù)據(jù)案例與解析
4.3.8定制FlumeSink的拉取數(shù)據(jù)案例與解析
4.4性能調(diào)優(yōu)
4.4.1減少批處理的時間
4.4.2設(shè)置正確的批間隔
4.4.3內(nèi)存調(diào)優(yōu)
第5章Tachyon實踐案例與解析
5.1Tachyon概述
5.2重新編譯部署包
5.2.1重新編譯Tachyon的部署包
5.2.2重新編譯Spark的部署包
5.3Tachyon部署的案例與解析
5.3.1單機(jī)模式部署的案例與解析
5.3.2集群模式部署的案例與解析
5.3.3集群Master容錯部署的案例與解析
5.4Tachyon配置的案例與解析
5.4.1底層存儲系統(tǒng)的配置案例與解析
5.4.2配置屬性與解析
5.5命令行接口的案例與解析
5.5.1命令行接口的說明
5.5.2命令行接口的案例實踐與解析
5.6同步底層文件系統(tǒng)的案例與解析
5.6.1同步HDFS底層文件系統(tǒng)的案例與解析
5.6.2同步本地底層文件系統(tǒng)的案例與解析
5.7基于Tachyon運行的案例與解析
5.7.1基于Tachyon運行Spark的案例與解析
5.7.2基于Tachyon運行Hadoop MR的案例與解析
附錄Spark 1.4版本新特性

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號