注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Spark SQL大數(shù)據(jù)實(shí)例開(kāi)發(fā)教程

Spark SQL大數(shù)據(jù)實(shí)例開(kāi)發(fā)教程

Spark SQL大數(shù)據(jù)實(shí)例開(kāi)發(fā)教程

定 價(jià):¥59.00

作 者: 王家林 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng): 大數(shù)據(jù)科學(xué)叢書
標(biāo) 簽: 暫缺

ISBN: 9787111591979 出版時(shí)間: 2018-04-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 254 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  Spark SQL是Spark生態(tài)環(huán)境中核心和基礎(chǔ)的組件,是掌握Spark的關(guān)鍵所在。本書完全從企業(yè)級(jí)開(kāi)發(fā)的角度出發(fā),結(jié)合多個(gè)企業(yè)級(jí)應(yīng)用案例,深入剖析Spark SQL。全書共分為8章,包括:認(rèn)識(shí)Spark SQL、DataFrame原理與常用操作、Spark SQL操作多種數(shù)據(jù)源、Parquet列式存儲(chǔ)、Spark SQL內(nèi)置函數(shù)與窗口函數(shù)、Spark SQL UDF與UDAF、Thrift Server、Spark SQL綜合應(yīng)用案例。 本書可以使讀者對(duì)Spark SQL有深入徹底的理解,本書適合于Spark學(xué)習(xí)愛(ài)好者,是學(xué)習(xí)Spark SQL的入門和提高教材,也是Spark開(kāi)發(fā)工程師開(kāi)發(fā)過(guò)程中查閱Spark SQL的案頭手冊(cè)。

作者簡(jiǎn)介

暫缺《Spark SQL大數(shù)據(jù)實(shí)例開(kāi)發(fā)教程》作者簡(jiǎn)介

圖書目錄



前言
第1章認(rèn)識(shí)Spark SQL
1.1Spark SQL概述
1.1.1Spark SQL與DataFrame
1.1.2DataFrame與RDD的差異
1.1.3Spark SQL的發(fā)展歷程
1.2從零起步掌握Hive
1.2.1Hive的本質(zhì)是什么
1.2.2Hive安裝和配置
1.2.3使用Hive分析搜索數(shù)據(jù)
1.3Spark SQL on Hive安裝與配置
1.3.1安裝Spark SQL
1.3.2安裝MySQL
1.3.3啟動(dòng)Hive Metastore
1.4Spark SQL初試
1.4.1通過(guò)spark-shell來(lái)使用Spark SQL
1.4.2Spark SQL的命令終端
1.4.3Spark的Web UI
1.5本章小結(jié)
第2章DataFrame原理與常用操作
2.1DataFrame編程模型
2.2DataFrame基本操作實(shí)戰(zhàn)
2.2.1數(shù)據(jù)準(zhǔn)備
2.2.2啟動(dòng)交互式界面
2.2.3數(shù)據(jù)處理與分析
2.3通過(guò)RDD來(lái)構(gòu)建DataFrame
2.4緩存表(列式存儲(chǔ))
2.5DataFrame API應(yīng)用示例
2.6本章小結(jié)
第3章Spark SQL 操作多種數(shù)據(jù)源
3.1通用的加載/保存功能
3.1.1Spark SQL加載數(shù)據(jù)
3.1.2Spark SQL保存數(shù)據(jù)
3.1.3綜合案例——電商熱銷商品排名
3.2Spark SQL操作Hive示例
3.3Spark SQL操作JSON數(shù)據(jù)集示例
3.4Spark SQL操作HBase示例
3.5Spark SQL操作MySQL示例
3.5.1安裝并啟動(dòng)MySQL
3.5.2準(zhǔn)備數(shù)據(jù)表
3.5.3操作MySQL表
3.6Spark SQL操作MongoDB示例
3.6.1安裝配置MongoDB
3.6.2啟動(dòng)MongoDB
3.6.3準(zhǔn)備數(shù)據(jù)
3.6.4Spark SQL操作MongoDB
3.7本章小結(jié)
第4章Parquet列式存儲(chǔ)
4.1Parquet概述
4.1.1Parquet的基本概念
4.1.2Parquet數(shù)據(jù)列式存儲(chǔ)格式應(yīng)用舉例
4.2Parquet的Block配置及數(shù)據(jù)分片
4.2.1Parquet的Block的配置
4.2.2Parquet 內(nèi)部的數(shù)據(jù)分片
4.3Parquet序列化
4.3.1Spark實(shí)施序列化的目的
4.3.2Parquet兩種序列化方式
4.4本章小結(jié)
第5章Spark SQL內(nèi)置函數(shù)與窗口函數(shù)
5.1Spark SQL內(nèi)置函數(shù)
5.1.1Spark SQL內(nèi)置函數(shù)概述
5.1.2Spark SQL內(nèi)置函數(shù)應(yīng)用實(shí)例
5.2Spark SQL窗口函數(shù)
5.2.1Spark SQL窗口函數(shù)概述
5.2.2Spark SQL窗口函數(shù)分?jǐn)?shù)查詢統(tǒng)計(jì)案例
5.2.3Spark SQL窗口函數(shù)NBA常規(guī)賽數(shù)據(jù)統(tǒng)計(jì)案例
5.3本章小結(jié)
第6章Spark SQL UDF與UDAF
6.1UDF概述
6.2UDF示例
6.2.1Hobby_count函數(shù)
6.2.2Combine函數(shù)
6.2.3Str2Int函數(shù)
6.2.4Wsternstate函數(shù)
6.2.5ManyCustomers函數(shù)
6.2.6StateRegion函數(shù)
6.2.7DiscountRatio函數(shù)
6.2.8MakeStruct函數(shù)
6.2.9MyDateFilter函數(shù)
6.2.10MakeDT函數(shù)
6.3UDAF概述
6.4UDAF示例
6.4.1ScalaAggregateFunction函數(shù)
6.4.2GeometricMean函數(shù)
6.4.3CustomMean函數(shù)
6.4.4BelowThreshold函數(shù)
6.4.5YearCompare函數(shù)
6.4.6WordCount函數(shù)
6.5本章小結(jié)
第7章Thrift Server
7.1Thrift概述
7.1.1Thrift的基本概念
7.1.2Thrift的工作機(jī)制
7.1.3Thrift的運(yùn)行機(jī)制
7.1.4一個(gè)簡(jiǎn)單的Thrift 實(shí)例
7.2Thrift Server的啟動(dòng)過(guò)程
7.2.1Thrift Sever啟動(dòng)詳解
7.2.2HiveThriftServer2類的解析
7.3Beeline操作
7.3.1Beeline連接方式
7.3.2在Beeline中進(jìn)行SQL查詢操作
7.3.3通過(guò)Web控制臺(tái)查看用戶進(jìn)行的操作
7.4Thrift Server應(yīng)用示例
7.4.1示例源代碼
7.4.2關(guān)鍵代碼行解析
7.4.3測(cè)試運(yùn)行
7.4.4運(yùn)行結(jié)果解析
7.4.5Spark Web控制臺(tái)查看運(yùn)行日志
7.5本章小結(jié)
第8章Spark SQL綜合應(yīng)用案例
8.1綜合案例實(shí)戰(zhàn)——電商網(wǎng)站日志多維度數(shù)據(jù)分析
8.1.1數(shù)據(jù)準(zhǔn)備
8.1.2數(shù)據(jù)說(shuō)明
8.1.3數(shù)據(jù)創(chuàng)建
8.1.4數(shù)據(jù)導(dǎo)入
8.1.5數(shù)據(jù)測(cè)試和處理
8.2綜合案例實(shí)戰(zhàn)——電商網(wǎng)站搜索排名統(tǒng)計(jì)
8.2.1案例概述
8.2.2數(shù)據(jù)準(zhǔn)備
8.2.3實(shí)現(xiàn)用戶每天搜索前3名的商品排名統(tǒng)計(jì)
8.3本章小結(jié)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)