Spark與Hadoop大數(shù)據(jù)分析

定　價：￥59.00

作　者：	[美] 文卡特·安卡姆（Venkat Ankam）著；吳今朝譯
出版社：	機械工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

ISBN：	9787111569411	出版時間：	2017-07-01	包裝：	平裝
開本：	16開	頁數(shù)：	234	字數(shù)：

內容簡介

　　本書比較系統(tǒng)地講解了利用Hadoop和Spark及其生態(tài)系統(tǒng)里的一系列工具進行大數(shù)據(jù)分析的方法，既涵蓋ApacheSpark和Hadoop的基礎知識，又深入探討所有Spark組件——SparkCore、SparkSQL、DataFrame、DataSet、普通流、結構化流、MLlib、Graphx，以及Hadoop的核心組件（HDFS、MapReduce和Yarn）等，并配套詳細的實現(xiàn)示例，是快速掌握大數(shù)據(jù)分析基礎架構及其實施方法的詳實參考?！∪珪?0章，第1章從宏觀的角度講解大數(shù)據(jù)分析的概念，并介紹在Hadoop和Spark平臺上使用的工具和技術，以及一些*常見的用例；第2章介紹Hadoop和Spark平臺的基礎知識；第3章深入探討并學習Spark；第4章主要介紹DataSourcesAPI、DataFrameAPI和新的DatasetAPI；第5章講解如何用SparkStreaming進行實時分析；第6章介紹Spark和Hadoop配套的筆記本和數(shù)據(jù)流；第7章講解Spark和Hadoop上的機器學習技術；第8章介紹如何構建推薦系統(tǒng)；第9章介紹如何使用GraphX進行圖分析；第10章介紹如何使用SparkR。

作者簡介

　　文卡特·安卡姆（VenkatAnkam）　有超過18年的IT經驗和5年以上的大數(shù)據(jù)技術經驗，與客戶一起設計和開發(fā)過可擴展的大數(shù)據(jù)應用程序。他在利用Hadoop和Spark進行大數(shù)據(jù)分析方面擁有豐富的經驗，與全球很多客戶進行了合作?！∷荂loudera認證的Hadoop開發(fā)者和管理員，也是Databricks認證的Spark開發(fā)者。他還是一些全球Hadoop和Spark會議小組的創(chuàng)始人和主持人，熱愛與社區(qū)分享知識。

圖書目錄

譯者序
前言
第1章　從宏觀視角看大數(shù)據(jù)分析 1
1.1　大數(shù)據(jù)分析以及 Hadoop 和 Spark 在其中承擔的角色 3
1.1.1　典型大數(shù)據(jù)分析項目的生命周期 4
1.1.2　Hadoop和Spark承擔的角色 6
1.2　大數(shù)據(jù)科學以及Hadoop和Spark在其中承擔的角色 6
1.2.1　從數(shù)據(jù)分析到數(shù)據(jù)科學的根本性轉變 6
1.2.2　典型數(shù)據(jù)科學項目的生命周期 8
1.2.3　Hadoop和Spark 承擔的角色 9
1.3　工具和技術 9
1.4　實際環(huán)境中的用例 11
1.5　小結 12
第2章　Apache Hadoop和Apache Spark入門 13
2.1　Apache Hadoop概述 13
2.1.1　Hadoop 分布式文件系統(tǒng) 14
2.1.2　HDFS 的特性 15
2.1.3　MapReduce 16
2.1.4　MapReduce 的特性 17
2.1.5　MapReduce v1與MapReduce v2對比 17
2.1.6　YARN 18
2.1.7　Hadoop上的存儲選擇 20
2.2　Apache Spark概述 24
2.2.1　Spark 的發(fā)展歷史 24
2.2.2　Apache Spark 是什么 25
2.2.3　Apache Spark 不是什么 26
2.2.4　MapReduce 的問題 27
2.2.5　Spark 的架構 28
2.3　為何把 Hadoop 和 Spark 結合使用 31
2.3.1　Hadoop 的特性 31
2.3.2　Spark 的特性 31
2.4　安裝 Hadoop 和 Spark 集群 33
2.5　小結 36
第3章　深入剖析Apache Spark 37
3.1　啟動 Spark 守護進程 37
3.2　學習Spark的核心概念 39
3.3　Spark 程序的生命周期 55
3.4　Spark 應用程序 59
3.5　持久化與緩存 62
3.6　Spark 資源管理器：Standalone、YARN和Mesos 63
3.7　小結 67
第4章　利用Spark SQL、Data-Frame和Dataset進行大數(shù)據(jù)分析 69
4.1　Spark SQL 的發(fā)展史 70
4.2　Spark SQL 的架構 71
4.3　介紹Spark SQL的四個組件 72
4.4　DataFrame 和 Dataset 的演變 74
4.5　為什么要使用 Dataset 和DataFrame 75
4.6　何時使用 RDD、Dataset 和DataFrame 78
4.7　利用 DataFrame 進行分析 78
4.8　利用 Dataset API 進行分析 85
4.9　Data Sources API 87
4.10　把 Spark SQL 作為分布式 SQL引擎 97
4.11　Hive on Spark 100
4.12　小結 100
第5章　利用Spark Streaming和Structured Streaming進行實時分析 102
5.1　實時處理概述 103
5.2　Spark Streaming 的架構 104
5.3　Spark Streaming 的變換和動作 109
5.4　輸入數(shù)據(jù)源和輸出存儲 111
5.5　使用 Kafka 和 HBase 的 Spark Streaming 113
5.6　Spark Streaming 的高級概念 118
5.7　監(jiān)控應用程序 122
5.8　結構化流概述 123
5.9　小結 129
第6章　利用Spark和Hadoop的筆記本與數(shù)據(jù)流 130
6.1　基于網絡的筆記本概述 130
6.2　Jupyter概述 131
6.3　Apache Zeppelin概述 135
6.4　Livy REST 作業(yè)服務器和 Hue筆記本 140
6.5　用于數(shù)據(jù)流的 Apache NiFi概述 148
6.6　小結 152
第7章　利用Spark和Hadoop進行機器學習 153
7.1　機器學習概述 153
7.2　在 Spark 和 Hadoop 上進行機器學習 154
7.3　機器學習算法 155
7.4　機器學習算法示例 160
7.5　構建機器學習流水線 163
7.6　利用 H2O 和 Spark 進行機器學習 167
7.7　Hivemall概述 169
7.8　Hivemall for Spark概述 170
7.9　小結 170
第8章　利用Spark和Mahout構建推薦系統(tǒng) 171
8.1　構建推薦系統(tǒng) 171
8.2　推薦系統(tǒng)的局限性 173
8.3　用 MLlib 實現(xiàn)推薦系統(tǒng) 173
8.4　Mahout 和 Spark 的集成 181
8.5　小結 189
第9章　利用GraphX進行圖分析 190
9.1　圖處理概述 190
9.2　GraphX 入門 193
9.3　利用 GraphX 分析航班數(shù)據(jù) 205
9.4　GraphFrames概述 209
9.5　小結 212
第10章　利用SparkR進行交互式分析 213
10.1　R語言和SparkR概述 213
10.2　SparkR 入門 216
10.3　在 SparkR 里使用 DataFrame 223
10.4　在 RStudio 里使用 SparkR 228
10.5　利用 SparkR 進行機器學習 230
10.6　在 Zeppelin 里使用 SparkR 233
10.7　小結 234