本書比較系統(tǒng)地講解了利用Hadoop和Spark及其生態(tài)系統(tǒng)里的一系列工具進行大數(shù)據(jù)分析的方法,既涵蓋ApacheSpark和Hadoop的基礎知識,又深入探討所有Spark組件——SparkCore、SparkSQL、DataFrame、DataSet、普通流、結構化流、MLlib、Graphx,以及Hadoop的核心組件(HDFS、MapReduce和Yarn)等,并配套詳細的實現(xiàn)示例,是快速掌握大數(shù)據(jù)分析基礎架構及其實施方法的詳實參考?!∪珪?0章,第1章從宏觀的角度講解大數(shù)據(jù)分析的概念,并介紹在Hadoop和Spark平臺上使用的工具和技術,以及一些*常見的用例;第2章介紹Hadoop和Spark平臺的基礎知識;第3章深入探討并學習Spark;第4章主要介紹DataSourcesAPI、DataFrameAPI和新的DatasetAPI;第5章講解如何用SparkStreaming進行實時分析;第6章介紹Spark和Hadoop配套的筆記本和數(shù)據(jù)流;第7章講解Spark和Hadoop上的機器學習技術;第8章介紹如何構建推薦系統(tǒng);第9章介紹如何使用GraphX進行圖分析;第10章介紹如何使用SparkR。