本書結合理論和實踐,由淺入深,全方位介紹了Hadoop這一高性能的海量數(shù)據(jù)處理和分析平臺。全書5部分24章,第Ⅰ部分介紹Hadoop基礎知識,主題涉及Hadoop、MapReduce、Hadoop分布式文件系統(tǒng)、YARN、Hadoop的I/O操作。第Ⅱ部分介紹MapReduce,主題包括MapReduce應用開發(fā);MapReduce的工作機制、MapReduce的類型與格式、MapReduce的特性。第Ⅲ部分介紹Hadoop的運維,主題涉及構建Hadoop集群、管理Hadoop。第Ⅳ部分介紹Hadoop相關開源項目,主題涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三個案例,分別來自醫(yī)療衛(wèi)生信息技術服務商塞納(Cerner)、微軟的人工智能項目ADAM(一種大規(guī)模分布式深度學習框架)和開源項目Cascading(一個新的針對MapReduce的數(shù)據(jù)處理API)。 本書是一本專業(yè)、全面的Hadoop參考書和工具書,闡述了Hadoop生態(tài)圈的新發(fā)展和應用,程序員可以從中探索海量數(shù)據(jù)集的存儲和分析,管理員可以從中了解Hadoop集群的安裝和運維。