在里扎等編著的《Spark高級數(shù)據(jù)分析(影印版 )(英文版)》這本實用書籍中,4位Cloude陽公司 的數(shù)據(jù)科學家講解了一系列自包含模式,用于在 Spark中進行大規(guī)模數(shù)據(jù)分析。本書作者們把Spark、 統(tǒng)計原理和現(xiàn)實世界中的數(shù)據(jù)集合放到一起,通過實 例教你如何解決數(shù)據(jù)分析問題。你將從Spark及其生態(tài)系統(tǒng)的介紹開始,然后深 入運用標準技巧的模式——歸類、聚合過濾及異常檢 測等,這些技巧被用于生物基因、安全和金融等行業(yè) 。如果你對機器學習和統(tǒng)計學有初步了解,使用Java 、Pytton或者Scala編程,就會發(fā)現(xiàn)這些模式對于你 的數(shù)據(jù)分析應用程序會非常有用。模式包括: 音樂推薦和Audioscrobbler數(shù)據(jù)集合 用決策樹分析森林覆蓋 用K均值聚合檢測網絡流量中的異常 用潛在語義分析理解維基百科 用GraphX分析共生網絡 用地理空間和瞬態(tài)數(shù)據(jù)分析紐約市出租車路線的 數(shù)據(jù) 用蒙地卡羅模擬來估計金融風險 分析基因數(shù)據(jù)和BDG項目 通過PySpark和Thunder分析神經造影數(shù)據(jù)