本書共11章。第1章介紹常見的流數據的來源、應用以及三個重要特性:持續(xù)交付、結構松散和高基數,并闡釋對流數據使用基礎架構和算法的重要性。第2~6章介紹實時流架構的各組件涉及的軟件、框架和方法。第2章概述實時流架構設計涉及的組件、特性、編程語言等。第3章介紹實時流架構的服務配置和協(xié)調,重點介紹協(xié)調服務器ZooKeeper。第4章闡述實時流架構中數據流程的管理,涉及用來管理數據流程的兩個軟件包Kafka和Flume。第5章分析流數據的處理,涉及如何用Storm或Samza來處理數據。第6章介紹流數據的存儲問題。第7~11章重點關注流數據架構的應用構建問題。第7章討論從流環(huán)境向最終用戶的數據交付問題。這是構建儀表板以及其他監(jiān)控應用所使用的核心機制。第8章涵蓋流環(huán)境下的聚集計算問題,特別是對多分辨率時間序列數據的聚集計算問題。第9章簡要介紹統(tǒng)計學和概率論的基礎知識。第10章討論略圖,略圖通常具有更快的更新速度和更小的內存占用空間,特別適合流環(huán)境。第11章討論聚集計算之外能夠應用于流數據的一些更深入的話題。