前言xi
第1部分起步
第1章理論
敏捷大數據
BigWords定義
敏捷大數據團隊
認識機遇和問題
敏捷大數據流程
代碼檢查和結對編程
敏捷的場所:開發(fā)的效率
協(xié)作空間
私人空間
個人空間
用大幅打印件明確表達想法
第2章數據
電子郵件
處理原始數據
原始的電子郵件
viii|目錄
結構化與半結構化數據
SQL
NoSQL
序列化
從演變的模式中抽取和展示特征
數據流水線
數據透視
社交網絡
時間序列
自然語言
概率
小結
第3章敏捷開發(fā)工具
可擴展性=簡潔
敏捷大數據處理
設置運行Python的虛擬環(huán)境
使用Avro對事件進行序列化
在Python中使用Avro
收集數據
使用Pig處理數據
安裝Pig
使用MongoDB發(fā)布數據
安裝MongoDB
安裝MongoDB的Java驅動程序
安裝mongo-hadoop
用Pig向MongoDB推送數據
使用ElasticSearch搜索數據
安裝
使用Wonderdog整合ElasticSearch和Pig
對工作流程的反思
輕量級的Web應用
Python和Flask
目錄|ix
展示數據
安裝Bootstrap
啟用Bootstrap
使用d3js和nvd3js可視化數據
小結
第4章在云端
引言
GitHub
dotCloud
dotCloudEcho服務
Python工作者服務
AmazonWebServices
SimpleStorageService
ElasticMapReduce
MongoDB即服務
輔助工具(Instrumentation)
GoogleAnalytics
MortarData
第2部分登上金字塔
第5章收集和展示數據
整合軟件棧
收集并序列化收件箱
處理和發(fā)布郵件數據
在瀏覽器中顯示郵件
用Flask和pymongo處理郵件數據
使用Jinja2渲染HTML5頁面
敏捷檢查點
生成電子郵件清單
用MongoDB顯示郵件
對數據展示的分析
x|目錄
搜索郵件
使用Pig,ElasticSearch和Wonderdog構建索引
在網頁中搜索郵件數據
結論
第6章使用圖表可視化數據
優(yōu)秀的圖表
抽取實體:郵件地址
抽取郵件
對時間進行可視化
結論
第7章利用報表探索數據
為數據添加聯(lián)系
用TF-IDF從郵件中提取關鍵字
小結
第8章預測
預測電子郵件的回復率
個性化
小結
第9章驅動行動
好郵件的屬性
使用樸素貝葉斯方法進行更好的預測
P(Reply|From∩To)
P(Reply|Token)
實時預測
記錄事件日志
小結
索引