注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫敏捷數據科學:用Hadoop創(chuàng)建數據分析應用

敏捷數據科學:用Hadoop創(chuàng)建數據分析應用

敏捷數據科學:用Hadoop創(chuàng)建數據分析應用

定 價:¥49.00

作 者: (美)Russell Jurney 著; 馮文中,朱洪波 譯
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787121236198 出版時間: 2014-07-01 包裝: 平裝
開本: 16開 頁數: 184 字數:  

內容簡介

  《敏捷數據科學:用Hadoop創(chuàng)建數據分析應用》面向大數據挖掘,以敏捷視角呈現(xiàn)高效構建數據模型的全程實踐和思路。在一組以一個真實電子郵箱數據挖掘為例的數據- 價值金字塔進階模式中,你將學到:一整套實用工具及其方法論,可快速實現(xiàn)在Hadoop 上構建數據分析應用;用Python、Apache Pig D3.js等輕量級工具創(chuàng)建用于探索數據的敏捷環(huán)境;一種可根據數據中信息快速切換,進行不同類型數據分析的迭代式開發(fā)方法。

作者簡介

  Russell Jurney,在美國和墨西哥的賭場開始他的數據分析生涯。他開發(fā)了一個web應用來分析老虎機的性能。在經歷了創(chuàng)業(yè)、交互式媒體和新聞業(yè)以后,他到了硅谷,在Ning和LinkedIn開始構建可擴展的數據分析應用。他現(xiàn)在和妻子Kate以及兩只愛犬住在加利福尼亞州帕西菲卡市的海邊。

圖書目錄

前言xi
第1部分起步
第1章理論
敏捷大數據
BigWords定義
敏捷大數據團隊
認識機遇和問題
敏捷大數據流程
代碼檢查和結對編程
敏捷的場所:開發(fā)的效率
協(xié)作空間
私人空間
個人空間
用大幅打印件明確表達想法
第2章數據
電子郵件
處理原始數據
原始的電子郵件
viii|目錄
結構化與半結構化數據
SQL
NoSQL
序列化
從演變的模式中抽取和展示特征
數據流水線
數據透視
社交網絡
時間序列
自然語言
概率
小結
第3章敏捷開發(fā)工具
可擴展性=簡潔
敏捷大數據處理
設置運行Python的虛擬環(huán)境
使用Avro對事件進行序列化
在Python中使用Avro
收集數據
使用Pig處理數據
安裝Pig
使用MongoDB發(fā)布數據
安裝MongoDB
安裝MongoDB的Java驅動程序
安裝mongo-hadoop
用Pig向MongoDB推送數據
使用ElasticSearch搜索數據
安裝
使用Wonderdog整合ElasticSearch和Pig
對工作流程的反思
輕量級的Web應用
Python和Flask
目錄|ix
展示數據
安裝Bootstrap
啟用Bootstrap
使用d3js和nvd3js可視化數據
小結
第4章在云端
引言
GitHub
dotCloud
dotCloudEcho服務
Python工作者服務
AmazonWebServices
SimpleStorageService
ElasticMapReduce
MongoDB即服務
輔助工具(Instrumentation)
GoogleAnalytics
MortarData
第2部分登上金字塔
第5章收集和展示數據
整合軟件棧
收集并序列化收件箱
處理和發(fā)布郵件數據
在瀏覽器中顯示郵件
用Flask和pymongo處理郵件數據
使用Jinja2渲染HTML5頁面
敏捷檢查點
生成電子郵件清單
用MongoDB顯示郵件
對數據展示的分析
x|目錄
搜索郵件
使用Pig,ElasticSearch和Wonderdog構建索引
在網頁中搜索郵件數據
結論
第6章使用圖表可視化數據
優(yōu)秀的圖表
抽取實體:郵件地址
抽取郵件
對時間進行可視化
結論
第7章利用報表探索數據
為數據添加聯(lián)系
用TF-IDF從郵件中提取關鍵字
小結
第8章預測
預測電子郵件的回復率
個性化
小結
第9章驅動行動
好郵件的屬性
使用樸素貝葉斯方法進行更好的預測
P(Reply|From∩To)
P(Reply|Token)
實時預測
記錄事件日志
小結
索引

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號