目錄
前言 1
第1章 準備工作 5
本書主要內容 5
為什么要使用Python進行數據分析 6
重要的Python庫 7
安裝和設置 10
社區(qū)和研討會 16
使用本書 16
致謝 18
第2章 引言 20
來自bit.ly的1.usa.gov數據 21
MovieLens 1M數據集 29
1880—2010年間全美嬰兒姓名 35
小結及展望 47
第3章 IPython:一種交互式計算和開發(fā)環(huán)境 48
IPython基礎 49
內省 51
使用命令歷史 60
與操作系統交互 63
軟件開發(fā)工具 66
IPython HTML Notebook 75
利用IPython提高代碼開發(fā)效率的幾點提示 77
高級IPython功能 79
致謝 81
第4章 NumPy基礎:數組和矢量計算 82
NumPy的ndarray:一種多維數組對象 83
通用函數:快速的元素級數組函數 98
利用數組進行數據處理 100
用于數組的文件輸入輸出 107
線性代數 109
隨機數生成 111
范例:隨機漫步 112
第5章 pandas入門 115
pandas的數據結構介紹 116
基本功能 126
匯總和計算描述統計 142
處理缺失數據 148
層次化索引 153
其他有關pandas的話題 158
第6章 數據加載、存儲與文件格式 162
讀寫文本格式的數據 162
二進制數據格式 179
使用HTML和Web API 181
使用數據庫 182
第7章 數據規(guī)整化:清理、轉換、合并、重塑 186
合并數據集 186
重塑和軸向旋轉 200
數據轉換 204
字符串操作 217
示例:USDA食品數據庫 224
第8章 繪圖和可視化 231
matplotlib API入門 231
pandas中的繪圖函數 244
繪制地圖:圖形化顯示海地地震危機數據 254
Python圖形化工具生態(tài)系統 260
第9章 數據聚合與分組運算 263
GroupBy技術 264
數據聚合 271
分組級運算和轉換 276
透視表和交叉表 288
示例:2012聯邦選舉委員會數據庫 291
第10章 時間序列 302
日期和時間數據類型及工具 303
時間序列基礎 307
日期的范圍、頻率以及移動 311
時區(qū)處理 317
時期及其算術運算 322
重采樣及頻率轉換 327
時間序列繪圖 334
移動窗口函數 337
性能和內存使用方面的注意事項 342
第11章 金融和經濟數據應用 344
數據規(guī)整化方面的話題 344
分組變換和分析 355
更多示例應用 361
第12章 NumPy高級應用 368
ndarray對象的內部機理 368
高級數組操作 370
廣播 378
ufunc高級應用 383
結構化和記錄式數組 386
更多有關排序的話題 388
NumPy的matrix類 393
高級數組輸入輸出 395
性能建議 397
附錄A Python語言精要 401