Python機器學習手冊：從數據預處理到深度學習

定　價：￥89.00

作　者：	[美] ChrisAlbon（克里斯阿爾本）著，韓慧昌譯
出版社：	電子工業(yè)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

京東 (￥89.00)

ISBN：	9787121369629	出版時間：	2019-07-01	包裝：	平裝
開本：	16開	頁數：	368	字數：

內容簡介

　　《Python機器學習手冊：從數據預處理到深度學習》采用基于任務的方式來介紹如何在機器學習中使用Python。書中有近200個獨立的解決方案，針對的都是數據科學家或機器學習工程師在構建模型時可能遇到的常見任務，涵蓋從簡單的矩陣和向量運算到特征工程以及神經網絡的構建。所有方案都提供了相關代碼，讀者可以復制并粘貼這些代碼，用在自己的程序中。《Python機器學習手冊：從數據預處理到深度學習》不是機器學習的入門書，適合熟悉機器學習理論和概念的讀者閱讀。你可以將本書作為案頭參考書，在機器學習的日常開發(fā)中遇到問題時，隨時借鑒書中代碼，快速解決問題。

作者簡介

　　Chris Albon是一位有十年經驗的數據科學家和政治學家，他將統(tǒng)計學習、人工智能和軟件工程應用到政治和社會活動以及人道主義活動中，譬如監(jiān)查選舉情況、災難救助等。目前，Chris是肯尼亞創(chuàng)業(yè)公司BRCK的首席數據科學家。這家公司致力于為前沿市場的互聯(lián)網用戶構建一個穩(wěn)健的網絡。韓慧昌，畢業(yè)于北京科技大學，ThoughtWorks高級咨詢師，有多個大型企業(yè)AI項目經驗。林然，有6年多的開發(fā)經驗、4年多Python開發(fā)經驗，在航空、零售、物流、汽車、通訊等多個行業(yè)應用過機器學習算法。徐江，畢業(yè)于瑞典皇家理工學院的系統(tǒng)生物學專業(yè)，曾就職于Thoughtworks軟件技術有限公司。

圖書目錄

第1 章向量、矩陣和數組 1
1.0 簡介 1
1.1 創(chuàng)建一個向量 1
1.2 創(chuàng)建一個矩陣 2
1.3 創(chuàng)建一個稀疏矩陣 3
1.4 選擇元素 5
1.5 展示一個矩陣的屬性 6
1.6 對多個元素同時應用某個操作 7
1.7 找到最大值和最小值 8
1.8 計算平均值、方差和標準差 9
1.9 矩陣變形 10
1.10 轉置向量或矩陣 11
1.11 展開一個矩陣 12
1.12 計算矩陣的秩 13
1.13 計算行列式 14
1.14 獲取矩陣的對角線元素 14
1.15 計算矩陣的跡 15
1.16 計算特征值和特征向量 16
1.17 計算點積 17
1.18 矩陣的相加或相減 18
1.19 矩陣的乘法 19
1.20 計算矩陣的逆 20
1.21 生成隨機數 21

第2 章加載數據 23
2.0 簡介 23
2.1 加載樣本數據集 23
2.2 創(chuàng)建仿真數據集 25
2.3 加載CSV 文件 28
2.4 加載Excel 文件 29
2.5 加載JSON 文件 29
2.6 查詢SQL 數據庫 31

第3 章數據整理 33
3.0 簡介 33
3.1 創(chuàng)建一個數據幀 34
3.2 描述數據 35
3.3 瀏覽數據幀 37
3.4 根據條件語句來選擇行 39
3.5 替換值 40
3.6 重命名列 41
3.7 計算最小值、最大值、總和、平均值與計數值 43
3.8 查找唯一值 44
3.9 處理缺失值 45
3.10 刪除一列 47
3.11 刪除一行 48
3.12 刪除重復行 49
3.13 根據值對行分組 51
3.14 按時間段對行分組 52
3.15 遍歷一個列的數據 54
3.16 對一列的所有元素應用某個函數 55
3.17 對所有分組應用一個函數 56
3.18 連接多個數據幀 57
3.19 合并兩個數據幀 59

第4 章處理數值型數據 63
4.0 簡介 63
4.1 特征的縮放 63
4.2 特征的標準化 65
4.3 歸一化觀察值 66
4.4 生成多項式和交互特征 69
4.5 轉換特征 70
4.6 識別異常值 71
4.7 處理異常值 73
4.8 將特征離散化 75
4.9 使用聚類的方式將觀察值分組 77
4.10 刪除帶有缺失值的觀察值 79
4.11 填充缺失值 81

第5 章處理分類數據 83
5.0 簡介 83
5.1 對nominal 型分類特征編碼 84
5.2 對ordinal 分類特征編碼 86
5.3 對特征字典編碼 88
5.4 填充缺失的分類值 91
5.5 處理不均衡分類 93

第6 章處理文本 97
6.0 簡介 97
6.1 清洗文本 97
6.2 解析并清洗HTML 99
6.3 移除標點 100
6.4 文本分詞 101
6.5 刪除停止詞（stop word） 102
6.6 提取詞干 103
6.7 標注詞性 104
6.8 將文本編碼成詞袋（Bag of Words） 107
6.9 按單詞的重要性加權 109

第7 章處理日期和時間 113
7.0 簡介 113
7.1 把字符串轉換成日期 113
7.2 處理時區(qū) 115
7.3 選擇日期和時間 116
7.4 將日期數據切分成多個特征 117
7.5 計算兩個日期之間的時間差 118
7.6 對一周內的各天進行編碼 119
7.7 創(chuàng)建一個滯后的特征 120
7.8 使用滾動時間窗口 121
7.9 處理時間序列中的缺失值 123

第8 章圖像處理 127
8.0 簡介 127
8.1 加載圖像 128
8.2 保存圖像 130
8.3 調整圖像大小 131
8.4 裁剪圖像 132
8.5 平滑處理圖像 133
8.6 圖像銳化 136
8.7 提升對比度 138
8.8 顏色分離 140
8.9 圖像二值化 142
8.10 移除背景 144
8.11 邊緣檢測 148
8.12 角點檢測 150
8.13 為機器學習創(chuàng)建特征 153
8.14 將顏色平均值編碼成特征 156
8.15 將色彩直方圖編碼成特征 157

第9 章利用特征提取進行特征降維 161
9.0 簡介 161
9.1 使用主成分進行特征降維 161
9.2 對線性不可分數據進行特征降維 164
9.3 通過最大化類間可分性進行特征降維 166
9.4 使用矩陣分解法進行特征降維 169
9.5 對稀疏數據進行特征降維 170

第10 章使用特征選擇進行降維 173
10.0 簡介 173
10.1 數值型特征方差的閾值化 173
10.2 二值特征的方差閾值化 175
10.3 處理高度相關性的特征 176
10.4 刪除與分類任務不相關的特征 178
10.5 遞歸式特征消除 180

第11 章模型評估 183
11.0 簡介 183
11.1 交叉驗證模型 183
11.2 創(chuàng)建一個基準回歸模型 . 187
11.3 創(chuàng)建一個基準分類模型 188
11.4 評估二元分類器 190
11.5 評估二元分類器的閾值 193
11.6 評估多元分類器 197
11.7 分類器性能的可視化 198
11.8 評估回歸模型 201
11.9 評估聚類模型 203
11.10 創(chuàng)建自定義評估指標 204
11.11 可視化訓練集規(guī)模的影響 206
11.12 生成對評估指標的報告 208
11.13 可視化超參數值的效果 209

第12 章模型選擇 213
12.0 簡介 213
12.1 使用窮舉搜索選擇最佳模型 213
12.2 使用隨機搜索選擇最佳模型 216
12.3 從多種學習算法中選擇最佳模型 218
12.4 將數據預處理加入模型選擇過程 . 220
12.5 用并行化加速模型選擇 221
12.6 使用針對特定算法的方法加速模型選擇 223
12.7 模型選擇后的性能評估 224

第13 章線性回歸 227
13.0 簡介 227
13.1 擬合一條直線 227
13.2 處理特征之間的影響 229
13.3 擬合非線性關系 231
13.4 通過正則化減少方差 233
13.5 使用套索回歸減少特征 235

第14 章樹和森林 237
14.0 簡介 237
14.1 訓練決策樹分類器 237
14.2 訓練決策樹回歸模型 239
14.3 可視化決策樹模型 240
14.4 訓練隨機森林分類器 243
14.5 訓練隨機森林回歸模型 244
14.6 識別隨機森林中的重要特征 245
14.7 選擇隨機森林中的重要特征 248
14.8 處理不均衡的分類 249
14.9 控制決策樹的規(guī)模 250
14.10 通過boosting 提高性能 252
14.11 使用袋外誤差（Out-of-Bag Error）評估隨機森林模型 253

第15 章 KNN 255
15.0 簡介 255
15.1 找到一個觀察值的最近鄰 255
15.2 創(chuàng)建一個KNN 分類器 258
15.3 確定最佳的鄰域點集的大小 260
15.4 創(chuàng)建一個基于半徑的最近鄰分類器 261

第16 章邏輯回歸 263
16.0 簡介 263
16.1 訓練二元分類器 263
16.2 訓練多元分類器 265
16.3 通過正則化來減小方差 266
16.4 在超大數據集上訓練分類器 267
16.5 處理不均衡的分類 269

第17 章支持向量機 271
17.0 簡介 271
17.1 訓練一個線性分類器 271
17.2 使用核函數處理線性不可分的數據 274
17.3 計算預測分類的概率 278
17.4 識別支持向量 279
17.5 處理不均衡的分類 281

第18 章樸素貝葉斯 283
18.0 簡介 283
18.1 為連續(xù)的數據訓練分類器 284
18.2 為離散數據和計數數據訓練分類器 286
18.3 為具有二元特征的數據訓練樸素貝葉斯分類器 287
18.4 校準預測概率 288

第19 章聚類 291
19.0 簡介 291
19.1 使用K-Means 聚類算法 291
19.2 加速K-Means 聚類 294
19.3 使用Meanshift 聚類算法 295
19.4 使用DBSCAN 聚類算法 296
19.5 使用層次合并聚類算法 298

第20 章神經網絡 301
20.0 簡介 301
20.1 為神經網絡預處理數據 302
20.2 設計一個神經網絡 304
20.3 訓練一個二元分類器 307
20.4 訓練一個多元分類器 309
20.5 訓練一個回歸模型 311
20.6 做預測 313
20.7 可視化訓練歷史 315
20.8 通過權重調節(jié)減少過擬合 318
20.9 通過提前結束減少過擬合 320
20.10 通過Dropout 減少過擬合 322
20.11 保存模型訓練過程 324
20.12 使用k 折交叉驗證評估神經網絡 326
20.13 調校神經網絡 328
20.14 可視化神經網絡 331
20.15 圖像分類 333
20.16 通過圖像增強來改善卷積神經網絡的性能 . 337
20.17 文本分類 339

第21 章保存和加載訓練后的模型 343
21.0 簡介 343
21.1 保存和加載scikit-learn 模型 343
21.2 保存和加載Keras 模型 345