前言 ix
第 1 章 機器學習流程 1
1.1 數(shù)據(jù) 1
1.2 任務 1
1.3 模型 2
1.4 特征 3
1.5 模型評價 3
第 2 章 簡單而又奇妙的數(shù)值 4
2.1 標量、向量和空間 5
2.2 處理計數(shù) 7
2.2.1 二值化 7
2.2.2 區(qū)間量化(分箱) 9
2.3 對數(shù)變換 13
2.3.1 對數(shù)變換實戰(zhàn) 16
2.3.2 指數(shù)變換:對數(shù)變換的推廣 19
2.4 特征縮放/ 歸一化 24
2.4.1 min-max 縮放 24
2.4.2 特征標準化/ 方差縮放 24
2.4.3 2
歸一化 25
2.5 交互特征 28
2.6 特征選擇 30
2.7 小結 31
2.8 參考文獻 32
第3 章 文本數(shù)據(jù):扁平化、過濾和分塊 33
3.1 元素袋:將自然文本轉換為扁平向量 34
3.1.1 詞袋 34
3.1.2 n 元詞袋 37
3.2 使用過濾獲取清潔特征 39
3.2.1 停用詞 39
3.2.2 基于頻率的過濾 40
3.2.3 詞干提取 42
3.3 意義的單位:從單詞、n 元詞到短語 43
3.3.1 解析與分詞 43
3.3.2 通過搭配提取進行短語檢測 44
3.4 小結 50
3.5 參考文獻 51
第4 章 特征縮放的效果:從詞袋到tf-idf 52
4.1 tf-idf:詞袋的一種簡單擴展 52
4.2 tf-idf 方法測試 54
4.2.1 創(chuàng)建分類數(shù)據(jù)集 55
4.2.2 使用tf-idf 變換來縮放詞袋 56
4.2.3 使用邏輯回歸進行分類 57
4.2.4 使用正則化對邏輯回歸進行調優(yōu) 58
4.3 深入研究:發(fā)生了什么 62
4.4 小結 64
4.5 參考文獻 64
第5 章 分類變量:自動化時代的數(shù)據(jù)計數(shù) 65
5.1 分類變量的編碼 66
5.1.1 one-hot 編碼 66
5.1.2 虛擬編碼 66
5.1.3 效果編碼 69
5.1.4 各種分類變量編碼的優(yōu)缺點 70
5.2 處理大型分類變量 70
5.2.1 特征散列化 71
5.2.2 分箱計數(shù) 73
5.3 小結 79
5.4 參考文獻 80
第6 章 數(shù)據(jù)降維:使用PCA 擠壓數(shù)據(jù) 82
6.1 直觀理解 82
6.2 數(shù)學推導 84
6.2.1 線性投影 84
6.2.2 方差和經驗方差 85
6.2.3 主成分:第 一種表示形式 86
6.2.4 主成分:矩陣- 向量表示形式 86
6.2.5 主成分的通用解 86
6.2.6 特征轉換 87
6.2.7 PCA 實現(xiàn) 87
6.3 PCA 實戰(zhàn) 88
6.4 白化與ZCA 89
6.5 PCA 的局限性與注意事項 90
6.6 用例 91
6.7 小結 93
6.8 參考文獻 93
第7 章 非線性特征化與k-均值模型堆疊 94
7.1 k-均值聚類 95
7.2 使用聚類進行曲面拼接 97
7.3 用于分類問題的k-均值特征化 100
7.4 優(yōu)點、缺點以及陷阱 105
7.5 小結 107
7.6 參考文獻 107
第8 章 自動特征生成:圖像特征提取和深度學習 108
8.1 最簡單的圖像特征(以及它們因何失效) 109
8.2 人工特征提取:SIFT 和HOG 110
8.2.1 圖像梯度 110
8.2.2 梯度方向直方圖 113
8.2.3 SIFT 體系 116
8.3 通過深度神經網絡學習圖像特征 117
8.3.1 全連接層 117
8.3.2 卷積層 118
8.3.3 ReLU 變換 122
8.3.4 響應歸一化層 123
8.3.5 池化層 124
8.3.6 AlexNet 的結構 124
8.4 小結 127
8.5 參考文獻 128
第9 章 回到特征:建立學術論文推薦器 129
9.1 基于項目的協(xié)同過濾 129
9.2 第 一關:數(shù)據(jù)導入、清理和特征解析 130
9.3 第二關:更多特征工程和更智能的模型 136
9.4 第三關:更多特征= 更多信息 141
9.5 小結 144
9.6 參考文獻 144
附錄A 線性建模與線性代數(shù)基礎 145
A.1 線性分類概述 145
A.2 矩陣的解析 147
A.2.1 從向量到子空間 148
A.2.2 奇異值分解(SVD) 150
A.2.3 數(shù)據(jù)矩陣的四個基本子空間 151
A.3 線性系統(tǒng)求解 153
A.4 參考文獻 155
作者簡介 156
封面簡介 156