目錄
前言
第一部分 什 么 是 數 據 科 學?
第 1 章 數據科學概論· 2
1.1 人工智能定義 3
1.1.1 數據科學的定義 3
1.1.2 數據科學的影響 4
1.1.3 數據科學的局限 4
1.2 機器學習導論 5
1.2.1 機器學習模型提供的決策和洞見· 5
1.2.2 機器學習模型需要的數據 6
1.2.3 機器學習的起源 7
1.2.4 機器學習剖析 7
1.2.5 機器學習可解決的任務類型 8
1.3 深度學習導論 · 11
1.3.1 自然語言理解應用· 12
1.3.2 探究計算機視覺 13
1.4 深度學習用例 · 16
1.5 因果推理導論 · 16
1.6 本章小結 · 19
第 2 章 機器學習模型測試 20
2.1 離線模型測試 · 20
2.1.1 模型誤差 20
2.1.2 誤差分解 21
2.1.3 技術度量指標 26
2.1.4 業(yè)務度量指標 32
2.2 在線模型測試 · 322.2.1 在線測試的意義 · 32
2.2.2 在線數據測試· 36
2.3 本章小結 36
第 3 章 人工智能基礎 37
3.1 理解數學優(yōu)化 37
3.2 理解統(tǒng)計學 41
3.2.1 頻率學派的概率 · 42
3.2.2 條件概率 42
3.2.3 關于概率的貝葉斯觀點 · 44
3.2.4 分布 44
3.2.5 利用數據樣本計算統(tǒng)計量 · 45
3.2.6 統(tǒng)計建模 46
3.3 機器如何學習 48
3.4 探究機器學習 52
3.4.1 機器學習簡介· 52
3.4.2 線性模型 53
3.4.3 分類與回歸樹· 53
3.4.4 集成模型 54
3.4.5 聚類模型 56
3.5 探究深度學習 58
3.5.1 建立神經網絡· 61
3.5.2 計算機視覺應用 · 62
3.5.3 自然語言處理應用 · 64
3.6 本章小結 69
第二部分 項目團隊的組建與維持
第 4 章 理想的數據科學團隊 71
4.1 數據科學團隊的角色 71
4.2 探究數據科學團隊的角色及其職責 74
4.2.1 案例 1:應用機器學習防止銀行詐騙 74
4.2.2 案例 2:機器學習在零售公司的應用 75
4.2.3 數據科學家的關鍵技能 · 774.2.4 數據工程師的關鍵技能 · 78
4.2.5 數據科學項目經理的關鍵技能 · 79
4.2.6 開發(fā)團隊的支持 80
4.3 本章小結 · 80
第 5 章 數據科學團隊招聘面試 81
5.1 技術招聘面試的通病 · 81
5.1.1 發(fā)現不需要的候選者· 82
5.1.2 明確面試目的 84
5.2 將價值和倫理引入面試 · 85
5.3 面試設計 · 86
5.3.1 設計測試作業(yè) 87
5.3.2 不同數據科學角色的面試 · 90
5.4 本章小結 · 92
第 6 章 組建數據科學團隊 93
6.1 鑄就團隊靈魂( Zen,禪) 93
6.2 領導力和人員管理 · 96
6.2.1 以身作則 96
6.2.2 發(fā)揮情境領導力( situational leadership) 97
6.2.3 明確任務 99
6.2.4 感情移入( empathy,共情) 100
6.3 培養(yǎng)成長型思維 101
6.3.1 團隊整體的成長 101
6.3.2 面向個體成長的持續(xù)學習 102
6.3.3 提供更多的學習機會 103
6.3.4 利用績效評價幫助員工成長 104
6.4 案例:創(chuàng)建數據科學部門 106
6.5 本章小結 108
第三部分 數據科學項目的管理
第 7 章 創(chuàng)新管理· 110
7.1 理解創(chuàng)新 110
7.2 大型組織為何屢屢失??? 1117.2.1 市場的游戲規(guī)則 111
7.2.2 開拓新市場 112
7.3 探究創(chuàng)新管理 112
7.3.1 案例: MedVision 的創(chuàng)新周期· 114
7.3.2 集成創(chuàng)新 · 116
7.4 銷售、營銷、團隊領導方式以及技術 117
7.5 大公司的創(chuàng)新管理 119
7.5.1 大公司的創(chuàng)新管理簡介 119
7.5.2 案例:零售業(yè)務的數據科學項目 120
7.6 初創(chuàng)公司的創(chuàng)新管理 121
7.7 發(fā)現項目想法 122
7.7.1 從業(yè)務發(fā)現想法 122
7.7.2 從數據發(fā)現想法 123
7.8 本章小結 127
第 8 章 管理數據科學項目 128
8.1 理解數據科學項目的失敗 128
8.1.1 數據科學項目失敗的常見原因 128
8.1.2 數據科學管理方法 129
8.2 探究數據科學項目全生命周期 130
8.2.1 業(yè)務理解 · 130
8.2.2 數據理解 · 130
8.2.3 數據準備 · 131
8.2.4 建模 · 132
8.2.5 評價 · 133
8.2.6 部署 · 133
8.3 項目管理方法論的選擇 134
8.3.1 瀑布式管理 134
8.3.2 敏捷 · 135
8.3.3 Kanban · 135
8.3.4 Scrum 137
8.4 選擇適合項目的方法論 139
8.4.1 開展顛覆性創(chuàng)新 139
8.4.2 準備測試過的解決方案 1398.4.3 為客戶量身定制項目 139
8.5 估測數據科學項目 140
8.5.1 數據科學項目估測簡介 140
8.5.2 學會估測時間和成本 141
8.6 明確估測過程的目標 144
8.7 本章小結 144
第 9 章 數據科學項目的常見陷阱· 145
9.1 規(guī)避數據科學項目的常見風險 145
9.2 推進研究項目 146
9.3 實施原型和最簡可行產品項目 147
9.3.1 原型和最簡可行產品開發(fā)簡介 147
9.3.2 案例:咨詢公司的最簡可行產品· 148
9.4 應對實用型數據科學系統(tǒng)的風險 149
9.4.1 實用型數據科學系統(tǒng)風險及其解決方法 · 149
9.4.2 案例:將銷售預測系統(tǒng)投入應用· 151
9.5 本章小結 152
第 10 章 創(chuàng)造產品與提升可重用性 153
10.1 產品思維 153
10.2 確定項目所處階段 154
10.2.1 項目類型和所處階段的劃分 154
10.2.2 案例:服務平臺調度系統(tǒng)的開發(fā) 155
10.3 提高可重用性 156
10.4 尋找和開發(fā)產品 157
10.4.1 尋找和開發(fā)產品簡介 · 157
10.4.2 隱私問題· 158
10.5 本章小結 158
第四部分 開發(fā)基礎環(huán)境的構建
第 11 章 實施 ModelOps· 160
11.1 認識 ModelOps 160
11.2 了解 DevOps 161
11.2.1 數據科學項目基礎系統(tǒng)的特殊需求 16111.2.2 數據科學交付流程· 162
11.3 管理代碼版本和質量 · 163
11.4 存儲數據和代碼 · 164
11.4.1 數據跟蹤與版本化· 165
11.4.2 實際的數據存儲· 165
11.5 管理環(huán)境 · 167
11.6 追蹤實驗 · 168
11.7 自動測試的重要性 · 170
11.8 代碼打包 · 171
11.9 模型的持續(xù)訓練 · 172
11.10 案例:開發(fā)預測維護系統(tǒng)的 ModelOps · 173
11.11 項目的動力源 177
11.12 本章小結 179
第 12 章 建立技術棧 180
12.1 定義技術棧的要素 · 180
12.2 核心技術與項目專用技術的選擇 · 183
12.3 比較工具與產品 · 184
12.3.1 如何比較不同的工具與產品 · 184
12.3.2 案例:物流公司的需求預測 · 185
12.4 本章小結 · 187
第 13 章 結論 188
13.1 增進知識 · 189
13.2 本章小結