注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能Spark和Python機(jī)器學(xué)習(xí)實(shí)戰(zhàn):預(yù)測(cè)分析核心方法(第2版)

Spark和Python機(jī)器學(xué)習(xí)實(shí)戰(zhàn):預(yù)測(cè)分析核心方法(第2版)

Spark和Python機(jī)器學(xué)習(xí)實(shí)戰(zhàn):預(yù)測(cè)分析核心方法(第2版)

定 價(jià):¥99.90

作 者: (美)邁克爾·鮑爾斯(Michael Bowles)
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787115583819 出版時(shí)間: 2022-03-01 包裝:
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 314 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)著重介紹可以有效預(yù)測(cè)結(jié)果的兩類(lèi)核心算法,包括懲罰線性回歸方法和集成方法,然后通過(guò)一系列的示例細(xì)節(jié)來(lái)展示針對(duì)不同的問(wèn)題如何使用這些方法。全書(shū)分為7章,主要講述算法的選擇、構(gòu)建預(yù)測(cè)模型時(shí)的要點(diǎn)等內(nèi)容,并且結(jié)合Spark和Python技術(shù),引入巖石與水雷、鮑魚(yú)年齡問(wèn)題、紅酒口感、玻璃分類(lèi)等經(jīng)典數(shù)據(jù)集,將機(jī)器學(xué)習(xí)應(yīng)用到數(shù)據(jù)預(yù)測(cè)分析中,幫助讀者全面系統(tǒng)地掌握利用機(jī)器學(xué)習(xí)進(jìn)行預(yù)測(cè)分析的基本過(guò)程,并將其應(yīng)用到實(shí)際項(xiàng)目中。

作者簡(jiǎn)介

  邁克爾.鮑爾斯(Michael Bowles)在加利福尼亞大學(xué)伯克利分校、紐黑文大學(xué)和硅谷的黑客道場(chǎng)教授機(jī)器學(xué)習(xí),為機(jī)器學(xué)習(xí)項(xiàng)目提供咨詢,還參與了半導(dǎo)體檢測(cè)、藥品設(shè)計(jì)、金融市場(chǎng)交易與優(yōu)化等領(lǐng)域許多創(chuàng)業(yè)公司的創(chuàng)辦。他在麻省理工學(xué)院獲得助理教授職位之后,創(chuàng)辦并經(jīng)營(yíng)了兩家硅谷的創(chuàng)業(yè)公司,目前這兩家公司已上市。

圖書(shū)目錄

目錄
第 1章 做預(yù)測(cè)的兩類(lèi)核心算法 1
1.1 為什么這兩類(lèi)算法如此有用 1
1.2 什么是懲罰線性回歸方法 5
1.3 什么是集成方法 7
1.4 算法的選擇 8
1.5 構(gòu)建預(yù)測(cè)模型的步驟 10
1.5.1 構(gòu)造一個(gè)機(jī)器學(xué)習(xí)問(wèn)題 12
1.5.2 特征提取和特征工程 13
1.5.3 確定訓(xùn)練好的模型的性能 14
1.6 各章內(nèi)容及其依賴關(guān)系 14
1.7 小結(jié) 16
第 2章 通過(guò)理解數(shù)據(jù)來(lái)了解問(wèn)題 17
2.1 剖析一個(gè)新問(wèn)題 17
2.1.1 屬性和標(biāo)簽的不同類(lèi)型決定模型的選擇 19
2.1.2 新數(shù)據(jù)集的注意事項(xiàng) 20
2.2 分類(lèi)問(wèn)題:用聲吶發(fā)現(xiàn)未爆炸的水雷 21
2.2.1 巖石與水雷數(shù)據(jù)集的物理特性 21
2.2.2 巖石與水雷數(shù)據(jù)集的統(tǒng)計(jì)概要 24
2.2.3 用分位數(shù)圖展示異常點(diǎn) 26
2.2.4 類(lèi)別屬性的統(tǒng)計(jì)特征 28
2.2.5 用Python pandas對(duì)巖石與水雷數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析 28
2.3 對(duì)巖石與水雷數(shù)據(jù)集屬性進(jìn)行可視化 31
2.3.1 用平行坐標(biāo)圖進(jìn)行可視化 31
2.3.2 對(duì)屬性和標(biāo)簽間關(guān)系進(jìn)行可視化 33
2.3.3 用熱圖對(duì)屬性和標(biāo)簽的相關(guān)性進(jìn)行可視化 40
2.3.4 對(duì)巖石與水雷數(shù)據(jù)集探究過(guò)程的小結(jié) 41
2.4 以因素變量進(jìn)行實(shí)數(shù)值預(yù)測(cè):鮑魚(yú)的年齡 41
2.4.1 回歸問(wèn)題的平行坐標(biāo)圖——鮑魚(yú)年齡問(wèn)題的屬性關(guān)系可視化 47
2.4.2 將相關(guān)性熱圖用于回歸問(wèn)題——鮑魚(yú)年齡問(wèn)題的屬性對(duì)相關(guān)性的可視化 50
2.5 用實(shí)數(shù)值屬性進(jìn)行實(shí)數(shù)值預(yù)測(cè):評(píng)估紅酒口感 52
2.6 多類(lèi)別分類(lèi)問(wèn)題:玻璃分類(lèi) 59
2.7 用PySpark理解大規(guī)模數(shù)據(jù)集 63
2.8 小結(jié) 67
第3章 構(gòu)建預(yù)測(cè)模型:平衡性能、復(fù)雜度和大數(shù)據(jù) 69
3.1 基本問(wèn)題:理解函數(shù)逼近 69
3.1.1 使用訓(xùn)練數(shù)據(jù) 70
3.1.2 評(píng)估預(yù)測(cè)模型的性能 72
3.2 影響算法選擇及性能的因素——復(fù)雜度及數(shù)據(jù) 72
3.2.1 簡(jiǎn)單問(wèn)題和復(fù)雜問(wèn)題的比較 73
3.2.2 簡(jiǎn)單模型和復(fù)雜模型的比較 75
3.2.3 影響預(yù)測(cè)算法性能的因素 79
3.2.4 選擇算法:線性或者非線性 79
3.3 評(píng)測(cè)預(yù)測(cè)模型的性能 80
3.3.1 不同類(lèi)型問(wèn)題的性能評(píng)測(cè) 80
3.3.2 模擬部署后模型的性能 94
3.4 模型與數(shù)據(jù)的均衡 95
3.4.1 通過(guò)權(quán)衡問(wèn)題復(fù)雜度、模型復(fù)雜度和數(shù)據(jù)集規(guī)模來(lái)選擇模型 96
3.4.2 使用前向逐步回歸來(lái)控制過(guò)擬合 97
3.4.3 評(píng)估并理解預(yù)測(cè)模型 102
3.4.4 通過(guò)懲罰回歸系數(shù)來(lái)控制過(guò)擬合——嶺回歸 104
3.5 在超大規(guī)模數(shù)據(jù)集上用PySpark訓(xùn)練懲罰回歸模型 113
3.6 小結(jié) 116
第4章 懲罰線性回歸 117
4.1 為什么懲罰線性回歸方法如此有用 117
4.1.1 模型訓(xùn)練足夠快 118
4.1.2 有變量的重要性信息 118
4.1.3 部署時(shí)評(píng)估足夠快 118
4.1.4 性能可靠 118
4.1.5 稀疏解 119
4.1.6 問(wèn)題可能需要線性模型 119
4.1.7 使用集成方法的時(shí)機(jī) 119
4.2 懲罰線性回歸:對(duì)線性回歸進(jìn)行正則化以獲得最優(yōu)性能 119
訓(xùn)練線性模型:最小化誤差等 121
4.3 求解懲罰線性回歸問(wèn)題 126
4.3.1 理解最小角度回歸及其與前向步進(jìn)回歸的關(guān)系 126
4.3.2 使用Glmnet:快速且通用 136
4.4 將線性回歸擴(kuò)展到分類(lèi)問(wèn)題 141
4.4.1 用懲罰回歸求解分類(lèi)問(wèn)題 141
4.4.2 多類(lèi)別分類(lèi)問(wèn)題的求解 145
4.4.3 理解基擴(kuò)展:用線性方法求解非線性問(wèn)題 145
4.4.4 將非數(shù)值屬性引入線性方法 147
4.5 小結(jié) 150
第5章 用懲罰線性回歸方法構(gòu)建預(yù)測(cè)模型 153
5.1 懲罰線性回歸的Python包 153
5.2 多變量回歸:預(yù)測(cè)紅酒口感 154
5.2.1 構(gòu)建并測(cè)試預(yù)測(cè)紅酒口感的模型 155
5.2.2 部署前在整個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練 158
5.3 二元分類(lèi):用懲罰線性回歸探測(cè)未爆炸水雷 165
5.4 多類(lèi)別分類(lèi):犯罪現(xiàn)場(chǎng)玻璃樣本分類(lèi) 184
5.5 用PySpark實(shí)現(xiàn)線性回歸和分類(lèi) 187
5.6 用PySpark預(yù)測(cè)紅酒口感 188
5.7 用PySpark實(shí)現(xiàn)邏輯斯蒂回歸:巖石與水雷 193
5.8 將類(lèi)別變量引入PySpark模型:預(yù)測(cè)鮑魚(yú)年齡 198
5.9 具有元參數(shù)優(yōu)化的多類(lèi)別邏輯斯蒂回歸 202
5.10 小結(jié) 205
第6章 集成方法 207
6.1 二元決策樹(shù) 207
6.1.1 如何用二元決策樹(shù)進(jìn)行預(yù)測(cè) 210
6.1.2 如何訓(xùn)練二元決策樹(shù) 210
6.1.3 決策樹(shù)的訓(xùn)練等同于分割點(diǎn)的選擇 213
6.1.4 二元決策樹(shù)的過(guò)擬合 217
6.1.5 針對(duì)分類(lèi)問(wèn)題和類(lèi)別特征所做的修改 220
6.2 自舉匯聚:投票法 221
6.2.1 投票法如何工作 221
6.2.2 投票法小結(jié) 232
6.3 梯度提升法 232
6.3.1 梯度提升法的基本原理 232
6.3.2 獲取梯度提升法的最佳性能 236
6.3.3 針對(duì)多變量問(wèn)題的梯度提升法 239
6.3.4 梯度提升法小結(jié) 243
6.4 隨機(jī)森林法 243
6.4.1 隨機(jī)森林法:投票法加隨機(jī)屬性子集 246
6.4.2 影響隨機(jī)森林法性能的因素 246
6.4.3 隨機(jī)森林法小結(jié) 248
6.5 小結(jié) 248
第7章 用Python構(gòu)建集成模型 251
7.1 用Python集成方法包求解回歸問(wèn)題 251
7.1.1 用梯度提升法預(yù)測(cè)紅酒口感 251
7.1.2 構(gòu)建隨機(jī)森林模型預(yù)測(cè)紅酒口感 257
7.2 將非數(shù)值屬性引入Python集成模型 265
7.2.1 用Python將鮑魚(yú)性別屬性編碼引入梯度提升法 265
7.2.2 用梯度提升法評(píng)估性能和編碼變量的重要性 267
7.2.3 用Python將鮑魚(yú)性別屬性編碼引入隨機(jī)森林回歸 269
7.2.4 評(píng)估性能和編碼變量的重要性 272
7.3 用Python集成方法求解二元分類(lèi)問(wèn)題 273
7.3.1 用Python梯度提升法探測(cè)未爆炸水雷 273
7.3.2 測(cè)定梯度提升分類(lèi)器的性能 276
7.3.3 用Python隨機(jī)森林法探測(cè)未爆炸水雷 278
7.3.4 構(gòu)建隨機(jī)森林模型探測(cè)未爆炸水雷 279
7.3.5 測(cè)定隨機(jī)森林分類(lèi)器的性能 283
7.4 用Python集成方法求解多類(lèi)別分類(lèi)問(wèn)題 285
7.4.1 處理類(lèi)別不均衡問(wèn)題 286
7.4.2 用梯度提升法對(duì)玻璃進(jìn)行分類(lèi) 286
7.4.3 測(cè)定梯度提升模型在玻璃分類(lèi)問(wèn)題上的性能 291
7.4.4 用隨機(jī)森林法對(duì)玻璃進(jìn)行分類(lèi) 292
7.4.5 測(cè)定隨機(jī)森林模型在玻璃分類(lèi)問(wèn)題上的性能 296
7.5 用PySpark集成方法包求解回歸問(wèn)題 297
7.5.1 用PySpark集成方法預(yù)測(cè)紅酒口感 298
7.5.2 用PySpark集成方法預(yù)測(cè)鮑魚(yú)年齡 303
7.5.3 用PySpark集成方法區(qū)分巖石與水雷 308
7.5.4 用PySpark集成方法識(shí)別玻璃類(lèi)型 312
7.6 小結(jié) 314

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)