注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(分析篇)

Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(分析篇)

Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(分析篇)

定 價(jià):¥59.80

作 者: 楊秀璋,顏娜 著
出版社: 北京航空航天大學(xué)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787512427136 出版時(shí)間: 2018-06-01 包裝: 平裝
開本: 小全開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  Python網(wǎng)絡(luò)數(shù)據(jù)爬取及分析從入門到精通(分析篇) 本書采用通俗易懂的語言、豐富多彩的實(shí)例,詳細(xì)介紹了使用Python語言進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)分析的知識(shí),主要內(nèi)容包括Python數(shù)據(jù)分析常用庫、可視化分析、回歸分析、聚類分析、分類分析、關(guān)聯(lián)規(guī)則挖掘分析、數(shù)據(jù)預(yù)處理及文本聚類、詞云熱點(diǎn)與主題分布分析、復(fù)雜網(wǎng)絡(luò)與基于數(shù)據(jù)庫技術(shù)的分析等。 書中所有知識(shí)點(diǎn)都結(jié)合了具體的實(shí)例進(jìn)行介紹,涉及的實(shí)例都給出了詳細(xì)分析流程,程序代碼都給出了具體的注釋,采用圖文結(jié)合的形式講解,讓讀者能更加輕松地領(lǐng)會(huì)Python網(wǎng)絡(luò)數(shù)據(jù)分析的精髓,快速提高自己的開發(fā)能力。 本書既可作為Python開發(fā)入門者的自學(xué)用書,也可作為高等院校數(shù)據(jù)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、大數(shù)據(jù)等相關(guān)專業(yè)的教學(xué)參考書或?qū)嶒?yàn)指導(dǎo)書,還可供Python數(shù)據(jù)分析人員查閱、參考。

作者簡(jiǎn)介

  楊秀璋,畢業(yè)于北京理工大學(xué)軟件學(xué)院,長(zhǎng)期從事Web數(shù)據(jù)挖掘、Python數(shù)據(jù)分析、網(wǎng)絡(luò)數(shù)據(jù)爬取工作及研究。他現(xiàn)任教于貴州財(cái)經(jīng)大學(xué)信息學(xué)院,主講“數(shù)據(jù)挖掘與分析”“大數(shù)據(jù)技術(shù)及應(yīng)用”課程,并從事大數(shù)據(jù)分析、數(shù)據(jù)挖掘、知識(shí)圖譜等領(lǐng)域的項(xiàng)目研究與開發(fā);有多年的Python編程、數(shù)據(jù)分析及知識(shí)圖譜研究經(jīng)驗(yàn),實(shí)戰(zhàn)經(jīng)驗(yàn)較為豐富。 此外,他還積極分享編程知識(shí)和開源代碼編寫經(jīng)驗(yàn),先后在CSDN、博客園、阿里云棲社區(qū)撰寫博客,僅在CSDN就分享了300多篇原創(chuàng)文章,開設(shè)了11個(gè)專欄,累計(jì)閱讀量超過250萬人次。

圖書目錄

第1章 網(wǎng)絡(luò)數(shù)據(jù)分析概述…………………………………………………………… 1
1.1 數(shù)據(jù)分析 ……………………………………………………………………… 1
1.2 相關(guān)技術(shù) ……………………………………………………………………… 3
1.3 Anaconda開發(fā)環(huán)境…………………………………………………………… 5
1.4 常用數(shù)據(jù)集 …………………………………………………………………… 9
1.4.1 Sklearn數(shù)據(jù)集…………………………………………………………… 9
1.4.2 UCI數(shù)據(jù)集 …………………………………………………………… 10
1.4.3 自定義爬蟲數(shù)據(jù)集……………………………………………………… 11
1.4.4 其他數(shù)據(jù)集……………………………………………………………… 12
1.5 本章小結(jié)……………………………………………………………………… 13
參考文獻(xiàn) …………………………………………………………………………… 14
第2章 Python數(shù)據(jù)分析常用庫 …………………………………………………… 15
2.1 常用庫………………………………………………………………………… 15
2.2 NumPy ……………………………………………………………………… 17
2.2.1 Array用法 ……………………………………………………………… 17
2.2.2 二維數(shù)組操作…………………………………………………………… 19
2.3 Pandas ……………………………………………………………………… 21
2.3.1 讀/寫文件 ……………………………………………………………… 22
2.3.2 Series…………………………………………………………………… 24
2.3.3 DataFrame……………………………………………………………… 26
2.4 Matplotlib …………………………………………………………………… 26
2.4.1 基礎(chǔ)用法………………………………………………………………… 27
2.4.2 繪圖簡(jiǎn)單示例…………………………………………………………… 28
2.5 Sklearn ……………………………………………………………………… 31
2.6 本章小結(jié)……………………………………………………………………… 32
參考文獻(xiàn) …………………………………………………………………………… 32
第3章 Python可視化分析 ………………………………………………………… 33
3.1 Matplotlib可視化分析 ……………………………………………………… 33
3.1.1 繪制曲線圖……………………………………………………………… 33
3.1.2 繪制散點(diǎn)圖……………………………………………………………… 37
3.1.3 繪制柱狀圖……………………………………………………………… 40
3.1.4 繪制餅狀圖……………………………………………………………… 42
3.1.5 繪制3D圖形 …………………………………………………………… 43
3.2 Pandas讀取文件可視化分析 ……………………………………………… 45
3.2.1 繪制折線對(duì)比圖………………………………………………………… 45
3.2.2 繪制柱狀圖和直方圖…………………………………………………… 48
3.2.3 繪制箱圖………………………………………………………………… 51
3.3 ECharts可視化技術(shù)初識(shí) …………………………………………………… 53
3.4 本章小結(jié)……………………………………………………………………… 57
參考文獻(xiàn) …………………………………………………………………………… 57
第4章 Python回歸分析 …………………………………………………………… 58
4.1 回 歸………………………………………………………………………… 58
4.1.1 什么是回歸……………………………………………………………… 58
4.1.2 線性回歸………………………………………………………………… 59
4.2 線性回歸分析………………………………………………………………… 60
4.2.1 LinearRegression ……………………………………………………… 61
4.2.2 線性回歸預(yù)測(cè)糖尿病…………………………………………………… 63
4.3 多項(xiàng)式回歸分析……………………………………………………………… 68
4.3.1 基礎(chǔ)概念………………………………………………………………… 68
4.3.2 PolynomialFeatures …………………………………………………… 69
4.3.3 多項(xiàng)式回歸預(yù)測(cè)成本和利潤(rùn)…………………………………………… 70
4.4 邏輯回歸分析………………………………………………………………… 73
4.4.1 LogisticRegression …………………………………………………… 75
4.4.2 鳶尾花數(shù)據(jù)集回歸分析實(shí)例…………………………………………… 75
4.5 本章小結(jié)……………………………………………………………………… 83
參考文獻(xiàn) …………………………………………………………………………… 83
第5章 Python聚類分析 …………………………………………………………… 85
5.1 聚 類………………………………………………………………………… 85
5.1.1 算法模型………………………………………………………………… 85
5.1.2 常見聚類算法…………………………………………………………… 86
5.1.3 性能評(píng)估………………………………………………………………… 88
5.2 K-Means …………………………………………………………………… 90
5.2.1 算法描述………………………………………………………………… 90
5.2.2 用K-Means分析籃球數(shù)據(jù) …………………………………………… 96
5.2.3 K-Means聚類優(yōu)化 …………………………………………………… 99
5.2.4 設(shè)置類簇中心 ………………………………………………………… 103
5.3 BIRCH ……………………………………………………………………… 105
5.3.1 算法描述 ……………………………………………………………… 105
5.3.2 用BIRCH 分析氧化物數(shù)據(jù) ………………………………………… 106
5.4 降維處理 …………………………………………………………………… 110
5.4.1 PCA降維 ……………………………………………………………… 111
5.4.2 Sklearn PCA降維 …………………………………………………… 111
5.4.3 PCA降維實(shí)例 ………………………………………………………… 113
5.5 本章小結(jié) …………………………………………………………………… 117
參考文獻(xiàn)…………………………………………………………………………… 118
第6章 Python分類分析 ………………………………………………………… 119
6.1 分 類 ……………………………………………………………………… 119
6.1.1 分類模型 ……………………………………………………………… 119
6.1.2 常見分類算法 ………………………………………………………… 120
6.1.3 回歸、聚類和分類的區(qū)別……………………………………………… 122
6.1.4 性能評(píng)估 ……………………………………………………………… 123
6.2 決策樹 ……………………………………………………………………… 123
6.2.1 算法實(shí)例描述 ………………………………………………………… 123
6.2.2 DTC算法 ……………………………………………………………… 125
6.2.3 用決策樹分析鳶尾花 ………………………………………………… 126
6.2.4 數(shù)據(jù)集劃分及分類評(píng)估 ……………………………………………… 128
6.2.5 區(qū)域劃分對(duì)比 ………………………………………………………… 132
6.3 KNN分類算法 …………………………………………………………… 136
6.3.1 算法實(shí)例描述 ………………………………………………………… 136
6.3.2 KNeighborsClassifier………………………………………………… 138
6.3.3 用KNN分類算法分析紅酒類型 …………………………………… 139
6.4 SVM 分類算法……………………………………………………………… 147
6.4.1 SVM 分類算法的基礎(chǔ)知識(shí)…………………………………………… 147
6.4.2 用SVM 分類算法分析紅酒數(shù)據(jù) …………………………………… 148
6.4.3 用優(yōu)化SVM 分類算法分析紅酒數(shù)據(jù)集 …………………………… 151
6.5 本章小結(jié) …………………………………………………………………… 154
參考文獻(xiàn)…………………………………………………………………………… 154
第7章 Python關(guān)聯(lián)規(guī)則挖掘分析 ……………………………………………… 156
7.1 基本概念 …………………………………………………………………… 156
7.1.1 關(guān)聯(lián)規(guī)則 ……………………………………………………………… 156
7.1.2 置信度與支持度 ……………………………………………………… 157
7.1.3 頻繁項(xiàng)集 ……………………………………………………………… 158
7.2 Apriori算法………………………………………………………………… 159
7.3 Apriori算法的實(shí)現(xiàn)………………………………………………………… 163
7.4 本章小結(jié) …………………………………………………………………… 167
參考文獻(xiàn)…………………………………………………………………………… 167
第8章 Python數(shù)據(jù)預(yù)處理及文本聚類 ………………………………………… 168
8.1 數(shù)據(jù)預(yù)處理概述 …………………………………………………………… 168
8.2 中文分詞 …………………………………………………………………… 170
8.2.1 中文分詞技術(shù) ………………………………………………………… 170
8.2.2 Jieba中文分詞工具…………………………………………………… 171
8.3 數(shù)據(jù)清洗 …………………………………………………………………… 175
8.3.1 概 述 ………………………………………………………………… 175
8.3.2 中文語料清洗 ………………………………………………………… 176
8.4 特征提取及向量空間模型 ………………………………………………… 179
8.4.1 特征規(guī)約 ……………………………………………………………… 179
8.4.2 向量空間模型 ………………………………………………………… 181
8.4.3 余弦相似度計(jì)算 ……………………………………………………… 182
8.5 權(quán)重計(jì)算 …………………………………………………………………… 184
8.5.1 常用權(quán)重計(jì)算方法 …………………………………………………… 184
8.5.2 TF-IDF ……………………………………………………………… 185
8.5.3 用Sklearn計(jì)算TF-IDF …………………………………………… 186
8.6 文本聚類 …………………………………………………………………… 188
8.7 本章小結(jié) …………………………………………………………………… 192
參考文獻(xiàn)…………………………………………………………………………… 192
第9章 Python詞云熱點(diǎn)與主題分布分析 ……………………………………… 193
9.1 詞 云 ……………………………………………………………………… 193
9.2 WordCloud的安裝及基本用法 …………………………………………… 194
9.2.1 WordCloud的安裝 …………………………………………………… 194
9.2.2 WordCloud的基本用法 ……………………………………………… 195
9.3 LDA ………………………………………………………………………… 203
9.3.1 LDA的安裝過程……………………………………………………… 203
9.3.2 LDA的基本用法及實(shí)例……………………………………………… 204
9.4 本章小結(jié) …………………………………………………………………… 214
參考文獻(xiàn)…………………………………………………………………………… 214
第10章 復(fù)雜網(wǎng)絡(luò)與基于數(shù)據(jù)庫技術(shù)的分析 …………………………………… 215
10.1 復(fù)雜網(wǎng)絡(luò)…………………………………………………………………… 215
10.1.1 復(fù)雜網(wǎng)絡(luò)和知識(shí)圖譜………………………………………………… 215
10.1.2 NetworkX …………………………………………………………… 217
10.1.3 用復(fù)雜網(wǎng)絡(luò)分析學(xué)生關(guān)系網(wǎng)………………………………………… 219
10.2 基于數(shù)據(jù)庫技術(shù)的數(shù)據(jù)分析……………………………………………… 224
10.2.1 數(shù)據(jù)準(zhǔn)備……………………………………………………………… 224
10.2.2 基于數(shù)據(jù)庫技術(shù)的可視化分析……………………………………… 225
10.2.3 基于數(shù)據(jù)庫技術(shù)的可視化對(duì)比……………………………………… 232
10.3 基于數(shù)據(jù)庫技術(shù)的博客行為分析………………………………………… 234
10.3.1 冪率分布……………………………………………………………… 234
10.3.2 用冪率分布分析博客數(shù)據(jù)集………………………………………… 235
10.4 本章小結(jié)…………………………………………………………………… 245
參考文獻(xiàn)…………………………………………………………………………… 245
本套后記……………………………………………………………………………… 246
致 謝………………………………………………………………………………… 248

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)