注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡軟件與程序設計Python網絡數(shù)據(jù)爬取及分析從入門到精通(爬取篇)

Python網絡數(shù)據(jù)爬取及分析從入門到精通(爬取篇)

Python網絡數(shù)據(jù)爬取及分析從入門到精通(爬取篇)

定 價:¥59.80

作 者: 楊秀璋,顏娜 著
出版社: 北京航空航天大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787512427129 出版時間: 2018-06-01 包裝: 平裝
開本: 小全開 頁數(shù): 字數(shù):  

內容簡介

  Python網絡數(shù)據(jù)爬取及分析從入門到精通(爬取篇) 本書采用通俗易懂的語言、豐富多彩的實例,詳細介紹了使用Python語言進行網絡數(shù)據(jù)爬取的知識,主要內容包括Python語法、正則表達式、BeautifulSoup技術、Selenium技術、Scrapy框架、數(shù)據(jù)庫存儲等,同時詳細介紹了爬取網站和博客內容、電影數(shù)據(jù)信息、招聘信息、在線百科知識、微博內容、農產品信息等實例。 書中所有知識點都結合經典實例進行介紹,涉及的實例都給出了詳細的分析流程,程序代碼都給出了具體的注釋,同時采用圖文結合的形式講解,讓讀者能更加輕松地領會Python網絡數(shù)據(jù)爬蟲的精髓,并快速提高自己的開發(fā)能力。 本書即可作為Python開發(fā)入門者的自學用書,也可作為高等院校數(shù)據(jù)爬取、數(shù)據(jù)分析、數(shù)據(jù)挖掘、大數(shù)據(jù)等相關專業(yè)的教學參考書或實驗指導書,還可供Python開發(fā)人員查閱、參考。

作者簡介

  楊秀璋,畢業(yè)于北京理工大學軟件學院,長期從事Web數(shù)據(jù)挖掘、Python數(shù)據(jù)分析、網絡數(shù)據(jù)爬取工作及研究。他現(xiàn)任教于貴州財經大學信息學院,主講“數(shù)據(jù)挖掘與分析”“大數(shù)據(jù)技術及應用”課程,并從事大數(shù)據(jù)分析、數(shù)據(jù)挖掘、知識圖譜等領域的項目研究與開發(fā);有多年的Python編程、數(shù)據(jù)分析及知識圖譜研究經驗,實戰(zhàn)經驗較為豐富。 此外,他還積極分享編程知識和開源代碼編寫經驗,先后在CSDN、博客園、阿里云棲社區(qū)撰寫博客,僅在CSDN就分享了300多篇原創(chuàng)文章,開設了11個專欄,累計閱讀量超過250萬人次。

圖書目錄

第1章 網絡數(shù)據(jù)爬取概述…………………………………………………………… 1
1.1 網絡爬蟲 ……………………………………………………………………… 1
1.2 相關技術 ……………………………………………………………………… 3
1.2.1 HTTP …………………………………………………………………… 3
1.2.2 HTML…………………………………………………………………… 3
1.2.3 Python …………………………………………………………………… 5
1.3 本章小結 ……………………………………………………………………… 5
參考文獻……………………………………………………………………………… 5
第2章 Python知識初學 …………………………………………………………… 6
2.1 Python簡介 …………………………………………………………………… 6
2.2 基礎語法……………………………………………………………………… 11
2.2.1 縮進與注釋……………………………………………………………… 11
2.2.2 變量與常量……………………………………………………………… 12
2.2.3 輸入與輸出……………………………………………………………… 14
2.2.4 賦值與表達式…………………………………………………………… 16
2.3 數(shù)據(jù)類型……………………………………………………………………… 16
2.3.1 數(shù)字類型………………………………………………………………… 16
2.3.2 字符串類型……………………………………………………………… 17
2.3.3 列表類型………………………………………………………………… 17
2.3.4 元組類型………………………………………………………………… 19
2.3.5 字典類型………………………………………………………………… 19
2.4 條件語句……………………………………………………………………… 19
2.4.1 單分支…………………………………………………………………… 20
2.4.2 二分支…………………………………………………………………… 20
2.4.3 多分支…………………………………………………………………… 21
2.5 循環(huán)語句……………………………………………………………………… 22
2.5.1 while循環(huán) ……………………………………………………………… 22
2.5.2 for循環(huán) ………………………………………………………………… 24
2.5.3 break和continue語句 ………………………………………………… 24
2.6 函 數(shù)………………………………………………………………………… 25
2.6.1 自定義函數(shù)……………………………………………………………… 26
2.6.2 常見內部庫函數(shù)………………………………………………………… 27
2.6.3 第三方庫函數(shù)…………………………………………………………… 29
2.7 字符串操作…………………………………………………………………… 30
2.8 文件操作……………………………………………………………………… 32
2.8.1 打開文件………………………………………………………………… 32
2.8.2 讀/寫文件 ……………………………………………………………… 32
2.8.3 關閉文件………………………………………………………………… 33
2.8.4 循環(huán)遍歷文件…………………………………………………………… 34
2.9 面向對象……………………………………………………………………… 34
2.10 本章小結 …………………………………………………………………… 36
參考文獻 …………………………………………………………………………… 36
第3章 正則表達式爬蟲之牛刀小試 ……………………………………………… 37
3.1 正則表達式…………………………………………………………………… 37
3.2 Python網絡數(shù)據(jù)爬取的常用模塊 ………………………………………… 39
3.2.1 urllib模塊 ……………………………………………………………… 39
3.2.2 urlparse模塊 …………………………………………………………… 42
3.2.3 requests模塊 …………………………………………………………… 44
3.3 正則表達式爬取網絡數(shù)據(jù)的常見方法……………………………………… 45
3.3.1 爬取標簽間的內容……………………………………………………… 45
3.3.2 爬取標簽中的參數(shù)……………………………………………………… 49
3.3.3 字符串處理及替換……………………………………………………… 50
3.4 個人博客爬取實例…………………………………………………………… 52
3.4.1 分析過程………………………………………………………………… 52
3.4.2 代碼實現(xiàn)………………………………………………………………… 57
3.5 本章小結……………………………………………………………………… 59
參考文獻 …………………………………………………………………………… 59
第4章 BeautifulSoup技術 ………………………………………………………… 60
4.1 安裝BeautifulSoup ………………………………………………………… 60
4.1.1 Python 2.7安裝BeautifulSoup ……………………………………… 60
4.1.2 pip安裝擴展庫 ………………………………………………………… 63
4.2 快速開始BeautifulSoup解析 ……………………………………………… 67
4.2.1 BeautifulSoup解析 HTML …………………………………………… 68
4.2.2 簡單獲取網頁標簽信息………………………………………………… 71
4.2.3 定位標簽并獲取內容…………………………………………………… 72
4.3 深入了解BeautifulSoup …………………………………………………… 73
4.3.1 BeautifulSoup對象 …………………………………………………… 74
4.3.2 遍歷文檔樹……………………………………………………………… 79
4.3.3 搜索文檔樹……………………………………………………………… 82
4.4 BeautifulSoup簡單爬取個人博客網站 …………………………………… 84
4.5 本章小結……………………………………………………………………… 87
參考文獻 …………………………………………………………………………… 87
第5章 BeautifulSoup爬取電影信息 ……………………………………………… 88
5.1 分析網頁DOM 樹結構……………………………………………………… 88
5.1.1 分析網頁結構及簡單爬取……………………………………………… 88
5.1.2 定位節(jié)點及網頁翻頁分析……………………………………………… 91
5.2 爬取豆瓣電影信息…………………………………………………………… 94
5.3 鏈接跳轉分析及詳情頁面爬取……………………………………………… 98
5.4 本章小結 …………………………………………………………………… 104
參考文獻…………………………………………………………………………… 104
第6章 Python數(shù)據(jù)庫知識 ……………………………………………………… 105
6.1 MySQL數(shù)據(jù)庫 …………………………………………………………… 105
6.1.1 MySQL的安裝與配置 ……………………………………………… 105
6.1.2 SQL基礎語句詳解 …………………………………………………… 112
6.2 Python操作 MySQL數(shù)據(jù)庫 ……………………………………………… 119
6.2.1 安裝 MySQL擴展庫 ………………………………………………… 119
6.2.2 程序接口DB-API …………………………………………………… 121
6.2.3 Python調用 MySQLdb擴展庫 ……………………………………… 122
6.3 Python操作SQLite 3數(shù)__________據(jù)庫 …………………………………………… 126
6.4 本章小結 …………………………………………………………………… 129
參考文獻…………………………………………………………………………… 129
第7章 基于數(shù)據(jù)庫存儲的BeautifulSoup招聘爬蟲 …………………………… 130
7.1 知識圖譜和智聯(lián)招聘 ……………………………………………………… 130
7.2 BeautifulSoup爬取招聘信息 ……………………………………………… 132
7.2.1 分析網頁超鏈接及跳轉處理 ………………………………………… 132
7.2.2 DOM 樹節(jié)點分析及網頁爬取 ……………………………………… 135
7.3 Navicat for MySQL工具操作數(shù)據(jù)庫 …………………………………… 137
7.3.1 連接數(shù)據(jù)庫 …………………………………………………………… 137
7.3.2 創(chuàng)建數(shù)據(jù)庫 …………………………………………………………… 139
7.3.3 創(chuàng)建表 ………………………………………………………………… 141
7.3.4 數(shù)據(jù)庫增刪改查操作 ………………………………………………… 143
7.4 MySQL數(shù)據(jù)庫存儲招聘信息 …………………………………………… 146
7.4.1 MySQL操作數(shù)據(jù)庫 ………………………………………………… 146
7.4.2 代碼實現(xiàn) ……………………………………………………………… 148
7.5 本章小結 …………………………………………………………………… 153
參考文獻…………………………………………………………………………… 153
第8章 Selenium技術……………………………………………………………… 154
8.1 初識Selenium ……………………………………………………………… 154
8.1.1 安裝Selenium ………………………………………………………… 155
8.1.2 安裝瀏覽器驅動 ……………………………………………………… 156
8.1.3 PhantomJS …………………………………………………………… 158
8.2 快速開始Selenium解析…………………………………………………… 159
8.3 定位元素 …………………………………………………………………… 162
8.3.1 通過id屬性定位元素 ………………………………………………… 163
8.3.2 通過name屬性定位元素 …………………………………………… 165
8.3.3 通過XPath路徑定位元素 …………………………………………… 166
8.3.4 通過起鏈接文本定位元素 …………………………………………… 168
8.3.5 通過標簽名定位元素 ………………………………………………… 169
8.3.6 通過類屬性名定位元素 ……………………………………………… 170
8.3.7 通過CSS選擇器定位元素 …………………………………………… 170
8.4 常用方法和屬性 …………………………………………………………… 170
8.4.1 操作元素的方法 ……………………………………………………… 170
8.4.2 WebElement常用屬性 ……………………………………………… 174
8.5 鍵盤和鼠標自動化操作 …………………………………………………… 175
8.5.1 鍵盤操作 ……………………………………………………………… 175
8.5.2 鼠標操作 ……………………………………………………………… 177
8.6 導航控制 …………………………………………………………………… 178
8.6.1 下拉菜單交互操作 …………………………………………………… 178
8.6.2 Window和Frame間對話框的移動 ………………………………… 179
8.7 本章小結 …………………………………………………………………… 180
參考文獻…………………………………………………………………………… 180
第9章 Selenium爬取在線百科知識……………………………………………… 181
9.1 三大在線百科 ……………………………………………………………… 181
9.1.1 維基百科 ……………………………………………………………… 181
9.1.2 百度百科 ……………………………………………………………… 183
9.1.3 互動百科 ……………………………………………………………… 184
9.2 Selenium爬取維基百科 …………………………………………………… 185
9.2.1 網頁分析 ……………………………………………………………… 185
9.2.2 代碼實現(xiàn) ……………………………………………………………… 190
9.3 Selenium爬取百度百科 …………………………………………………… 190
9.3.1 網頁分析 ……………………………………………………………… 190
9.3.2 代碼實現(xiàn) ……………………………………………………………… 195
9.4 Selenium爬取互動百科 …………………………………………………… 198
9.4.1 網頁分析 ……………………………………………………………… 198
9.4.2 代碼實現(xiàn) ……………………………………………………………… 200
9.5 本章小結 …………………………………………………………………… 202
參考文獻…………………………………………………………………………… 203
第10章 基于數(shù)據(jù)庫存儲的Selenium博客爬蟲 …………………………………… 204
10.1 博客網站…………………………………………………………………… 204
10.2 Selenium爬取博客信息 ………………………………………………… 206
10.2.1 Forbidden錯誤 ……………………………………………………… 206
10.2.2 分析博客網站翻頁方法……………………………………………… 208
10.2.3 DOM 樹節(jié)點分析及網頁爬取 ……………………………………… 210
10.3 MySQL數(shù)據(jù)庫存儲博客信息 …………………………………………… 212
10.3.1 Navicat for MySQL創(chuàng)建表 ………………………………………… 213
10.3.2 Python操作 MySQL數(shù)據(jù)庫 ……………………………………… 214
10.3.3 代碼實現(xiàn)……………………………………………………………… 216
10.4 本章小結…………………………………………………………………… 222
第11章 基于登錄分析的Selenium微博爬蟲 ……………………………………… 223
11.1 登錄驗證…………………………………………………………………… 223
11.2 初識微博爬蟲……………………………………………………………… 226
11.2.1 微 博………………………………………………………………… 226
11.2.2 登錄入口……………………………………………………………… 227
11.2.3 微博自動登錄………………………………………………………… 229
11.3 爬取微博熱門信息………………………………………………………… 232
11.3.1 搜索所需的微博主題………………………………………………… 232
11.3.2 爬取微博內容………………………………………………………… 235
11.4 本章小結…………………………………………………………………… 242
參考文獻…………………………………………………………………………… 242
第12章 基于圖片抓取的Selenium爬蟲 ………………………………………… 243
12.1 圖片爬蟲框架……………………………………………………………… 243
12.2 圖片網站分析……………………………………………………………… 245
12.2.1 圖片爬取方法………………………………………………………… 245
12.2.2 全景網爬取分析……………………………………………………… 246
12.3 代碼實現(xiàn)…………………………………………………………………… 250
12.4 本章小結…………………………………………………………………… 254
第13章 Scrapy技術爬取網絡數(shù)據(jù) ……………………………………………… 255
13.1 安裝Scrapy ……………………………………………………………… 255
13.2 快速了解Scrapy ………………………………………………………… 256
13.2.1 Scrapy基礎知識 …………………………………………………… 257
13.2.2 Scrapy組成詳解及簡單示例 ……………………………………… 259
13.3 Scrapy爬取貴州農產品數(shù)據(jù)集 ………………………………………… 270
13.4 本章小結…………………………………………………………………… 285
參考文獻…………………………………………………………………………… 285
套書后記……………………………………………………………………………… 286
致 謝………………………………………………………………………………… 288

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號