注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)軟件與程序設(shè)計Python 3.x網(wǎng)絡(luò)爬蟲從零基礎(chǔ)到項目實戰(zhàn)

Python 3.x網(wǎng)絡(luò)爬蟲從零基礎(chǔ)到項目實戰(zhàn)

Python 3.x網(wǎng)絡(luò)爬蟲從零基礎(chǔ)到項目實戰(zhàn)

定 價:¥108.00

作 者: 史衛(wèi)亞 著
出版社: 北京大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787301312827 出版時間: 2020-05-01 包裝: 平裝
開本: 16開 頁數(shù): 612 字數(shù):  

內(nèi)容簡介

  《Python 3.x網(wǎng)絡(luò)爬蟲從零基礎(chǔ)到項目實戰(zhàn)》介紹了如何使用Python來編寫網(wǎng)絡(luò)爬蟲程序,內(nèi)容包括網(wǎng)絡(luò)爬蟲簡介、發(fā)送請求、提取數(shù)據(jù)、使用多個線程和進程進行并發(fā)抓取、抓取動態(tài)頁面中的內(nèi)容、與表單進行交互、處理頁面中的驗證碼問題及使用Scrapy和分布式進行數(shù)據(jù)抓取,并在最后介紹了使用本書講解的數(shù)據(jù)抓取技術(shù)對幾個真實的網(wǎng)站進行抓取的實例,旨在幫助讀者活學活用書中介紹的技術(shù)。本書提供了與圖書內(nèi)容全程同步的教學錄像。此外,還贈送了大量相關(guān)學習資料,以便讀者擴展學習。本書適合任何想學習Python爬蟲的讀者,無論您是否從事計算機相關(guān)專業(yè),是否接觸過Python,均可以通過學習本書快速掌握Python爬蟲的開發(fā)方法和技巧。

作者簡介

  史衛(wèi)亞,博士,副教授,IEEE會員,CCF會員,INNS會員。2009年獲得復(fù)旦大學計算機應(yīng)用專業(yè)博士學位。2015—2016年在美國北卡羅來納大學做訪問學者,對機器學習、大數(shù)據(jù)檢索、數(shù)據(jù)庫、圖像和視頻處理、人工智能和模式識別等有深入研究。

圖書目錄

目錄
第1章 爬蟲基礎(chǔ) 1
1.1 認識爬蟲 2
1.2 Python環(huán)境 4
1.3 Python語法 11
1.4 網(wǎng)頁結(jié)構(gòu) 62
1.5 HTTP協(xié)議 68
1.6 本章小結(jié) 84
1.7 實戰(zhàn)練習 84
第2章 開始爬蟲 85
2.1 urllib模塊 86
2.2 requests模塊 88
2.3 re模塊 110
2.4 項目案例:爬百度貼吧 122
2.5 本章小結(jié) 128
2.6 實戰(zhàn)練習 128
第3章 更多數(shù)據(jù)提取的方式 129
3.1 XPath和LXml 130
3.2 BeautifulSoup4 137
3.3 JsonPath 143
3.4 性能和選擇 148
3.5 項目案例:爬騰訊招聘網(wǎng) 148
3.6 本章小結(jié) 154
3.7 實戰(zhàn)練習 154
第4章 并發(fā) 155
4.1 100萬個網(wǎng)頁 156
4.2 進程 161
4.3 線程 181
4.4 鎖 191
4.5 協(xié)程 202
4.6 線程、進程、協(xié)程對比 206
4.7 并發(fā)爬蟲 207
4.8 本章小結(jié) 216
4.9 實戰(zhàn)練習 216
第5章 數(shù)據(jù)存儲 217
5.1 文件存儲 218
5.2 關(guān)系型數(shù)據(jù)庫存儲 221
5.3 非關(guān)系型數(shù)據(jù)庫存儲 231
5.4 項目案例:爬豆瓣電影 266
5.5 本章小結(jié) 270
5.6 實戰(zhàn)練習 270
第6章 Ajax數(shù)據(jù)爬取 271
6.1 Ajax的概念 272
6.2 實現(xiàn)Ajax 272
6.3 項目案例:爬斗魚直播 282
6.4 本章小結(jié) 286
6.5 實戰(zhàn)練習 286
第7章 動態(tài)渲染頁面爬取 287
7.1 Selenium 288
7.2 項目案例:爬京東商品 306
7.3 本章小結(jié) 311
7.4 實戰(zhàn)練習 312
第8章 圖形驗證碼識別 313
8.1 使用pytesseract 314
8.2 使用打碼平臺 317
8.3 項目案例:識別驗證碼完成登錄 323
8.4 本章小結(jié) 326
8.5 實戰(zhàn)練習 326
第9章 模擬登錄 327
9.1 Cookie 328
9.2 Session 330
9.3 Cookie池的搭建 332
9.4 項目案例:登錄GitHub 335
9.5 本章小結(jié) 340
9.6 實戰(zhàn)練習 340
第10章 代理IP的使用 341
10.1 代理IP 342
10.2 代理IP池 348
10.3 付費代理的使用 351
10.4 項目案例:使用代理IP爬微信公眾號 358
10.5 本章小結(jié) 368
10.6 實戰(zhàn)練習 368
第11章 Scrapy框架 369
11.1 認識Scrapy 370
11.2 編寫Scrapy的第一個案例 373
11.3 Spider詳情 384
11.4 操作數(shù)據(jù) 403
11.5 模擬登錄 432
11.6 中間件 446
11.7 分布式 458
11.8 項目案例:爬新浪新聞 500
11.9 本章小結(jié) 510
11.10 實戰(zhàn)練習 510
第12章 項目案例:爬?;ňW(wǎng)信息 511
12.1 分析網(wǎng)站 512
12.2 開始爬取 515
第13章 項目案例:爬北京地區(qū)短租房信息 523
13.1 分析網(wǎng)站 524
13.2 開始爬取 525
第14章 項目案例:爬簡書專題信息 531
14.1 分析網(wǎng)站 532
14.2 開始爬取 535
第15章 項目案例:爬QQ音樂歌曲 539
15.1 分析網(wǎng)站 540
15.2 開始爬取 542
第16章 項目案例:爬百度翻譯 545
16.1 分析網(wǎng)站 546
16.2 開始爬取 550
第17章 項目案例:爬百度地圖API 555
17.1 分析網(wǎng)站 556
17.2 開始爬取 560
第18章 項目案例:爬360圖片 571
18.1 分析網(wǎng)站 572
18.2 開始爬取 573
第19章 項目案例:爬當當網(wǎng) 577
19.1 分析網(wǎng)站 578
19.2 開始爬取 580
第20章 項目案例:爬唯品會 585
20.1 分析網(wǎng)站 586
20.2 開始爬取 589
第21章 項目案例:爬智聯(lián)招聘 593
21.1 分析網(wǎng)站 594
21.2 開始爬取 597

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號