注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件工程及軟件方法學(xué)Python3網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)實(shí)戰(zhàn)(第2版)

Python3網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)實(shí)戰(zhàn)(第2版)

Python3網(wǎng)絡(luò)爬蟲(chóng)開(kāi)發(fā)實(shí)戰(zhàn)(第2版)

定 價(jià):¥139.80

作 者: 崔慶才 著
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787115577092 出版時(shí)間: 2021-11-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 918 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書(shū)介紹了如何利用 Python 3 開(kāi)發(fā)網(wǎng)絡(luò)爬蟲(chóng)。本書(shū)為第 2 版,相比于第 1 版,為每個(gè)知識(shí)點(diǎn)的實(shí)戰(zhàn)項(xiàng)目配備了針對(duì)性的練習(xí)平臺(tái),避免了案例過(guò)期的問(wèn)題。另外,主要增加了異步爬蟲(chóng)、JavaScript 逆向、App 逆向、頁(yè)面智能解析、深度學(xué)習(xí)識(shí)別驗(yàn)證碼、Kubernetes 運(yùn)維及部署等知識(shí)點(diǎn),同時(shí)也對(duì)各個(gè)爬蟲(chóng)知識(shí)點(diǎn)涉及的請(qǐng)求、存儲(chǔ)、解析、測(cè)試等工具進(jìn)行了豐富和更新。 本書(shū)適合Python 程序員閱讀。

作者簡(jiǎn)介

  崔慶才 微軟(中國(guó))軟件工程師,北京航空航天大學(xué)碩士,主要研究網(wǎng)絡(luò)爬蟲(chóng)、Web 開(kāi)發(fā)、機(jī)器學(xué)習(xí)等方向。

圖書(shū)目錄

第 1章 爬蟲(chóng)基礎(chǔ) 1
1.1 HTTP基本原理 1
1.2 Web 網(wǎng)頁(yè)基礎(chǔ) 12
1.3 爬蟲(chóng)的基本原理 19
1.4 Session和Cookie 21
1.5 代理的基本原理 24
1.6 多線(xiàn)程和多進(jìn)程的基本原理 26
第 2章 基本庫(kù)的使用 29
2.1 urllib的使用 29
2.2 requests的使用 47
2.3 正則表達(dá)式 63
2.4 httpx的使用 73
2.5 基礎(chǔ)爬蟲(chóng)案例實(shí)戰(zhàn) 78
第3章 網(wǎng)頁(yè)數(shù)據(jù)的解析提取 90
3.1 XPath的使用 90
3.2 Beautiful Soup的使用 99
3.3 pyquery的使用 113
3.4 parsel 的使用 124
第4章 數(shù)據(jù)的存儲(chǔ) 128
4.1 TXT 文本文件存儲(chǔ) 128
4.2 JSON 文件存儲(chǔ) 130
4.3 CSV 文件存儲(chǔ) 134
4.4 MySQL 存儲(chǔ) 138
4.5 MongoDB 文檔存儲(chǔ) 144
4.6 Redis緩存存儲(chǔ) 151
4.7 Elasticsearch 搜索引擎存儲(chǔ) 159
4.8 RabbitMQ 的使用 166
第5章 Ajax 數(shù)據(jù)爬取 174
5.1 什么是 Ajax 174
5.2 Ajax分析方法 176
5.3 Ajax 分析與爬取實(shí)戰(zhàn) 179
第6章 異步爬蟲(chóng) 191
6.1 協(xié)程的基本原理 191
6.2 aiohttp的使用 201
6.3 aiohttp 異步爬取實(shí)戰(zhàn) 207
第7章 JavaScript 動(dòng)態(tài)渲染頁(yè)面爬取 212
7.1 Selenium 的使用 212
7.2 Splash 的使用 226
7.3 Pyppeteer 的使用 242
7.4 Playwright 的使用 257
7.5 Selenium 爬取實(shí)戰(zhàn) 269
7.6 Pyppeteer 爬取實(shí)戰(zhàn) 276
7.7 CSS 位置偏移反爬案例分析與爬取實(shí)戰(zhàn) 282
7.8 字體反爬案例分析與爬取實(shí)戰(zhàn) 287
第8章 驗(yàn)證碼的識(shí)別 293
8.1 使用 OCR 技術(shù)識(shí)別圖形驗(yàn)證碼 293
8.2 使用 OpenCV 識(shí)別滑動(dòng)驗(yàn)證碼的缺口 298
8.3 使用深度學(xué)習(xí)識(shí)別圖形驗(yàn)證碼 304
8.4 使用深度學(xué)習(xí)識(shí)別滑動(dòng)驗(yàn)證碼的缺口 309
8.5 使用打碼平臺(tái)識(shí)別驗(yàn)證碼 316
8.6 手機(jī)驗(yàn)證碼的自動(dòng)化處理 324
第9章 代理的使用 331
9.1 代理的設(shè)置 331
9.2 代理池的維護(hù) 340
9.3 付費(fèi)代理的使用 351
9.4 ADSL 撥號(hào)代理的搭建方法 357
9.5 代理反爬案例爬取實(shí)戰(zhàn) 365
第 10章 模擬登錄 373
10.1 模擬登錄的基本原理 373
10.2 基于Session和Cookie的模擬登錄爬取實(shí)戰(zhàn) 376
10.3 基于JWT的模擬登錄爬取實(shí)戰(zhàn) 381
10.4 大規(guī)模賬號(hào)池的搭建 385
第 11章 JavaScript 逆向爬蟲(chóng) 397
11.1 網(wǎng)站加密和混淆技術(shù)簡(jiǎn)介 397
11.2 瀏覽器調(diào)試常用技巧 413
11.3 JavaScript Hook 的使用 430
11.4 無(wú)限 debugger 的原理與繞過(guò) 440
11.5 使用 Python 模擬執(zhí)行 JavaScript 445
11.6 使用 Node.js 模擬執(zhí)行 JavaScript 451
11.7 瀏覽器環(huán)境下 JavaScript 的模擬執(zhí)行 454
11.8 AST 技術(shù)簡(jiǎn)介 460
11.9 使用 AST 技術(shù)還原混淆代碼 472
11.10 特殊混淆案例的還原 480
11.11 WebAssembly 案例分析和爬取實(shí)戰(zhàn) 490
11.12 JavaScript 逆向技巧總結(jié) 498
11.13 JavaScript 逆向爬取實(shí)戰(zhàn) 505
第 12章 App 數(shù)據(jù)的爬取 530
12.1 Charles 抓包工具的使用 530
12.2 mitmproxy 抓包工具的使用 538
12.3 mitmdump 實(shí)時(shí)抓包處理 544
12.4 Appium 的使用 551
12.5 基于 Appium 的 App 爬取實(shí)戰(zhàn) 562
12.6 Airtest 的使用 568
12.7 基于 Airtest 的 App 爬取實(shí)戰(zhàn) 585
12.8 手機(jī)群控爬取實(shí)戰(zhàn) 591
12.9 云手機(jī)的使用 594
第 13章 Android 逆向 603
13.1 jadx 的使用 603
13.2 JEB 的使用 615
13.3 Xposed 框架的使用 624
13.4 基于 Xposed 的爬取實(shí)戰(zhàn)案例 635
13.5 Frida 的使用 643
13.6 SSL Pining 問(wèn)題的解決方案 650
13.7 Android 脫殼技術(shù)簡(jiǎn)介與實(shí)戰(zhàn) 657
13.8 利用 IDA Pro 靜態(tài)分析和動(dòng)態(tài)調(diào)試 so 文件 664
13.9 基于 Frida-RPC 模擬執(zhí)行 so 文件 680
13.10 基于 AndServer-RPC 模擬執(zhí)行 so 文件 685
13.11 基于 unidbg 模擬執(zhí)行 so 文件 692
第 14章 頁(yè)面智能解析 700
14.1 頁(yè)面智能解析簡(jiǎn)介 700
14.2 詳情頁(yè)智能解析算法簡(jiǎn)介 707
14.3 詳情頁(yè)智能解析算法的實(shí)現(xiàn) 714
14.4 列表頁(yè)智能解析算法簡(jiǎn)介 722
14.5 列表頁(yè)智能解析算法的實(shí)現(xiàn) 727
14.6 如何智能分辨列表頁(yè)和詳情頁(yè) 735
第 15章 Scrapy框架的使用 739
15.1 Scrapy框架介紹 739
15.2 Scrapy入門(mén) 743
15.3 Selector 的使用 754
15.4 Spider 的使用 759
15.5 Downloader Middleware的使用 766
15.6 Spider Middleware的使用 775
15.7 Item Pipeline的使用 781
15.8 Extension的使用 792
15.9 Scrapy 對(duì)接 Selenium 795
15.10 Scrapy 對(duì)接 Splash 801
15.11 Scrapy 對(duì)接 Pyppeteer 806
15.12 Scrapy 規(guī)則化爬蟲(chóng) 813
15.13 Scrapy 實(shí)戰(zhàn) 827
第 16章 分布式爬蟲(chóng) 840
16.1 分布式爬蟲(chóng)理念 840
16.2 Scrapy-Redis原理和源碼解析 842
16.3 基于Scrapy-Redis的分布式爬蟲(chóng)實(shí)現(xiàn) 847
16.4 基于Bloom Filter進(jìn)行大規(guī)模去重 851
16.5 基于RabbitMQ的分布式爬蟲(chóng) 859
第 17章 爬蟲(chóng)的管理和部署 862
17.1 Scrapyd和ScrapydAPI的使用 862
17.2 Scrapyd-Client 的使用 867
17.3 Gerapy 爬蟲(chóng)管理框架的使用 869
17.4 將Scrapy 項(xiàng)目打包成 Docker 鏡像 873
17.5 Docker Compose 的使用 878
17.6 Kubernetes的使用 880
17.7 用 Kubernetes 部署和管理 Scrapy 爬蟲(chóng) 888
17.8 Scrapy 分布式爬蟲(chóng)的數(shù)據(jù)統(tǒng)計(jì)方案 899
17.9 基于Prometheus和Grafana的分布式爬蟲(chóng)監(jiān)控方案 904
附錄 爬蟲(chóng)與法律 917

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)