注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡軟件與程序設計Python爬蟲技術(shù):深入理解原理、技術(shù)與開發(fā)

Python爬蟲技術(shù):深入理解原理、技術(shù)與開發(fā)

Python爬蟲技術(shù):深入理解原理、技術(shù)與開發(fā)

定 價:¥89.00

作 者: 李寧 著
出版社: 清華大學出版社
叢編項: 寧哥大講堂
標 簽: 暫缺

ISBN: 9787302535683 出版時間: 2020-01-01 包裝: 平裝
開本: 16開 頁數(shù): 488 字數(shù):  

內(nèi)容簡介

  《Python爬蟲技術(shù):深入理解原理、技術(shù)與開發(fā)/寧哥大講堂》從實戰(zhàn)角度系統(tǒng)講解Python爬蟲的核心知識點,并通過大量的真實項目讓讀者熟練掌握Python爬蟲技術(shù)?!禤ython爬蟲技術(shù):深入理解原理、技術(shù)與開發(fā)/寧哥大講堂》用20多個實戰(zhàn)案例,完美演繹了使用各種技術(shù)編寫Python爬蟲的方式,讀者可以任意組合這些技術(shù),完成非常復雜的爬蟲應用?!禤ython爬蟲技術(shù):深入理解原理、技術(shù)與開發(fā)/寧哥大講堂》共20章,分為5篇。第1篇基礎(chǔ)知識(第1、2章),主要包括Python運行環(huán)境的搭建、HTTP基礎(chǔ)、網(wǎng)頁基礎(chǔ)(HTML、CSS、JavaScript等)、爬蟲的基本原理、Session與Cookie。第2篇網(wǎng)絡庫(第3~6章),主要包括網(wǎng)絡庫urllib、urllib3、requests和Twisted的核心使用方法,如發(fā)送HTTP請求、處理超時、設置HTTP請求頭、搭建和使用代理、解析鏈接、Robots協(xié)議等。第3篇解析庫(第7~10章),主要包括3個常用解析庫(lxml、BeautifulSoup和pyquery)的使用方法,同時介紹多種用于分析HTML代碼的技術(shù),如正則表達式、XPath、CSS選擇器、方法選擇器等。第4篇數(shù)據(jù)存儲(第11、12章),主要包括Python中數(shù)據(jù)存儲的解決方案,如文件存儲和數(shù)據(jù)庫存儲,其中數(shù)據(jù)庫存儲包括多種數(shù)據(jù)庫,如本地數(shù)據(jù)庫SQLite、網(wǎng)絡數(shù)據(jù)庫MySQL以及文檔數(shù)據(jù)庫MongoDB。第5篇爬蟲高級應用(第13~20章),主要包括Python爬蟲的一些高級技術(shù),如抓取異步數(shù)據(jù)、Selenium、Splash、抓取移動App數(shù)據(jù)、Appium、多線程爬蟲、爬蟲框架Scrapy,最后給出一個綜合的實戰(zhàn)案例,綜合了Python爬蟲、數(shù)據(jù)存儲、PyQt5、多線程、數(shù)據(jù)可視化、Web等多種技術(shù)實現(xiàn)一個可視化爬蟲?!禤ython爬蟲技術(shù):深入理解原理、技術(shù)與開發(fā)/寧哥大講堂》可以作為廣大計算機軟件技術(shù)開發(fā)者、互聯(lián)網(wǎng)技術(shù)研究人員學習“爬蟲技術(shù)”的參考用書。也可以作為高等院校計算機科學與技術(shù)、軟件工程、人工智能等專業(yè)的教學參考用書。

作者簡介

  李寧,歐瑞科技創(chuàng)始人/CEO,寧哥教育創(chuàng)始人,東北大學計算機專業(yè)碩士。曾任國內(nèi)某大型軟件公司項目經(jīng)理、寧哥教育教學總監(jiān)、騰訊課堂特約講師、51CTO學院講師、CSDN特級講師。從事軟件研究和開發(fā)超過15年,一直從事Python、人工智能、區(qū)塊鏈、JavaScript、Node.js、Java以及跨平臺技術(shù)的研究和技術(shù)指導工作,對國內(nèi)外相關(guān)領(lǐng)域的技術(shù)、理論和實踐有很深的理解和研究。

圖書目錄

前言
第1篇 基礎(chǔ)知識
第1章 開發(fā)環(huán)境配置
1.1 安裝官方的Python運行環(huán)境
1.2 配置PATH環(huán)境變量
1.3 安裝AnacondaPython開發(fā)環(huán)境
1.4 安裝PyCharm
1.5 配置PyCharm
1.6 小結(jié)
第2章 爬蟲基礎(chǔ)
2.1 HTTP基礎(chǔ)
2.1.1 URI和URL
2.1.2 超文本
2.1.3 HTTP與HTTPS
2.1.4 HTTP的請求過程
2.1.5 請求
2.1.6 響應
2.2 網(wǎng)頁基礎(chǔ)
2.2.1 HTML
2.2.2 CSS
2.2.3 CSS選擇器
2.2.4 JavaScript
2.3 爬蟲的基本原理
2.3.1 爬蟲的分類
2.3.2 爬蟲抓取數(shù)據(jù)的方式和手段
2.4 Session與Cookie
2.4.1 靜態(tài)頁面和動態(tài)頁面
2.4.2 無狀態(tài)HTTP與Cookie
2.4.3 利用Session和Cookie保持狀態(tài)
2.4.4 查看網(wǎng)站的Cookie
2.4.5 HTTP狀態(tài)何時會失效
2.5 實戰(zhàn)案例:抓取所有的網(wǎng)絡資源
2.6 實戰(zhàn)案例:抓取博客文章列表
2.7 小結(jié)
第2篇 網(wǎng)絡庫
第3章 網(wǎng)絡庫urllib
3.1 urllib簡介
3.2 發(fā)送請求與獲得響應
3.2.1 用urlopen函數(shù)發(fā)送HTTPGET請求
3.2.2 用urlopen函數(shù)發(fā)送HTTPPOST請求
3.2.3 請求超時
3.2.4 設置HTTP請求頭
3.2.5 設置中文HTTP請求頭
3.2.6 請求基礎(chǔ)驗證頁面
3.2.7 搭建代理與使用代理
3.2.8 讀取和設置Cookie
3.3 異常處理
3.3.1 URLError
3.3.2 HTTPError
3.4 解析鏈接
3.4.1 拆分與合并URL(urlparse與urlunparse)
3.4.2 另一種拆分與合并URL的方式(urlsplit與urlunsplit)
3.4.3 連接URL(urljoin)
3.4.4 URL編碼(urlencode)
3.4.5 編碼與解碼(quote與unquote)
3.4.6 參數(shù)轉(zhuǎn)換(parse_qs與parse_qsl)
3.5 Robots協(xié)議
3.5.1 Robots協(xié)議簡介
3.5.2 分析Robots協(xié)議
3.6 小結(jié)
第4章 網(wǎng)絡庫u川ib3
4.1 urllib3簡介
4.2 urllib3模塊
4.3 發(fā)送HTTPGET請求
4.4 發(fā)送HTTPPOST請求
4.5 HTTP請求頭
4.6 HTTP響應Z頭
4.7 上傳文件
4.8 超時
4.9 小結(jié)
第5章 網(wǎng)絡庫requests
5.1 基本用法
5.1.1 requests的HelIoWorld
5.1.2 GET請求
5.1.3 添加HTTP請求頭
5.1.4 抓取二進制數(shù)據(jù)
5.1.5 POST請求
5.1.6 響應數(shù)據(jù)
5.2 高級用法
5.2.1 上傳文件
5.2.2 處理Cookie
5.2.3 使用同一個會話(Session)
5.2.4 SSL證書驗證
5.2.5 使用代理
5.2.6 超時
5.2.7 身份驗證
5.2.8 將請求打包
5.3 小結(jié)
第6章 Twisted網(wǎng)絡框架
……
第3篇 解析庫
第4篇 數(shù)據(jù)存儲
第5篇 爬蟲高級應用

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號