注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能Python爬蟲大數(shù)據(jù)采集與挖掘:微課視頻版

Python爬蟲大數(shù)據(jù)采集與挖掘:微課視頻版

Python爬蟲大數(shù)據(jù)采集與挖掘:微課視頻版

定 價(jià):¥59.80

作 者: 曾劍平 著
出版社: 清華大學(xué)出版社
叢編項(xiàng): 大數(shù)據(jù)與人工智能技術(shù)叢書
標(biāo) 簽: 暫缺

ISBN: 9787302540540 出版時(shí)間: 2020-03-01 包裝: 平裝
開本: 16開 頁數(shù): 312 字?jǐn)?shù):  

內(nèi)容簡介

  本書圍繞大數(shù)據(jù)采集,對(duì)采集技術(shù)的相關(guān)基礎(chǔ)、技術(shù)原理、 Py t hon實(shí)現(xiàn)技術(shù)、大數(shù)據(jù)挖掘與應(yīng)用方法 進(jìn)行了系統(tǒng)介紹。書中全面、完整地覆蓋了各種類型的網(wǎng)絡(luò)爬蟲及相關(guān)的信息處理挖掘技術(shù),并提 供了27個(gè)與爬蟲技術(shù)和應(yīng)用相關(guān)的Py t hon程序。全書共分為四大部分,即概述、基礎(chǔ)篇、技術(shù)與實(shí)現(xiàn)篇 、大數(shù)據(jù)挖掘與應(yīng)用篇。第一部分是概述,首先指出了利用Py t hon采集互聯(lián)網(wǎng)大數(shù)據(jù)的重要性,介紹了 相關(guān)技術(shù)研究、技術(shù)體系、 Py t hon爬蟲采集技術(shù)的合規(guī)性及應(yīng)用現(xiàn)狀等; 第二部分是基礎(chǔ)篇,包括 Web服務(wù)器的應(yīng)用架構(gòu)以及HTTP、 Robo t s、 HTML、頁面編碼等相關(guān)協(xié)議和規(guī)范; 第三部分是技術(shù)與 實(shí)現(xiàn)篇,全面介紹了普通網(wǎng)絡(luò)爬蟲技術(shù)、動(dòng)態(tài)頁面采集方法、主題爬蟲技術(shù)、 De ep Web爬蟲、微博信息采集 、Web信息提取以及反爬蟲技術(shù)等,內(nèi)容涵蓋了各種爬蟲技術(shù)實(shí)現(xiàn)方法及Py t hon例子; 第四部分是 大數(shù)據(jù)挖掘與應(yīng)用篇,介紹了用于爬蟲應(yīng)用中的典型大數(shù)據(jù)處理與挖掘技術(shù)以及 Web大數(shù)據(jù)采集的常 見應(yīng)用模式,并以新聞采集與分析、 SQL注入在線檢測為例介紹了Py t hon爬蟲應(yīng)用構(gòu)建方法,將本書介 紹的一些關(guān)鍵技術(shù)、模型和工具貫穿在一起。

作者簡介

  曾劍平,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院副教授、碩士生導(dǎo)師。曾供職于軟件公司并擔(dān)任總工程師。擔(dān)任International Journal of Network Security(信息安全、EI源刊)、Journal of Emerging Technologies in Web Intelligence(Web智能)、《計(jì)算機(jī)工程與應(yīng)用》等多個(gè)國內(nèi)外知名學(xué)術(shù)期刊的編委。擔(dān)任World Wide Web Journal、Knowledge-based Systems、IEEE SMC、IEEE TKDE、JCST、計(jì)算機(jī)科學(xué)、小型微型計(jì)算機(jī)系統(tǒng)等多個(gè)國內(nèi)外學(xué)術(shù)期刊的審稿專家。近十多年來,申請(qǐng)專利10多項(xiàng),其中5項(xiàng)為授權(quán)發(fā)明專利(第一發(fā)明人),獲得1項(xiàng)軟件著作權(quán)(第一完成人)。主持國家自然科學(xué)基金面上項(xiàng)目、上海市自然科學(xué)基金項(xiàng)目、教育部課題以及企業(yè)委托項(xiàng)目多項(xiàng),參與國家重點(diǎn)科技計(jì)劃、國家信息化專家咨詢委員會(huì)、國家保密局、上海科委以及企業(yè)合作等項(xiàng)目研究。目前主要研究方向是社交媒體分析及應(yīng)用、網(wǎng)絡(luò)輿情分析技術(shù)和大數(shù)據(jù)安全。作為第一作者和通訊作者發(fā)表相關(guān)技術(shù)方向的論文60多篇,其中有10多篇是在國際著名學(xué)術(shù)期刊上。

圖書目錄


目錄








源碼下載



第一部分概述

第1章大數(shù)據(jù)采集概述

1.1互聯(lián)網(wǎng)大數(shù)據(jù)與采集

1.1.1互聯(lián)網(wǎng)大數(shù)據(jù)來源

1.1.2互聯(lián)網(wǎng)大數(shù)據(jù)的特征

1.2Python爬蟲大數(shù)據(jù)采集技術(shù)的重要性

1.3爬蟲技術(shù)研究及應(yīng)用現(xiàn)狀

1.4爬蟲技術(shù)的應(yīng)用場景

1.5爬蟲大數(shù)據(jù)采集的技術(shù)體系

1.5.1技術(shù)體系構(gòu)成

1.5.2相關(guān)技術(shù)

1.5.3技術(shù)評(píng)價(jià)方法

1.6爬蟲大數(shù)據(jù)采集與挖掘的合規(guī)性

1.7爬蟲大數(shù)據(jù)采集技術(shù)的展望

思考題


第二部分基礎(chǔ)篇

第2章Web頁面及相關(guān)技術(shù)

2.1HTML語言規(guī)范

2.1.1HTML標(biāo)簽

2.1.2HTML整體結(jié)構(gòu)

2.1.3CSS簡述

2.1.4常用標(biāo)簽

2.1.5HTML語言的版本進(jìn)化

2.2編碼體系與規(guī)范

2.2.1ASCII

2.2.2gb2312/gbk

2.2.3unicode

2.2.4utf8

2.2.5網(wǎng)頁中的編碼和Python處理

2.3Python正則表達(dá)式

思考題





第3章Web應(yīng)用架構(gòu)與協(xié)議

3.1常用的Web服務(wù)器軟件

3.1.1流行的Web服務(wù)器軟件

3.1.2在Python中配置Web服務(wù)器

3.2Web服務(wù)器的應(yīng)用架構(gòu)

3.2.1典型的應(yīng)用架構(gòu)

3.2.2Web頁面的類型

3.2.3頁面文件的組織方式

3.3Robots協(xié)議

3.3.1Robots協(xié)議的來歷

3.3.2Robots協(xié)議的規(guī)范與實(shí)現(xiàn)

3.4HTTP協(xié)議

3.4.1HTTP版本的技術(shù)特性

3.4.2HTTP報(bào)文

3.4.3HTTP頭部

3.4.4HTTP狀態(tài)碼

3.4.5HTTPS

3.5狀態(tài)保持技術(shù)

3.5.1Cookie

3.5.2Session

思考題

第三部分技術(shù)與實(shí)現(xiàn)篇

第4章普通爬蟲頁面采集技術(shù)與Python實(shí)現(xiàn)

4.1普通爬蟲的體系架構(gòu)

4.2Web服務(wù)器連接器

4.2.1整體處理過程

4.2.2DNS緩存

4.2.3requests/response的使用方法

4.2.4錯(cuò)誤和異常的處理

4.3超鏈接及域名提取與過濾

4.3.1超鏈接的類型

4.3.2提取方法

4.3.3遵守Robots協(xié)議的友好爬蟲

4.4爬行策略與實(shí)現(xiàn)

4.4.1爬行策略及設(shè)計(jì)方法

4.4.2寬度優(yōu)先和深度優(yōu)先策略

4.4.3基于PageRank的重要性排序

4.4.4其他策略

4.4.5爬行策略設(shè)計(jì)的綜合考慮

思考題

第5章動(dòng)態(tài)頁面采集技術(shù)與Python實(shí)現(xiàn)

5.1動(dòng)態(tài)頁面內(nèi)容的生成與交互

5.1.1頁面內(nèi)容的生成方式

5.1.2動(dòng)態(tài)頁面交互的實(shí)現(xiàn)

5.2動(dòng)態(tài)頁面采集技術(shù)

5.3使用帶參數(shù)的URL

5.4利用Cookie和Session

5.5使用Ajax: 以評(píng)論型頁面為例

5.5.1獲取URL地址

5.5.2獲取動(dòng)態(tài)請(qǐng)求參數(shù)

5.6模擬瀏覽器——以自動(dòng)登錄郵箱為例

思考題

第6章Web信息提取與Python實(shí)現(xiàn)

6.1Web信息提取任務(wù)及要求

6.2Web頁面內(nèi)容提取的思路

6.2.1DOM樹

6.2.2提取方法

6.3基于HTML結(jié)構(gòu)的內(nèi)容提取方法

6.3.1html.parser

6.3.2lxml

6.3.3html5lib

6.3.4BeautifulSoup

6.3.5PyQuery

6.4基于統(tǒng)計(jì)的Web內(nèi)容抽取方法

思考題

第7章主題爬蟲頁面采集技術(shù)與Python實(shí)現(xiàn)

7.1主題爬蟲的使用場景

7.2主題爬蟲技術(shù)框架

7.3主題及其表示

7.4相關(guān)度計(jì)算

7.4.1主題相關(guān)度的計(jì)算

7.4.2鏈接相關(guān)度估算

7.4.3頁面內(nèi)容相關(guān)度計(jì)算

7.5特定新聞主題采集

思考題

第8章Deep Web爬蟲與Python實(shí)現(xiàn)

8.1相關(guān)概念

8.2Deep Web的特征和采集要求

8.3深度網(wǎng)頁內(nèi)容獲取技術(shù)架構(gòu)

8.3.1領(lǐng)域本體知識(shí)庫

8.3.2尋找表單

8.3.3表單處理

8.3.4結(jié)果處理

8.4圖書信息采集

思考題

第9章微博信息采集與Python實(shí)現(xiàn)

9.1微博信息采集方法概述

9.2微博開放平臺(tái)授權(quán)與測試

9.3在Python中調(diào)用微博API采集數(shù)據(jù)

9.3.1流程介紹

9.3.2微博API及使用方法

9.3.3采集微博用戶個(gè)人信息

9.3.4采集微博博文

9.3.5微博API的限制

9.4通過爬蟲采集微博信息

思考題

第10章反爬蟲技術(shù)與反反爬蟲技術(shù)

10.1兩種技術(shù)的概述

10.2反爬蟲技術(shù)

10.2.1爬蟲檢測技術(shù)

10.2.2爬蟲阻斷技術(shù)

10.3反反爬蟲技術(shù)

思考題

第四部分大數(shù)據(jù)挖掘與應(yīng)用篇

第11章文本信息處理與挖掘技術(shù)

11.1文本預(yù)處理

11.1.1詞匯切分

11.1.2停用詞過濾

11.1.3詞形規(guī)范化

11.1.4Python開源庫jieba的使用

11.2文本的向量空間模型

11.2.1特征選擇

11.2.2模型表示

11.2.3使用Python構(gòu)建向量空間表示

11.3文本分類及實(shí)現(xiàn)技術(shù)

11.3.1分類技術(shù)概要

11.3.2分類器技術(shù)

11.3.3新聞分類的Python實(shí)現(xiàn)

11.4主題及其實(shí)現(xiàn)技術(shù)

11.4.1主題的定義

11.4.2基于向量空間的主題構(gòu)建

11.4.3LDA主題模型

11.4.4LDA模型的Python實(shí)現(xiàn)

11.5大數(shù)據(jù)可視化技術(shù)

11.5.1大數(shù)據(jù)可視化方法概述

11.5.2Python開源庫的使用

思考題

第12章互聯(lián)網(wǎng)大數(shù)據(jù)獲取技術(shù)的應(yīng)用

12.1常見應(yīng)用模式

12.2新聞閱讀器采集與分析

12.2.1目標(biāo)任務(wù)

12.2.2總體思路

12.2.3新聞內(nèi)容采集與提取

12.2.4新聞分析

12.3爬蟲用于Web網(wǎng)站SQL注入檢測

12.3.1目標(biāo)任務(wù)

12.3.2總體思路

12.3.3Python程序設(shè)計(jì)

思考題

附錄A代碼與數(shù)據(jù)

附錄B相關(guān)包索引

附錄C爬蟲框架

附錄D書中視頻對(duì)應(yīng)二維碼匯總表


參考文獻(xiàn)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)