網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)：Java網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)

定　價(jià)：￥79.00

作　者：	錢洋，姜元春著
出版社：	電子工業(yè)出版社
叢編項(xiàng)：
標(biāo)　簽：	暫缺

購買這本書可以去

ISBN：	9787121376078	出版時(shí)間：	2020-01-01	包裝：	平裝
開本：	16	頁數(shù)：	380	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　《網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)：Java網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)》以Java為開發(fā)語言，系統(tǒng)地介紹了網(wǎng)絡(luò)爬蟲的理論知識(shí)和基礎(chǔ)工具，包括網(wǎng)絡(luò)爬蟲涉及的Java基礎(chǔ)知識(shí)、HTTP協(xié)議基礎(chǔ)與網(wǎng)絡(luò)抓包、網(wǎng)頁內(nèi)容獲取、網(wǎng)頁內(nèi)容解析和網(wǎng)絡(luò)爬蟲數(shù)據(jù)存儲(chǔ)等。本書選取典型網(wǎng)站，采用案例講解的方式介紹網(wǎng)絡(luò)爬蟲中涉及的問題，以增強(qiáng)讀者的動(dòng)手實(shí)踐能力。同時(shí)，本書還介紹了3種Java網(wǎng)絡(luò)爬蟲開源框架，即Crawler4j、WebCollector和WebMagic。《網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)：Java網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)》適用于Java網(wǎng)絡(luò)爬蟲開發(fā)的初學(xué)者和進(jìn)階者；也可作為網(wǎng)絡(luò)爬蟲課程教學(xué)的參考書，供高等院校文本挖掘、自然語言處理、大數(shù)據(jù)商務(wù)分析等相關(guān)學(xué)科的本科生和研究生參考使用；也可供企業(yè)網(wǎng)絡(luò)爬蟲開發(fā)人員參考使用。

作者簡(jiǎn)介

　　錢洋合肥工業(yè)大學(xué)管理科學(xué)與工程系博士、CSDN博客專家。作為技術(shù)人員參與過多個(gè)橫向、縱向?qū)W術(shù)課題，負(fù)責(zé)數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與開發(fā)工作。在CSDN（博客名稱：HFUT_qianyang）上撰寫了多篇關(guān)于數(shù)據(jù)采集、自然語言處理、編程語言等領(lǐng)域的原創(chuàng)博客。姜元春合肥工業(yè)大學(xué)教授、博士生導(dǎo)師。長(zhǎng)期從事電子商務(wù)、商務(wù)智能、數(shù)據(jù)采集與挖掘等方面的理論研究與教學(xué)工作。先后主持過國(guó)家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目、國(guó)家自然科學(xué)基金重大研究計(jì)劃培育項(xiàng)目、國(guó)家自然科學(xué)基金青年科學(xué)基金項(xiàng)目、教育部人文社科青年基金項(xiàng)目、阿里巴巴青年學(xué)者支持計(jì)劃、CCF-騰訊犀牛鳥基金項(xiàng)目等課題的研究工作。

圖書目錄

第1 章網(wǎng)絡(luò)爬蟲概述與原理 1
1.1 網(wǎng)絡(luò)爬蟲簡(jiǎn)介 1
1.2 網(wǎng)絡(luò)爬蟲分類 2
1.3 網(wǎng)絡(luò)爬蟲流程 4
1.4 網(wǎng)絡(luò)爬蟲的采集策略 5
1.5 學(xué)習(xí)網(wǎng)絡(luò)爬蟲的建議 5
1.6 本章小結(jié) 6
第2 章網(wǎng)絡(luò)爬蟲涉及的Java 基礎(chǔ)知識(shí) 7
2.1 開發(fā)環(huán)境的搭建 7
2.1.1 JDK 的安裝及環(huán)境變量配置 7
2.1.2 Eclipse 的下載 9
2.2 基本數(shù)據(jù)類型 10
2.3 數(shù)組 11
2.4 條件判斷與循環(huán) 12
2.5 集合 15
2.5.1 List 和Set 集合 15
2.5.2 Map 集合 16
2.5.3 Queue 集合 17
2.6 對(duì)象與類 19
2.7 String 類 21
2.8 日期和時(shí)間處理 23
2.9 正則表達(dá)式 26
2.10 Maven 工程的創(chuàng)建 29
2.11 log4j 的使用 33
2.12 本章小結(jié) 40
第3 章 HTTP 協(xié)議基礎(chǔ)與網(wǎng)絡(luò)抓包 41
3.1 HTTP 協(xié)議簡(jiǎn)介 41
3.2 URL 42
3.3 報(bào)文 44
3.4 HTTP 請(qǐng)求方法 46
3.5 HTTP 狀態(tài)碼 46
3.5.1 狀態(tài)碼2XX 47
3.5.2 狀態(tài)碼3XX 47
3.5.3 狀態(tài)碼4XX 48
3.5.4 狀態(tài)碼5XX 48
3.6 HTTP 信息頭 48
3.6.1 通用頭 49
3.6.2 請(qǐng)求頭 52
3.6.3 響應(yīng)頭 55
3.6.4 實(shí)體頭 56
3.7 HTTP 響應(yīng)正文 57
3.7.1 HTML 58
3.7.2 XML 60
3.7.3 JSON 61
3.8 網(wǎng)絡(luò)抓包 64
3.8.1 簡(jiǎn)介 64
3.8.2 使用情境 65
3.8.3 瀏覽器實(shí)現(xiàn)網(wǎng)絡(luò)抓包 65
3.8.4 其他網(wǎng)絡(luò)抓包工具推薦 70
3.9 本章小結(jié) 70
第4 章網(wǎng)頁內(nèi)容獲取 71
4.1 Jsoup 的使用 71
4.1.1 jar 包的下載 71
4.1.2 請(qǐng)求URL 72
4.1.3 設(shè)置頭信息 75
4.1.4 提交請(qǐng)求參數(shù) 78
4.1.5 超時(shí)設(shè)置 80
4.1.6 代理服務(wù)器的使用 81
4.1.7 響應(yīng)轉(zhuǎn)輸出流（圖片、PDF 等的下載） 83
4.1.8 HTTPS 請(qǐng)求認(rèn)證 85
4.1.9 大文件內(nèi)容獲取問題 89
4.2 HttpClient 的使用 91
4.2.1 jar 包的下載 91
4.2.2 請(qǐng)求URL 92
4.2.3 EntityUtils 類 97
4.2.4 設(shè)置頭信息 98
4.2.5 POST 提交表單 100
4.2.6 超時(shí)設(shè)置 103
4.2.7 代理服務(wù)器的使用 105
4.2.8 文件下載 106
4.2.9 HTTPS 請(qǐng)求認(rèn)證 108
4.2.10 請(qǐng)求重試 111
4.2.11 多線程執(zhí)行請(qǐng)求 114
4.3 URLConnection 與HttpURLConnection 117
4.3.1 實(shí)例化 117
4.3.2 獲取網(wǎng)頁內(nèi)容 118
4.3.3 GET 請(qǐng)求 118
4.3.4 模擬提交表單（POST 請(qǐng)求） 119
4.3.5 設(shè)置頭信息 120
4.3.6 連接超時(shí)設(shè)置 121
4.3.7 代理服務(wù)器的使用 122
4.3.8 HTTPS 請(qǐng)求認(rèn)證 122
4.4 本章小結(jié) 124
第5 章網(wǎng)頁內(nèi)容解析 125
5.1 HTML 解析 125
5.1.1 CSS 選擇器 125
5.1.2 Xpath 語法 127
5.1.3 Jsoup 解析HTML 128
5.1.4 HtmlCleaner 解析HTML 135
5.1.5 HTMLParser 解析HTML 139
5.2 XML 解析 144
5.3 JSON 解析 145
5.3.1 JSON 校正 145
5.3.2 org.json 解析JSON 147
5.3.3 Gson 解析JSON 152
5.3.4 Fastjson 解析JSON 157
5.3.5 網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)演練 159
5.4 本章小結(jié) 165
第6 章網(wǎng)絡(luò)爬蟲數(shù)據(jù)存儲(chǔ) 166
6.1 輸入流與輸出流 166
6.1.1 簡(jiǎn)介 166
6.1.2 File 類 166
6.1.3 文件字節(jié)流 169
6.1.4 文件字符流 172
6.1.5 緩沖流 176
6.1.6 網(wǎng)絡(luò)爬蟲下載圖片實(shí)戰(zhàn) 180
6.1.7 網(wǎng)絡(luò)爬蟲文本存儲(chǔ)實(shí)戰(zhàn) 184
6.2 Excel 存儲(chǔ) 188
6.2.1 Jxl 的使用 188
6.2.2 POI 的使用 191
6.2.3 爬蟲案例 198
6.3 MySQL 數(shù)據(jù)存儲(chǔ) 202
6.3.1 數(shù)據(jù)庫的基本概念 203
6.3.2 SQL 語句基礎(chǔ) 203
6.3.3 Java 操作數(shù)據(jù)庫 207
6.3.4 爬蟲案例 217
6.4 本章小結(jié) 219
第7 章網(wǎng)絡(luò)爬蟲實(shí)戰(zhàn)項(xiàng)目 220
7.1 新聞數(shù)據(jù)采集 220
7.1.1 采集的網(wǎng)頁 220
7.1.2 框架介紹 222
7.1.3 程序編寫 223
7.2 企業(yè)信息采集 235
7.2.1 采集的網(wǎng)頁 235
7.2.2 框架介紹 238
7.2.3 第一層信息采集 239
7.2.4 第二層信息采集 248
7.3 股票信息采集 256
7.3.1 采集的網(wǎng)頁 256
7.3.2 框架介紹 257
7.3.3 程序設(shè)計(jì) 258
7.3.4 Quartz 實(shí)現(xiàn)定時(shí)調(diào)度任務(wù) 267
7.4 本章小結(jié) 271
第8 章 Selenium 的使用 272
8.1 Selenium 簡(jiǎn)介 272
8.2 Java Selenium 環(huán)境搭建 272
8.3 瀏覽器的操控 274
8.4 元素定位 276
8.4.1 id 定位 276
8.4.2 name 定位 277
8.4.3 class 定位 278
8.4.4 tag name 定位 278
8.4.5 link text 定位 278
8.4.6 Xpath 定位 279
8.4.7 CSS 選擇器定位 279
8.5 模擬登錄 280
8.6 動(dòng)態(tài)加載JavaScript 數(shù)據(jù)（操作滾動(dòng)條） 283
8.7 隱藏瀏覽器 285
8.8 截取驗(yàn)證碼 287
8.9 本章小結(jié) 291
第9 章網(wǎng)絡(luò)爬蟲開源框架 292
9.1 Crawler4j 的使用 292
9.1.1 Crawler4j 簡(jiǎn)介 292
9.1.2 jar 包的下載 292
9.1.3 入門案例 293
9.1.4 相關(guān)配置 297
9.1.5 圖片的采集 300
9.1.6 數(shù)據(jù)采集入庫 304
9.2 WebCollector 的使用 312
9.2.1 WebCollector 簡(jiǎn)介 312
9.2.2 jar 包的下載 313
9.2.3 入門案例 313
9.2.4 相關(guān)配置 318
9.2.5 HTTP 請(qǐng)求擴(kuò)展 319
9.2.6 翻頁數(shù)據(jù)采集 327
9.2.7 圖片的采集 331
9.2.8 數(shù)據(jù)采集入庫 334
9.3 WebMagic 的使用 347
9.3.1 WebMagic 簡(jiǎn)介 347
9.3.2 jar 包的下載 347
9.3.3 入門案例（翻頁數(shù)據(jù)采集） 347
9.3.4 相關(guān)配置 351
9.3.5 數(shù)據(jù)存儲(chǔ)方式 352
9.3.6 數(shù)據(jù)采集入庫 355
9.3.7 圖片的采集 365
9.4 本章小結(jié) 368