注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計網(wǎng)絡數(shù)據(jù)采集技術:Java網(wǎng)絡爬蟲實戰(zhàn)

網(wǎng)絡數(shù)據(jù)采集技術:Java網(wǎng)絡爬蟲實戰(zhàn)

網(wǎng)絡數(shù)據(jù)采集技術:Java網(wǎng)絡爬蟲實戰(zhàn)

定 價:¥79.00

作 者: 錢洋,姜元春 著
出版社: 電子工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787121376078 出版時間: 2020-01-01 包裝: 平裝
開本: 16 頁數(shù): 380 字數(shù):  

內(nèi)容簡介

  《網(wǎng)絡數(shù)據(jù)采集技術:Java網(wǎng)絡爬蟲實戰(zhàn)》以Java為開發(fā)語言,系統(tǒng)地介紹了網(wǎng)絡爬蟲的理論知識和基礎工具,包括網(wǎng)絡爬蟲涉及的Java基礎知識、HTTP協(xié)議基礎與網(wǎng)絡抓包、網(wǎng)頁內(nèi)容獲取、網(wǎng)頁內(nèi)容解析和網(wǎng)絡爬蟲數(shù)據(jù)存儲等。本書選取典型網(wǎng)站,采用案例講解的方式介紹網(wǎng)絡爬蟲中涉及的問題,以增強讀者的動手實踐能力。同時,本書還介紹了3種Java網(wǎng)絡爬蟲開源框架,即Crawler4j、WebCollector和WebMagic。 《網(wǎng)絡數(shù)據(jù)采集技術:Java網(wǎng)絡爬蟲實戰(zhàn)》適用于Java網(wǎng)絡爬蟲開發(fā)的初學者和進階者;也可作為網(wǎng)絡爬蟲課程教學的參考書,供高等院校文本挖掘、自然語言處理、大數(shù)據(jù)商務分析等相關學科的本科生和研究生參考使用;也可供企業(yè)網(wǎng)絡爬蟲開發(fā)人員參考使用。

作者簡介

  錢洋 合肥工業(yè)大學管理科學與工程系博士、CSDN博客專家。作為技術人員參與過多個橫向、縱向?qū)W術課題,負責數(shù)據(jù)采集系統(tǒng)的設計與開發(fā)工作。在CSDN(博客名稱:HFUT_qianyang)上撰寫了多篇關于數(shù)據(jù)采集、自然語言處理、編程語言等領域的原創(chuàng)博客。 姜元春 合肥工業(yè)大學教授、博士生導師。長期從事電子商務、商務智能、數(shù)據(jù)采集與挖掘等方面的理論研究與教學工作。先后主持過國家自然科學基金優(yōu)秀青年科學基金項目、國家自然科學基金重大研究計劃培育項目、國家自然科學基金青年科學基金項目、教育部人文社科青年基金項目、阿里巴巴青年學者支持計劃、CCF-騰訊犀牛鳥基金項目等課題的研究工作。

圖書目錄

第1 章 網(wǎng)絡爬蟲概述與原理 1
1.1 網(wǎng)絡爬蟲簡介 1
1.2 網(wǎng)絡爬蟲分類 2
1.3 網(wǎng)絡爬蟲流程 4
1.4 網(wǎng)絡爬蟲的采集策略 5
1.5 學習網(wǎng)絡爬蟲的建議 5
1.6 本章小結(jié) 6
第2 章 網(wǎng)絡爬蟲涉及的Java 基礎知識 7
2.1 開發(fā)環(huán)境的搭建 7
2.1.1 JDK 的安裝及環(huán)境變量配置 7
2.1.2 Eclipse 的下載 9
2.2 基本數(shù)據(jù)類型 10
2.3 數(shù)組 11
2.4 條件判斷與循環(huán) 12
2.5 集合 15
2.5.1 List 和Set 集合 15
2.5.2 Map 集合 16
2.5.3 Queue 集合 17
2.6 對象與類 19
2.7 String 類 21
2.8 日期和時間處理 23
2.9 正則表達式 26
2.10 Maven 工程的創(chuàng)建 29
2.11 log4j 的使用 33
2.12 本章小結(jié) 40
第3 章 HTTP 協(xié)議基礎與網(wǎng)絡抓包 41
3.1 HTTP 協(xié)議簡介 41
3.2 URL 42
3.3 報文 44
3.4 HTTP 請求方法 46
3.5 HTTP 狀態(tài)碼 46
3.5.1 狀態(tài)碼2XX 47
3.5.2 狀態(tài)碼3XX 47
3.5.3 狀態(tài)碼4XX 48
3.5.4 狀態(tài)碼5XX 48
3.6 HTTP 信息頭 48
3.6.1 通用頭 49
3.6.2 請求頭 52
3.6.3 響應頭 55
3.6.4 實體頭 56
3.7 HTTP 響應正文 57
3.7.1 HTML 58
3.7.2 XML 60
3.7.3 JSON 61
3.8 網(wǎng)絡抓包 64
3.8.1 簡介 64
3.8.2 使用情境 65
3.8.3 瀏覽器實現(xiàn)網(wǎng)絡抓包 65
3.8.4 其他網(wǎng)絡抓包工具推薦 70
3.9 本章小結(jié) 70
第4 章 網(wǎng)頁內(nèi)容獲取 71
4.1 Jsoup 的使用 71
4.1.1 jar 包的下載 71
4.1.2 請求URL 72
4.1.3 設置頭信息 75
4.1.4 提交請求參數(shù) 78
4.1.5 超時設置 80
4.1.6 代理服務器的使用 81
4.1.7 響應轉(zhuǎn)輸出流(圖片、PDF 等的下載) 83
4.1.8 HTTPS 請求認證 85
4.1.9 大文件內(nèi)容獲取問題 89
4.2 HttpClient 的使用 91
4.2.1 jar 包的下載 91
4.2.2 請求URL 92
4.2.3 EntityUtils 類 97
4.2.4 設置頭信息 98
4.2.5 POST 提交表單 100
4.2.6 超時設置 103
4.2.7 代理服務器的使用 105
4.2.8 文件下載 106
4.2.9 HTTPS 請求認證 108
4.2.10 請求重試 111
4.2.11 多線程執(zhí)行請求 114
4.3 URLConnection 與HttpURLConnection 117
4.3.1 實例化 117
4.3.2 獲取網(wǎng)頁內(nèi)容 118
4.3.3 GET 請求 118
4.3.4 模擬提交表單(POST 請求) 119
4.3.5 設置頭信息 120
4.3.6 連接超時設置 121
4.3.7 代理服務器的使用 122
4.3.8 HTTPS 請求認證 122
4.4 本章小結(jié) 124
第5 章 網(wǎng)頁內(nèi)容解析 125
5.1 HTML 解析 125
5.1.1 CSS 選擇器 125
5.1.2 Xpath 語法 127
5.1.3 Jsoup 解析HTML 128
5.1.4 HtmlCleaner 解析HTML 135
5.1.5 HTMLParser 解析HTML 139
5.2 XML 解析 144
5.3 JSON 解析 145
5.3.1 JSON 校正 145
5.3.2 org.json 解析JSON 147
5.3.3 Gson 解析JSON 152
5.3.4 Fastjson 解析JSON 157
5.3.5 網(wǎng)絡爬蟲實戰(zhàn)演練 159
5.4 本章小結(jié) 165
第6 章 網(wǎng)絡爬蟲數(shù)據(jù)存儲 166
6.1 輸入流與輸出流 166
6.1.1 簡介 166
6.1.2 File 類 166
6.1.3 文件字節(jié)流 169
6.1.4 文件字符流 172
6.1.5 緩沖流 176
6.1.6 網(wǎng)絡爬蟲下載圖片實戰(zhàn) 180
6.1.7 網(wǎng)絡爬蟲文本存儲實戰(zhàn) 184
6.2 Excel 存儲 188
6.2.1 Jxl 的使用 188
6.2.2 POI 的使用 191
6.2.3 爬蟲案例 198
6.3 MySQL 數(shù)據(jù)存儲 202
6.3.1 數(shù)據(jù)庫的基本概念 203
6.3.2 SQL 語句基礎 203
6.3.3 Java 操作數(shù)據(jù)庫 207
6.3.4 爬蟲案例 217
6.4 本章小結(jié) 219
第7 章 網(wǎng)絡爬蟲實戰(zhàn)項目 220
7.1 新聞數(shù)據(jù)采集 220
7.1.1 采集的網(wǎng)頁 220
7.1.2 框架介紹 222
7.1.3 程序編寫 223
7.2 企業(yè)信息采集 235
7.2.1 采集的網(wǎng)頁 235
7.2.2 框架介紹 238
7.2.3 第一層信息采集 239
7.2.4 第二層信息采集 248
7.3 股票信息采集 256
7.3.1 采集的網(wǎng)頁 256
7.3.2 框架介紹 257
7.3.3 程序設計 258
7.3.4 Quartz 實現(xiàn)定時調(diào)度任務 267
7.4 本章小結(jié) 271
第8 章 Selenium 的使用 272
8.1 Selenium 簡介 272
8.2 Java Selenium 環(huán)境搭建 272
8.3 瀏覽器的操控 274
8.4 元素定位 276
8.4.1 id 定位 276
8.4.2 name 定位 277
8.4.3 class 定位 278
8.4.4 tag name 定位 278
8.4.5 link text 定位 278
8.4.6 Xpath 定位 279
8.4.7 CSS 選擇器定位 279
8.5 模擬登錄 280
8.6 動態(tài)加載JavaScript 數(shù)據(jù)(操作滾動條) 283
8.7 隱藏瀏覽器 285
8.8 截取驗證碼 287
8.9 本章小結(jié) 291
第9 章 網(wǎng)絡爬蟲開源框架 292
9.1 Crawler4j 的使用 292
9.1.1 Crawler4j 簡介 292
9.1.2 jar 包的下載 292
9.1.3 入門案例 293
9.1.4 相關配置 297
9.1.5 圖片的采集 300
9.1.6 數(shù)據(jù)采集入庫 304
9.2 WebCollector 的使用 312
9.2.1 WebCollector 簡介 312
9.2.2 jar 包的下載 313
9.2.3 入門案例 313
9.2.4 相關配置 318
9.2.5 HTTP 請求擴展 319
9.2.6 翻頁數(shù)據(jù)采集 327
9.2.7 圖片的采集 331
9.2.8 數(shù)據(jù)采集入庫 334
9.3 WebMagic 的使用 347
9.3.1 WebMagic 簡介 347
9.3.2 jar 包的下載 347
9.3.3 入門案例(翻頁數(shù)據(jù)采集) 347
9.3.4 相關配置 351
9.3.5 數(shù)據(jù)存儲方式 352
9.3.6 數(shù)據(jù)采集入庫 355
9.3.7 圖片的采集 365
9.4 本章小結(jié) 368

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號