注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)軟件與程序設(shè)計(jì)文本數(shù)據(jù)挖掘 基于R語(yǔ)言

文本數(shù)據(jù)挖掘 基于R語(yǔ)言

文本數(shù)據(jù)挖掘 基于R語(yǔ)言

定 價(jià):¥89.00

作 者: 黃天元 著
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買(mǎi)這本書(shū)可以去


ISBN: 9787111677505 出版時(shí)間: 2021-05-01 包裝: 平裝
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 181 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  文本是一種特殊的非結(jié)構(gòu)化數(shù)據(jù),在當(dāng)今的大數(shù)據(jù)時(shí)代,其價(jià)值日趨凸顯。本書(shū)利用開(kāi)源而強(qiáng)大的R軟件,對(duì)文本數(shù)據(jù)挖掘的概念、技術(shù)及技巧進(jìn)行了系統(tǒng)的介紹。本書(shū)共11章,內(nèi)容包括:走進(jìn)文本數(shù)據(jù)挖掘,R語(yǔ)言快速入門(mén),字符串的基本處理,用好正則表達(dá)式,導(dǎo)入各類(lèi)文本數(shù)據(jù),對(duì)各類(lèi)文本數(shù)據(jù)進(jìn)行預(yù)處理,文本特征提取的4種方法,基于機(jī)器學(xué)習(xí)的文本分類(lèi)方法,文本情感分析,文本可視化,文本數(shù)據(jù)挖掘項(xiàng)目實(shí)踐。本書(shū)還提供了豐富的應(yīng)用案例和程序源代碼引導(dǎo)讀者高效學(xué)習(xí)。 本書(shū)適合對(duì)文本數(shù)據(jù)挖掘感興趣的學(xué)生、科研人員和數(shù)據(jù)科學(xué)從業(yè)者閱讀。同時(shí),本書(shū)還可以作為工具書(shū),為需要經(jīng)常進(jìn)行文本數(shù)據(jù)挖掘的讀者提供快速檢索。

作者簡(jiǎn)介

  黃天元,復(fù)旦大學(xué)理學(xué)博士。熱愛(ài)數(shù)據(jù)科學(xué)與開(kāi)源工具,致力于利用數(shù)據(jù)科學(xué)迅速積累行業(yè)經(jīng)驗(yàn)優(yōu)勢(shì)和科學(xué)知識(shí)發(fā)現(xiàn),研究領(lǐng)域包括但不限于信息計(jì)量、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、應(yīng)用統(tǒng)計(jì)建模、知識(shí)圖譜等。在CRAN上維護(hù)了3個(gè)下載量破萬(wàn)的R包(akc、tidyfst、tidyft),著有《R語(yǔ)言高效數(shù)據(jù)處理指南》一書(shū),并設(shè)有知乎專(zhuān)欄“R語(yǔ)言數(shù)據(jù)挖掘”,關(guān)注人數(shù)9000+。

圖書(shū)目錄

目錄

前言
第1章 走進(jìn)文本數(shù)據(jù)挖掘1
1.1 什么是文本數(shù)據(jù)挖掘1
1.2 為什么要做文本數(shù)據(jù)挖掘2
1.3 如何進(jìn)行文本數(shù)據(jù)挖掘2
1.3.1 文本數(shù)據(jù)挖掘的流程2
1.3.2 文本數(shù)據(jù)挖掘的基本任務(wù)及方法4
1.4 文本數(shù)據(jù)挖掘軟件工具概覽5
第2章 文本數(shù)據(jù)挖掘利器—R語(yǔ)言7
2.1 開(kāi)發(fā)環(huán)境配置7
2.1.1 下載并安裝R軟件7
2.1.2 包的管理8
2.1.3 版本升級(jí)9
2.1.4 集成開(kāi)發(fā)環(huán)境10
2.2 R的基本數(shù)據(jù)類(lèi)型11
2.2.1 數(shù)值型12
2.2.2 邏輯型12
2.2.3 字符型12
2.2.4 因子型13
2.3 R的常用數(shù)據(jù)結(jié)構(gòu)13
2.3.1 向量13
2.3.2 矩陣14
2.3.3 列表14
2.3.4 數(shù)據(jù)框15
2.4 R的基礎(chǔ)編程知識(shí)15
2.4.1 賦值15
2.4.2 函數(shù)16
2.4.3 強(qiáng)制類(lèi)型轉(zhuǎn)換16
2.4.4 條件判斷17
2.4.5 循環(huán)操作17
2.5 數(shù)據(jù)操作入門(mén)19
2.5.1 文件讀寫(xiě)19
2.5.2 數(shù)據(jù)框的檢視25
2.5.3 單表操作28
2.5.4 多表操作37
2.5.5 缺失值處理42
2.5.6 長(zhǎng)寬數(shù)據(jù)轉(zhuǎn)換46
第3章 從基礎(chǔ)做起1—字符串的基本處理51
3.1 字符串的構(gòu)造51
3.2 字符串的辨識(shí)、計(jì)數(shù)與定位52
3.3 字符串的提取53
3.4 字符串的定制化輸出54
3.5 字符串的替換與刪除56
3.6 字符串的拼接與拆分57
3.7 字符串的排序57
第4章 從基礎(chǔ)做起2—用好正則表達(dá)式59
4.1 通配符解析59
4.1.1 點(diǎn)運(yùn)算符(“.”)60
4.1.2 字符集(“[]”)60
4.1.3 否定字符集(“[^ ]”)61
4.1.4 出現(xiàn)0次或更多(“*”)61
4.1.5 出現(xiàn)1次或更多(“+”)62
4.1.6 出現(xiàn)0次或1次(“?”)62
4.1.7 出現(xiàn)次數(shù)范圍限制(“{}”)62
4.1.8 特征標(biāo)群(“(...)”)62
4.1.9 或運(yùn)算符(“|”)63
4.1.10 轉(zhuǎn)義字符(“\\\\”)63
4.1.11 匹配開(kāi)頭部分(“^”)63
4.1.12 匹配結(jié)尾部分(“$”)64
4.2 反向引用64
4.3 簡(jiǎn)寫(xiě)字符集65
4.4 貪婪匹配與惰性匹配66
4.5 零寬斷言67
4.5.1 正先行斷言(“?=...”)67
4.5.2 負(fù)先行斷言(“?!...”)68
4.5.3 正后發(fā)斷言(“?
4.5.4 負(fù)后發(fā)斷言(“?4.5.5 提取括號(hào)中的內(nèi)容68
第5章 步入正題—導(dǎo)入各類(lèi)文本數(shù)據(jù)70
5.1 readtext包簡(jiǎn)介70
5.2 不同格式文本文件的導(dǎo)入70
5.2.1 讀取txt文件71
5.2.2 讀取csv/tsv文件72
5.2.3 讀取json文件74
5.2.4 讀取pdf文件74
5.2.5 讀取Word文件75
5.2.6 讀取html文件75
5.2.7 讀取壓縮包75
5.3 讀入不同編碼格式的文檔76
5.4 文件數(shù)據(jù)結(jié)構(gòu)的轉(zhuǎn)化77
第6章 更進(jìn)一步—對(duì)各類(lèi)文本數(shù)據(jù)進(jìn)行預(yù)處理79
6.1 拼寫(xiě)糾錯(cuò)79
6.2 文本切分80
6.2.1 段落切分81
6.2.2 句子切分82
6.2.3 詞語(yǔ)切分82
6.2.4 n元切分85
6.2.5 字符切分85
6.3 去除標(biāo)點(diǎn)86
6.4 去除停用詞86
6.5 擴(kuò)展縮寫(xiě)87
6.6 詞干提取87
6.7 詞形還原與詞性標(biāo)注88
6.8 批量文檔預(yù)處理90
第7章 上手文本數(shù)據(jù)挖掘—文本特征提取的4種方法92
7.1 基本特征提取92
7.2 基于TF-IDF的特征提取94
7.3 詞嵌入96
7.3.1 基于BOW96
7.3.2 基于word2vec98
7.3.3 基于GloVe100
7.3.4 基于fastText101
7.4 文檔向量化:doc2vec102

第8章 文本分類(lèi)—基于機(jī)器學(xué)習(xí)的方法105
8.1 無(wú)監(jiān)督分類(lèi)105
8.1.1 基于文本相似度的聚類(lèi)105
8.1.2 基于網(wǎng)絡(luò)集群識(shí)別的自動(dòng)化聚類(lèi)120
8.1.3 基于主題模型的分類(lèi)125
8.2 有監(jiān)督分類(lèi)129
8.2.1 二分類(lèi)129
8.2.2 多分類(lèi)136
第9章 深入理解文本內(nèi)涵—文本情感分析142
9.1 英文情感分析142
9.1.1 RSentiment143
9.1.2 sentimentr144
9.1.3 SentimentAnalysis145
9.1.4 meanr147
9.1.5 sentometrics148
9.2 中文情感分析151
9.2.1 環(huán)境與數(shù)據(jù)準(zhǔn)備151
9.2.2 情感詞典準(zhǔn)備151
9.2.3 中文分詞152
9.2.4 分值計(jì)算152
9.2.5 小結(jié)152
第10章 文本數(shù)據(jù)的直觀表達(dá)—文本可視化153
10.1 條形圖153
10.2 克利夫蘭點(diǎn)圖155
10.3 矩形樹(shù)狀圖156
10.4 詞云157
10.5 詞匯位置分布圖159
10.6 網(wǎng)絡(luò)圖164
10.7 雙文檔對(duì)比可視化167
第11章 舉一反三—文本數(shù)據(jù)挖掘項(xiàng)目實(shí)踐170
11.1 情感分析案例:量化中文新聞報(bào)道中的情感走勢(shì)170
11.2 文本分類(lèi)案例:基于詞袋模型對(duì)英文期刊摘要來(lái)源進(jìn)行分類(lèi)176
11.3 關(guān)鍵詞提取案例:根據(jù)CRAN的介紹文本提取R包關(guān)鍵字181

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)