注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡網(wǎng)絡與數(shù)據(jù)通信網(wǎng)絡服務Python數(shù)據(jù)挖掘:概念、方法與實踐

Python數(shù)據(jù)挖掘:概念、方法與實踐

Python數(shù)據(jù)挖掘:概念、方法與實踐

定 價:¥59.00

作 者: (美)梅甘·斯夸爾
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787111565482 出版時間: 2017-05-01 包裝:
開本: 16開 頁數(shù): 194 字數(shù):  

內(nèi)容簡介

  在本書中,你將深入許多數(shù)據(jù)挖掘中常被忽視的領域,包括關聯(lián)規(guī)則挖掘、實體匹配、網(wǎng)絡挖掘、情緒分析、命名實體識別、文本摘要、主題建模和異常檢測。對于每種數(shù)據(jù)挖掘技術,我們將在比較解決每種問題所用的各種策略之前,研究目前新的佳實踐。然后,將用來自軟件工程領域的實際數(shù)據(jù),實現(xiàn)示例解決方案,并學習理解和解讀所得結果的方法。

作者簡介

暫缺《Python數(shù)據(jù)挖掘:概念、方法與實踐》作者簡介

圖書目錄


譯者序
關于審稿人
前言
第1章 擴展你的數(shù)據(jù)挖掘工具箱1
1.1 什么是數(shù)據(jù)挖掘2
1.2 如何進行數(shù)據(jù)挖掘4
1.2.1 Fayyad等人的KDD過程4
1.2.2 韓家煒等人的KDD過程4
1.2.3 CRISP-DM過程5
1.2.4 六步過程6
1.2.5 哪一種數(shù)據(jù)挖掘方法最好6
1.3 在數(shù)據(jù)挖掘中使用哪些技術7
1.4 如何建立數(shù)據(jù)挖掘工作環(huán)境9
1.5 小結14
第2章 關聯(lián)規(guī)則挖掘16
2.1 什么是頻繁項集16
2.1.1 都市傳奇“尿布與啤酒”17
2.1.2 頻繁項集挖掘基礎知識18
2.2 邁向關聯(lián)規(guī)則19
2.2.1 支持度20
2.2.2 置信度20
2.2.3 關聯(lián)規(guī)則21
2.2.4 包含數(shù)據(jù)的示例21
2.2.5 附加值—修復計劃中的漏洞22
2.2.6 尋找頻繁項集的方法24
2.3 項目—發(fā)現(xiàn)軟件項目標簽中的關聯(lián)規(guī)則25
2.4 小結38
第3章 實體匹配39
3.1 什么是實體匹配40
3.1.1 數(shù)據(jù)合并42
3.1.2 匹配技術45
3.1.3 基于屬性的相似度匹配45
3.1.4 屬性匹配方法46
3.1.5 利用不相交數(shù)據(jù)集48
3.1.6 基于上下文的相似度匹配48
3.1.7 基于機器學習的實體匹配49
3.1.8 實體匹配技術的評估50
3.2 實體匹配項目53
3.2.1 軟件項目匹配的難度53
3.2.2 兩個例子53
3.2.3 根據(jù)項目名稱匹配55
3.2.4 根據(jù)人名匹配55
3.2.5 根據(jù)URL匹配55
3.2.6 按照主題和描述關鍵詞匹配56
3.2.7 數(shù)據(jù)集57
3.2.8 代碼58
3.2.9 結果63
3.3 小結66
第4章 網(wǎng)絡分析68
4.1 什么是網(wǎng)絡68
4.2 網(wǎng)絡計量71
4.2.1 網(wǎng)絡的度數(shù)71
4.2.2 網(wǎng)絡直徑72
4.2.3 網(wǎng)絡中的通路、路徑和跡72
4.2.4 網(wǎng)絡的成分73
4.2.5 圖的中心性73
4.3 圖數(shù)據(jù)的表示76
4.3.1 鄰接矩陣76
4.3.2 邊表和鄰接表77
4.3.3 圖數(shù)據(jù)結構之間的差別77
4.3.4 將數(shù)據(jù)導入圖結構中78
4.4 真實項目84
4.4.1 探索數(shù)據(jù)84
4.4.2 生成網(wǎng)絡文件89
4.4.3 以網(wǎng)絡的形式理解數(shù)據(jù)91
4.5 小結107
第5章 文本情緒分析109
5.1 什么是情緒分析110
5.2 情緒分析基礎知識111
5.2.1 觀點的結構111
5.2.2 文檔級和句子級分析112
5.2.3 觀點的重要特征113
5.3 情緒分析算法114
5.4 情緒挖掘應用116
5.4.1 項目動機117
5.4.2 數(shù)據(jù)準備117
5.4.3 聊天消息的數(shù)據(jù)分析120
5.4.4 電子郵件消息的數(shù)據(jù)分析124
5.5 小結130
第6章 文本中的命名實體識別131
6.1 為什么尋找命名實體?131
6.2 命名實體識別技術134
6.3 NER系統(tǒng)的構建與評估137
6.3.1 NER和部分匹配137
6.3.2 處理部分匹配138
6.4 命名實體識別項目140
6.5 小結149
第7章 自動化文本摘要150
7.1 什么是自動化文本摘要151
7.2 文本摘要工具151
7.2.1 使用NTLK的簡單文本摘要152
7.2.2 使用Gensim的文本摘要155
7.2.3 使用Sumy的文本摘要157
7.3 小結163
第8章 文本中的主題建模164
8.1 什么是主題建模164
8.2 潛在狄利克雷分配166
8.3 Gensim主題建模167
8.3.1 理解Gensim LDA主題169
8.3.2 理解Gensim LDA的遍數(shù)170
8.3.3 對新文檔應用Gensim LDA模型172
8.3.4 序列化Gensim LDA對象172
8.4 用于更大項目的Gensim LDA174
8.5 小結176
第9章 挖掘數(shù)據(jù)異常178
9.1 什么是數(shù)據(jù)異常178
9.1.1 缺失數(shù)據(jù)179
9.1.2 修復缺失數(shù)據(jù)181
9.1.3 數(shù)據(jù)錯誤184
9.1.4 離群值186
9.2 小結194

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號