定 價:¥59.00
作 者: | (美)茱莉亞·斯拉格 |
出版社: | 機械工業(yè)出版社 |
叢編項: | |
標 簽: | 程序設計 計算機/網(wǎng)絡 |
ISBN: | 9787111588559 | 出版時間: | 2018-04-01 | 包裝: | 平裝-膠訂 |
開本: | 16開 | 頁數(shù): | 字數(shù): |
前言
第1章 整潔文本格式
比較整潔文本結構與其他數(shù)據(jù)結構
unnest_tokens函數(shù)
整理Jane Austen的作品
gutenbergr包
詞頻
總結
第2章 基于整潔數(shù)據(jù)的情感分析
情感數(shù)據(jù)集
內連接的情感分析
比較三個情感詞典
最常見的正面單詞和負面單詞
Wordclouds模塊
除單詞外的其他文本單元
總結
第3章 分析詞和文件頻率:tf-idf
Jane Austen小說中的詞項頻率
Zipf定律
bind_tf_idf函數(shù)
物理學語料庫
總結
第4章 詞之間的關系:n-gram及相關性
n-gram詞條化
用widyr包對單詞對計數(shù)并計算相關性
總結
第5章 非整潔格式轉換
使文檔-詞項矩陣整潔
將整潔文本數(shù)據(jù)轉換為矩陣
總結
第6章 主題建模
LDA
示例:博大的圖書館館藏
LDA方法的替代實現(xiàn)
總結
第7章 案例研究:Twitter歸檔文件比較
單詞使用情況的比較
單詞使用情況的變化
收藏和轉發(fā)
總結
第8章 案例研究:NASA元數(shù)據(jù)挖掘
NASA如何組織數(shù)據(jù)
共現(xiàn)單詞與相關單詞
計算描述字段的tf-idf
總結
第9章 案例研究:分析Usenet文本
預處理
新聞組中的單詞
情感分析
總結
參考文獻