文本挖掘中若干關(guān)鍵問題研究

定　價：￥20.00

作　者：	陸旭著
出版社：	中國科學(xué)技術(shù)大學(xué)出版社
叢編項：
標　簽：	計算機理論

購買這本書可以去

ISBN：	9787312022807	出版時間：	2008-12-01	包裝：	平裝
開本：	16開	頁數(shù)：	117	字數(shù)：

內(nèi)容簡介

　　介紹了文本分類和偏最小二乘回歸，提出了基于變量投影重要性指標的文本分類特征選擇方法，論述了偏最小二乘Logistic文本分類模型，闡述了CHTC層次文本分類模型的研究工作，《文本挖掘中若干關(guān)鍵問題研究》可供相關(guān)領(lǐng)域科研工作者、大學(xué)高年級學(xué)生和研究生閱讀。

作者簡介

暫缺《文本挖掘中若干關(guān)鍵問題研究》作者簡介

圖書目錄

前言
第1章導(dǎo)論
1.1 研究背景
1.2 文本分類綜述
1.3 本書的內(nèi)容結(jié)構(gòu)
1.4 本書的創(chuàng)新工作
第2章文本分類概述
2.1 文本分類的數(shù)學(xué)定義
2.2 文本分類任務(wù)的特點
2.3 文本分類系統(tǒng)的組成
2.4 文檔預(yù)處理
2.5 文檔的表示
2.6 常用文本分類模型
2.7 文本分類器學(xué)習、測試和評價
第3章偏最小二乘回歸方法的基本理論
3.1 偏最小二乘回歸的發(fā)展歷史
3.2 偏最小二乘回歸的基本原理
3.3 偏最小二乘回歸的基本思想
3.4 數(shù)學(xué)原理
3.5 偏最小二乘回歸的理論算法
3.6 成分數(shù)的確定
第4章基于變量投影重要性指標的特征選擇方法研究
4.1 維數(shù)約簡技術(shù)
4.2 符號約定
4.3 常用的特征選擇方法
4.4 常用的特征抽取方法
4.5 基于變量投影重要性指標的特征選擇方法
4.6 實驗結(jié)果和分析
第5章偏最小二乘Logistic文本分類模型研究
5.1 Logistic回歸模型
5.2 偏最小二乘Logistic回歸模型
5.3 偏最小二乘Logistic文本分類模型
5.4 實驗結(jié)果和分析
第6章 GHTC層次文本分類模型研究
6.1 層次分類概述
6.2 層次特征選擇
6.3 GHTC層次文本分類模型
6.4 實驗結(jié)果和分析
第7章總結(jié)與展望
7.1 總結(jié)
7.2 研究展望
附錄1 REUTERS-21578前10個常見類和前10個稀有類的前20個特征VIP值
附錄2 復(fù)旦文本分類語料庫部分類別的前20個特征VIP值
附錄3 OHSUMED語料庫層次結(jié)構(gòu)
附錄4 20 Newsgroups語料庫各節(jié)點各特征維數(shù)的微平均F1值和宏平均F1值變化情況
參考文獻
后記