前言
第1章 導論
1.1 研究背景
1.2 文本分類綜述
1.3 本書的內容結構
1.4 本書的創(chuàng)新工作
第2章 文本分類概述
2.1 文本分類的數學定義
2.2 文本分類任務的特點
2.3 文本分類系統(tǒng)的組成
2.4 文檔預處理
2.5 文檔的表示
2.6 常用文本分類模型
2.7 文本分類器學習、測試和評價
第3章 偏最小二乘回歸方法的基本理論
3.1 偏最小二乘回歸的發(fā)展歷史
3.2 偏最小二乘回歸的基本原理
3.3 偏最小二乘回歸的基本思想
3.4 數學原理
3.5 偏最小二乘回歸的理論算法
3.6 成分數的確定
第4章 基于變量投影重要性指標的特征選擇方法研究
4.1 維數約簡技術
4.2 符號約定
4.3 常用的特征選擇方法
4.4 常用的特征抽取方法
4.5 基于變量投影重要性指標的特征選擇方法
4.6 實驗結果和分析
第5章 偏最小二乘Logistic文本分類模型研究
5.1 Logistic回歸模型
5.2 偏最小二乘Logistic回歸模型
5.3 偏最小二乘Logistic文本分類模型
5.4 實驗結果和分析
第6章 GHTC層次文本分類模型研究
6.1 層次分類概述
6.2 層次特征選擇
6.3 GHTC層次文本分類模型
6.4 實驗結果和分析
第7章 總結與展望
7.1 總結
7.2 研究展望
附錄1 REUTERS-21578前10個常見類和前10個稀有類的前20個特征VIP值
附錄2 復旦文本分類語料庫部分類別的前20個特征VIP值
附錄3 OHSUMED語料庫層次結構
附錄4 20 Newsgroups語料庫各節(jié)點各特征維數的微平均F1值和宏平均F1值變化情況
參考文獻
后記