注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡數(shù)據(jù)庫數(shù)據(jù)庫理論數(shù)據(jù)挖掘?qū)嵱脵C器學習技術(原書第2版)

數(shù)據(jù)挖掘?qū)嵱脵C器學習技術(原書第2版)

數(shù)據(jù)挖掘?qū)嵱脵C器學習技術(原書第2版)

定 價:¥48.00

作 者: (新西蘭)威滕(Witten,I.H.),(新西蘭)弗蘭克(Frank,E.) 著,董琳 等譯;董琳譯
出版社: 機械工業(yè)出版社
叢編項: 計算機科學叢書
標 簽: 數(shù)據(jù)庫存儲與管理

ISBN: 9787111182054 出版時間: 2006-02-01 包裝: 膠版紙
開本: 小16開 頁數(shù): 362 字數(shù):  

內(nèi)容簡介

  本書介紹數(shù)據(jù)挖掘的基本理論與實踐方法。主要內(nèi)容包括:各種模型(決策樹、關聯(lián)規(guī)則、線性模型、聚類、貝葉斯網(wǎng)以及神經(jīng)網(wǎng)絡)以及在實踐中的運用,所存在缺陷的分析。安全地清理數(shù)據(jù)集、建立以及評估模型的預測質(zhì)量的方法,并且提供了一個公開的數(shù)據(jù)挖掘工作平臺Weka。Weka系統(tǒng)擁有進行數(shù)據(jù)挖掘任務的圖形用戶界面,有助于理解模型,是一個實用并且深受歡迎的工具。.本書邏輯嚴密、內(nèi)容翔實、極富實踐性,適合作為高等學校本科生或研究生的教材,也可供相關技術人員參考。正如所有受到商業(yè)注目的新興技術一樣,數(shù)據(jù)挖掘的運用也是極其多樣化的。言過其實的報導聲稱可以建立算法:在數(shù)據(jù)的海洋里發(fā)現(xiàn)秘密。但事實上機器學習中沒有魔術,沒有隱藏的力量,沒有煉金術。有的只是一些可以將有用的信息從原始數(shù)據(jù)中提煉出來的清晰明了的實用技術。本書敘述了這些技術并展示了它們是如何工作的。..本書對1999年的初版做了重大的改動。雖說核心概念沒有變化,但本書做了更新,反映出過去五年的變化。新版的重要部分包括了30種新的技術;一個加強了互動界面的Weka機器學習工作平臺;有關神經(jīng)網(wǎng)絡的完整信息,一個有關貝葉斯網(wǎng)絡的新章節(jié);諸如此類,不勝枚舉。本書提供了機器學習理論概念的完整基礎,此外還對實際工作中應用的相關工具和技術提了一些建議,在本書中你將發(fā)現(xiàn):成功數(shù)據(jù)挖掘技術的核心算法——歷經(jīng)考驗的真實技術及領先前沿的方法。轉(zhuǎn)換輸入或輸出,改善性能的方法??上螺d的Weka軟件,它集合了能承擔數(shù)據(jù)挖掘任務的機器學習算法,包括對數(shù)據(jù)進行預處理。分類,回歸、聚類、關聯(lián)規(guī)則以及在新的交互式界面上的可視化。...

作者簡介

  Ian H.Witten,新西蘭懷卡托大學計算機科學系教授,ACM和新西蘭皇家學會成員,曾榮獲2004年國際信息處理研究協(xié)會(IFIP)頒發(fā)的Namur獎項。他的著作包括《Managing Gigabytes:Compressirlg and Indexing Documents and Images》、《How to Build a Digital Library》以及眾多的期刊和學會文章。

圖書目錄

出版者的話.
專家指導委員會
譯者序
中文版前言

前言
第一部分機器學習工具與技術
第1章緒論
1.1數(shù)據(jù)挖掘和機器學習
1.1.1描述結(jié)構(gòu)模式
1.1.2機器學習
1.1.3數(shù)據(jù)挖掘
1.2簡單的例子:天氣問題和其他
1.2.1天氣問題
1.2.2隱形眼鏡:一個理想化的問題
1.2.3鳶尾花:一個經(jīng)典的數(shù)值型數(shù)據(jù)集
1.2.4CPU性能:介紹數(shù)值預測
1.2.5勞資協(xié)商:一個更真實的例子
1.2.6大豆分類:一個經(jīng)典的機器學習的成功例子
1.3應用領域
1.3.1決策包含評判
1.3.2圖像篩選
1.3.3負載預測
1.3.4診斷
1.3.5市場和銷售
1.3.6其他應用
1.4機器學習和統(tǒng)計學
1.5用于搜索的概括
1.5.1枚舉概念空間
1.5.2偏差
1.6數(shù)據(jù)挖掘和道德
1.7補充讀物
第2章輸入:概念.實例和屬性
2.1概念
2.2樣本
2.3屬性
2.4輸入準備
2.4.1數(shù)據(jù)收集
2.4.2ARFF格式
2.4.3稀疏數(shù)據(jù)
2.4.4屬性類型
2.4.5殘缺值
2.4.6不正確的值
2.4.7了解數(shù)據(jù)
2.5補充讀物
第3章輸出:知識表達
3.1決策表
3.2決策樹
3.3分類規(guī)則
3.4關聯(lián)規(guī)則
3.5包含例外的規(guī)則
3.6包含關系的規(guī)則
3.7數(shù)值預測樹
3.8基于實例的表達
3.9聚類
3.10補充讀物
第4章算法:基本方法
4.1推斷基本規(guī)則
4.1.1殘缺值和數(shù)值屬性
4.1.2討論
4.2統(tǒng)計建模
4.2.1殘缺值和數(shù)值屬性
4.2.2用于文檔分類的貝葉斯模型
4.2.3討論
4.3分治法:創(chuàng)建決策樹
4.3.1計算信息量
4.3.2高度分支屬性
4.3.3討論
4.4覆蓋算法:建立規(guī)則
4.4.1規(guī)則與樹
4.4.2一個簡單的覆蓋算法
4.4.3規(guī)則與決策列
4.5挖掘關聯(lián)規(guī)則
4.5.1項集
4.5.2關聯(lián)規(guī)則
4.5.3有效地建立規(guī)則
4.5.4討論
4.6線性模型
4.6.1數(shù)值預測:線性回歸
4.6.2線性分類:Logistic回歸
4.6.3使用感知器的線性分類
4.6.4使用Winnow的線性分類
4.7基于實例的學習
4.7.1距離函數(shù)
4.7.2有效尋找最近鄰
4.7.3討論
4.8聚類
4.8.1基于距離的迭代聚類
4.8.2快速距離計算
4.8.3討論
4.9補充讀物
第5章可信度:評估機器學習結(jié)果
5.1訓練和測試
5.2預測性能
5.3交叉驗證
5.4其他估計法
5.4.1留一法
5.4.2自引導法
5.5數(shù)據(jù)挖掘方案比較
5.6預測概率
5.6.1次損失函數(shù)
5.6.2信息損失函數(shù)
5.6.3討論
5.7計算成本
5.7.1成本敏感分類
5.7.2成本敏感學習
5.7.3上升圖
5.7.4ROC曲線
5.7.5反饋率-精確率曲線
5.7.6討論
5.7.7成本曲線
5.8評估數(shù)值預測
5.9最短描述長度原理
5.10聚類方法中應用MDL原理
5.11補充讀物
第6章實現(xiàn):真正的機器學習方案
6.1決策樹
6.1.1數(shù)值屬性
6.1.2殘缺值
6.1.3修剪
6.1.4估計誤差率
6.1.5決策樹歸納的復雜度
6.1.6從決策樹到規(guī)則
6:1.7C4.5:選擇和選項
6.1.8討論
6.2分類規(guī)則
6.2.1選擇測試的標準
6.2.2殘缺值,數(shù)值屬性
6.2.3生成好的規(guī)則
6.2.4使用全局優(yōu)化
6.2.5從局部決策樹中獲得規(guī)則
6.2.6包含例外的規(guī)則
6.2.7討論
6.3擴展線性模型
6.3.1最大邊際超平面
6.3.2非線性類邊界
6.3.3支持向量回歸
6.3.4核感知器
6.3.5多層感知器
6.3.6反向傳播法
6.3.7徑向基函數(shù)網(wǎng)絡
6.3.8討論
6.4基于實例的學習
6.4.1減少樣本集數(shù)量
6.4.2修剪干擾樣本集
6.4.3屬性加權
6.4.4推廣樣本集
6.4.5用于推廣樣本集的距離函數(shù)
6.4.6推廣的距離函數(shù)
6.4.7討論
6.5數(shù)值預測
6.5.1模型樹
6.5.2建樹
6.5.3修剪樹
6.5.4名詞性屬性
6.5.5殘缺值
6.5.6模型樹歸納偽代碼
6.5.7從模型樹到規(guī)則
6.5.8局部加權線性回歸
6.5.9討論
6.6聚類
6.6.1選擇聚類的個數(shù)
6.6.2遞增聚類
6.6.3類別效用
6.6.4基于概率的聚類
6.6.5EM算法
6.6.6擴展混合模型
6.6.7貝葉斯聚類
6.6.8討論..
6.7貝葉斯網(wǎng)絡
6.7.1做出預測
6.7.2學習貝葉斯網(wǎng)絡
6.7.3算法細節(jié)
6.7.4用于快速學習的數(shù)據(jù)結(jié)構(gòu)
6.7.5討論
第7章轉(zhuǎn)換:處理輸入和輸出
7.1屬性選擇
7.1.1獨立于方案的選擇
7.1.2搜索屬性空間
7.1.3特定方案選擇
7.2離散數(shù)值屬性
7.2.1無指導離散
7.2.2基于熵的離散
7.2.3其他離散方法
7.2.4基于熵和基于誤差的離散
7.2.5離散屬性轉(zhuǎn)換成數(shù)值屬性
7.3一些有用的轉(zhuǎn)換
7.3.1主分量分析
7.3.2隨機投影,
7.3.3從文本到屬性向量
7.3.4時間序列
7.4自動數(shù)據(jù)清理
7.4.1改進決策樹
7.4.2穩(wěn)健回歸
7.4.3偵察異情
7.5組合多種模型
7.5.1裝袋
7.5.2考慮成本的裝袋
7.5.3隨機化
7.5.4提升
7.5.5疊加回歸
7.5.6疊加logistic回歸
7.5.7選擇樹
7.5.8Logistic模型樹
7.5.9堆棧
7.5.10誤差糾正輸出編碼
7.6使用沒有類標的數(shù)據(jù)
7.6.1用于分類的聚類
7.6.2聯(lián)合訓練
7.6.3EM和聯(lián)合訓練
7.7補充讀物
第8章繼續(xù):擴展和應用
8.1從大型的數(shù)據(jù)集里學習
8.2融合領域知識
8.3文本和網(wǎng)絡挖掘
8.4對抗情形
8.5無處不在的數(shù)據(jù)挖掘
8.6補充讀物
第二部分Weka機器學習平臺
第9章Weka簡介
9.1Weka中包含了什么
9.2如何使用Weka
9.3Weka的其他應用
9.4如何得到Weka
第10章Explorer界面
10.1開始著手
10.1.1準備數(shù)據(jù)
10.1.2將數(shù)據(jù)載入探索者
10.1.3建立決策樹
10.1.4查看結(jié)果
10.1.5重做一遍
10.1.6運用模型
10.1.7運行錯誤的處理
10.2探索“探索者”
10.2.1載入及過濾文件
10.2.2訓練和測試學習方案
10.2.3自己動手:用戶分類器
10.2.4使用元學習器
10.2.5聚類和關聯(lián)規(guī)則
10.2.6屬性選擇
10.2.7可視化
10.3過濾算法
10.3.1無指導屬性過濾器
10.3.2無指導實例過濾器
10.3.3有指導過濾器
10.4學習算法
10.4.1貝葉斯分類器
10.4.2樹
10.4.3規(guī)則
10.4.4函數(shù)
10.4.5懶惰分類器
10.4.6其他的雜項分類器
10.5元學習算法
10.5.1裝袋和隨機化
10.5.2提升
10.5.3合并分類器
10.5.4成本敏感學習
10.5.5優(yōu)化性能
10.5.6針對不同任務重新調(diào)整分類器
10.6聚類算法
10.7關聯(lián)規(guī)則學習器
10.8屬性選擇
10.8.1屬性子集評估器
10.8.2單一屬性評估器
10.8.3搜索方法
第11章KnowledgeFlow界面
11.1開始著手
11.2知識流組件
11.3配置及連接組件
11.4遞增學習
第12章Experimenter界面
12.1開始著手
12.1.1運行一個實驗
12.1.2分析所得結(jié)果
12.2簡單設置
12.3高級設置
12.4分析面板
12.5將運行負荷分布到多個機器上
第13章命令行界面
13.1開始著手
13.2Weka的結(jié)構(gòu)
13.2.1類,實例和包
13.2.2weka.core包
13.2.3weka.classifiers包
13.2.4其他包
13.2.5Javadoc索引
13.3命令行選項
13.3.1通用選項
13.3.2與具體方案相關的選項
第14章嵌入式機器學習
14.1一個簡單的數(shù)據(jù)挖掘程序
14.2講解代碼
14.2.1main()
14.2.2MessageClassifier()
14.2.3updateData()
14.2.4classifyMessage()
第15章編寫新學習方案
15.1一個分類器范例
15.1.1buildClassifier()
15.1.2makeTree()
15.1.3computelnfoGain()
15.1.4classifylnstance()
15.1.5main()
15.2與實現(xiàn)分類器有關的慣例
參考文獻
索引...

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號