第一部分 數據挖掘介紹
第1章 了解數據挖掘 1
1.1 什么是數據挖掘 1
1.2 為何使用數據挖掘 2
1.3 當前數據挖掘是如何使用的 3
1.4 術語定義 4
1.5 數據挖掘方法 5
1.6 微軟數據挖掘概述 6
1.6.1 數據挖掘與OLAP 7
1.6.2 數據挖掘模型 7
1.6.3 數據挖掘算法 7
1.6.4 在數據挖掘中使用微軟
SQL Server語法 9
1.7 本章小結 9
第2章 微軟SQL Server Analysis Services
體系結構 10
2.1 OLAP介紹 10
2.1.1 MOLAP 12
2.1.2 ROLAP 12
2.1.3 HOLAP 13
2.2 服務器結構體系結構 14
2.3 客戶機結構體系結構 15
2.3.1 PivotTable Service 15
2.3.2 OLE DB 16
2.3.3 決策支持對象 17
2.3.4 多維表達式 17
2.3.5 預測連接 18
2.4 本章小結 18
第3章 數據存儲模型 19
3.1 為何數據挖掘需要一個數據倉庫 19
3.2 基于OLTP數據的報表可能對
性能造成威脅 22
3.3 用于數據挖掘的數據倉庫體系結構 23
3.3.1 由OLTP數據創(chuàng)建數據倉庫 24
3.3.2 為挖掘而優(yōu)化數據 26
3.3.3 數據挖掘物理結構 30
3.4 關系型數據倉庫 32
3.4.1 關系型數據存儲的優(yōu)點 32
3.4.2 為數據挖掘創(chuàng)建支持表 33
3.5 OLAP立方體 33
3.5.1 數據挖掘如何使用OLAP結構 33
3.5.2 OLAP存儲的優(yōu)點 34
3.5.3 何時OLAP不適合數據挖掘 36
3.6 本章小結 36
第4章 數據挖掘的方法 37
4.1 直接數據挖掘 37
4.2 間接數據挖掘 37
4.2.1 數據挖掘與統(tǒng)計學 38
4.2.2 從歷史數據中學習 42
4.2.3 預測未來 43
4.3 數據挖掘模型的訓練 45
4.4 本章小結 48
第二部分 數據挖掘方法
第5章 微軟決策樹 49
5.1 創(chuàng)建模型 49
5.2 使模型可視化 63
5.2.1 Dependency Network Browser 67
5.2.2 深入決策樹算法 71
5.3 如何推導預測結果 81
5.3.1 導航樹 81
5.3.2 導航與規(guī)則 83
5.3.3 何時使用決策樹 84
5.4 本章小結 84
第6章 使用OLAP創(chuàng)建決策樹 85
6.1 創(chuàng)建模型 85
6.1.1 選擇源的類型 85
6.1.2 選擇源立方體和數據挖掘技術 86
6.1.3 選擇實例 87
6.1.4 選擇預測實體 88
6.1.5 選擇訓練數據 89
6.1.6 選擇維和虛擬立方體 90
6.1.7 完成數據挖掘模型 91
6.2 OLAP挖掘模型編輯器 93
6.2.1 內容細節(jié)面板 93
6.2.2 結構面板 93
6.2.3 預測樹列表 94
6.3 使用OLAP數據挖掘模型分析數據 94
6.3.1 使用生成的虛擬立方體 95
6.3.2 使用生成的維 96
6.4 本章小結 99
第7章 微軟聚類 100
7.1 分類 101
7.2 分類的作用 101
7.3 聚類是間接數據挖掘技術 101
7.4 聚類是如何工作的 102
7.4.1 算法概述 102
7.4.2 K-Means聚類算法 102
7.4.3 何謂準確度量 105
7.4.4 聚類要素 105
7.4.5 度量“接近程度” 106
7.5 何時使用聚類 108
7.5.1 使關系可視化 108
7.5.2 使異常數據更醒目 108
7.5.3 為其他數據挖掘工作創(chuàng)建樣本 109
7.5.4 聚類的弱點 109
7.6 使用聚類創(chuàng)建數據挖掘模型 110
7.6.1 選擇源類型 110
7.6.2 為數據挖掘模型選擇表 111
7.6.3 選擇數據挖掘技術 112
7.6.4 編輯連接 112
7.6.5 為數據挖掘選擇實例的關鍵列 112
7.6.6 選擇用于輸入的和可預測的列 113
7.7 查看模型 114
7.7.1 聚類節(jié)點的組織結構 115
7.7.2 聚類節(jié)點的排序 116
7.8 分析數據 116
7.9 本章小結 117
第三部分 數據挖掘應用編程
第8章 利用微軟數據轉換服務 119
8.1 什么是DTS 119
8.2 DTS任務 120
8.2.1 轉換 120
8.2.2 批錄入 121
8.2.3 數據驅動查詢 121
8.2.4 執(zhí)行包 121
8.3 連接 124
8.3.1 源 124
8.3.2 配置連接 125
8.4 DTS包工作流程 125
8.4.1 DTS包的流程控制 125
8.4.2 優(yōu)先權約束 126
8.5 DTS設計器 126
8.5.1 打開DTS設計器 127
8.5.2 保存DTS包 127
8.6 dtsrun實用程序 129
8.7 用DTS建立數據挖掘模型 131
8.7.1 SQL Server環(huán)境準備 132
8.7.2 創(chuàng)建包 136
8.8 本章小結 158
第9章 使用決策支持對象 159
9.1 腳本語言與VB編程 159
9.1.1 Server對象 161
9.1.2 Database 對象 167
9.2 用DSO創(chuàng)建關系數據挖掘模型 169
9.3 用DSO創(chuàng)建OLAP數據挖掘模型 178
9.3.1 DataSource對象 181
9.3.2 數據挖掘模型 181
9.4 添加新的數據源 181
9.5 Analysis服務器角色 183
9.5.1 數據挖掘模型角色 183
9.5.2 添加一個新的數據挖掘模型角色 183
9.6 本章小結 184
第10章 理解數據挖掘結構 185
10.1 數據挖掘模型實例的結構 185
10.2 使用程序代碼來瀏覽數據挖掘模型 185
10.3 使用模式行集 190
10.3.1 MINING_MODELS模式行集 190
10.3.2 MINING_COLUMNS模式行集 195
10.3.3 MINING_MODEL_CONTENT
模式行集 201
10.3.4 MINING_SERVICES 模式行集 204
10.3.5 SERVICE_PARAMETERS
模式行集 206
10.3.6 MODEL_CONTENT_PMML
模式行集 208
10.4 本章小結 209
第11章 使用PivotTable Service進行
數據挖掘 210
11.1 重新分配組件 211
11.2 安裝和注冊組件 211
11.2.1 文件位置 212
11.2.2 安裝注冊設置 213
11.2.3 重新分配安裝程序 213
11.3 連接到PivotTable Service 214
11.3.1 使用PivotTable Service連接到
Analysis Services 214
11.3.2 使用HTTP連接到
Analysis Services 216
11.4 創(chuàng)建本地數據挖掘模型 217
11.4.1 本地挖掘模型的存儲 219
11.4.2 SELECT INTO語句 221
11.4.3 INSERT INTO語句 221
11.4.4 OPENROWSET語法 222
11.4.5 嵌套表和SHAPE語句 224
11.5 在數據挖掘中使用XML 225
11.6 本章小結 230
第12章 數據挖掘查詢 231
12.1 預測查詢組件 231
12.1.1 基本的預測查詢 231
12.1.2 指定測試實例源 231
12.1.3 指定列 233
12.1.4 PREDICTION JOIN子句 233
12.1.5 使用函數作為列 237
12.1.6 使用表值作為列 237
12.1.7 WHERE子句 239
12.1.8 預測函數 239
12.1.9 Predict 239
12.1.10 PredictProbability 240
12.1.11 PredictSupport 240
12.1.12 PredictVariance 241
12.1.13 PredictStdev 241
12.1.14 PredictProbabilityVariance 241
12.1.15 PredictProbabilityStdev 241
12.1.16 PredictHistogram 241
12.1.17 TopCount 244
12.1.18 TopSum 244
12.1.19 TopPercent 244
12.1.20 RangeMin 245
12.1.21 RangeMid 245
12.1.22 RangeMax 245
12.1.23 PredictScore 245
12.1.24 PredictNodeId 245
12.2 帶聚類模型的預測查詢 245
12.2.1 Cluster 246
12.2.2 ClusterProbability 246
12.2.3 ClusterDistance 247
12.3 使用DTS來運行預測查詢 247
12.4 本章小結 252
附 錄
附錄A 回歸分析 253
附錄B 術語表 271