注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫數據庫挖掘/數據倉庫統計學習基礎:數據挖掘、推理與預測

統計學習基礎:數據挖掘、推理與預測

統計學習基礎:數據挖掘、推理與預測

定 價:¥45.00

作 者: (美)Trevor Hastie等著;范明等譯;范明譯
出版社: 電子工業(yè)出版社
叢編項: 國外計算機科學教材系列
標 簽: 數據庫存儲與管理

ISBN: 9787505393318 出版時間: 2004-01-01 包裝: 膠版紙
開本: 26cm 頁數: 381 字數:  

內容簡介

  隨著計算機和信息時代的到來,統計問題的規(guī)模和復雜性都有了急劇增加。數據存儲、組織和檢索領域的挑戰(zhàn)導致一個新領域“數據挖掘”的產生。數據挖掘是一個多學科交叉領域,涉及數據庫技術、機器學習、統計學、神經網絡、模式識別、知識庫、信息提取、高性能計算等諸多領域,并在工業(yè)、商務、財經、通信、醫(yī)療衛(wèi)生、生物工程、科學等眾多行業(yè)得到了廣泛的應用。本書試圖將學習領域中許多重要的新思想匯集在一起,并且在統計學的框架下解釋它們。盡管有些數學細節(jié)是必要的,但本書強調的是方法和它們的概念基礎,而不是理論性質。本書內容廣泛,從有指導的學習(預測)到無指導的學習,應有盡有。包括神經網絡、支持向量機、分類樹和提升等主題,是同類書籍中介紹得最全面的,適合從事數據挖掘和機器學習研究的讀者閱讀。TrevorHastie,RobertTibshirani和JeromeFriedman都是斯坦福大學統計學教授,并在這個領域做出了杰出的貢獻。Hastie和Tibshirani提出了廣義和加法模型,并出版專著“GeneralizedAdditiveModels”。Hastie的主要研究領域為:非參數回歸和分類、統計計算以及生物信息學、醫(yī)學和工業(yè)的特殊數據挖掘問題。他提出主曲線和主曲面的概念,并用S-PLUS編寫了大量統計建模軟件。Tibshirani的主要研究領域為:應用統計學、生物統計學和機器學習。他提出了套索的概念,還是“AnIntroductiontotheBootstrap”一書的作者之一。Friedman是CART、MARS和投影尋蹤等數據挖掘工具的發(fā)明人之一。他不僅是位統計學家,而且是物理學家和計算機科學家,先后在物理學、計算機科學和統計學的一流雜志上表發(fā)論文80余篇。計算和信息技術的飛速發(fā)展帶來了醫(yī)學、生物學、財經和營銷等諸多領域的海量數據。理解這些數據是一種挑戰(zhàn),這導致了統計學領域新工具的發(fā)展,并延伸到諸如數據挖掘、機器學習和生物信息學等新領域。許多工具都具有共同的基礎,但常常用不同的術語來表達。本書介紹了這些領域的一些重要概念。盡管應用的是統計學方法,但強調的是概念,而不是數學。許多例子附以彩圖。本書內容廣泛,從有指導的學習(預測)到無指導的學習,應有盡有。包括神經網絡、支持向量機、分類樹和提升等主題,是同類書籍中介紹得最全面的。本書可作為高等院校相關專業(yè)本科生和研究生的教材,對于統計學相關人員、科學界和業(yè)界關注數據挖掘的人,本書值得一讀。

作者簡介

  TrevorHastie,RobertTibshirani和JeromeFriedman都是斯坦福大學統計學教授,并在這個領域做出了杰出的貢獻。Hastie和Tibshirani提出了廣義和加法模型,并出版專著“GeneralizedAdditiveModels”。Hastie的主要研究領域為:非參數回歸和分類、統計計算以及生物信息學、醫(yī)學和工業(yè)的特殊數據挖掘問題。他提出主曲線和主曲面的概念,并用S-PLUS編寫了大量統計建模軟件。Tibshirani的主要研究領域為:應用統計學、生物統計學和機器學習。他提出了套索的概念,還是“AnIntroductiontotheBootstrap”一書的作者之一。Friedman是CART、MARS和投影尋蹤等數據挖掘工具的發(fā)明人之一。他不僅是位統計學家,而且是物理學家和計算機科學家,先后在物理學、計算機科學和統計學的一流雜志上表發(fā)論文80余篇。

圖書目錄

 第1章 緒論
 第2章 有指導學習概述
 2.1 引言
 2.2 變量類型和術語
 2.3 兩種簡單預測方法:最小二乘方和最近鄰法
 2.4 統計判決理論
 2.5 高維空間的局部方法
 2.6 統計模型. 有指導學習和函數逼近
 2.7 結構化回歸模型
 2.8 受限的估計方法類
 2.9 模型選擇和偏倚-方差權衡
 文獻注釋
 習題
 第3章 回歸的線性方法
 3.1 引言
 3.2 線性回歸模型和最小二乘方
 3.3 從簡單的一元回歸到多元回歸
 3.4 子集選擇和系數收縮
 3.5 計算考慮
 文獻注釋
 習題
 第4章 分類的線性方法
 4.1 引言
 4.2 指示矩陣的線性回歸
 4.3 線性判別分析
 4.4 邏輯斯締回歸
 4.5 分離超平面
 文獻注釋
 習題
 第5章 基展開與正則化
 5.1 引言
 5.2 分段多項式和樣條
 5.3 過濾和特征提取
 5.4 光滑樣條
 5.5 光滑參數的自動選擇
 5.6 無參邏輯斯締回歸
 5.7 多維樣條函數
 5.8 正則化和再生核希爾伯特空間
 5.9 小波光滑
 文獻注釋
 習題
 第6章 核方法
 6.1 一維核光滑方法
 6.2 選擇核的寬度
 6.3 IRp上的局部回歸
 6.4 IRp上結構化局部回歸模型
 6.5 局部似然和其他模型
 6.6 核密度估計和分類
 6.7 徑向基函數和核
 6.8 密度估計和分類的混合模型
 6.9 計算考慮
 文獻注釋
 習題
 第7章 模型評估與選擇
 7.1 引言
 7.2 偏倚. 方差和模型復雜性
 7.3 偏倚-方差分解
 7.4 訓練誤差率的樂觀性
 7.5 樣本內預測誤差的估計
 7.6 有效的參數個數
 7.7 貝葉斯方法和BIC
 7.8 最小描述長度
 7.9 Vapnik-Chernovenkis維
 7.10 交叉驗證
 7.11 自助法
 文獻注釋
 習題
 第8章 模型推理和平均
 8.1 引言
 8.2 自助法和極大似然法
 8.3 貝葉斯方法
 8.4 自助法和貝葉斯推理之間的聯系
 8.5 EM算法
 8.6 從后驗中抽樣的MCMC
 8.7 裝袋
 8.8 模型平均和堆棧
 8.9 隨機搜索:沖擊
 文獻注釋
 習題
 第9章 加法模型. 樹和相關方法
 9.1 廣義加法模型
 9.2 基于樹的方法
 9.3 PRIM——凸點搜索
 9.4 MARS:多元自適應回歸樣條
 9.5 分層專家混合
 9.6 遺漏數據
 9.7 計算考慮
 文獻注釋
 習題
 第10章 提升和加法樹
 10.1 提升方法
 10.2 提升擬合加法模型
 10.3 前向分步加法建模
 10.4 指數損失函數和AdaBoost
 10.5 為什么使用指數損失
 10.6 損失函數和健壯性
 10.7 數據挖掘的“現貨”過程
 10.8 例:垃圾郵件數據
 10.9 提升樹
 10.10 數值優(yōu)化
 10.11 提升適當大小的樹
 10.12 正則化
 10.13 可解釋性
 10.14 實例
 文獻注釋
 習題
 第11章 神經網絡
 11.1 引言
 11.2 投影尋蹤回歸
 11.3 神經網絡
 11.4 擬合神經網絡
 11.5 訓練神經網絡的一些問題
 11.6 例:模擬數據
 11.7 例:ZIP編碼數據
 11.8 討論
 11.9 計算考慮
 文獻注釋
 習題
 第12章 支持向量機和柔性判別
 12.1 引言
 12.2 支持向量分類器
 12.3 支持向量機
 12.4 線性判別分析的推廣
 12.5 柔性判別分析
 12.6 罰判別分析
 12.7 混合判別分析
 12.8 計算考慮
 文獻注釋
 習題
 第13章 原型方法和最近鄰
 13.1 引言
 13.2 原型方法
 13.3 K-最近鄰分類器
 13.4 自適應的最近鄰方法
 13.5 計算考慮
 文獻注釋
 習題
 第14章 無指導學習
 14.1 引言
 14.2 關聯規(guī)則
 14.3 聚類分析
 14.4 自組織映射
 14.5 主成分. 曲線和曲面
 14.6 獨立成分分析和探測性投影尋蹤
 14.7 多維定標
 文獻注釋
 習題
 術語表
 參考文獻

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號