隨著計算機和信息時代的到來,統計問題的規(guī)模和復雜性都有了急劇增加。數據存儲、組織和檢索領域的挑戰(zhàn)導致一個新領域“數據挖掘”的產生。數據挖掘是一個多學科交叉領域,涉及數據庫技術、機器學習、統計學、神經網絡、模式識別、知識庫、信息提取、高性能計算等諸多領域,并在工業(yè)、商務、財經、通信、醫(yī)療衛(wèi)生、生物工程、科學等眾多行業(yè)得到了廣泛的應用。本書試圖將學習領域中許多重要的新思想匯集在一起,并且在統計學的框架下解釋它們。盡管有些數學細節(jié)是必要的,但本書強調的是方法和它們的概念基礎,而不是理論性質。本書內容廣泛,從有指導的學習(預測)到無指導的學習,應有盡有。包括神經網絡、支持向量機、分類樹和提升等主題,是同類書籍中介紹得最全面的,適合從事數據挖掘和機器學習研究的讀者閱讀。TrevorHastie,RobertTibshirani和JeromeFriedman都是斯坦福大學統計學教授,并在這個領域做出了杰出的貢獻。Hastie和Tibshirani提出了廣義和加法模型,并出版專著“GeneralizedAdditiveModels”。Hastie的主要研究領域為:非參數回歸和分類、統計計算以及生物信息學、醫(yī)學和工業(yè)的特殊數據挖掘問題。他提出主曲線和主曲面的概念,并用S-PLUS編寫了大量統計建模軟件。Tibshirani的主要研究領域為:應用統計學、生物統計學和機器學習。他提出了套索的概念,還是“AnIntroductiontotheBootstrap”一書的作者之一。Friedman是CART、MARS和投影尋蹤等數據挖掘工具的發(fā)明人之一。他不僅是位統計學家,而且是物理學家和計算機科學家,先后在物理學、計算機科學和統計學的一流雜志上表發(fā)論文80余篇。計算和信息技術的飛速發(fā)展帶來了醫(yī)學、生物學、財經和營銷等諸多領域的海量數據。理解這些數據是一種挑戰(zhàn),這導致了統計學領域新工具的發(fā)展,并延伸到諸如數據挖掘、機器學習和生物信息學等新領域。許多工具都具有共同的基礎,但常常用不同的術語來表達。本書介紹了這些領域的一些重要概念。盡管應用的是統計學方法,但強調的是概念,而不是數學。許多例子附以彩圖。本書內容廣泛,從有指導的學習(預測)到無指導的學習,應有盡有。包括神經網絡、支持向量機、分類樹和提升等主題,是同類書籍中介紹得最全面的。本書可作為高等院校相關專業(yè)本科生和研究生的教材,對于統計學相關人員、科學界和業(yè)界關注數據挖掘的人,本書值得一讀。