注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術(shù)計算機/網(wǎng)絡(luò)計算機科學理論與基礎(chǔ)知識重構(gòu)大數(shù)據(jù)統(tǒng)計

重構(gòu)大數(shù)據(jù)統(tǒng)計

重構(gòu)大數(shù)據(jù)統(tǒng)計

定 價:¥79.00

作 者: 楊旭 著
出版社: 電子工業(yè)出版社
叢編項: 大數(shù)據(jù)叢書 阿里巴巴集團技術(shù)叢書
標 簽: 計算機理論、基礎(chǔ)知識 計算機與互聯(lián)網(wǎng)

ISBN: 9787121225000 出版時間: 2014-08-01 包裝: 平裝
開本: 16開 頁數(shù): 404 字數(shù):  

內(nèi)容簡介

  基于《重構(gòu)大數(shù)據(jù)統(tǒng)計》內(nèi)容開發(fā)的數(shù)據(jù)分析工具已經(jīng)在阿里巴巴集團內(nèi)部的多個部門使用,取得顯著效果。大數(shù)據(jù)的統(tǒng)計計算是進行數(shù)據(jù)探索和分析挖掘的基礎(chǔ),在實際應用中會遇到兩個問題:一個是需要使用多少資源;另一個是計算時間,它關(guān)系到數(shù)據(jù)探索分析的效率和效果。人們都希望花更少的錢,并且計算時間更短,但對于某個確定的計算過程,它們是成反比的?!吨貥?gòu)大數(shù)據(jù)統(tǒng)計》就是從統(tǒng)計計算的算法入手,重構(gòu)其計算過程,從而同時降低資源使用量和計算時間?!吨貥?gòu)大數(shù)據(jù)統(tǒng)計》提出了一套完整的關(guān)于大數(shù)據(jù)統(tǒng)計的計算理論,包括常用的各種統(tǒng)計量和統(tǒng)計方法?!吨貥?gòu)大數(shù)據(jù)統(tǒng)計》還提供大量的示例程序代碼幫助讀者進一步了解算法細節(jié),便于將書中的方法運用于實際計算。

作者簡介

  楊旭,2004年獲南開大學數(shù)學博士學位,之后在南開大學信息學院從事博士后研究工作。2006年加入微軟亞洲研究院,進行符號計算、大規(guī)模矩陣計算及機器學習算法研究;2010年加入阿里巴巴,從事大數(shù)據(jù)相關(guān)的統(tǒng)計和機器學習算法研發(fā)。

圖書目錄

第1章基本概念 1
1.1 數(shù)據(jù)類型 1
1.2 總體和樣本 2
1.3 參數(shù)和統(tǒng)計量 2
1.4 分布式計算 3
第2章單變量基本統(tǒng)計量 5
2.1 數(shù)量統(tǒng)計量 5
2.1.1 樣本方差為何除以n-1 7
2.1.2 數(shù)據(jù)分布與標準差的關(guān)系 10
2.1.3 新的計算公式 11
2.1.4 代碼實現(xiàn) 16
2.2 頻數(shù)統(tǒng)計量 18
2.3 次序統(tǒng)計量 23
2.3.1 通過排序方法計算次序統(tǒng)計量 25
2.3.2 不需排序就可計算的次序統(tǒng)計量 29
2.3.3 基于頻數(shù)信息計算次序統(tǒng)計量 31
2.3.4 中位數(shù)、眾數(shù)和均值的關(guān)系 34
第3章單變量數(shù)據(jù)的分布 36
3.1 直方圖 36
3.1.1 直方圖的計算 39
3.1.2 算法實現(xiàn) 42
3.1.3 已知數(shù)據(jù)頻數(shù)的情況下求直方圖 49
3.1.4 日期類型直方圖 49
3.2 經(jīng)驗分布 57
3.3 近似分位數(shù)和近似百分位數(shù) 61
3.4 PP、QQ概率圖 65
3.5 單變量的基本統(tǒng)計信息 69
第4章多變量的數(shù)據(jù)特征 77
4.1 協(xié)方差 77
4.2 相關(guān)系數(shù) 79
4.3 協(xié)方差和相關(guān)系數(shù)的計算實現(xiàn) 80
4.4 數(shù)據(jù)表的基本統(tǒng)計結(jié)果 84
第5章數(shù)據(jù)探索 88
5.1 擴展直方圖 88
5.1.1 計算方法 90
5.1.2 代碼實現(xiàn) 91
5.2 交叉表 110
第6章極限定理 116
6.1 大數(shù)定理 116
6.2 中心極限定理 117
第7章常用的分布函數(shù)介紹 123
7.1 基本定義 123
7.2 標準正態(tài)分布(Z分布或U分布) 124
7.3 卡方分布(χ^2分布) 129
7.4 學生T分布 133
7.5 F分布 139
第8章常用分布函數(shù)計算 145
8.1 函數(shù)定義 145
8.2 函數(shù)性質(zhì)及相互間的關(guān)系 147
8.3 分布函數(shù)關(guān)系圖 164
8.4 分布函數(shù)的計算 166
8.4.1 計算Γ(x) 166
8.4.2 計算CDF_Γ 170
8.4.3 計算CDF_Β 173
8.4.4 計算IDF_Γ和CDF_Β 176
8.4.5 其他函數(shù)的計算 178
8.5 生成常用分布的隨機數(shù) 180
第9章參數(shù)估計 187
9.1 點估計與區(qū)間估計 187
9.2 單個總體的參數(shù)估計 190
9.2.1 不同情況的參數(shù)估計表達式 190
9.2.2 單個總體參數(shù)估計的實現(xiàn) 191
9.3 兩個總體的參數(shù)估計 196
9.3.1 不同情況的參數(shù)估計表達式 196
9.3.2 兩個總體參數(shù)估計的實現(xiàn) 199
第10章假設(shè)檢驗 207
10.1 基本概念 207
10.2 參數(shù)檢驗 209
10.3 單個總體參數(shù)的檢驗 212
10.3.1 各種情況下的檢驗方法 212
10.3.2 單個總體參數(shù)檢驗方法的實現(xiàn) 214
10.3.3 不同檢驗方法的選擇 223
10.4 兩個總體參數(shù)的檢驗 227
10.4.1 各種情況下的檢驗方法 227
10.4.2 兩個總體參數(shù)檢驗方法的實現(xiàn) 231
10.4.3 不同檢驗方法的選擇 237
第11章非參數(shù)檢驗 244
11.1 Pearson擬合優(yōu)度χ^2檢驗 245
11.2 兩個變量的列聯(lián)表檢驗 248
11.3 K-S檢驗 250
11.3.1 單樣本K-S檢驗 251
11.3.2 雙樣本K-S檢驗 256
11.4 符號檢驗 258
11.5 秩統(tǒng)計量和秩檢驗方法 260
11.5.1 Wilcoxon秩和檢驗 260
11.5.2 Wilcoxon符號秩和檢驗 266
11.5.3 Kruskal-Wallis檢驗 268
11.5.4 Friedman檢驗 273
第12章方差分析 277
12.1 單因素方差分析 278
12.1.1 計算流程 278
12.1.2 代碼實現(xiàn) 280
12.1.3 方差分析與T檢驗的關(guān)系 283
12.1.4 方差分析中的多重比較方法 285
12.2 雙因素方差分析 289
12.2.1 無交互作用的雙因素方差分析 289
12.2.2 有交互作用的雙因素方差分析 295
第13章多元線性回歸 302
13.1 數(shù)學模型 302
13.2 顯著性檢驗 308
13.3 計算步驟 309
13.4 代碼實現(xiàn) 313
13.5 多重共線性 320
13.5.1 度量指標 320
13.5.2 代碼實現(xiàn) 323
13.5.3 應用示例 328
13.6 逐步回歸 330
第14章主成分分析 340
14.1 計算步驟 342
14.2 代碼實現(xiàn) 345
14.3 應用舉例 350
第15章判別分析 359
15.1 距離判別 359
15.1.1 Mahalanobis距離 360
15.1.2 模型訓練和預測 361
15.2 Fisher判別 364
15.3 Bayes判別 369
15.3.1 樸素Bayes判別 369
15.3.2 模型訓練和預測 370
15.4 判別算法的綜合模型 377
15.5 應用舉例 378
第16章模型評估曲線 383
16.1 相關(guān)概念 383
16.2 定義 384
16.2.1 ROC曲線 384
16.2.2 上升圖和反饋率―精確率線 386
16.3 計算實現(xiàn) 386
參考文獻 391

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號