注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學(xué)技術(shù)計算機/網(wǎng)絡(luò)數(shù)據(jù)庫數(shù)據(jù)庫設(shè)計/管理R統(tǒng)計數(shù)據(jù)清洗及應(yīng)用

R統(tǒng)計數(shù)據(jù)清洗及應(yīng)用

R統(tǒng)計數(shù)據(jù)清洗及應(yīng)用

定 價:¥68.00

作 者: (荷蘭)馬克·范德魯,埃德溫·德榮格
出版社: 清華大學(xué)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302526629 出版時間: 2019-06-01 包裝: 平裝
開本: 16 頁數(shù): 284 字數(shù):  

內(nèi)容簡介

  ■重點關(guān)注數(shù)據(jù)清洗方法的自動化,既包括理論知識,也包括使用R語言編寫的應(yīng)用。 ■使讀者能夠設(shè)計數(shù)據(jù)清洗過程,用于進行一次性分析或者設(shè)置生產(chǎn)系統(tǒng)以便定期進行數(shù)據(jù)清洗。 ■探索各種統(tǒng)計技術(shù),以便解決諸如不完整、矛盾和離群等方面的問題,更好地進行數(shù)據(jù)清洗組件的集成和質(zhì)量監(jiān)控。 ■圖書配套網(wǎng)站提供特征數(shù)據(jù)和R范例代碼。

作者簡介

暫缺《R統(tǒng)計數(shù)據(jù)清洗及應(yīng)用》作者簡介

圖書目錄

目    錄

 

第1章  數(shù)據(jù)清洗   1

1.1  統(tǒng)計價值鏈   1

1.1.1  原始數(shù)據(jù)   2

1.1.2  輸入數(shù)據(jù)   2

1.1.3  有效數(shù)據(jù)   3

1.1.4  統(tǒng)計數(shù)據(jù)   3

1.1.5  輸出   3

1.2  《R統(tǒng)計數(shù)據(jù)清洗及應(yīng)用》使用的表示法和約定   3

第2章  R語言簡介   5

2.1  命令行中的R語言   5

2.2  向量   7

2.2.1  向量計算   9

2.2.2  數(shù)組和矩陣   10

2.3  數(shù)據(jù)幀   11

2.3.1  公式-數(shù)據(jù)接口   12

2.3.2  選擇行和列,布爾運算符   13

2.3.3  使用索引進行選擇   13

2.3.4  數(shù)據(jù)幀操縱:dplyr軟件包   15

2.4  特殊值   16

2.5  在R中導(dǎo)入和導(dǎo)出數(shù)據(jù)   19

2.5.1  R中的文件路徑   20

2.5.2  軟件包提供的格式   20

2.5.3  從數(shù)據(jù)庫讀取數(shù)據(jù)   21

2.5.4  處理R外部的數(shù)據(jù)   21

2.6  函數(shù)   22

2.6.1  使用函數(shù)   22

2.6.2  編寫函數(shù)   23

2.7  《R統(tǒng)計數(shù)據(jù)清洗及應(yīng)用》中使用的軟件包   24

第3章  數(shù)據(jù)的技術(shù)表示   27

3.1  數(shù)值數(shù)據(jù)   28

3.1.1  整數(shù)   28

3.1.2  R中的整數(shù)   30

3.1.3  實數(shù)   31

3.1.4  雙精度數(shù)   31

3.1.5  機器精度的概念   33

3.1.6  處理浮點數(shù)的不良結(jié)果   34

3.1.7  處理不良結(jié)果   35

3.1.8  R中的數(shù)值數(shù)據(jù)   37

3.2  文本數(shù)據(jù)   38

3.2.1  術(shù)語和編碼   38

3.2.2  Unicode   39

3.2.3  一些常見的編碼方案   40

3.2.4  R中的文本數(shù)據(jù):character類的對象   43

3.2.5  R中的編碼方案   45

3.2.6  使用非本地編碼方案進行數(shù)據(jù)的讀取和寫入   46

3.2.7  檢測編碼方案   48

3.2.8  排序規(guī)則和排序   49

3.3  時間和日期   51

3.3.1  TAI、UTC以及POSIX從Epcoch開始的秒數(shù)   51

3.3.2  時間和日期表示法   52

3.3.3  R中的時間和日期存儲   54

3.3.4  R中的時間和日期轉(zhuǎn)換   55

3.3.5  閏日、時區(qū)和夏令時   57

3.4  區(qū)域設(shè)置注意事項   58

第4章  數(shù)據(jù)結(jié)構(gòu)   61

4.1  簡介   61

4.2  表格數(shù)據(jù)   61

4.2.1  data.frame對象   62

4.2.2  數(shù)據(jù)庫   62

4.2.3  dplyr   64

4.3  矩陣數(shù)據(jù)   65

4.4  時間序列   66

4.5  圖表數(shù)據(jù)   68

4.6  Web數(shù)據(jù)   70

4.6.1  網(wǎng)頁爬取   70

4.6.2  Web API   70

4.7  其他數(shù)據(jù)   73

4.8  整理表格數(shù)據(jù)   73

4.8.1  每列變量   75

4.8.2  單個觀測值存儲在多個表中   75

第5章  清洗文本數(shù)據(jù)   77

5.1  字符規(guī)范化   78

5.1.1  編碼轉(zhuǎn)換和Unicode規(guī)范化   78

5.1.2  字符轉(zhuǎn)換和音譯   80

5.2  使用正則表達式進行模式匹配   82

5.2.1  基本正則表達式   82

5.2.2  實用的正則表達式   85

5.2.3  在R中生成正則表達式   93

5.3  R中的常見字符串處理任務(wù)   94

5.4  近似文本匹配   99

5.4.1  字符串指標   101

5.4.2  R中的字符串指標和近似文本匹配   110

第6章  數(shù)據(jù)驗證   121

6.1  簡介   121

6.2  初識validate軟件包   122

6.2.1  使用check_that快速檢查   122

6.2.2  基本工作流程:validator和confront   124

6.2.3  validate和DSL背景簡介   126

6.3  定義數(shù)據(jù)驗證   127

6.3.1  數(shù)據(jù)驗證的正式定義   128

6.3.2  驗證函數(shù)的運算   130

6.3.3  驗證和缺失值   132

6.3.4  驗證函數(shù)的結(jié)構(gòu)   133

6.3.5  界定validate中的驗證規(guī)則   134

6.4  數(shù)據(jù)驗證函數(shù)的形式類型   135

6.4.1  深入了解測量   135

6.4.2  驗證規(guī)則的分類   137

6.5  使用validate軟件包驗證數(shù)據(jù)   139

6.5.1  控制臺和validator對象中的驗證規(guī)則   139

6.5.2  在管道中驗證   141

6.5.3  拋出錯誤或警告   141

6.5.4  測試線性方程式的公差   142

6.5.5  設(shè)置和重置選項   143

6.5.6  從文件導(dǎo)入驗證規(guī)則/將驗證規(guī)則導(dǎo)出到文件   144

6.5.7  檢查變量類型和元數(shù)據(jù)   146

6.5.8  檢查值范圍和代碼列表   147

6.5.9  檢查記錄中一致性規(guī)則   148

6.5.10  檢查跨記錄驗證規(guī)則   150

6.5.11  檢查函數(shù)依賴   151

6.5.12  跨數(shù)據(jù)集驗證   152

6.5.13  宏、變量組、鍵   153

6.5.14  分析輸出:validation對象   154

6.5.15  輸出維度和輸出選擇   156

第7章  在數(shù)據(jù)記錄中定位錯誤   159

7.1  錯誤定位   159

7.2  使用R進行錯誤定位   162

7.3  以MIP問題的形式進行錯誤定位   164

7.3.1  錯誤定位和混合整數(shù)規(guī)劃   165

7.3.2  線性限制   166

7.3.3  分類限制   167

7.3.4  混合類型限制   169

7.4  數(shù)值穩(wěn)定性問題   171

7.4.1  解決MIP問題   172

7.4.2  縮放數(shù)值記錄   174

7.4.3  設(shè)置數(shù)值閾值   174

7.5  實際問題   176

7.5.1  設(shè)置可靠性權(quán)重   176

7.5.2  簡化條件驗證規(guī)則   177

7.6  結(jié)論   181

第8章  規(guī)則集的維護和簡化   185

8.1  驗證規(guī)則的質(zhì)量   185

8.1.1  完備性   185

8.1.2  多余的規(guī)則和不可行性   186

8.2  以邏輯語言表述規(guī)則   186

8.3  規(guī)則集問題   188

8.3.1  不可行規(guī)則集   188

8.3.2  固定值   190

8.3.3  冗余規(guī)則   191

8.3.4  非松弛子句   191

8.3.5  非約束子句   191

8.4  檢測和簡化過程   192

8.4.1  混合整數(shù)規(guī)劃   193

8.4.2  檢測可行性   193

8.4.3  查找導(dǎo)致不可行的規(guī)則   193

8.4.4  檢測沖突規(guī)則   194

8.4.5  檢測部分不可行性   194

8.4.6  檢測固定值   194

8.4.7  檢測非松弛子句   195

8.4.8  檢測非約束子句   195

8.4.9  檢測冗余規(guī)則   195

8.5  結(jié)論   196

第9章  基于領(lǐng)域知識模型的方法   197

9.1  使用數(shù)據(jù)修改規(guī)則進行校正   197

9.1.1  修改函數(shù)   198

9.1.2  針對數(shù)值數(shù)據(jù)的一類修改函數(shù)   202

9.2  使用dcmodify進行基于規(guī)則的校正   206

9.2.1  從文件中讀取規(guī)則   207

9.2.2  修改規(guī)則語法   208

9.2.3  缺失值   209

9.2.4  順序執(zhí)行和與順序無關(guān)的執(zhí)行   209

9.2.5  選項設(shè)置管理   210

9.3  演繹校正   210

9.3.1  校正數(shù)值數(shù)據(jù)中的鍵入錯誤   211

9.3.2  使用線性限制進行演繹插補   214

第10章  插補和調(diào)整   221

10.1  缺失數(shù)據(jù)   221

10.1.1  缺失數(shù)據(jù)機制   221

10.1.2  使用R可視化和測試缺失數(shù)據(jù)中的模式   222

10.2  基于模型的插補   226

10.3  R中基于模型的插補   228

10.3.1  使用simputation指定插補方法   228

10.3.2  基于線性回歸的插補   229

10.3.3  M估計   231

10.3.4  Lasso回歸、嶺回歸和彈性網(wǎng)絡(luò)回歸   233

10.3.5  分類和回歸樹   233

10.3.6  隨機森林   236

10.4  使用R進行賦值元素插補   237

10.4.1  隨機和順序熱卡插補   238

10.4.2  k最近鄰和預(yù)測均值匹配   239

10.5  simputation軟件包中的其他方法   240

10.6  基于EM算法的插補   241

10.6.1  EM算法   242

10.6.2  假定多變量正態(tài)分布情況下的EM插補   244

10.7  插補下的抽樣方差   245

10.8  多重插補   246

10.8.1  基于EM算法的多重插補   249

10.8.2  Amelia軟件包   249

10.8.3  基于鏈式方程的多變量插補   253

10.8.4  使用mice軟件包進行插補   254

10.9  用于估計插補方差的分析方法   257

10.10  選擇插補方法   257

10.11  約束值調(diào)整   260

10.11.1  形式化描述   260

10.11.2  對插補數(shù)據(jù)的應(yīng)用   263

10.11.3  使用rspa軟件包調(diào)整插補值   263

第11章  示例:一個小型數(shù)據(jù)清洗系統(tǒng)   265

11.1  設(shè)置   266

11.1.1  確定性方法   267

11.1.2  錯誤定位   268

11.1.3  插補   269

11.1.4  調(diào)整插補數(shù)據(jù)   271

11.2  監(jiān)控數(shù)據(jù)更改   273

11.2.1  數(shù)據(jù)差異(Daff)   273

11.2.2  匯總單元格更改   275

11.2.3  按照驗證規(guī)則匯總更改   276

11.2.4  使用lumberjack自動跟蹤數(shù)據(jù)更改   278

11.3  集成和自動化   282

11.3.1  使用RScript   282

11.3.2  docopt軟件包   283

11.3.3  自動化數(shù)據(jù)清洗   283


本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號