注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書教育/教材/教輔教材高職高專教材R語言(第2版)

R語言(第2版)

R語言(第2版)

定 價:¥59.00

作 者: 劉鵬,程顯毅,孫麗麗,林道榮
出版社: 清華大學出版社
叢編項: 大數據應用人才培養(yǎng)系列教材
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302610229 出版時間: 2022-07-01 包裝:
開本: 頁數: 字數:  

內容簡介

  本書通過Titanic 數據分析案例,深入淺出地介紹了R 語言在大數據分析應用中的相關知識,包括:數據準備、數據清洗、數據探索、數據變換、特征工程、數據建模、模型評估、模型部署等。全書共13章,第1~3 章介紹R 語言的開發(fā)環(huán)境和基本語法;第4~8 章按數據分析生命周期討論R語言的實現;第9 章高級編程相對獨立,主要解決復雜問題可能用到的程序結構;第10、11 章與機器學習有關,內容偏難,但通過Rattle 包回避了算法底層技術的難點;第12、13 章通過兩個實際項目,讓讀者體驗數據處理的全過程以及業(yè)務對分析的重要性。本書力求以簡潔、精練、理論與實踐相結合的方式,讓讀者快速掌握R 語言。 本書既可作為數據分析相關課程的教材,也可作為數據分析愛好者的參考資料。

作者簡介

  劉鵬,清華大學博士畢業(yè),現任南京云創(chuàng)大數據科技股份有限公司總經理,兼任中國大數據應用聯盟人工智能專家委員會主任、中國信息協(xié)會教育分會人工智能專家委員會主任、全國普通高校畢業(yè)生就業(yè)創(chuàng)業(yè)指導委員會委員、第45屆世界技能大賽中國區(qū)云計算選拔賽裁判長/專家指導組組長、2019年全國大學生數據建模比賽命題人、工信部云計算研究中心專家。程顯毅,工學博士,南通大學教授。硅湖職業(yè)技術學院特聘教授。江蘇省人工智能學會監(jiān)事會監(jiān)事,江蘇省微電腦學會人工智能專委會副主任委員。長期從事人工智能、自然語言理解領域的教學研究工作。主持國家自然科學基金項目2項。發(fā)表論文100多篇、出版教材6部、專著5部。

圖書目錄


第1 章 緒論

1.1 R 語言概述  1

1.1.1 R 語言現狀  1

1.1.2 R 語言主要優(yōu)勢  2

1.1.3 學R 語言的理由  3

1.2 新手上路  4

1.3 R 語言開發(fā)環(huán)境部署  5

1.3.1 安裝R  5

1.3.2 安裝RStudio  6

1.4 獲取幫助  8

1.5 工作空間  8

1.6 腳本  9

1.7 R 包  9

習題  10

第2 章 基本語法

2.1 變量  11

2.1.1 變量及其作用  11

2.1.2 變量命名  12

2.1.3 變量賦值  12

2.1.4 變量值輸出  12

2.2 常量  13

2.2.1 邏輯常量  13

2.2.2 符號常量  13

2.2.3 標量  13

2.3 向量  15

2.3.1 向量產生  15

2.3.2 向量引用  16

2.3.3 向量化運算  16

XII R 語言(第2 版)

2.3.4 向量排序  17

2.4 運算符  18

2.4.1 算術運算符  18

2.4.2 關系運算符  18

2.4.3 邏輯運算符  19

2.4.4 其他運算符  20

2.5 命令  20

2.6 重要內置函數  21

習題  23

第3 章 數據類型

3.1 基本數據類型  27

3.2 結構數據類型  28

3.2.1 矩陣  28

3.2.2 數組  30

3.2.3 數據框  32

3.2.4 因子  33

3.2.5 列表  34

3.3 字符串操作  35

3.3.1 分割  35

3.3.2 拼接  35

3.3.3 正則表達式  36

3.3.4 替換  39

3.3.5 提取  42

3.3.6 測定字符串長度  42

3.3.7 匹配  43

3.4 數據類型判斷和轉換  43

3.5 日期和時間數據操作  44

3.5.1 日期數據基本操作  44

3.5.2 時間數據基本操作  45

習題  45

第4 章 數據導入導出

4.1 數據導入  49

4.1.1 鍵盤輸入數據  49

目 錄 XIII

4.1.2 導入文本文件  50

4.1.3 導入csv 文件  51

4.1.4 導入Excel 文件  51

4.1.5 導入數據庫文件  51

4.2 數據導出  52

4.2.1 導出文本文件  52

4.2.2 保存圖片  53

習題  53

第5 章 數據可視化

5.1 一圖勝千言  55

5.2 低水平繪圖命令  56

5.2.1 點圖  56

5.2.2 線圖  58

5.2.3 面圖  60

5.3 高水平繪圖命令  63

5.3.1 認識ggplot2  63

5.3.2 幾何對象  63

5.3.3 映射  64

5.3.4 統(tǒng)計對象  66

5.3.5 標度  67

5.3.6 分面  68

5.3.7 其他修飾  69

5.4 交互式繪圖命令  72

5.4.1 rCharts 包  72

5.4.2 plotly 包  74

5.4.3 Shiny  76

5.5 數據可視化圖形選擇建議  83

習題  84

第6 章 數據清洗

6.1 缺失值分析  87

6.1.1 缺失值檢測  87

6.1.2 缺失數據處理  88

6.2 異常值分析  89

XIV R 語言(第2 版)

6.2.1 箱線圖檢測離群點  89

6.2.2 點圖檢測離群點  90

6.3 數據去重  91

6.4 規(guī)范化  92

6.4.1 數據的中心化  92

6.4.2 數據標準化  92

6.5 格式轉換  93

習題  95

第7 章 數據探索

7.1 單一變量分析  97

7.1.1 定量變量  97

7.1.2 定性變量  99

7.2 雙變量分析  100

7.2.1 一個定性變量和一個定量變量  100

7.2.2 兩個定性變量  100

7.2.3 兩個定量變量  101

7.3 多變量分析  102

7.3.1 集中趨勢度量  102

7.3.2 離中趨勢度量  103

7.4 相關分析  104

7.4 1 相關系數  104

7.4.2 直接繪制點圖  105

7.4.3 繪制點圖矩陣  106

習題  106

第8 章 數據變換

8.1 數據集劃分與選擇  109

8.1.1 數據集劃分  109

8.1.2 數據集選擇  110

8.2 特征工程  110

8.2.1 特征工程概述  110

8.2.2 特征構建  111

8.2.3 特征選擇  112

8.2.4 特征抽取  115

8.2.5 自動化特征工程  117

8.3 數據整合  118

8.3.1 通過向量化重構數據  119

8.3.2 為數據添加新變量  119

8.3.3 變形與融合  120

8.3.4 列聯表  123

8.3.5 分組匯總  123

8.3.6 連接表  125

習題  127

第9 章 高級編程

9.1 條件表達式  131

9.2 選擇結構  132

9.3 循環(huán)結構  135

9.4 用戶自定義函數  138

習題  139

第10 章 數據建模

10.1 Rattle 包  141

10.2 變量的類別  143

10.3 聚類分析  145

10.3.1 背景  145

10.3.2 K-means 聚類  146

10.3.3 層次聚類  148

10.4 關聯規(guī)則挖掘  150

10.4.1 背景  150

10.4.2 基本術語  151

10.4.3 關聯規(guī)則的分類  152

10.4.4 Apriori 算法  153

10.4.5 實驗指導  154

10.5 傳統(tǒng)決策樹模型  156

10.5.1 背景  156

10.5.2 ID3 算法  157

10.5.3 C4.5 算法  158

10.5.4 實驗指導  159

XVI R 語言(第2 版)

10.6 隨機森林決策樹模型  161

10.6.1 背景  161

10.6.2 隨機森林算法  161

10.6.3 實驗指導  163

10.7 自適應選擇決策樹模型  166

10.7.1 背景  166

10.7.2 Boosting 算法  166

10.7.3 adaboost 算法  167

10.7.4 實驗指導  167

10.8 SVM 171

10.8.1 背景  171

10.8.2 SVM 算法  171

10.8.3 實驗指導  173

10.9 線性回歸模型  174

10.9.1 背景  174

10.9.2 一元線性回歸方法  174

10.9.3 實驗指導  176

10.10 神經網絡模型  177

10.10.1 背景  177

10.10.2 人工神經網絡模型  178

10.10.3 實驗指導  179

習題  181

第11 章 模型評估

11.1 Rattle 模型評估選項卡  185

11.2 混淆矩陣  186

11.2.1 二分類混淆矩陣  186

11.2.2 模型評價指標  187

11.2.3 多分類混淆矩陣  188

11.3 風險圖  188

11.3.1 風險圖的作用  188

11.3.2 實驗指導  188

11.4 ROC 曲線  190

11.4.1 ROC 曲線概述  190

11.4.2 ROC 曲線的作用  190

11.4.3 實驗指導  190

11.5 交叉驗證  192

習題  193

第12 章 影響大學平均錄取分數線因素分析

12.1 背景與目標  195

12.2 數據說明  195

12.3 描述性分析  196

12.4 數據建模  199

12.5 總結  201

第13 章 收視率分析

13.1 背景介紹  202

13.2 數據說明  202

13.3 描述性分析  203

13.4 數據建模  209

13.5 總結  212

參考文獻

附錄A

附錄B


本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號