目 錄
前言
致謝
作者簡介
第一部分 概念介紹
第1章 簡介2
1.1 什么是數(shù)據(jù)科學2
1.2 數(shù)據(jù)科學在哪里4
1.2.1 金融4
1.2.2 公共政策5
1.2.3 政治6
1.2.4 醫(yī)療保健6
1.2.5 城市規(guī)劃7
1.2.6 教育8
1.2.7 圖書館8
1.3 數(shù)據(jù)科學與其他領域如何關聯(lián)9
1.3.1 數(shù)據(jù)科學與統(tǒng)計9
1.3.2 數(shù)據(jù)科學與計算機科學9
1.3.3 數(shù)據(jù)科學與工程10
1.3.4 數(shù)據(jù)科學與商業(yè)分析10
1.3.5 數(shù)據(jù)科學、社會科學與
計算社會科學11
1.4 數(shù)據(jù)科學和信息科學之間的關系11
1.4.1 信息與數(shù)據(jù)12
1.4.2 信息科學用戶12
1.4.3 iSchool中的數(shù)據(jù)科學12
1.5 計算思維13
1.6 數(shù)據(jù)科學技能15
1.7 數(shù)據(jù)科學工具20
1.8 數(shù)據(jù)科學中的倫理、偏見和
隱私問題22
總結23
關鍵術語23
概念性問題24
實踐問題24
注釋26
第2章 數(shù)據(jù)28
2.1 引言28
2.2 數(shù)據(jù)類型28
2.2.1 結構化數(shù)據(jù)29
2.2.2 非結構化數(shù)據(jù)29
2.2.3 非結構化數(shù)據(jù)的挑戰(zhàn)30
2.3 數(shù)據(jù)收集30
2.3.1 開放數(shù)據(jù)30
2.3.2 社交媒體數(shù)據(jù)31
2.3.3 多類型數(shù)據(jù)31
2.3.4 數(shù)據(jù)存儲和呈現(xiàn)32
2.4 數(shù)據(jù)預處理36
2.4.1 數(shù)據(jù)清洗37
2.4.2 數(shù)據(jù)集成38
2.4.3 數(shù)據(jù)轉換39
2.4.4 數(shù)據(jù)縮減39
2.4.5 數(shù)據(jù)離散化40
總結47
關鍵術語47
概念性問題48
實踐問題48
延伸閱讀及資源51
注釋52
第3章 技術53
3.1 引言53
3.2 質性數(shù)據(jù)分析和量化數(shù)據(jù)分析54
3.3 描述性分析54
3.3.1 變量55
3.3.2 頻率分布56
3.3.3 中心性度量61
3.3.4 離散分布62
3.4 診斷性分析65
3.5 預測性分析66
3.6 規(guī)范性分析67
3.7 探索性分析68
3.8 機理性分析68
總結70
關鍵術語71
概念性問題72
實踐問題72
延伸閱讀及資源74
注釋74
第二部分 數(shù)據(jù)科學工具
第4章 UNIX78
4.1 引言78
4.2 UNIX安裝79
4.3 連接UNIX服務器81
4.3.1 SSH81
4.3.2 FTP/SCPS/FTP83
4.4 基本命令84
4.4.1 文件和目錄操作命令84
4.4.2 進程相關的命令85
4.4.3 其他有用命令86
4.4.4 快捷鍵87
4.5 在UNIX上編輯87
4.5.1 vi編輯器87
4.5.2 Emacs編輯器88
4.6 重定向和管道89
4.7 用UNIX解決小問題90
總結96
關鍵術語97
概念性問題97
實踐問題97
延伸閱讀及資源98
注釋98
第5章 Python100
5.1 引言100
5.2 Python安裝100
5.2.1 下載和安裝Python101
5.2.2 通過控制臺運行Python101
5.2.3 通過集成開發(fā)環(huán)境
使用Python101
5.3 基本示例103
5.4 控制結構106
5.5 統(tǒng)計概要107
5.5.1 導入數(shù)據(jù)110
5.5.2 數(shù)據(jù)繪制110
5.5.3 相關性111
5.5.4 線性回歸111
5.5.5 多元線性回歸113
5.6 機器學習簡介117
5.6.1 什么是機器學習117
5.6.2 分類118
5.6.3 聚類120
5.6.4 密度估計122
總結124
關鍵術語125
概念性問題125
實踐問題125
延伸閱讀及資源127
注釋128
第6章 R129
6.1 引言129
6.2 R安裝129
6.3 R入門131
6.3.1 基礎131
6.3.2 控制結構132
6.3.3 函數(shù)134
6.3.4 導入數(shù)據(jù)134
6.4 圖形和數(shù)據(jù)可視化135
6.4.1 安裝ggplot2135
6.4.2 加載數(shù)據(jù)136
6.4.3 數(shù)據(jù)繪制136
6.5 統(tǒng)計和機器學習139
6.5.1 基本統(tǒng)計139
6.5.2 回歸140
6.5.3 分類142
6.5.4 聚類144
總結146
關鍵術語147
概念性問題147
實踐問題147
延伸閱讀及資源148
注釋148
第7章 MySQL150
7.1 引言150
7.2 MySQL入門151
7.2.1 獲得MySQL151
7.2.2 登錄MySQL151
7.3 創(chuàng)建和插入記錄153
7.3.1 導入數(shù)據(jù)153
7.3.2 創(chuàng)建表154
7.3.3 插入記錄154
7.4 檢索記錄154
7.4.1 閱讀表詳細信息155
7.4.2 從表中檢索信息155
7.5 MySQL搜索156
7.5.1 字段值搜索156
7.5.2 帶索引的全文檢索157
7.6 使用Python訪問MySQL158
7.7 使用R訪問MySQL159
7.8 其他流行數(shù)據(jù)庫介紹161
7.8.1 NoSQL161
7.8.2 MongoDB161
7.8.3 谷歌BigQuery161
總結162
關鍵術語162
概念性問題163
實踐問題163
延伸閱讀及資源164
注釋164
第三部分 數(shù)據(jù)科學中的機器學習
第8章 機器學習和回歸166
8.1 引言166
8.2 什么是機器學習167
8.3 回歸171