注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡軟件與程序設計Java數據分析指南:Java

Java數據分析指南:Java

Java數據分析指南:Java

定 價:¥79.00

作 者: [美] 約翰·哈伯德 著,高蓉,李茂 譯
出版社: 人民郵電出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787115494863 出版時間: 2018-12-01 包裝: 平裝
開本: 16開 頁數: 331 字數:  

內容簡介

  當今,數據科學已經成為一個熱門的技術領域,例如數據處理、信息檢索、機器學習、自然語言處理、數據可視化等都得到了廣泛的應用和發(fā)展。而Java作為一門經典的編程語言,在數據科學領域也有著突出的表現。本書旨在通過Java編程來引導讀者更好地進行數據分析。本書包含11章內容,詳細地介紹了數據科學導論、數據預處理、數據可視化、統計、關系數據庫、回歸分析、分類分析、聚類分析、推薦系統、NoSQL數據庫以及Java大數據分析等重要主題。本書適合想通過Java解決數據科學問題的讀者,也適合數據科學領域的專業(yè)人士以及普通的Java開發(fā)者閱讀。通過閱讀本書,讀者將能夠對數據分析有更加深入的理解,并且掌握實用的數據分析技術。

作者簡介

  約翰·哈伯德(John R. Hubbard)任教于賓夕法尼亞州和弗吉尼亞州的高校,從事計算機數據分析工作長達40余年。他擁有賓州州立大學的計算機科學碩士學位和密歇根大學的數學博士學位。目前,他在里士滿大學擔任數學和計算機科學的名譽教授,他在該校講授數據結構、數據庫系統、數值分析和大數據。哈伯德博士出版了許多著作并發(fā)表過多篇論文,除了本書,他還出版過6本計算領域的著作。其中某些著作已經翻譯為德文、法文、中文和其他5種語言。此外,他還是一位業(yè)余音樂家。

圖書目錄

第 1章 數據科學導論 1
1.1 數據分析起源 1
1.2 科學方法 2
1.3 精算科學 2
1.4 蒸汽計算 3
1.5 一個驚人的例子 4
1.6 赫爾曼·何樂禮 5
1.7 ENIAC 6
1.8 VisiCalc 7
1.9 數據、信息和知識 7
1.10 為什么用Java 7
1.11 Java集成開發(fā)環(huán)境 8
1.12 小結 10
第 2章 數據預處理 11
2.1 數據類型 11
2.2 變量 12
2.3 數據點和數據集 12
2.4 關系數據庫表 13
2.4.1 關鍵字段 13
2.4.2 鍵—值對 14
2.5 哈希表 14
2.6 文件格式 16
2.6.1 微軟Excel數據 18
2.6.2 XML和JSON數據 21
2.7 生成測試數據集 27
2.7.1 元數據 28
2.7.2 數據清洗 29
2.7.3 數據縮放 30
2.7.4 數據過濾 30
2.7.5 排序 33
2.7.6 合并 34
2.7.7 散列法 37
2.8 小結 38
第3章 數據可視化 39
3.1 表和圖 40
3.1.1 散點圖 40
3.1.2 線圖 42
3.1.3 條形圖 43
3.1.4 直方圖 43
3.2 時間序列 45
3.3 Java實現 46
3.4 移動平均 49
3.5 數據排序 53
3.6 頻率分布 55
3.7 正態(tài)分布 57
3.8 指數分布 59
3.9 Java示例 59
3.10 小結 61
第4章 統計 62
4.1 描述性統計量 62
4.2 隨機抽樣 65
4.3 隨機變量 67
4.4 概率分布 67
4.5 累積分布 69
4.6 二項分布 70
4.7 多元分布 74
4.8 條件概率 76
4.9 概率事件的獨立性 77
4.10 列聯表 78
4.11 貝葉斯定理 78
4.12 協方差和相關 80
4.13 標準正態(tài)分布 82
4.14 中心極限定理 86
4.15 置信區(qū)間 87
4.16 假設檢驗 89
4.17 小結 91
第5章 關系數據庫 92
5.1 關系數據模型 92
5.2 關系數據庫 93
5.3 外鍵 94
5.4 關系數據庫設計 95
5.4.1 創(chuàng)建數據庫 96
5.4.2 SQL命令 100
5.4.3 數據插入數據庫 104
5.4.4 數據庫查詢 106
5.4.5 SQL數據類型 107
5.4.6 JDBC 108
5.4.7 使用JDBC PreparedStatement 110
5.4.8 批處理 112
5.4.9 數據庫視圖 115
5.4.10 子查詢 119
5.4.11 表索引 121
5.5 小結 123
第6章 回歸分析 124
6.1 線性回歸 124
6.1.1 Excel中的線性回歸 125
6.1.2 計算回歸系數 129
6.1.3 變異統計量 131
6.1.4 線性回歸的Java實現 134
6.1.5 安斯庫姆的四重奏 141
6.2 多項式回歸 143
6.2.1 多元線性回歸 147
6.2.2 Apache Commons的實現 150
6.2.3 曲線擬合 151
6.3 小結 153
第7章 分類分析 154
7.1 決策樹 156
7.1.1 熵和它有什么關系? 157
7.1.2 ID3算法 160
7.1.3 Weka平臺 171
7.1.4 數據的ARFF文件類型 171
7.1.5 Weka的Java實現 174
7.2 貝葉斯分類器 175
7.2.1 Weka的Java實現 177
7.2.2 支持向量機算法 181
7.3 邏輯回歸 184
7.3.1 k近鄰算法 189
7.3.2 模糊分類算法 193
7.4 小結 194
第8章 聚類分析 195
8.1 測量距離 195
8.2 維數災難 200
8.3 層次聚類法 201
8.3.1 Weka實現 210
8.3.2 K-均值聚類 212
8.3.3 K-中心點聚類 218
8.3.4 仿射傳播聚類 220
8.4 小結 228
第9章 推薦系統 229
9.1 效用矩陣 230
9.2 相似性度量 231
9.3 余弦相似性 233
9.4 一個簡單的推薦系統 233
9.5 亞馬遜項目對項目的協同過濾推薦 244
9.6 實現用戶評分 250
9.7 大型稀疏矩陣 254
9.8 使用隨機訪問文件 257
9.9 Netflix大獎賽 260
9.10 小結 260
第 10章 NoSQL數據庫 261
10.1 映射數據結構 261
10.2 SQL與NoSQL 263
10.3 Mongo數據庫系統 265
10.4 Library數據庫 270
10.5 MongoDB的Java開發(fā) 273
10.6 MongoDB的地理空間數據庫擴展 281
10.7 MongoDB中的索引 282
10.8 為什么選擇NoSQL,為什么選擇MongoDB 283
10.9 其他的NoSQL數據庫系統 284
10.10 小結 284
第 11章 Java大數據分析 285
11.1 擴展、數據分塊和分片 285
11.2 谷歌的PageRank算法 286
11.3 谷歌的MapReduce框架 290
11.4 MapReduce的一些應用示例 291
11.5 “單詞計數”示例 292
11.6 可擴展性 296
11.7 MapReduce的矩陣操作 297
11.8 MongoDB中的MapReduce 301
11.9 Apache Hadoop 302
11.10 Hadoop MapReduce 303
11.11 小結 304
附錄 Java工具 305

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號