注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫SQL數據分析

SQL數據分析

SQL數據分析

定 價:¥128.00

作 者: [美]凱西·谷村(Cathy Tanimura)
出版社: 中國電力出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787519879518 出版時間: 2023-08-01 包裝: 平裝-膠訂
開本: 16開 頁數: 字數:  

內容簡介

  本書的主要內容有:學習準備分析數據的關鍵步驟。使用SQL的日期和時間操作進行時間序列分析。使用同期群分析研究群體如何隨時間變化。使用SQL的強大功能和操作符進行文本分析。檢測數據中的異常值,并用代替值替換它們。使用實驗分析建立因果關系,也稱為A/B測試。

作者簡介

  Cathy Tanimura有在不同行業(yè)領域超過20年的數據分析相關經驗,從金融到B2B軟件再到客戶服務。Cathy帶著用數據將人們與企業(yè)更緊密地連接起來的信念和熱情,幫助多個頭部科技公司搭建了數據基礎架構并管理數據團隊。她對用SQL在主流的開源數據庫進行數據分析有著豐富的經驗。

圖書目錄

目錄
前言 .1
第1 章 用SQL 來做數據分析 7
1.1 什么是數據分析 . 7
1.2 為什么用SQL 10
1.2.1 SQL 是什么 10
1.2.2 SQL 的優(yōu)勢 13
1.2.3 SQL 與R 和Python 的對比 14
1.2.4 SQL 作為數據分析流程中的一部分 . 16
1.3 數據庫類型以及如何使用 19
1.3.1 行存儲數據 20
1.3.2 列存儲數據 22
1.3.3 其他的數據結構類型 23
1.4 總結 25
第2 章 為數據分析做準備 26
2.1 數據類型 27
2.1.1 數據庫的數據類型 . 27
2.1.2 結構化和非結構化數據 29
2.1.3 定量和定性數據 . 30
2.1.4 第一方、第二方和第三方數據 31
2.1.5 稀疏數據. 32
2.2 SQL 查詢結構 33
2.3 數據剖析:分布 36
2.3.1 直方圖和頻率 37
2.3.2 分箱 40
2.3.3 n-Tiles 43
2.4 數據剖析:數據質量 . 46
2.4.1 檢測重復數據 47
2.4.2 用GROUP BY 和DISTINCT 來處理重復數據 49
2.5 準備:數據清理 50
2.5.1 通過CASE 轉換來清理數據 51
2.5.2 數據類型轉換 54
2.5.3 處理空值:coalesce, nulliff, nvl 函數 57
2.5.4 缺失的數據 61
2.6 準備:數據構形 66
2.6.1 你需要怎樣的輸出:BI,可視化,統(tǒng)計,機器學習 67
2.6.2 用CASE 語句進行數據透視 68
2.6.3 用UNION 語句來取消數據透視 70
2.6.4 pivot(透視)和unpivot(取消透視)函數 73
2.7 總結 75
第3 章 時間序列分析 .76
3.1 日期、日期時間和時間操作 77
3.1.1 時區(qū)轉換. 78
3.1.2 日期和時間戳的格式轉換 . 80
3.1.3 日期相關的計算 . 85
3.1.4 時間相關的計算 . 88
3.1.5 連接不同來源的數據 90
3.2 零售銷售數據集 91
3.3 對數據進行趨勢分析 . 92
3.3.1 簡單的趨勢 93
3.3.2 比較時間序列的組成部分 . 95
3.3.3 計算占總數的百分比 . 104
3.3.4 運用索引以查看隨時間變化的百分比 108
3.4 滾動時間窗口 . 113
3.4.1 計算滾動時間窗口 115
3.4.2 稀疏數據的滾動時間窗口 121
3.4.3 計算累計值 . 124
3.5 季節(jié)性分析 127
3.5.1 同期比較:YoY 和MoM . 129
3.5.2 同期比較:與去年的同月進行對比 132
3.5.3 與多個以前的周期做對比 137
3.6 總結 . 140
第 4 章 同期群分析 141
4.1 同期群:一種有用的分析框架 142
4.2 立法者數據集 . 145
4.3 留存 . 146
4.3.1 基本留存曲線的 SQL 148
4.3.2 調整時間序列以提高留存率的準確性 152
4.3.3 從時間序列數據構建同期群 158
4.3.4 從單獨的表構建同期群 164
4.3.5 處理稀疏同期群 168
4.3.6 用除第一個日期以外的其他日期定義同期群 173
4.4 相關同期群分析 176
4.4.1 生存 177
4.4.2 返回或重復購買行為 . 181
4.4.3 累積計算 187
4.5 透過同期群看橫斷面分析 . 191
4.6 總結 . 200
第 5 章 文本分析 201
5.1 為什么使用 SQL 進行文本分析 . 201
5.1.1 什么是文本分析 202
5.1.2 為什么 SQL 是文本分析的好選擇 202
5.1.3 什么情況下 SQL 不是一個好的選擇 . 204
5.2 UFO 目擊數據集 205
5.3 文本特征 206
5.4 解析文本 208
5.5 文本轉換 214
5.6 在較大的文本塊中查找元素 223
5.6.1 通配符匹配:LIKE,ILIKE 223
5.6.2 精確匹配:IN,NOT IN . 229
5.6.3 正則表達式 . 232
5.7 構建與重塑文本 250
5.7.1 拼接 250
5.7.2 重塑文本 254
5.8 總結 . 258
第6 章 異常檢測 259
6.1 SQL 異常檢測的能力和限制 260
6.2 數據集 261
6.3 檢測異常值 262
6.3.1 通過排序查找異常 263
6.3.2 通過計算百分比和標準偏差發(fā)現(xiàn)異常 266
6.3.3 通過作圖可視化查找異常 274
6.4 異常的形式 283
6.4.1 異常值 283
6.4.2 異常的計數或頻率 287
6.4.3 數據缺失引起的異常 . 292
6.5 處理異常 294
6.5.1 探查 294
6.5.2 刪除 295
6.5.3 替代值替換 . 297
6.5.4 縮放 299
6.6 總結 . 301
第 7 章 實驗分析 302
7.1 用 SQL 進行實驗分析的優(yōu)勢與局限性 . 303
7.2 數據集 305
7.3 實驗的類型 307
7.3.1 二元結果實驗:卡方檢驗 307
7.3.2 具有連續(xù)結果的實驗:t 檢驗 310
7.4 實驗的挑戰(zhàn)和拯救有缺陷的實驗的方法 312
7.4.1 變體分配 312
7.4.2 異常值 314
7.4.3 時間盒 315
7.4.4 重復暴露實驗 317
7.5 當無法進行控制實驗時:替代分析 . 318
7.5.1 前/ 后分析 319
7.5.2 自然實驗分析 321
7.5.3 閾值附近的群體分析 . 322
7.6 總結 . 323
第8 章 創(chuàng)建用于分析的復雜數據集 324
8.1 何時對復雜數據集使用 SQL 324
8.1.1 使用 SQL 的優(yōu)點 . 325
8.1.2 什么時候構建ETL . 326
8.1.3 何時將邏輯放入其他工具中 328
8.2 代碼組織 329
8.2.1 注釋 330
8.2.2 大寫,縮進,括號和其他格式技巧 331
8.2.3 存儲代碼 334
8.3 組織計算 335
8.3.1 理解SQL 子句的計算順序 . 335
8.3.2 子查詢 339
8.3.3 臨時表 341
8.3.4 公共表表達式 343
8.3.5 grouping sets 344
8.4 管理數據集大小和隱私問題 349
8.4.1 使用 % 、mod 進行抽樣 . 349
8.4.2 降低維數 351
8.4.3 PII 和數據隱私 . 355
8.5 總結 . 357
第9 章 結論 358
9.1 漏斗分析 358
9.2 流失、中止和其他離開的定義 360
9.3 購物籃分析 365
9.4 資源 . 367
9.4.1 書籍和博客 . 368
9.4.2 數據集 369
9.5 最終的想法 370

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號