注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡家庭與辦公軟件Apache Drill學習手冊

Apache Drill學習手冊

Apache Drill學習手冊

定 價:¥88.00

作 者: 查爾斯吉弗(Charles Givre),保羅羅杰斯(Paul Rogers) 著
出版社: 中國電力出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787519843984 出版時間: 2020-05-01 包裝: 平裝
開本: 16開 頁數: 356 字數:  

內容簡介

  主要內容 ·使用Drill來清洗、準備和匯總原始數據供后期分析使用。 ·對日志文件、Parquet文件、JSON和其他復雜的數據文件進行查詢。 ·使用標準SQL對Hadoop、關系型數據庫、MongoDB和Kafka進行查詢。 ·通過各種編程語言訪問Drill。 ·使用Drill分析各種結構復雜或存在二義性的數據。 ·通過自定義函數擴展Drill的功能,完成復雜的分析任務。 ·為網絡安全、圖片元數據或機器學習數據提供分析能力。

作者簡介

  Charles Givre是Apache Drill的PMC成員,他是德意志銀行中央安全辦公室的首席數據科學家。他致力于培養(yǎng)數據科學家并教授數據分析技能,為此他還合伙創(chuàng)辦自己的培訓公司GTK Cyber。他在全球各種會議和高校教授上述主題的內容。 Paul Rogers是Apache Drill的PMC成員,他專注于Drill的執(zhí)行引擎開發(fā),同時也是一位數據庫和BI方面的軟件架構師。他曾經在Cloudera、MapR、Oracle、Actuate和Informix工作。

圖書目錄

目錄
前言 1
第1 章 Apache Drill 入門 7
什么是Apache Drill 8
Drill 用途廣泛 8
Drill 非常易用 10
有關Drill 的性能 11
大數據簡史 11
大數據生態(tài)中的Drill 13
Drill 與類似工具的比較 13
第2 章 安裝與運行 15
準備系統(tǒng)環(huán)境 16
Windows 環(huán)境下的特殊配置 16
在Windows 上安裝Drill 18
在Windows 上啟動Drill 18
在macOS 或Linux 上安裝嵌入模式的Drill 19
在macOS 或Linux 上以嵌入模式運行Drill 20
在macOS 或 Linux 上安裝分布式模式的Drill 21
為Drill 準備集群環(huán)境 22
啟動分布式模式的Drill 23
連接集群 23
小結 24
第3 章 Apache Drill 概述 25
Apache Hadoop 生態(tài) 25
Drill 是一個低延遲的查詢引擎 26
使用HDFS 進行分布式數據處理 27
Drill 系統(tǒng)結構 27
Drill 操作概覽 28
Drill 是一個查詢引擎,不是數據庫 29
Drill 操作概述 30
Drill 組件 30
SQL 會話狀態(tài) 30
編譯查詢語句 31
查詢語句執(zhí)行 36
低延遲特性38
小結 41
第4 章 查詢包含分隔符的數據 42
通過Drill 查詢數據的幾種方式 42
其他操作接口 43
Drill SQL 查詢格式 44
選擇數據源44
定義工作區(qū)46
指定默認數據源 47
在查詢中訪問列 49
帶表頭并包含分隔符的數據 51
Table 函數 53
查詢目錄中的數據 53
理解Drill 的數據類型 55
使用字符串處理函數清洗和準備數據 57
復雜數據轉換函數 59
操作Drill 中的日期和時間 60
把字符串轉換為日期 61
對日期進行重新格式化 63
日期計算與操作 63
Drill 中的日期時間函數 64
創(chuàng)建視圖 65
使用Drill 進行數據分析 66
通過聚合函數對數據進行統(tǒng)計 68
查詢包含分隔符數據的常見問題 75
列名中的空格 75
列名中的非法字符 76
字段名中的保留字 76
小結 77
第5 章 分析復合與嵌套數據 78
數組與Map 78
Drill 中的數組 79
在Drill 中訪問Map(鍵– 值對) 81
查詢嵌套數據 83
使用Drill 分析日志文件 91
配置Drill 讀取httpd Web 服務器的日志 91
查詢Web 服務器日志 92
用Drill 對其他類型的日志進行分析 97
小結 100
第6 章 把Drill 連接到數據源 101
查詢多種數據源 102
配置新的存儲插件 102
用Drill 連接關系型數據庫 103
通過Drill 查詢Hadoop 數據 108
用Drill 連接并查詢HBase 108
用Drill 查詢Hive 數據 110
連接Kafka 查詢流數據 113
提高Kafka 查詢的性能 115
連接并查詢Kudu 115
用Drill 連接并查詢MongoDB 數據 116
把Drill 連接到云存儲 116
用Drill 從OpenTSDB 查詢時間序列數據 121
小結 122
第7 章 連接Drill 123
理解Drill 的接口 123
JDBC 與Drill 124
ODBC 與Drill 125
Drill 的REST 接口 127
使用Python 連接Drill 128
使用drillpy 對Drill 發(fā)起查詢 129
使用pydrill 連接Drill 130
其他通過Python 連接Drill 的方法 131
用R 語言連接Drill 133
使用sergeant 在R 中查詢Drill 133
通過Java 連接Drill 135
在PHP 中查詢Drill 136
使用連接器137
在PHP 中執(zhí)行Drill 查詢 137
在PHP 中操作Drill 138
使用Nodejs 查詢Drill 139
在BI 工具中使用Drill 作為數據源 139
使用Apache Zeppelin 和Drill 分析數據 139
使用Apache Superset 分析數據 145
小結 151
第8 章 用Drill 完成數據工程工作 152
讀時Schema 152
SQL 關系模型 153
數據生命周期:數據探索到生產 154
Schema 推導 155
數據源推導 155
存儲插件 156
存儲配置 156
工作區(qū) 157
查詢目錄 159
默認Schema 159
文件類型推導 160
格式插件與格式配置 160
格式推導 161
文件格式變種 162
Schema 推導概述163
分布式掃描 165
帶分隔符數據的Schema 推導 167
CSV 文件處理小結 173
JSON 文件的Schema 推導 175
二義性數值Schema 178
在文件間保證Schema 一致 184
JSON 對象 186
Drill 中的JSON 列表 189
JSON 小結 193
在Drill 中使用Parquet 文件格式 194
Parquet 中的Schema 進化 195
分區(qū)數據目錄 195
定義表工作區(qū) 198
處理生產環(huán)境中的查詢 199
捕捉Schema 映射視圖 199
在腳本中運行復雜查詢 200
小結 201
第9 章 在生產環(huán)境部署Drill 202
安裝Drill 202
前置需求 203
生產環(huán)境安裝 204
配置ZooKeeper 205
內存配置 206
配置日志 208
測試安裝是否成功 209
分發(fā)Drill 可執(zhí)行文件和配置 210
啟動Drill 集群 211
配置存儲 212
使用Apache Hadoop HDFS 213
使用Amazon S3 214
準入控制 217
其他配置 219
用戶自定義函數與自定義插件 219
安全 220
日志級別 220
控制CPU 使用 222
監(jiān)控 223
監(jiān)控Drill 的進程 224
監(jiān)控JMX 指標 224
監(jiān)控查詢 225
其他部署選項 225
MapR 安裝程序 226
Drill-on-YRAN 226
Docker 226
小結 227
第10 章 搭建開發(fā)環(huán)境 228
安裝Maven 228
創(chuàng)建Drill 的編譯環(huán)境 229
設置Git 并獲取源代碼 229
從代碼編譯Drill 230
安裝IDE 231
小結 231
第11 章 編寫用戶自定義函數 232
用例:找出合法的信用卡號碼 232
Drill 中的用戶自定義函數是怎么工作的 234
Drill 的簡單UDF 結構 234
pomxml 文件 235
函數文件 236
簡單函數API 240
完整的代碼241
構建與安裝UDF 243
靜態(tài)安裝UDF 243
動態(tài)安裝UDF 243
復合函數:返回Map 或數組的UDF 244
例子:解析User Agent 元數據 245
ComplexWriter 對象 246
編寫聚合UDF 248
聚合函數API 249
聚合UDF 示例:肯德爾秩相關系數 249
小結 252
第12 章 編寫格式插件 253
正則表達式格式插件 253
基于Easy 框架創(chuàng)建格式插件 255
創(chuàng)建Maven 的pomxml 文件 256
創(chuàng)建插件包258
Drill 模塊配置 258
格式插件配置 259
注意事項 259
創(chuàng)建正則表達式格式插件配置類 260
版權聲明頭與代碼格式 262
測試配置 262
解決配置問題 263
排查問題 264
創(chuàng)建格式插件類 264
創(chuàng)建測試文件 267
配置RAT 267
高效調試 267
創(chuàng)建單元測試 268
Drill 是如何找到插件的 270
記錄讀取器 270
測試讀取器的殼 273
日志 274
出錯處理 274
初始化 275
解析正則表達式 276
定義列名 276
投影 277
記錄列投影映射 278
空投影 278
全投影 279
部分投影 279
打開文件 281
記錄批 282
Drill 的列存結構 282
定義向量 283
讀取數據 284
把數據放入向量 285
釋放資源 286
測試讀取器 286
測試通配符場景 286
測試顯式投影 288
測試空投影288
擴展 288
其他細節(jié) 290
文件塊 290
默認格式配置 290
下一步 292
生產版本 292
給Drill 貢獻代碼:使用Pull Request 292
維護你的分支 293
創(chuàng)建插件項目 293
小結 294
第13 章 特殊用法 296
查找在特定區(qū)域拍攝的照片 296
分析Excel 文件 297
pomxml 文件 298
Excel 自定義記錄讀取器 299
使用Excel 格式插件 303
用Drill 分析網絡數據包(PCAP 文件) 304
查詢PCAP 數據文件的例子 304
使用Drill 分析Twitter 數據 308
在機器學習流程中使用Drill 309
通過Drill 進行預測 310
建立與序列化模型 310
編寫UDF 封裝類 311
通過UDF 進行預測 313
小結 313
附錄A Drill 函數列表 315
附錄B Drill 格式化字符串 331

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號