第1章 自動化運維的常見問題與發(fā)展趨勢
1.1 運維過程中的常見問題
1.1.1 設備數量多
1.1.2 系統(tǒng)異構性大
1.1.3 云計算技術成熟后帶來更大的困難
1.1.4 信息安全要求帶來的挑戰(zhàn)
1.2 自動化運維主流工具
1.2.1 SaltStack
1.2.2 Ansible
1.3 自動化運維
1.4 新的趨勢—AIOps
1.5 小結
第2章 使用Kubernetes快速搭建實驗環(huán)境
2.1 Docker
2.1.1 使用Docker搭建實驗環(huán)境的優(yōu)點
2.1.2 安裝Docker
2.1.3 Docker的基礎使用方法
2.1.4 Docker常用命令與配置
2.1.5 定制Ansible鏡像
2.1.6 使用docker-compose編排實驗環(huán)境
2.1.7 docker-compose的常用配置項
2.2 鏡像倉庫
2.2.1 Docker Registry
2.2.2 Harbor
2.3 Kubernetes
2.3.1 Kubernetes簡介
2.3.2 Kubeasz
2.3.3 K3S
2.3.4 Kubernetes快速入門
2.3.5 使用Kubernetes Deployment搭建Ansible實驗環(huán)境
第3章 集中化運維利器——Ansible
3.1 Ansible基礎知識
3.1.1 主機納管——inventory
3.1.2 動態(tài)inventory
3.2 在命令行中執(zhí)行Ansible
3.2.1 指定目標主機
3.2.2 常用命令示例
3.3 Ansible常用模塊
3.3.1 文件管理模塊
3.3.2 命令執(zhí)行模塊
3.3.3 網絡相關模塊
3.3.4 代碼管理模塊
3.3.5 包管理模塊
3.3.6 系統(tǒng)管理模塊
3.3.7 文檔動態(tài)渲染與配置模塊
3.4 自動化作業(yè)任務的實現—Ansible Playbook
3.4.1 Playbook示例
3.4.2 常用的Playbook結構
3.4.3 變量的使用
3.4.4 條件語句
3.4.5 循環(huán)控制
3.4.6 include語法
3.4.7 Ansible Playbook的角色roles
3.5 密鑰管理方案—ansible-vault
3.6 使用Ansible的API
3.7 Ansible的優(yōu)點與缺點
第4章 自動化運維
4.1 Ansible在自動化運維中的應用
4.1.1 ansible_fact緩存
4.1.2 ansible_fact信息模板
4.1.3 載入fact
4.1.4 set_fact的使用
4.1.5 自定義module
4.2 掛載點使用情況和郵件通知
4.2.1 任務目標
4.2.2 任務分析
4.2.3 任務的實現
4.3 操作系統(tǒng)安全基線檢查
4.3.1 任務目標
4.3.2 任務分析
4.3.3 任務的實現
4.4 收集被管理節(jié)點信息
4.4.1 任務目標
4.4.2 任務分析
4.4.3 Jinja2簡介
4.4.4 服務器巡檢任務
4.5 小結
第5章 AIOps概述
5.1 AIOps概述
5.2 AIOps的落地路線
5.3 基于基礎指標監(jiān)控系統(tǒng)的AIOps
5.4 基于日志分析系統(tǒng)的AIOps
5.5 基于知識庫的AIOps
5.6 基于AI平臺的AIOps
第6章 AIOps工具包
6.1 應用系統(tǒng)參數自動優(yōu)化
6.2 智能日志分析
6.2.1 日志模式發(fā)現
6.2.2 日志模式統(tǒng)計分析
6.2.3 實時異常檢測
6.3 告警關聯(lián)分析
6.4 語義檢索
6.4.1 Bert-As-Service
6.4.2 Bert Fine-tuning
6.5 異常檢測
6.5.1 典型場景——監(jiān)控指標異常檢測
6.5.2 異常檢測工具包——PyOD
6.6 時序預測
6.6.1 典型場景——動態(tài)告警閾值
6.6.2 時序預測工具包——Prophet
第7章 加速AIOps落地——AI平臺
7.1 AI平臺與AIOps
7.1.1 為運維系統(tǒng)插上AI的翅膀
7.1.2 Polyaxon
7.2 搭建AI平臺的技術點
7.2.1 nvidia-docker
7.2.2 nvidia-device-plugin
7.2.3 KubeShare——顯卡資源調度
7.2.4 AI算法插件框架設計
7.2.5 KEDA——基于事件的彈性伸縮框架
7.2.6 Argo Workflow——云原生的工作流引擎
7.2.7 Traefik
7.3 小結