大模型輕量化：模型壓縮與訓(xùn)練加速

定　價：￥129.00

作　者：	梁志遠
出版社：	清華大學(xué)出版社
叢編項：
標(biāo)　簽：	暫缺

購買這本書可以去

當(dāng)當(dāng)網(wǎng) (￥101.90)

ISBN：	9787302686002	出版時間：	2025-04-01	包裝：	平裝-膠訂
開本：	16開	頁數(shù)：		字?jǐn)?shù)：

內(nèi)容簡介

　　《大模型輕量化：模型壓縮與訓(xùn)練加速》圍繞大模型輕量化這一主題，系統(tǒng)地闡述大模型輕量化的基本理論與實現(xiàn)方法，旨在提升模型的部署效率和計算性能。全書分為3部分，共10章。第1部分（第1～5章），介紹大模型的背景與面臨的問題，以及Transformer和MoE架構(gòu)的基本原理；重點講解模型壓縮、訓(xùn)練加速和推理優(yōu)化等核心技術(shù)，包括量化、蒸餾和剪枝等，并通過實際案例驗證其效果。第2部分（第6、7章），重點介紹端側(cè)學(xué)習(xí)與計算引擎優(yōu)化策略，尤其是動態(tài)Batch和異構(gòu)執(zhí)行的工程實現(xiàn)。第3部分（第8～10章），針對高性能算子庫與手工算子開發(fā)，分別以cuDNN、NEON、CUDA等為代表，揭示算子優(yōu)化的細節(jié)，最后，以國產(chǎn)開源模型DeepSeek-V3為例，展現(xiàn)從訓(xùn)練到推理的綜合優(yōu)化方案。《大模型輕量化：模型壓縮與訓(xùn)練加速》提供全面實用的輕量化方法論，結(jié)合豐富代碼示例與實踐案例，適合從事大模型開發(fā)與優(yōu)化的工程師，也為研究人員提供深入探討的素材與視角，助力解決大模型訓(xùn)練與推理中的實際問題。

作者簡介

　　梁志遠，博士，畢業(yè)于北京航空航天大學(xué)。長期從事人工智能、大語言模型的開發(fā)，專注于深度學(xué)習(xí)、自然語言處理、數(shù)據(jù)分析與智能決策等領(lǐng)域。主持或參與多項科研項目，涵蓋模型訓(xùn)練優(yōu)化、知識蒸餾、自動推理與多模態(tài)學(xué)習(xí)等方向。致力于推動人工智能技術(shù)在工業(yè)應(yīng)用、智能交互與數(shù)據(jù)驅(qū)動中的實踐與發(fā)展。

圖書目錄

第 1 部分大模型概述與核心優(yōu)化技術(shù)
第 1 章大模型基本概念 3
1.1 大模型的興起與發(fā)展 3
1.1.1 大規(guī)模神經(jīng)網(wǎng)絡(luò) 4
1.1.2 Transformer編碼器－解碼器 5
1.1.3 MoE架構(gòu) 7
1.2 計算資源與性能瓶頸 9
1.2.1 GPU簡介 10
1.2.2 TPU簡介 12
1.2.3 網(wǎng)絡(luò)帶寬約束與分布式訓(xùn)練 13
1.2.4 大模型的訓(xùn)練時間與計算資源消耗問題 14
1.3 數(shù)據(jù)與隱私問題 16
1.3.1 急劇增加的數(shù)據(jù)量 16
1.3.2 數(shù)據(jù)隱私保護與合規(guī)性 19
1.4 模型部署與運維 20
1.4.1 模型部署基本概念 20
1.4.2 云計算與邊緣計算 25
1.4.3 端側(cè)部署 29
1.4.4 大模型運行與維護 30
1.5 本章小結(jié) 34
1.6 思考題 34
第 2 章模型壓縮、訓(xùn)練與推理 36
2.1 模型壓縮概述 36
2.1.1 模型壓縮簡介 36
2.1.2 常見的模型壓縮方法分類 37
2.2 訓(xùn)練加速基礎(chǔ) 38
2.2.1 數(shù)據(jù)并行與模型并行 39
2.2.2 混合精度訓(xùn)練 40
2.2.3 分布式訓(xùn)練框架：Horovod 44
2.3 推理加速基礎(chǔ) 49
2.3.1 硬件加速與推理引擎 49
2.3.2 低延遲與高吞吐量平衡 55
2.3.3 推理優(yōu)化實戰(zhàn)：批量推理 58
2.4 性能評估指標(biāo) 62
2.4.1 計算復(fù)雜度與性能指標(biāo) 62
2.4.2 延遲、吞吐量與精度之間的權(quán)衡 63
2.4.3 評估工具與基準(zhǔn)測試 67
2.5 本章小結(jié) 74
2.6 思考題 75
第 3 章模型格式轉(zhuǎn)換 76
3.1 模型格式的定義與轉(zhuǎn)換 76
3.1.1 常見的模型格式：ONNX、TensorFlow的SavedModel 76
3.1.2 模型格式轉(zhuǎn)換實現(xiàn) 81
3.1.3 模型的兼容性問題 86
3.2 跨框架模型轉(zhuǎn)換 90
3.2.1 TensorFlow到PyTorch的模型轉(zhuǎn)換 90
3.2.2 ONNX與TensorFlow、PyTorch的兼容性 93
3.2.3 轉(zhuǎn)換時的精度損失問題 99
3.3 硬件相關(guān)的格式轉(zhuǎn)換 105
3.3.1 從PyTorch到TensorRT 106
3.3.2 ONNX模型與NVIDIA TensorRT的兼容性 112
3.3.3 模型格式與硬件加速的關(guān)系 113
3.4 模型格式轉(zhuǎn)換的工具與庫 114
3.4.1 使用ONNX進行跨平臺轉(zhuǎn)換 115
3.4.2 TensorFlow Lite與Edge模型優(yōu)化 117
3.5 本章小結(jié) 122
3.6 思考題 123
第 4 章圖優(yōu)化 124
4.1 算子融合技術(shù) 124
4.1.1 算子融合的原理 124
4.1.2 典型算子融合算法的實現(xiàn) 126
4.1.3 實驗：算子融合對推理性能的提升 129
4.2 布局轉(zhuǎn)換與優(yōu)化 133
4.2.1 張量布局的原理 133
4.2.2 內(nèi)存訪問優(yōu)化與布局選擇 135
4.3 算子替換技術(shù) 137
4.3.1 用低開銷算子替換高開銷算子 137
4.3.2 常見的算子替換策略 139
4.4 顯存優(yōu)化 142
4.4.1 顯存占用分析與優(yōu)化 142
4.4.2 梯度檢查點與顯存共享 145
4.4.3 動態(tài)顯存分配與內(nèi)存池管理 148
4.5 本章小結(jié) 152
4.6 思考題 152
第 5 章模型壓縮 154
5.1 量化 154
5.1.1 定點量化與浮點量化的區(qū)別 154
5.1.2 量化算法與工具：TensorFlow Lite 157
5.1.3 量化帶來的精度損失問題 160
5.2 知識蒸餾 163
5.2.1 知識蒸餾的基本概念與應(yīng)用場景 163
5.2.2 知識蒸餾的損失函數(shù)與訓(xùn)練過程 164
5.2.3 如何選擇蒸餾－教師網(wǎng)絡(luò)模型 167
5.3 剪枝 169
5.3.1 網(wǎng)絡(luò)剪枝基本原理 169
5.3.2 基于權(quán)重剪枝與結(jié)構(gòu)化剪枝 171
5.3.3 剪枝后的精度恢復(fù)方案 177
5.4 二值化與極端壓縮 183
5.4.1 二值化網(wǎng)絡(luò)的構(gòu)建與訓(xùn)練 183
5.4.2 二值化對計算與存儲的影響 186
5.5 本章小結(jié) 189
5.6 思考題 189
第 2 部分端側(cè)學(xué)習(xí)與高效計算引擎優(yōu)化
第 6 章端側(cè)學(xué)習(xí)、端側(cè)推理及計算引擎優(yōu)化 193
6.1 聯(lián)邦學(xué)習(xí)概述 193
6.1.1 聯(lián)邦學(xué)習(xí)的基本概念與應(yīng)用 193
6.1.2 聯(lián)邦學(xué)習(xí)中的隱私保護機制、通信與聚合算法 194
6.2 數(shù)據(jù)處理與預(yù)處理 197
6.2.1 數(shù)據(jù)清洗與增廣技術(shù) 197
6.2.2 數(shù)據(jù)均衡與過采樣策略 199
6.2.3 端側(cè)數(shù)據(jù)處理的資源限制 201
6.3 Trainer與優(yōu)化器設(shè)計 202
6.3.1 端側(cè)訓(xùn)練的挑戰(zhàn)與策略 203
6.3.2 高效優(yōu)化器（如SGD、Adam）的選擇 204
6.3.3 動態(tài)調(diào)整學(xué)習(xí)率與訓(xùn)練過程監(jiān)控 206
6.4 損失函數(shù)的設(shè)計與選擇 209
6.4.1 常見的損失函數(shù)與應(yīng)用場景 209
6.4.2 多任務(wù)學(xué)習(xí)中的損失函數(shù)設(shè)計 210
6.4.3 損失函數(shù)的數(shù)值穩(wěn)定性 213
6.5 Benchmark設(shè)計與性能評估 215
6.5.1 經(jīng)典Benchmark與定制Benchmark 215
6.5.2 推理與訓(xùn)練性能的綜合評估 216
6.5.3 性能瓶頸的識別與優(yōu)化 219
6.6 IR的作用與優(yōu)化 222
6.6.1 IR的定義及作用 222
6.6.2 IR轉(zhuǎn)換與優(yōu)化策略 223
6.7 Schema的設(shè)計與規(guī)范 225
6.7.1 數(shù)據(jù)格式與模型接口的設(shè)計 225
6.7.2 數(shù)據(jù)流與計算圖的規(guī)范化 228
6.8 動態(tài)Batch與內(nèi)存調(diào)度 231
6.8.1 動態(tài)Batch的選擇與調(diào)整 231
6.8.2 內(nèi)存調(diào)度與性能優(yōu)化 234
6.8.3 優(yōu)化內(nèi)存利用率與減少內(nèi)存溢出 237
6.9 異構(gòu)執(zhí)行與優(yōu)化 240
6.9.1 GPU與CPU的異構(gòu)計算模式原理 240
6.9.2 多核心與多節(jié)點并行優(yōu)化 242
6.9.3 異構(gòu)計算中的任務(wù)調(diào)度 245
6.10 裝箱操作與計算圖優(yōu)化 247
6.10.1 通過裝箱減少計算開銷 248
6.10.2 裝箱優(yōu)化對計算圖的影響 250
6.11 本章小結(jié) 256
6.12 思考題 257
第 7 章高性能算子庫簡介 258
7.1 cuDNN算子庫概述 258
7.1.1 cuDNN的主要功能 258
7.1.2 常用算子（卷積、池化等）的實現(xiàn) 259
7.1.3 算子加速實戰(zhàn)：cuDNN在深度學(xué)習(xí)中的應(yīng)用 262
7.2 MKLDNN算子庫概述 265
7.2.1 MKLDNN與Intel硬件的優(yōu)化 265
7.2.2 MKLDNN中的高效算子實現(xiàn) 266
7.2.3 多核支持與并行計算優(yōu)化 269
7.3 算子庫的選擇與性能比較 271
7.3.1 cuDNN與MKLDNN的應(yīng)用場景對比 271
7.3.2 在不同硬件平臺上的表現(xiàn) 272
7.4 算子庫的高效利用 275
7.4.1 如何選擇合適的算子庫 275
7.4.2 優(yōu)化算子庫接口與內(nèi)存管理 276
7.4.3 算法重構(gòu)：提高算子性能 278
7.5 本章小結(jié) 282
7.6 思考題 283
第 3 部分高性能算子與深度學(xué)習(xí)框架應(yīng)用
第 8 章常用高性能算子開發(fā)實戰(zhàn) 287
8.1 NEON與ARM架構(gòu)優(yōu)化 287
8.1.1 NEON指令集與深度學(xué)習(xí)加速 287
8.1.2 ARM架構(gòu)上的并行計算優(yōu)化 289
8.1.3 使用NEON實現(xiàn)卷積等算子加速 291
8.2 CUDA與GPU優(yōu)化 294
8.2.1 CUDA編程模型與內(nèi)存管理 295
8.2.2 CUDA流與核函數(shù)優(yōu)化 297
8.2.3 高效利用GPU并行計算資源 300
8.3 Vulkan與圖形加速 303
8.3.1 Vulkan的低級控制與優(yōu)化 304
8.3.2 使用Vulkan進行推理加速 311
8.3.3 圖形與計算并行加速的結(jié)合 312
8.4 AVX與OpenCL的優(yōu)化 321
8.4.1 AVX與CPU優(yōu)化的基本原理 321
8.4.2 OpenCL與跨平臺加速 322
8.5 本章小結(jié) 327
8.6 思考題 327
第 9 章 TIK、YVM算子原理及其應(yīng)用 328
9.1 TIK算子庫的應(yīng)用 328
9.1.1 TIK算子庫與TensorFlow Lite的集成 328
9.1.2 使用TIK進行卷積與矩陣乘法加速 330
9.2 YVM算子庫的應(yīng)用 332
9.2.1 YVM在深度學(xué)習(xí)推理中的高效應(yīng)用 332
9.2.2 YVM的硬件適配與優(yōu)化 334
9.3 本章小結(jié) 346
9.4 思考題 346
第 10 章基于DeepSeek-V3分析大模型訓(xùn)練降本增效技術(shù) 347
10.1 DeepSeek-V3架構(gòu)概述 347
10.1.1 DeepSeek-V3的架構(gòu)設(shè)計與創(chuàng)新 347
10.1.2 模型參數(shù)共享與層次結(jié)構(gòu)優(yōu)化 350
10.2 DeepSeek-V3的訓(xùn)練降本技術(shù)分析 354
10.2.1 FP8精度訓(xùn)練、混合精度訓(xùn)練與分布式訓(xùn)練 354
10.2.2 動態(tài)計算圖 357
10.2.3 自適應(yīng)批處理與梯度累積技術(shù) 359
10.2.4 Sigmoid路由機制 363
10.2.5 無輔助損失負載均衡算法 365
10.2.6 DualPipe算法 370
10.2.7 All-to-All跨節(jié)點通信 375
10.3 DeepSeek-V3的推理加速技術(shù) 377
10.3.1 量化與蒸餾在DeepSeek-V3中的應(yīng)用 377
10.3.2 模型壓縮與推理速度提升 381
10.4 本章小結(jié) 383
10.5 思考題 383