注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡圖形圖像、多媒體、網頁制作計算機視覺十講

計算機視覺十講

計算機視覺十講

定 價:¥99.00

作 者: 查紅彬
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787111756866 出版時間: 2025-02-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內容簡介

  計算機視覺是人工智能的重要分支,其研究是計算機系統(tǒng)智能化的第一步,也是實現(xiàn)人工智能的橋梁。本書面向計算機視覺,聚焦前沿算法理論,分別講述了圖像分類、檢測、生成、視頻處理等計算機視覺領域的研究重點,也對計算機視覺的基本概念和計算機視覺研究的預備知識進行了簡要介紹,幫助讀者在構建完整的計算機視覺知識框架的同時,打下較為堅實的基礎,為進一步在計算機視覺和相關領域提出新設想、開發(fā)新算法、解決新問題創(chuàng)造良好的條件。本書可作為人工智能專業(yè)和計算機類相關專業(yè)的低年級研究生學習計算機視覺的參考書,也可作為從事計算機視覺技術研究工作的科研人員的自學用書。

作者簡介

  查紅彬北京大學智能學院博雅特聘教授,機器感知與智能重點實驗室主任。主要從事計算機視覺與智能機器人感知的研究,在三維視覺幾何計算、三維重建與環(huán)境幾何建模、傳感器即時定位與地圖構建等方面取得一系列成果,發(fā)表學術期刊及國際會議論文350多篇?,F(xiàn)任中國計算機學會出版工作委員會主任、中國圖象圖形學學會監(jiān)事長,曾任中國計算機學會計算機視覺專委會主任。獲得CCF-CV杰出成就獎等學術獎項。虞晶怡OSA Fellow,IEEE Fellow,ACM杰出科學家?,F(xiàn)任上??萍即髮W副教務長、信息科學與技術學院教授、執(zhí)行院長,智能感知與人機協(xié)同重點實驗室主任。長期從事計算機視覺、計算成像、計算機圖形學、生物信息學等領域的研究工作,在智能光場研究上,擁有十余項國際PCT專利,已廣泛應用于智慧城市、數(shù)字人、人機交互等場景。他曾經擔任IEEE TPAMI、IEEE TIP等多個頂級期刊編委,并擔任國際人工智能頂會CVPR 2021和ICCV 2025的大會程序主席。任達沃斯世界經濟論壇(WEF)全球議程理事會理事。劉青山南京郵電大學教授。主要從事計算機視覺,模式識別、人工智能 交叉應用等研究,曾獲國家杰出青年科學基金資助,帶領團隊入選“全國高校黃大年式教師團隊”,獲江蘇省科學技術一等獎、中國電子學會自然科學一等獎和自然科學二等獎等?,F(xiàn)兼任中國計算機學會計算機視覺專委會副主任、中國圖象圖形學學會學術工委主任、江蘇省人工智能學會副理事長。王亮中國科學院自動化研究所研究員,IEEE/IAPR Fellow,多模態(tài)人工智能系統(tǒng)全國重點實驗室副主任,中國圖象圖形學學會副理事長、視覺大數(shù)據專委會主任,中國計算機學會計算機視覺專委會副主任。主要從事計算機視覺、模式識別、機器學習、數(shù)據挖掘等相關領域的研究。已發(fā)表或接收論文300余篇,谷歌學術引用4萬余次。獲國家杰出青年科學基金資助,入選國家萬人計劃科技創(chuàng)新領軍人才,曾獲中國青年科技獎、北京市科學技術一等獎和二等獎。

圖書目錄

叢書序
“十講”序
推薦序
前言
第 1 講 底層視覺
1.1 底層視覺概述 /2
1.1.1 底層視覺定義 /2
1.1.2 傳統(tǒng)底層視覺方法 /2
1.2 基于數(shù)學模型的底層視覺方法 /4
1.2.1 全變分模型 /4
1.2.2 稀疏和低秩模型 /7
1.2.3 小結 /13
1.3 基于深度學習的底層視覺方法 /13
1.3.1 圖像去噪 /14
1.3.2 圖像超分辨率 /17
1.3.3 基于 VGG 模型的圖像超分辨率方法 /17
1.3.4 圖像去模糊 /21
1.4 底層視覺的挑戰(zhàn)與展望 /26
參考文獻 /26
第 2 講 圖像質量評價
2.1 全參考/部分參考型圖像質量評價 /34
2.1.1 全參考型圖像質量評價 /34
2.1.2 部分參考型圖像質量評價 /37
2.2 無參考型圖像質量評價 /38
2.2.1 基于統(tǒng)計學的無參考型圖像質量評價 /39
2.2.2 基于深度學習的無參考型圖像質量評價 /40
2.3 圖像美學質量評價 /45
2.3.1 大眾化圖像美學評價 /48
2.3.2 個性化圖像美學評價 /63
2.4 總結與展望 /70
參考文獻 /70
第 3 講 圖像分割
3.1 圖像分割概述 /80
3.1.1 早期圖像分割 /80
3.1.2 語義分割 /80
3.1.3 實例分割和全景分割 /81
3.1.4 其他分割問題 /81
3.2 圖像語義分割 /82
3.2.1 背景與問題 /82
3.2.2 基于傳統(tǒng)特征的圖像語義分割 /82
3.2.3 基于深度特征的圖像語義分割 /82
3.3 圖像實例分割 /88
3.3.1 問題定義 /88
3.3.2 兩階段實例分割 /89
3.3.3 一階段實例分割 /91
3.3.4 基于 Transformer 的實例分割 /93
3.4 圖像全景分割 /95
3.4.1 問題定義 /95
3.4.2 子任務分離的全景分割 /96
3.4.3 子任務統(tǒng)一的全景分割 /98
3.5 弱監(jiān)督圖像分割 /99
3.5.1 基于超像素的方法 /100
3.5.2 基于分類網絡的方法 /101
3.6 跨域圖像分割 /103
3.6.1 基于風格遷移的輸入級圖像對齊 /103
3.6.2 基于域不變特征發(fā)掘的中間級特征對齊 /104
3.6.3 基于標簽分布發(fā)掘的輸出級預測結果對齊 /105
3.7 醫(yī)療圖像分割 /106
3.7.1 全監(jiān)督醫(yī)療圖像分割 /108
3.7.2 弱監(jiān)督醫(yī)療圖像分割 /112
參考文獻 /114
第 4 講 目標檢測
4.1 目標檢測概述 /128
4.1.1 目標檢測的概念 /128
4.1.2 目標檢測的研究意義 /128
4.1.3 目標檢測的發(fā)展路線 /130
4.1.4 小結 /134
4.2 非深度學習目標檢測方法 /134
4.2.1 圖像匹配方法 /134
4.2.2 機器學習方法 /137
4.2.3 小結 /139
4.3 深度學習目標檢測方法 /139
4.3.1 深度學習簡介 /139
4.3.2 深度學習模型 /140
4.3.3 基于深度學習的方法框架 /143
4.4 評價指標和數(shù)據集 /148
4.4.1 數(shù)據集 /148
4.4.2 評價指標 /150
4.5 討論與展望 /151
4.5.1 目標檢測面臨的挑戰(zhàn) /151
4.5.2 目標檢測的發(fā)展趨勢 /152
參考文獻 /154
第 5 講 目標跟蹤
5.1 引言 /162
5.2 目標跟蹤概述 /162
5.2.1 目標跟蹤的基本概念 /162
5.2.2 目標跟蹤的分類方式 /163
5.2.3 目標跟蹤的研究意義 /164
5.2.4 小結 /165
5.3 單目標跟蹤 /165
5.3.1 傳統(tǒng)方法 /165
5.3.2 深度學習方法 /167
5.3.3 數(shù)據集與評價指標 /182
5.3.4 小結 /184
5.4 多目標跟蹤 /185
5.4.1 多目標關聯(lián)技術 /186
5.4.2 一體化多目標跟蹤技術 /191
5.4.3 數(shù)據集與評價指標 /194
5.4.4 小結 /196
5.5 其他跟蹤問題 /196
5.5.1 視頻目標檢測與多目標跟蹤 /196
5.5.2 視頻實例分割中的跟蹤問題 /196
5.5.3 半監(jiān)督視頻物體分割 /198
5.5.4 小結 /199
5.6 應用 /199
5.6.1 目標跟蹤與安防監(jiān)控 /199
5.6.2 目標跟蹤與智能機器人 /200
5.6.3 目標跟蹤與自動駕駛 /201
5.6.4 無人機精準跟蹤 /202
5.6.5 跟蹤輔助視頻標注 /204
5.7 總結與展望 /204
5.7.1 目標跟蹤面臨的挑戰(zhàn) /204
5.7.2 目標跟蹤的發(fā)展趨勢 /207
5.7.3 小結 /208
參考文獻 /208
第 6 講 行人重識別
6.1 行人重識別的定義與常用方法 /228
6.1.1 背景與問題 /228
6.1.2 常用方法 /229
6.2 行人重識別中的小樣本問題 /232
6.2.1 弱監(jiān)督建模 /232
6.2.2 無監(jiān)督建模 /234
6.2.3 遷移學習建模 /240
6.3 行人重識別中的開放性建模問題 /242
6.3.1 遮擋問題 /242
6.3.2 跨模態(tài)問題 /250
6.3.3 換裝問題 /263
6.3.4 其他問題 /267
參考文獻 /270
第 7 講 視頻行為識別
7.1 引言 /284
7.2 視頻行為識別數(shù)據集 /285
7.2.1 通用行為識別數(shù)據集 /286
7.2.2 骨架行為識別數(shù)據集 /287
7.2.3 群體行為識別數(shù)據集 /288
7.2.4 時域行為定位數(shù)據集 /288
7.2.5 時空行為定位數(shù)據集 /289
7.2.6 音視頻行為定位數(shù)據集 /290
7.3 視頻行為分類 /291
7.3.1 基于手工特征的視頻行為分類方法概述 /291
7.3.2 基于深度學習的視頻行為分類方法概述 /295
7.3.3 常用方法 /296
7.4 行為定位 /302
7.4.1 時域行為定位 /302
7.4.2 時空行為定位 /311
7.5 骨架行為識別 /316
7.5.1 早期骨架行為識別方法 /317
7.5.2 基于深度學習的骨架行為識別 /317
7.5.3 總結與展望 /325
7.6 多模態(tài)行為識別 /326
7.6.1 基于文本的視頻定位 /326
7.6.2 音視頻行為識別 /330
7.7 交互及組群行為識別 /337
7.7.1 交互行為識別 /337
7.7.2 組群行為識別 /343
7.7.3 群體行為識別的未來研究趨勢 /349
參考文獻 /350
第 8 講 視覺與語言
8.1 視覺與語言的定義 /376
8.1.1 背景與意義 /376
8.1.2 典型任務與方法 /379
8.2 視覺語言的典型框架 /383
8.2.1 傳統(tǒng)方法 /383
8.2.2 預訓練方法 /385
8.2.3 其他方面 /386
8.3 視覺語言的語義關聯(lián)與建模 /388
8.3.1 注意力機制建模 /390
8.3.2 圖結構建模 /391
8.3.3 生成式建模 /392
8.3.4 其他建模 /393
8.4 視覺語言的預訓練技術 /396
8.4.1 單模態(tài)主干網絡 /397
8.4.2 視覺與語言架構 /399
8.4.3 預訓練任務與下游任務 /401
8.4.4 預訓練數(shù)據集 /405
8.5 視覺語言發(fā)展趨勢與展望 /407
參考文獻 /409
第 9 講 圖像的三維重建
9.1 背景介紹 /426
9.2 傳統(tǒng)三維重建方法回顧 /427
9.2.1 經典多視點幾何三維重建 /427
9.2.2 經典光度立體三維重建 /428
9.2.3 常見數(shù)據采集設備 /429
9.3 深度學習對基于不同形狀表達的三維重建 /431
9.3.1 基于體素的顯式三維表達 /431
9.3.2 基于多邊形網格的顯式三維表達 /437
9.3.3 基于隱式輻射場的三維表達 /443
9.4 三維重建與三維生成 /450
9.4.1 基于擴散生成大模型分數(shù)蒸餾的三維生成 /451
9.4.2 基于預訓練三維重建模型和擴散生成模型的三維生成 /452
參考文獻 /454
第 10 講 SLAM
10.1 基礎知識 /464
10.1.1 相機模型 /464
10.1.2 多視圖幾何原理 /467
10.2 SLAM 的分類 /472
10.2.1 基于濾波的 SLAM /472
10.2.2 基于優(yōu)化的 SLAM /474
10.2.3 基于深度學習的 SLAM /476
10.3 視覺 SLAM /478
10.3.1 初始化 /479
10.3.2 前臺實時跟蹤 /480
10.3.3 后端優(yōu)化 /482
10.3.4 重定位 /483
10.3.5 回路閉合 /485
10.4 視覺慣性 SLAM /486
10.4.1 IMU 模型 /487
10.4.2 前端模塊 /489
10.4.3 后端模塊 /491
10.5 融合深度信息的 SLAM /492
10.5.1 RGBD SLAM /493
10.5.2 激光視覺慣性 SLAM /502
10.6 SLAM 發(fā)展趨勢與展望 /508
參考文獻 /509

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.talentonion.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號