基于深度學習的人體行為識別算法研究

簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
視頻人體行為識別技術可滿足網絡視頻檢索與分析、智能視頻監控分析、智能視頻監護等應用領域對自動分析及智能化的需求,引起學術界的廣泛關注。雖然目前國內外學者在行為識別領域已取得一定研究成果,但由于人體行為在動作速率、相機視角、運動場景等方面存在多樣性,基于視頻的人體行為識別仍是一個極具挑戰性的研究課題。本書對人體行為識別技術進行了綜述,介紹了幾種人體行為識別方法,并對此進行了總結。
本書研究內容是機器學習、深度學習與計算機視覺等交叉學科知識在人體行為識別領域的具體應用,既適合本領域的研究者了解前沿,也適合人工智能相關專業的本科生、研究生作為學習參考資料。
人體行為識別是計算機視覺與模式識別領域中的一項重要研究課題。在智能監控領域,行為識別技術可以幫助監控系統自動識別和分析異常行為,提高監控效率和準確性;在智能交通領域,該技術可以識別和分析交通參與者的行為,為交通管理提供有力支持;在健康監測領域,該技術可以實時監測和分析人的行為模式,為個性化健康監護服務提供數據支持;此外,該技術還在虛擬現實、人機交互、環境控制和監測等多個領域中發揮著重要作用。隨著智能監控、智能交通、健康監測等應用場景的不斷發展,如何有效地識別人類行為,已經成為學術界與工業界共同關注的焦點。在深度學習技術迅猛發展的背景下,基于深度學習的行為識別方法顯示出了強大的潛力和廣泛的應用前景。
本書從傳統的手工特征到現代的深度學習特征,從行為數據集的選擇到算法的設計與優化,綜述了人體行為識別領域的技術演進與發展趨勢,并介紹了幾種基于深度學習的人體行為識別算法。
本書主要研究內容包括:
(1)基于動作分解的行為識別。針對人體行為時間尺度的魯棒性問題,分析了動作與視頻幀相似性之間的關系,介紹了通過動作分解將視頻分解為多個視頻子段的方法,并提出了視頻子段中代表幀采樣的數據模型,給出了代表幀的卷積特征學習過程及特征融合方法。然后介紹了基于LSTM網絡的行為時序特征學習過程,最后結合實驗分析了所提算法的有效性。
(2)基于運動顯著性的行為識別。針對現在圖像采樣方法不能聚焦行為運動問題,介紹了視頻中運動顯著性檢測算法,并給出了多個運動顯著區域合成方法。然后提出了基于運動顯著區域的圖像塊采樣方法。最后在行為識別數據集上對所提算法進行實驗驗證。
(3)基于多模態特征的行為識別。研究了運動邊界卷積特征和梯度邊界卷積特征的提取方法。然后介紹了幾種多模態特征的融合方法,最后通過實驗驗證了運動邊界卷積特征和梯度邊界卷積特征的有效性,并比較了幾種多模態特征融合方法對人體識別率的影響。
(4)基于實時全局運動補償的行為識別。針對傳統實時行為識別算法中沒有區分運動矢量中的全局運動信息和人體行為信息的問題,提出了基于運動矢量的實時全局運動參數估計方法,然后參照估計的全局運動參數進行運動補償。最后通過實驗證明了基于全局運動補償的行為識別算法能夠滿足行為識別的實時性要求,在識別性能方面較MF和EMV-CNN算法有明顯提升。
(5)基于局部最大池化特征時空向量的行為識別。為了有效解決視頻理解中的一個重要問題:如何構建一個視頻表示(其中包含整個視頻上的CNN特征),我們提出了局部最大池化特征時空向量(ST-VLMPF)的超向量編碼方法,用于人體行為的局部深度特征編碼。特征分配通過相似性和時空信息在兩個層級上完成。對于每個分配,我們構建了一個特定的編碼,專注于深度特征的性質,旨在捕獲網絡最高神經元激活的最高特征響應。ST-VLMPF明顯比一些廣泛使用且強大的編碼方法(改進的Fisher向量和局部聚合描述符向量)擁有更可靠的視頻表示,同時保持了較低的計算復雜度。
(6)基于姿態運動表示的行為識別。不少行為識別方法依賴于two-stream結構獨立處理外觀和運動信息。我們將這兩個模態信息流融合起來為行為識別提供豐富的信息。該方法引入新方法以編碼一些語義關鍵點的運動,我們使用人體關節作為這些關鍵點,并將姿態運動表示稱為PoTion。具體來說,我們首先基于目前效果最好的人體姿態估計器在每一幀中提取人體關節的熱圖,再通過時間聚合這些概率圖來獲得PoTion表示。這是通過根據視頻剪輯中幀的相對時間“著色”每個概率圖并對它們進行求和來實現的。這種針對整個視頻剪輯的固定大小表示適合使用淺卷積神經網絡對行為進行分類。
(7)基于動態運動表示的行為識別。在許多最近的研究工作中,研究人員使用外觀和運動信息作為獨立的輸入來推斷給出視頻中正在發生的行為。我們提出了人體行為的最新表示方法,同時從外觀和運動信息中獲益,以實現更好的動作識別性能。我們從姿勢估計器開始,從每一幀中提取身體關節的位置和熱圖,使用動態編碼器從這些身體關節熱圖中生成固定大小的表示。實驗結果表明,使用動態運動表示訓練卷積神經網絡優于目前最好的行為識別模型。
(8)基于運動增強RGB流的人體行為識別。雖然將光流與RGB信息結合可以提高行為識別性能,但準確計算光流的時間成本很高,增加了行為識別的延遲。這限制了在需要低延遲的實際應用中使用two-stream方法。我們給出了兩種學習方法來訓練一個標準的3D CNN,它在RGB幀上運行,模擬了運動流,因此避免了在測試階段進行光流計算。首先,將基于特征的損失最小化并與Flow流進行比較,所提深度神經網絡以高保真度再現了運動流信息。其次,為了有效利用外觀和運動信息,我們通過特征損失和標準的交叉熵損失的線性組合進行訓練,用于行為識別。
本書研究內容是機器學習、深度學習與計算機視覺等交叉學科知識在人體行為識別領域的具體應用,既適合本領域的研究者了解前沿,也適合人工智能相關專業的本科生、研究生作為學習參考資料。本書由作者獨撰,全書約19萬字。本書的編寫得到了湖北省高等學校優秀中青年科技創新團隊計劃項目“行為識別技術研究及開發”(編號:T201923)、荊門市科學技術研究與開發計劃重點項目“基于視覺引導的焊機伺服系統關鍵技術研發”(編號:2021ZDYF024)、荊門市重大科技計劃項目“基于人工智能和邊緣計算融合的自動化生產線關鍵技術研究與應用”(編號:2022ZDYF019)和荊楚理工學院智聯網應用創新研究中心的資助。在此一并表示感謝!
由于作者水平有限,加工時間倉促,書中難免存在疏漏與不妥之處,懇請讀者批評指正。
1.1 研究背景 1
1.2 國內外研究現狀 3
1.2.1 手工特征 5
1.2.2 深度特征 11
1.2.3 行為識別數據集 16
1.3 存在的問題 19
1.4 行為識別研究內容 20
第2章 基于動作分解的行為識別 22
2.1 引言 22
2.2 基于動作分解的行為識別框架 23
2.2.1 動作分解與代表幀采樣 23
2.2.2 CNN特征學習與融合 25
2.2.3 動作時序建模 27
2.3 實驗及結果分析 28
2.3.1 實驗數據集及設置 28
2.3.2 算法參數分析 29
2.3.3 采樣策略比較 30
2.3.4 與前沿算法比較 31
2.4 本章小結 32
第3章 基于運動顯著性的行為識別 33
3.1 引言 33
3.2 H-FCN算法及其改進 36
3.2.1 全卷積網絡模型 36
3.2.2 H-FCN算法 37
3.2.3 H-FCN算法改進 38
3.3 基于運動顯著性的圖像塊采樣 39
3.4 實驗及結果分析 40
3.4.1 實驗數據集及設置 40
3.4.2 改進的H-FCN算法分析 41
3.4.3 圖像塊采樣方法比較 42
3.5 本章小結 43
第4章 基于多模態特征的行為識別 44
4.1 引言 44
4.2 運動邊界CNN特征 46
4.3 梯度邊界CNN特征 47
4.4 多模態特征融合 49
4.5 實驗結果及分析 50
4.5.1 實驗數據集及設置 50
4.5.2 多模態特征比較 51
4.5.3 多模態特征融合評估 53
4.6 本章小結 56
第5章 基于實時全局運動補償的行為識別 57
5.1 引言 57
5.2 實時全局運動補償算法 59
5.2.1 全局運動參數模型 59
5.2.2 全局運動估計 60
5.2.3 全局運動補償 63
5.3 實驗及結果分析 64
5.3.1 實驗數據集及設置 64
5.3.2 CGME算法評估 64
5.3.3 與前沿算法比較 66
5.4 本章小結 68
第6章 基于局部最大池化特征時空向量的行為識別 69
6.1 引言 69
6.2 特征編碼相關工作 71
6.3 ST-VLMPF編碼方法 72
6.4 局部深度特征提取 74
6.5 ST-VLMPF算法有效性驗證 76
6.5.1 實驗數據集 76
6.5.2 實驗設置 76
6.5.3 參數調優 77
6.5.4 與其他編碼方法比較 79
6.5.5 融合策略 81
6.5.6 與前沿算法比較 82
6.6 本章小結 83
第7章 基于姿態運動表示的行為識別 84
7.1 引言 84
7.2 與本章相關的研究現狀 86
7.3 PoTion編碼表示 87
7.3.1 提取人體關節熱圖 87
7.3.2 時序依賴的熱圖著色 88
7.3.3 著色熱圖融合 89
7.4 基于PoTion編碼表示運行CNN 90
7.4.1 網絡結構 90
7.4.2 網絡實現細節 91
7.5 PoTion表示的實驗分析 92
7.5.1 數據集與評價標準 92
7.5.2 PoTion編碼表示參數實驗 92
7.5.3 CNN參數實驗 93
7.5.4 姿態估計算法的影響 95
7.5.5 PoTion與前沿算法比較 95
7.6 本章小結 99
第8章 基于動態運動表示的行為識別 100
8.1 引言 100
8.2 相關研究工作 101
8.3 動態運動表示(DynaMotion) 103
8.3.1 肢體關節提取與熱圖 103
8.3.2 仿射魯棒的運動編碼 104
8.3.3 外觀與動態信息聚合 105
8.4 DynaMotion實現細節 105
8.4.1 動態編碼 105
8.4.2 網絡結構 106
8.5 消融實驗 107
8.5.1 數據集 107
8.5.2 姿態編碼 107
8.5.3 動態運動CNN 108
8.5.4 DynaMotion的影響 109
8.5.5 與前沿算法比較 110
8.6 本章小結 111
第9章 基于運動增強RGB流的人體行為識別 112
9.1 引言 112
9.2 相關研究工作 114
9.3 學習替代光流 116
9.3.1 MERS算法 116
9.3.2 MARS算法 117
9.4 實驗設置 118
9.4.1 數據集與評價方法 118
9.4.2 算法實現細節 118
9.5 實驗結果討論 119
9.5.1 運動光流 119
9.5.2 行為識別準確率 121
9.5.3 α對識別準確率的影響 122
9.5.4 運動對識別準確率的影響 123
9.5.5 與前沿算法比較 124
9.6 本章小結 126
第10章 人體行為識別的進一步研究 127
10.1 已取得的研究成果 127
10.2 人體行為識別待研究的問題 129
參考文獻 130
- 零基礎玩轉國產大模型DeepSeek [徐永冰 張帥 編著]
- 網絡工程師5天修煉(適配第6版考綱) [主編 朱小平 施游]
- 信息系統項目管理師考試32小時通關(適用第4版考綱) [薛大龍]
- 信息系統管理工程師考試32小時通關(適配第2版考綱) [薛大龍 劉偉]
- 土木工程材料檢測實訓 [洪曉江 達則曉麗 錢波]
- 科技信息檢索與論文寫作實用教程 [李振華]
- 傳統山水畫論解讀與實踐 [陳鈉 著]
- Python數據庫編程 [主編 殷樹友 邢 翀]
- 計算機基礎實訓指導 [主編 袁春萍 朱妮]
- 嵌入式人工智能技術應用(數字教材) [主編 胡娜 楊國勇 晏廷榮]
- Vienna整流器技術 [桂存兵 著]
- 變頻器與伺服應用 [陳剛 葉云飛]
- 物聯網工程設計與實踐 [湯琳 李敏]
- 爐邊夜話——深入淺出話AI [汪建 著]
- 電商運營與管理 [鐘肖英 陳瀟]
- Java面向對象程序設計 [主編 姜春磊 陳虹潔]
- 信息技術基礎(Windows 10+WPS Office)(微課版) [主編 石利平 田輝平 謝盛嘉]
- 人工智能應用 [主編 陳 萍 劉培培 陳孟軍]
- 大學生職業發展與就業指導 [主編 劉志堅]
- 高級辦公應用項目教程 [主編 屈晶 趙成麗]
- 微信小程序開發項目實戰(微課版) [主編 黃龍泉 郭峰 朱倩]
- 企業檔案工作實戰寶典百問百答 [華俊 盧秀英 邵甜甜 著]
- 計算機網絡原理及應用 [主編 唐繼勇 葉坤 孫夢娜]
- 大學生創業基礎 [主編 王麗莉 王 楊]
- 船舶輔機 [主編 王連海 于洋 姜淑翠]
- 大學生就業指導 [主編 王麗莉 董宴廷]
- 系統架構設計師章節習題與考點特訓 [主編 薛大龍 鄒月平]
- 高校學生工作探索與實踐 [郭亮 著]
- 大學生情商管理 [方雄 著]
- 2023年長沙市會展業發展報告 [主編 周棟良]