基于深度學習的人體行為識別算法研究

中國水利水電出版社

【作者】陳華鋒著

【I S B N 】978-7-5226-2834-9

【責任編輯】賈潤姿

【適用讀者群】本專通用

【出版時間】2024-12-11

【開本】16開

【裝幀信息】平裝（光膜）

【版次】第1版第1次印刷

【頁數】164

【千字數】193

【印張】10.25

【定價】￥62

【叢書】

【備注信息】

圖書詳情

簡介

本書特色

前言

章節列表

精彩閱讀

下載資源

相關圖書

視頻人體行為識別技術可滿足網絡視頻檢索與分析、智能視頻監控分析、智能視頻監護等應用領域對自動分析及智能化的需求，引起學術界的廣泛關注。雖然目前國內外學者在行為識別領域已取得一定研究成果，但由于人體行為在動作速率、相機視角、運動場景等方面存在多樣性，基于視頻的人體行為識別仍是一個極具挑戰性的研究課題。本書對人體行為識別技術進行了綜述，介紹了幾種人體行為識別方法，并對此進行了總結。

本書研究內容是機器學習、深度學習與計算機視覺等交叉學科知識在人體行為識別領域的具體應用，既適合本領域的研究者了解前沿，也適合人工智能相關專業的本科生、研究生作為學習參考資料。

人體行為識別是計算機視覺與模式識別領域中的一項重要研究課題。在智能監控領域，行為識別技術可以幫助監控系統自動識別和分析異常行為，提高監控效率和準確性；在智能交通領域，該技術可以識別和分析交通參與者的行為，為交通管理提供有力支持；在健康監測領域，該技術可以實時監測和分析人的行為模式，為個性化健康監護服務提供數據支持；此外，該技術還在虛擬現實、人機交互、環境控制和監測等多個領域中發揮著重要作用。隨著智能監控、智能交通、健康監測等應用場景的不斷發展，如何有效地識別人類行為，已經成為學術界與工業界共同關注的焦點。在深度學習技術迅猛發展的背景下，基于深度學習的行為識別方法顯示出了強大的潛力和廣泛的應用前景。

本書從傳統的手工特征到現代的深度學習特征，從行為數據集的選擇到算法的設計與優化，綜述了人體行為識別領域的技術演進與發展趨勢，并介紹了幾種基于深度學習的人體行為識別算法。

本書主要研究內容包括：

（1）基于動作分解的行為識別。針對人體行為時間尺度的魯棒性問題，分析了動作與視頻幀相似性之間的關系，介紹了通過動作分解將視頻分解為多個視頻子段的方法，并提出了視頻子段中代表幀采樣的數據模型，給出了代表幀的卷積特征學習過程及特征融合方法。然后介紹了基于LSTM網絡的行為時序特征學習過程，最后結合實驗分析了所提算法的有效性。

（2）基于運動顯著性的行為識別。針對現在圖像采樣方法不能聚焦行為運動問題，介紹了視頻中運動顯著性檢測算法，并給出了多個運動顯著區域合成方法。然后提出了基于運動顯著區域的圖像塊采樣方法。最后在行為識別數據集上對所提算法進行實驗驗證。

（3）基于多模態特征的行為識別。研究了運動邊界卷積特征和梯度邊界卷積特征的提取方法。然后介紹了幾種多模態特征的融合方法，最后通過實驗驗證了運動邊界卷積特征和梯度邊界卷積特征的有效性，并比較了幾種多模態特征融合方法對人體識別率的影響。

（4）基于實時全局運動補償的行為識別。針對傳統實時行為識別算法中沒有區分運動矢量中的全局運動信息和人體行為信息的問題，提出了基于運動矢量的實時全局運動參數估計方法，然后參照估計的全局運動參數進行運動補償。最后通過實驗證明了基于全局運動補償的行為識別算法能夠滿足行為識別的實時性要求，在識別性能方面較MF和EMV-CNN算法有明顯提升。

（5）基于局部最大池化特征時空向量的行為識別。為了有效解決視頻理解中的一個重要問題：如何構建一個視頻表示（其中包含整個視頻上的CNN特征），我們提出了局部最大池化特征時空向量（ST-VLMPF）的超向量編碼方法，用于人體行為的局部深度特征編碼。特征分配通過相似性和時空信息在兩個層級上完成。對于每個分配，我們構建了一個特定的編碼，專注于深度特征的性質，旨在捕獲網絡最高神經元激活的最高特征響應。ST-VLMPF明顯比一些廣泛使用且強大的編碼方法（改進的Fisher向量和局部聚合描述符向量）擁有更可靠的視頻表示，同時保持了較低的計算復雜度。

（6）基于姿態運動表示的行為識別。不少行為識別方法依賴于two-stream結構獨立處理外觀和運動信息。我們將這兩個模態信息流融合起來為行為識別提供豐富的信息。該方法引入新方法以編碼一些語義關鍵點的運動，我們使用人體關節作為這些關鍵點，并將姿態運動表示稱為PoTion。具體來說，我們首先基于目前效果最好的人體姿態估計器在每一幀中提取人體關節的熱圖，再通過時間聚合這些概率圖來獲得PoTion表示。這是通過根據視頻剪輯中幀的相對時間“著色”每個概率圖并對它們進行求和來實現的。這種針對整個視頻剪輯的固定大小表示適合使用淺卷積神經網絡對行為進行分類。

（7）基于動態運動表示的行為識別。在許多最近的研究工作中，研究人員使用外觀和運動信息作為獨立的輸入來推斷給出視頻中正在發生的行為。我們提出了人體行為的最新表示方法，同時從外觀和運動信息中獲益，以實現更好的動作識別性能。我們從姿勢估計器開始，從每一幀中提取身體關節的位置和熱圖，使用動態編碼器從這些身體關節熱圖中生成固定大小的表示。實驗結果表明，使用動態運動表示訓練卷積神經網絡優于目前最好的行為識別模型。

（8）基于運動增強RGB流的人體行為識別。雖然將光流與RGB信息結合可以提高行為識別性能，但準確計算光流的時間成本很高，增加了行為識別的延遲。這限制了在需要低延遲的實際應用中使用two-stream方法。我們給出了兩種學習方法來訓練一個標準的3D CNN，它在RGB幀上運行，模擬了運動流，因此避免了在測試階段進行光流計算。首先，將基于特征的損失最小化并與Flow流進行比較，所提深度神經網絡以高保真度再現了運動流信息。其次，為了有效利用外觀和運動信息，我們通過特征損失和標準的交叉熵損失的線性組合進行訓練，用于行為識別。

本書研究內容是機器學習、深度學習與計算機視覺等交叉學科知識在人體行為識別領域的具體應用，既適合本領域的研究者了解前沿，也適合人工智能相關專業的本科生、研究生作為學習參考資料。本書由作者獨撰，全書約19萬字。本書的編寫得到了湖北省高等學校優秀中青年科技創新團隊計劃項目“行為識別技術研究及開發”（編號：T201923）、荊門市科學技術研究與開發計劃重點項目“基于視覺引導的焊機伺服系統關鍵技術研發”（編號：2021ZDYF024）、荊門市重大科技計劃項目“基于人工智能和邊緣計算融合的自動化生產線關鍵技術研究與應用”（編號：2022ZDYF019）和荊楚理工學院智聯網應用創新研究中心的資助。在此一并表示感謝！

由于作者水平有限，加工時間倉促，書中難免存在疏漏與不妥之處，懇請讀者批評指正。

第1章緒論 1
1.1 研究背景 1
1.2 國內外研究現狀 3
1.2.1 手工特征 5
1.2.2 深度特征 11
1.2.3 行為識別數據集 16
1.3 存在的問題 19
1.4 行為識別研究內容 20
第2章基于動作分解的行為識別 22
2.1 引言 22
2.2 基于動作分解的行為識別框架 23
2.2.1 動作分解與代表幀采樣 23
2.2.2 CNN特征學習與融合 25
2.2.3 動作時序建模 27
2.3 實驗及結果分析 28
2.3.1 實驗數據集及設置 28
2.3.2 算法參數分析 29
2.3.3 采樣策略比較 30
2.3.4 與前沿算法比較 31
2.4 本章小結 32
第3章基于運動顯著性的行為識別 33
3.1 引言 33
3.2 H-FCN算法及其改進 36
3.2.1 全卷積網絡模型 36
3.2.2 H-FCN算法 37
3.2.3 H-FCN算法改進 38
3.3 基于運動顯著性的圖像塊采樣 39
3.4 實驗及結果分析 40
3.4.1 實驗數據集及設置 40
3.4.2 改進的H-FCN算法分析 41
3.4.3 圖像塊采樣方法比較 42
3.5 本章小結 43
第4章基于多模態特征的行為識別 44
4.1 引言 44
4.2 運動邊界CNN特征 46
4.3 梯度邊界CNN特征 47
4.4 多模態特征融合 49
4.5 實驗結果及分析 50
4.5.1 實驗數據集及設置 50
4.5.2 多模態特征比較 51
4.5.3 多模態特征融合評估 53
4.6 本章小結 56
第5章基于實時全局運動補償的行為識別 57
5.1 引言 57
5.2 實時全局運動補償算法 59
5.2.1 全局運動參數模型 59
5.2.2 全局運動估計 60
5.2.3 全局運動補償 63
5.3 實驗及結果分析 64
5.3.1 實驗數據集及設置 64
5.3.2 CGME算法評估 64
5.3.3 與前沿算法比較 66
5.4 本章小結 68
第6章基于局部最大池化特征時空向量的行為識別 69
6.1 引言 69
6.2 特征編碼相關工作 71
6.3 ST-VLMPF編碼方法 72
6.4 局部深度特征提取 74
6.5 ST-VLMPF算法有效性驗證 76
6.5.1 實驗數據集 76
6.5.2 實驗設置 76
6.5.3 參數調優 77
6.5.4 與其他編碼方法比較 79
6.5.5 融合策略 81
6.5.6 與前沿算法比較 82
6.6 本章小結 83
第7章基于姿態運動表示的行為識別 84
7.1 引言 84
7.2 與本章相關的研究現狀 86
7.3 PoTion編碼表示 87
7.3.1 提取人體關節熱圖 87
7.3.2 時序依賴的熱圖著色 88
7.3.3 著色熱圖融合 89
7.4 基于PoTion編碼表示運行CNN 90
7.4.1 網絡結構 90
7.4.2 網絡實現細節 91
7.5 PoTion表示的實驗分析 92
7.5.1 數據集與評價標準 92
7.5.2 PoTion編碼表示參數實驗 92
7.5.3 CNN參數實驗 93
7.5.4 姿態估計算法的影響 95
7.5.5 PoTion與前沿算法比較 95
7.6 本章小結 99
第8章基于動態運動表示的行為識別 100
8.1 引言 100
8.2 相關研究工作 101
8.3 動態運動表示（DynaMotion） 103
8.3.1 肢體關節提取與熱圖 103
8.3.2 仿射魯棒的運動編碼 104
8.3.3 外觀與動態信息聚合 105
8.4 DynaMotion實現細節 105
8.4.1 動態編碼 105
8.4.2 網絡結構 106
8.5 消融實驗 107
8.5.1 數據集 107
8.5.2 姿態編碼 107
8.5.3 動態運動CNN 108
8.5.4 DynaMotion的影響 109
8.5.5 與前沿算法比較 110
8.6 本章小結 111
第9章基于運動增強RGB流的人體行為識別 112
9.1 引言 112
9.2 相關研究工作 114
9.3 學習替代光流 116
9.3.1 MERS算法 116
9.3.2 MARS算法 117
9.4 實驗設置 118
9.4.1 數據集與評價方法 118
9.4.2 算法實現細節 118
9.5 實驗結果討論 119
9.5.1 運動光流 119
9.5.2 行為識別準確率 121
9.5.3 α對識別準確率的影響 122
9.5.4 運動對識別準確率的影響 123
9.5.5 與前沿算法比較 124
9.6 本章小結 126
第10章人體行為識別的進一步研究 127
10.1 已取得的研究成果 127
10.2 人體行為識別待研究的問題 129
參考文獻 130

關閉

打印

欧美视频网-亚洲黄色在线视频-www.日韩.com-欧美一区免费-欧美高清免费-欧美另类综合