久久国产精品一区二区三区四区,久色婷婷小香蕉久久,国产日韩欧美在线播放不卡,另类av一区二区

熱點在線丨多模態算法在視頻理解中的應用 <a href="https://www.51cto.com/original.html" target="_blank" class="article-type" data-v-4c84e33c>原創</a>
來源:51CTO    時間:2022-08-11 16:05:19
1、概述

現階段視頻分類算法,主要聚焦于視頻整體的內容理解,給視頻整體打上標簽,粒度較粗。較少的文章關注時序片段的細粒度理解,同時也從多模態角度分析視頻。本文將分享使用多模態網絡提高視頻理解精度的解決方案,并在youtube-8m 數據集中取得較大提升。

2、相關工作

在視頻分類人物中,NeXtVLAD[1]被證明是一種高效、快速的視頻分類方法。受ResNeXt方法的啟發,作者成功地將高維的視頻特征向量分解為一組低維向量。該網絡顯著降低了之前 NetVLAD 網絡的參數,但在特征聚合和大規模視頻分類方面仍然取得了顯著的性能。


(資料圖片僅供參考)

RNN[2]已被證明在對序列數據進行建模時表現出色。研究人員通常使用 RNN 對 CNN 網絡難以捕獲的視頻中的時間信息進行建模。 GRU[3]是 RNN 架構的重要組成部分,可以避免梯度消失的問題。 Attention-GRU[4]指的是具有注意機制,有助于區分不同特征對當前預測的影響。

為了結合視頻任務的空間特征和時間特征,后來又提出了雙流CNN[5]、3D-CNN[6]、以及slowfast[7]和ViViT[8]等。雖然這些模型在視頻理解任務上也取得良好的表現,但還有提升的空間。比如,很多方法只針對單個模態,或者只對整個視頻進行處理,沒有輸出細粒度的標簽。

3、技術方案3.1 整體網絡結構

本技術方案是旨在充分學習視頻多模態(文本、音頻、圖像)的語義特征,同時克服 youtube-8m數據集樣本極不均衡和半監督的問題。

如Figure 1所示,整個網絡主要由前面混合多模態網絡(mix-Multmodal Network)和后面的圖卷積網絡(GCN[9])組成。mix-Multmodal Network 由三個差異化的多模態分類網絡構成,具體差異化參數在Table1中。

Figure 1. 整體網絡結構

Bert

NeXtVLAD

Layers

Cluster Size

Reduction

Multimodal Net(1)

12

136

16

Multimodal Net(3)

12

112

16

Multimodal Net(3)

6

112

8

Table 1. 三個差異化的 Multimodal Net 的參數

3.2 多模態網絡

如圖Figure 2所示,多模態網絡主要理解三個模態(文本、視頻、音頻),每個模態都包含三個過程:基礎語義理解、時序特征理解、模態融合。其中,視頻和音頻的語義理解模型分別使用的是EfficientNet[10]和VGGish,時序特征理解模型是NextVLAD。而文本的時序特征理解模型為Bert[11]

多模態特征融合,我們采用的是SENet[12]。SENet網絡的前處理需要將各個模態的特征長度強行壓縮對齊,這樣會導致信息丟失。為了克服這個問題,我們采用了多Group的SENet的網絡結構。實驗表明,多個group的SENet網絡相較于單個SENet學習能力更強。

Figure 2. 多模態網絡結構

3.3 圖卷積

由于Youtube-8M粗粒度標簽全部標注,細粒度標簽只標注了部分數據。因此,引入 GCN來進行半監督分類任務。基本思想是通過在節點之間傳播信息來更新節點表示。對于多標簽視頻分類任務,標簽依賴關系是一個重要信息。

在我們的任務中,每個標簽將是圖(graph)的一個節點(node),兩個節點之間的線表示它們的關系[13][14]。所以我們可以訓練一個矩陣來表示所有節點的關系。

以從我們的數據集中提取的一個簡化的標簽相關圖 Figure 3為例,Label BMW --> Label Car,表示當 BMW 標簽出現時,Label Car 很可能發生,但反之則不一定。標簽 Car 與所有其他標簽具有高度相關性,沒有箭頭的標簽表示這兩個標簽彼此沒有關系。

Figure 3. 標簽相關性示意圖

GCN網絡實現如Figure 4所示。GCN模塊由兩層堆疊的GCN(GCN(1) 和 GCN(2))組成,它們有助于學習標簽相關圖,以將這些標簽表示映射到一組相互依賴的分類器中。是輸入相關矩陣,由矩陣的值初始化。

和是將在網絡中訓練的矩陣。是GCN學習到的分類器權重。

Figure 4. GCN網絡結構

3.4 標簽重加權

Youtube-8M 視頻分類任務是一個多標簽分類任務,然而,注釋數據僅選擇多標簽中的一個進行標注為1,其余標簽均為0。也就是說,某一個視頻片段除了可能是標注的還可能是其他置為0的標簽。這個問題也是個弱監督問題。

針對此情況,我們提出了一種解決方法。在計算損失時給帶注釋的類賦予較大的權重,并為未注釋的類賦予較小的權重[15]。這種加權交叉熵方法將幫助模型更好地從不完整的數據集中學習。

3.5 特征增強

為了避免在訓練模型時過擬合,我們添加了隨機生成的高斯噪聲并隨機注入到輸入特征向量的每個元素中。

如Figure 6 所示,噪聲將被添加到輸入特征向量中,掩碼向量隨機選擇 50% 的維度并將值設置為 1。這里的高斯噪聲是獨立的,但對于不同的輸入向量具有相同的分布。

Figure 6. 加高斯噪聲

同時,為了避免多模態模型只學習某一個模態的特征,也就是在模態上過擬合。我們將模態特征也mask,保證輸入中至少有某一個模態,如Figure 7所示。這樣就可以充分學習各個模態。

Figure 7. 模態Mask

4、實驗4.1 評價指標4.2 實驗結果4.2.1 多模態

為了驗證多模態中每個模態的收益,我們做了消融實驗,結果如Table 2所示。單個模態作為特征時,Video 的準確率最高,Audio的準確率最低,Text接近Video。雙模態時,Video + Text 由明顯提升,再加上 Audio后,提升有限。

Modal

MAP@K

Video

Audio

Text

69.2

38.1

65.8

71.3

73.9

70.5

74.6

Table 2. 多模態消融實驗

4.2.2 圖卷積

同樣為驗證GCN的收益,我們也做了對比實驗,其中閾值λ我們選擇了兩個,分別是 0.2和0.4。如Table 3 所示,結果表明,原始模型(org)相比,GCN 生成的分類器有助于提高性能,特別時當λ=0.4時。

Modal

MAP@K

org

74.0

+ GCN(λ=0.2)

74.7

+ GCN(λ=0.4)

74.9

Table 3. 圖卷積實驗

4.2.3 差異化的多模態網絡

為了驗證并聯的多模態網絡和差異化后的效果,我們設計五組實驗。第一組模型是單獨的1個多模態網絡,第二、三、四組是2個、3個、4個并聯的多模態網絡,第五組是差異化的3個并聯的多模態網絡。

從結果來看,并聯網絡能提高精度,但是并聯4個以后進度會下降,所以一味的增加并聯的網絡數并不能帶來收益。同時,實驗結果還表明,差異化的網絡結構能更有效的擬合數據。

Modal

MAP@K

One Multmodal Net

78.2

Two Multmodal Net

78.6

Three Multmodal Net

78.9

Four Multmodal Net

78.7

Three diff Multmodal Net

79.2

Table 4. 差異化多模態網絡實驗

4.2.4 標簽重加權

標簽重加權由兩個超參(n和m),通過實驗表明,當n=0.1 和m=2.5時準確率提高較高。

Modal

MAP@K

org

77.8

+ ReWeight(n=0.1, m=2.0)

78.2

+ ReWeight (n=0.1, m=2.5)

78.3

+ ReWeight (n=0.1, m=3.0)

78.1

Table 5. 標簽重加權實驗

4.2.5 特征增強

特征增強屬于數據增強的一種。實驗表明,通過加入高斯噪聲,和mask掉某些模態,都能提高模型的泛化能力。且此種加入高斯噪聲方式,實現簡單,遷移性強,易于再其他網絡中實現。

Modal

MAP@K

org

81.2

+ Gaussian noises

81.7

+ Gaussian noises + mask Modal

82.1

Table 6. 特征增強實驗

5、總結

實驗表明,上述幾種方法均有不同程度的提高,尤其以多模態和圖卷積提升比較明顯。

我們希望在未來探索更多的標簽依賴關系。 GCN 網絡也被證明在這項任務中很有用,我們認為值得我們做更多的實驗,將 GCN 網絡與其他最先進的視頻分類網絡結合起來。

引用

[1]. Rongcheng Lin, Jing Xiao, Jianping Fan: NeXtVLAD: An Efficient Neural Network to Aggregate Frame-level Features for Large-scale Video Classification.In: ECCV, workshop(2018)

[2]. Jeffrey L Elman. Finding structure in time. Cognitive science,14(2):179–211, 1990

[3]. Kyunghyun Cho, Bart Van Merrienboer, ¨ Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation.arXiv, 2014.

[4]. Jan K Chorowski, Dzmitry Bahdanau, Dmitriy Serdyuk, Kyunghyun Cho,and Yoshua Bengio. Attention-based models for speech recognition. In NIPS,pages 577–585, 2015.

[5]. Karen Simonyan, Andrew Zisserman, Two-Stream Convolutional Networks for Action Recognition in Videos. In: NIPS (2014)

[6]. Du Tran, Lubomir Bourdev, Rob Fergus, Lorenzo Torresani, Manohar Paluri Learning Spatiotemporal Features With 3D Convolutional Networks. In:ICCV(2015)

[7]. ??Christoph Feichtenhofer??,??Haoqi Fan??,??Jitendra Malik??,??Kaiming He??,SlowFast Networks for Video Recognition. In: CVPR (2019)?

[8]. Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lu?i?,Cordelia Schmid, ViViT: A Video Vision Transformer. In: CVPR (2021)

[9]. Zhao-Min Chen, Xiu-Shen Wei, Peng Wang, Yanwen Guo: Multi-Label Image Recognition with Graph Convolutional Networks. In: CVPR (2019)

[10]. Mingxing Tan, Quoc V. Le, EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks, PMLR 97:6105-6114,2019

[11]. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova,BERT: Pre-training of deep bidirectional transformers for language understanding. In North American Association for Computational Linguistics (NAACL), 2019

[12]. Jie Hu, Li Shen, Gang Sun, Squeeze-and-Excitation Networks. In: CVPR (2018)?

[13]. Zhang Z,Sabuncu M. Generalized cross entropy loss for training deep neural networks with noisy labels[C]//Advances in neural information processing systems. 2018:8778-8788.

[14]. Pereira R B, Plastino A, Zadrozny B, et al. Correlation analysis of performance measures for multi-label classification [J]. Information Processing & Management, 2018,54(3): 359-369.

[15]. Panchapagesan S, Sun M, Khare A, et al.Multi-Task Learning and Weighted Cross-Entropy for DNN-Based Keyword Spotting[C]. 2016: 760-764.

關鍵詞: 視頻分類 網絡結構 技術方案 特征向量 節點之間

上一篇:

下一篇:

X 關閉

X 關閉

久久国产精品一区二区三区四区,久色婷婷小香蕉久久,国产日韩欧美在线播放不卡,另类av一区二区
欧美国产乱视频| 欧美**人妖| 欧美午夜视频网站| 1024日韩| 99精品黄色片免费大全| 91久久综合亚洲鲁鲁五月天| 欧美午夜久久| 在线欧美小视频| 久热这里只精品99re8久| 榴莲视频成人在线观看| 亚洲激情小视频| 亚洲国产91色在线| 国产日韩成人精品| 亚洲裸体在线观看| 亚洲精品美女在线| 影音先锋日韩有码| 久久精品视频在线播放| 国产美女精品人人做人人爽| 蜜桃av久久久亚洲精品| 伊人久久大香线| 午夜久久久久久久久久一区二区| 欧美激情一区二区三区不卡| 欧美日本韩国一区二区三区| 欧美调教vk| 亚洲韩日在线| 亚洲欧洲三级电影| 欧美在线中文字幕| 国产精品久久久久久影院8一贰佰| 亚洲一区在线播放| 欧美α欧美αv大片| 亚洲性色视频| 亚洲最新中文字幕| 亚洲精品乱码久久久久久日本蜜臀| 久久丁香综合五月国产三级网站| 91久久香蕉国产日韩欧美9色| 一区二区三区国产盗摄| 一片黄亚洲嫩模| 欧美日韩免费高清一区色橹橹| 国产欧美日韩另类一区| 久久狠狠一本精品综合网| 亚洲手机成人高清视频| 国产色视频一区| 午夜精品久久久久久久99樱桃| 日韩亚洲欧美成人一区| 国产色产综合产在线视频| 亚洲综合首页| 国产精品一卡二卡| 亚洲精品国久久99热| 欧美—级高清免费播放| 99精品国产在热久久婷婷| 在线播放不卡| 欧美激情小视频| 久久成人av少妇免费| 日韩午夜激情电影| 亚洲欧美激情一区| 亚洲日本va午夜在线电影| 欧美日韩精品免费观看| 久久精品国产欧美亚洲人人爽| 亚洲一区二区三区免费在线观看| 在线观看免费视频综合| 国产精品乱码久久久久久| 中文在线一区| 欧美日韩亚洲视频一区| 黄网站色欧美视频| 国产视频在线观看一区二区三区| 欧美日韩免费观看一区=区三区| 欧美亚洲一区二区三区| 欧美制服第一页| 伊人久久综合| 欧美日韩精品免费观看视频| 国产亚洲一区二区三区在线播放| 欧美一区二区在线播放| 欧美精品91| 亚洲一区二区三区成人在线视频精品| 欧美国产日韩精品免费观看| 亚洲另类春色国产| 伊人久久综合| 欧美日韩dvd在线观看| 欧美成人精品激情在线观看| 亚洲日本欧美在线| 欧美天天综合网| 亚洲精品一区二区三区婷婷月| 国产精品毛片一区二区三区| 久久国产精品第一页| 亚洲黄色成人久久久| 久久亚洲国产成人| 国产一区二区三区的电影| 久久久综合精品| 一区二区视频免费在线观看| 亚洲日本在线观看| 亚洲欧美日韩综合国产aⅴ| 久久久久成人网| 国产日韩亚洲欧美综合| 日韩视频专区| 久久婷婷麻豆| 国产精品免费看| 久久久精品国产免费观看同学| 亚洲麻豆一区| 欧美色视频一区| 欧美制服丝袜第一页| 一区二区三区蜜桃网| 欧美精品黄色| 黄色av一区| 久久久久一本一区二区青青蜜月| 午夜精品久久久久久99热| 亚洲一区3d动漫同人无遮挡| 亚洲一区成人| 欧美久久久久久久久久| 欧美国产一区视频在线观看| 日韩视频不卡中文| 亚洲欧美影音先锋| 国产一区二区无遮挡| 国内精品伊人久久久久av影院| 黄色资源网久久资源365| 国产日韩欧美精品一区| 激情综合自拍| 欧美激情国产日韩精品一区18| 美女免费视频一区| 欧美在线日韩| 国产精品久久久久aaaa| 在线观看欧美| 国内揄拍国内精品少妇国语| 欧美色图五月天| 久久精品噜噜噜成人av农村| 亚洲精品国产精品国自产观看浪潮| 久久精品国产欧美亚洲人人爽| 欧美三区美女| 99国产精品久久| 亚洲色在线视频| 国产精品大片wwwwww| 欧美色区777第一页| 欧美影院成人| 一区二区三区欧美亚洲| 亚洲小视频在线| 中文精品视频一区二区在线观看| 一区二区亚洲精品| 99pao成人国产永久免费视频| 亚洲主播在线观看| 亚洲黄色性网站| 欧美日韩一区二区免费视频| 美国成人直播| 先锋亚洲精品| 亚洲一区欧美一区| 免费永久网站黄欧美| 樱桃国产成人精品视频| 国产精品任我爽爆在线播放| 亚洲最新视频在线| 国产精品视频免费观看| 欧美精品一区二区蜜臀亚洲| 国产精品手机视频| 久久久国产一区二区三区| 国产一区91| 久久精品99久久香蕉国产色戒| 欧美顶级艳妇交换群宴| 欧美国产91| 欧美日韩激情小视频| 亚洲欧美在线免费观看| 国产午夜精品久久久| 国产精品视频一区二区三区| 国产尤物精品| 欧美午夜精品久久久久久久| 国产视频一区在线| 国产精品日韩高清| 亚洲一区二区三区四区在线观看| 国产九九精品| 久久精品国产免费看久久精品| 午夜视频久久久| 欧美激情精品久久久久久蜜臀| 国产午夜精品美女毛片视频| 国产精品激情电影| 久久精品99国产精品| 亚洲精品色婷婷福利天堂| 蜜乳av另类精品一区二区| 亚洲黄色性网站| 久久尤物视频| 亚洲一区二区在| 日韩视频中文字幕| 欧美—级a级欧美特级ar全黄| 亚洲午夜电影网| 久久国产精品99久久久久久老狼| 亚洲欧美成人精品| 欧美人与性动交cc0o| 亚洲视频在线观看| 国产亚洲综合性久久久影院| 一区二区在线观看av| 激情综合色丁香一区二区| 国产一区久久久| 久久九九久久九九| 久久久精品日韩| 亚洲国产日韩精品| 久久婷婷综合激情| 国产精品成人国产乱一区| 日韩图片一区| 国产精品一区二区a| 亚洲国产日韩欧美在线99| 亚洲激情第一区| 在线观看成人小视频| 欧美激情国产日韩精品一区18| 久久婷婷影院| 亚洲欧美日韩一区二区三区在线|