<dd id="saiiy"></dd>
  1. <s id="saiiy"></s>

    1. <s id="saiiy"></s>
      1. <span id="saiiy"><blockquote id="saiiy"></blockquote></span>

        基于上下文注意力機制的人體姿態(tài)估計網(wǎng)絡(luò )

        發(fā)布時(shí)間:2024-11-04 14:58:45   來(lái)源:心得體會(huì )    點(diǎn)擊:   
        字號:

        吳 樾,梁橋康,孫 煒,3,張柯毅

        (1. 湖南大學(xué)電氣與信息工程學(xué)院,長(cháng)沙 410082;
        2. 電子制造業(yè)智能機器人技術(shù)湖南省重點(diǎn)實(shí)驗室,長(cháng)沙 410082;
        3. 湖南大學(xué)深圳研究院,深圳 518055;
        4. 四川大學(xué)匹茲堡學(xué)院,成都 610207)

        人體姿態(tài)估計是視覺(jué)感知中最基本和最具有挑戰性的任務(wù)之一。近年來(lái),隨著(zhù)自動(dòng)駕駛[1]、行人檢測[2]、目標跟蹤[3]和缺陷檢測[4]等計算機視覺(jué)技術(shù)的發(fā)展,人體姿態(tài)估計算法受到了越來(lái)越多研究者的關(guān)注,因此,取得了顯著(zhù)的進(jìn)展。

        目前,基于卷積神經(jīng)網(wǎng)絡(luò )的二維多人姿態(tài)估計主要有兩種主流策略,即自上而下和自下而上兩種方法。自上而下的方法需要先檢測出人體邊界框,然后對識別到的人體進(jìn)行單人姿態(tài)估計。自下而上的方法不進(jìn)行人體框的檢測,而是直接定位出所有的關(guān)節點(diǎn),然后將它們進(jìn)行分組。自上而下的方法精度更高,但是會(huì )犧牲速度,而且會(huì )受人體邊界框檢測精度的影響。自下而上的方法速度更快,但是精度相對不高,本文的方法遵循自上而下的思路。

        現有的自下而向上方法主要集中于如何將檢測到的屬于同一個(gè)人的關(guān)節點(diǎn)關(guān)聯(lián)在一起。Cao等[5]提出部分親和力場(chǎng)的概念,部分親和力場(chǎng)存儲了肢體的位置和方向信息,結合預測的熱力圖快速地將各關(guān)節點(diǎn)分組到每個(gè)人。Kreiss 等[6]提出部分強度場(chǎng)表示關(guān)節點(diǎn)的位置,部分關(guān)聯(lián)場(chǎng)表示關(guān)節點(diǎn)之間的關(guān)聯(lián)。

        自上而下的方法一般可以概括為兩個(gè)主要步驟:利用人體邊界框檢測網(wǎng)絡(luò )從輸入圖片或者視頻序列中檢測人體邊界框;
        從識別到的人體邊界框中定位并分類(lèi)所有關(guān)節點(diǎn)。高分辨率特征蘊含詳細的空間信息,有利于定位任務(wù),如定位關(guān)節點(diǎn)的位置。低分辨率的特征圖具有豐富的語(yǔ)義信息,有利于分類(lèi)任務(wù),如關(guān)節點(diǎn)的分組。因此,有效地融合不同分辨率的特性是提高人體姿態(tài)估計精度的關(guān)鍵。高像素網(wǎng)絡(luò )(High Resolution Net,HRNet)[7]通過(guò)并行高分辨率和低分辨率子網(wǎng)絡(luò ),逐步添加低分辨率特征的方式保持高分辨率特征表示。通過(guò)重復執行多尺度特征融合,不同分辨率子網(wǎng)絡(luò )的信息被反復融合,特征表征能力得到增強,這種保持高、低分辨率特征的策略能夠顯著(zhù)地提高人體姿態(tài)估計的精度。Wei 等[8]通過(guò)序列化的多階段網(wǎng)絡(luò )逐步細化關(guān)節點(diǎn)預測,利用中間監督信息有效地解決了梯度消失的問(wèn)題。模擬人類(lèi)認知的過(guò)程,即先注意能夠直接看到的關(guān)節點(diǎn),然后利用已知的關(guān)節點(diǎn)信息推測出看不見(jiàn)的部分。Chen 等[9]提出了一個(gè)兩階段的級聯(lián)金字塔網(wǎng)絡(luò ),前一階段用于預測一個(gè)粗略的姿態(tài),后一階段在前一階段的基礎上改進(jìn)預測結果。殘差階梯網(wǎng)絡(luò )(Residual Steps Network, RSN)[10]設計了一種密集的網(wǎng)絡(luò )結構來(lái)融合層內特征,可以學(xué)習到細膩的局部信息,保存準確的空間信息,結合姿態(tài)調整機進(jìn)一步細化初始姿態(tài),提高姿態(tài)估計的精度。Qiu 等[11]模擬了人類(lèi)的認知過(guò)程,提出了一種估計被遮擋關(guān)節的推理方法。該方法首先估計初始姿態(tài),然后利用對圖像上下文的理解和對人體姿態(tài)結構的理解來(lái)調整初始姿態(tài)。Chou等[12]使用兩個(gè)沙漏網(wǎng)絡(luò )分別作為生成器和鑒別器,生成器預測每個(gè)關(guān)節點(diǎn)熱力圖,鑒別器用于區分真值和預測的熱力圖。

        對人體結構的建模是提高人體姿態(tài)估計精度的重要研究方向之一。當關(guān)節點(diǎn)存在遮擋和相似時(shí),由于缺乏必要的視覺(jué)信息,當前的人體姿態(tài)估計算法很容易產(chǎn)生誤檢和漏檢。人體是一個(gè)具有對稱(chēng)結構的整體,對人體結構建??梢詾閱蝹€(gè)關(guān)節點(diǎn)提供對應的肢體信息甚至是全身姿態(tài)的全局信息,增強特征的表征能力,進(jìn)一步細化關(guān)節點(diǎn)的位置。

        針對HRNet 缺乏對人體結構信息建模的問(wèn)題,本文利用關(guān)節點(diǎn)上下文注意力機制(The Keypoint Context Attention Mechanism, KCAM)對關(guān)節點(diǎn)的相對位置關(guān)系進(jìn)行建模,提出了基于上下文注意力機制的關(guān)節點(diǎn)提取網(wǎng)絡(luò )(Context Attentionbased Keypoint Extraction Network, CAHRNet)。為了增強訓練數據集的大小和質(zhì)量,提出了基于語(yǔ)義分割和隨機信息刪除的數據增強方法。

        2.1 基于上下文注意力機制的關(guān)節點(diǎn)提取網(wǎng)絡(luò )

        CAKENet 的框架結構如圖1 所示,CAKENet的結構與HRNet 相似,網(wǎng)絡(luò )由4 個(gè)階段組成,每個(gè)階段包含不同的分支數,每個(gè)階段會(huì )重復n次,利用特征融合模塊融合不同分辨率的特征,豐富特征的表示。CAKENet 每個(gè)階段內增加KCAM模塊建模關(guān)節點(diǎn)之間的依賴(lài)關(guān)系。

        圖1 CAKENet 的框架結構Fig. 1 Architecture of CAKENet

        網(wǎng)絡(luò )的特征提取過(guò)程如下。

        (1)第1 階段:分辨率為4H4×W的輸入圖像首先經(jīng)過(guò)兩個(gè)步長(cháng)為2 的3 × 3 卷積將分辨率降低為H×W,為了不損失信息,通道數從3 增加為64,然后使用4 個(gè)串聯(lián)的Bottleneck 模塊進(jìn)行特征提取,輸出特征通道數為64。

        (2)第2 階段:高分辨率分支的分辨率為H×W,通道數為R。同時(shí)增加一個(gè)低分辨率分支,分辨率降低為(H/2)×(W/2),通道數增加為2R。從階段2 開(kāi)始,每個(gè)分支由4 個(gè)串聯(lián)的Basic 模塊組成,為了對人體結構進(jìn)行建模,將KCAM 模塊添加到每個(gè)分支的末尾。然后利用特征融合模塊融合不同分支的特征,進(jìn)一步強化不同分支之間的信息交換。

        HRNet 和CAKENet 的結構對比如表1 所示,其中,(3 × 3,s= 2)表示步長(cháng)為2 的3 × 3 卷積塊,Bottleneck 模塊由兩個(gè)1 × 1 卷積,一個(gè)3 × 3卷積組成。Basic 模塊由兩個(gè)3 × 3 卷積組成。Bottleneck 模塊和Basic 模塊分別重復4 次,KCAM 模塊添加到每個(gè)特征融合模塊之前。

        表1 CAKENet 和HRNet 網(wǎng)絡(luò )結構Table 1 architecture of CAKENet and HRNet

        3 種典型的多尺度特征融合方法如圖2 所示。

        圖2 多尺度特征融合示意圖Fig. 2 Multiscale feature fusion

        式中,T表示相應的上采樣、下采樣或普通卷積。上采樣過(guò)程先使用1 × 1 卷積改變通道數,然后利用最鄰近上采樣擴大分辨率。下采樣過(guò)程使用步長(cháng)為2 的3 × 3 卷積。普通卷積使用1 × 1 卷積,且不會(huì )改變特征的通道數。

        特征融合是增強特征表征能力的重要方式之一,高分辨率特征包含更多的位置、細節信息,其語(yǔ)義性更低,噪聲更多。低分辨率特征具有更強的語(yǔ)義信息,但是對位置、細節的感知能力較差。通過(guò)特征融合可以實(shí)現多分辨率特征的優(yōu)勢互補,從融合的多個(gè)原始特征中獲得最具差異性的信息,消除不同特征之間的冗余信息。從而有效地增強網(wǎng)絡(luò )的位置不變性和位置敏感性,提高網(wǎng)絡(luò )對非線(xiàn)性的建模能力,提高網(wǎng)絡(luò )的魯棒性。

        2.2 上下文注意力機制

        全局上下文信息在人體姿態(tài)估計領(lǐng)域中起著(zhù)至關(guān)重要的作用。在卷積神經(jīng)網(wǎng)絡(luò )中,可以使用具有較大感受野的卷積層建模全局上下文信息。感受野是指神經(jīng)網(wǎng)絡(luò )的卷積層輸出特征上的像素點(diǎn)在輸入圖像上的感受范圍大小。對于k層卷積,其輸出特征的感受野計算方法見(jiàn)式(2),輸出特征大小計算方式為式(3)。

        式中,Rk-1表示第k-1 層的感受野大小,Fk表示第k層卷積核的大小,Si表示第i層卷積的步長(cháng)。

        式中,Nk1-是輸入特征的大小,PkD是填充像素數。

        由式(2)可知,堆疊大量的卷積塊是增大感受野的一種方法。但是,增加卷積層會(huì )使網(wǎng)絡(luò )的參數量和計算量指數級上升,同時(shí)也會(huì )導致梯度爆炸、巨大的內存消耗等問(wèn)題。另一種方法則是增加卷積核的步長(cháng),雖然這樣可以增大卷積核的感受野,但是,由式(3)可知,當步長(cháng)Si大于1 時(shí),卷積操作會(huì )使特征圖的大小降低約Si倍,這會(huì )損失大量的空間信息,降低網(wǎng)絡(luò )的位置敏感性,同樣不利于關(guān)節點(diǎn)的定位。

        卷積操作流程與感受野變化如圖3 所示。經(jīng)過(guò)一層卷積操作之后,綠色特征相對于藍色輸入感受野為3 × 3(圖3(a))。經(jīng)過(guò)第二層卷積操作之后,橙色特征相對綠色特征感受野為3 × 3(圖3(b))。經(jīng)過(guò)連續兩層卷積之后,橙色特征相對藍色輸入特征感受野為5 × 5(圖3(c))。

        圖3 卷積操作與感受野示意圖Fig. 3 Convolution and receptive field

        注意力機制模仿了人類(lèi)感知周?chē)h(huán)境的方式,幫助神經(jīng)網(wǎng)絡(luò )從大量的不相關(guān)的信息中篩選出有價(jià)值的目標區域。注意力機制一般可分為通道注意力和空間注意力。

        (1)通道注意力是指對通道之間的相關(guān)性進(jìn)行建模,然后根據不同通道的重要性重新校準通道。

        擠壓激發(fā)網(wǎng)絡(luò )( Squeeze-and-Excitation Networks, SENet)[13]提出了一種“擠壓-激發(fā)”塊,通過(guò)全局平均池化獲得通道描述符,用于加強有用的通道和弱化不重要的通道。

        (2)空間注意力學(xué)習每個(gè)空間位置的重要性,可以增強網(wǎng)絡(luò )對目標區域的“注意力”,削弱無(wú)關(guān)區域。卷積注意力模塊[14]是一個(gè)由空間注意力和通道注意力組成的注意力模塊。在壓縮空間維數時(shí),同時(shí)使用平均池化和最大池化,與只關(guān)注通道注意力的SENet 相比,可以獲得更好的性能。Wang 等[15]通過(guò)聚合來(lái)自其他位置的信息增強查詢(xún)位置的特性。全局上下文網(wǎng)絡(luò )(Global Context Networks, GCNet)[16]提出全局上下文塊,該網(wǎng)絡(luò )可以有效地建模全局上下文信息,增強網(wǎng)絡(luò )的全局理解。

        以SENet 為例,大多數注意機制可以表示為

        式中,Z表示原始特征,表示重新校準后的特征,Fse(·) 表示相應的注意力映射,?表示元素乘法。

        為了獲得人體結構的全局上下文依賴(lài)關(guān)系,本文提出使用關(guān)節點(diǎn)上下文注意力機制(KCAM)建模人體結構信息。如圖4 所示,KCAM 由3 個(gè)分支組成:殘差連結分支、通道注意力分支和空間注意力分支??臻g注意力分支由9 × 9 深度可分離卷積(Depthwise Separable Convolution, DSC)和1 × 1 卷積組成。深度可分離卷積減少了計算消耗,并分離了不同的通道,從而可以學(xué)習到每個(gè)空間位置的空間注意力??臻g注意力分支可以表述為

        圖4 KCAM 模塊Fig. 4 KCAM Module

        式中,Conv9×9,DSC表示9 × 9 深度可分離卷積,Conv表示1 × 1 普通卷積,β為空間注意力特征。

        受GCnet[16]的啟發(fā),通道注意力分支可以表述為

        式中,n等于H×W,H,W分別為輸入特征圖的高度和寬度,Zj表示特征圖上的第j個(gè)像素點(diǎn),α為通道注意力特征。

        通道注意力分支和空間注意力分支通過(guò)元素相加得到融合的注意力特征圖。大量研究表明,殘差結構[17]更有利于梯度傳遞和網(wǎng)絡(luò )優(yōu)化,通過(guò)增加殘差連接分支可以達到特征復用的目的。

        因此,KCAM 模塊可以表示為

        2.3 數據增強

        更大的數據集能促使神經(jīng)網(wǎng)絡(luò )取得更好的性能,但是,數據集的采集、標注是一項非常艱巨的任務(wù),因此,如何利用有限的數據產(chǎn)生更多的訓練樣本成了一個(gè)熱門(mén)的研究領(lǐng)域。數據增強可以增加數據集的規模,能夠有效地提高深度學(xué)習模型的泛化能力,在人體姿態(tài)估計領(lǐng)域起著(zhù)至關(guān)重要的作用。目前,常用的數據增強方法為旋轉、尺度縮放、翻轉和顏色增強等。

        Gong 等[18]使用顯著(zhù)圖保留圖片中包含關(guān)鍵信息的區域,從而提高數據的保真率,緩解了在數據增強過(guò)程中改變數據分布的問(wèn)題?;诨旌系臄祿鰪姺椒ú粫?huì )區分圖像的內容和風(fēng)格特征,Hong 等[19]提出分別對圖像的內容和風(fēng)格特征進(jìn)行變化。Gong 等[20]使用隨機噪聲等方式生成一系列增強的數據樣本,然后從中挑選損失誤差最大的用于網(wǎng)絡(luò )訓練。

        基于信息刪除[21-22]的方法因其高效性而得到廣泛的應用,在圖像分類(lèi)、目標檢測和行人重識別等視覺(jué)任務(wù)領(lǐng)域實(shí)現了對基線(xiàn)網(wǎng)絡(luò )的改進(jìn)。其關(guān)鍵思想是將訓練圖片分為多個(gè)區域,隨機刪除其中部分區域,以生成具有不同遮擋程度的訓練圖像。刪除最具鑒別性的信息,可以迫使網(wǎng)絡(luò )尋找其他相關(guān)內容,使模型對遮擋具有魯棒性,從而降低過(guò)擬合的風(fēng)險。

        Ke 等[23]提出使用關(guān)節點(diǎn)屏蔽的方法模擬難訓練樣本。該方法通過(guò)復制粘貼關(guān)節點(diǎn)或背景補丁產(chǎn)生易混淆的訓練樣本,從而有效提高網(wǎng)絡(luò )在極端情況下的學(xué)習能力。Bin 等[24]提出了一種對抗性語(yǔ)義數據增強策略,構建了一個(gè)包含不同身體部位的語(yǔ)義部位池,并在訓練過(guò)程中使用對抗生成神經(jīng)網(wǎng)絡(luò )從語(yǔ)義部位池中隨機選擇一個(gè)身體部位粘貼到輸入圖像中,產(chǎn)生難以識別的姿態(tài)。該方法有效地提高了網(wǎng)絡(luò )在外觀(guān)相似、嚴重遮擋和擁擠人群等情形下的識別精度。數據增強有效地拓展了人體姿態(tài)估計的邊界。

        在背景清晰、沒(méi)有明顯遮擋的情況下,當前大多數的神經(jīng)網(wǎng)絡(luò )都可以準確預測關(guān)節點(diǎn)的位置。然而,在識別一些被嚴重遮擋的人體姿態(tài)時(shí)仍然容易誤識別。

        為了生成更多的難樣本,本文提出了一種基于語(yǔ)義分割的數據增強方法。該方法和基于信息刪除的數據增強方法分別為了模擬圖5 所示的兩種常見(jiàn)挑戰。由于不使用外部數據,將兩種數據增強方法合稱(chēng)為自數據增強(Self Data Augmentation, SDA)。

        圖5 常見(jiàn)的具有挑戰性的場(chǎng)景Fig. 5 Common challenging scenarios

        2.3.1 基于語(yǔ)義分割的數據增強方法

        針對多個(gè)人相互遮擋、擁擠的情形,本文設計了一種基于語(yǔ)義分割的數據增強方法,如圖6所示。為了方便描述,將訓練圖像定義為前景和背景兩個(gè)部分,前景即為圖片中包含目標人體語(yǔ)義分割的區域,背景為除了前景以外的其他區域。具體做法如下。

        圖6 基于語(yǔ)義分割的數據增強策略Fig. 6 Data augmentation strategy based on semantic segmentation

        首先,從原始圖像中隨機截取的一部分作為生成圖像的背景,然后,利用線(xiàn)性插值方法將其縮放到與原始圖像一樣的大小。最后,將人體語(yǔ)義分割區域粘貼到縮放后的圖像中,變換前后人體語(yǔ)義分割區域的絕對坐標位置不變。

        基于語(yǔ)義分割的數據增強可以描述為

        式中,H為人體語(yǔ)義分割區域,F為從原始圖像中隨機截取的部分,φ()· 表示線(xiàn)性插值,⊕表示以H中的元素替換φ(F)中的元素,Y為生成的圖像。

        使用背景替換來(lái)擴展數據集是一種常見(jiàn)的做法。然而,傳統方法產(chǎn)生的圖像有明顯的人工偽造痕跡。本文所提的方法沒(méi)有從其他圖像中獲取背景,而是將原始圖像的一部分作為新圖像的背景。其優(yōu)點(diǎn)是不會(huì )改變圖像像素值的分布,前景可以很好地在背景中混合,而且不會(huì )產(chǎn)生明顯的人工痕跡,如圖7 所示為基于語(yǔ)義分割的數據增強策略生成的一些訓練樣本,其中,(a)~(e)為原始圖像,(f)~(j)為生成的圖像。此外,由于背景的選擇是隨機的,背景中還會(huì )有前景人物的部分區域,可以產(chǎn)生相似人群(如圖7(h)、(j)所示)的訓練樣本,從而提高神經(jīng)網(wǎng)絡(luò )的辨別能力。

        圖7 基于語(yǔ)義分割的數據增強策略生成的訓練圖像Fig. 7 Training images generated by the data augmentation strategy based on semantic segmentation

        2.3.2 基于信息刪除的數據增強方法

        使用基于信息刪除的數據增強方法模擬部分關(guān)節點(diǎn)被其他物體遮擋的情形。具體做法如圖8所示。

        圖8 基于隨機信息刪除的數據增強策略Fig. 8 Data augmentation strategy based on random information removal

        首先,隨機選擇部分關(guān)節點(diǎn)并隨機刪除其周?chē)鷧^域的信息,然后從圖像中隨機選擇一個(gè)區域填充至該區域。為了避免神經(jīng)網(wǎng)絡(luò )對填充形狀過(guò)擬合,隨機刪除區域的形狀從圓形、矩形或扇形中隨機選擇。隨機刪除區域的尺寸Rr計算方式為

        式中,e是取值范圍為[0,1]的隨機數,L是該關(guān)節點(diǎn)所在肢體的長(cháng)度。

        隨機刪除區域的中心隨機偏離關(guān)節點(diǎn)中心一段距離d。

        3.1 實(shí)驗細節

        實(shí)驗使用Pytorch 作為深度學(xué)習框架,顯卡為英偉達RTX2080Ti GPU,最小批次為12。使用了水平翻轉、隨機旋轉、隨機縮放、顏色增強、隨機半身截取和本文提出的自數據增強等數據增強方法。在網(wǎng)絡(luò )模型訓練過(guò)程中,輸入圖像的大小被固定為384 × 288 和256 × 192。使用Adam優(yōu)化器對各種訓練參數進(jìn)行更新,初始學(xué)習速率為1e-3??傆柧気啍禐?10 輪。數據集為COCO數據集[25]。

        結合分類(lèi)和回歸的表示法將關(guān)節點(diǎn)編碼成一個(gè)分類(lèi)熱力圖和兩個(gè)分別沿x軸和y軸方向的偏移向量。假設有K個(gè)關(guān)節點(diǎn)P={p1,p2,… ,p k|pi=(ai,bi)},其中,分類(lèi)熱力圖可以表示為

        式中,ai、bi分別為關(guān)節點(diǎn)pi的橫坐標和縱坐標,r為感興趣區域(Region of interest,ROI)的半徑。如果一個(gè)像素點(diǎn)在ROI 內,意味著(zhù)這個(gè)像素點(diǎn)在關(guān)節點(diǎn)的周?chē)?/p>

        對應的坐標偏移向量為

        式中,χ和γ分別表示x軸和y軸方向上的坐標偏移向量,乘積項η表示網(wǎng)絡(luò )只需要學(xué)習ROI 中的偏移量,?表示元素對應相乘。

        在模型訓練時(shí),損失函數被定義為

        在網(wǎng)絡(luò )預測階段,利用式(15)可以得到對應關(guān)節點(diǎn)的坐標。

        3.2 人體姿態(tài)估計實(shí)驗結果分析

        表2 是CAKENet 與其他方法在COCO 驗證集上的人體姿態(tài)估計結果比較。

        表2 CAKENet 與其他方法在COCO 驗證集上的對比Table 2 Comparison between CAKENet and other methods on COCO verification set

        當輸入圖片大小固定為 384 × 288 時(shí),CAKENet 的精度為79.5%。與HRNet-W48 相比精度增加了3.2%,參數量?jì)H增加7.6 M,計算量增加0.9 GFLOPs。與UDP-HRNet-W48 相比精度增加了1.7%。實(shí)驗結果表明,CAKENet 在相近的參數量和計算量的網(wǎng)絡(luò )中表現出了最好的關(guān)節點(diǎn)定位精度。

        與其他大模型相比,比多階段姿態(tài)網(wǎng)絡(luò )(Multi-Stage Pose Network, MSPN)的精度高2.6%。與最有效的模型4 × RSN-50 相比,CAKENet的精度增加了0.3%,參數量下降40.6 M,計算量下降28.1 GFLOPs。

        當輸入大小固定為 256 × 192 像素時(shí),CAKENet 的精度為78.0%。相比UDP-HRNet-W48精度提高了0.8%,計算量?jì)H增加0.3 GFLOPs。與2 × RSN-50 相比,精度提高了0.8%,計算量增加了1.1 GFLOPs。在相近參數量和計算量的模型對比中,CAKENet 取得了最好的關(guān)節點(diǎn)定位精度。

        與其他較大的模型相比,比MSPN 的精度高2.1%,參數量下降48.8 M。雖然精度比4 × RSN-50低0.6%,但是參數量下降了40.6 M。與更大的模型相比,CAKENet 能夠取得接近的結果。

        CAKENet 在COCO 數據集上人體關(guān)節點(diǎn)的識別結果如圖9 所示。

        圖9 在COCO 數據集上的部分結果展示Fig. 9 Rresults on the COCO dataset

        表3 展示了CAKENet 與其他先進(jìn)的方法在COCO test-dev 上的人體姿態(tài)估計精度比較。

        表3 與其他方法在COCO test-dev 上的對比Table 3 Comparison with other methods on COCO test-dev

        與近似參數量和計算量的模型的比較,CAKENet 相比HRNet-W48 精度提高了1.2%,比UDP-HRNet-W48 的精度高0.2%,相比Simple Baseline 精度增加了3%,相比初步和精細網(wǎng)絡(luò )(Coarse Fine Network, CFN)精度增加了4.1%。以上結果證明了CAKENet 的有效性。

        此外,與較大的模型相比,CAKENet 比MSPN 的精度高0.6%,參數量下降了48.8 M。精度比4 × RSN-50 低1.9%,參數量下降40.6 M,計算量下降32.1GFLOPs。

        3.3 消融實(shí)驗

        3.3.1 KCAM 和SDA 的有效性

        為了評估本文所提出的關(guān)節點(diǎn)上下文注意力機制KCAM 和自數據增強SDA 的在人體姿態(tài)估計中的有效性,本節進(jìn)行了一系列的消融實(shí)驗。

        輸入圖像固定為256 × 192 像素。沒(méi)有使用預訓練模型,初始學(xué)習速率為1e-3,使用Adam優(yōu)化器更新網(wǎng)絡(luò )參數,所有的模型都以相同的配置從頭開(kāi)始訓練,總共訓練160 輪,最后在COCO驗證集上進(jìn)行評估。相應的實(shí)驗配置和結果如表4 所示。

        表4 消融實(shí)驗的配置及結果Table 4 Configuration and results of ablation experiments

        方法(a)為對照組,使用的網(wǎng)絡(luò )為原始HRNet-w32;
        方法(b)在數據處理階段使用了自數據增強策略;
        方法(c)在原始HRNet-w32 的基礎上添加了關(guān)節點(diǎn)上下文注意力機制。

        使用了自數據增強的網(wǎng)絡(luò )比原始網(wǎng)絡(luò )獲得1.0%的精度增長(cháng),這與增加數據集數量可以提高網(wǎng)絡(luò )性能的常識相一致。結果表明,數據增強在人體姿態(tài)估計領(lǐng)域具有很大的應用前景。

        上下文注意力機制促使網(wǎng)絡(luò )實(shí)現了2.0%的精度增加,實(shí)驗表明KCAM 可以顯著(zhù)地提高網(wǎng)絡(luò )的精度和收斂速度,驗證了上下文注意力機制的有效性。

        消融實(shí)驗1 的結果表明,上下文注意力機制和自數據增強不僅可以提高人體姿態(tài)估計的精度,還可以提高網(wǎng)絡(luò )的收斂速度。

        3.3.2 不同像素特征的貢獻

        在神經(jīng)網(wǎng)絡(luò )中,不同像素大小的特征分別蘊含著(zhù)不同的信息。一般來(lái)說(shuō),高像素的特征蘊含著(zhù)豐富的空間信息,有利于定位任務(wù)。低像素的特征具有高層次的語(yǔ)義信息,有助于分類(lèi)任務(wù)。在人體姿態(tài)估計任務(wù)中,不同分辨率的特征分別貢獻不同的作用。為了定量地說(shuō)明每個(gè)分支特征的貢獻,本文設計了一種加權特征融合方法,如圖10 所示。

        圖10 加權特征融合Fig. 10 Weighted feature fusion

        加權融合過(guò)程可以描述為

        式中,wij表示融合權重,ci和分別表示分辨率為的輸入特征和輸出特征。

        利用加權特征融合取代原來(lái)的特征融合方法,所有權重是一個(gè)初始值為1 的可訓練的參數。圖10a~c 所示的融合過(guò)程分別可以表述為

        用矩陣乘法可以表示為

        式中,W為特征融合模塊的權重,TC表示矩陣轉置。

        第2 階段只有一個(gè)融合模塊,其可視化結果如圖 11(a)所示,其中,w0,0= 2.2,w0,1= 0.22,w1,0= 1.8,w1,1= 1.1。第3 階段的前兩個(gè)融合權重如圖11(b-c)所示,融合不同分支的特征時(shí),更高分辨率分支所占的權重更大。說(shuō)明在網(wǎng)絡(luò )的淺層,神經(jīng)網(wǎng)絡(luò )傾向于融合更多高分辨率的特征,有利于關(guān)節點(diǎn)的定位,網(wǎng)絡(luò )具有更強的位置敏感性。

        隨著(zhù)網(wǎng)絡(luò )層數的增加,高像素特征所占的比例變小,而低像素特征的比例增大,如圖11(d)~(h)所示。說(shuō)明在網(wǎng)絡(luò )的深層,需要聚合更多的語(yǔ)義信息對關(guān)節點(diǎn)進(jìn)行分類(lèi),網(wǎng)絡(luò )具有更強的位置不變性。

        圖11 融合權重WFig. 11 Fusion weights W

        消融實(shí)驗2 的結果表明,在人體姿態(tài)估計任務(wù)中,網(wǎng)絡(luò )的不同階段分別處理不同的任務(wù),網(wǎng)絡(luò )的淺層主要解決關(guān)節點(diǎn)的定位問(wèn)題,網(wǎng)絡(luò )的深層主要解決已定位關(guān)節點(diǎn)的分類(lèi)問(wèn)題。

        本文針對HRNet對人體結構信息建模不足的問(wèn)題,提出了基于上下文注意力機制的關(guān)節點(diǎn)提取網(wǎng)絡(luò ),通過(guò)引入上下文注意力機制發(fā)掘潛在的全局上下文信息。同時(shí)提出了一種基于語(yǔ)義分割的數據增強策略,使用該策略能夠生成大量難樣本,增強了網(wǎng)絡(luò )的泛化能力。所提出的基于上下文注意力機制的關(guān)節點(diǎn)提取網(wǎng)絡(luò )在COCO數據集上的姿態(tài)估計精度高達79.5%。本文的實(shí)驗證明了所提出的CAKENet 網(wǎng)絡(luò )是有效的,有望開(kāi)拓人體姿態(tài)估計方法研究的新思路。

        猜你喜歡關(guān)節點(diǎn)姿態(tài)語(yǔ)義基于深度學(xué)習和視覺(jué)檢測的地鐵違規行為預警系統研究與應用科學(xué)技術(shù)創(chuàng )新(2021年19期)2021-07-16關(guān)節點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò )結合的雙人交互動(dòng)作識別沈陽(yáng)航空航天大學(xué)學(xué)報(2020年6期)2021-01-27攀爬的姿態(tài)學(xué)生天地(2020年3期)2020-08-25語(yǔ)言與語(yǔ)義開(kāi)放教育研究(2020年2期)2020-03-31全新一代宋的新姿態(tài)汽車(chē)觀(guān)察(2018年9期)2018-10-23跑與走的姿態(tài)中國自行車(chē)(2018年8期)2018-09-26搞好新形勢下軍營(yíng)美術(shù)活動(dòng)需把握的關(guān)節點(diǎn)軍營(yíng)文化天地(2017年6期)2017-06-28RGBD人體行為識別中的自適應特征選擇方法智能系統學(xué)報(2017年1期)2017-06-01批評話(huà)語(yǔ)分析中態(tài)度意向的鄰近化語(yǔ)義構建中國修辭(2017年0期)2017-01-31“社會(huì )”一詞的語(yǔ)義流動(dòng)與新陳代謝中國社會(huì )歷史評論(2016年2期)2016-06-27
        国产另类无码专区|日本教师强伦姧在线观|看纯日姘一级毛片|91久久夜色精品国产按摩|337p日本欧洲亚洲大胆精

        <dd id="saiiy"></dd>
        1. <s id="saiiy"></s>

          1. <s id="saiiy"></s>
            1. <span id="saiiy"><blockquote id="saiiy"></blockquote></span>