金屬表面缺陷檢測方法YOLOv3I

發(fā)布時(shí)間：2025-06-09 16:25:36 來(lái)源：心得體會(huì ) 點(diǎn)擊：

小中大

字號：

手機查看

劉浩翰,孫鋮,賀懷清,惠康華

(中國民航大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,天津 300300)

由于工業(yè)金屬零件在生產(chǎn)過(guò)程中產(chǎn)生的表面缺陷會(huì )影響機械設備的正常運行,因此能快速、準確、全面地檢測其表面缺陷具有重要意義.目前,軸承溝道表面缺陷檢測方法主要歸結為兩類(lèi): 標準的缺陷檢測和基于深度學(xué)習的缺陷檢測.軸承生產(chǎn)環(huán)境精細且復雜,所產(chǎn)生的缺陷大小形狀各異,同時(shí)與金屬表面有相似的紋理特性,因此檢測較困難.標準檢測方法通常需要相關(guān)領(lǐng)域質(zhì)檢專(zhuān)家參與檢驗缺陷,成本較高,同時(shí)無(wú)法避免視覺(jué)疲勞導致的誤檢、漏檢,檢測效果得不到保證.基于深度學(xué)習的缺陷檢測方法主要有兩階段(two-stage)和單階段(one-stage)兩種.兩階段目標檢測算法包括生成候選框和使用卷積神經(jīng)網(wǎng)絡(luò )(convolutional neural networks,CNN)[1]提取特征并進(jìn)行分類(lèi)回歸兩個(gè)階段,其代表性算法有R-CNN[2],SPP-Net[3],FastR-CNN[4],Faster R-CNN[5]和Mask R-CNN[6].單階段缺陷檢測算法是基于端到端回歸的方法,其典型代表有SSD(single shot multiBox detector)[7]和YOLO(you only look once)系列算法[8-10].兩階段目標檢測算法因其對每個(gè)候選框進(jìn)行特征提取、分類(lèi)和預測框回歸,因而具有較高的準確性,單階段目標檢測算法則具有更快的檢測速度.

基于深度學(xué)習的目標檢測算法依賴(lài)卷積神經(jīng)網(wǎng)絡(luò )提取輸入圖像特征,效果越好的模型通常有越深的卷積神經(jīng)網(wǎng)絡(luò )結構,同時(shí)網(wǎng)絡(luò )模型會(huì )產(chǎn)生更多的參數量和計算量.例如: 田強等[11]通過(guò)改進(jìn)殘差模塊結構,加強模型正則化抑制網(wǎng)絡(luò )的過(guò)擬合,通過(guò)控制卷積核數量減少網(wǎng)絡(luò )冗余參數,加速了網(wǎng)絡(luò )訓練過(guò)程; 朱海琦等[12]使用殘差思想充分提取淺層特征信息,提高了淺層特征信息利用率; 黃鳳榮等[13]基于Faster R-CNN引入多級ROI(region of interest)池化層結構,提高了發(fā)動(dòng)機零件表面缺陷檢測效率; 史文旭等[14]提出了融合和增強特征模塊的SSD遙感圖像目標檢測算法; 連麗容等[15]基于RetinaNet深度學(xué)習模型結合雙目機器視覺(jué)提高了路側行人檢測結果召回率,但檢測速度低于對比算法YOLOv3(you only look once v3); 許增等[16]提出了結合DenseNet的改進(jìn)YOLOv3方法,將網(wǎng)絡(luò )的每層都與后面所有層連接,模型精度得到提升但顯著(zhù)增加了參數量和計算量; 易三莉等[17]使用U-Net結合Inception模塊增加網(wǎng)絡(luò )寬度,但Inception模塊各分支卷積核大小相同,不能有效提取輸入的多尺度特征; 楊焰飛等[18]將Inception模塊放入特征融合支路因而降低了模型運行速率; 王雪[19]在U-Net基礎上使用空洞卷積提取多尺度特征,因為使用不同的擴張率導致感受野不連續,可能會(huì )丟失如邊緣之類(lèi)的連續信息.上述方法有的通過(guò)增加網(wǎng)絡(luò )模型的深度、合并模型獲得模型在精度性能上的提升,缺點(diǎn)是引入了較多的參數,使模型運行緩慢,不能很好地兼顧檢測的精度和速度,模型參數使用率較低; 有的通過(guò)使用改進(jìn)后的殘差模塊提取淺層特征,但網(wǎng)絡(luò )底層的維度變化,會(huì )丟失細節信息; 還有通過(guò)增加網(wǎng)絡(luò )各層之間的連接,改變感受野大小,但會(huì )導致模型復雜度增大或丟失一些連續性信息.本文綜合對比了YOLOv3,YOLOv4和YOLOv5[20]的最完全版YOLOv5x模型,經(jīng)實(shí)驗證明YOLOv4,YOLOv5不適合本文復雜紋理背景工業(yè)缺陷檢測的研究,最終選擇YOLOv3作為基模型進(jìn)行工業(yè)金屬表面缺陷檢測的研究.

為權衡網(wǎng)絡(luò )模型的精度和速度,本文基于YOLOv3提出一種改進(jìn)的缺陷檢測方法YOLOv3I(you only look once v3 inception).為解決軸承等工業(yè)零件表面缺陷大小不一難以檢測、深度學(xué)習模型參數量大使用效率低的問(wèn)題,將標準CNN結構使用單一固定大小的卷積核改進(jìn)為使用多個(gè)不同尺度卷積核進(jìn)行并行處理的結構,不同大小的卷積核有不同大小的感受野,可以適應和提取不同尺寸的缺陷特征,通過(guò)提取多尺度特征進(jìn)行融合以提升網(wǎng)絡(luò )模型的特征提取能力.在使用1×1卷積大幅度減少多個(gè)卷積核并行導致的參數增加問(wèn)題的同時(shí),引入空間可分離卷積,將卷積核分解為不對稱(chēng)卷積,增加網(wǎng)絡(luò )的寬度和深度,在不改變感受野的前提下進(jìn)一步提升了網(wǎng)絡(luò )在精度上的性能,同時(shí)減少了模型參數量.標準CNN進(jìn)行特征下采樣時(shí)通常先對輸入的多維特征進(jìn)行維度提升使特征稀疏化,保留更多特征信息,升維表明需更高的計算開(kāi)銷(xiāo),本文使用升維與池化多路并行的方式完成高效率下采樣,同時(shí)在每個(gè)支路前使用1×1卷積降維,減小網(wǎng)絡(luò )參數量,提高模型的參數使用效率.

1.1 模型特征

兩階段檢測方法通常用產(chǎn)生的候選框進(jìn)行訓練和預測,但產(chǎn)生候選框的過(guò)程會(huì )耗費很多時(shí)間,并重復對每個(gè)候選框使用分類(lèi)器進(jìn)行訓練和預測,計算量較大,其較低的檢測效率無(wú)法滿(mǎn)足生產(chǎn)實(shí)時(shí)性要求.

(1)

由式(1)可見(jiàn),網(wǎng)絡(luò )特征提取能力的提高會(huì )增大每個(gè)預測網(wǎng)格是否存在物體的概率Pobject,從而使預測框進(jìn)行分類(lèi)預測時(shí)更“自信”.

同時(shí)每個(gè)網(wǎng)格會(huì )產(chǎn)生C個(gè)類(lèi)別的條件概率PClassi|Object,即在預測網(wǎng)格存在物體的前提下產(chǎn)生的類(lèi)別概率,預測框共享條件概率; 在預測階段每個(gè)網(wǎng)格會(huì )產(chǎn)生3個(gè)不同大小的預測框預測輸入圖像上的目標,預測框的信息包括(x,y,w,h,confobject),其中x和y是預測框歸一化位置,w和h分別為預測框歸一化的寬和高,confobject為預測框中包含目標的置信度,預測框預測的每個(gè)類(lèi)別的概率PClassi為

(2)

1.2 骨架網(wǎng)絡(luò )

圖1 DarkNet-53的組成單元BlockFig.1 Composition unit Block of DarkNet-53

CNN定義的標準范式[21]: 多個(gè)卷積層與池化層交叉堆疊,再通過(guò)多個(gè)全連接層進(jìn)行向量展平輸出.YOLOv3骨架網(wǎng)絡(luò )DarkNet-53由5個(gè)段堆疊構成,單個(gè)段的輸入輸出特征圖尺寸相同,段與段之間通過(guò)步長(cháng)為2的卷積層進(jìn)行下采樣.Block借鑒殘差模塊[22]設計思想并通過(guò)堆疊形成不同的段,Block的輸入輸出尺寸維度相同,其結構如圖1所示.

1.3 YOLOv3在金屬缺陷檢測中的問(wèn)題分析

YOLOv3檢測頭部分使用多尺度網(wǎng)格劃分的方案仍無(wú)法滿(mǎn)足工業(yè)缺陷檢測背景復雜的使用需求.多尺度網(wǎng)格劃分在很大程度上緩解了同時(shí)檢測不同大小目標的問(wèn)題,密集的網(wǎng)格劃分能更好地適應密集型目標的檢測場(chǎng)景,但YOLOv3骨架結構設計的簡(jiǎn)潔特性,特征提取層僅使用單一卷積尺度,無(wú)法應對缺陷目標前景和背景紋理相似度高、區分度較差導致的誤檢和漏檢情況.假設網(wǎng)絡(luò )模型可學(xué)習到輸入樣本的多個(gè)尺度特征,就能更好地學(xué)習和理解輸入樣本特點(diǎn),再結合YOLOv3多尺度目標檢測的優(yōu)勢,可提高其對復雜背景下目標檢測的性能.

殘差模塊在對殘差分支進(jìn)行擬合時(shí)只考慮了所擬合特征與底層輸入是否有差別,未考慮多尺度特征的表達,未充分利用網(wǎng)絡(luò )高層豐富的語(yǔ)義信息.殘差網(wǎng)絡(luò )對殘差分支進(jìn)行擬合而非對整個(gè)底層輸入進(jìn)行擬合,使模型在訓練階段能更快地收斂,恒等映射分支保留底層特征,具有特征復用的作用,最后兩個(gè)分支進(jìn)行相加操作,同時(shí)保留輸入底層特征和學(xué)習到的特征.網(wǎng)絡(luò )高層已逐漸開(kāi)始映射輸入數據的語(yǔ)義信息,如果網(wǎng)絡(luò )高層對輸入信息進(jìn)行多尺度特征處理而不是簡(jiǎn)單地擬合殘差信息,可提高網(wǎng)絡(luò )模型高層對多尺度語(yǔ)義信息的響應,提高復雜場(chǎng)景下識別大小不同目標的能力.假設網(wǎng)絡(luò )高層可使用不同大小感受野處理輸入的特征信息,在保留底層特征的同時(shí)融合多尺度特征,將提高網(wǎng)絡(luò )模型對多尺度特征的表達能力.

2.1 修正Inception

卷積操作通常是使卷積核在整個(gè)特征圖上滑動(dòng)計算,每個(gè)卷積核將只對某種特征敏感,其中大部分的激活值為0,這種密集連接結構的計算浪費了許多計算資源,一種解決辦法是使用稀疏連接結構,現階段硬件的實(shí)現均以數學(xué)矩陣即密集運算為基礎而設計,可考慮在卷積層內部實(shí)現一種相對的稀疏結構,將稀疏的矩陣分解為密集的子矩陣進(jìn)行計算,間接地利用矩陣的稀疏性、多支路并行的卷積結構以密集連接的形式實(shí)現稀疏計算,通過(guò)共享輸入特征計算獲取不同尺度的特征,將高度相關(guān)的特征聚集,下一層可同時(shí)提取不同尺度的特征,符合人類(lèi)視覺(jué)信息的多尺度處理特點(diǎn),對感受野中不同大小的物體都能進(jìn)行正確的檢測.基于此,Inception使用多尺度處理的概念,使用多支路卷積結構模塊,1×1卷積提取局部信息,3×3和5×5是深度學(xué)習模型使用最多的卷積尺度,可以覆蓋更大的感受野,捕獲相距較遠的激活信息之間的依賴(lài)信息,提取較大范圍的空間信息,并且用這3種尺度的卷積可避免特征圖尺寸對齊問(wèn)題,鑒于池化操作在卷積網(wǎng)絡(luò )中的成功應用,Inception模塊添加了一個(gè)并行的池化支路,結構如圖2所示.

較大的卷積尺寸如5×5會(huì )給模型帶來(lái)較大的計算量,池化支路輸出通道數與輸入通道數相同,則下一個(gè)計算模塊計算量加倍,例如: 假設對28×28×256維度的輸入進(jìn)行處理,各分支處理后維度為28×28×256,池化層沒(méi)有參數,故不產(chǎn)生計算量,其中1×1,filters=128(filters指卷積核個(gè)數)卷積,3×3,filters=192卷積,5×5,filters=96卷積的計算量分別為28×28×128×1×1×256,28×28×192×3×3×256,28×28×96×5×5×256,共約8.54×108次乘加操作,若標準CNN卷積層單一大小卷積核為3×3,filters=256,則計算量為28×28×256×3×3×256,約為4.62×108次乘加操作,Inception模塊計算量為其1.8倍,模塊的堆疊將不可避免地使模型計算量急劇上升.

考慮到較大尺度卷積核可以聚合空間信息,因為特征圖鄰近單元有強相關(guān)性,相鄰感受野的輸出高度相關(guān),因此在傳入大卷積核和感受野之前進(jìn)行特征降維,信息的損失會(huì )很小; 同時(shí),為提高模型的表示能力增加模型的深度和寬度,使用1×1卷積[23],在較大卷積核之前進(jìn)行降維,降低模型計算量,限制網(wǎng)絡(luò )的大小,增加網(wǎng)絡(luò )的深度,并且增加Inception模塊層的卷積核數量,擴展了網(wǎng)絡(luò )寬度.重新設計的Inception如圖3所示.令符號#表示卷積層前面的1×1卷積層,則在較大卷積核前面分別使用#3×3,filters=64和#5×5,filters=96,池化層后面使用1×1,filters=64.

圖2 Inception初始設計思想Fig.2 Initial design idea of Inception

圖3 加入1×1卷積的Inception模塊Fig.3 Inception module with 1×1 convolution

添加1×1卷積層不會(huì )破壞Inception結構的稀疏性,同時(shí)使用修正線(xiàn)性激活函數ReLU[24]增加模型的非線(xiàn)性表達能力,仍用上例,總計算量減少為3.58×108次乘加操作,相比不加入1×1卷積的Inception模塊減少約60%的計算量,相比只有3×3卷積的標準CNN減少約22.5%的計算量,因此在堆疊Inception模塊時(shí)不會(huì )導致計算量爆炸.綜上,使用1×1卷積有3個(gè)作用: 1) 對多維度的特征進(jìn)行升維、降維,減少模型參數量和計算量; 2) 增加模型非線(xiàn)性表達能力; 3) 增加模型深度和寬度.

2.2 引入空間可分離卷積

因為較大尺寸的卷積如5×5卷積計算量較大,減小其卷積核尺寸會(huì )縮小感受野大小,導致網(wǎng)絡(luò )表達能力下降,因此引入空間可分離卷積[25],也稱(chēng)為不對稱(chēng)卷積.在不改變卷積層感受野的同時(shí)減少參數量,參數量的減少通常意味著(zhù)計算量的減少,結構如圖4所示.理論上,任何大小的卷積都能分解為不對稱(chēng)卷積,本文使用文獻[18]的參數,設n=7.

空間可分離卷積是Inception模塊的一個(gè)升級變種,標準CNN結構的單一固定大小的n×n卷積可使用1×n和n×1的不對稱(chēng)卷積替換,這樣可進(jìn)一步節省參數量,并且感受野大小保持不變,假設輸入仍為28×28×256維,將3×3卷積分解為1×3卷積和3×1卷積的不對稱(chēng)卷積后,計算量為28×28×256×3×1×256×2=3.08×108,相比3×3卷積計算量減少約33.3%.如圖5所示,將3×3卷積分解為1×3和3×1不對稱(chēng)卷積后,最終一個(gè)像素的感受野仍等同于3×3卷積的感受野,感受野大小均為3×3.同理,將圖3中Inception的5×5卷積分解為兩個(gè)3×3卷積,其底層感受野也將保持不變,再將每個(gè)3×3卷積使用空間可分離卷積分解為1×3和3×1卷積,最終結構如圖4所示,然后將DarkNet-53段5的卷積結構替換為空間可分離卷積結構.

圖4 Inception空間可分離卷積Fig.4 Inception with spatial separable convolution

圖5 空間可分離卷積不改變感受野大小Fig.5 Spatial separable convolution won’t change receptive field size

2.3 使用池化與卷積并行結構的高效下采樣

為避免池化導致信息丟失,在CNN結構中,通常會(huì )先對特征通道進(jìn)行升維以保留足夠多的稀疏特征.先升維將產(chǎn)生較大的計算量,先池化又將導致特征表示信息丟失,Inception使用池化與卷積并行結構的高效下采樣同時(shí)完成升維和池化,結構如圖6所示.

為提高對軸承等工業(yè)零件表面缺陷的特征提取能力,借鑒使用Inception[18,26]思想,不同于標準CNN卷積層使用單一固定大小的卷積核,使用多支路并行的多種規格卷積核對同一輸入進(jìn)行處理,然后將提取到的多尺度特征進(jìn)行融合處理,并通過(guò)實(shí)驗證明其有效性.

2.4 YOLOv3I網(wǎng)絡(luò )結構

空間可分離卷積使用填充對多支路卷積和池化操作的輸出進(jìn)行尺寸對齊,文獻[25]通過(guò)實(shí)驗證明Inception模塊不宜放到網(wǎng)絡(luò )淺層,在特征圖尺寸介于12～20間效果最好,段5輸出特征圖尺寸為13×13,因此將YOLOv3骨架網(wǎng)絡(luò )DarkNet-53段5的Block使用空間可分離卷積進(jìn)行改進(jìn),并保留DarkNet-53的殘差結構,改進(jìn)后的網(wǎng)絡(luò )結構如圖7所示.

圖6 高效下采樣模塊Fig.6 Efficient downsampling module

圖7 使用空間可分離卷積改進(jìn)后的BlockFig.7 Improved Block using spatial separable convolution

池化操作具有平移不變性[27],因此在標準CNN結構中,使用多個(gè)池化操作緩慢減小特征圖尺寸,降低模型的計算量,在一定程度上防止過(guò)擬合.單純使用池化會(huì )導致特征空間信息的丟失,所以通常在池化前先進(jìn)行升維以保留更多稀疏特征.為避免升維增加的計算量和池化導致的信息丟失,使用卷積和池化并行的結構完成高效下采樣,結構如圖4所示.在DarkNet-53的段3和段4、段4和段5之間均使用高效下采樣結構.

3.1 實(shí)驗數據集

本文使用公開(kāi)數據集檢驗所提方法的可行性,并在軸承生產(chǎn)企業(yè)提供的真實(shí)軸承表面缺陷數據集上驗證方法的實(shí)際效果.

公開(kāi)數據集: 采用東北大學(xué)發(fā)布的鋼板表面缺陷數據集NEU[28],圖像分辨率為200×200,其中包括6種常見(jiàn)的典型金屬表面缺陷,缺陷類(lèi)型包括軋入氧化皮缺陷、補丁狀缺陷、裂縫、麻點(diǎn)表面、夾雜質(zhì)和劃痕,每種缺陷類(lèi)型有300張帶有標注的缺陷圖像,共1 800張圖像.數據集NEU具有類(lèi)內缺陷差距明顯的特點(diǎn),例如: 缺陷大小差異較大、紋理角度隨機; 金屬材質(zhì)及表面反光導致的灰度值不統一等; 工業(yè)制造生產(chǎn)環(huán)境復雜性導致的金屬制品復雜背景.這些特性使數據集NEU成為金屬表面缺陷的代表性樣本.

真實(shí)軸承溝道表面缺陷數據集: 從軸承制造工廠(chǎng)車(chē)間采集的約380張帶有表面缺陷的軸承溝道圖像,分辨率為640×480,其中包括短絲(short_wire)190張和砂輪花(wheel_flower)190張兩個(gè)類(lèi)別.短絲類(lèi)似于麻點(diǎn),呈向內凹和向外凸狀; 砂輪花近似劃痕,由打磨時(shí)與雜質(zhì)碰撞產(chǎn)生.

表面缺陷數據不易采集,而深度學(xué)習模型常需要大量的數據才能學(xué)習到數據共有的特征以提高泛化性,本文對數據集進(jìn)行數據增強擴容,用有限的數據集生成更多且同樣有效的數據,使數據的分布更豐富,加強模型的魯棒性,分別將數據集擴大10倍,數據集NEU擴增為18 000張,軸承數據集擴增為3 800張,均按8∶2配置訓練集和測試集.

3.2 實(shí)驗環(huán)境

實(shí)驗平臺采用Intel(R) Xeon(R) Silver 4214 CPU,32 GB內存,Ubuntu 18.04.5 LTS的服務(wù)器,使用NVIDIA Quadro RTX 5000 GPU進(jìn)行加速運算,在Pytorch框架下進(jìn)行開(kāi)發(fā)與調試.

3.3 基模型的確定

平均精度(average precision,AP)和平均準確率(mean average precision,mAP)是缺陷檢測最常用的衡量模型性能的指標,分別考察模型在數據集每個(gè)類(lèi)別上的精度和模型在數據集所有類(lèi)別上的綜合性能.YOLOv4,YOLOv5的數據預處理功能默認開(kāi)啟,如馬賽克增強(Mosaic)、自動(dòng)聚類(lèi)錨框等,YOLOv3未使用數據預處理.本文選用YOLOv3,YOLOv4和YOLOv5的最完全版模型YOLOv5x進(jìn)行實(shí)驗對比,以確定本文的基模型.

YOLO系列模型在對輸入圖像進(jìn)行特征提取和劃分網(wǎng)格進(jìn)行最終預測時(shí)均將圖像和特征圖處理為正方形.為增加實(shí)驗難度,使用圖像長(cháng)寬比不同的軸承數據集測試各模型性能,在訓練過(guò)程中均使用多尺度訓練.測試階段為充分評估各模型檢測性能,采用黑邊填充,將輸入圖像按長(cháng)邊等比縮放至分辨率640×640.對比模型的各類(lèi)別平均精度、平均準確率、參數量和模型復雜度,對比結果列于表1.模型復雜度用每秒浮點(diǎn)運算次數(FLOPs)表示.

表1 YOLO系列模型在軸承數據集上的性能對比

工業(yè)缺陷檢測不同于自然生活場(chǎng)景下的目標檢測,對輸入樣本過(guò)度地預處理和改進(jìn)網(wǎng)絡(luò )模型特征融合方式可能增加輸入樣本復雜背景對模型的擾動(dòng),導致模型“退化”.相比YOLOv3,YOLOv4通過(guò)增大感受野、集成多種注意力機制以及使用更多特征融合方式,模型顯得臃腫,使得在處理復雜背景下目標檢測問(wèn)題時(shí)性能出現“退化”,YOLOv4之所以各類(lèi)別平均精度較低,平均準確率仍可以達72.8%,是因為其仍有較好的召回率,為81.4%,說(shuō)明了YOLOv4查找潛在缺陷的能力較強,但分類(lèi)性能極差; YOLOv5發(fā)布已兩年,至今未向COCO[29]等權威性公開(kāi)數據集服務(wù)器提交結果,目前存在較大爭議,本文測試了YOLOv5最完全版本YOLOv5x,其模型復雜度遠超YOLOv3和YOLOv4.

綜上,YOLOv3表現最好,因此本文選擇YOLOv3作為基模型.

3.4 模型訓練

用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器進(jìn)行參數的優(yōu)化,初始學(xué)習率設為0.01,用余弦學(xué)習率衰減(cosine learning rate scheduler,COS),動(dòng)量設為0.937,權重衰減系數設為0.000 5,使學(xué)習率緩慢減小從而更好收斂,模型訓練300個(gè)周期(epochs).數據集增強擴容能有效防止過(guò)擬合現象.使用多尺度進(jìn)行訓練,即一個(gè)訓練周期中每訓練10個(gè)batch就將輸入圖像的分辨率隨機加減n×32像素大小,數據集NEU輸入圖像分辨率保持在[224,416],軸承數據集輸入圖像分辨率保持在[480,640].圖8為損失函數曲線(xiàn).由圖8可見(jiàn),模型經(jīng)過(guò)300個(gè)訓練周期后曲線(xiàn)變化趨于平緩,說(shuō)明模型均已收斂.隨著(zhù)訓練的進(jìn)行,YOLOv3與改進(jìn)后的YOLOv3I模型在增強后的數據集NEU上的平均準確率變化如圖9所示,由圖9可見(jiàn),改進(jìn)后的模型所減少的參數并未影響其性能,并且YOLOv3I在精度上性能更好.

圖8 模型損失函數曲線(xiàn)Fig.8 Loss function curves of models

圖9 模型測試集上精度曲線(xiàn)Fig.9 Accuracy curves of models on test datasets

3.5 實(shí)驗結果與對比分析

使用訓練好的改進(jìn)模型對數據集中的圖像進(jìn)行檢測,圖10和圖11分別為YOLOv3模型和改進(jìn)后的YOLOv3I模型對軸承溝道表面缺陷數據集和數據集NEU的檢測效果.由圖10和圖11可見(jiàn),改進(jìn)后的模型對各類(lèi)缺陷都有較好的檢測效果,可檢測出更多潛在的目標,并能以更高的置信度confobject檢測缺陷目標.

圖10 改進(jìn)前后模型在真實(shí)軸承數據集上的檢測結果Fig.10 Detection results of models before and after improvement on real bearing dataset

圖11 改進(jìn)前后模型在數據集NEU上的檢測結果Fig.11 Detection results of models before and after improvement on NEU dataset

由圖10可見(jiàn),對于真實(shí)軸承數據集,第一組圖片由于雜質(zhì)與目標缺陷顏色類(lèi)似,YOLOv3誤將其檢測為缺陷目標,而YOLOv3I并未出現誤檢測; 第二組對比圖YOLOv3I檢測出更多潛在的缺陷,模型召回率更高; 第三組在數據集圖像較模糊時(shí),YOLOv3I仍能保持較高的檢測性能,體現了更好的泛化性能.由圖11可見(jiàn),改進(jìn)后的模型對各類(lèi)缺陷精度均有不同程度的提升.改進(jìn)后的YOLOv3I模型參數量較原模型有一定程度下降,模型總參數量為4.76×107,而YOLOv3參數量為6.26×107,改進(jìn)后的模型參數量減少24%,YOLOv3I模型復雜度有所降低.

為盡可能多地保留輸入圖像細節,模型測試階段使用圖像長(cháng)邊進(jìn)行等比縮放,且要符合YOLO輸入圖像分辨率為32倍數的條件,因此軸承數據集上模型測試使用分辨率640×640,數據集NEU上模型測試使用分辨率224×224,相比于YOLOv3,二者計算量FLOPs分別減少12 GB FLOPs和1.6 GB FLOPs,降低了模型復雜度.

上述實(shí)驗結果表明,改進(jìn)后的YOLOv3I模型具有更強的多尺度特征提取能力,從而提高了模型預測框的置信度confobject,各類(lèi)別的條件概率有提高,即提高了網(wǎng)絡(luò )模型的分類(lèi)性能,因此具有更好的檢測性能,相比于YOLOv3,在均能檢測出缺陷時(shí),YOLOv3I的分類(lèi)精度更高,YOLOv3I可將YOLOv3漏檢的缺陷檢測出來(lái),即檢測出更多的潛在缺陷,在工業(yè)缺陷檢測中具有較高的應用價(jià)值.因此,使用多支路并行的卷積結構替換單層固定大小的卷積可提高模型在具有多樣性缺陷類(lèi)型數據上的性能,通過(guò)高效下采樣能使模型同時(shí)完成升維并減小特征圖尺寸,節省了模型參數,并且性能有一定提升.

本文使用單階段檢測方法SSD作為對比方法,并且SSD模型規模要大于YOLOv3,理論上SSD有更大的模型容量,模型特征表示能力應更強.表2和表3列出了YOLOv3,YOLOv3I和SSD在兩個(gè)數據集上的對比結果.SSD同屬于單階段檢測模型,使用VGG16作為骨架網(wǎng)絡(luò ),通過(guò)對比結果分析可知,因VGG比較繁瑣的設計,較高的計算量,在工業(yè)缺陷檢測較復雜的背景下其檢測精度不如YOLO模型.而本文改進(jìn)方法減少了計算量,網(wǎng)絡(luò )模型更有效,模型精度也有一定提高.

表2 不同模型在軸承數據集上的性能對比

表3 不同模型在數據集NEU上的性能對比

3.6 消融實(shí)驗

為進(jìn)一步說(shuō)明改進(jìn)模型的有效性,設置消融實(shí)驗,在軸承數據集和數據集NEU上分別驗證空間可分離卷積和高效下采樣結構對改進(jìn)模型的正向作用.

表4 軸承數據集上的消融實(shí)驗

表5 數據集NEU上的消融實(shí)驗

由于軸承數據集圖像分辨率長(cháng)寬比不同,因此為盡可能多地保留圖像細節,使用640×640分辨率進(jìn)行測試,而數據集NEU圖像分辨率為200×200,為符合YOLOv3輸入圖像為32倍數的條件,使用224×224分辨率進(jìn)行測試.由于二者使用不同分辨率進(jìn)行測試,因此模型參數量規模相同時(shí),在軸承數據集上的浮點(diǎn)計算量更高,因此模型在兩個(gè)數據集上復雜度不同.由表4可見(jiàn),由于軸承數據集規模較小,因此原方法YOLOv3即可達到91.6%的平均準確率; 使用空間可分離卷積,模型調和平均值有所下降,而平均準確率小幅上升約0.8%,說(shuō)明空間可分離卷積并未同時(shí)提升查準率和查全率,但相比原方法有所提高,并且模型參數量約下降18%; 使用高效下采樣后,調和平均值下降更多,反映了查準率、查全率二者提升不協(xié)調,平均準確率約提升1.5%,相比原方法降低了模型參數量和計算量; YOLOv3I參數量下降24%,模型復雜度減小12 GB FLOPs,模型容量減小的同時(shí)精度提升,提高了模型的參數利用率和計算效率.由表5可見(jiàn),數據集NEU規模相比軸承數據集較大,在融合空間可分離卷積和高效下采樣后模型平均準確率提高5.5%,模型復雜度下降1.6 GB FLOPs,與軸承數據集上結果相同,提高了模型參數利用率,證明了本文方法的有效性.

綜上所述,本文通過(guò)修改YOLOv3骨架網(wǎng)絡(luò )DarkNet-53,使用多支路并行卷積替換其段5的標準CNN卷積模塊,增加了模型的寬度,對提取到的多尺度特征進(jìn)行堆疊融合以更好地理解輸入數據; 通過(guò)1×1卷積進(jìn)行升維、降維,緩解了并行支路卷積堆疊引起的參數量爆炸問(wèn)題,具有跨通道信息交流的作用,并加深了模型的深度; 使用空間可分離卷積不但保留了多支路并行卷積提取多尺度特征的優(yōu)點(diǎn),將普通卷積分解為不對稱(chēng)卷積,在保持感受野不變的前提下進(jìn)一步減少參數量,在公開(kāi)數據集NEU和企業(yè)提供的軸承數據集上通過(guò)實(shí)驗證明了改進(jìn)后模型性能的提升,并且通過(guò)設置消融實(shí)驗進(jìn)一步證明了本文方法的有效性.

猜你喜歡尺度卷積軸承軸承知識哈爾濱軸承(2022年2期)2022-07-22軸承知識哈爾濱軸承(2022年1期)2022-05-23基于3D-Winograd的快速卷積算法設計及FPGA實(shí)現北京航空航天大學(xué)學(xué)報(2021年9期)2021-11-02軸承知識哈爾濱軸承(2021年2期)2021-08-12軸承知識哈爾濱軸承(2021年1期)2021-07-21財產(chǎn)的五大尺度和五重應對內蒙古民族大學(xué)學(xué)報（社會(huì )科學(xué)版）(2020年2期)2020-11-06從濾波器理解卷積電子制作(2019年11期)2019-07-04基于傅里葉域卷積表示的目標跟蹤算法北京航空航天大學(xué)學(xué)報(2018年1期)2018-04-20宇宙的尺度太空探索(2016年5期)2016-07-129時(shí)代英語(yǔ)·高三(2014年5期)2014-08-26

相

關(guān)

案

例

今日頭條

2024年新訓消防員心得體會(huì )(通用)