<dd id="saiiy"></dd>
  1. <s id="saiiy"></s>

    1. <s id="saiiy"></s>
      1. <span id="saiiy"><blockquote id="saiiy"></blockquote></span>

        基于圖像識別的錯位圖書(shū)檢測技術(shù)研究

        發(fā)布時(shí)間:2025-05-25 18:04:56   來(lái)源:作文大全    點(diǎn)擊:   
        字號:

        大學(xué)的David Chen等人給出圖書(shū)書(shū)庫管理系統[2],通過(guò)智能手機對書(shū)架上的圖書(shū)進(jìn)行采集圖像,經(jīng)過(guò)識別之后,通過(guò)互聯(lián)網(wǎng)或者圖書(shū)館的數據庫,可以得到圖書(shū)的詳細信息,包括書(shū)名、作者、價(jià)格等。而方向感應器以及高速網(wǎng)絡(luò )訪(fǎng)問(wèn)使得低成本的自動(dòng)跟蹤成為可能[3]。本文主要針對錯位圖書(shū)檢測技術(shù)涉及到的圖書(shū)分割、圖書(shū)識別兩個(gè)方面進(jìn)行了深入的研究,并且針對其中的難點(diǎn)提出了切實(shí)有效的解決方法。

        1 圖書(shū)分割

        1.1 顏色分割

        圖書(shū)館中的索書(shū)標簽存在單一的背景和前景(索書(shū)號),如白色的背景和黑色的文字,而且噪聲少,如圖1所示。

        由于索書(shū)標簽一般在圖書(shū)的底部,因此將感興趣區域定義在原圖像的下半部分,故需要處理的圖像大小減少一半,減少了處理的時(shí)間和計算量。在這種情況下,利用特定的顏色可以快速定位同一幅圖像中所有索書(shū)標簽的大致位置。但由于實(shí)際環(huán)境的復雜性,如光線(xiàn)變化,遮擋,智能手機攝像頭的限制,捕獲的圖像中出現圖書(shū)曝光過(guò)足,書(shū)架靠近地面的部分光線(xiàn)不足,索書(shū)標簽的白色區域亮度不足,書(shū)脊上除了索書(shū)標簽其他部分也存在白色區域等難題。

        由于書(shū)脊整潔程度不一,光線(xiàn)變化,有些區域即使是同種顏色,經(jīng)過(guò)一段時(shí)間使用,也變化較大,二值化后的圖像存在面積小的噪聲點(diǎn)或區域,而圖書(shū)標簽分割關(guān)注的感興趣區域是比這些噪聲面積大得多的背景是白色的標簽,故可以利用圖像處理形態(tài)學(xué)中的腐蝕方法剔除這些噪聲[4],腐蝕核大小為5,得到的結果如圖2所示。

        由圖2可以看出,書(shū)脊之間存在黑色的細縫,而這些細縫把大部分圖書(shū)分割開(kāi)來(lái)。再者在同一本書(shū)中索書(shū)標簽與其他區域有明顯的分割區域,故可以通過(guò)連通區域分析,把大部分索書(shū)標簽分別表示成單獨的連通區域。進(jìn)一步分析,書(shū)脊上的一些字形成的連通區域,相對索書(shū)標簽小很多,因此可以通過(guò)限制連通區域的面積大小,去除一部分小的白色連通區域,實(shí)驗中,取面積閾值為30 000像素點(diǎn),保留下的連通區域如圖3所示,不同的連通區域用不同的顏色表示,得到的連通區域個(gè)數為14。

        1.2 基于LSD的圖書(shū)分割

        經(jīng)過(guò)顏色分割的局域主要是白色的部分,而這些局域可能不包括書(shū)脊邊緣的直線(xiàn),為了更好地檢測到書(shū)本邊緣的直線(xiàn),這里增寬顏色分割后的各個(gè)局域,增寬的規則是向左向右分別延寬15像素,對在捕獲圖像中最左或者最右的局域,延長(cháng)的最大寬度是15像素與局域左右邊界到達相應圖像邊界的差值兩者之間的最大值。

        采用line segment detector檢測圖像中的直線(xiàn)??紤]到圖書(shū)館中的圖書(shū)一般豎直地擺放著(zhù),即使有些傾斜,傾斜的角度也不大,定義候選直線(xiàn)的傾斜角度范圍為([3π8,][5π8])。圖像中書(shū)脊邊緣保持一個(gè)主方向角度,即MainAngle,實(shí)驗中默認的值為[π2,]并且傾斜角度在主方向角度一定的范圍內,在實(shí)驗中,選擇在最左邊或者最右邊20像素的局域中的直線(xiàn),這些直線(xiàn)中的兩個(gè)端點(diǎn)都在邊界20個(gè)像素的范圍內,再者另外一個(gè)條件是直線(xiàn)的傾斜角度與[π2]的差值要小于[π8,]則把這些符合條件的直線(xiàn)的傾斜角度定義為要進(jìn)行直線(xiàn)檢測局域的主方向角度。

        得到主方向MainAngle之后,保留與主方向角度偏差[π16]的直線(xiàn)。書(shū)脊邊緣的直線(xiàn)相對書(shū)脊其他部分的直線(xiàn)如文字、圖形中的直線(xiàn)要長(cháng),即在圖像所占的比率大于某個(gè)閾值[2],通過(guò)實(shí)驗,定義候選直線(xiàn)占圖像高度的閾值為0.15。經(jīng)過(guò)上述規則可以得到書(shū)脊的邊緣直線(xiàn)。根據得到的直線(xiàn),用數組lines6表示,再將圖書(shū)分割出來(lái)。圖書(shū)的邊緣存在多條直線(xiàn),但都聚集在很小的區間而且直線(xiàn)的傾斜角度差不多,再者圖書(shū)的厚度一般大于圖書(shū)間的間隔,故利用這些先驗知識,采用算法1可以得到一組組包含圖書(shū)書(shū)脊的局域。

        算法1:圖書(shū)分割

        輸入:[xb=0;][xl=0;]idx=0;[xr=]Width(輸入圖像的寬度);

        Vectorlines6(輸入圖像檢測到的直線(xiàn)數組,線(xiàn)段用兩個(gè)端點(diǎn)的左邊、長(cháng)度、傾斜角度描述);Num(直線(xiàn)段的個(gè)數);

        VectorCBookLabel(顏色分割得到的一組矩形局域,包含單個(gè)的、完整的圖書(shū)標簽,以及多個(gè)標簽聚集的矩形區域)。

        輸出:VectorLabel(輸出一組矩形局域,用左上角坐標、高度、寬度描述,即候選的圖書(shū))。

        (1) 如果第一條直線(xiàn)與圖像最左邊的間隔大于70,則將Rect(0,0,[x1,]Height)輸出到Label中。[x1]為該直線(xiàn)左端點(diǎn)的[x]坐標值。

        (2) 依次在圖像中從左到右搜索未處理的直線(xiàn),如果找到,則在該直線(xiàn)附近的20個(gè)像素搜索類(lèi)似的直線(xiàn),并把20個(gè)像素范圍內最后的直線(xiàn)作為圖書(shū)起始的直線(xiàn)line1;如果未找到,則輸出Label結束。

        (3) 從第(2)步得到的圖書(shū)起始直線(xiàn),接著(zhù)往右搜索類(lèi)似的直線(xiàn),如果未搜索到,則將Rect(line1.[x,]0,Width, Height)輸出到Label。

        3 字符識別

        形狀上下文是一種描述形狀的方式,可用來(lái)評估形狀的相似性?;镜乃枷胧侨≥喞闲螤畹膎個(gè)點(diǎn)。對形狀上的每個(gè)點(diǎn)[pi,]考慮n-1維向量,它們將[pi]和所有其他的點(diǎn)連接起來(lái)。這些向量的集合是對形狀上那個(gè)點(diǎn)一種豐富的描述。關(guān)鍵的思想是基于相對位置的分布是一種魯棒、簡(jiǎn)潔和有高度區別性的描述子。

        支持向量機SVM根據有限的訓練樣本仍然保證獨立測試集誤差保持在一個(gè)小的范圍。即由有限的樣本信息,在模型的學(xué)習能力和復雜性間尋求最佳契合點(diǎn),以獲得最優(yōu)的推廣能力。本文采用林智仁博士開(kāi)發(fā)的SVM軟件包LIBSVM按照相應的格式對數據集進(jìn)行標準化,對要處理的數據進(jìn)行縮放操作,使用核函數RBF,[Kx,y=e-rx-y2]使用交叉驗證方法選擇最佳的參數[C]與[r;]使用LIBSVM的測試和訓練文件格式如下:

        其中

        對數據集進(jìn)行縮放操作,一方面是為了避免特征值過(guò)小或過(guò)大;另外一方面是避免在訓練時(shí)為了計算核函數而導致計算內積的時(shí)候引起數值計算的困難。一般將數據縮放到[-1,1]或是[0,1]之間。進(jìn)而利用svmtrain對訓練數據集進(jìn)行訓練,得到SVM訓練模型,進(jìn)一步根據訓練獲得的模型對未知數據集進(jìn)行預測。

        4 實(shí)驗結果與分析

        為了評估圖書(shū)索書(shū)標簽分割和識別的結果,實(shí)驗采集了圖書(shū)書(shū)脊的樣本,并作為圖書(shū)分割和識別的數據集。采用Tesseract OCR引擎對僅僅包含字符和標點(diǎn)符號的索書(shū)標簽進(jìn)行識別[7]。一般來(lái)說(shuō),圖書(shū)標簽第2行文字對圖書(shū)識別起到關(guān)鍵性的作用,如果第2行的文字被完整的識別,那么判斷該本書(shū)對應圖書(shū)館數據庫中的哪本書(shū)也就容易得多。

        如表1所示,實(shí)驗中從567本圖書(shū)中正確地分割出554本圖書(shū),分割率為97.7%,超過(guò)結合顏色分割和Hough直線(xiàn)檢測的方法,分割率為89.77%。盡管如此,在圖書(shū)書(shū)脊分割中也有些失敗,原因是一些書(shū)脊太薄以致不能被檢測到或者曝光太足,書(shū)脊上的高亮造成在圖像中圖書(shū)的邊界區域直線(xiàn)根本不明顯。

        在本系統中,平均一個(gè)索書(shū)標簽有0.64個(gè)字符不能被識別,比UJI大學(xué)圖書(shū)館機器人索書(shū)標簽識別的方法效果要好。為了更好地評估識別的結果,采用f?measure作為評估的方法,實(shí)驗中,索書(shū)標簽識別的結果為f?measure88.66%,準確率為87.74%,召回率為89.59%。索書(shū)標簽識別如圖5所示。

        對于圖5(a),從左往右數第2本書(shū)及第6本書(shū)被識別為“TP391.4X3283”,“H6251.H3283”。第2本書(shū)由于字體的原因上端和下端都突出一部分,有點(diǎn)類(lèi)似X,由于出現在局域的邊界受噪聲的干擾故識別為X。第6本書(shū)由于采集圖像時(shí),受第7本書(shū)的遮擋,“TP391.41”顯示不完全,故造成識別錯誤。但是第2、第6本書(shū)第2行都識別正確,一般情況下同個(gè)書(shū)架同一行的圖書(shū)中索書(shū)標簽第1行的文字都類(lèi)似,第2行對識別的結果有較大作用,故該圖像中所有圖書(shū)都能被識別。

        對于圖5(b),從右往左數第4本書(shū)被識別為“P391.41 3272”,其原因也是索書(shū)標簽的貼法不正確,“T”這個(gè)字母不在書(shū)脊上,故這種情況只能在開(kāi)始貼索書(shū)標簽的時(shí)候確保正確無(wú)誤,不過(guò)“T”字母的缺少并不影響該書(shū)被正確的識別。從右往左數第1本書(shū)因為捕獲圖像時(shí)沒(méi)有捕獲圖書(shū)標簽,故為空。因此可認為該圖像中所有的圖書(shū)都被正確識別。

        對于圖5(c),從左到右第1本、第9本、第10本書(shū)都沒(méi)有被正確識別。原因是這三本書(shū)太薄,索書(shū)標簽在這三本書(shū)的書(shū)脊上不能完全顯示,因此也就不能被OCR識別。針對該情況可以結合射頻識別技術(shù)來(lái)識別太薄的圖書(shū),以提高總的圖書(shū)識別率。

        根據實(shí)驗結果,可以得到基于索書(shū)標簽的分割與識別在圖書(shū)館自動(dòng)化管理中有很大的用途,并且結合顏色分割與直線(xiàn)檢測的圖書(shū)分割,輪廓局域增長(cháng)而實(shí)現的索書(shū)標簽的分割有效,而且更可行。在輪廓局域增長(cháng)中,通過(guò)實(shí)驗也表明索書(shū)標簽候選局域進(jìn)一步的優(yōu)化過(guò)程,能包含不完整、斷裂的字符輪廓,因此能將索書(shū)標簽完整地分割出來(lái)。

        5 結 論

        本文深入研究了基于圖像識別的錯位圖書(shū)識別技術(shù),主要包括圖書(shū)分割、標簽分割、索書(shū)標簽識別,錯位圖書(shū)檢測,并對其中涉及的技術(shù)和算法做了深入的闡述和調研。通過(guò)實(shí)驗證明所提出方法的有效性與可行性。重點(diǎn)研究了基于顏色分割和直線(xiàn)線(xiàn)段檢測相結合的圖書(shū)分割方法,將本文提出的方法和其他圖書(shū)分割,索書(shū)標簽識別的方法進(jìn)行對比,通過(guò)定量和定性的分析,證明了本文提出的方法能夠得到更準確、更有效的實(shí)驗結果。下一步針對圖書(shū)太薄,索書(shū)標簽太舊、模糊不清的情況,結合射頻識別加以補充,將大大提高圖書(shū)識別的準確率。

        參考文獻

        [1] 康志亮,許麗佳.基于小波的紅外圖像去噪算法研究[J].計算機仿真,2011,28(1):265?267.

        [2] 游福成.數字圖像處理(Digital Image Processing)[M].北京:電子工業(yè)出版社,2011:67?68.

        [3] 匡金駿,熊慶宇,柴毅.基于核稀疏分類(lèi)與多尺度分塊旋轉擴展的魯棒圖像識別[J].模式識別與人工智能,2013,26(2):129?135.

        [4] 劉波,梅瑛,李瑞琴.基于TRIZ理論的圖書(shū)分揀機的設計研究[J].機械設計與制造,2013(2):23?25.

        [5] CHEN D, TSAI S, HSU C H, et al. Mobile augmented reality for books on a shelf [C]// Proceedings of 2011 IEEE International Conference on Multimedia and Expo. 2011: 1?6.

        [6] 孟鋼,賀杰,鮑莉,等.基于遙感圖像分塊直線(xiàn)特征檢測的機場(chǎng)跑道檢測方法[J].航空學(xué)報,2014,35(7):1957?1965.

        [7] 趙眾,常燦,陳磊.基于圖像識別技術(shù)的煙包封條缺陷檢測[J].北京工業(yè)大學(xué)學(xué)報,2014,40(7):986?990.

        [8] 張會(huì )敏,謝澤奇,張云龍.紅外圖像報警系統的研究與實(shí)現[J].計算機測量與控制,2011,19(2):432?436.

        国产另类无码专区|日本教师强伦姧在线观|看纯日姘一级毛片|91久久夜色精品国产按摩|337p日本欧洲亚洲大胆精

        <dd id="saiiy"></dd>
        1. <s id="saiiy"></s>

          1. <s id="saiiy"></s>
            1. <span id="saiiy"><blockquote id="saiiy"></blockquote></span>