熱線電話:0755-23712116
郵箱:contact@shuangyi-tech.com
地址:深圳市寶安區(qū)沙井街道后亭茅洲山工業(yè)園工業(yè)大廈全至科技創(chuàng)新園科創(chuàng)大廈2層2A
視覺是人類強(qiáng)大的感知方式,它為人們提供了關(guān)于周圍環(huán)境的大量信息,使人們能有效地與周圍環(huán)境進(jìn)行交互。據(jù)統(tǒng)計(jì),人類從外界接收的各種信息中80%以上是通過視覺獲得的,人類有50%的大腦皮層參與視覺功能運(yùn)轉(zhuǎn)。
關(guān)于視覺有很多有趣的發(fā)現(xiàn),比如螳螂蝦的眼睛能探測(cè)到偏振光。人眼以及普通相機(jī)只能感受到光的強(qiáng)度信息而不能探測(cè)到光的偏振信息。澳大利亞昆士蘭大學(xué)的研究人員發(fā)現(xiàn),螳螂蝦的復(fù)眼(見圖1-2)能探測(cè)到偏振光。根據(jù)生物醫(yī)學(xué)及光學(xué)方面的理論知識(shí),生物組織特性與偏振信息有關(guān),所以螳螂蝦的眼睛是能夠“診斷”出生物組織的病變的。此外,蜻蜓等昆蟲具有復(fù)眼結(jié)構(gòu)(見圖1-3),蜘蛛有很多只眼睛,青蛙的眼睛只能看到動(dòng)態(tài)場(chǎng)景,狗對(duì)色彩信息的分辨能力極低。
圖1-2螳螂蝦的眼睛
圖1-3蜻蜓的眼睛
那么, 介紹完生物的視覺功能之后, 什么是機(jī)器視覺呢?
機(jī)器視覺是機(jī)器(通常指數(shù)字計(jì)算機(jī))圖像進(jìn)行自動(dòng)處理并報(bào)告 “ 圖像是什么” 的過程,也就是說它用于識(shí)別圖像中的內(nèi)容,比如自動(dòng)目標(biāo)識(shí)別。
機(jī)器視覺一般以計(jì)算機(jī)為中心,主要由視覺傳感器、高速圖像采集系統(tǒng)及專用圖像處理系統(tǒng)等模塊組成。
根據(jù)David A. Forsyth和Jean Ponce的定義,計(jì)算機(jī)視覺是借助于幾何、物理和學(xué)習(xí)理論來建立模型,從而使用統(tǒng)計(jì)方法來處理數(shù)據(jù)的工作。它是指在透徹理解相機(jī)性能與物理成像過程的基礎(chǔ)上,通過對(duì)每個(gè)像素值進(jìn)行簡(jiǎn)單的推理,將多幅圖像中可能得到的信息綜合成相互關(guān)聯(lián)的整體,確定像素之間的聯(lián)系以便將它們彼此分割開,或推斷一些形狀信息,進(jìn)而使用幾何信息或概率統(tǒng)計(jì)計(jì)數(shù)來識(shí)別物體。
從系統(tǒng)的輸入輸出方式考慮,機(jī)器視覺系統(tǒng)的輸入是圖像或者圖像序列,輸出是一個(gè)描述。進(jìn)一步講,機(jī)器視覺由兩部分組成:特征度量與基于這些特征的模式識(shí)別。
機(jī)器視覺與圖像處理是有區(qū)別的。圖像處理的目的是使圖像經(jīng)過處理后變得更好,圖像處理系統(tǒng)的輸出仍然是一幅圖像,而機(jī)器視覺系統(tǒng)的輸出是與圖像內(nèi)容有關(guān)的信息。圖像處理可分為低級(jí)圖像處理、中級(jí)圖像處理和高級(jí)圖像處理,處理內(nèi)容包含圖像增強(qiáng)、圖像編碼、圖像壓縮、圖像復(fù)原與重構(gòu)等。
01機(jī)器視覺的發(fā)展
圖1-4所示為20世紀(jì)70年代至今機(jī)器視覺發(fā)展過程中的部分主題,包括機(jī)器視覺發(fā)展初期(20世紀(jì)70年代)的數(shù)字圖像處理和積木世界,20世紀(jì)80年代的卡爾曼濾波、正則化,20世紀(jì)90年代的圖像分割、基于統(tǒng)計(jì)學(xué)的圖像處理以及21世紀(jì)計(jì)算攝像學(xué)與機(jī)器視覺中的深度學(xué)習(xí)等。
圖1-4機(jī)器視覺發(fā)展過程中的部分主題
1. 20世紀(jì)70年代
機(jī)器視覺始于20世紀(jì)70年代早期,它被視為模擬人類智能并賦予機(jī)器人智能行為的感知組成部分。當(dāng)時(shí),人工智能和機(jī)器人的一些早期研究者( 如麻省理工大學(xué)、斯坦福大學(xué)、卡內(nèi)基·梅隆大學(xué)的研究者)認(rèn)為,在解決高層次推理和規(guī)劃等更困難問題的過程中,解決 “ 視覺輸入” 問題應(yīng)該是一個(gè)簡(jiǎn)單的步驟。比如,1966年,麻省理工大學(xué)的Marvin Minsky讓他的本科生Gerald Jay Sussman在暑期將相機(jī)連接到計(jì)算機(jī)上,讓計(jì)算機(jī)來描述它所看到的東西?,F(xiàn)在,大家知道這些看似簡(jiǎn)單的問題其實(shí)并不容易解決。
數(shù)字圖像處理出現(xiàn)在20世紀(jì)60年代。與已經(jīng)存在的數(shù)字圖像處理領(lǐng)域不同的是,機(jī)器視覺期望從圖像中恢復(fù)出實(shí)物的三維結(jié)構(gòu)并以此得出完整的場(chǎng)景理解。場(chǎng)景理解的早期嘗試包括物體( 即 “ 積木世界”) 的邊緣抽取及隨后的從二維線條的拓?fù)浣Y(jié)構(gòu)推斷其三維結(jié)構(gòu)。當(dāng)時(shí)有學(xué)者提出了一些線條標(biāo)注算法,此外,邊緣檢測(cè)也是一個(gè)活躍的研究領(lǐng)域。
20世紀(jì)70年代,人們還對(duì)物體的三維建模進(jìn)行了研究。Barrow、Tenenbaum與Marr提出了一種理解亮度和陰影變化的方法,并通過表面朝向和陰影等恢復(fù)三維結(jié)構(gòu)。那時(shí)也出現(xiàn)了一些更定量化的機(jī)器視覺方法,包括基于特征的立體視覺對(duì)應(yīng)(stereo correspondence)算法和基于亮度的光流(optica lflow)算法,同時(shí),關(guān)于恢復(fù)三維結(jié)構(gòu)和相機(jī)運(yùn)動(dòng)的研究工作也開始出現(xiàn)。
另外,David Marr 特別介紹了其關(guān)于( 視覺)信息處理系統(tǒng)表達(dá)的三個(gè)層次:
1)計(jì)算理論:計(jì)算( 任務(wù))的目的是什么?針對(duì)該問題已知或可以施加的約束是什么?
2)表達(dá)和算法:輸入、輸出和中間信息是如何表達(dá)的?使用哪些算法來計(jì)算所期望的結(jié)果?
3)硬件實(shí)現(xiàn):表達(dá)和算法是如何映射到實(shí)際硬件即生物視覺系統(tǒng)或特殊的硅片上的?相反地,硬件的約束怎樣才能用于指導(dǎo)表達(dá)和算法的選擇?隨著機(jī)器視覺對(duì)芯片計(jì)算能力需求的日益增長(zhǎng),這個(gè)問題再次變得相當(dāng)重要。
2. 20世紀(jì)80年代
20世紀(jì)80年代,圖像金字塔和尺度空間開始廣泛用于由粗到精的對(duì)應(yīng)點(diǎn)搜索在80年代后期,在一些應(yīng)用中小波變換開始取代圖像金字塔。
三維視覺重建中出現(xiàn)“由X到形狀”的方法,包括由陰影到形狀、由光度立體視覺到形狀、由紋理到形狀及由聚焦到形狀。這一時(shí)期,探尋更準(zhǔn)確的邊緣和輪廓檢測(cè)方法是一個(gè)活躍的研究領(lǐng)域,其中包括動(dòng)態(tài)演化輪廓跟蹤器的引入例如Snake模型。立體視覺、光流、由X到形狀及邊緣檢測(cè)算法如果作為變分優(yōu)化問題來處理,可以用相同的數(shù)學(xué)框架來統(tǒng)一來描述,而且可以使用正則化方法增加魯棒性。 此外,卡爾曼濾波和三維距離數(shù)據(jù)世紀(jì)90年代(range data)處理仍然是這十年很活躍的研究領(lǐng)域。
3. 20世紀(jì)90年代
20世紀(jì)90年代, 視覺的發(fā)展情況如下:
1)關(guān)于在識(shí)別中使用投影不變量的研究呈現(xiàn)爆發(fā)式增長(zhǎng),這種方法可有效用于從運(yùn)動(dòng)到結(jié)構(gòu)的問題。最初很多研究是針對(duì)投影重建問題的,它不需要相機(jī)標(biāo)定的結(jié)果。與此同時(shí),有人提出了用因子分解方法來高效地解決近似正交投影的問題,后來這種方法擴(kuò)展到了透視投影的情況。該領(lǐng)域開始使用全局優(yōu)化方法,后來被認(rèn)為與攝影測(cè)量學(xué)中常用的 “ 光束平差法” 相關(guān)。
2)出現(xiàn)了使用顏色和亮度的精細(xì)測(cè)量,并將其與精確的輻射傳輸和形成彩色圖像的物理模型相結(jié)合。這方面的工作始于20世紀(jì)80年代, 構(gòu)成了一個(gè)稱作 “ 基于物理的視覺( physics-based visio) ” 的子領(lǐng)域。
3)光流方法得到了不斷的改進(jìn)。
4)在稠密立體視覺對(duì)應(yīng)算法方面也取得了很多進(jìn)展。其中最大的突破可能就是使用“ 圖割(graph cut)” 方法的全局優(yōu)化算法。
5)可以產(chǎn)生完整三維表面的多視角立體視覺算法。
6)跟蹤算法也得到了很多改進(jìn),包括使用 “ 活動(dòng)輪廓” 方法的輪廓跟蹤( 例如蛇形、粒子濾波和水平集方法)和基于亮度的跟蹤。
7)統(tǒng)計(jì)學(xué)習(xí)方法開始流行起來,如應(yīng)用于人臉識(shí)別的主成分分析。
3. 21世紀(jì)
21世紀(jì),計(jì)算機(jī)視覺與計(jì)算機(jī)圖形學(xué)之間的交叉越來越明顯,特別是在基于圖像的建模和繪制這個(gè)交叉領(lǐng)域。另外,計(jì)算攝像學(xué)發(fā)揮越來越重要的作用,包括光場(chǎng)獲取和繪制以及通過多曝光實(shí)現(xiàn)的高動(dòng)態(tài)范圍成像。目標(biāo)識(shí)別中基于特征的方法( 與學(xué)習(xí)方法相結(jié)合)日益凸顯,更高效的復(fù)雜全局優(yōu)化問題求解算法也得到了發(fā)展。
最后一個(gè)趨勢(shì)是復(fù)雜的機(jī)器學(xué)習(xí)方法在計(jì)算機(jī)視覺中的應(yīng)用,尤其是近幾年,基于深度學(xué)習(xí)的機(jī)器學(xué)習(xí)方法在圖像與視頻等方面中的關(guān)于目標(biāo)檢測(cè)、跟蹤、理解等領(lǐng)域的應(yīng)用。
02機(jī)器視覺與其他領(lǐng)域的關(guān)系
機(jī)器視覺屬于交叉學(xué)科,它與眾多領(lǐng)域都有關(guān)聯(lián),尤其是機(jī)器視覺與計(jì)算機(jī)視覺之間的關(guān)系,有的學(xué)者認(rèn)為二者一樣,有的則認(rèn)為二者存在差別,圖1-5顯示了機(jī)器視覺與其他領(lǐng)域的關(guān)系圖,包括計(jì)算機(jī)視覺、圖像處理、人工智能、機(jī)器人控制、信號(hào)處理、成像等。人工智能、機(jī)器人控制等概念在相關(guān)學(xué)科中都有比較明確的定義。成像是表示或重構(gòu)客觀物體形狀及相關(guān)信息的學(xué)科。
圖1-5機(jī)器視覺與其他領(lǐng)域關(guān)系
圖像處理主要是基于已有圖像生成一張新的圖像,可以通過噪聲抑制、去模糊、邊緣增強(qiáng)等處理來實(shí)現(xiàn)。模式識(shí)別的主要任務(wù)是對(duì)模式進(jìn)行分類。機(jī)器視覺的核心問題是從一張或多張圖像生成一個(gè)符號(hào)描述。計(jì)算機(jī)視覺與計(jì)算機(jī)圖形學(xué)是相互關(guān)聯(lián)而又互逆的過程。計(jì)算機(jī)圖形學(xué)的目的是真實(shí)或非真實(shí)地呈現(xiàn)一些場(chǎng)景,即通過虛擬建模等方式對(duì)得到的場(chǎng)景進(jìn)行處理,然后使用計(jì)算機(jī)進(jìn)行呈現(xiàn);而計(jì)算機(jī)視覺是為了得到真實(shí)場(chǎng)景的信息通過采集圖像進(jìn)行處理。