熱線電話:0755-23712116
郵箱:contact@shuangyi-tech.com
地址:深圳市寶安區(qū)沙井街道后亭茅洲山工業(yè)園工業(yè)大廈全至科技創(chuàng)新園科創(chuàng)大廈2層2A
首先談?wù)勈裁词菙?shù)據(jù)標(biāo)注。數(shù)據(jù)標(biāo)注有許多類型,如分類、畫框、注釋、標(biāo)記等等,我們會(huì)在下面詳談。要理解數(shù)據(jù)標(biāo)注,得先理解AI其實(shí)是部分替代人的認(rèn)知功能。回想一下我們是如何學(xué)習(xí)的,例如我們學(xué)習(xí)認(rèn)識(shí)蘋果,那么就需要有人拿著一個(gè)蘋果到你面前告訴你,這是一個(gè)蘋果。然后以后你遇到了蘋果,你才知道這玩意兒叫做“蘋果”。類比機(jī)器學(xué)習(xí),我們要教他認(rèn)識(shí)一個(gè)蘋果,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個(gè)啥玩意的。我們得先有蘋果的圖片,上面標(biāo)注著“蘋果”兩個(gè)字,然后機(jī)器通過學(xué)習(xí)了大量的圖片中的特征,這時(shí)候再給機(jī)器任意一張?zhí)O果的圖片,它就能認(rèn)出來了。這邊可以順帶提一下訓(xùn)練集和測試集的概念。訓(xùn)練集和測試集都是標(biāo)注過的數(shù)據(jù),還是以蘋果為例子,假設(shè)我們有1000張標(biāo)注著“蘋果”的圖片,那么我們可以拿900漲作為訓(xùn)練集,100張作為測試集。機(jī)器從900張?zhí)O果的圖片中學(xué)習(xí)得到一個(gè)模型,然后我們將剩下的100張機(jī)器沒有見過的圖片去給它識(shí)別,然后我們就能夠得到這個(gè)模型的準(zhǔn)確率了。想想我們上學(xué)的時(shí)候,考試的內(nèi)容總是不會(huì)和我們平時(shí)的作業(yè)一樣,也只有這樣才能測試出學(xué)習(xí)的真正效果,這樣就不難理解為什么要?jiǎng)澐忠粋€(gè)測試集了。
我們知道機(jī)器學(xué)習(xí)分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)的效果是不可控的,常常是被用來做探索性的實(shí)驗(yàn)。而在實(shí)際產(chǎn)品應(yīng)用中,通常使用的是有監(jiān)督學(xué)習(xí)。有監(jiān)督的機(jī)器學(xué)習(xí)就需要有標(biāo)注的數(shù)據(jù)來作為先驗(yàn)經(jīng)驗(yàn)。
在進(jìn)行數(shù)據(jù)標(biāo)注之前,我們首先要對(duì)數(shù)據(jù)進(jìn)行清洗,得到符合我們要求的數(shù)據(jù)。數(shù)據(jù)的清洗包括去除無效的數(shù)據(jù)、整理成規(guī)整的格式等等。具體的數(shù)據(jù)要求可以和算法人員確認(rèn)。
1.分類標(biāo)注:分類標(biāo)注,就是我們常見的打標(biāo)簽。一般是從既定的標(biāo)簽中選擇數(shù)據(jù)對(duì)應(yīng)的標(biāo)簽,是封閉集合。如下圖,一張圖就可以有很多分類/標(biāo)簽:成人、女、黃種人、長發(fā)等。對(duì)于文字,可以標(biāo)注主語、謂語、賓語,名詞動(dòng)詞等。
適用:文本、圖像、語音、視頻
應(yīng)用:臉齡識(shí)別,情緒識(shí)別,性別識(shí)別
2.標(biāo)框標(biāo)注:機(jī)器視覺中的標(biāo)框標(biāo)注,很容易理解,就是框選要檢測的對(duì)象。如人臉識(shí)別,首先要先把人臉的位置確定下來。行人識(shí)別,如下圖。
適用:圖像
應(yīng)用:人臉識(shí)別,物品識(shí)別
3.區(qū)域標(biāo)注:相比于標(biāo)框標(biāo)注,區(qū)域標(biāo)注要求更加精確。邊緣可以是柔性的。如自動(dòng)駕駛中的道路識(shí)別。
適用:圖像
應(yīng)用:自動(dòng)駕駛
4.描點(diǎn)標(biāo)注:一些對(duì)于特征要求細(xì)致的應(yīng)用中常常需要描點(diǎn)標(biāo)注。人臉識(shí)別、骨骼識(shí)別等。
適用:圖像
應(yīng)用:人臉識(shí)別、骨骼識(shí)別
5.其他標(biāo)注:標(biāo)注的類型除了上面幾種常見,還有很多個(gè)性化的。根據(jù)不同的需求則需要不同的標(biāo)注。如自動(dòng)摘要,就需要標(biāo)注文章的主要觀點(diǎn),這時(shí)候的標(biāo)注嚴(yán)格上就不屬于上面的任何一種了。(或則你把它歸為分類也是可以的,只是標(biāo)注主要觀點(diǎn)就沒有這么客觀的標(biāo)準(zhǔn),如果是標(biāo)注蘋果估計(jì)大多數(shù)人標(biāo)注的結(jié)果都差不多。)
1.標(biāo)注標(biāo)準(zhǔn)的確定
確定好標(biāo)準(zhǔn)是保證數(shù)據(jù)質(zhì)量的關(guān)鍵一步,要保證有個(gè)可以參照的標(biāo)準(zhǔn)。一般可以:
設(shè)置標(biāo)注樣例、模版。例如顏色的標(biāo)準(zhǔn)比色卡。
對(duì)于模棱兩可的數(shù)據(jù),設(shè)置統(tǒng)一處理方式,如可以棄用,或則統(tǒng)一標(biāo)注。
參照的標(biāo)準(zhǔn)有時(shí)候還要考慮行業(yè)。以文本情感分析為例,“疤痕”一詞,在心理學(xué)行業(yè)中,可能是個(gè)負(fù)面詞,而在醫(yī)療行業(yè)則是一個(gè)中性詞。
2.標(biāo)注形式的確定
標(biāo)注形式一般由算法人員制定,例如某些文本標(biāo)注,問句識(shí)別,只需要對(duì)句子進(jìn)行0或1的標(biāo)注。是問句就標(biāo)1,不是問句就標(biāo)0。
3.標(biāo)注工具的選擇
標(biāo)注的形式確定后,就是對(duì)標(biāo)注工具的選擇了。一般也是由算法人員提供。大公司可能會(huì)內(nèi)部開發(fā)一個(gè)專門用于數(shù)據(jù)標(biāo)注的可視化工具。如
也有使用開源的數(shù)據(jù)標(biāo)注工具的,如推薦 Github 上的小工具labelImg
結(jié)合自己做過一款數(shù)據(jù)標(biāo)記工具談?wù)勗O(shè)計(jì)數(shù)據(jù)標(biāo)注工具的幾個(gè)小技巧。
一個(gè)數(shù)據(jù)標(biāo)注工具一般包含
1.進(jìn)度條:用來指示數(shù)據(jù)標(biāo)注的進(jìn)度。標(biāo)注人員一般都是有任務(wù)量要求的,一方面方便標(biāo)注人員查看進(jìn)度,一方面方便統(tǒng)計(jì)。
2.標(biāo)注主體:這個(gè)可以根據(jù)標(biāo)注形式進(jìn)行設(shè)計(jì),原則上是越簡潔易用越好。根據(jù)標(biāo)注所需要的注意力可以分為單個(gè)標(biāo)注和多個(gè)標(biāo)注的形式,可根據(jù)需求選擇。
3.數(shù)據(jù)導(dǎo)入導(dǎo)出功能:如果你的標(biāo)注工具是直接數(shù)據(jù)對(duì)接到模型上的,可以不需要。
4.收藏功能:這個(gè)可能是沒有接觸過數(shù)據(jù)標(biāo)注的不會(huì)想到。標(biāo)注人員常常會(huì)出現(xiàn)的一種情況就是疲勞,或者是遇到了那種模棱兩可的數(shù)據(jù),則可以先收藏,等后面再標(biāo)。
5.質(zhì)檢機(jī)制:在分發(fā)數(shù)據(jù)的時(shí)候,可以隨機(jī)分發(fā)一些已經(jīng)標(biāo)注過的數(shù)據(jù),來檢測標(biāo)注人員可靠性。