1993年春天,知名大學(xué)統(tǒng)計學(xué)教授發(fā)表了一篇論文。他的論文將改變?nèi)斯ぶ悄艿姆绞剑摻淌诘募榷繕?biāo)更為謙虛:分析來自1990年美國人口普查的數(shù)據(jù),同時保留受訪者的匿名性。僅對數(shù)據(jù)進(jìn)行匿名化是不可行的,仍然可以通過其家庭住址,電話號碼或社會保險號來識別個人,所有這些對于該教授的同事想要進(jìn)行的分析都是至關(guān)重要的。為了解決該問題,該教授生成了一組匿名的人口普查響應(yīng),其人口統(tǒng)計反映了原始數(shù)據(jù)集的人口統(tǒng)計。這樣,該教授的同事們可以得出關(guān)于美國膚色的有效統(tǒng)計推斷,而不會損害其公民的身份。那么合成數(shù)據(jù)如何促進(jìn)計算機(jī)視覺的?
該教授的解決方案是原始的。他已經(jīng)產(chǎn)生了綜合數(shù)據(jù),并以此為我們的學(xué)術(shù)詞匯量做出了貢獻(xiàn)。他的方法受到統(tǒng)計學(xué)家,經(jīng)濟(jì)學(xué)家和醫(yī)學(xué)研究人員的歡迎。
機(jī)器學(xué)習(xí)中的合成數(shù)據(jù)
數(shù)十年后,合成數(shù)據(jù)被發(fā)現(xiàn)可以促進(jìn)機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)系統(tǒng)是可預(yù)測的,并且大多數(shù)都需要數(shù)據(jù)-越多越好。
例如,預(yù)測更多選舉結(jié)果的監(jiān)督式機(jī)器學(xué)習(xí)模型的準(zhǔn)確性將提高。但是選舉是很少發(fā)生的事件,這意味著這種模型的數(shù)據(jù)派生預(yù)測能力有限(對模型體系結(jié)構(gòu)的更改可能會產(chǎn)生較小的性能改進(jìn),但與將其訓(xùn)練數(shù)據(jù)集加倍的影響相形見)。
為了獲得更大的預(yù)測能力,該模型需要更多數(shù)據(jù)。它還必須能夠解釋決定選舉結(jié)果的機(jī)制的變化,以便可以對兩者之間的關(guān)系做出有效的推斷。
生成其屬性可以進(jìn)行有效推斷的合成數(shù)據(jù)是魯賓工作的初衷。受此啟發(fā),加州理工學(xué)院和加州大學(xué)歐文分校的研究人員創(chuàng)建了綜合選舉數(shù)據(jù),該數(shù)據(jù)可能已記錄在投票箱中,但沒有。
在該研究中,使用合成數(shù)據(jù)來克服數(shù)據(jù)稀缺性,但是數(shù)據(jù)隱私是另一個嚴(yán)重的問題。諸如醫(yī)療保健等處理高度敏感的個人信息的行業(yè)積極倡導(dǎo)合成數(shù)據(jù),因?yàn)榉ㄒ?guī)通常會阻止其數(shù)據(jù)科學(xué)家處理真實(shí)的患者記錄。
隱私和稀缺性是重要的數(shù)據(jù)訪問問題,解決這些問題使模型的性能更高。但是在機(jī)器學(xué)習(xí)社區(qū)的另一個角落,合成數(shù)據(jù)被用于賦予模型新的功能-能夠查看原本不會看到的東西并做出新穎的預(yù)測。
合成影像
處理圖像的機(jī)器學(xué)習(xí)子集稱為計算機(jī)視覺。像預(yù)測選舉的模型一樣,大多數(shù)計算機(jī)視覺模型都隨數(shù)據(jù)而改進(jìn)。
在計算機(jī)視覺中,數(shù)據(jù)獲取的主要方法依賴于坐在房間里的人類,并根據(jù)其內(nèi)容對圖像進(jìn)行標(biāo)記。這是一個關(guān)鍵但勞動密集的過程(現(xiàn)在著名的名為ImageNet的照片集被手工標(biāo)注了近1400萬次)。
標(biāo)簽之所以重要,是因?yàn)闃?biāo)簽是我們將對世界的語義理解編碼到計算機(jī)中的方法。例如,坐在那個房間里的人們在貼上圖像的標(biāo)簽時,可能會將照片注釋為“貓”或“狗”,以向計算機(jī)展示如何識別差異。但是標(biāo)簽不必局限于人眼可以識別的事物。
由計算機(jī)創(chuàng)建的合成圖像可能包含標(biāo)簽,這些標(biāo)簽的尺寸甚至不能被人類可靠地量化-諸如深度或透明度之類的參數(shù)。
想象一下如何嘗試測量圖像中成千上萬個單個塑料瓶的相對深度。現(xiàn)在測量它們的透明度,以及它們反射光的角度。對于人類而言,這項任務(wù)是不可能的,但是具有這些屬性的照片擴(kuò)大了計算機(jī)視覺模型的推斷可能性。
例如,在零售和廢物管理行業(yè)中,當(dāng)機(jī)器人在包括深度和透明度標(biāo)簽的合成數(shù)據(jù)集上接受訓(xùn)練時,機(jī)器人可以揀選存貨并回收具有更大靈活性的塑料瓶(研究人員在今年早些時候證明了這一點(diǎn))。使用合成數(shù)據(jù),機(jī)器人變得更加智能。
逆勢下注
的確,計算機(jī)已經(jīng)產(chǎn)生了數(shù)十年的圖像,但是要做到逼真的,具有美學(xué)多樣性并大規(guī)模地進(jìn)行圖像生成是非常困難的。生成對抗網(wǎng)絡(luò)(GAN)是一種復(fù)雜的解決方案。它們以程序方式創(chuàng)建信息,這意味著它們可以提供圖像的無限變化,但與其他深度學(xué)習(xí)模型相比,不需要更多的人工指導(dǎo)。對于那些知道如何使用它們的人,GAN啟用了一條有利的數(shù)據(jù)供應(yīng)鏈。
到目前為止,合成數(shù)據(jù)仍然是一個逆勢賭注,因?yàn)閭鹘y(tǒng)觀點(diǎn)認(rèn)為,使用人工標(biāo)記圖像訓(xùn)練的模型比使用合成圖像訓(xùn)練的模型具有更高的性能。
但是來自學(xué)術(shù)界的證據(jù)表明,傳統(tǒng)觀念是錯誤的。在許多情況下,在合成數(shù)據(jù)上訓(xùn)練或增強(qiáng)的模型比在實(shí)際數(shù)據(jù)上訓(xùn)練的模型更有效,并且它們可以感知其他模型無法做到的事情。
這在自動駕駛汽車行業(yè)已經(jīng)很明顯,因?yàn)楝F(xiàn)實(shí)世界中的不確定性和動態(tài)性對合成數(shù)據(jù)產(chǎn)生了前所未有的需求。除非安全,否則Uber,Tesla,Waymo和Zoox不會在道路上行駛汽車,但是它們?nèi)绾晤A(yù)測可能發(fā)生的每種駕駛情況?
在真正的汽車中讓真正的駕駛員捕捉數(shù)百萬小時的下雨,夜間和山區(qū)駕駛場景是不切實(shí)際的。這將花費(fèi)太長時間,并使人們處于不必要的危險中。更好的解決方案是可以提供無限風(fēng)景多樣性的圖像生成管道。所有主要的自動駕駛汽車公司都有可能將合成數(shù)據(jù)納入其計算機(jī)視覺系統(tǒng)。
合成圖像的另一個說法是經(jīng)濟(jì)。像其他數(shù)字商品一樣,其邊際生產(chǎn)成本幾乎為零。只要替代方案是人類為圖像加標(biāo)簽,合成數(shù)據(jù)將更便宜,或者這樣的說法就可以了。
實(shí)際上,單位經(jīng)濟(jì)學(xué)更加復(fù)雜。許多高價值的用例需要自定義3D資產(chǎn),必須購買這些資產(chǎn)或由CGI藝術(shù)家使用動畫軟件繪制。在第一批合成數(shù)據(jù)初創(chuàng)企業(yè)中,競爭優(yōu)勢可能在于其攤派此類藝術(shù)家固定成本的能力。這樣做的回報是巨大的,但還需要在客戶之間有一個一致的,重復(fù)出現(xiàn)的用例,而在所有合成圖像市場中尚不存在這種用例。
隨著戲劇性的發(fā)展,綜合數(shù)據(jù)的性能優(yōu)勢將在學(xué)術(shù)界和初創(chuàng)企業(yè)界之外得到認(rèn)可。
盡管如此,能夠識別差異化和高價值用例并圍繞它們建立可預(yù)測的收入流的初創(chuàng)公司將享有令人羨慕的市場地位。
對于初創(chuàng)企業(yè)和老牌企業(yè)而言,一件事很清楚:社會對機(jī)器學(xué)習(xí)系統(tǒng)的性能期望正在提高,并且使用合成數(shù)據(jù)來滿足它們。
綜上所述,合成數(shù)據(jù)如何促進(jìn)計算機(jī)視覺的相信大家已經(jīng)清楚了吧,想了解更多關(guān)于人工智能的信息,請繼續(xù)關(guān)注中培偉業(yè)。