国产精品原创巨作AV免费,97久久综合区小说区图片专区

新模型接連炸場AI視覺迎來GPT-3時(shí)刻，微美全息(WIMI.US)先聲奪人進(jìn)入爆發(fā)期快消息

來源：中關(guān)村在線　2023-04-24 13:57:59

短短一周不到，視覺領(lǐng)域接連迎來新模型“炸場”，圖像識別門檻大幅降低——這場AI熱潮中鮮見動(dòng)靜的Meta(META.US)終于出手，推出Segment Anything工具，可準(zhǔn)確識別圖像中的對象，模型和數(shù)據(jù)全部開源。

據(jù)悉，Meta的項(xiàng)目包括模型Segment Anything Model(SAM)、數(shù)據(jù)集Segment Anything 1-Billion mask dataset(SA-1B)，公司稱后者是有史以來最大的分割數(shù)據(jù)集。

(資料圖)

引起業(yè)內(nèi)轟動(dòng)的便是這一SAM模型，正如名字“Segment Anything”一樣，該模型可以用于分割圖像中的一切對象，包括訓(xùn)練數(shù)據(jù)中沒有的內(nèi)容。

在交互方面，SAM可使用點(diǎn)擊、框選、文字等各種輸入提示(prompt)，指定要在圖像中分割的內(nèi)容，這也意味著，用于自然語言處理的Prompt模式也開始被應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域。并且對于視頻中物體，SAM也能準(zhǔn)確識別并快速標(biāo)記物品的種類、名字、大小，并自動(dòng)用ID為這些物品進(jìn)行記錄和分類。

AI視覺迎來GPT-3時(shí)刻

對于SAM工具，英偉達(dá)(NVDA.US)人工智能科學(xué)家Jim Fan將Meta的這項(xiàng)研究稱作計(jì)算機(jī)視覺領(lǐng)域的“GPT-3時(shí)刻”之一——其分割方法可以通用，可對不熟悉的物體和圖像進(jìn)行零樣本泛化，初步驗(yàn)證了多模態(tài)技術(shù)路徑及其泛化能力。

進(jìn)一步來說，SAM可以靈活集成于更大的AI系統(tǒng)。例如，理解網(wǎng)頁的視覺和文本內(nèi)容;在AR/VR領(lǐng)域，將頭顯用戶視線作為提示來選擇對象，然后將其“提升”到3D中;對于內(nèi)容創(chuàng)作者，SAM可提取圖像區(qū)域以進(jìn)行拼貼或視頻編輯;SAM還可通過定位動(dòng)物或物體在視頻中進(jìn)行研究和跟蹤。

AI視覺有望飛躍式提升

公開資料顯示，計(jì)算機(jī)視覺模擬大腦完成對圖像的處理和解釋，實(shí)現(xiàn)對相應(yīng)場景的多維理解。以圖像、視頻為代表的視覺數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代信息的主要載體之一，賦以人工智能模型感知并理解這些海量的視覺數(shù)據(jù)的能力，有助于提高人工智能自主適應(yīng)環(huán)境的能力。

作為人工智能(AI)和深度學(xué)習(xí)的子領(lǐng)域，計(jì)算機(jī)視覺可訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)，以便針對各種應(yīng)用場合開發(fā)仿人類視覺功能，利用圖像和視頻進(jìn)行數(shù)據(jù)分割、分類和檢測。

總之，隨著視覺技術(shù)、深度學(xué)習(xí)、高精度成像等技術(shù)的持續(xù)發(fā)展，視覺人工智能的應(yīng)用場景將持續(xù)擴(kuò)展。視覺人工智能無論在速度、精度、還是環(huán)境要求方面都存在著顯著優(yōu)勢，能夠替代人類視覺，更好的助力工業(yè)自動(dòng)化、各行各業(yè)智能化的發(fā)展。

推薦DIY文章