AI 作圖內(nèi)卷加劇:Meta 剛打敗 Midjourney,又被港科大超越?
自生成式AI登場以來,工業(yè)革命的奇景每天都在上演。
僅在圖像領(lǐng)域,眾多企業(yè)與高校密集發(fā)布的重磅模型接連帶來令人目眩神迷的震撼體驗。如果說AI繪畫在一開始曾給人類藝術(shù)家?guī)肀惶娲目只牛敲矗S著這一繪畫工具的數(shù)量與類型愈加豐富,AI繪畫也開始了內(nèi)卷——紛至沓來的“新神”也不斷將曾經(jīng)的老大推下王座,可謂“遍地是大王,短暫又輝煌”。
實現(xiàn)五倍文生圖效率提升
最近,Meta宣布開發(fā)出一款名為CM3Leon(發(fā)音類似于“變色龍”)的人工智能模型,該模型可以根據(jù)文本生成超高分辨率的圖像,也可以為圖像生成文本描述,甚至可以根據(jù)文本指令編輯圖像。
CM3leon的訓(xùn)練采用了從僅文本語言模型中調(diào)整而來的方法,此方法簡單,并可產(chǎn)生強大的模型,它表明基于tokenizer(分詞器)的transformer模型可以和現(xiàn)有的基于Diffusion(擴散)的生成模型一樣有效地進行訓(xùn)練。
即使只在一個只有30億文本符號的數(shù)據(jù)集上進行訓(xùn)練,CM3leon的零樣本性能與在更廣泛的數(shù)據(jù)集上訓(xùn)練的較大模型相比也不遜色。
Meta表示,CM3leon的計算量比Stable Diffusion、Midjourney等基于Diffusion的模型少了五倍,但它卻在文本到圖像生成方面實現(xiàn)了最先進的性能,在視覺問答和長篇說明等各種視覺語言任務(wù)中表現(xiàn)出色。例如,CM3leon可以處理更復(fù)雜的prompt,在文本引導(dǎo)下編輯圖片中天空的顏色,在圖片中房間的特定位置添加水槽和鏡子等物體。
在對最廣泛使用的圖像生成基準(zhǔn)測試(零樣本MS-COCO)的性能進行比較時,CM3leon的FID(Fréchet Inception Distance,用來計算真實圖像與生成圖像的特征向量間距離的一種度量,F(xiàn)ID值越小則相似程度越高)值為4.88,在文本到圖像生成方面確立了新的SOTA(state of the art,最先進的技術(shù)水準(zhǔn)),優(yōu)于Google的Parti(FID 7.23)、Stable Diffusion(FID 8.32)、OpenAI的DALL-E2(FID 10.39)等一系列知名文生圖模型。這一成就突顯了檢索增強的潛力,并凸顯了擴展策略對自回歸模型性能的影響。
CM3leon具有自回歸模型的多功能性和有效性,同時保持了低訓(xùn)練成本和推斷效率。它是一個因果掩碼混合模態(tài)(CM3)模型,因為它可以生成基于任意其他圖像和文本內(nèi)容序列的文本和圖像序列。這大大擴展了以前僅支持文本到圖像或僅支持圖像到文本的模型的功能。
業(yè)界認為,CM3leon的能力已躍居多模態(tài)市場巔峰。Meta表示,CM3Leon是圖像生成和理解領(lǐng)域的一大進步,但也承認該模型可能存在數(shù)據(jù)偏見的問題,并呼吁行業(yè)加強透明度和監(jiān)管。
計算機視覺迎來GPT-4時刻
圖像分割是圖像理解的重要基石,也是計算機視覺(CV)領(lǐng)域中的一個重要研究方向,在自動駕駛、無人機、工業(yè)質(zhì)檢、病理影像分割等領(lǐng)域都有著舉足輕重的地位。
隨著深度學(xué)習(xí)技術(shù)的興起,早期依靠亮度、顏色和紋理等低級特征的圖像分割方法逐漸被淘汰,基于神經(jīng)網(wǎng)絡(luò)的圖像分割方法取得了巨大的突破——通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)到更高層次、更抽象的特征表示,從而能夠更準(zhǔn)確地進行圖像分割。
今年4月,Meta發(fā)布了首個基礎(chǔ)圖像分割模型SAM(即Segment Anything Model,分割一切模型),以及對應(yīng)的數(shù)據(jù)庫SA-1B,瞬間引爆了AI圈。SAM是面向通用場景的圖像分割模型,可用于任何需要對圖像進行識別和分割的場景,基于prompt工程,可以成為內(nèi)容創(chuàng)作、AR/VR、科學(xué)領(lǐng)域或通用AI系統(tǒng)的組件,實現(xiàn)多模態(tài)處理。
SAM大大提升了普通CV模型的圖像分割能力,對于未知和模棱兩可的場景也能實現(xiàn)較好的圖像分割效果,有望大幅降低計算機識別門檻。英偉達AI科學(xué)家JimFan曾表示“SAM是計算機視覺領(lǐng)域的GPT-3時刻”。
但僅僅3個月后,SAM的地位就受到了挑戰(zhàn)。
最近,香港科技大學(xué)團隊開發(fā)出一款比SAM更全能的圖像分割模型,名為Semantic-SAM。Semantic-SAM可以完全復(fù)現(xiàn)SAM的分割效果并達到更好的粒度和語義功能, 并支持通用分割(全景、語義、實例分割)、細粒度分割、具有多粒度語義的交互式分割、多粒度圖像編輯等廣泛的分割任務(wù)及其相關(guān)應(yīng)用。
此外,Semantic-SAM在粒度豐富性、語義感知性、多功能等方面優(yōu)勢明顯,完勝Meta的SAM:只需單擊一下即可輸出多達6個粒度分割,與SAM相比,更可控地匹配用戶意圖,無需多次移動鼠標(biāo)尋找想要分割的區(qū)塊。
僅對圖像進行分割已無法滿足AI研究人員們的野心。視頻分割是自動駕駛、機器人技術(shù)、視頻編輯等應(yīng)用場景的基礎(chǔ)技術(shù),但SAM無法處理視頻分割任務(wù)。
近日,來自蘇黎世聯(lián)邦理工學(xué)院、香港科技大學(xué)、瑞士洛桑聯(lián)邦理工學(xué)院的研究人員突破了上述局限,其發(fā)布的SAM-PT模型將SAM的零樣本能力擴展到動態(tài)視頻的跟蹤和分割任務(wù)上,在多個視頻物體分割數(shù)據(jù)集基準(zhǔn)中取得了穩(wěn)定且強大的零樣本性能。
AI繪圖的另一面
繼不斷更新Zoom Out(平移)、Pan(擴展)等新功能后,Midjourney最新的V6版本也將會在本月內(nèi)發(fā)布。日前,AI繪圖獨角獸Stable Diffusion也推出了一項素描轉(zhuǎn)圖像的服務(wù)Stable Doodle。
對于內(nèi)容創(chuàng)作者等C端用戶來說,AI作圖工具的迭代與進化帶來的高精度、高質(zhì)量的內(nèi)容賦予了更優(yōu)質(zhì)的體驗和更多元的選擇;借助AI內(nèi)容生成和圖像分割/識別模型,可穿戴設(shè)備的AR/VR人機交互效率和使用體驗將得到顯著提升,工業(yè)、自動駕駛、醫(yī)療等領(lǐng)域的工作效率、識別的精準(zhǔn)度也將大幅提升。
但在此良夜之中,仍匍匐著一些被遮蓋的隱患。
隨著模型的不斷更新和迭代,用戶的繪畫或圖像數(shù)據(jù)可能會被上傳到云上的服務(wù)器,或被用于訓(xùn)練更為先進的模型,導(dǎo)致一些隱私與版權(quán)問題;同時,無限制的AI制圖也正被用于基于真實人物的色情圖片的制作,試探著法律的底線。
AIGC不斷變革內(nèi)容生產(chǎn)模式的同時也影響著內(nèi)容的消費方式,更新奇更驚艷的生成內(nèi)容帶來的刺激轉(zhuǎn)瞬即逝。在無數(shù)次輸入文字描述的選擇中、在回聲效應(yīng)的不斷固化下,AI的畫筆究竟會創(chuàng)造出無比豐富的內(nèi)容市場還是千篇一律的審美取向,答案令人擔(dān)憂。
猜你喜歡
90后,3年身價1300億
拒絕Meta收購、無視蘋果要約,他用3年時間做出了一家估值達到1300億的頂級獨角獸。解構(gòu)AI未來紀(jì)元:勞動力變革、社會結(jié)構(gòu)轉(zhuǎn)型、投資策略重構(gòu)
在科技日新月異的當(dāng)下,AI與互聯(lián)網(wǎng)成為驅(qū)動時代發(fā)展的兩大核心力量。