“已經(jīng)有三個人跟我說要做中國版Sora”

        投中網(wǎng)劉燕秋、蒲凡2024-02-22 10:29 大公司
        今年,不論是創(chuàng)業(yè)者還是投資人都成熟了。

        先講兩個非?!爸袊厣钡幕恼Q段子:

        小紅書上,一位投資領域的博主稱,一天內(nèi)已經(jīng)有三個項目方找過來說要做中國版Sora,但聽起來,心態(tài)都是“看看能不能騙點錢”;

        另有一圖,昨日廣為流傳,圖上標“中美兩大AI巨頭”。美方代表是OpenAI的CEO奧特曼,中方代表則是賣AI課賺了上億的博主李一舟。

        怎么說呢,前者未經(jīng)證實,但代表了一部分人對AI創(chuàng)業(yè)者,乃至整個創(chuàng)業(yè)者群體的“刻板”印象;到了李一舟這,這種“刻板印象”終于有了明確的指摘對象,沒辦法,誰讓人家賺錢了呢。不過到底是虛晃一槍,瞧不上的是中國AI。(具體參見《“李一舟何許人也” | 底片》)

        調(diào)侃歸調(diào)侃,當我拿這消息問幾位投資人朋友時,反饋是,還沒人碰到過打著中國版Sora旗號的離譜項目。我想,這可能是因為,大家還處在震驚之中,需要一點反應的時間。也可能因為,和去年ChatGPT攪動的熱潮相比,今年的情況相似又不同。

        對世界喪失掌控感的心態(tài)大體是相似的,不同在于,經(jīng)歷過去一年的洗禮,到今年,不論是創(chuàng)業(yè)者還是投資人都成熟了。一部分人清醒地意識到,熱鬧歸熱鬧,但熱鬧大都是OpenAI的。


        “霸權創(chuàng)業(yè)”


        “我們之后大概率不會投文生視頻類項目了,因為OpenAI太強了。”一家主流投資機構的朋友這樣回復我。

        很難說這種心態(tài)是悲觀,還是認清現(xiàn)實后的冷靜。如果回溯,類似的言論最早從去年3月GPT4發(fā)布插件便開始了。

        在《第一批投AIGC的VC開始后悔了》一文中,我寫過當時典型的擔憂是:是不是所有垂類的應用公司都會被基于GPT4插件的生態(tài)取代?之前投的項目會不會黃了?今后還要不要看?

        別怪寫稿的人絮叨,因為類似的事情總在不斷發(fā)生。去年年底,奧特曼在YC的一場演講,又給生成式AI領域的創(chuàng)業(yè)者澆了一盆冷水。

        他建議,應該以通用人工智能的實現(xiàn)為前提進行技術開發(fā)。因為GPT5可能會相對于GPT4有指數(shù)級的跳躍,這個進展將會給初創(chuàng)企業(yè)和現(xiàn)有公司帶來許多挑戰(zhàn)。反過來說,他不建議的是,創(chuàng)建那些產(chǎn)品業(yè)務致力于解決當前GPT4限制的內(nèi)容,因為大多數(shù)限制將在GPT5中修復。

        這份給創(chuàng)業(yè)者的指南,既誠懇,又傲慢,殺傷力極大。AI巨無霸的掌舵者在提醒創(chuàng)業(yè)者,不要瞎折騰,OpenAI自身的迭代很快會覆蓋一批公司。

        我更想到了另外一段話,來自一年前的另一個“大模型”選題,當時ChatGPT給了世界一個“小小的震撼”,也帶來了一陣密集的投資風口,幾乎所有人都在努力尋找能交付出類似產(chǎn)品的創(chuàng)業(yè)者,并且不吝于將尋找到的創(chuàng)業(yè)者塑造成神。

        我本能地對當時的氛圍感到警惕,于是設計了一份簡單問卷,向超過30個人工智能賽道內(nèi)的創(chuàng)業(yè)團隊發(fā)出QA邀請,試圖搞清楚輿論是否過熱并且嚴重拔高了行業(yè)現(xiàn)狀,然后收到了一份這樣的答案:

        “我們認為人工智能這一輪的發(fā)展是不斷集成人類智能的過程,在這個過程中很多流程、環(huán)節(jié)、都會吞噬,形成端到端、自動化的解決方案,最后會不可避免地形成超級智能——這些環(huán)節(jié)在上一代互聯(lián)網(wǎng)的時代是存在獨角獸公司的(所以互聯(lián)網(wǎng)時代是一個“平權”的創(chuàng)業(yè)時代),但是現(xiàn)在沒機會了——比如GPT4出現(xiàn)之前很多企業(yè)做視頻和圖片處理,但GPT4出來以后對他們是一個重大打擊,模式是否成立都是問題?!?

        這個答案來自集智魔方創(chuàng)始人徐大大。簡單概括,他認為人工智能這一次的熱潮很難留下太多機會,反而可能即將面臨一個“霸權式創(chuàng)業(yè)”的時代。

        而這種“霸權創(chuàng)業(yè)”的感受也正在完整地通過創(chuàng)業(yè)者傳遞給投資人。徐大大和很多VC接觸后,發(fā)現(xiàn)大家目前形成的共識是創(chuàng)業(yè)規(guī)劃要有“戰(zhàn)略提前量”,而不是尋求“時間提前量”,因為“如果方向錯了,早晚被足夠的算力追上”。

        具體到視頻生成領域,AI投資人Magic(化名)跟我分享了一個真實案例。去年他們團隊反復討論過要不要布局一家文生視頻公司,最終還是沒投。

        當初糾結(jié)的點在于,他們看到的國內(nèi)公司現(xiàn)有的方案明顯有性能上限,同時知道OpenAI在用更fundamental的方式解決問題,只是不知道什么時候能做出來?!罢f白了就是知道OpenAI會做,覺得其他公司沒有戲,但沒想到來得這么快?!?

        現(xiàn)有的能想到的場景OpenAI一定能想到,還能有什么新的場景出來?OpenAI的超能力令AI投資人陷入迷惘,不確定究竟該在應用層面投些什么。

        談追趕,Magic沒那么樂觀。他認為,國內(nèi)公司與OpenAI的差距,本質(zhì)在于視野、認知和工程化能力的不同,當中的差距不是任何一家公司能在短時間內(nèi)彌補的。

        更不用說,國內(nèi)一部分公司對外宣揚的和實際情況多少存在一些水分。比如,我在某公司去年的通稿里看到如下描述——“視頻生成能實現(xiàn)可控的內(nèi)容改寫與風格遷移,效果優(yōu)于Runway等在內(nèi)的主流模型?!?


        國內(nèi)的“類Sora產(chǎn)品”


        放眼我國近幾年的科技行業(yè),創(chuàng)業(yè)者們對于“類Sora產(chǎn)品”的嘗試一直沒有停止。從技術路線來看可以分為兩類:

        一類是由剪輯工具衍生出來的“文生視頻”產(chǎn)品。與Sora相同,這類產(chǎn)品的使用邏輯十分“自然語言”,用戶只需要輸入文本內(nèi)容,產(chǎn)品就能匹配上對應的視頻素材生成成片,只是這類產(chǎn)品并不會根據(jù)文本內(nèi)容原生視頻素材,而是在素材庫內(nèi)進行調(diào)用。

        時間線上,早在2020年10月知乎就推出了“一鍵圖文轉(zhuǎn)視頻”,配合當時同期推出的“海鹽計劃”,內(nèi)容視頻化戰(zhàn)爭打響;2021年4月,剪映也上線了“圖文成片”功能,大量創(chuàng)作者使用后,得出的一致結(jié)論是“感覺會干死一堆營銷號”。

        可以說,也正是這條技術路線的成熟,催生了這幾天Sora的一個衍生話題——Sora會“殺死”剪映嗎,我的編輯也建議,將 “梁茹波在字節(jié)年度大會上反省了公司內(nèi)部的技術討論直到2023年才有GPT相關議題”和“張楠在年初辭去抖音集團CEO職務,宣布將專注于剪映”聯(lián)系在一起,進而得出“AI視頻生成”或許是字節(jié)跳動找到的最現(xiàn)實也最直接的“第二增長曲線”的結(jié)論。

        前字節(jié)跳動算法工程師“像素煉金師”持類似的觀點。他在知乎問題“OpenAI的視頻模型Sora能否顛覆影視創(chuàng)作”的回答里寫過這樣一段話:

        “不要懷疑視覺模型的能力……ChatGPT的上限可以質(zhì)疑,大語言模型的訓練可能面臨著數(shù)據(jù)的匱乏,高質(zhì)量的數(shù)據(jù)早就已經(jīng)全部納入到 GPT4 的訓練集里了。但視覺的數(shù)據(jù)和文本不一樣,我們可以幾乎無限的從世界當中采集。”

        第二類是由多模態(tài)大模型衍生出來的“文生視頻”產(chǎn)品,此前讓郭德綱說英語、讓川普說山東話而大火的HeyGen就是其中的代表。類似的產(chǎn)品還包括FancyTech、Wondershare、騰訊智影,這些產(chǎn)品都具備用戶通過“輸入自然語言”生成一段視頻,并且針對性地原生一部分素材的能力。

        如果以更冰冷的技術視角來看,Sora又似乎有被“神化”的嫌疑,許多AI界大鱷指出,其技術壁壘似乎一定程度上被高估了。

        2022年10月,谷歌曾經(jīng)宣布過開發(fā)文本轉(zhuǎn)視頻產(chǎn)品Imagen Video。根據(jù)同步公開的技術論文,當時的谷歌工程師們就已經(jīng)開始計劃以24FPS的幀數(shù)輸出1280x768高清視頻,并且嘗試在保留對象結(jié)構的同時“讓對象結(jié)構能夠完成3D旋轉(zhuǎn)以及更多的畫面形式”。

        此時距離OpenAI發(fā)布著名的DALLE-2,僅僅只有半年的時間。

        而針對OpenAI宣稱sora是“世界模擬器”,圖靈獎得主、Meta首席AI科學家楊立昆(YannLeCun)認為,根據(jù)提示詞生成的大部分逼真視頻,離“AI理解物理世界”還差得遠,刷屏的視頻仍有很多bug,生成視頻的過程與基于世界模型的因果預測完全不同。

        而同日發(fā)布的谷歌多模態(tài)模型Gemini 1.5,能持續(xù)運行100萬tokens,“1小時視頻、11小時音頻、超過3萬行代碼”,我大膽揣測,由于sora以視頻的方式呈現(xiàn)太過驚艷,才讓谷歌成了汪峰,痛失頭條。

        今年1月,北京大學、斯坦福大學、Pika Labs聯(lián)合發(fā)布了一套全新的文生圖框架RPG-Diffusion Master,旨在解決文生圖常?!柏洸粚Π妗北澈蟮膬纱箅y題:缺乏畫面的空間引導,并且難以處理重疊的對象;基于反饋的方法需要收集高質(zhì)量的反饋數(shù)據(jù),并產(chǎn)生額外的訓練成本。

        所以很大程度上,真正讓“中美AI角逐”看起來略顯吃力的地方,不是創(chuàng)業(yè)者不努力,而是一是努力不過“鈔能力”,二是如那位OpenAI的天才謝賽寧所言,人才、數(shù)據(jù)、算力,三者之間的差距,很難彌補。

        由剪輯工具衍生出來的“文生視頻”產(chǎn)品,往往背靠著巨大的內(nèi)容生態(tài)。作為創(chuàng)作者生態(tài)的一環(huán),這層屬性的一體兩面,是第三方“文生視頻”產(chǎn)品在商業(yè)化上存在巨大的問題。

        兩年前我曾經(jīng)收到過一份“文轉(zhuǎn)視頻”產(chǎn)品的BP,第一頁旗幟鮮明地寫著“做內(nèi)容賽道的基建產(chǎn)品,成就中國最大的泛知識內(nèi)容創(chuàng)作者平臺”,核心競爭力是“行業(yè)率先的中視頻素材庫”“獨創(chuàng)的智能文本區(qū)”“云協(xié)作”,融資目標相對保守地定在了500萬美元。

        這幾天重新聊起Sora的時候,才發(fā)現(xiàn)他們沒有挺過2023,當初發(fā)BP給我的朋友發(fā)了一個哭臉emoji,說:“一開始我們就錯了”。

        我忍不住追問他們的復活計劃:“文生視頻這一段一定要和Sora對比嗎?就像文藝片存在的同時不影響爆米花電影的賣座,只要成本夠低、操作門檻夠低,文生視頻工具似乎是有一定市場的,并不一定需要‘太智能’?!?

        朋友的對話框開始漫長地停留在“對方正在輸入”狀態(tài)。半晌,他決定回復這樣兩段話:“老板不看好中視頻賽道,覺得XX就那水平,我們還給他們的創(chuàng)作者做工具就更沒前途了……泛知識類視頻的商業(yè)天花板可能只是億級,而影視廣告行業(yè)的商業(yè)天花板是萬億級的?!?

        同樣的“出身困境”,也體現(xiàn)在多模態(tài)大模型衍生出來的“文生視頻”產(chǎn)品中。這些產(chǎn)品所提供的“文生視頻”功能,大部分都為明確的應用場景設計,例如電商虛擬主播、服裝設計展示,進而導致他們最終輸出的成品通常呈現(xiàn)出“半AIGC狀態(tài)”——幫助用戶在有限的模板下進行一定的原生。


        還沒看到產(chǎn)業(yè)化的可能


        也不是沒有樂觀的聲音。

        “現(xiàn)在是整個行業(yè)技術不成熟啊,我覺得這個方向可以再跑跑,雖然Sora是SOTA的算法,但我覺得差距沒大家想象的那么大,到今年年底的時候估計會接近文生圖?!?

        當我問及文生視頻在國內(nèi)的前景,投了大模型公司的James(化名)這樣告訴我。SOTA,全稱“state-of-the-art”,用于描述機器學習中某個任務上當前最優(yōu)效果的模型。

        樂觀或悲觀,不過是大家基于自己看到的論據(jù)得出的主觀結(jié)論。如果文生視頻在國內(nèi)有機會,不妨把問題提得再具體一點,那會是誰的機會?隨著融資軍備競賽的白熱化,會是現(xiàn)有這些大模型頭部玩家之間的競爭嗎?

        頭部大模型創(chuàng)業(yè)公司里,月之暗面、MiniMAX、百川智能等都在年后傳出了最新一筆大額融資的消息。彈藥充足,為的是應對模型迭代持續(xù)燒錢的現(xiàn)狀,而多模態(tài)模型正是當下國內(nèi)大模型的競爭點之一。

        據(jù)我了解,騰訊、智譜AI等都已經(jīng)在研發(fā)視頻生成大模型。月之暗面也被媒體披露出正在研發(fā)通用多模態(tài)模型。

        投資人的觀點仍然沒有定論。James判斷,還是大模型公司機會大一些。Magic認為,看上去似乎是這樣,變量在于國內(nèi)這些大模型公司把核心任務放在了追趕GPT4和5上,而文生視頻是另一條線,肯定會做,但能給多少資源還不一定。

        “如果產(chǎn)品能立住,不排除有獨立模型開發(fā)的公司也能跑出來?!?

        而當著眼于實際應用,只能說,不管是國內(nèi)公司,還是Sora、Runway、Pika,他們的產(chǎn)品距離產(chǎn)業(yè)化應用還有一段距離。有投資人告訴我,文生視頻這件事要在中國落地,還是要關注商業(yè)化的問題,或者公司有出海的能力。

        再講一個現(xiàn)實的創(chuàng)業(yè)故事吧。出海,正是AIGC創(chuàng)業(yè)者吳立素給公司規(guī)劃的路徑。

        幾年前我認識他時,他還在做網(wǎng)劇和網(wǎng)大,如今他公司的主要業(yè)務放在短劇和AI,利用人工智能生成三維和平面內(nèi)容。2022年夏天,他成立了人工智能機構SOLART TECH(素鱗科技),并在隨后一年加入英偉達inception program、Google cloud for AI startup和Amazon的加速計劃。

        出于自身業(yè)務需求,而不是開一場發(fā)布會,吳立素的團隊去年嘗試過自研視頻生成大模型,數(shù)據(jù)來源是自有版權的電影和動畫片?;藥装偃f,他得出的結(jié)論是,投入巨大,結(jié)果卻差強人意,距離產(chǎn)業(yè)化應用比較遠。

        “基于工程文件去做數(shù)據(jù)標注的精準度高,但我們數(shù)據(jù)量不大,所以生成的內(nèi)容比較有限。動畫部分和Pika 1.0的效果相近,但真實人物會有恐怖屋效應?!?

        “我們團隊基本上都是會寫代碼的影視藝術工作者,所以開始還會有一點優(yōu)勢?!痹谒磥?,去年包括Pika在內(nèi)的很多團隊進行畫面推理還只是基于圖像學研究,而今年Sora團隊里的成員,有越來越多的跨專業(yè)人才能進行交叉學科研究。

        架不住OpenAI大力出奇跡。吳立素決定放棄自研視頻生成大模型,轉(zhuǎn)向基于大模型做一些小模型。他希望結(jié)合其他技術和工具,推動產(chǎn)品實際落地。“國內(nèi)做全視頻生成的公司方向都不太一樣,但多是以科研的形式在做,目前沒看到有商業(yè)化或產(chǎn)業(yè)化的可能性?!?

        產(chǎn)業(yè)應用更多的要求是精準度,而即使是Sora的呈現(xiàn)也有很大的不穩(wěn)定性。他打了個比方,“數(shù)學公式大家都會,但不一定所有人都能用那套公式把應用題解出來。”

        至于文生視頻對影視動畫產(chǎn)業(yè)的影響,也許沒想象中那么大。吳立素有計算機背景,又在中傳讀了數(shù)字媒體專業(yè),此后在影視行業(yè)摸爬滾打十幾年。他的判斷是,文生視頻目前適用于不太有特定需求的內(nèi)容填充和背景畫面豐富。

        “傳統(tǒng)影視動畫產(chǎn)業(yè)里比較講究精準度的場景和角色情緒表達,純文字直接生成比較難得到結(jié)果,通過圖像(分鏡故事版)生成會更準確一點?!彪S著Vision Pro的上市,他也更看好未來3D市場以及3D內(nèi)容和AI的結(jié)合發(fā)展的機會。

        吳立素做出的另一個決定是,今年公司要出海?!耙驗閲鴥?nèi)用戶需求增長比較慢,現(xiàn)在更多是賣課的人能賺到錢?!彼麩o奈道。

        “向錢看”,是不少人瞧不上中國AI的原因。一位投資人朋友對我表示,從互聯(lián)網(wǎng)時代開始,美國的科技公司就代表科技與商業(yè)的雙重突破,而國內(nèi)則把重心更多放在了跟隨和應用,曾經(jīng)我們似乎看到了平起平坐甚至超越的可能,但到了AI時代,才發(fā)現(xiàn)一切都是幻覺。

        去年此時,很多人問,為什么中國沒有產(chǎn)生ChatGPT,到了今年問題又變成了,為什么中國沒有產(chǎn)生sora,在天才科學家史蒂芬·沃爾弗拉姆那本《這就是ChatGPT》的導讀序中,作者建議我們把問題換成,“為什么全世界只有OpenAI能做出ChatGPT”。

        我認為方向無關對錯,只跟現(xiàn)實土壤有關。2022年中旬,曾經(jīng)有一位美元基金投資人,強烈建議我關注AI發(fā)展趨勢,當時就提到了GPT等,而我卻一知半解,國內(nèi)更是鮮有報道,現(xiàn)在他轉(zhuǎn)身加入一家國外的科技創(chuàng)業(yè)公司,按他說法,“出來躺躺”。

        在那本書中,史蒂芬·沃爾弗拉姆提到了“計算不可約性原理”,“人類、AI、自然界和社會等各種計算系統(tǒng)具有根本的不可預測性,始終存在‘收獲驚喜的可能’。人類可貴的,是有內(nèi)在驅(qū)動力和內(nèi)在體驗,能夠內(nèi)在地定義目標或者意義,從而最終定義未來?!?

        那么不妨問問,對這種不可預測的“收獲驚喜的可能”,我們到底憑什么?

        【本文為合作媒體授權博望財經(jīng)轉(zhuǎn)載,文章版權歸原作者及原出處所有。文章系作者個人觀點,不代表博望財經(jīng)立場,轉(zhuǎn)載請聯(lián)系原作者及原出處獲得授權。有任何疑問都請聯(lián)系(聯(lián)系(微信公眾號ID:AppleiTree)。免責聲明:本網(wǎng)站所有文章僅作為資訊傳播使用,既不代表任何觀點導向,也不構成任何投資建議。】

        猜你喜歡

        亚洲AV永久无码精品一区二区国产| 亚洲麻豆精品果冻传媒| 久久亚洲国产精品| 亚洲美女在线国产| 日韩亚洲精品福利| 亚洲成网777777国产精品| 老司机亚洲精品影院在线观看| 亚洲欧洲无码一区二区三区| 亚洲а∨天堂久久精品9966 | 亚洲视频免费观看| 亚洲卡一卡2卡三卡4卡无卡三| 久久亚洲国产视频| 亚洲五月激情综合图片区| 亚洲福利视频导航| 青青草原精品国产亚洲av| 色播亚洲视频在线观看| 亚洲色图综合网站| 亚洲嫩草影院在线观看| 麻豆狠色伊人亚洲综合网站| 亚洲妇女熟BBW| 亚洲国产精品成人AV在线| 亚洲国产成人精品无码区二本 | 亚洲日本成本人观看| 亚洲国产无线乱码在线观看| 久久亚洲色WWW成人欧美| 国产精品亚洲专区在线播放| 亚洲第一页综合图片自拍| 久久精品国产精品亚洲下载| 亚洲人成网亚洲欧洲无码久久| 亚洲国产精品一区第二页| 亚洲无删减国产精品一区| 亚洲中文无码线在线观看| 亚洲中文字幕无码久久| 亚洲av无码片vr一区二区三区| 色天使色婷婷在线影院亚洲| 亚洲av中文无码| 亚洲欧洲成人精品香蕉网| 亚洲午夜精品久久久久久人妖| 亚洲欧美日韩中文无线码| 国产精品久久久久久亚洲小说| 亚洲日韩国产精品乱|