“開(kāi)年王炸”Sora,在頂級(jí)“技術(shù)咖”眼里什么段位?

2024-02-23 15:50:04

如果說(shuō),去年是語(yǔ)言大模型ChatGPT的“時(shí)代”,那么今年開(kāi)年的首個(gè)“王炸”必定是文生視頻模型Sora,其憑借出色的視頻制作能力瞬間“點(diǎn)燃”科技圈與投資圈。

據(jù)OpenAI官網(wǎng)介紹,Sora能夠生成具有多個(gè)角色、特定類型的運(yùn)動(dòng)以及主體和背景的、細(xì)節(jié)準(zhǔn)確的復(fù)雜場(chǎng)景,該模型不僅了解用戶在提示中提出的要求,還了解這些東西在物理世界中的“存在方式”。業(yè)界普遍認(rèn)為,Sora的面世將對(duì)AI產(chǎn)業(yè)鏈帶來(lái)歷史性的變革機(jī)遇。

機(jī)構(gòu)人士指出,以Sora為代表的文生視頻模型極大縮短了AGI(通用人工智能)時(shí)代到來(lái)的時(shí)間。隨著多模態(tài)大模型逐步升級(jí),算力需求將呈現(xiàn)指數(shù)級(jí)增長(zhǎng),下游應(yīng)用有望百花齊放,推動(dòng)應(yīng)用領(lǐng)域生產(chǎn)力價(jià)值釋放。

那么,Sora的橫空出世將為人工智能產(chǎn)業(yè)鏈帶來(lái)怎樣的機(jī)遇和發(fā)展?如何看待中美之間在人工智能領(lǐng)域的發(fā)展差異?

咕咚CEO申波:Sora的本質(zhì)是一個(gè)“世界模擬器” 中國(guó)公司會(huì)在AI硬件和應(yīng)用方面快速發(fā)展

作為中國(guó)最大運(yùn)動(dòng)社交和賽事服務(wù)平臺(tái)——咕咚的創(chuàng)始人,申波是一名不折不扣的“技術(shù)狂人”,崇拜“MySQL之父”Monty和馬斯克,關(guān)注全球最新的技術(shù)及產(chǎn)品趨勢(shì)。

他的辦公桌上總是堆滿了各種技術(shù)類書(shū)籍,從Stable Diffusion,到DeepMind,再到ChatGPT,他都能信手拈來(lái)。他在朋友圈笑言,“以后退休了,得找個(gè)面朝大海春暖花開(kāi)的大院子coding(編程)?!?/span>

談及Sora對(duì)行業(yè)的影響,申波表示,“OpenAI開(kāi)發(fā)的文本到視頻生成器Sora,有潛力顯著影響依賴視覺(jué)內(nèi)容的多個(gè)行業(yè),特別是影視娛樂(lè)、教育和營(yíng)銷行業(yè)?!?/span>

就運(yùn)動(dòng)健康應(yīng)用領(lǐng)域而言,申波說(shuō)“Sora能夠以新穎的方式吸引用戶,將鍛煉描述或健康提示轉(zhuǎn)化為引人入勝、易于跟隨的視頻。這將通過(guò)提供動(dòng)態(tài)的互動(dòng)內(nèi)容來(lái)增強(qiáng)用戶體驗(yàn),比單純的文本或靜態(tài)圖像更有效地激勵(lì)和指導(dǎo)用戶。”

相比較Runway和Pika等類似產(chǎn)品,申波指出,“與早期主要關(guān)注生成短片的模型不同,Sora旨在生產(chǎn)長(zhǎng)達(dá)一分鐘的高細(xì)節(jié)視頻,并致力于在視頻長(zhǎng)度上保持連貫性。此外,由于Sora能創(chuàng)造更引人入勝、更全面的內(nèi)容,這可能使其在提供更豐富用戶內(nèi)容方面具有區(qū)別于其他工具的優(yōu)勢(shì)。本質(zhì)上說(shuō)Sora是一個(gè)‘世界模擬器’ 而不僅僅是文本生成視頻工具。”

談及近年中美在人工智能領(lǐng)域不同的發(fā)展特點(diǎn)和重點(diǎn),申波分析道,“美國(guó)公司如OpenAI和Google DeepMind在生成式AI技術(shù)方面取得了重大進(jìn)展,例如ChatGPT和DALL-E,這些技術(shù)引領(lǐng)了市場(chǎng)和技術(shù)趨勢(shì)。中國(guó)則在應(yīng)用研發(fā)和商業(yè)化方面顯示出新的進(jìn)展,特別是AI在教育、健康、零售和安全等領(lǐng)域的應(yīng)用。中美之間的主要差異可能在于創(chuàng)新的焦點(diǎn)、市場(chǎng)應(yīng)用的速度和政策環(huán)境。”

目前,中國(guó)在生成式AI領(lǐng)域有哪些走在比較前面的應(yīng)用場(chǎng)景和玩家?申波表示,“國(guó)內(nèi)無(wú)論是大模型還是應(yīng)用方面,都快速涌現(xiàn)出了一系列的創(chuàng)業(yè)公司,如百川智能,當(dāng)然巨頭也參與其中了,包括百度、阿里、騰訊等等。而且近日OPPO和魅族都發(fā)布了ALL IN AI的戰(zhàn)略,全力開(kāi)發(fā)推廣AI手機(jī)。所以我覺(jué)得中國(guó)公司會(huì)在AI硬件和應(yīng)用方面快速發(fā)展并引領(lǐng)行業(yè),在大模型基座以及中文大模型上面縮小并趕上美國(guó)的水平?!?/span>

長(zhǎng)期活躍于粵港澳大灣區(qū)的龔銀(Neil),曾任OnePlus平臺(tái)中心副總裁、創(chuàng)始團(tuán)隊(duì)高管,現(xiàn)任安克創(chuàng)新CIO,他對(duì)分布式系統(tǒng)、高性能高可靠系統(tǒng)、云計(jì)算等領(lǐng)域保持著持續(xù)關(guān)注和實(shí)踐。

談及Sora的橫空出世,龔銀表示,“這將給游戲、短視頻、影視、廣告和元宇宙等高品質(zhì)視頻內(nèi)容制作的行業(yè)帶來(lái)直接沖擊?!?/span>

在龔銀看來(lái),Sora與此前市面上的同類產(chǎn)品相比擁有諸多優(yōu)勢(shì)。“Sora生成內(nèi)容的質(zhì)量更好,(尤其是在)復(fù)雜場(chǎng)景、角色表情、復(fù)雜的鏡頭運(yùn)動(dòng)等方面穩(wěn)定性、一致性更好,三維空間的連貫性比較好,沒(méi)有斷層或抽離感。視頻長(zhǎng)度進(jìn)一步擴(kuò)展,支持60S逼真視頻,基本可商用,可以生成類似游戲等互動(dòng)類數(shù)字內(nèi)容,想象空間更廣泛?!?/span>

從技術(shù)架構(gòu)上看,龔銀分析道,“Transformer架構(gòu)具備更好的學(xué)習(xí)性和擴(kuò)展性,涌現(xiàn)能力更強(qiáng)。而runway和pika更多還是依靠圖像轉(zhuǎn)幀方式,連續(xù)性還未得到驗(yàn)證。我們?cè)?023年就一直嘗試runnway來(lái)制作和生成視頻,但其穩(wěn)定、一致性和可商用能力其實(shí)還是很弱,Sora的出現(xiàn)一下子解決了這些問(wèn)題?!?/span>

就消費(fèi)電子行業(yè)來(lái)說(shuō),龔銀直言,“特別是我們涉及全球各區(qū)域電商平臺(tái)或線上平臺(tái),依靠大量廣告和內(nèi)容來(lái)獲取流量和打造品牌,Sora的出現(xiàn)對(duì)我們行業(yè)的影響利弊各半,一方面,內(nèi)容的制作成本大幅下降,效率得到了質(zhì)的提升,同時(shí)也有希望實(shí)現(xiàn)千人千面的內(nèi)容;另一方面,大量?jī)?nèi)容的出現(xiàn)會(huì)稀釋掉用戶的注意力,品牌想通過(guò)內(nèi)容獲取用戶心智的難度更大了。”

事實(shí)上,從ChatGPT開(kāi)啟生成式AI時(shí)代,到國(guó)內(nèi)一眾玩家開(kāi)啟“百模大戰(zhàn)”,再到今天Sora的橫空出世,中美在人工智能領(lǐng)域呈現(xiàn)出較大的發(fā)展差異。

“從已有的結(jié)果上看,美國(guó)在創(chuàng)新能力、創(chuàng)新環(huán)境、創(chuàng)新能力工程化和市場(chǎng)化等各方面能力目前還是全球最強(qiáng)的,”龔銀表示。

龔銀還指出,“國(guó)內(nèi)模仿能力強(qiáng),業(yè)務(wù)應(yīng)用層場(chǎng)景豐富。在具備基礎(chǔ)設(shè)施和能力的前提下,在AI應(yīng)用層面會(huì)有一些創(chuàng)新和突破。另外,國(guó)內(nèi)擅長(zhǎng)在已有創(chuàng)新的基礎(chǔ)上集中資源辦大事,需要的是一些時(shí)間?!?/span>

談及國(guó)內(nèi)比較成熟的生成式AI應(yīng)用場(chǎng)景和玩家時(shí),龔銀認(rèn)為,“(目前)還沒(méi)有看到特別成功的,一些品牌和電商其實(shí)都在摸索。在營(yíng)銷領(lǐng)域,大部分還是在文生圖、文生文等方面做一些場(chǎng)景的嘗試,比如運(yùn)營(yíng)活動(dòng)的文案和圖片、產(chǎn)品場(chǎng)景圖、多語(yǔ)言翻譯、多語(yǔ)言自動(dòng)生成等;在研發(fā)領(lǐng)域,大部分是在嘗試代碼輔助編寫(xiě),類似github和copilot。應(yīng)用最多的還是在客服領(lǐng)域,自動(dòng)服務(wù)機(jī)器人,大部分公司都有在嘗試,還有一些類似AI Agent之類的應(yīng)用場(chǎng)景?!?/span>

原貝殼金服小微企業(yè)生態(tài)CTO史海峰:Sora驚艷之處在于對(duì)場(chǎng)景時(shí)空更強(qiáng)的理解和推測(cè)能力

史海峰曾任貝殼金服小微企業(yè)生態(tài)CTO、餓了么北京研發(fā)中心總經(jīng)理,也曾在神州數(shù)碼、亞信聯(lián)創(chuàng)長(zhǎng)期從事電信行業(yè)業(yè)務(wù)支撐系統(tǒng)集成工作,參與中國(guó)移動(dòng)、中國(guó)聯(lián)通多個(gè)項(xiàng)目,具有豐富的大型業(yè)務(wù)系統(tǒng)研發(fā)實(shí)施經(jīng)驗(yàn)。

在20余年的工作歷程中,史海峰以架構(gòu)師的身份活躍于IT圈,曾獲騰訊云最具價(jià)值專家(TVP),開(kāi)設(shè)了《IT民工閑話》公眾號(hào),常自侃“大叔級(jí) IT 民工”。

史海峰指出,最新發(fā)布的Sora其驚艷之處不僅僅在于時(shí)間,還包括空間的延伸、視角的變換,需要“腦補(bǔ)”更多細(xì)節(jié),體現(xiàn)了對(duì)場(chǎng)景時(shí)空更強(qiáng)的理解和推測(cè)能力。

“從文字生成文字,再到文字生成圖片是一個(gè)飛躍,從圖片到生成目前的無(wú)聲視頻(或者從單幀視頻到多幀),似乎還挺順理成章。什么時(shí)候通過(guò)音頻能夠把空間進(jìn)一步體現(xiàn),那會(huì)比現(xiàn)在更加驚艷,另一個(gè)維度則是實(shí)時(shí)交互。再往后大概又是AR、VR、元宇宙了?!?/span>

“作為提升生產(chǎn)力、降低成本門(mén)檻的工具,從C端和B端分別看的話,對(duì)UGC和PGC都會(huì)產(chǎn)生影響,到底有多大沖擊還很難判斷。在純CG動(dòng)畫(huà)方面,可能大幅降低制作成本。如果支持對(duì)視頻的加工再創(chuàng)作,在短視頻、影視制作方面也可能帶來(lái)新的模式,會(huì)涉及到影視、廣告、社交、教育、游戲等行業(yè)。(同時(shí))也會(huì)給反詐、維護(hù)知識(shí)產(chǎn)權(quán)帶來(lái)更高要求,”史海峰說(shuō)。

談及中美在人工智能領(lǐng)域的發(fā)展差異,史海峰表示,“在AI時(shí)代,芯片是基座,數(shù)據(jù)是生產(chǎn)要素,是訓(xùn)練AI的養(yǎng)料,而最重要的是人才。(人工智能)競(jìng)爭(zhēng)門(mén)檻高、迭代快,在達(dá)到技術(shù)上限前,不適合彎道超車或者體現(xiàn)后發(fā)優(yōu)勢(shì),我們必須要追趕,并腳踏實(shí)地?!?/span>

(稿件來(lái)源:每經(jīng)網(wǎng))

責(zé)任編輯:陳科辰

掃一掃分享本頁(yè)