国产精品有码无码Aⅴ,最刺激黄a大片免费观看下载

城市金融報手機網(wǎng) APP下載

首頁
圖片新聞
視頻新聞
- 每日熱點
- 行長有話說
財經(jīng)要聞
- 國內(nèi)
- 國際
- 熱點
- 評論
銀行前沿
- 要聞
- 資訊
- 政策
- 理財
- 觀察
金融·投資
- 股市
- 基金
- 保險
- 期貨
- 理財
- 公司
絲路·金融
- 政策
- 項目
- 商情
- 人文
人文智庫
- 視野
- 洞見
- 熱議
- 文化
陜西金融
- 西安
- 咸陽
- 寶雞
- 渭南
- 銅川
- 榆林
- 延安
- 漢中
- 安康
- 商洛
- 楊凌
- 西咸

首頁

財經(jīng)要聞 > 評論

Sora炸裂出道！背后技術(shù)團隊曝光，有多位華人，還有2022年畢業(yè)的本科生！

2024-02-19 16:50:38

2月16日，OpenAI的AI視頻模型Sora炸裂出道，生成的視頻無論是清晰度、連貫性和時間上都令人驚艷，一時間，諸如“現(xiàn)實不存在了！”的評論在全網(wǎng)刷屏。

Sora是如何實現(xiàn)如此顛覆性的能力的呢？這就不得不提到其背后的兩項核心技術(shù)突破——Spacetime Patch（時空Patch）技術(shù)和Diffusion Transformer（DiT，或擴散型Transformer）架構(gòu)。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Dribug0wfpRFvmBZoBGjOAzS76f0X0HGVzhpnvvGIkBFAuAtKPBoyI3og.png

查詢這兩項技術(shù)的原作論文，時空Patch的技術(shù)論文實際上是由谷歌DeepMind的科學家們于2023年7月發(fā)表的。DiT架構(gòu)技術(shù)論文的一作則是Sora團隊領(lǐng)導者之一William Peebles，但戲劇性的是，這篇論文曾在2023年的計算機視覺會議上因“缺少創(chuàng)新性”而遭到拒絕，僅僅1年之后，就成為Sora的核心理論之一。

如今，Sora團隊毫無疑問已經(jīng)成為世界上最受關(guān)注的技術(shù)團隊。OpenAI官網(wǎng)顯示，Sora團隊由Peebles等3人領(lǐng)導，核心成員包括12人，其中有多位華人。值得注意的是，這支團隊十分年輕，成立時間還尚未超過1年。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DraVPGyU3XLOlrmlgZjia9icbS18kkpjk8PWefaepPvNNZsCdV9do7TLTw.png

核心突破一：

時空Patch，站在谷歌肩膀上

此前，OpenAI在X平臺上展示了Sora將靜態(tài)圖像轉(zhuǎn)換為動態(tài)視頻的幾個案例，其逼真程度令人驚嘆。Sora是如何做到這一點的呢？這就不得不提到該AI視頻模型背后的兩項核心技術(shù)——DiT架構(gòu)和Spacetime Patch（時空Patch）。

據(jù)外媒報道，Spacetime Patch是Sora創(chuàng)新的核心之一，該項技術(shù)是建立在谷歌DeepMind對NaViT（原生分辨率視覺Transformer）和ViT（視覺Transformer）的早期研究基礎上。

Patch可以理解為Sora的基本單元，就像GPT-4的基本單元是Token。Token是文字的片段，Patch則是視頻的片段。GPT-4被訓練以處理一串Token，并預測出下一個Token。Sora遵循相同的邏輯，可以處理一系列的Patch，并預測出序列中的下一個Patch。

Sora之所以能實現(xiàn)突破，在于其通過Spacetime Patch將視頻視為補丁序列，Sora保持了原始的寬高比和分辨率，類似于NaViT對圖像的處理。這對于捕捉視覺數(shù)據(jù)的真正本質(zhì)至關(guān)重要，使模型能夠從更準確的表達中學習，從而賦予Sora近乎完美的準確性。由此，Sora能夠有效地處理各種視覺數(shù)據(jù)，而無需調(diào)整大小或填充等預處理步驟。

OpenAI發(fā)布的Sora技術(shù)報告中透露了Sora的主要理論基礎，其中Patch的技術(shù)論文名為Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。該篇研究論文是由谷歌DeepMind的科學家們于2023年7月發(fā)表的。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Drcldbib2P7dFobXoZ3l8OQmvwk93ysIaHEbRb7mCSH9nU2iaWltXZVNCQ.jpg

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrvYzYlfBAShUIL5B8Fib23GlZctRrF4w3bCP6oCcw1V6XhXAEy18CtNg.jpg

核心突破二：

擴散型Transformer架構(gòu)

相關(guān)論文曾遭拒絕

除此之外，Sora的另一個重大突破是其所使用的架構(gòu)，傳統(tǒng)的文本到視頻模型（Runway、Stable Diffusion）通常是擴散模型（Diffusion Model），文本模型例如GPT-4則是Transformer模型，而Sora則采用了DiT架構(gòu)，融合了前述兩者的特性。

據(jù)報道，傳統(tǒng)的擴散模型的訓練過程是通過多個步驟逐漸向圖片增加噪點，直到圖片變成完全無結(jié)構(gòu)的噪點圖片，然后在生成圖片時，逐步減少噪點，直到還原出一張清晰的圖片。Sora采用的架構(gòu)是通過Transformer的編碼器-解碼器架構(gòu)處理包含噪點的輸入圖像，并在每一步預測出更清晰的圖像。DiT架構(gòu)結(jié)合時空Patch，讓Sora能夠在更多的數(shù)據(jù)上進行訓練，輸出質(zhì)量也得到大幅提高。

OpenAI發(fā)布的Sora技術(shù)報告透露，Sora采用的DiT架構(gòu)是基于一篇名為Scalable diffusion models with transformers的學術(shù)論文。預印本網(wǎng)站arxiv顯示，該篇原作論文是2022年12月由伯克利大學研究人員William (Bill) Peebles和紐約大學的一位研究人員謝賽寧共同發(fā)表。William (Bill) Peebles之后加入了OpenAI，領(lǐng)導Sora技術(shù)團隊。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Drw8QAYdstwaTe9ykDmjJ2EzFmgZSZubmewQ3vYjvOicicrKf1aNUmeQ3A.jpg

然而，戲劇化的是，Meta的AI科學家Yann LeCun在X平臺上透露，“這篇論文曾在2023年的計算機視覺會議（CVR2023）上因‘缺少創(chuàng)新性’而遭到拒絕，但在2023年國際計算機視覺會議（ICCV2023）上被接受發(fā)表，并且構(gòu)成了Sora的基礎。”

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrIGdPZ3c1KiaWpyWkfHFGpLSFc3xfmnbVFc60DWwjsgyTVic56pNxSiaSw.jpg

針對有自媒體稱Sora發(fā)明者之一是畢業(yè)于上海交大的天才少年謝賽寧，謝賽寧在朋友圈表示自己和Sora并沒有關(guān)系，但是他也談到，對于Sora這樣的復雜系統(tǒng)，人才第一，數(shù)據(jù)第二，算力第三，其他都沒有什么是不可替代的。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrPJdZ5HWicSou92icOtAbpxFSZtCAYO8GicokuCg7dX5s8EWlsRAqqZlwg.jpg

謝賽寧目前是紐約大學計算機科學助理教授，在此之前他是Facebook人工智能研究院研究科學家。

作為最懂DiT架構(gòu)的人之一，在Sora發(fā)布后，謝賽寧在X平臺上發(fā)表了關(guān)于Sora的一些猜想和技術(shù)解釋，并表示，“Sora確實令人驚嘆，它將徹底改變視頻生成領(lǐng)域?！?/span>

“當Bill和我參與DiT項目時，我們并未專注于創(chuàng)新，而是將重點放在了兩個方面：簡潔性和可擴展性。”他寫道?！昂啙嵭源碇`活性。關(guān)于標準的ViT，人們常忽視的一個亮點是，它讓模型在處理輸入數(shù)據(jù)時變得更加靈活。例如，在遮蔽自編碼器（MAE）中，ViT幫助我們只處理可見的區(qū)塊，忽略被遮蔽的部分。同樣，Sora可以通過在適當大小的網(wǎng)格中排列隨機初始化的區(qū)塊來控制生成視頻的尺寸?！?/span>

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrfnnjUgDnoJSgrbKZ0zzIPD91qg4eGPyeJaZmFesnZWT2W9blJjTIvg.jpg

不過，他認為，關(guān)于Sora仍有兩個關(guān)鍵點尚未被提及。一是關(guān)于訓練數(shù)據(jù)的來源和構(gòu)建，這意味著數(shù)據(jù)很可能是Sora成功的關(guān)鍵因素；二是關(guān)于（自回歸的）長視頻生成，Sora的一大突破是能夠生成長視頻，但OpenAI尚未揭示相關(guān)的技術(shù)細節(jié)。

年輕的開發(fā)團隊：

應屆博士帶隊，還有00后

隨著Sora的爆火，Sora團隊也來到世界舞臺的中央，引發(fā)了持續(xù)的關(guān)注。OpenAI官網(wǎng)顯示，Sora團隊由William Peebles等3人領(lǐng)導，核心成員包括12人。從團隊領(lǐng)導和成員的畢業(yè)和入職時間來看，這支團隊成立的時間較短，尚未超過1年。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrlUkw4NlhKN1drKAlB1GiaDmGOiaFAa2wlkPdMpw8MLBiaBSJ82X4QQMyA.jpg

從年齡上來看，這支團隊也非常年輕，兩位研究負責人都是在2023年才剛剛博士畢業(yè)。William (Bill) Peebles于去年5月畢業(yè)，其與謝賽寧合著的擴散Transformer論文成為Sora的核心理論基礎。Tim Brooks于去年1月畢業(yè)，是DALL-E 3的作者之一，曾在谷歌和英偉達就職。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7Dr1Z4BonG8pwSptQw5HB0RHicf1ib5pnXPO6PckEDbia3VFNgJDH6s390qA.jpg

團隊成員中甚至還有00后。團隊中的Will DePue生于2003年，2022年剛從密西根大學計算機系本科畢業(yè)，在今年1月加入Sora項目組。

CFF20LXzkOysDGVYFzFMDpeTpmUTD7DrxNucHibEP27bm5AAN7VIDNMfPKpEuKFeVExtibSiaqibC5L8kXcTbXgnsA.jpg

此外，團隊還有幾位華人。Li Jing是DALL-E 3的共同一作，2014年本科畢業(yè)于北京大學物理系，2019年獲得MIT物理學博士學位，于2022年加入OpenAI。Ricky Wang則是今年1月剛剛從Meta跳槽到OpenAI。其余華人員工包括Yufei Guo等尚未有太多公開資料介紹。

（稿件來源：每經(jīng)網(wǎng)）

責任編輯：陳科辰