“遙遙領(lǐng)先”GPT-4?谷歌最強(qiáng)AI大模型Gemini發(fā)布一天便引質(zhì)疑!公司承認(rèn)6分鐘視頻經(jīng)特殊剪輯處理,非實(shí)時(shí)畫面

2023-12-11 12:08:46

美東時(shí)間12月6日,谷歌CEO桑達(dá)爾?皮查伊宣布迄今為止規(guī)模最大,能力最強(qiáng)的谷歌大模型Gemini 1.0 版正式上線。Gemini是原生多模態(tài)大模型,是谷歌大模型新時(shí)代的第一步,它包括三種量級(jí):能力最強(qiáng)的 Gemini Ultra,適用于多任務(wù)的 Gemini Pro,以及適用于特定任務(wù)和端側(cè)的 Gemini Nano。

皮查伊官宣推文發(fā)布后,馬斯克也在下面評(píng)論稱,“(Gemini)令人印象深刻”。當(dāng)天,谷歌還發(fā)布了一條約6分鐘的延時(shí)演示視頻,展示Gemini的多模態(tài)功能(例如,口語(yǔ)對(duì)話提示與圖像識(shí)別相結(jié)合)。截至發(fā)稿,該視頻在YouTube上已經(jīng)收獲141萬(wàn)次觀看。

然而,Gemini發(fā)布才一天,外界已開始有聲音指控谷歌對(duì)Gemini的性能“造假”。

其中,彭博社一篇專欄文章就表示,谷歌在一段演示視頻中歪曲了Gemini的AI性能。專欄作家帕米·奧爾森(Parmy Olson)認(rèn)為,在谷歌發(fā)布的這段視頻中,Gemini似乎非常強(qiáng)大,但有點(diǎn)過于強(qiáng)大了。對(duì)此質(zhì)疑,谷歌回應(yīng)時(shí)承認(rèn),這段關(guān)于Gemini性能演示的視頻并不是實(shí)時(shí)的,而是使用了原始鏡頭中的靜止圖像幀,然后編寫了文本提示,以便讓Gemini做出回應(yīng)。

6分鐘演示視頻引質(zhì)疑

 

奧爾森認(rèn)為,Gemini的演示視頻確實(shí)非常令人印象深刻。Gemini能夠僅憑一些毫無(wú)規(guī)則的點(diǎn)就可以推斷出繪制內(nèi)容是一只螃蟹,顯示出谷歌DeepMind人工智能實(shí)驗(yàn)室多年來(lái)訓(xùn)練的大模型推理能力。不過,奧爾森指出,谷歌這段視頻中展示的Gemini所具備的一些功能并不是其獨(dú)有的,ChatGPT Plus也具有類似的推理能力。

在這6分鐘的視頻中,Gemini似乎能夠快速識(shí)別圖像,并在幾秒鐘的時(shí)間內(nèi)做出反應(yīng)。然而,如果用戶點(diǎn)擊發(fā)布在YouTube上的這段視頻的描述,谷歌寫了一個(gè)重要的“免責(zé)聲明”,稱“為了達(dá)到Gemini的演示目的,延遲已經(jīng)被人為減少,Gemini的輸出時(shí)長(zhǎng)也為了簡(jiǎn)潔而被縮短。”這意味著,Gemini實(shí)際回答每個(gè)問題所花費(fèi)的時(shí)間要比視頻演示中的更長(zhǎng)。 

機(jī)器學(xué)習(xí)講師Santiago Valdarrama在X平臺(tái)上發(fā)文暗示,谷歌上述視頻的“免責(zé)聲明”似乎“展示的是精心挑選的好結(jié)果,不是實(shí)時(shí)錄制而是剪輯的?!彼毖?,“這就是誤導(dǎo),任何參與到其中的人都應(yīng)該感到尷尬?!?/span>

此外,谷歌公布的MMLU多任務(wù)語(yǔ)言理解數(shù)據(jù)集測(cè)試顯示,Gemini Ultra不光超越GPT-4,甚至超越了人類專家。然而,不少業(yè)內(nèi)專家發(fā)現(xiàn),在MMLU測(cè)試中,Gemini Ultra的結(jié)果下面有灰色小字標(biāo)CoT@32,代表使用了思維鏈提示技巧、嘗試了32次后選取最好結(jié)果。而作為對(duì)比的GPT-4,卻無(wú)提示詞技巧,且只嘗試了5次。

否認(rèn)造假,Gemini負(fù)責(zé)人稱只是為了簡(jiǎn)潔縮短了反應(yīng)時(shí)長(zhǎng) 

美國(guó)科技媒體The Verge報(bào)道中稱,公平地說,這并不是大型科技公司首次對(duì)其產(chǎn)品演示視頻進(jìn)行剪輯處理,除了谷歌外,其他大型科技公司為了避免現(xiàn)場(chǎng)演示帶來(lái)任何技術(shù)性問題,都會(huì)稍微對(duì)視頻進(jìn)行調(diào)整,這也非常普遍。 

但對(duì)于視頻“造假”一說,谷歌堅(jiān)決予以否認(rèn)。谷歌DeepMind和深度學(xué)習(xí)副總裁、Gemini聯(lián)合負(fù)責(zé)人奧里奧爾·維亞萊斯(Oriol Vinyals)在一篇博客文章中,解釋了Gemini演示視頻的制作過程:性能演示視頻不是實(shí)時(shí)的,而是使用了原始鏡頭中的靜止圖像幀,然后編寫了文本提示,并要求它通過預(yù)測(cè)來(lái)做出回應(yīng)。

“視頻中的所有用戶提示和輸出都是真實(shí)的,只是為了簡(jiǎn)潔而縮短了(Gemini的反應(yīng)時(shí)長(zhǎng))。這個(gè)視頻展示了使用Gemini構(gòu)建的多模式用戶體驗(yàn),我們制作它是為了激勵(lì)開發(fā)者?!本S亞萊斯強(qiáng)調(diào)。 

奧爾森對(duì)此卻并不買賬。她在專欄文章中寫道:“這與谷歌描述的完全不同——谷歌稱,任何人都可以與Gemini進(jìn)行流暢的語(yǔ)音對(duì)話,因?yàn)镚emini可以實(shí)時(shí)觀察周遭世界并做出反應(yīng)?!?/span>

她同時(shí)指出,谷歌官方發(fā)布的Gemini各模態(tài)性能顯示,Gemini Ultra(下圖中藍(lán)色部分)在9項(xiàng)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中的7項(xiàng)都優(yōu)于GPT-4。這些基準(zhǔn)測(cè)試往往用于測(cè)試人工智能模型在高中物理、專業(yè)法律和道德場(chǎng)景等方面的能力。

然而,在大多數(shù)基準(zhǔn)測(cè)試中,Gemini Ultra只比OpenAI的GPT-4高出幾個(gè)百分點(diǎn),有些甚至不到1個(gè)百分點(diǎn)。奧爾森認(rèn)為,換句話說,谷歌這個(gè)所謂的頂級(jí)人工智能模型只對(duì)OpenAI一年前完成的工作進(jìn)行了有限的改進(jìn)。

需要指出的是,谷歌的6分鐘Gemini演示視頻并沒有說明演示的模型是Gemini Ultra。

奧爾森認(rèn)為,一年前,谷歌這個(gè)“笨拙的搜索巨頭”被OpenAI的ChatGPT打了個(gè)措手不及,此后便一直希望趕上生成式人工智能這股浪潮。谷歌希望通過強(qiáng)大的營(yíng)銷讓人們記住,它擁有世界上最強(qiáng)大的人工智能研究團(tuán)隊(duì)之一,并且比其他任何人都能獲得更多的數(shù)據(jù)。但從技術(shù)角度來(lái)看,在生成式人工智能方面,谷歌仍然落后于OpenAI。 

不過,在科技行業(yè),誰(shuí)也不能保證一直一帆風(fēng)順,屹立不倒。早期的手機(jī)霸主諾基亞和黑莓就是例子。在蘋果推出功能更強(qiáng)大、更受歡迎的產(chǎn)品iPhone后,諾基亞和黑莓的市場(chǎng)份額便迅速被搶走。而在軟件領(lǐng)域,市場(chǎng)的成功則來(lái)自于擁有最強(qiáng)大性能的系統(tǒng)。

(稿件來(lái)源:每經(jīng)網(wǎng))

責(zé)任編輯:陳科辰

掃一掃分享本頁(yè)