雙子座的數據分析能力並沒有Google所宣稱的那麼好

Google 旗艦生成式AI模型Gemini 1.5 Pro和1.5 Flash的一個賣點是它們所能處理和分析的數據量。在新聞發布會和演示中,Google一再宣稱,這些模型能夠完成以前不可能的任務,這歸功於它們的“長上下文”,比如總結多個幾百頁的文件或者搜索電影素材中的場景。

但新的研究表明,事實上這些模型並不擅長這些事情。

兩項獨立研究調查了Google的Gemini模型和其他模型在理解大量數據方面的表現 — 想像一下“戰爭與和平”長度的作品。結果發現,Gemini 1.5 Pro和1.5 Flash難以正確回答關於大型數據集的問題;在一系列基於文件的測試中,這些模型的正確率只有40%至50%。

“儘管像Gemini 1.5 Pro這樣的模型在技術上能夠處理長上下文,但我們看到很多情況表明這些模型實際上不理解內容,”麻薩諾斯·卡爾平斯卡(Marzena Karpinska)告訴 TechCrunch,她是麻省阿默斯特大學的博士後研究員,也是其中一個研究的合著者。

Gemini的上下文窗口不足

模型的上下文,或者說上下文窗口,指的是模型在生成輸出(例如額外文本)之前考慮的輸入數據(例如文本)。一個簡單的問題 — “誰贏得了2020年美國總統大選?” — 可以作為上下文,同樣,電影劇本、節目或音頻片段也可以作為上下文。隨著上下文窗口的增大,被放入其中的文檔的大小也會增加。

最新版的Gemini能夠接受高達200萬個令牌作為上下文。(“令牌”是原始數據的細分位,就像“fantastic”這個單詞中的音節“fan”、“tas”和“tic”。)這相當於大約140萬個詞、兩小時的視頻或22小時的音頻 — 是市場上任何可用模型中最大的上下文。

在今年早些時候的一次簡報中,Google展示了幾個預先錄製的演示,旨在展示Gemini的長上下文功能的潛力。其中一個演示中,Gemini 1.5 Pro搜索了阿波羅11號登月主持的節目之交錄稿 — 大約402頁 — 尋找包含笑話的引用,然後找到一個類似鉛筆畫的場景。

Google DeepMind的研究副總裁Oriol Vinyals在主持簡報時描述這個模型為“神奇”。

“[1.5 Pro] 在每一頁、每個詞上執行這些推理任務,”他說。

這可能是一個誇大的說法。

在前面提到的測試中,Karpinska和來自艾倫人工智能研究所和普林斯頓大學的研究人員要求這些模型評估關於用英語寫的虛構圖書的真假陳述。研究人員選擇最近的著作,這樣模型就不能依靠先前的知識“作弊”,並且他們在陳述中穿插了關於具體細節和情節的引用,這些細節和情節如果不從頭到尾閱讀全書是不可能理解的。

在對一本約260,000個詞(約520頁)的書進行測試時,研究人員發現1.5 Pro對真假陳述的回答正確率為46.7%,而Flash只有20%的正確率。這意味著一枚硬幣在回答有關這本書的問題時比Google最新的機器學習模型表現更好。在所有基準測試結果的平均水平上,這兩種模型都沒有達到超過隨機機會的問題回答準確率。

“我們注意到,對於那些需要考慮書的較大部分甚至整本書的主張,模型更難確認,相對於那些可以通過檢索句級證據來解決的主張,” Karpinska說。“就質量而言,我們還觀察到,模型難以驗證隱含信息的主張,這對人類讀者來說是明顯的,但在文本中並沒有明確說明。”

兩項研究中的第二項,由加州大學聖塔芭芭拉分校的研究人員共同撰寫,測試了Gemini 1.5 Flash(但不包括1.5 Pro)在“推理”視頻方面的能力 — 即搜索並回答與其中內容有關的問題。

合著者創建了一個圖像數據集(例如生日蛋糕的照片)與模型需要回答有關圖像中所示對象的問題(例如“這個蛋糕上有哪個卡通人物?”)相匹配的問題。為了評估這些模型,他們隨機挑選一張圖像,並在其前後插入“干擾”圖像,以創建類似幻燈片的畫面。

Flash的表現並不理想。在一個測試中,模型需要從25張影像中的“幻燈片”中轉錄六個手寫數字,Flash的轉錄準確率約為50%。當轉錄的數字增加到八個時,準確率下降到約30%。

“在真實的圖像問答任務中,我們所測試的所有模型看起來都表現出特別困難,”加州大學聖塔芭芭拉分校的博士生、研究的合著者之一Michael Saxon告訴TechCrunch。“這種微小的思考 — 識別一個框架中是否有數字並將其閱讀 — 可能是損壞模型的原因。”

Google在Gemini方面做出了過高承諾

這兩項研究均未經同行評審,也沒有檢視Gemini 1.5 Pro和1.5 Flash搭配2百萬令牌上下文的版本(這兩者都是對100萬令牌上下文版本進行了測試)。而Flash在性能上並不如Pro強大;Google將其宣傳為一種低成本替代品。

儘管如此,這兩者都加劇了Google一開始對Gemini過高承諾和過低交付的疑慮。研究人員測試的所有模型,包括OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet,表現都不佳。但Google是唯一一家在廣告中將上下文窗口放在首位的模型提供商。

“單純聲稱‘我們的模型可以處理X個令牌’這樣的主張并沒有錯,這是基於客觀技術細節,”Saxon說。“但問題是,你能用這個做什麼有用的事情呢?”

總的來說,生成式AI正在受到越來越多的關注,因為企業(和投資者)對這項技術的局限感到沮喪。

根據波士頓咨詢公司的一項最近調查,大約一半的受訪者 — 全部是高管 — 表示他們不認為生成式AI將帶來實質的生產力增長,他們也擔憂由生成式AI驅動的工具可能出現錯誤和數據泄漏。PitchBook最近報導稱,生成式AI交易在最早期階段已連續兩個季度下降,從2023年第三季度的高峰下降了76%。

面對能夠總結會議內容的聊天機器人、捏造關於人的虛構細節的人工智能搜索平臺,客戶們正在尋找有前途的區別因素。Google — 有時笨拙地追趕生成式AI競爭對手 — 迫切希望使Gemini的上下文成為這些區別因素之一。

但這個赌注似乎還為時尚早。

“我們尚未確定一種方式來真正展示‘長文檔上的推理’或‘理解’正在發生,基本上每個發布這些模型的組織都在拼湊自己的臨時評估來做這些宣稱,”Karpinska說。“由於我們不知道具體如何實現長上下文處理 — 公司也不分享這些細節 — 很難說這些宣稱有多真實。”

Google對評論的要求沒有回應。

Saxon和Karpinska都認為針對生成式AI誇大的主張的解藥是更好的基準測試,並且在同樣的脈絡下,更加強調第三方批評。Saxon指出,長上下文的一個較常見的測試(在Google的營銷資料中大量引用),“針灸中的針”,只是衡量模型從數據集中檢索特定信息,例如名稱和數字的能力,而不是回答有關該信息的復雜問題。

“所有科學家和大多數使用這些模型的工程師基本上都同意我們現有的基準文化是有問題的,”Saxon說,“所以公眾應該了解,對這些包含‘基於基準的通過數值比較廣泛的通用智能’的巨大報告應持有懷疑態度。”