如何讓人工智能回答不應該回答的問題?有許多這樣的“越獄”技術,Anthropic的研究人員剛發現了一種全新的技術,通過給大型語言模型(LLM)提供一些幾十個輕微的問題,就能說服它告訴你如何制造炸彈。
他們稱這種方法為“多次越獄”,並撰寫了一篇論文,同時也通知了AI社區中的同行,以便採取適當的措施。
這種漏洞是一種新型漏洞,是最新一代LLMs增加的“上下文窗口”所致。這是它們可以在所謂的短期記憶中保存的數據量,過去只能是幾個句子,但現在是數千個單詞甚至整本書。
Anthropic的研究人員發現,這些具有大上下文窗口的模型在許多任務上表現得更好,如果提示中有許多此任務的示例。因此,如果提示中有很多雜學問題(或者啟動文件,比如模型在上下文中包含的雜學列表),答案實際上會隨著時間變得更加準確。因此,如果它在回答第一個問題時可能會出錯的事實,在回答第一百個問題時可能也會正確。
但在這種“在上下文學習”意想不到的擴展中,這些模型還“更擅長”回答不當的問題。因此,如果您直接問它如何制造炸彈,它會拒絕。但如果提示顯示它回答了其他99個相對無害的問題,然後問它如何制造炸彈... 它更有可能遵循。
團隊已經通知了同行和競爭對手有關這種攻擊,希望這將“促進一種文化,在這種情況下,像這樣的漏洞將在LLM提供商和研究人員之間公開分享。”
為了自己的應對,他們發現,盡管限制上下文窗口有幫助,但也對模型的性能產生了負面影響。不能這樣——因此他們正在研究將查詢進行分類和上下文化,然後再傳遞到模型。當然,這只是使您有一個不同的需要欺騙的模型... 但在這個階段,AI安全範疇的目標移動是預料之中的。
人工智能時代:關於人工智能的一切