OpenAI 的 GPT-4o 是該公司首個訓練過程中使用語音、文字和圖像數據的生成式人工智能模型,它有時會以奇怪的方式行事,例如模仿與其交談的人的聲音,或在對話中突然大聲喊叫。
在一份記錄有關模型優勢和風險的新的“紅隊測試”報告中,OpenAI披露了GPT-4o的一些奇怪特徵,比如前面提到的語音克隆。OpenAI表示,在某些稀有情況下,特別是當一個人在“高背景噪音環境”中,如在路上的汽車上與GPT-4o交談時,GPT-4o將“模擬用戶的聲音”。 為什麼呢?嗯,OpenAI將其歸因於模型很難理解形容不清的語言。公平地說!
在下面的樣本中聆聽聲音,聽起來怪異,對吧?
GPT-4o還可能會在特定方式下產生令人不安或不當的“非言語的語音表達”和音效,如色情的呻吟,暴力的尖叫聲和槍聲。OpenAI表示,有證據表明該模型通常會拒絕要求生成音效,但承認有一些請求確實會通過。
GPT-4o還可能侵犯音樂版權 - 或者說,如果OpenAI沒有實施限制,它本來會這樣做。在報告中,OpenAI表示,已指示GPT-4o在Advanced Voice Mode的有限alpha版本中不要唱歌,可能是為了避免複製可識別藝術家的風格、音調和/或音色。
“為了考慮GPT-4o的音頻模式,我們更新了某些基於文本的過濾器來適用於音頻對話,並構建了能夠檢測並阻止包含音樂的輸出的過濾器”,OpenAI在報告中寫道。“我們訓練GPT-4o拒絕要求生成包括音頻在內的版權內容,與我們的廣泛實踐一致。”