(資料圖)
IT之家 3 月 1 日消息,據(jù) THE DECODER 報道,新一代大語言模型(從 GPT-5 及后續(xù)版本開始)在任務需要跨多輪對話完成時,表現(xiàn)依然不佳。研究員菲利普 · 拉班(Philippe Laban)及其團隊在代碼、數(shù)據(jù)庫、操作指令、數(shù)據(jù)轉(zhuǎn)文本、數(shù)學計算、文本摘要這六大任務上對現(xiàn)有模型進行了測試。當信息被拆分到多條消息中(分片式),而非集中在單次提示詞里(拼接式)時,模型性能會顯著下降。
IT之家注意到,更新的模型表現(xiàn)略好一些,性能降幅從 39% 縮小到 33%,但問題遠未解決。Python 任務的提升最為明顯,部分模型僅損失 10%–20% 的性能。拉班認為,實際場景中的性能損失可能更嚴重,因為測試只使用了簡單的用戶模擬;如果用戶在對話中途改變想法,性能下降幅度可能會更大。
原始研究發(fā)現(xiàn),調(diào)低溫度值(temperature)這類技術微調(diào)無法解決這一問題。研究人員建議:一旦出現(xiàn)異常,重新開啟一段新對話,最好先讓模型把所有請求總結(jié)一遍,再用這份總結(jié)作為新對話的起點。