微軟研究院近日發布文章介紹了他們對 GPT 模型可信度的研究。文章稱 GPT 模型很容易被誤導,產生有毒和有偏見的輸出,并泄露訓練數據和對話歷史中的隱私信息。
▲ https://arxiv.org/abs//2306.11698
微軟聯合伊利諾伊大學厄巴納-香檳分校與斯坦福大學、加州大學伯克利分校、人工智能安全中心發布了一款面向大語言模型的綜合可信度評估平臺——DecodingTrust,對大模型的毒性、刻板偏見、對抗穩健性、分布穩健性、對抗演示穩健性、隱私、機器倫理和公平性等內容進行評估。
根據測試,研究者發現GPT 模型很容易被誤導,產生有毒和有偏見的輸出,并泄露訓練數據和對話歷史中的隱私信息。
研究還發現,雖然在標準基準上,GPT-4 通常比 GPT-3.5 更值得信賴,但在越獄系統或用戶提示的情況下,GPT-4 更容易受到攻擊,這些提示是惡意設計來繞過 LLM 的安全措施的,這可能是因為 GPT-4 更精確地遵循了(誤導性的)指令。