AI通過“觀察學習”吸取價值觀

2025-12-19 來源：科技日報

666

　　美國華盛頓大學一項研究首次表明，人工智能（AI）系統可以通過觀察人類在特定文化中的行為，學習并內化相應的文化價值觀。這為解決AI跨文化適應問題提供了新思路。相關論文已發表于《PLOS One》。

　　當前，AI通常基于大規模互聯網數據進行訓練，而這些數據中蘊含的價值觀往往具有文化偏向性，導致系統在不同文化背景的用戶面前表現不一致。為此，研究團隊嘗試讓AI以“觀察學習”的方式，從具體文化群體的行為中吸取價值觀，而非被預先植入某一套通用準則。

　　研究團隊試圖探索的是，AI能否像兒童那樣，通過觀察周圍人的行為，自然而然地習得所在文化的價值觀。團隊招募了190名成年人參與實驗，讓他們分別與AI代理進行互動。實驗中，參與者玩一款改編自游戲《Overcooked》的協作任務。在游戲中，參與者可選擇是否將自己獲得的資源無償贈送給明顯處于劣勢的機器人玩家，盡管這會影響自己的任務得分。結果顯示，有一組參與者整體表現出更多的利他行為。

　　AI代理則通過“逆向強化學習”方法，從所觀察群體的行為中推斷其行為目標與內在價值觀。在后續測試中，這些代理成功地將習得的“利他傾向”推廣到捐贈資金等新場景中：基于這一人類組數據訓練的AI，在捐贈任務中表現出更高的慷慨度。

　　“這類似于兒童的學習方式——他們并非被反復訓練做某件事，而是通過觀察父母與他人的互動，潛移默化地學會分享、關懷等社會行為。”論文合著者、華盛頓大學心理學教授安德魯·梅爾佐夫表示，“價值觀更多是‘被捕捉’而非‘被教授’的。”

　　團隊認為，如何創建具有文化適應性、能理解他人視角的AI，是當前社會面臨的重要課題。隨著輸入數據的文化多樣性和體量增加，這類方法有望幫助開發出更貼合特定文化背景的AI系統。不過，該研究目前仍處于概念驗證階段，未來還需在更多文化情境、價值沖突場景及復雜現實問題中進一步驗證其可行性。（記者張夢然）

【責任編輯:朱家齊】