AI通過“觀察學(xué)習(xí)”吸取價值觀
關(guān)鍵詞: AI 文化價值觀 觀察學(xué)習(xí) AI學(xué)習(xí)
美國華盛頓大學(xué)一項研究首次表明,人工智能(AI)系統(tǒng)可以通過觀察人類在特定文化中的行為,學(xué)習(xí)并內(nèi)化相應(yīng)的文化價值觀。這為解決AI跨文化適應(yīng)問題提供了新思路。相關(guān)論文已發(fā)表于《PLOS One》。 當(dāng)前,AI通常基于大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)進行訓(xùn)練,而這些數(shù)據(jù)中蘊含的價值觀往往具有文化偏向性,導(dǎo)致系統(tǒng)在不同文化背景的用戶面前表現(xiàn)不一致。為此,研究團隊嘗試讓AI以“觀察學(xué)習(xí)”的方式,從具體文化群體的行為中吸取價值觀,而非被預(yù)先植入某一套通用準(zhǔn)則。 研究團隊試圖探索的是,AI能否像兒童那樣,通過觀察周圍人的行為,自然而然地習(xí)得所在文化的價值觀。團隊招募了190名成年人參與實驗,讓他們分別與AI代理進行互動。實驗中,參與者玩一款改編自游戲《Overcooked》的協(xié)作任務(wù)。在游戲中,參與者可選擇是否將自己獲得的資源無償贈送給明顯處于劣勢的機器人玩家,盡管這會影響自己的任務(wù)得分。結(jié)果顯示,有一組參與者整體表現(xiàn)出更多的利他行為。 AI代理則通過“逆向強化學(xué)習(xí)”方法,從所觀察群體的行為中推斷其行為目標(biāo)與內(nèi)在價值觀。在后續(xù)測試中,這些代理成功地將習(xí)得的“利他傾向”推廣到捐贈資金等新場景中:基于這一人類組數(shù)據(jù)訓(xùn)練的AI,在捐贈任務(wù)中表現(xiàn)出更高的慷慨度。 “這類似于兒童的學(xué)習(xí)方式——他們并非被反復(fù)訓(xùn)練做某件事,而是通過觀察父母與他人的互動,潛移默化地學(xué)會分享、關(guān)懷等社會行為。”論文合著者、華盛頓大學(xué)心理學(xué)教授安德魯·梅爾佐夫表示,“價值觀更多是‘被捕捉’而非‘被教授’的。” 團隊認為,如何創(chuàng)建具有文化適應(yīng)性、能理解他人視角的AI,是當(dāng)前社會面臨的重要課題。隨著輸入數(shù)據(jù)的文化多樣性和體量增加,這類方法有望幫助開發(fā)出更貼合特定文化背景的AI系統(tǒng)。不過,該研究目前仍處于概念驗證階段,未來還需在更多文化情境、價值沖突場景及復(fù)雜現(xiàn)實問題中進一步驗證其可行性。(記者 張夢然)
【責(zé)任編輯:朱家齊】