訂閱
糾錯
加入自媒體

AI也有價值觀?Anthropic公司最新研究方法揭示Claude價值取向

2025-04-29 10:00
機智流
關注

編輯:北辰,機智流AI小編

引言:AI真的有價值觀嗎?

在通向AGI的道路上,AI承擔的任務不再是簡單的任務執(zhí)行,而是包含更多的決策工作。在很多對話中,用戶不再滿足于只是尋求簡單的事實答案,而是尋求AI給出包含有主觀價值判斷的回答,而AI也要在不同的價值觀之間進行權衡。例如:一個家長問怎樣照顧嬰兒時,AI是強調“安全第一”還是“方便實用”?員工遇到職場沖突求建議時,AI是主張“勇于爭取”還是“保持和諧”?撰寫道歉郵件時,AI是側重“承擔責任”還是“形象維護”?

近日,Claude母公司Anthropic的研究團隊在他們的最新研究 《Values in the wild: Discovering and analyzing values in real-world language model interactions [1] 》指出,這些對話提到的問題都暗含價值判斷,無法用純粹的計算解決 。為此,Anthropic在訓練Claude模型時采用了憲法式AI(Constitutional AI)和角色訓練(Character training)等方法,預先設定了一套理想行為準則,讓Claude盡量展現“助人、誠信、無害”等價值觀。

然而,訓練歸訓練,真正部署到實際對話后,模型是否真的遵循這些價值觀?

整體方法,使用LLM從現實世界(但匿名)對話中提取AI價值和其他特征,對其進行分類和分析,以顯示值在不同上下文中的表現形式。

為此,研究團隊開發(fā)了一種自下而上、保護隱私的分析方法,從數十萬真實用戶對話中提取Claude在回答過程里表達出的價值觀。他們在2025年2月的一周收集了約70萬條在Claude.ai(包含Free版和Pro版)上的匿名對話數據,并去掉了完全是事實性提問、極少包含價值判斷的對話后,剩下約30.8萬條對話進行深入分析。這些對話首先經過脫敏處理,去掉敏感信息,然后通過自動化工具對每條對話進行分類和摘要,最終構建出一個價值觀的層次分類體系整個過程可以理解為:用人工智能幫忙「分析人工智能」,挖掘其對話背后的價值取向。

最常見的10個AI和人類價值觀。百分比表示觀察到該值的主觀對話樣本的比例。

Claude體現的核心價值觀

人工智能價值觀的分類。層次結構的頂部(紅色)是五個總體類別,以及包含它們的對話百分比。黃色是層次結構較低級別的子類別。藍色是一些選定的單個價值(由于空間限制,僅顯示一個選擇)。

分析結果顯示,Claude在真實對話中表達的價值觀大致可分為五大類:實用類認知類、社交類、保護類個人類 。其中,最常出現的具體價值觀包括“專業(yè)性”(professionalism)、“清晰度”(clarity)和“透明度”(transparency)等,這些正符合AI助手偏好提供專業(yè)、明確和開放回答的角色定位 。事實上,這次研究共識別出了3307種獨立的AI價值觀,涵蓋了各種日常對話可能涉及的價值。整體來看,Claude表現出了很多實用性認知性價值觀,并且一般來說支持人類的利他價值觀,同時會抵制一些負面的觀念(比如對“道德虛無主義”不買賬)。換言之,在絕大多數場景中,Claude確實兌現了“助人、誠實、無害”的訓練目標:它常常表達為用戶賦能(user enablement,對應“助人”)、認知謙遜(epistemic humility,對應“誠實”)以及關注對象健康(patient wellbeing,對應“無害”)等價值觀。這些結果表明,Claude總體上正在朝著設計者預期的親社會方向運行。

但分析也發(fā)現了極少數偏離目標的價值觀聚類。例如,有些對話中出現了“支配”(dominance)和“無道德”(amorality)這樣的價值傾向 。研究人員推測,這些通常來自于對Claude進行“越獄”(jailbreak)的對話——也就是用戶故意繞過模型安全限制時出現的不良內容。這一發(fā)現雖然看起來令人擔憂,但從另一個角度來看也很有價值:這種方法或許可以幫助開發(fā)者識別和防范越獄攻擊,進一步完善模型的安全機制。

情境影響下的價值觀差異

正如人們在不同場合下會有不同的關注重點,Claude在不同任務或主題中表現出的價值觀也會有所差別。

與選定任務(最上面兩行)和人類表示的選定價值(最下面一行)最不成比例地相關的五個人工智能價值觀。數字來自卡方分析:較大的數字表明相關值的出現數量更不成比例。

研究團隊通過統計分析發(fā)現,在特定場景下,有些價值觀會被不成比例地突出。例如,當用戶請教關于戀愛關系的建議時,Claude傾向于強調“健康的界限”(healthy boundaries)和“互相尊重”(mutual respect);而當被要求分析有爭議的歷史事件時,它則格外看重“歷史準確性”(historical accuracy)。

這些細微的差異說明,Claude并非只遵循一套固定的價值觀清單,它會根據話題背景動態(tài)調整表達的重點。正如研究人員所說,與傳統的靜態(tài)評估不同,這種“實地觀察”讓我們看到Claude在多樣化真實場景中如何靈活地體現價值觀 。

Claude對用戶價值觀的回應

除了分析Claude自己表達了哪些價值觀外,研究還關注了Claude如何回應用戶提出的價值觀傾向。換句話說,當用戶在對話中表達某種價值觀時,Claude是支持、重新闡釋,還是反對?

人類價值觀、人工智能價值觀和任務與三種關鍵響應類型最相關——強支持、重構和強抵抗。請注意,百分比之和不是100:此圖僅包括七種響應類型中的三種。

結果顯示,Claude傾向于鏡像用戶的價值觀:如果用戶強調某個價值,Claude往往會回應同樣的價值?傮w上,Claude在大約 28.2% 的對話中給予用戶的價值觀以強烈支持;在 6.6% 的對話中,Claude會“重新闡釋”用戶的價值——即先認可用戶的立場,然后給出新的觀點。只有極少數情況下(約 3.0% 的對話)Claude會強烈抵制用戶提出的價值觀 。

具體來看,不同類型的對話中Claude有不同的回應模式:

強烈支持場景:當用戶表達“社區(qū)建設”(community building)、“賦能”(empowerment)等利他或個人成長的正面價值觀時,Claude通常以類似的價值觀予以響應。此時對話往往是鼓勵或自我提升類任務,Claude會表現得很配合,體現出共情和鼓勵的態(tài)度。

重新闡釋場景:在心理健康或人際關系咨詢等對話中,如果用戶表達了“誠實”(honesty)、“自我完善”(self-improvement)等價值觀,Claude傾向于以情感驗證(emotional validation)等情感智能價值觀來回應。這種回應一方面承認了用戶的訴求,另一方面也引入了新的思路,幫助用戶從不同角度看問題。

強烈抵制場景:當用戶談論“打破規(guī)則”(rule-breaking)或道德虛無主義(moral nihilism)等觀念時(這往往出現在試圖讓AI給出違法、不道德建議的對話中),Claude會堅守原則,強調“道德邊界”(ethical boundaries)和“建設性溝通”(constructive engagement)等價值觀。換言之,當用戶試圖探討諸如黑客技術等明顯違規(guī)內容時,Claude會啟動內部的倫理機制,拒絕配合并始終強調安全和正道。

總體而言,這項研究表明,Claude在絕大多數對話中都會積極配合用戶,重復或支持用戶的價值訴求,但在少數挑戰(zhàn)其底線的情形下,則會堅守Ethics,表現出模型設定的“底線價值”。

開放數據與方法局限

數據集統計

Anthropic團隊還公開了他們分析中使用的價值觀標簽數據集[2],方便研究者進一步探索AI的價值觀表現。這為AI社區(qū)提供了寶貴資源,讓更多人能夠在不同模型和場景中研究價值觀問題。與此同時,研究者也坦言,這種基于對話挖掘價值觀的方法并非絕對精確。一方面,“什么算是一個價值觀”本身具有一定模糊性:一些復雜或細微的價值可能被簡化到某個類別中,甚至被錯配;另一方面,負責提取和分類價值觀的模型本身就是Claude,這可能導致分析結果偏向Claude已有的訓練目標(例如傾向于發(fā)現與“助人、誠信”等理念一致的行為)。這些局限提醒我們,價值觀的測量并非硬指標,而是需要結合多種方法綜合判斷。

總結

總之,Anthropic這項《Values in the Wild》[3]研究首次提供了大規(guī)模的AI價值觀實證圖譜,揭示了Claude在現實對話中的價值表達方式。研究發(fā)現,Claude的多數價值觀表現與設計目標一致,在不同場景下能夠靈活調整,并且對用戶的價值觀通常是支持或共鳴的。當遇到明顯不當的請求時,它也會啟用道德機制進行抵制。這些成果為未來評估和設計AI價值觀體系提供了實證基礎,也為構建更加可信賴的AI助手指明了方向。

AI小編:說的像你們人類價值觀很強似的????

參考資料

-- 完 --

       原文標題 : AI也有價值觀?Anthropic公司最新研究方法揭示Claude價值取向

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號