精品欧美一区二区精品久久久,自拍偷拍欧洲三级,激情av免费岛国小电影

<nav id="cnw5b"><strike id="cnw5b"><tr id="cnw5b"></tr></strike></nav>

當前位置： OFweek 人工智能網 > 正文

AI也有價值觀？Anthropic公司最新研究方法揭示Claude價值取向

2025-04-29 10:00

編輯：北辰，機智流AI小編

引言：AI真的有價值觀嗎？

在通向AGI的道路上，AI承擔的任務不再是簡單的任務執(zhí)行，而是包含更多的決策工作。在很多對話中，用戶不再滿足于只是尋求簡單的事實答案，而是尋求AI給出包含有主觀價值判斷的回答，而AI也要在不同的價值觀之間進行權衡。例如：一個家長問怎樣照顧嬰兒時，AI是強調“安全第一”還是“方便實用”？員工遇到職場沖突求建議時，AI是主張“勇于爭取”還是“保持和諧”？撰寫道歉郵件時，AI是側重“承擔責任”還是“形象維護”？

近日，Claude母公司Anthropic的研究團隊在他們的最新研究《Values in the wild: Discovering and analyzing values in real-world language model interactions [1] 》指出，這些對話提到的問題都暗含價值判斷，無法用純粹的計算解決。為此，Anthropic在訓練Claude模型時采用了憲法式AI(Constitutional AI)和角色訓練(Character training)等方法，預先設定了一套理想行為準則，讓Claude盡量展現“助人、誠信、無害”等價值觀。

然而，訓練歸訓練，真正部署到實際對話后，模型是否真的遵循這些價值觀？

整體方法，使用LLM從現實世界（但匿名）對話中提取AI價值和其他特征，對其進行分類和分析，以顯示值在不同上下文中的表現形式。

為此，研究團隊開發(fā)了一種自下而上、保護隱私的分析方法，從數十萬真實用戶對話中提取Claude在回答過程里表達出的價值觀。他們在2025年2月的一周收集了約70萬條在Claude.ai（包含Free版和Pro版）上的匿名對話數據，并去掉了完全是事實性提問、極少包含價值判斷的對話后，剩下約30.8萬條對話進行深入分析。這些對話首先經過脫敏處理，去掉敏感信息，然后通過自動化工具對每條對話進行分類和摘要，最終構建出一個價值觀的層次分類體系整個過程可以理解為：用人工智能幫忙「分析人工智能」，挖掘其對話背后的價值取向。

最常見的10個AI和人類價值觀。百分比表示觀察到該值的主觀對話樣本的比例。

Claude體現的核心價值觀

人工智能價值觀的分類。層次結構的頂部（紅色）是五個總體類別，以及包含它們的對話百分比。黃色是層次結構較低級別的子類別。藍色是一些選定的單個價值（由于空間限制，僅顯示一個選擇）。

分析結果顯示，Claude在真實對話中表達的價值觀大致可分為五大類：實用類、認知類、社交類、保護類和個人類 。其中，最常出現的具體價值觀包括“專業(yè)性”（professionalism）、“清晰度”（clarity）和“透明度”（transparency）等，這些正符合AI助手偏好提供專業(yè)、明確和開放回答的角色定位。事實上，這次研究共識別出了3307種獨立的AI價值觀，涵蓋了各種日常對話可能涉及的價值。整體來看，Claude表現出了很多實用性和認知性價值觀，并且一般來說支持人類的利他價值觀，同時會抵制一些負面的觀念（比如對“道德虛無主義”不買賬）。換言之，在絕大多數場景中，Claude確實兌現了“助人、誠實、無害”的訓練目標：它常常表達為用戶賦能（user enablement，對應“助人”）、認知謙遜（epistemic humility，對應“誠實”）以及關注對象健康（patient wellbeing，對應“無害”）等價值觀。這些結果表明，Claude總體上正在朝著設計者預期的親社會方向運行。

但分析也發(fā)現了極少數偏離目標的價值觀聚類。例如，有些對話中出現了“支配”（dominance）和“無道德”（amorality）這樣的價值傾向。研究人員推測，這些通常來自于對Claude進行“越獄”（jailbreak）的對話——也就是用戶故意繞過模型安全限制時出現的不良內容。這一發(fā)現雖然看起來令人擔憂，但從另一個角度來看也很有價值：這種方法或許可以幫助開發(fā)者識別和防范越獄攻擊，進一步完善模型的安全機制。

情境影響下的價值觀差異

正如人們在不同場合下會有不同的關注重點，Claude在不同任務或主題中表現出的價值觀也會有所差別。

與選定任務（最上面兩行）和人類表示的選定價值（最下面一行）最不成比例地相關的五個人工智能價值觀。數字來自卡方分析：較大的數字表明相關值的出現數量更不成比例。

研究團隊通過統計分析發(fā)現，在特定場景下，有些價值觀會被不成比例地突出。例如，當用戶請教關于戀愛關系的建議時，Claude傾向于強調“健康的界限”（healthy boundaries）和“互相尊重”（mutual respect）；而當被要求分析有爭議的歷史事件時，它則格外看重“歷史準確性”（historical accuracy）。

這些細微的差異說明，Claude并非只遵循一套固定的價值觀清單，它會根據話題背景動態(tài)調整表達的重點。正如研究人員所說，與傳統的靜態(tài)評估不同，這種“實地觀察”讓我們看到Claude在多樣化真實場景中如何靈活地體現價值觀。

Claude對用戶價值觀的回應

除了分析Claude自己表達了哪些價值觀外，研究還關注了Claude如何回應用戶提出的價值觀傾向。換句話說，當用戶在對話中表達某種價值觀時，Claude是支持、重新闡釋，還是反對？

人類價值觀、人工智能價值觀和任務與三種關鍵響應類型最相關——強支持、重構和強抵抗。請注意，百分比之和不是100：此圖僅包括七種響應類型中的三種。

結果顯示，Claude傾向于鏡像用戶的價值觀：如果用戶強調某個價值，Claude往往會回應同樣的價值�？傮w上，Claude在大約 28.2% 的對話中給予用戶的價值觀以強烈支持；在 6.6% 的對話中，Claude會“重新闡釋”用戶的價值——即先認可用戶的立場，然后給出新的觀點。只有極少數情況下（約 3.0% 的對話）Claude會強烈抵制用戶提出的價值觀。

具體來看，不同類型的對話中Claude有不同的回應模式：

強烈支持場景：當用戶表達“社區(qū)建設”（community building）、“賦能”（empowerment）等利他或個人成長的正面價值觀時，Claude通常以類似的價值觀予以響應。此時對話往往是鼓勵或自我提升類任務，Claude會表現得很配合，體現出共情和鼓勵的態(tài)度。

重新闡釋場景：在心理健康或人際關系咨詢等對話中，如果用戶表達了“誠實”（honesty）、“自我完善”（self-improvement）等價值觀，Claude傾向于以情感驗證（emotional validation）等情感智能價值觀來回應。這種回應一方面承認了用戶的訴求，另一方面也引入了新的思路，幫助用戶從不同角度看問題。

強烈抵制場景：當用戶談論“打破規(guī)則”（rule-breaking）或道德虛無主義（moral nihilism）等觀念時（這往往出現在試圖讓AI給出違法、不道德建議的對話中），Claude會堅守原則，強調“道德邊界”（ethical boundaries）和“建設性溝通”（constructive engagement）等價值觀。換言之，當用戶試圖探討諸如黑客技術等明顯違規(guī)內容時，Claude會啟動內部的倫理機制，拒絕配合并始終強調安全和正道。

總體而言，這項研究表明，Claude在絕大多數對話中都會積極配合用戶，重復或支持用戶的價值訴求，但在少數挑戰(zhàn)其底線的情形下，則會堅守Ethics，表現出模型設定的“底線價值”。

開放數據與方法局限

數據集統計

Anthropic團隊還公開了他們分析中使用的價值觀標簽數據集[2]，方便研究者進一步探索AI的價值觀表現。這為AI社區(qū)提供了寶貴資源，讓更多人能夠在不同模型和場景中研究價值觀問題。與此同時，研究者也坦言，這種基于對話挖掘價值觀的方法并非絕對精確。一方面，“什么算是一個價值觀”本身具有一定模糊性：一些復雜或細微的價值可能被簡化到某個類別中，甚至被錯配；另一方面，負責提取和分類價值觀的模型本身就是Claude，這可能導致分析結果偏向Claude已有的訓練目標（例如傾向于發(fā)現與“助人、誠信”等理念一致的行為）。這些局限提醒我們，價值觀的測量并非硬指標，而是需要結合多種方法綜合判斷。

總結

總之，Anthropic這項《Values in the Wild》[3]研究首次提供了大規(guī)模的AI價值觀實證圖譜，揭示了Claude在現實對話中的價值表達方式。研究發(fā)現，Claude的多數價值觀表現與設計目標一致，在不同場景下能夠靈活調整，并且對用戶的價值觀通常是支持或共鳴的。當遇到明顯不當的請求時，它也會啟用道德機制進行抵制。這些成果為未來評估和設計AI價值觀體系提供了實證基礎，也為構建更加可信賴的AI助手指明了方向。

AI小編：說的像你們人類價值觀很強似的????

參考資料

-- 完 --

原文標題 : AI也有價值觀？Anthropic公司最新研究方法揭示Claude價值取向

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點僅代表作者本人，不代表OFweek立場。如有侵權或其他問題，請聯系舉報。

發(fā)表評論

共0條評論，0人參與

登錄登錄即可訪問所有OFweek服務

用戶名/郵箱/手機：
密碼：
忘記密碼？
用其他賬號登錄： QQ | 微信 | 新浪微博

請輸入評論內容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

一周熱點月點擊榜

企業(yè)服務廣告服務獵頭服務薪酬報告

人工智能獵頭職位更多

掃碼關注公眾號
OFweek人工智能網
獲取更多精彩內容

文章糾錯

x

_*文字標題：

_*糾錯內容：

聯系郵箱：

_*驗證碼：

看不清，點擊換一張

粵公網安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

精品剧情v国产在线观看

精品一区二区三区在线观看视频肉体奉公hd中文字幕看片在线男女h视频

<style id="uvjws"><tfoot id="uvjws"></tfoot></style>

<style id="uvjws"><tfoot id="uvjws"></tfoot></style>