OpenAI 提倡以互惠方式改善人工智能的合作能力

人工智能作為獨立的系統雖然已經可以有相當可觀的能力，但是應對複雜的真實世界，如何處理個體之間的合作仍然是個問題。OpenAI 最近就提倡，利用互惠 (reciprocity) 方式解決問題。

OpenAI 所提倡的是名為「隨機不確定社會偏好」(Randomized Uncertain Social Preferences, RUSP) 的訓練方式，這種增強 (Augmentation) 方式可以強化學習代理的訓練環境分佈，代理可以在訓練過程中分享分享不同數量的獎勵，而每個代理之間的關係都有獨立的不確定性，從而造成「不對稱性」。研究人員假設，這種壓力會迫使代理學習社會反應行為。

研究人員亦製作了名為 Oasis 的複雜環境，來測試團隊互動。他們需要在虛擬荒島上求生，只有足夠資源養活三個代理之中的兩個，它們必須合作來分擔消耗，提高活命機會。研究表示，利用 RUSP 訓練的代理有更低的死亡率，表現比「自私的」baseline 更好。而研究亦認爲，除了 RUSP 之外，也需要更多其他的方式輔助，目前讓人工智能代理發展互惠技能，只是發展出複雜社會結構和規範的第一步

來源：Venture Beat

OpenAI 提倡以互惠方式改善人工智能的合作能力

PayPal 正式開放美國用戶購買加密貨幣

本地初創藉人工智能電腦視覺技術監察動物行為

OpenAI 提倡以互惠方式改善人工智能的合作能力

you might also like

「出貓」初創 Cluely 獲 a16z 領投 估值飆升至 1.2 億美元引發業界關注

AI 推理過程透明度面臨挑戰 開發商仍然難以掌控模型真實運作

美國開發者使用 AI 編程助手最普及 30.1% Python 代碼由 AI 生成

Amazon CEO 預告 AI 取代部分員工 企業人數將減少籲員工學習新技能

美國科技巨企遊說實施 AI 監管 10 年禁令 業界與共和黨內部分歧

「出貓」初創 Cluely 獲 a16z 領投　估值飆升至 1.2 億美元引發業界關注

AI 推理過程透明度面臨挑戰　開發商仍然難以掌控模型真實運作

美國開發者使用 AI 編程助手最普及　30.1% Python 代碼由 AI 生成

Amazon CEO 預告 AI 取代部分員工　企業人數將減少籲員工學習新技能

美國科技巨企遊說實施 AI 監管 10 年禁令　業界與共和黨內部分歧