close
人工智能

OpenAI 提倡以互惠方式改善人工智能的合作能力

人工智能作為獨立的系統雖然已經可以有相當可觀的能力,但是應對複雜的真實世界,如何處理個體之間的合作仍然是個問題。OpenAI 最近就提倡,利用互惠 (reciprocity) 方式解決問題。

OpenAI 所提倡的是名為「隨機不確定社會偏好」(Randomized Uncertain Social Preferences, RUSP) 的訓練方式,這種增強 (Augmentation) 方式可以強化學習代理的訓練環境分佈,代理可以在訓練過程中分享分享不同數量的獎勵,而每個代理之間的關係都有獨立的不確定性,從而造成「不對稱性」。研究人員假設,這種壓力會迫使代理學習社會反應行為。

研究人員亦製作了名為 Oasis 的複雜環境,來測試團隊互動。他們需要在虛擬荒島上求生,只有足夠資源養活三個代理之中的兩個,它們必須合作來分擔消耗,提高活命機會。研究表示,利用 RUSP 訓練的代理有更低的死亡率,表現比「自私的」baseline 更好。而研究亦認爲,除了 RUSP 之外,也需要更多其他的方式輔助,目前讓人工智能代理發展互惠技能,只是發展出複雜社會結構和規範的第一步

來源:Venture Beat

Tags :aiOpenAI
Antony Shum

The authorAntony Shum