close
人工智能

OpenAI 研究指 AI 未能取代真人編程 能修復問題但無法有效找出錯誤

OpenAI 最新研究顯示,儘管 AI 技術已改變軟件開發模式,但企業仍不應完全取代人類軟件工程師。研究團隊開發了名為 SWE-Lancer 的測試基準,透過真實自由工作平台 Upwork 上總值 100 萬美元的軟件工程任務,評估大型語言模型的實際表現。

研究測試了 OpenAI 的 GPT-4o、o1 和 Anthropic 的 Claude-3.5 Sonnet 三個模型,涵蓋個人貢獻任務(如修復錯誤和功能實現)和管理任務(選擇最佳解決方案)。結果顯示,即便是表現最佳的 Claude 3.5 Sonnet,也僅完成了 26.2% 的個人貢獻任務,總收益為 208,050 美元。

研究亦指出,AI 模型雖然能快速定位問題所在,但往往無法理解問題的根本原因。研究指出,模型對跨組件或文件的問題理解有限,導致解決方案往往不夠全面或存在缺陷。不過,在需要技術評估的管理任務上,AI 模型表現相對較好。

AI 的優勢與侷限

研究顯示 AI 在軟件開發之中,雖然有一定的獨特優勢,但在技術上其實還有明顯的缺點,在應用的時候需要注意。優勢方面,AI 模型能夠快速定位問題所在,透過關鍵字搜索迅速找到相關文件和函數,速度往往超過人類工程師。在管理任務中,尤其是需要技術理解力的評估工作上,AI 表現出色。

然而,AI 的技術限制同樣明顯。模型往往無法理解問題如何跨越多個組件或文件,也難以找出根本原因,導致解決方案不完整或有缺陷。這種「見樹不見林」的特性,使得 AI 難以處理複雜的系統性問題。

AI 發展趨勢下仍需有效分工

在軟件編程方面投入 AI 方案的企業,需要重新思考 AI 在軟件開發中的定位。AI 應該被視為增強型工具而非替代品,用於提高工程師的工作效率,而不是完全取代人類工程師。其次,企業在規劃技術團隊時,應該著重於人機協作模式的建立。讓 AI 處理快速檢索、初步診斷等優勢範疇,而將需要深入理解和系統思維的任務交給人類工程師。再者,企業需要投資於工程師的持續發展。即使是「初級」工程師,其系統思維能力和問題追根究底的能力也是 AI 目前無法完全替代的。

雖然研究指出 AI 目前無法完全取代工程師,但技術的發展速度不容忽視。企業可以持續關注 AI 技術的進展,及時調整人才策略,同時建立完善的 AI 應用框架,明確人機分工。而在應用 AI 方案的時候,可以考慮繼續投資於工程師的技能提升,特別是那些 AI 難以替代的能力,加上建立有效的評估機制,確保 AI 應用的品質和可靠性,減少相關風險。

不應完全依賴或排斥 AI 技術

這項研究不僅揭示了目前 AI 在軟件開發中的能力界限,更為企業提供了重要的決策參考。在追求效率的同時,企業需要認識到人類工程師的獨特價值,建立適當的人機協作模式。未來的成功不在於完全依賴 AI 或完全排斥 AI,而在於如何讓人工智能與人類智慧相輔相成,共同推動技術創新和業務發展。

來源:Arxiv

Tags : OpenAI
Antony Shum

The author Antony Shum