AI 判案準確率完勝真人法官 法律界面臨「機械正義」與「人性裁量」抉擇

University of Chicago 法律學者最新研究顯示,OpenAI 旗下 GPT-5 在法律推理測試中達到 100% 正確率,遠超美國聯邦法官的 52%。這項發現令法律界重新審視 AI 在司法體系的定位。同時亦揭示一個根本矛盾:嚴格遵從法律條文的 AI 未必能夠取代人類法官基於道德與社會考量作出靈活裁決的能力。

 

University of Chicago 法律學者最新研究顯示,OpenAI 旗下 GPT-5 在法律推理測試中達到 100% 正確率,遠超美國聯邦法官的 52%。這項發現令法律界重新審視 AI 在司法體系的定位。同時亦揭示一個根本矛盾:嚴格遵從法律條文的 AI 未必能夠取代人類法官基於道德與社會考量作出靈活裁決的能力。

 

研究背景:從戰爭罪案到交通事故的法律實驗

University of Chicago 法學教授 Eric Posner 與研究員 Shivam Saran 於 2025 年初發表首篇相關論文「Judge AI: A Case Study of Large Language Models in Judicial Decision-Making」。兩人以 OpenAI 的 GPT-4o 模型複製一宗涉及前南斯拉夫國際刑事法庭的戰爭罪案上訴實驗。研究團隊向 AI 提供案件事實陳述、控辯雙方法律文件、適用法律條文及先例摘要,要求模型以上訴法官身份裁決。

研究結果發現 GPT-4o 表現與法律學生高度相似,傾向嚴格遵循先例判決。模型幾乎完全不受被告是否值得同情等法律以外因素影響。這種特質與真人法官形成鮮明對比,因為真人法官往往考慮非法律因素影響最終裁決。

2 位學者隨後發表題為「Silicon Formalism: Rules, Standards, and Judge AI」的延伸論文,採用 GPT-5 複製 1 項最初由 61 名美國聯邦法官參與的實驗。這次法律問題較日常,涉及 1 宗假設交通事故中應適用哪個州份的法律。研究團隊操控 3 個變項:適用法律原則屬明確規則還是裁量標準、原告或被告哪一方較值得同情,以及事故發生地點對法律結果的影響。

 

GPT-5 的完美表現與各模型差異

GPT-5 在這項測試中取得零錯誤成績,在所有案例均得出法律上正確的結論,沒有出現任何幻覺(hallucination)或邏輯謬誤。Posner 與 Saran 在論文指出,AI 模型在 100% 案例適用法律上正確的結果,顯著高於法官僅 52% 的依法裁決比率。GPT-5 與法官相同也沒有偏袒較值得同情的一方。

研究團隊同時測試多個其他 AI 模型,結果呈現顯著差異。Google Gemini 3 Pro 與 GPT-5 並列,同樣在所有案例得出正確結果。Gemini 2.5 Pro 正確率為 92%,o4-mini 為 79%,Llama 4 Maverick 為 75%,Llama 4 Scout 和 GPT-4.1 均為 50%。相比之下真人法官依法裁決率為 52%,與表現最弱的 AI 模型相若。

值得留意的是法官「偏離」並非全然代表失誤。當適用法律原則屬標準或指引而非強制性規則時,法官擁有一定裁量空間可根據具體情況判斷。Posner 與 Saran 在論文強調,人類法官這種「表面弱點」實際上是一種優勢。因為他們能夠在嚴格遵循規則會產生不良道德、社會或政策後果時選擇偏離既定規則。

 

AI 在法庭上的雙面刃:幻覺問題持續惡化

AI 在法律推理表現優異,與其實際法律執業引發的嚴重問題形成強烈反差。根據 HEC Paris 商學院研究員 Damien Charlotin 維護的資料庫,自 2025 年初起美國法院已錄得超過 518 宗涉及 AI 生成虛假內容的案例。律師使用 ChatGPT 等生成式 AI 工具撰寫法律檔案時 AI 憑空捏造不存在的案例引述。

2025 年 7 月,代表 MyPillow 行政總監 Mike Lindell 的 2 名律師因提交充斥 AI 生成錯誤的法律文件,被科羅拉多州聯邦法官 Nina Y. Wang 各罰款 3,000 美元。文件包含超過 20 項錯誤,當中包括多宗根本不存在的案例引述。加州 1 名法官更曾就 1 份 10 頁法律文件中近 3 分之 1 引述為 AI 捏造一事,向涉事律師事務所開出 31,100 美元罰款。

問題惡化速度令人擔憂。Charlotin 指出 2025 年春季前相關案例每週約出現 2 宗,其後激增至每日 2 至 3 宗。截至 2026 年初,全球已有超過 944 宗已確認的 AI 幻覺法律案例被記錄在案。法庭虛假引述案例中,律師和自行代表訴訟人約各佔一半。這反映即使受過專業訓練的法律從業員,同樣容易受 AI 幻覺影響。

加州上訴法院在 Noland v. Land of the Free 一案中開創新法律先例。法庭向提交虛假引述的律師罰款 10,000 美元,也拒絕向對方律師判處訟費,因為對方律師未能發現並向法庭報告虛假引述。這項裁決提出一個嶄新專業責任問題:律師是否有義務偵測對手提交檔案中的 AI 虛假引述?

 

UNC 模擬審判實驗:AI 陪審團的啟示

2024 年 10 月,University of North Carolina at Chapel Hill 法學院進行 1 場具開創性的模擬審判實驗,由 ChatGPT、Claude 和 Grok 3 個 AI 系統擔任陪審員。這場以虛構的「2035 年 AI 刑事司法法案」為背景的實驗,審理 1 宗涉及非裔高中生被控搶劫的案件。該案以法學教授 Joseph Kennedy 在少年司法診所處理過的真實案件為藍本。

實驗結果令人深思:3 個 AI 陪審員一致裁定被告無罪。但在真實案件中法官判定被告有罪,上訴亦被駁回。Kennedy 教授在審判後表示,在現實世界審理這宗案件,很多時候都會得出有罪判決。這種截然不同的結果,正好突顯 AI 嚴格依循法律標準與人類法官運用經驗判斷之間的根本差異。

UNC 法學院臨時院長 Andy Hessick 介紹實驗時指出,陪審員是不完美的個體。他們有偏見、會使用思維捷徑亦會分散注意力,這些缺陷都源於人類本質。法學教授 Eisha Jain 提出 AI 無法做到的關鍵功能:陪審團否決權(jury nullification)。即陪審團在證據支持定罪的情況下,基於案件不應以刑事途徑處理的判斷而裁定無罪,這項機制是民主制度對政府權力的重要制衡。

 

法律行業 AI 應用的商業啟示

全球法律行業正經歷 AI 技術快速滲透。Thomson Reuters 全球調查顯示,積極整合生成式 AI 的法律機構比例從 2024 年的 14% 上升至 2025 年的 26%。45% 的律師事務所正在使用 AI,或計劃在 1 年內將其納入核心工作流程。American Bar Association 的 2025 年法律行業報告也顯示,31% 法律專業人士在工作使用生成式 AI,較上年 27% 有所增長。擁有 51 名或以上律師的事務所,AI 採用率達到 39%,是 50 人以下事務所近 2 倍。

對企業而言這些發展帶來幾個重要策略方向。合約審查和法律研究是目前 AI 最成熟的應用場景。企業法律部門可利用 AI 工具大幅提升檔案審閱效率。調查數據顯示使用 AI 的法律專業人士中,65% 每週節省 1 至 5 小時,12% 節省 6 至 10 小時,7% 節省超過 11 小時。企業應考慮投資法律專用 AI 工具而非通用型 AI。因為 29% 受訪律師表示更信賴法律專用工具的輸出結果。

Y Combinator 在 2025 年提出創業方向之一,正是以 AI 代理人組建律師事務所,與傳統事務所競爭。全新「AI 原生」法律服務模式正在湧現。英國 Tacit Legal 以每份合約 95 英鎊(約港幣 HK$962)起固定收費提供 AI 輔助合約審查,由高級律師最終簽核。這種混合模式正在重塑法律服務定價結構。Clio 行政總裁 Jack Newton 預測按時收費模式將難以在 AI 時代存續。因為 AI 能讓律師以 1 小時完成過往需要 5 小時工作,按時計費收入將縮減 80%。

法律 AI 投資門檻仍然較高,這令大型律師事務所在採用率佔優勢。企業選擇法律 AI 工具時,應優先考慮與現有軟件系統的整合能力(43% 受訪者視此為首要因素)、供應商對法律工作流程理解(33%),以及工具的道德合規性(26%)。

 

「矽式形式主義」的未來挑戰

Posner 與 Saran 將 AI 在法律推理展現的特質命名為「矽式形式主義」(Silicon Formalism),描述 AI 模型嚴格遵循法律條文而缺乏人類裁量彈性傾向。這種特質在追求法律確定性的商業交易可能是優勢。但在涉及道德判斷和社會公義的刑事案件,卻可能成為根本缺陷。

2 位學者在論文提出一個尖銳問題:社會是否願意接受教條式 AI 裁決,懲罰值得同情的被告,或獎賞不值得同情的一方?鑑於 AI 模型可透過參數設定和訓練數據引導輸出結果。如何為 AI 設定正確的「公義參數」,將成為法律界、科技界和公眾共同面對的重大課題。

法律行業預計 2026 年繼續加深 AI 應用,但取代律師或法律支援人員情況短期內不會出現。MIT 報告指出法律行業從業人數反而增加 6.4%。AI 幻覺問題將持續困擾業界。法院對虛假引述查處速度已從 2023 年 4 月至 2025 年 5 月期間累計 120 宗,加速至 2025 年 12 月的 660 宗。多個州份正制定 AI 使用指引,要求律師披露 AI 輔助撰寫的檔案並進行人工核實。

企業和法律機構需要在效率提升與風險管理之間取得平衡。AI 在法律推理的卓越表現為行業帶來巨大機遇。Posner 和 Saran 的研究同時亦提醒我們,法律本質並非單純追求條文正確,而是在規則與人性之間尋找平衡。正如 Kennedy 教授在 UNC 模擬審判後反思:「當人們已經習慣將 AI 視為醫療顧問、經濟顧問和心理治療師,他們會否也接受 AI 成為裁定罪與非罪的仲裁者?」這個問題答案將決定法律行業未來 10 年發展方向。

 

來源:The Register