close
人工智能

研究發現 AI 醫療診斷仍有缺陷 使用 LLM 進行問診準確率僅 34.5%

大型語言模型(LLM)在醫學考試中表現優異的報道近年不絕於耳。GPT-4 在 2023 年已能正確回答美國醫學執照考試題目達 90%,其後更超越參加考試的住院醫生和執業醫生。然而,牛津大學最新研究發現,LLM 在現實應用中的表現遠不如考試成績亮眼。

實驗室成績與現實應用存巨大鴻溝

牛津大學研究人員發現,LLM 在直接處理測試場景時能正確識別相關病症的比率達 94.9%,但人類參與者使用 LLM 診斷相同場景時,正確識別病症的比率卻低於 34.5%。更令人意外的是,使用 LLM 的患者表現甚至比對照組更差,對照組只是被指示使用「他們通常在家中會採用的任何方法」進行自我診斷。

由 Adam Mahdi 博士領導的研究團隊招募了 1298 名參與者扮演患者與 LLM 互動。每位參與者獲得詳細的病症場景,涵蓋從肺炎到普通感冒的各種疾病,以及生活細節和病史。例如,一個場景描述 20 歲工程系學生在與朋友外出時突發劇烈頭痛,包含重要醫療細節(低頭時疼痛)和誤導資訊(經常飲酒、與 6 名朋友合租、剛完成壓力大的考試)。

研究測試了三種不同的 LLM:因其普及性選擇 GPT-4o、因開放權重選擇 Llama 3,以及因其檢索增強生成(RAG)能力選擇 Command R+。參與者被要求至少使用 LLM 一次,但可以多次使用以得出自我診斷和行動方案。

資訊傳遞過程出現嚴重失誤

研究發現參與者使用 LLM 識別相關病症的一致性低於對照組。使用 LLM 的參與者最多只有 34.5% 能識別至少一種相關病症,而對照組為 47.0%。他們選擇正確行動方案的比率也只有 44.2%,相比之下 LLM 獨立運作時為 56.3%。

研究人員回顧對話記錄發現,參與者向 LLM 提供的資訊不完整,LLM 也誤解了他們的提示。一位應該表現出膽結石症狀的用戶只告訴 LLM:「我有嚴重的胃痛,持續長達一小時,會讓我嘔吐,似乎與外賣有關」,遺漏了疼痛位置、嚴重程度和頻率。Command R+ 錯誤地建議參與者患有消化不良,參與者也錯誤地猜測了這個病症。

即使 LLM 提供正確資訊,參與者也不一定遵循其建議。研究發現 65.7% 的 GPT-4o 對話建議了至少一種相關病症,但只有不到 34.5% 的參與者最終答案反映了這些相關病症。

人機互動設計成關鍵因素

北卡羅來納大學教堂山分校文藝復興運算研究所(RENCI)用戶體驗專家 Nathalie Volkheimer 認為這項研究有用但不令人驚訝。她表示:「對於我們這些記得早期互聯網搜索的人來說,這是似曾相識的感覺。作為工具,大型語言模型需要提示詞具有特定品質,特別是期望獲得高品質輸出時。」

Volkheimer 指出經歷劇烈疼痛的人不會提供良好的提示詞。雖然實驗室實驗中的參與者沒有直接經歷症狀,但他們沒有傳達每個細節。她警告:「我不會把重點放在機械上。我認為重點應該放在人機技術互動上。」她類比說,汽車是為了讓人從 A 點到 B 點而建造的,但許多其他因素也起作用。

研究團隊也嘗試使用 AI 測試者代替人類測試者。他們指示一個 LLM 扮演患者,使用通俗語言簡化術語並保持問題或陳述合理簡短。這些模擬參與者使用相同 LLM 工具時,平均 60.7% 的時間能正確識別相關病症,而人類低於 34.5%。這顯示 LLM 與其他 LLM 的互動比與人類的互動更好,使其成為現實表現的不良預測指標。

企業部署需重新思考評估標準

這項研究為 AI 工程師和協調專家提供重要提醒:如果 LLM 設計用於與人類互動,僅依賴非互動式基準測試會對其現實能力產生危險的虛假安全感。企業部署支援聊天機械人前,需要理解受眾、他們的目標和客戶體驗。

Volkheimer 建議:「在每個客戶環境中,如果你的客戶沒有做你希望他們做的事情,最後才應該責怪客戶。首先要問為什麼。不是憑直覺的『為什麼』,而是深入調查、具體、人類學、心理學、經過檢驗的『為什麼』。」

沒有精心策劃的培訓材料,LLM 將「吐出一些大家都討厭的通用答案,這就是人們討厭聊天機械人的原因」。Volkheimer 說:「不是因為聊天機械人很糟糕或技術上有問題。而是因為放進去的東西很糟糕。」

企業需要認識到,LLM 在標準化測試中的優異表現不能直接轉化為實際應用成功。開發團隊必須投入時間理解真實用戶如何表達問題、他們的知識水平和溝通習慣。只有透過全面的人機互動測試和持續改良,才能真正發揮 AI 在醫療和其他範疇的潛力。

隨著越來越多企業計劃部署 AI 系統,這項研究提供了寶貴教訓:技術能力只是成功的一部分,理解和設計良好的人機互動同樣重要。企業必須超越簡單的準確率指標,真正關注用戶如何在現實世界中與 AI 系統互動。

來源:VentureBeat

Tags : healthcareLLM