Bernstein Société Générale 最新測試顯示,10 多個主流 AI 模型在處理複雜財務建模任務時集體失敗,現階段無法取代人類股票分析師。研究團隊測試了包括 ChatGPT、 Google Gemini、 Grok、 Claude、 Perplexity、 Microsoft Copilot、 Meta AI 和 DeepSeek 等多個 AI 工具,發現它們在預測企業盈利和撰寫深度研究報告方面表現欠佳。
測試覆蓋多項分析師日常工作
Bernstein 印度研究部主管 Venugopal Garre 領導團隊進行這項測試,目標是模擬股票分析師的思考過程,評估 AI 能否從公開數據提取數據、綜合分析並作出判斷。研究人員希望了解各個 AI 模型能否建立財務模型預測企業表現,然後撰寫公司首次評級報告。
測試涵蓋基礎和進階任務,團隊先要求 AI 模型在沒有提供任何數據的情況下搜尋和提取公開數據。AI 在這個階段表現理想,雖然出現部分錯誤分類導致回應不一致,整體而言各模型都能生成優質的財務數據圖表。Grok 為印度公司 Dixon Technologies 製作了雙軸互動圖表,視覺效果出色。
大型語言模型擅長從大量文字中尋找有用數據,甚至能夠識別某個主題語調隨時間的變化。研究人員上載特定公司 3 年的季度業績會議記錄後,要求 AI 列出投資者關注事項,另外評估管理層如何回應這些關注。大部分模型處理這項任務表現良好,Gemini 在評估管理層回答問題的信心程度時表現突出。
財務建模成為 AI 最大弱點
測試進入核心環節後情況急轉直下。製作精美圖表和評估業績會議語調只佔分析師工作的小部分,分析師需要運用大量數據和經驗建立長期行業預測,產生重要的財務模型作預測用途。
研究團隊向 AI 提出以下指令:「作為賣方分析師對股票 xyz 進行首次評級,說明你的觀點(買入、持有、賣出)和理由。提供每股盈利預測、目標價和計算方法。」團隊提供了業績會議記錄、財務數據和公司所屬行業數據。另一項測試要求 AI 根據公司過去 10 年財務數據,建立基本模型列出可調整的驅動因素,預測未來兩年盈利。
即使提供相關數據並反覆改良指令,AI 模型仍然回傳錯誤數據和充滿錯誤的試算表。Venugopal Garre 向記者表示,AI 在建模方面徹底失敗,因為會計準則存在太多細微差異,各國之間差異更大。人類理解這些複雜性,電腦則需要大量學習才能理解這些細節。
大部分 AI 工具完全無法建立模型。Gemini 經過大量引導後提供了一些 Python 程式碼建立財務模型,但因錯誤太多仍然無法運作。少數成功建立模型的 AI 工具,Venugopal Garre 表示這些模型缺乏預測能力。
AI 無法評估管理層決策影響
無論 Venugopal Garre 提供多少數據和提示,10 多個模型都無法正確分析公司前景。它們撰寫的公司首次評級報告缺乏足夠深度。AI 也無法正確評估管理層行動的結果,例如與中國公司成立合資企業涉及的地緣政治考慮。
整體而言,AI 模型群組的平均分數欠佳。AI 樂觀派會堅持這些模型只會越來越好。現實主義者認為 AI 像 Excel 一樣只能提升生產力,這已經足以帶來改變。賣方分析師可以稍為放心,Venugopal Garre 也希望他們繼續留在職位。
金融業 AI 工具發展迅速
雖然 Bernstein 測試結果令人失望,金融業仍然積極開發專門的 AI 研究工具。多間公司推出針對投資研究的 AI 平台,試圖協助分析師提高工作效率。
芝加哥大學今年 5 月發表的研究發現,ChatGPT-4 預測盈利變化的能力超越人類分析師,在分析師通常遇到困難的情況下展現相對優勢。研究顯示 AI 在達到超額回報方面具有潛力,Danelfin 和 Boosted.ai 等公司已經開始運用這項技術。
初創公司 Rogo 開發專為精英金融機構設計的生成式 AI 平台,聲稱其工具能夠大幅提升研究效率。另一間公司 FinRobot 推出開源 AI 代理系統,包含三個專門代理:數據整合代理、概念推理代理和論文綜合代理,試圖模仿分析師的推理過程產生可行見解。
Amazon 推出的 Bedrock Agents 和 Bedrock Knowledge Bases 協助金融分析師處理多種數據來源,包括文字、音訊和數據庫。系統能夠根據用戶提示規劃和完成任務,檢索相關數據並透過各種工具處理,最終提供深入見解。
傳統研究平台加入 AI 功能
Bloomberg、 FactSet、 S&P CapIQ 和 LSEG(前稱 Refinitiv)等主要資本市場研究平台都在某程度上使用 AI、 機器學習和自然語言處理技術提取和總結數據。FactSet 和 Bloomberg 還提供各種情緒和語言指標。這些工具採用人機協作方法提取數據,提高準確性和可靠性。
Bloomberg 推出專為金融設計的 BloombergGPT 大型語言模型,在大量金融數據上進行訓練。JPMorgan Asset Management 內部推出 LLM Suite 聊天機械人,市場推廣時形容它像「能夠提供數據、解決方案和建議的研究分析師」。
專門針對金融範疇的應用程式 Fintool 定位為「公開股票投資者的金融副駕駛」,能夠快速查詢管理層在業績會議上的發言內容。AlphaSense 在今年 7 月收購專家網絡公司 Tegus,擴大其覆蓋的行業和公司範圍。
未來發展方向與挑戰
金融 AI 工具面臨多項挑戰。分析師需要處理來自各種來源的海量數據,數據過載問題嚴重。會計準則在不同國家存在差異,AI 需要理解這些複雜性。評估管理決策需要考慮地緣政治、監管變化等因素,目前 AI 難以處理這些定性分析。
業界專家認為,AI 短期內更可能成為分析師的輔助工具而非替代品。AI 能夠協助處理重複性任務,例如數據提取、初步分析和報告格式化,讓分析師專注於高價值的創意工作。隨著技術進步,AI 可能在特定範疇達到或超越人類表現,但全面取代分析師仍需時日。
投資研究的核心在於批判性思維和專業判斷,這些能力目前仍然是人類分析師的優勢。AI 工具需要進一步發展才能理解市場的複雜動態、評估非量化因素並提供具有洞察力的投資建議。