close
人工智能

AI 自我進化存在盲點 人類評估力流失或成知識工作最大隱憂

辦公室工作區域,現代化設計,配備電腦和辦公桌,適合專業工作環境。.

 

Airbnb 技術總監 Ahmad Al-Dahle 近期發表觀點,警告整個科技業在追逐 AI 能力提升的同時,正忽略一個結構性風險:AI 系統要在知識工作領域持續改進,必須依靠可靠的自主進化機制,或者依靠能辨識錯誤並提供高品質回饋的人類評估者,而業界把巨額資源投入前者,卻幾乎沒有思考後者正在發生甚麼變化。

他指出大型科技公司招聘應屆畢業生的數量自 2019 年以來下跌約 50%,文件審閱、初步研究、數據清理與程式碼審查等入門工作已由模型接手,經濟學家稱之為「取代」,企業則稱之為「效率」,但雙方都沒有正視隨之而來的長遠問題。Al-Dahle 把這種現象形容為「掏空」,因為表面能力依然存在,底層用來驗證、延伸與修正專業判斷的人類能力卻悄然消失。

 

自我進化在知識工作中為何受限

外界最直接的反駁是強化學習(Reinforcement Learning)。AlphaZero 在沒有人類數據的情況下,於圍棋、國際象棋與將棋達到超越人類的水平,並在過程中產生全新策略。2016 年對弈 Lee Sedol 時的第 37 手,職業棋手形容自己永遠不會走出這一步,這一手並非來自人類標註,而是 AI 自我對弈所衍生。

支撐這種突破的關鍵在於環境的穩定。第 37 手出現在圍棋固定不變的狀態空間之內,規則完整、清晰且永久,更重要的是回饋訊號完美無瑕,勝負即時揭曉,沒有任何詮釋空間,系統永遠知道某一手是否高明,因為棋局終會以明確結果收場。

知識工作不具備上述任何一項特質。任何專業領域的規則都在動態變化,由身處其中的人持續改寫,新法例會通過,新金融工具會被發明,一套在 2022 年行得通的法律策略,可能因為某個司法管轄區改變詮釋而失效,一項醫療診斷是否正確,也許多年後才能確認。缺乏穩定環境與清晰回饋訊號,就無法閉合學習迴路,因此人類必須留在評估鏈條之中,繼續教導模型。

 

專業養成的斷層

今天所建立的 AI 系統,正是依靠那些經歷過完整專業養成的人的專業知識訓練而成。如今的分別在於,培養這種專業能力的入門職位首先遭到自動化,這代表下一代潛在專家無法累積足以使人類評估者具備價值的判斷力。

歷史上不乏知識消亡的例子,包括羅馬混凝土、哥德式建築工法,以及耗時數百年才得以恢復的數學傳統。雖然每一宗歷史個案的成因都來自外部,例如瘟疫、征服,或承載知識的機構崩塌,但今次截然不同,因為毋須任何外力。一個領域可能並非因災難而萎縮,而是因為千百個各自看似理性的經濟決定逐步累積,每一個決定單獨來看都合情合理。這是一種全新的機制,人類在它正發生時辨識它的經驗並不多。

 

當整個領域陷入沉寂

推演到極限,這已不只是人才管道問題,而是對專業知識本身需求的崩塌。

以高等數學為例,它不會因為人類停止培訓數學家而萎縮,而是因為機構在日常運作中不再需要數學家,成為數學家的經濟誘因隨之消失,能進行前沿數學推理的人口逐漸縮減,整個領域產生嶄新洞見的能力悄悄瓦解。同樣邏輯適用於程式設計,真正的問題不是「AI 會不會寫程式」,而是「假如 AI 寫盡所有生產級程式碼,誰來培養出能催生真正創新系統設計的深層架構直覺」。

一個領域被自動化,與一個領域被真正理解,兩者之間存在關鍵差異。今天人類能把大量結構工程自動化,但「為何某些做法行得通」這種抽象知識,存在於那些花了多年先犯錯再領悟的人腦海之中。一旦消除實踐,失去的不只是實踐者,更是知道自己失去了甚麼的能力。

高等數學、理論電腦科學、深層法律推理與複雜系統架構,當最後一位深刻理解某個代數子領域的人退休,而因為資金枯竭、職涯路徑消失再無人接棒,那份知識短期內難以重新被發現,它就此消逝。沒有人察覺,因為以他們成果訓練出來的模型,在往後十年仍能在基準測試取得好成績。

 

評分標準無法完全替代人類判斷

業界目前的做法是基於評分標準的評估,包括 Constitutional AI、來自 AI 回饋的強化學習(RLAIF),以及讓模型為模型打分的結構化準則,這些都是認真的技術,確實有效降低對人類評估者的依賴。

它們的局限在於,一套評分標準只能涵蓋編寫者當時懂得衡量的範圍。一旦針對它過度優化,得到的就是一個非常擅長滿足評分標準的模型,而這與一個真正正確的模型並非同一回事。

評分標準能把判斷力中可明言、可拆解的部分規模化,但更深層的部分,那種直覺,那種感到「有些地方不對勁」的體會,無法塞進評分標準。因為你必須先親身經歷,才知道該寫下甚麼,所以根本寫不出來。

 

業務啟示與把握方向

對企業而言,這個警告的價值不在於放慢 AI 的部署步伐,而在於重新審視人才結構的長期成本。多項數據顯示斷層已經出現,SignalFire 的報告指出,2024 年大型科技公司新聘人手當中,應屆畢業生僅佔 7%,較 2023 年下跌 25%,較疫情前的 2019 年水平下跌逾 50%;初創公司聘用應屆生的比例,亦由 2019 年的 30% 跌至 2024 年的不足 6%。英國科技畢業生職位在 2024 年下跌 46%,市場並預測到 2026 年再跌 53%。Anthropic 行政總裁 Dario Amodei 更警告,未來 1 至 5 年內,AI 有機會消除一半入門白領職位。

企業期望可以從中受惠,就需要把評估能力視為與模型能力同等重要的資產來經營。具體方向是除了繼續採用 AI 提升效率,也要刻意保留並設計人類養成的路徑,例如以師徒制或結構化指導取代純粹的評分式審查,讓初級人員在 AI 接手雜務的環境下,仍有機會累積領域判斷力。

對受 AI 衝擊最深的科技、金融、顧問與媒體行業而言,這種投資的回報未必立即反映在當季財報,卻決定了未來十年企業是否仍有能力驗證與修正 AI 的輸出。值得留意的是,Airbnb 自身正大舉推動 AI,其 AI 客服機械人現已在北美處理約三分之一的客戶查詢,可見 Al-Dahle 的警告並非反對自動化,而是提醒企業在效率與能力延續之間取得平衡。

 

自我修正機制至今尚未存在

研究人員有機會找到無須人類判斷也能閉合評估迴路的方法,也許合成數據管道會足夠成熟,也許模型會發展出目前難以想像的可靠自我修正機制,但這些今天都尚未存在。在此期間,人類正在拆解現時填補缺口的人類基礎建設,而這並非出於深思熟慮的決定,而是千百個理性決定的副產品。

負責任的轉型版本不是假設問題會自行解決,而是以對待能力提升的同等迫切感,把評估缺口當成一個開放的研究課題去處理。AI 最需要人類提供的東西,恰恰是人類最不專注於保存的東西。無論這個判斷是永久成立還是暫時成立,忽視它的代價都一樣沉重。

 

來源:Venture Beat

Tags : Ahmad Al-DahleAirbnb人工智能人才培訓商業策略