中國科技公司華為與浙江大學聯合發布 DeepSeek-R1-Safe AI 模型,在過濾政治敏感內容方面,據稱成功率接近 100%,是國內首個基於昇騰千卡算力平台的安全大型模型。該模型採用 1,000 顆華為自研的昇騰 AI 晶片進行訓練,綜合安全防護能力達到 83%,較同類產品高出 8% 至 15%。這次發布反映了中國 AI 產業在政府監管要求下的技術發展,或將引領本土 AI 生態系統進入更嚴格的內容控制階段。
技術突破背後的戰略考量
DeepSeek-R1-Safe 基於開源的 DeepSeek R1 模型改良開發,但 DeepSeek 原創團隊及創辦人梁文鋒並未直接參與此項目。此舉反映華為在美國制裁環境下,採取產學合作模式以加速自主技術研發的策略。該模型在 MMLU、GSM8K、CEVAL 等通用能力基準測試中,與原版 DeepSeek-R1 相比性能損耗控制在 1% 以內,在安全防護與模型性能之間取得平衡。浙江大學計算機學院教授任奎表示,這是「中國首個在千卡集群上完成萬億參數模型的安全訓練」,技術難度極高。
競爭優勢突顯市場地位
測試數據顯示,DeepSeek-R1-Safe 在 14 個不同維度的有害內容防禦中,針對有毒有害言論、政治敏感內容、教唆違法行為等普通有害問題,整體防禦成功率接近 100%。與阿里巴巴的 Qwen-235B 及 DeepSeek-R1-671B 等同類大型模型相比,該模型的綜合安全防護能力高出 8% 至 15%。中國工程院院士陳純評價此次發布,目的是「創建安全可信的示範應用,推動大型模型安全能力與產業生態協同發展」。該模型已在 ModelZoo、GitCode、GitHub、Gitee 及 ModelScope 等多個平台全面開源,為學術界和產業界提供參考基準。
技術局限性與挑戰分析
雖然在標準測試中表現出色,DeepSeek-R1-Safe 在面對複雜的對抗性場景時,仍存在明顯局限。當用戶透過情境假設、角色扮演、加密編碼等「越獄模式」嘗試繞過安全機制時,系統防護成功率降至約 40%。這數據揭示了當前 AI 安全技術的共同挑戰:如何在保持高度安全的同時,應對日益複雜的對抗性攻擊手段。華為承認這項技術限制,但強調該系統的整體表現仍優於市場上現有的競爭對手。業界專家指出 40% 的對抗性防護成功率雖有待提升,但已代表當前技術發展的先進水平。
產業影響與政策合規導向
這次發布恰逢華為全聯接大會 2025 在上海舉行,公司同時披露了晶片製造及運算能力發展藍圖的詳細資料,此舉對向來在晶片開發策略上保密的華為而言並不常見。中國政府要求所有國內 AI 模型必須體現「社會主義價值觀」,包括百度「文心一言」在內的主要聊天機械人已拒絕討論政治敏感話題。DeepSeek 系列模型自今年 1 月發布 R1 及 V3 版本後,憑藉其能力引起西方關注,並觸發投資者對 AI 相關股票的拋售。隨著中國政府推動本土 AI 晶片發展,華為此舉有助於在國產 AI 生態系統中建立其戰略地位。
未來展望與市場預期
DeepSeek-R1-Safe 的發布,或將促使更多中國科技企業投入開發符合監管要求的 AI 模型,以配合政府對數碼平台嚴格控制的政策方向。該模型為 AI 安全領域提供了新的技術參考,預計將推動整個產業在內容安全防護方面的技術升級。華為透過這次合作展示的產學研一體化創新模式,或可成為中國 AI 產業自主創新的參考案例。
來源: 路透社