突破性研究團隊發表 WorldGrow 框架,實現無限擴展的 3D 世界生成,標誌著虛擬場景合成技術進入新紀元。這項於 2025 年 10 月 24 日發表在 arXiv 平台的研究,由李思匡、楊晨、方杰民等八位科學家共同開發,在大規模 3D-FRONT 數據集上取得最先進性能表現。該技術除了能解決傳統 3D 生成方法的幾何不一致性問題,更為遊戲開發、元宇宙建設、數碼孿生等產業應用開闢全新可能。

技術創新破解產業難處
WorldGrow 針對現有 3D 世界生成的三大技術瓶頸提出解決方案。傳統 2D 提升方法存在跨視角的幾何與外觀不一致問題,3D 隱式表示難以擴展規模,而當前 3D 基礎模型多以物件為中心,限制了場景級生成應用。研究團隊的核心洞察是利用預訓練 3D 模型的強大生成先驗知識進行結構化場景區塊生成。
該框架包含三大核心組件運作機制。首先數據策劃管道從 18,968 個室內房間的 3D-FRONT 數據集中提取高品質場景區塊,這些房間來自 6,813 個專業房屋佈局,包含 13,151 個獨特的紋理化 CAD 傢俱模型。其次,3D 區塊修復機制實現上下文感知的場景擴展,確保空間連貫性與平滑過渡。最後由粗到細的生成策略同時保證全局佈局合理性與局部幾何紋理保真度。
這種分層架構使 WorldGrow 在 3D-FRONT 數據集上實現 幾何重建的最佳性能,同時獨特支援具有真實感與結構一致性的無限場景生成。與傳統方法相比,該技術能夠持續生成無縫虛擬空間,理論上具有無限的空間範圍。
技術競爭格局演變
全球科技巨頭與研究機構正競相佈局 3D 生成技術。Microsoft Research 與多家機構於 2024 年 12 月發表的 SLAT(結構化 3D 潛變量)技術,是 WorldGrow 的重要技術基礎。SLAT 使用統一表示允許解碼為不同輸出格式(如輻射場、3D 高斯和網格),在包含 500,000 個多樣對象的大型 3D 資產數據集上訓練高達 20 億參數的模型。
事實上 WorldGrow 是由華為聯同上海交通大學、華中科技大學共同推出。該研究的第一作者李思匡和楊晨,其核心研究工作是在華為實習期間完成,通訊作者田奇更是華為終端 BG 首席科學家。在效能上,WorldGrow 突破尤其明顯,僅需使用單張 A100 顯示卡,便能在 30 分鐘內生成 272 平方米(約 2,928 平方呎)的連貫 3D 室內場景,生成速度據報是同類技術的 6 倍。其 FID 評估指標僅為 7.52,顯示生成內容的視覺真實感已極為接近專業級手工作品。
對企業而言更關鍵的是,這項研究的底層邏輯已納入華為雲的盤古多模態大模型體系,顯示華為正將此成果整合至企業級 AI 服務產品線。華為雲新一代的昇騰 AI 雲服務,亦為 WorldGrow 的大規模商業部署提供了算力基礎設施。
程序化生成技術為 3D 內容創造提供另一條路徑。與生成式 AI 的關鍵區別在於控制性——程序化建模提供對結果的精確控制,同時允許多樣性。Houdini 等 3D 軟件擅長程序化建模,使用 VEX 編碼語言讓藝術家和設計師通過簡單指令創造複雜 3D 場景。這種方法對創造電影、遊戲甚至自動駕駛汽車或機械人訓練模擬的大規模環境極為有用。
未來發展趨勢與挑戰
跨現實整合成為下一波創新重點。2025 年的趨勢是將虛擬現實(VR)、增強現實(AR)和混合現實(MR)的元素結合到統一靈活的體驗中。用戶將在單一工作流程中輕鬆切換現實,參加 VR 會議、使用 AR 導航、在 MR 中查看 3D 模型。這種互操作性已在進行中,平台變得更加靈活,硬件演進以支援多種模式。
3D 捕獲與表示技術持續進步。2025 年,攝影測量和高斯飛濺等新 3D 捕獲技術正提高真實性標準。這些方法允許用戶掃描真實對象或空間並將其轉換為高解像度 3D 資產,對房地產、遊戲開發和文化保護等行業具有巨大潛力。隨著掃描工具變得更實惠、AI 改進重建過程,各種規模的創作者都能輕鬆構建照片級真實內容。
VR 技術本身也在快速演進。全球 VR 市場正快速擴張,消費部門預計從 2024 年的不到 160 億美元(約港幣 1,248 億元)增長到 2025 年的超過 180 億美元(約港幣 1,404 億元)。關鍵驅動因素包括 VR 遊戲進步和企業應用,如增強客戶體驗、遠程協作和培訓解決方案。2025 年 VR 頭顯變得更輕、更舒適,提供更高解像度顯示,Meta Quest 3 和 Apple Vision Pro 等裝置引領這一趨勢。
然而業界也認識到 AI 在遊戲/元宇宙產業是一把雙刃劍。短期內生成式 AI 預計將輔助技術提升到新水平,大幅縮短遊戲資產創造、音樂生成和動畫的開發時間,從而大幅加速遊戲和虛擬世界的創作。在開發成本方面也是遊戲規則改變者,預計使創意和開發團隊更高效,讓他們專注於複雜任務(關鍵角色/設定設計、場景、虛擬世界機制)並擺脫基本美術工作和耗時流程。
對企業的戰略意義
WorldGrow 等無限 3D 世界生成技術為企業帶來多維度價值。首先效率大幅提升——AI 生成的 3D 模型可在幾分鐘内創造,而傳統方法需要數小時甚至數天。預計到 2025 年,80% 的工作室將使用 AI 驅動工具。其次,準確性改進——AI 演算法可生成具有精確測量和細節的模型,減少手動調整需求。第三,真實感增強——AI 生成模型可設計為模仿真實世界環境和對象,為玩家創造更沉浸式體驗。
企業應密切關注三大應用場景。在製造與工業領域,數碼孿生用於預測性維護和流程改善,減少停機時間。在客戶服務與營銷領域,AI 影片化身可用於通話、入職和支援。在教育與培訓領域,虛擬環境提供沉浸式學習體驗,醫療保健行業利用 VR 進行手術模擬。
技術採用策略方面,企業無需從零構建——數碼孿生即服務(TaaS)模式興起,讓公司像訂閱雲端軟件一樣訂閱數碼孿生。這對初創企業、中小企業或沒有 IT 團隊的企業快速啟動數碼孿生項目特別有幫助。隨著掃描工具變得更實惠、邊緣計算整合加深,實時處理能力增強,企業部署這些技術的門檻持續降低。
WorldGrow 的發表時機恰逢產業轉折點。當企業要求更智能的運營和更快的創新週期時,無限可擴展的 3D 世界生成能力將成為競爭優勢的關鍵來源。這項技術不只是計算機視覺研究的突破,更預示著虛擬世界創造範式的根本轉變——從勞動密集型手工建模轉向智能化、結構化的自動生成,為構建大規模虛擬環境和未來世界模型奠定技術基礎。
資料來源: https://world-grow.github.io/ arXiv Computer Vision Research SciBrief SuperAGI S&P Global Market Intelligence Meta Engineering




