阿里巴巴旗下阿里雲於星期五公布牽頭向北京 AI 初創生數科技注資 20 億人民幣,好未來、Baidu Ventures、安東海棠及中國互聯網投資基金等機構同步參與這輪 B 輪融資,生數科技是 AI 影片生成工具 Vidu 的開發商,公司強調會把資金集中投入通用世界模型的研發,期望透過視覺、音訊及觸覺等多模態數據,構建出比現有大語言模型更貼近物理現實的 AI 系統。是次融資距離公司上一輪 6 億人民幣(約港幣 6.48 億元)的 A+ 輪集資僅約兩個月,反映資本市場對世界模型這條新賽道的熱情急速升溫,亦標誌中國 AI 投資焦點正由純文字模型轉向更具產業應用潛力的多模態技術。
由大語言模型走向世界模型的技術分水嶺
過去兩年由 OpenAI 旗下 ChatGPT 帶動的生成式 AI 浪潮主要建基於大語言模型,核心訓練素材是海量文字,業界近期愈來愈多研究團隊判斷單靠文字難以教導 AI 理解地心引力、物件碰撞或人類動作等物理規律,於是把焦點轉向以影片及真實場景作為基礎的世界模型。生數科技創辦人朱軍指出團隊目標是把感知與行動連接起來,令 AI 能夠一致地模擬並預測現實世界的運作。公司亦在聲明中強調視覺、音訊與觸覺等多模態數據比純文字更能自然地反映物理世界的結構。
生數科技於 2023 年 3 月成立而核心團隊來自清華大學、北京大學、Imperial College London 及 Carnegie Mellon University 等學府,公司今年 1 月推出的 Vidu Q3 Pro 根據獨立評測機構 Artificial Analysis 的排名,於全球文字及圖像生成影片模型中位列前十及中國區排名第一。Vidu 自 2024 年 7 月全球在網上推出以來,用戶覆蓋超過 200 個國家及地區而人數突破 3,000 萬,推出僅 8 個月便錄得逾 2,000 萬美元(約港幣 1.56 億元)的年度經常性收入。
中港 AI 影片戰場升溫 海外巨頭同步加碼
生數科技所處的賽道競爭極為激烈,短片巨頭快手早已推出可靈,字節跳動旗下即夢同樣搶佔 AI 影片生成市場,阿里巴巴自家的 Qwen 系列亦開源 Wan 影片模型,騰訊則以混元系列應戰。外國方面 OpenAI 去年 9 月底發表 Sora 2,主打更貼近物理現實的生成效果,Google 與 Runway 等公司同樣加速研發類似技術,令全球影片生成版圖出現明顯的兩極對壘格局。
阿里巴巴近月在世界模型相關企業上頻頻出手,集團夥拍 Baidu Ventures 上月領投 3D 模型生成平台 Tripo AI 的 5,000 萬美元(約港幣 3.9 億元)融資,去年 9 月則牽頭向 PixVerse 注資 6,000 萬美元(約港幣 4.68 億元),後者已推出可讓用戶在影片生成過程中即時調整劇情走向的世界模型。阿里巴巴集團本身亦於今年 2 月開源一款專為機械人設計的 AI 模型,顯示其投資佈局已從電商腹地延伸至具身智能領域。
對企業的實際意義:由廣告生產到機械人應用
對商界而言世界模型的商業化想像空間遠超影片創作本身,Vidu 現時已與京東、Alibaba 1688、Amazon、美團、L’Oréal 及安踏等品牌合作,廣泛應用於廣告、電商、影視宣傳及動畫製作。生數科技星期五補充公司已與多家具身智能企業建立戰略合作,將技術應用於工業、商業及家居場景的人形機械人。
企業若能掌握世界模型的能力便可在產品設計、自動駕駛模擬訓練、智能工廠佈局以至零售空間規劃上,以更低成本生成貼近真實物理規律的虛擬環境及大幅縮短研發周期,對品牌客戶來說 Vidu Q3 支援 16 秒音畫同步、原生 1080p 輸出及多語言文字渲染等功能,意味廣告片製作可由傳統數周流程壓縮至以小時計的迭代節奏。管理層宜趁早評估相關工具與內部創意流程的整合方式,並就版權、品牌一致性及合規審查訂立內部守則以避免在大規模部署時出現失控風險。
世界模型成為 AI 技術突破口
有專家指出要令 AI 達到接近人類智能水平,系統需要兼備推理能力、對物理世界的理解及持續學習能力,而世界模型正是當前最關鍵的突破口,隨著阿里巴巴、字節跳動、Google 及 OpenAI 同時加碼,世界模型有望在未來 18 至 24 個月由實驗室原型走向實際商用,並重塑機械人、自動駕駛、虛擬製作及沉浸式娛樂等多個行業的競爭格局。對中港企業而言現階段最務實的做法是儘早建立內部的多模態數據資產與測試環境,因為當技術成熟時擁有真實場景數據的企業將取得明顯先機。
來源:CNBC