AI 模型近年不斷發展,對於多媒體處理和生成都已經逐漸純熟,不過要處理現實世界的物理變化等細節則尚有改進空間。最近 Google 就宣佈開發能夠模擬真實世界的模型,作為 DeepMind 的一部分。
新的開發計畫將由前 OpenAI Sora 影片生成工具共同負責人 Tim Brooks 所領導,Brooks 在 X 上表示,新團隊將與 Google 現有的 Gemini、Veo 和 Genie 等項目的團隊合作。而在招募文件中,團隊認為影片與多模態資料的 AI 訓練規模化,將會是通往通用人工智慧(AGI)的重大發展方向。新團隊將會集中於開發「實時互動生成」工具,與現有多模態模型例如 Gemini 等等進行整合,提供更全面的功能。
DeepMind has ambitious plans to make massive generative models that simulate the world. I'm hiring for a new team with this mission. Come build with us!https://t.co/pqvALtAvLs https://t.co/vtwgeXl9Dl
— Tim Brooks (@_tim_brooks) January 6, 2025
真實世界模擬的應用範圍相當廣泛,從視覺推理、模擬、規劃具身智能助理 (Embodied Agent),到即時互動娛樂等都會用到這個技術。現時除了 Google 本身正在開發的 Genie 模型之外,其他「世界模型」還有 World Labs、Decart 和 Odyssey 等,預計可以用作生成互動多媒體內容例如遊戲和電影等,以及用作像真模擬,用於訓練機械人等技術。
來源:X