Google 於 2026 年 3 月 10 日宣布 Gemini Embedding 2 進入公開預覽。這是 Google 首個原生多模態 embedding 模型,能夠將文字、圖片、影片、音訊及 PDF 檔案映射到同一個 unified embedding space ,方便企業進行跨媒體檢索、分類及分群。這次更新將原本分散的文字、影像與影音資料理解流程,統一整合到同一套語意表示層。我們會針對實際支援能力、規格細節,以及對企業知識管理與 RAG 架構的影響進行分析。
縮短企業資料處理管線
Gemini Embedding 2 現已透過 Gemini API 與 Vertex AI 提供公開預覽,模型代號為 gemini-embedding-2-preview。Google 指出新模型建基於 Gemini 架構,支援超過 100 種語言,適用於 RAG、語意搜尋、分類與資料分群等任務。企業處理客服錄音、產品相片、簡報檔案與短片時,無須再將各種媒體分發給不同模型處理,再重新整合到同一個檢索系統。模型層面上提供了一致的多模態路徑。模型同時支援 interleaved input。開發者可以在同一次請求中混合不同模態,例如同時輸入圖片與文字,讓模型捕捉跨媒體之間更細緻的語意關係。
多模態輸入規格與限制
根據官方網誌與 Gemini API 文件,Gemini Embedding 2 支援最長 8,192 個輸入 tokens、每次最多 6 張 PNG 或 JPEG 圖片、最多 6 頁 PDF。音訊亦可原生嵌入,無須事先轉換為文字逐字稿。輸出方面模型預設產生 3,072 維向量,並支援 Matryoshka Representation Learning。開發者可透過 output_dimensionality 縮小維度,Google 建議優先使用 3,072、1,536 或 768 維,以平衡效果與儲存成本。影片與音訊的輸入上限各有不同。Vertex AI 文件指出,含音訊影片最長 80 秒、無音訊影片最長 120 秒,單一音訊檔案上限為 80 秒;而 Gemini API 的 multimodal embeddings 文件則顯示影片最多支援 128 秒,相容 MP4、MOV 等多種編碼格式。企業規劃導入前,建議先查閱實際部署平台的最新官方文件。
早期測試:檢索準確率與速度提升
Google 同步公開了三家早期合作夥伴的測試數據。Everlaw 技術總監 Max Christoff 表示,Gemini 多模態 embedding 模型在處理訴訟證據時,提升了數百萬筆紀錄的 precision 與 recall,同時加入了圖片與影片搜尋功能。Sparkonomy 共同創辦人 Guneet Singh 指出,模型令系統延遲最高下降 70%,並將文字與圖片、影片配對的 semantic similarity 分數由 0.4 提升至 0.8。Mindlid 共同創辦人 Ertugrul Cavusoglu 提到,Gemini Embedding 2 幾乎可直接整合至現有工作流程,在個人健康應用測試中,top-1 recall 提升了 20%。測試案例反映多模態 embedding 除了提高搜尋準確度,亦會影響資料索引方式、處理程序延遲與知識召回率。目前模型仍處於公開預覽階段,企業評估導入時,建議先使用內部資料集進行 A/B 測試。
需重新建立向量資料庫
根據 Gemini API 文件,gemini-embedding-001 與 gemini-embedding-2-preview 的 embedding spaces 並不相容。企業從舊版升級至 Gemini Embedding 2 時,無法直接混用舊向量,必須將現有資料重新 embed。
這次升級牽涉的不單是更換 API,企業需要重建向量資料庫 、重新執行索引、重設相似度門檻及更新權限管理流程。Google 補充使用 Batch API 可將 embedding 成本減半。企業能否成功應用,取決於是否願意為多模態資料建立一套可持續管理的向量基礎架構。
資料來源:Google Blog、Google Cloud Vertex AI、Gemini API Release Notes、Gemini API Embeddings、Gemini Embedding 2 Model Page





