Google Gemini Embedding 2 上線：支援跨媒體檢索，升級需重建向量庫告別單一模態

Google 於 2026 年 3 月 10 日宣布 Gemini Embedding 2 進入公開預覽。這是 Google 首個原生多模態 embedding 模型，能夠將文字、圖片、影片、音訊及 PDF 檔案映射到同一個 unified embedding space ，方便企業進行跨媒體檢索、分類及分群。這次更新將原本分散的文字、影像與影音資料理解流程，統一整合到同一套語意表示層。我們會針對實際支援能力、規格細節，以及對企業知識管理與 RAG 架構的影響進行分析。

縮短企業資料處理管線

Gemini Embedding 2 現已透過 Gemini API 與 Vertex AI 提供公開預覽，模型代號為 gemini-embedding-2-preview。Google 指出新模型建基於 Gemini 架構，支援超過 100 種語言，適用於 RAG、語意搜尋、分類與資料分群等任務。企業處理客服錄音、產品相片、簡報檔案與短片時，無須再將各種媒體分發給不同模型處理，再重新整合到同一個檢索系統。模型層面上提供了一致的多模態路徑。模型同時支援 interleaved input。開發者可以在同一次請求中混合不同模態，例如同時輸入圖片與文字，讓模型捕捉跨媒體之間更細緻的語意關係。

多模態輸入規格與限制

根據官方網誌與 Gemini API 文件，Gemini Embedding 2 支援最長 8,192 個輸入 tokens、每次最多 6 張 PNG 或 JPEG 圖片、最多 6 頁 PDF。音訊亦可原生嵌入，無須事先轉換為文字逐字稿。輸出方面模型預設產生 3,072 維向量，並支援 Matryoshka Representation Learning。開發者可透過 output_dimensionality 縮小維度，Google 建議優先使用 3,072、1,536 或 768 維，以平衡效果與儲存成本。影片與音訊的輸入上限各有不同。Vertex AI 文件指出，含音訊影片最長 80 秒、無音訊影片最長 120 秒，單一音訊檔案上限為 80 秒；而 Gemini API 的 multimodal embeddings 文件則顯示影片最多支援 128 秒，相容 MP4、MOV 等多種編碼格式。企業規劃導入前，建議先查閱實際部署平台的最新官方文件。

早期測試：檢索準確率與速度提升

Google 同步公開了三家早期合作夥伴的測試數據。Everlaw 技術總監 Max Christoff 表示，Gemini 多模態 embedding 模型在處理訴訟證據時，提升了數百萬筆紀錄的 precision 與 recall，同時加入了圖片與影片搜尋功能。Sparkonomy 共同創辦人 Guneet Singh 指出，模型令系統延遲最高下降 70%，並將文字與圖片、影片配對的 semantic similarity 分數由 0.4 提升至 0.8。Mindlid 共同創辦人 Ertugrul Cavusoglu 提到，Gemini Embedding 2 幾乎可直接整合至現有工作流程，在個人健康應用測試中，top-1 recall 提升了 20%。測試案例反映多模態 embedding 除了提高搜尋準確度，亦會影響資料索引方式、處理程序延遲與知識召回率。目前模型仍處於公開預覽階段，企業評估導入時，建議先使用內部資料集進行 A/B 測試。

需重新建立向量資料庫

根據 Gemini API 文件，gemini-embedding-001 與 gemini-embedding-2-preview 的 embedding spaces 並不相容。企業從舊版升級至 Gemini Embedding 2 時，無法直接混用舊向量，必須將現有資料重新 embed。

這次升級牽涉的不單是更換 API，企業需要重建向量資料庫、重新執行索引、重設相似度門檻及更新權限管理流程。Google 補充使用 Batch API 可將 embedding 成本減半。企業能否成功應用，取決於是否願意為多模態資料建立一套可持續管理的向量基礎架構。

資料來源：Google Blog、Google Cloud Vertex AI、Gemini API Release Notes、Gemini API Embeddings、Gemini Embedding 2 Model Page

Google Gemini Embedding 2 上線：支援跨媒體檢索，升級需重建向量庫告別單一模態

縮短企業資料處理管線

多模態輸入規格與限制

早期測試：檢索準確率與速度提升

需重新建立向量資料庫

從數碼墓園裡復活剖析 Meta 專利下的幽靈勞動與倫理

AI 代理進軍高敏感場景：Google 奪五角大廈合約揭開企業 AI 治理新戰幔

Google Gemini Embedding 2 上線：支援跨媒體檢索，升級需重建向量庫告別單一模態

縮短企業資料處理管線

多模態輸入規格與限制

早期測試：檢索準確率與速度提升

需重新建立向量資料庫

you might also like

Google 開源 DESIGN.md：AI 設計標準改變企業 UI 生產方式 設計入門門檻大幅降低

Google 面臨 AI 晶片荒挑戰：傳統巨頭如何應對 AI 原生初創競爭？

《M-Trends 2026》報告：攻擊權限移交僅需 22 秒 企業網絡安全急需自動化升級

歐盟企硬嚴管美國科技企業 美國大使警告將錯失 AI 發展機遇

Apple Business 免費登場 MDM 零月費、企業電郵自訂網域

Google 開源 DESIGN.md：AI 設計標準改變企業 UI 生產方式設計入門門檻大幅降低

《M-Trends 2026》報告：攻擊權限移交僅需 22 秒　企業網絡安全急需自動化升級

歐盟企硬嚴管美國科技企業美國大使警告將錯失 AI 發展機遇