Meta 推出 Llama 2 Long 模型　對長指令有更佳處理表現

Meta 近來加緊開發 AI 相關技術，其中 Llama 2 就是他們的主力大型語言模型產品，最近他們推出了 Llama 2 Long，以 Llama 2 為基礎提升長文本處理效能，據稱部分應用的表現甚至比 Anthropic 的 Claude 2 和 OpenAI 的 GPT-3.5 Turbo 更優秀。

Meta 最近在 arXiv 上發表了一篇論文，當中提及了新模型 Llama 2 Long，這個模型據稱是「透過在 Llama 2 進行持續的預訓練，並在一個向上採樣 (Upsample) 長文本的數據集上使用更長的訓練序列來進行改善」的版本，可以接受多達 32,768 個 Token 的指令輸入。在以長文本指令進行測試的情況下，表現比 GPT-3.5 Turbo（最多 16,000 字）以及 Claude 2（最多 100,000 字）為佳。

Meta 在論文中表示，透過使用來自真人回饋的強化學習（RLHF），也就是在真人的監督下對正確答案進行獎勵，並使用 Llama 2 chat 自己產生的合成數據，他們可以提升 Llama 2 Long 在常見 LLM 應用中的表現，包括編碼、數學、語言理解、常識推理以及回答用戶提示的問題等。不過在架構方面，它與 Llama 2 並沒有太大不同，只是在對應更長指令方面進行必要的些小修改。結果而言，以開源的大型語言模型而言，這個表現算是相當優秀，難怪開源 AI 開發社群對這個並沒有被大肆宣傳的消息拍手叫好。

來源：Venture Beat

Meta 推出 Llama 2 Long 模型　對長指令有更佳處理表現

Bing AI 聊天機械人被指遭利用散播惡意廣告

Visa 宣佈斥資 1 億美元投資生成式 AI 初創

Meta 推出 Llama 2 Long 模型 對長指令有更佳處理表現

you might also like

AI 教父、百度前總裁等 800 位全球領袖聯署 要求禁止超智能 AI 開發

高市早苗就任首相後的日本 IT 戰略：經濟刺激與安保雙軌並進

ARM 躋身 AI 資料中心標準制定核心 與科技巨頭重塑產業規則

OpenAI 啟動保密任務「水星計劃」： AI 將重塑投資銀行初階工作

Trend Micro 聯手緯創數技 成立 Magna AI 搶攻 2,290 億美元企業 AI 市場

Meta 推出 Llama 2 Long 模型　對長指令有更佳處理表現

AI 教父、百度前總裁等 800 位全球領袖聯署要求禁止超智能 AI 開發

ARM 躋身 AI 資料中心標準制定核心與科技巨頭重塑產業規則

Trend Micro 聯手緯創數技成立 Magna AI 搶攻 2,290 億美元企業 AI 市場