close

LLM

人工智能

Gemini 3 信任評分大提升 牛津研究機構獨立測試揭示 AI 模型評估新標準

Google 旗下 Gemini 3 Pro 人工智能模型在由牛津大學研究人員創立的獨立研究機構 Prolific 進行的 HUMAINE 基準測試中取得突破,信任評分由上代 Gemini 2.5 Pro 的 16% 急升至 69%,創下該機構歷來最高分。不同於傳統學術基準測試,HUMAINE 採用 26,000 名真實用戶進行盲測,評估模型在信任度、安全性、適應性及溝通風格等實際應用層面表現。測試結果對企業部署 AI 具重大參考價值,因反映真實用戶體驗而非單純技術指標,助企業按不同用戶群體和應用場景選擇最合適 AI 模型。
read more
人工智能

Red Hat AI 3 解決混合雲部署三大難題 跳出企業 AI 項目 95% 失敗率困局

面對企業 AI 項目高達 95% 的失敗率,Red Hat 推出 AI 3 平台,透過分散式推理技術 llm-d 及模型即服務(MaaS)架構,解決硬件資源樽頸。配合亞太區主權 AI 趨勢,新平台協助企業將投資轉化為可衡量的業務成果,加速代理式 AI 在混合雲環境實現
read more
人工智能

LLM 生成惡意程式能力提升 但與全自動網絡攻擊仍有距離

有網絡安全研究近期發現,大型語言模型(LLM)雖然已經能夠生成惡意程式碼,但目前仍未達到可靠運作水平。Netskope Threat Labs 威脅獵人 Jan Michael Alcantara 在最新研究報告中指出,研究團隊成功誘使 GPT-3.5-Turbo 和 GPT-4 生成惡意軟件,但這些程式碼「對於實際部署而言過於不可靠和無效」。
read more
人工智能

Hugging Face 警告 LLM 市場現泡沫 專門化細型模型將成企業首選

人工智能平台 Hugging Face 聯合創辦人兼行政總裁 Clem Delangue 日前在 Axios 活動上表示,市場目前面臨的並非廣泛人工智能泡沫,而是過度投資於大型語言模型(LLM)的現象,並預測泡沫或於 2026 年爆破。Clem Delangue 強調大型語言模型只是人工智能其中一個分支,其他領域如生物學、化學、圖像、音訊及影片的人工智能應用仍處於發展初期,未來數年將有更大突破。
read more
人工智能

英國消費者過度信賴 AI 聊天機械人 研究揭準確率僅約五成

英國消費者權益組織 Which? 最新測試顯示,主流 AI 聊天機械人回答消費者查詢時錯誤率極高,但近半使用者仍對這些工具抱有過高信任。研究團隊測試 ChatGPT、Google Gemini、Microsoft Copilot、Meta AI 及 Perplexity 等 6 款工具,發現準確率介乎 50% 至 71%,當中 Meta AI 表現最差,正確率僅約 51%,而全球最多人使用的 ChatGPT 準確率亦只有 64%,排名倒數第二。
read more
人工智能資訊保安

生成式 AI 淪為網絡攻擊利器 身份管理成企業防禦關鍵

研究機構 Forrester 最新發表報告顯示,生成式 AI 已經成為網絡攻擊者手中的「混亂製造者」,令企業網絡安全面臨前所未有的威脅。哥倫比亞大學 Tow 數碼新聞中心研究發現,包括 ChatGPT 和 Gemini 在內的 8 個 AI 模型整體錯誤率達到 60%。卡內基梅隆大學研究人員測試顯示,AI 代理在真實企業任務中的失敗率介乎 70% 至 90%。
read more
人工智能

Anthropic Haiku 4.5 全面看:速度更快價格更便宜 成本可節省 67%

AI 研究公司 Anthropic 推出最新小型語言模型 Claude Haiku 4.5,其編碼效能媲美頂尖模型,處理速度更快,成本卻大幅降低 67%。這項技術突破將重塑企業 AI 應用的成本結構,尤其在客戶服務、即時助理及程式編寫等場景。本文深入分析其技術、對企業部署策略的影響,以及 AI 產業如何進入高效能、低成本的新時代。
read more
人工智能

AI 投資回報如何衡量? Samsung TrueBench 以真實場景評估商業價值

Samsung 推出企業級 AI 生產力評估平台 TrueBench,旨在解決傳統基準測試的不足。此平台專為真實工作環境設計,支援 12 種語言及多種企業應用場景,為決策者提供準確的大型語言模型(LLM)生產力衡量標準。TrueBench 的出現,不僅有助企業更精準地評估 AI 投資回報,也標誌著 AI 評估正從技術指標轉向實際商業成果,為企業在 AI 時代搶佔先機提供關鍵工具。
read more