
在 AI 市場中,Midjourney 作為領先的 AI 圖像生成平台早已家喻戶曉。根據第三方統計,其 Discord 頻道用戶已近 2000 萬,實際用戶數量可能更多。然而,他們的野心看來並不止於圖像生成,繼 2024 年宣佈開發自家的運算和 AI 硬件後,Midjourney 最近與紐約大學 (NYU) 的機器學習專家合作,發表了一篇關於提升大型語言模型 (LLM) 創意寫作能力的研究論文,顯示其業務拓展的決心。
新技術帶來更高多樣性
在創意寫作方面,現有的大型語言模型如 Meta 的 Llama 和 Mistral 等往往面臨一個共同問題:輸出內容缺乏多樣性,傾向於生成相似且可預測的內容。這種情況在事實性問答或程式編寫等範疇可能不是大問題,但在創意寫作這類本質上開放性的任務中卻是一個明顯的弱點。
為了解決這個問題,Midjourney 與 NYU 合作開發了兩種新技術:多元化直接偏好最佳化(DDPO)和多元化比值偏好最佳化(DORPO)。這些創新方法不僅重視輸出品質,還特別注重內容的多樣性和創新性。研究團隊使用了來自 Reddit 的 r/writingPrompts 社群的數據集,並基於 Meta 的 Llama-3.1-8B 和 Mistral-7B-v0.3 進行了訓練。結果顯示,這些新方法能夠顯著提升 AI 生成內容的多樣性,同時保持內容的連貫性和可讀性。
為商用營銷寫作帶來新選擇
今次研究結果如果實際推出為解決方案,將為企業帶來新的 AI 文章生成選擇,應用範疇廣泛。例如在市場營銷與品牌故事方面,企業可利用這些技術生成更具創意和獨特性的行銷文案,避免陳詞濫調,提升品牌差異化。此外在客戶服務與對話式 AI 範疇,企業可以開發出回應更多樣化、更具個性的客服機械人,提升客戶體驗和互動品質。而在內容創作與媒體製作方面,出版商、媒體公司可以利用這些技術產生多元化的創意內容,如故事情節、劇本構思等,為創作團隊提供靈感;遊戲開發與互動娛樂方面,遊戲開發商可以實現更豐富的角色對話和分支故事線,創造更具沉浸感的遊戲體驗。
對於負責 AI 部署和最佳化的企業專業人士而言,這項研究提供了一種新方法,可以在訓練階段就提升模型的創意能力,減少後期調整的需求。企業可以透過整合這些技術,使其 AI 應用更具適應性和人性化,從而更好地滿足客戶需求和市場期望。
文章生成技術仍有不少發展空間
Midjourney 跨足語言模型範疇的舉動,預示著 AI 創意內容生成的未來發展趨勢。雖然多模態和推理型語言模型備受關注,但基於 Transformer 架構的文本型大語言模型仍有巨大的最佳化空間,特別是在創意寫作範疇。AI 模型提供商正在從單一範疇專精向全方位發展,Midjourney 從圖像生成擴展到語言模型就是一個典型例子。未來我們可能會看到更多 AI 公司打破範疇界限,提供更全面的創意解決方案。隨著 DDPO 和 DORPO 等技術的應用,我們將看到 AI 生成內容的品質和多樣性之間的平衡得到顯著改善。這不僅將為企業帶來更豐富的內容創作工具,還將推動整個創意產業的變革。
對於有遠見的企業而言,現在是時候關注並投資於這些新興的 AI 創意技術。透過及早採納和整合這些創新方法,企業可以在市場競爭中搶佔先機,為客戶提供更具創意和個性化的產品與服務,從而在數碼轉型的浪潮中脫穎而出。
來源:VentureBeat