突破語言藩籬:生成式AI Moana 5T的多語言突破與創新
上週透過系統性的實驗設計,試圖了解各個參數對生成式AI模型訓練和輸出表現的影響,我們成功誕生了Moana 5。經過大量測試,Moana 5能針對各種創意十足的User Prompt,撰寫出非常生動、流暢的文章。
模型現況分析
若是以知識探索的角度,自然想進一步改進這個生成式AI模型Moana 5
但它目前的表現已經幾乎完全符合預期,若繼續加強訓練,效果改善的空間可能像下圖中的橘線一樣,已經到達收斂瓶頸。
市場擴展策略
Moana 5經過針對台灣熱門討論版如Dcard和PTT的千篇數據訓練,已經能完美生成台灣鄉民風格的文章。
現在,我們將這個生成式AI的目標轉向國際市場。
我們開始搜集日本、韓國、歐洲等地的年輕人常用平台,發現各國對行銷文的接受度與討論文化與台灣大相逕庭。
因此,我們將目標鎖定於近期流量高漲且國際化的社群平台,Threads。
研究方法創新
研究正式開始。
為了測試生成式AI模型在學習不同國家年輕人用語的泛用性,我們提出了一個有趣的想法。
儘管我略懂日文,但完全不懂韓文,對我來說韓文就像一堆看不懂的符號。
不過,根據我對日文的了解,日本年輕人用語與台灣課堂上所學的日文有很大差異,因此即便略懂日文,我也經常無法理解他們的想表達的意思。
我們這次的做法是,先針對高流量的爆文進行無差別收集
所謂無差別,是指不翻譯、不理解文章內容的情況下,單純依流量收集。如果這樣的實驗可行,那就代表生成式AI能夠學習和應用任何語言。
實驗結果分析
在人工智慧(AI)和機器學習(ML)的領域中,模型訓練是關鍵的一步,而訓練資料的數量和質量對於模型的最終表現有很大的影響。
過去的研究表明,使用更多的訓練數據通常可以讓模型學習到更多有用的特徵,但也可能導致一些意想不到的問題,例如模型訓練效率下降。
在這項實驗中,我們針對Moana 5模型進行了訓練,過去的實驗顯示,當使用過大的數據集時,模型的訓練效率會降低,訓練時間變長,且可能導致過擬合的風險增加。過擬合(Over-fitting)指的是模型在訓練資料上表現良好,但在新資料上表現不佳,原因在於模型過度記住了訓練資料的特徵,而缺乏足夠的泛化能力來處理未知的情況。
為了減輕這個問題,我們這次選擇將數據集縮減至100篇文章,並觀察較少的訓練數據量是否有助於改善訓練效率和模型表現。
我們進行了5個訓練周期(epochs)的測試,結果顯示:
1. 模型的Training Loss顯著下降(表示模型在訓練集上的預測誤差減少)。
2. Validation Loss僅有微幅上升,這表明模型在未見過的驗證集上表現尚穩定。
3. 這次的過擬合情況比Moana 5模型的先前訓練更輕微。
一般來說,語感模型對過擬合不太敏感,因為語言特徵的多樣性使模型需要學習豐富的語義。然而,我們仍然希望模型能夠精準地符合使用者的需求,避免過度學習特定的資料特徵,導致模型偏離使用者的提示(User Prompt)。這樣的調整可以讓模型在實際應用中具有更好的泛化能力,從而提升其在不同情境下的表現。
研究成果與展望
基於Moana 5開發出的衍生生成式AI模型Moana 5T,已經能準確生成繁體中文、日文、韓文的Threads貼文,並且語氣貼近當地人。
這證明我們的方向正確,接下來會擴大日文和韓文數據的收集,進一步提高外語文章生成的穩定性,並同步進行各國語言的訓練。