AI模型訓練策略新進展 RLSD兼顧穩定與效率

Date:

圖/本報AI製圖(示意圖)

商傳媒|葉安庭/綜合外電報導

人工智慧領域研究人員近日提出一項名為「自我蒸餾強化學習」(RLSD)的新型策略,旨在解決大型語言模型(LLM)訓練過程中,如何同時維持學習穩定性與提升效率的挑戰。這項研究結合了傳統上兩種主要的模型訓練途徑,為AI開發帶來新的方向。

現行大型語言模型的訓練主要有兩種策略。其一是「策略蒸餾」(on-policy distillation, OPD),透過一個大型的「教師模型」在每個步驟中,為「學生模型」提供密集、細緻到詞元(token)層級的指導。另一種是「可驗證獎勵強化學習」(reinforcement learning with verifiable rewards, RLVR),這種方法從環境中獲取稀疏、二進位的回饋(例如正確或錯誤、已解決或未解決),並與真實情況連結。

然而,研究發現純粹的「策略自我蒸餾」(on-policy self-distillation, OPSD)——即模型本身同時扮演學生與教師角色——存在穩定性問題。儘管在初期能迅速改善模型表現,但很快就會因為「資訊洩漏」導致學習崩潰。這是由於教師模型知識源自學生模型自身,會不斷強化錯誤而非修正,進而產生不穩定、容易自我滿足但無法泛化的解決方案。在純粹的OPSD中,學生與教師模型間的克勞爾散度(KL divergence)表現出不穩定性,顯示模型在震盪中學習到不穩固的解方。

相較之下,RLVR雖能提供可靠的方向性回饋,但當正確結果出現頻率不高時,學習進度會顯得緩慢。而自我蒸餾雖能提供密集的即時回饋,卻因缺乏外部事實的依據,容易引發資訊洩漏。

為解決上述問題,研究人員提出了RLSD策略。此方法精巧地將RLVR與自我蒸餾的角色分開。RLSD利用RLVR提供稀疏但 anchored 於真實情況的方向性回饋,同時運用自我蒸餾來校準策略梯度更新的幅度,而非直接作為學習目標。這種方式透過計算學生與教師模型在詞元層級的策略差異,將學習重點放在分歧最大的區域。

透過結合兩者優勢,RLSD策略避免了資訊洩漏問題,因為學習方向來自環境,而學習幅度的校準則來自模型本身的自我比較。根據研究結果顯示,RLSD不僅能維持RLVR的訓練穩定性,更能達到比單純RLVR更高的收斂上限。這項混合式方法使學習能更集中於正確路徑中的關鍵步驟,以及錯誤路徑中容易出錯的環節,為AI模型訓練帶來更智慧、更高效的解決方案。

05f8e341 0e40 474f 9f1f ae3a44826eb0

Share post:

spot_imgspot_img

熱門

相關新聞
Related

Meta瞄準個人超級智慧 2026年大舉擴展消費級AI產品線

商傳媒|葉安庭/綜合外電報導社群媒體巨擘 Meta 預計於 2026 年大幅擴展旗下消費級人工智慧(AI)產品線,目標是向消費者提供「個人超級智慧」。Meta 執行長馬克·祖克柏(Mark Zuckerberg)對公司在 AI 領域的投資前景感到樂觀,即使在暫停未成年用戶使用...

Chrome內建AI技能進化!常用Gemini指令可一鍵存取

商傳媒|記者責任編輯/綜合外電報導綜合《路透》及科技權威媒體《Engadget》報導,Google 於 4 月 15 日宣佈,為進一步提升生產力,旗下 Chrome 瀏覽器桌面版正式導入全新功能「Skills」。此項技術讓使用者能將個人常用的 Gemini...

亞馬遜領軍核能轉型X-energy啟動IPO 鎖定AI數據中心電力商機

商傳媒|記者責任編輯/綜合外電報導隨著人工智慧數據中心與全球電氣化轉型帶來的電力缺口持續擴大,美國核能新創巨頭 X-energy 於週三正式開啟投資者路演。根據提交給美國證券交易委員會(SEC)的最新文件顯示,該公司預計 IPO 發行價落在每股 16 至 19 美元之間;若以價格區間上限計算,本次上市可望為公司注入約...

輝達開源量子AI模型問世 瞄準糾錯瓶頸改寫運算格局

商傳媒|記者陳宜靖/台北報導NVIDIA推出開源量子AI模型「NVIDIA Ising」,主打量子糾錯與校準技術突破,試圖解決量子運算長年面臨的不穩定問題。隨著AI與量子計算融合加速,產業正朝實用化邁出關鍵一步。一、量子運算概念量子運算被視為下一代運算技術,但長期受限於量子位元(qubit)極易受到外界干擾,導致計算結果不穩定。此次輝達推出的Ising模型,正是針對這一核心問題提出解方,透過AI協助控制與修正運算過程,降低錯誤率並提升整體效率。該模型名稱源自物理學中的「伊辛模型」,用於描述複雜系統中粒子之間的交互作用,顯示其設計理念直接承襲基礎物理理論。二、AI與高效運算架構在技術架構上,Ising模型透過AI建立類似「控制層」的系統,使量子電腦運作更接近傳統穩定的計算環境。黃仁勳指出,AI將成為量子運算實用化的關鍵推手。透過結合GPU與量子處理器(QPU),輝達嘗試打造混合運算架構,使量子計算不再孤立於實驗室,而能融入現有高效能運算體系。三、科學研究與實驗室應用目前已有多個國際研究機構導入該模型,包括中央研究院、費米國家加速器實驗室及多所頂尖大學。這顯示量子AI技術正逐步從理論走向實驗與應用。研究人員指出,透過AI輔助校準與糾錯,原本需耗費數天的操作流程,可大幅縮短至數小時,有助於提升研究效率與實驗穩定性。四、AI神經網路與量子糾錯Ising模型包含兩大核心模組:「Calibration」與「Decoding」。前者負責即時校準量子位元,後者則透過3D卷積神經網路(CNN)進行錯誤識別與修正。在效能上,該模型相較現有開源工具,在速度與準確度上均有顯著提升,反映AI在複雜計算問題中的應用潛力。五、未來產業與市場競爭市場研究預估,量子運算產業規模將於2030年突破百億美元。隨著技術瓶頸逐步被突破,相關應用有望延伸至金融風險計算、藥物研發與材料科學等領域。然而,量子技術仍處於早期發展階段,實際商業化仍面臨成本、標準化與硬體限制等挑戰。輝達此次開源策略,將有助於擴大開發者生態系,但最終成效仍需時間驗證。整體而言,AI與量子運算的結合,正逐步重塑高效能計算的未來版圖。在全球科技競爭加劇下,相關技術突破將成為影響產業領先地位的重要關鍵。標籤: 合作媒體商傳媒