AI模型訓練策略新進展 RLSD兼顧穩定與效率

Date:

圖/本報AI製圖(示意圖)

商傳媒|葉安庭/綜合外電報導

人工智慧領域研究人員近日提出一項名為「自我蒸餾強化學習」(RLSD)的新型策略,旨在解決大型語言模型(LLM)訓練過程中,如何同時維持學習穩定性與提升效率的挑戰。這項研究結合了傳統上兩種主要的模型訓練途徑,為AI開發帶來新的方向。

現行大型語言模型的訓練主要有兩種策略。其一是「策略蒸餾」(on-policy distillation, OPD),透過一個大型的「教師模型」在每個步驟中,為「學生模型」提供密集、細緻到詞元(token)層級的指導。另一種是「可驗證獎勵強化學習」(reinforcement learning with verifiable rewards, RLVR),這種方法從環境中獲取稀疏、二進位的回饋(例如正確或錯誤、已解決或未解決),並與真實情況連結。

然而,研究發現純粹的「策略自我蒸餾」(on-policy self-distillation, OPSD)——即模型本身同時扮演學生與教師角色——存在穩定性問題。儘管在初期能迅速改善模型表現,但很快就會因為「資訊洩漏」導致學習崩潰。這是由於教師模型知識源自學生模型自身,會不斷強化錯誤而非修正,進而產生不穩定、容易自我滿足但無法泛化的解決方案。在純粹的OPSD中,學生與教師模型間的克勞爾散度(KL divergence)表現出不穩定性,顯示模型在震盪中學習到不穩固的解方。

相較之下,RLVR雖能提供可靠的方向性回饋,但當正確結果出現頻率不高時,學習進度會顯得緩慢。而自我蒸餾雖能提供密集的即時回饋,卻因缺乏外部事實的依據,容易引發資訊洩漏。

為解決上述問題,研究人員提出了RLSD策略。此方法精巧地將RLVR與自我蒸餾的角色分開。RLSD利用RLVR提供稀疏但 anchored 於真實情況的方向性回饋,同時運用自我蒸餾來校準策略梯度更新的幅度,而非直接作為學習目標。這種方式透過計算學生與教師模型在詞元層級的策略差異,將學習重點放在分歧最大的區域。

透過結合兩者優勢,RLSD策略避免了資訊洩漏問題,因為學習方向來自環境,而學習幅度的校準則來自模型本身的自我比較。根據研究結果顯示,RLSD不僅能維持RLVR的訓練穩定性,更能達到比單純RLVR更高的收斂上限。這項混合式方法使學習能更集中於正確路徑中的關鍵步驟,以及錯誤路徑中容易出錯的環節,為AI模型訓練帶來更智慧、更高效的解決方案。

05f8e341 0e40 474f 9f1f ae3a44826eb0

Share post:

spot_imgspot_img

熱門

相關新聞
Related

川普政府阻離岸風電開發屢遭挫敗 法院認定禁令違法

商傳媒|責任編輯/綜合外電報導美國總統川普(Donald Trump)上任後積極推動中止離岸風電開發,但其多項政策與行政命令面臨聯邦法院挑戰,部分禁令已被裁定違法,顯示政府在能源政策轉向上面臨法律阻礙。川普總統於2025年1月20日上任首日便簽署行政命令,暫停外大陸棚(Outer Continental Shelf)區域的離岸風電租賃與專案。隨後,美國內政部(Interior Department)於同年7月撤銷了沿海外大陸棚所有指定的風能區,並於8月啟動對聯邦法規的審查。然而,這些行政措施在法律層面遭遇挫敗。麻州聯邦地區法院法官派蒂·薩里斯(Patti B. Saris)在2025年12月8日裁定,川普政府最初的離岸風電禁令因無限期暫停營運而被認定為非法。薩里斯法官指出,該命令除了武斷且反覆無常外,更因違反法律而必須被廢止。儘管內政部在同年12月22日以「國家安全風險」為由,暫停了五家正在興建風力計畫公司的租賃權,但另一位聯邦法官於2026年2月2日再度允許這五家公司恢復營運。對此,川普政府已於2月17日提出上訴。儘管政府試圖阻撓,離岸風電的發展仍在推進。能源開發商Vineyard Wind已於2026年3月14日完成麻州一座新離岸風電場的建設,這是自川普政府威脅停止所有營運以來首個完成的專案。此外,聯邦政府也曾嘗試說服離岸風電公司轉變發展方向。內政部在2026年3月23日宣布與法國能源巨擘TotalEnergies達成協議,終止其離岸風電專案,轉而投資天然氣開發,凸顯出政府在能源政策上的多方操作。標籤: 合作媒體商傳媒

韓泰電池六度蟬聯韓國代表品牌大獎 創新技術強化全球競爭力

商傳媒|吳承岳/台北報導韓國電池製造商Hankook Battery(韓泰電池)近期再次榮獲「2026韓國代表品牌大獎」車用電池部門的最高榮譽。這不僅是該公司自2021年以來連續第六年獲此殊榮,更是自2017年首次獲獎以來,第七度獲選為最優品牌,彰顯其在市場上的穩固地位與持續創新能力。Hankook Battery隸屬於韓泰控股(Hankook & Company)集團,與輪胎及熱管理系統事業共同構成集團的核心業務支柱。該公司目前已在全球約100個國家建立銷售網絡,並擁有超過450家客戶。在生產方面,除了韓國境內的全州和大田工廠外,韓泰電池亦設有美國當地生產據點,以服務廣大的國際市場。近年來,隨著車輛電動化和電裝化的趨勢加速,市場對高效能電池的需求日益增加。Hankook Battery開發的AGM(Absorbent Glass Mat)電池,即為因應此趨勢而生的高性能鉛酸電池。該產品強化了穩定的電力供應、優異的充放電性能、更長的耐用性,以及對振動和衝擊的抵抗能力,滿足現代車輛的嚴苛要求。韓泰控股為提升品牌一致性,於去年(2025年)在集團整合品牌「Hankook」體系下,導入了反映電池事業定位的標語「Charge in...

火箭科學家失蹤揭國安隱憂 多位國防與科研人才頻傳異常事件

商傳媒|林昭衡/綜合外電報導一名與美國先進火箭系統關鍵國防技術相關的火箭科學家莫妮卡·賈辛托·瑞薩(Monica Jacinto Reza),去年6月22日於聖蓋博山脈徒步時失蹤。這起事件引起了外界對美國國防科技人才流動與國家安全的潛在隱憂,特別是近期多位參與國防或科研計畫的人員相繼發生異常事件。60歲的瑞薩女士曾任職於火箭引擎製造商Rocketdyne,該公司後來併入Aerojet Rocketdyne。她擁有一項獨特的金屬專利,該金屬名為Mondaloy,是一種耐高溫且極為堅固的鎳基超級合金。Mondaloy被設計用於美國空軍和美國國家航空暨太空總署(NASA)支持的先進推進系統關鍵部件,例如渦輪、管道和燃料系統。值得注意的是,這種材料曾在開發AR1火箭引擎中發揮作用,該引擎旨在取代聯合發射聯盟(United Launch Alliance)火箭上使用的俄製RD-180引擎,對於美國國家安全發射任務至關重要。瑞薩女士的失蹤並非孤例。去年以來,多起涉及國防與科研領域的相關人員事件陸續浮出檯面。其中包括:監督空軍研究項目(涵蓋太空監測和紅外追蹤系統)的美國退役少將威廉·尼爾·麥卡斯蘭(William Neil McCasland),也於2025年6月失蹤;NASA噴射推進實驗室(Jet Propulsion...

ispace-U.S. 躋身商業太空聯盟董事會 助美建月球基地

商傳媒|方承業/綜合外電報導美國商業太空總會(Commercial Space Federation, CSF)與商業月球探測公司 ispace technologies U.S. 公司(ispace-U.S.)昨日宣布,ispace-U.S. 已正式加入...