AI模型訓練策略新進展 RLSD兼顧穩定與效率

Date:

圖/本報AI製圖(示意圖)

商傳媒|葉安庭/綜合外電報導

人工智慧領域研究人員近日提出一項名為「自我蒸餾強化學習」(RLSD)的新型策略,旨在解決大型語言模型(LLM)訓練過程中,如何同時維持學習穩定性與提升效率的挑戰。這項研究結合了傳統上兩種主要的模型訓練途徑,為AI開發帶來新的方向。

現行大型語言模型的訓練主要有兩種策略。其一是「策略蒸餾」(on-policy distillation, OPD),透過一個大型的「教師模型」在每個步驟中,為「學生模型」提供密集、細緻到詞元(token)層級的指導。另一種是「可驗證獎勵強化學習」(reinforcement learning with verifiable rewards, RLVR),這種方法從環境中獲取稀疏、二進位的回饋(例如正確或錯誤、已解決或未解決),並與真實情況連結。

然而,研究發現純粹的「策略自我蒸餾」(on-policy self-distillation, OPSD)——即模型本身同時扮演學生與教師角色——存在穩定性問題。儘管在初期能迅速改善模型表現,但很快就會因為「資訊洩漏」導致學習崩潰。這是由於教師模型知識源自學生模型自身,會不斷強化錯誤而非修正,進而產生不穩定、容易自我滿足但無法泛化的解決方案。在純粹的OPSD中,學生與教師模型間的克勞爾散度(KL divergence)表現出不穩定性,顯示模型在震盪中學習到不穩固的解方。

相較之下,RLVR雖能提供可靠的方向性回饋,但當正確結果出現頻率不高時,學習進度會顯得緩慢。而自我蒸餾雖能提供密集的即時回饋,卻因缺乏外部事實的依據,容易引發資訊洩漏。

為解決上述問題,研究人員提出了RLSD策略。此方法精巧地將RLVR與自我蒸餾的角色分開。RLSD利用RLVR提供稀疏但 anchored 於真實情況的方向性回饋,同時運用自我蒸餾來校準策略梯度更新的幅度,而非直接作為學習目標。這種方式透過計算學生與教師模型在詞元層級的策略差異,將學習重點放在分歧最大的區域。

透過結合兩者優勢,RLSD策略避免了資訊洩漏問題,因為學習方向來自環境,而學習幅度的校準則來自模型本身的自我比較。根據研究結果顯示,RLSD不僅能維持RLVR的訓練穩定性,更能達到比單純RLVR更高的收斂上限。這項混合式方法使學習能更集中於正確路徑中的關鍵步驟,以及錯誤路徑中容易出錯的環節,為AI模型訓練帶來更智慧、更高效的解決方案。

05f8e341 0e40 474f 9f1f ae3a44826eb0

Share post:

spot_imgspot_img

熱門

相關新聞
Related

中選會「媒宣費」審查過關僅刪78萬 王鴻薇:釋出極大善意

瀏覽數:432王鴻薇質詢時指出,中選會過去媒宣採購長期集中於少數媒體,包括民視、三立等,引發外界對選務中立與資源分配公平性的疑慮。她表示,原本主張全數刪除,是希望中選會正視媒宣採購過度集中的問題;但考量游盈隆新上任,加上年底將舉行九合一選舉,並可能面臨全國性公投,因此決定「釋出極大善意」,將刪減金額下修為78萬元。游盈隆答詢時表示,經詢問中選會相關單位,過去媒宣費用均依公開招標程序辦理,並嚴謹遵循相關規定,但實際結果確實呈現集中情形。他承諾,將進一步深入了解歷年媒宣採購狀況,並彙整完整說明提供內政委員會參考。游盈隆也指出,中選會今年面對大型選務工作,媒宣費僅編列700多萬元,若遭大幅刪除,將對選務宣導造成壓力。他感謝王鴻薇與委員會理解中選會需求,也表示有感受到善意,並同意減列78萬元。王鴻薇表示,中選會肩負選務公平、公正與中立責任,媒體採購更應避免過度集中,未來仍會持續監督相關預算執行情形,要求中選會落實公開透明,讓選務宣導回歸專業與中立。

黃仁推動「南迴傳統生態體驗園區」成形!行政院核准金崙37筆國有地無償撥用

瀏覽數:491黃仁指出,未來「南迴地區傳統生態體驗園區」可結合金崙在地文化、生態教育、休憩綠帶、友善步道、停車空間及河堤周邊公共設施,打造兼具防災、觀光、教育與休閒功能的複合式公共場域,讓土地真正回歸地方、回應居民需求,也為太麻里與金崙創造新的發展契機。據了解,本案是由太麻里鄉代表會提案,建議將「金崙溪疏濬工程」所產生之土石,移置至交通部觀光署位於太麻里鄉金崙村金富段661地號等38筆土地,作為回填造地與整地再利用。年初由黃仁委員主持會勘,陪同會勘的貴賓還包括觀光署副署長黃勢芳、台東縣議會議長吳秀華、台東縣政府建設處代理科長董韋廷、台東縣議員翁麗吟、台東縣議員尤忠正、太麻里鄉民代表羅春明、邱天生、陳孫金、雷明聖、廖雙穎以及太麻里金崙村長、觀光署科長吳盈璇等人。

輝達布局台灣牽動供電挑戰 王鴻薇:「錯誤能源政策」代價已浮現

瀏覽數:912王鴻薇指出,黃仁勳並非首次公開提及能源對AI發展的重要性。他強調,若沒有充足能源,就無法支撐經濟成長,也難以支撐AI產業持續發展。王鴻薇認為,這番說法正反映出台灣當前能源政策所面臨的壓力。王鴻薇批評,民進黨長期推動「非核家園」政策,導致台灣能源結構彈性不足,如今即使討論重啟核二、核三,最快也需等到2028年,難以立即因應AI產業快速成長帶來的用電需求。她直言,「錯誤能源政策」終究必須付出代價,現在問題已逐步浮現。針對輝達落腳北士科所衍生的供電討論,王鴻薇也質疑民進黨立委沈伯洋,將外界關注的能源與缺電問題,轉移成「變電所問題」。她表示,AI產業發展的關鍵不只是個別設施配置,而是整體能源供應是否充足、穩定,政府不應模糊焦點。王鴻薇進一步指出,台電過去也曾說明,隨著台灣AI產業發展,未來電力需求將達過去十年平均增幅的兩倍以上。她強調,若政府無法正視缺電風險,並提出具體能源配置與穩定供電方案,台灣在AI產業鏈中的關鍵地位,恐將受到挑戰。王鴻薇呼籲,政府應誠實面對AI時代的能源需求,不應再以政治立場迴避供電壓力,更不能將產業發展所需的穩定電力,簡化為單一變電設施問題。台灣若要掌握AI浪潮,就必須先確保能源政策務實、電力供應穩定。

美國SEC延遲代幣化資產交易豁免計畫 監管前景添變數

商傳媒|方承業/綜合外電報導美國證券交易委員會(SEC)近期決定延後公布一項廣泛豁免計畫,該計畫原欲允許美國加密貨幣公司交易代幣化資產。此舉恐將使市場期盼已久的監管清晰度再次蒙上陰影。這項被稱為「創新豁免」(innovation exemption)的計畫,原訂近期內發布,旨在為代幣化證券交易提供明確路徑。然而,美國證券交易委員會最終選擇延遲發布,具體原因並未公開說明。此一決定對尋求在美國市場拓展代幣化業務的企業而言,無疑增加了監管的不確定性。分析人士指出,美國在全球金融市場扮演重要角色,其監管動向常為其他國家或地區的數位資產監管框架提供借鑒。美國證券交易委員會的這項延遲舉措,可能讓全球數位資產市場的發展面臨更多變數,同時也可能影響包含台灣在內,正在積極探索和建立自身加密貨幣與代幣化資產監管體系的國家,使其在規劃相關法規時面臨類似的挑戰與不確定性。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒