以小搏大!AI工程師開發「縫合怪」模型性能超越阿里大模型

Date:

圖/本報資料庫

商傳媒|責任編輯/綜合外電報導

一名 AI 工程師 Kyle Hessling 近期透過結合多款頂尖大型語言模型(LLM),成功打造出一個 180 億參數的「縫合怪」(frankenmerge)模型。這款模型不僅能在消費級硬體上執行,其表現更超越了中國科技巨擘阿里巴巴(Alibaba)旗下更大規模的 350 億參數模型,展現了開源社群在 AI 技術整合上的巨大潛力。

根據《Decrypt》報導,Kyle Hessling 將來自 Jackrong 開發的兩個微調模型——Qwopus 3.5-9B-v3.5(融合了 Claude 4.6 Opus 的推理風格)以及 Qwen 3.5-9B-GLM5.1-Distill-v1(基於 z.AI 的 GLM-5.1 教師模型訓練)——以「直通式縫合合併」(passthrough frankenmerge)技術進行整合。他將前者的 0 至 31 層與後者的 32 至 63 層堆疊,形成一個總共 64 層的新模型。

突破硬體限制 低功耗超越大型模型

這項創舉面臨的挑戰之一是 Qwen 3.5 混合線性/全注意力架構,現有合併工具無法直接支援。Kyle Hessling 為此開發了客製化的合併腳本,並在初步合併後,透過 QLoRA 技術進行了 1,000 步的「修復微調」(heal fine-tune),以解決模型層邊界造成的混亂程式碼輸出問題。

最終誕生的 180 億參數模型在 44 項能力測試中通過了 40 項。最引人矚目的是,它在 Q4_K_M 量化後僅需 9.2 GB 的顯示記憶體(VRAM),理論上可在 NVIDIA RTX 3060 等相對平價的繪圖處理器(GPU)上運作。相較之下,阿里巴巴的 Qwen 3.6-35B-A3B MoE 模型需高達 22 GB 的 VRAM,但在測試中卻被 Kyle Hessling 的「縫合怪」模型超越。

過度推理成瓶頸 仍具廣泛應用潛力

然而,該模型也存在挑戰。測試發現,其在某些任務上會出現「過度思考」的現象,產生冗長的推理鏈,甚至達到令牌限制(token limits)。例如,要求模型生成一個貪食蛇遊戲的程式碼時,竟耗費超過 40 分鐘進行推理。這種傾向在 Qwopus 系列中已是已知問題,由於堆疊了兩個推理蒸餾模型,可能使此行為在特定提示下被放大。這對於希望在消費級硬體上運行嚴肅應用程式的用戶而言,可能成為日常使用上的瓶頸。

儘管如此,這項成就凸顯了開源社群的創新力量:一位匿名的開發者發布專業微調模型與訓練指南,另一位愛好者則利用客製腳本進行堆疊與修復,最終創造出一個比大型實驗室發布模型更小、性能更佳的模型。這款模型在發布的頭兩週內便累積超過三千次下載,顯示其廣受關注。這類「從底層解決方案到專業化」的開源協作模式,正逐步縮小個人專案與前沿部署之間的差距,讓更多開發者能夠參與其中。

a5fe41d9 019d 4fc1 92cf 9def91fb7ea9

Share post:

spot_imgspot_img

熱門

相關新聞
Related

輝達布局台灣牽動供電挑戰 王鴻薇:「錯誤能源政策」代價已浮現

瀏覽數:912王鴻薇指出,黃仁勳並非首次公開提及能源對AI發展的重要性。他強調,若沒有充足能源,就無法支撐經濟成長,也難以支撐AI產業持續發展。王鴻薇認為,這番說法正反映出台灣當前能源政策所面臨的壓力。王鴻薇批評,民進黨長期推動「非核家園」政策,導致台灣能源結構彈性不足,如今即使討論重啟核二、核三,最快也需等到2028年,難以立即因應AI產業快速成長帶來的用電需求。她直言,「錯誤能源政策」終究必須付出代價,現在問題已逐步浮現。針對輝達落腳北士科所衍生的供電討論,王鴻薇也質疑民進黨立委沈伯洋,將外界關注的能源與缺電問題,轉移成「變電所問題」。她表示,AI產業發展的關鍵不只是個別設施配置,而是整體能源供應是否充足、穩定,政府不應模糊焦點。王鴻薇進一步指出,台電過去也曾說明,隨著台灣AI產業發展,未來電力需求將達過去十年平均增幅的兩倍以上。她強調,若政府無法正視缺電風險,並提出具體能源配置與穩定供電方案,台灣在AI產業鏈中的關鍵地位,恐將受到挑戰。王鴻薇呼籲,政府應誠實面對AI時代的能源需求,不應再以政治立場迴避供電壓力,更不能將產業發展所需的穩定電力,簡化為單一變電設施問題。台灣若要掌握AI浪潮,就必須先確保能源政策務實、電力供應穩定。

美國SEC延遲代幣化資產交易豁免計畫 監管前景添變數

商傳媒|方承業/綜合外電報導美國證券交易委員會(SEC)近期決定延後公布一項廣泛豁免計畫,該計畫原欲允許美國加密貨幣公司交易代幣化資產。此舉恐將使市場期盼已久的監管清晰度再次蒙上陰影。這項被稱為「創新豁免」(innovation exemption)的計畫,原訂近期內發布,旨在為代幣化證券交易提供明確路徑。然而,美國證券交易委員會最終選擇延遲發布,具體原因並未公開說明。此一決定對尋求在美國市場拓展代幣化業務的企業而言,無疑增加了監管的不確定性。分析人士指出,美國在全球金融市場扮演重要角色,其監管動向常為其他國家或地區的數位資產監管框架提供借鑒。美國證券交易委員會的這項延遲舉措,可能讓全球數位資產市場的發展面臨更多變數,同時也可能影響包含台灣在內,正在積極探索和建立自身加密貨幣與代幣化資產監管體系的國家,使其在規劃相關法規時面臨類似的挑戰與不確定性。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒

南韓世宗新設投資公司 年薪上看1.3億韓元挑戰人才磁吸

商傳媒|吳承岳/台北報導南韓世宗特別自治市將成立一家負責管理 2,000 億美元對美戰略投資的全新實體——Korea-US Strategic Investment Corporation,提供年薪高達 1.3 億韓元的職位,被視為當地的高薪「神級職場」。這家新設的投資公司預計下個月正式啟動,並將招募 16...

慶應大學教授示警:伊朗情勢引通膨,減消費稅反添薪柴

商傳媒|吳承岳/台北報導慶應義塾大學經濟學部教授土居丈朗近日指出,在全球通膨壓力持續、伊朗地緣政治緊張情勢未歇之際,日本政府若透過減徵消費稅來刺激國內需求,不僅無助於抑制物價上漲,反而可能加劇通膨。土居丈朗教授強調,伊朗衝突的長期化,可能對全球經濟造成顯著衝擊。由於日本與東南亞國家的供應鏈緊密連結,一旦東南亞地區的石油供應受阻,將直接影響日本的物資供應。他提到,日本企業受困於長達三十年的通縮環境,導致其「價格轉嫁能力」普遍較弱,難以有效將上漲的原料成本轉嫁給消費者,進而影響企業獲利,甚至造成貿易條件惡化。面對當前的物價上漲,土居教授認為,政府的財政政策應著重於抑制需求,而非不必要地刺激需求。他以日本前首相田中角榮為例,田中角榮在第一次石油危機時,曾果斷放棄其「日本列島改造論」,轉而實施抑制需求的政策。土居教授建議,與其片面減免食品消費稅,不如考慮推動「育兒給付稅額抵減」作為更具效益的解決方案。對於財政健全與貨幣政策,土居丈朗教授也表達擔憂。他指出,政府針對十七個領域提出的「危機管理投資」策略,初期可能需發行公債支應,若缺乏明確的償還計畫,可能在現有通膨壓力下,進一步推升利率。他強調,一旦市場對日本財政產生不信任感,將需要付出十倍的努力才能挽回。此外,為遏止日圓持續貶值,日本銀行(BOJ)必須擁有充分的彈性來適時調整利率。儘管有傳聞首相高市不樂見升息,日本銀行仍需向市場明確表達其獨立性,以便在關鍵時刻果斷採取行動。土居教授提到,儘管財政年度 2026 一般會計年度的初級平衡(PB)預計將轉為正數,但如果無法穩定實現初級平衡盈餘,通膨所帶來的名目 GDP 增長恐掩蓋潛在的財政問題,而非真正的財政改善。他呼籲日本各界應進行更誠實、透明的經濟政策討論,而非礙於對首相高市的「過度忖度」而迴避關鍵議題。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒