駐派AI開源GLM-5.1大模型 SWE-Bench Pro實測力壓GPT-5.4、Claude Opus

Date:

商傳媒|葉安庭/綜合外電報導

中國人工智慧新創公司駐派人工智慧(Z.ai)昨日正式發布其最新開源大語言模型GLM-5.1,並採用寬鬆的MIT授權協議。這款模型在多項指標上展現卓越性能,特別是在衡量程式編寫能力的SWE-Bench Pro基準測試中,以58.4分的成績超越了GPT-5.4的57.7分與Claude Opus 4.6的57.3分,引發業界高度關注。

GLM-5.1模型核心亮點在於其創新的「智能體工程(agentic engineering)」設計,能夠在單一任務上自主運行長達八小時。這標誌著AI在軟體開發領域從輔助編程邁向更深層次的自主執行。該模型擁有7,540億參數,採用混合專家(Mixture-of-Experts)架構,並具備高達202,752個詞元(token)的上下文窗口,使其能夠處理複雜且耗時的任務。

駐派人工智慧指出,GLM-5.1的技術突破在於其透過「階梯式最佳化」機制,有效避免了先前模型常見的效能停滯現象。例如,在針對高效能向量資料庫(VectorDBBench)的測試中,GLM-5.1透過655次迭代及逾6,000次工具調用,最終將每秒查詢次數(QPS)最佳化至21,500次,相較於之前模型最佳表現提升約六倍。

除了SWE-Bench Pro的亮眼成績,GLM-5.1在其他專業基準測試中亦表現不俗。它在KernelBench Level 3測試中實現3.6倍的幾何平均加速(雖然仍略遜於Claude Opus 4.6的4.2倍)。在Terminal-Bench 2.0中,其得分為63.5分;CyberGym上得分68.7分;MCP-Atlas和T3-Bench則分別達到71.8分和70.6分。在邏輯推理領域,GLM-5.1在Humanitys Last Exam測試中,若允許使用外部工具,得分可從31.0躍升至52.3分,並在AIME 2026數學競賽基準測試中取得95.3分。

一位開發者提到,GLM-5.1在任務執行上比其他模型更可靠,且所需提示詞的重工次數更少。駐派人工智慧領導人Lou也在社群平台X上表示,其模型的自主工作時間可能是繼規模定律之後最重要的曲線,而GLM-5.1將是開源社群能親手驗證的第一個里程碑。該公司已將GLM-5.1的模型權重在Hugging Face和ModelScope上公開,支援vLLM、SGLang、xLLM等多種推論框架進行本地部署,讓開發者能彈性運用。

駐派人工智慧早於2026年初在香港交易所上市,市值達528.3億美元。儘管GLM-5.1採取開源策略,該公司仍提供付費的GLM-5 Turbo閉源模型,專為高速推論和持續性自動化任務設計,API使用費用為每百萬總詞元5.20美元。GLM-5.1的API價格為每百萬總詞元5.80美元。公司坦承,模型在無量化指標的任務中,可靠的自我評估能力以及如何更早脫離局部最佳解等挑戰仍有待克服。

29f6b45b 470e 4b66 888a 2d912f4060cd

Share post:

spot_imgspot_img

熱門

相關新聞
Related

美國SEC延遲代幣化資產交易豁免計畫 監管前景添變數

商傳媒|方承業/綜合外電報導美國證券交易委員會(SEC)近期決定延後公布一項廣泛豁免計畫,該計畫原欲允許美國加密貨幣公司交易代幣化資產。此舉恐將使市場期盼已久的監管清晰度再次蒙上陰影。這項被稱為「創新豁免」(innovation exemption)的計畫,原訂近期內發布,旨在為代幣化證券交易提供明確路徑。然而,美國證券交易委員會最終選擇延遲發布,具體原因並未公開說明。此一決定對尋求在美國市場拓展代幣化業務的企業而言,無疑增加了監管的不確定性。分析人士指出,美國在全球金融市場扮演重要角色,其監管動向常為其他國家或地區的數位資產監管框架提供借鑒。美國證券交易委員會的這項延遲舉措,可能讓全球數位資產市場的發展面臨更多變數,同時也可能影響包含台灣在內,正在積極探索和建立自身加密貨幣與代幣化資產監管體系的國家,使其在規劃相關法規時面臨類似的挑戰與不確定性。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒

南韓世宗新設投資公司 年薪上看1.3億韓元挑戰人才磁吸

商傳媒|吳承岳/台北報導南韓世宗特別自治市將成立一家負責管理 2,000 億美元對美戰略投資的全新實體——Korea-US Strategic Investment Corporation,提供年薪高達 1.3 億韓元的職位,被視為當地的高薪「神級職場」。這家新設的投資公司預計下個月正式啟動,並將招募 16...

慶應大學教授示警:伊朗情勢引通膨,減消費稅反添薪柴

商傳媒|吳承岳/台北報導慶應義塾大學經濟學部教授土居丈朗近日指出,在全球通膨壓力持續、伊朗地緣政治緊張情勢未歇之際,日本政府若透過減徵消費稅來刺激國內需求,不僅無助於抑制物價上漲,反而可能加劇通膨。土居丈朗教授強調,伊朗衝突的長期化,可能對全球經濟造成顯著衝擊。由於日本與東南亞國家的供應鏈緊密連結,一旦東南亞地區的石油供應受阻,將直接影響日本的物資供應。他提到,日本企業受困於長達三十年的通縮環境,導致其「價格轉嫁能力」普遍較弱,難以有效將上漲的原料成本轉嫁給消費者,進而影響企業獲利,甚至造成貿易條件惡化。面對當前的物價上漲,土居教授認為,政府的財政政策應著重於抑制需求,而非不必要地刺激需求。他以日本前首相田中角榮為例,田中角榮在第一次石油危機時,曾果斷放棄其「日本列島改造論」,轉而實施抑制需求的政策。土居教授建議,與其片面減免食品消費稅,不如考慮推動「育兒給付稅額抵減」作為更具效益的解決方案。對於財政健全與貨幣政策,土居丈朗教授也表達擔憂。他指出,政府針對十七個領域提出的「危機管理投資」策略,初期可能需發行公債支應,若缺乏明確的償還計畫,可能在現有通膨壓力下,進一步推升利率。他強調,一旦市場對日本財政產生不信任感,將需要付出十倍的努力才能挽回。此外,為遏止日圓持續貶值,日本銀行(BOJ)必須擁有充分的彈性來適時調整利率。儘管有傳聞首相高市不樂見升息,日本銀行仍需向市場明確表達其獨立性,以便在關鍵時刻果斷採取行動。土居教授提到,儘管財政年度 2026 一般會計年度的初級平衡(PB)預計將轉為正數,但如果無法穩定實現初級平衡盈餘,通膨所帶來的名目 GDP 增長恐掩蓋潛在的財政問題,而非真正的財政改善。他呼籲日本各界應進行更誠實、透明的經濟政策討論,而非礙於對首相高市的「過度忖度」而迴避關鍵議題。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒

「大空頭」巴里示警:晶片股狂飆恐重演 2000 年網路泡沫

商傳媒|吳承岳/台北報導曾因準確預測 2008 年金融危機而聞名的美國投資家邁克爾·巴里(MICHAEL Burry)近日示警,指稱科技業已進入危險的「拋物線式」成長階段,這與 2000 年網路泡沫破裂前夕的模式如出一轍。他認為,當前晶片股的狂飆突進,如同市場已「走火入魔」。根據《The Business Times》報導,自三月底以來,費城證券交易所半導體指數(Philadelphia Stock...