駐派AI開源GLM-5.1大模型 SWE-Bench Pro實測力壓GPT-5.4、Claude Opus

Date:

商傳媒|葉安庭/綜合外電報導

中國人工智慧新創公司駐派人工智慧(Z.ai)昨日正式發布其最新開源大語言模型GLM-5.1,並採用寬鬆的MIT授權協議。這款模型在多項指標上展現卓越性能,特別是在衡量程式編寫能力的SWE-Bench Pro基準測試中,以58.4分的成績超越了GPT-5.4的57.7分與Claude Opus 4.6的57.3分,引發業界高度關注。

GLM-5.1模型核心亮點在於其創新的「智能體工程(agentic engineering)」設計,能夠在單一任務上自主運行長達八小時。這標誌著AI在軟體開發領域從輔助編程邁向更深層次的自主執行。該模型擁有7,540億參數,採用混合專家(Mixture-of-Experts)架構,並具備高達202,752個詞元(token)的上下文窗口,使其能夠處理複雜且耗時的任務。

駐派人工智慧指出,GLM-5.1的技術突破在於其透過「階梯式最佳化」機制,有效避免了先前模型常見的效能停滯現象。例如,在針對高效能向量資料庫(VectorDBBench)的測試中,GLM-5.1透過655次迭代及逾6,000次工具調用,最終將每秒查詢次數(QPS)最佳化至21,500次,相較於之前模型最佳表現提升約六倍。

除了SWE-Bench Pro的亮眼成績,GLM-5.1在其他專業基準測試中亦表現不俗。它在KernelBench Level 3測試中實現3.6倍的幾何平均加速(雖然仍略遜於Claude Opus 4.6的4.2倍)。在Terminal-Bench 2.0中,其得分為63.5分;CyberGym上得分68.7分;MCP-Atlas和T3-Bench則分別達到71.8分和70.6分。在邏輯推理領域,GLM-5.1在Humanitys Last Exam測試中,若允許使用外部工具,得分可從31.0躍升至52.3分,並在AIME 2026數學競賽基準測試中取得95.3分。

一位開發者提到,GLM-5.1在任務執行上比其他模型更可靠,且所需提示詞的重工次數更少。駐派人工智慧領導人Lou也在社群平台X上表示,其模型的自主工作時間可能是繼規模定律之後最重要的曲線,而GLM-5.1將是開源社群能親手驗證的第一個里程碑。該公司已將GLM-5.1的模型權重在Hugging Face和ModelScope上公開,支援vLLM、SGLang、xLLM等多種推論框架進行本地部署,讓開發者能彈性運用。

駐派人工智慧早於2026年初在香港交易所上市,市值達528.3億美元。儘管GLM-5.1採取開源策略,該公司仍提供付費的GLM-5 Turbo閉源模型,專為高速推論和持續性自動化任務設計,API使用費用為每百萬總詞元5.20美元。GLM-5.1的API價格為每百萬總詞元5.80美元。公司坦承,模型在無量化指標的任務中,可靠的自我評估能力以及如何更早脫離局部最佳解等挑戰仍有待克服。

29f6b45b 470e 4b66 888a 2d912f4060cd

Share post:

spot_imgspot_img

熱門

相關新聞
Related

澤倫斯基警告歐洲:烏克蘭須融入安全體系,否則恐成「俄羅斯世界」一部分

商傳媒|葉安庭/綜合外電報導烏克蘭總統澤倫斯基(Volodymyr Zelenskyy)於昨(13)日「烏克蘭國防工業工作者日」發表全國演說,發出嚴正警告。他強調,烏克蘭若未能全面融入歐洲安全體系,歐洲部分地區將面臨淪為「俄羅斯世界」一部分的風險。澤倫斯基總統在演說中指出,烏克蘭正與合作夥伴建立新型武器合作關係,有別於過去單純出售軍事能力的模式。這種新的合作著重於提供長期且互利的夥伴關係。烏克蘭在國防科技領域成果豐碩,例如截擊無人機已在中東地區投入使用,並與部分波斯灣國家簽署了為期十年的安全協議。本週,烏克蘭還將與歐洲夥伴舉行會談,商討建立聯合防空系統。澤倫斯基強調,烏克蘭的國防工業自俄羅斯全面入侵以來迅速發展,在攻擊型無人機、電子戰及無人系統等領域取得領先。據《The Kyiv Independent》報導,烏克蘭第三突擊旅在2025年7月首次完全使用無人機及地面機器人平台成功俘獲俄軍。在過去三個月內,烏克蘭無人機已執行逾2萬2千次前線任務,透過取代士兵執行危險任務來挽救生命。2025年秋季,澤倫斯基曾報告前線使用的大多數武器均為烏克蘭國內生產,並於2025年初宣布基輔將開始出口國防科技,並在夥伴國家開設武器生產線。在全球地緣政治緊張升高的背景下,中東地區的霍爾木茲海峽正面臨嚴峻挑戰。據《The Sunday Guardian》報導,美國總統川普(Donald Trump)已宣布美軍將對伊朗港口實施海上封鎖,可能影響全球20%的石油與液化天然氣流量。此消息一出,國際油價於週一(12)應聲飆漲約6%,布蘭特原油期貨價格站上每桶100美元,達到100.96美元,西德州中級原油則升至102.26美元,引發能源供應中斷的擔憂。伊朗革命衛隊已警告,任何逼近海峽的軍事船隻將被視為違反停火協議,並將受到嚴厲處置。值得注意的是,澤倫斯基的團隊指出,烏克蘭在黑海運用海軍無人機的成功經驗,對於確保霍爾木茲海峽的安全具有參考價值,凸顯其防禦能力在全球範圍內的潛在應用。德國軍火巨頭Rheinmetall也正與烏克蘭公司Destinus合作生產飛彈,Destinus執行長米哈伊爾·科科里奇(Mikhail Kokorich)表示,歐洲正邁入擴大飛彈生產的新階段。然而,值得警惕的是,比利時、德國、瑞士、法國及美國等國的製造商仍持續在俄羅斯阿拉布加經濟特區營運,該地生產的「見證者」(Shahed)無人機具有打擊歐盟境內目標的能力。標籤: 合作媒體商傳媒

川普政府力阻下仍逆勢成長 美國再生能源 2025 年發電量創新高

商傳媒|責任編輯/綜合外電報導儘管美國總統川普(Donald Trump)政府積極推動化石燃料,但美國再生能源產業在 2025 年仍展現強勁韌性,發電量創下新紀錄,佔全國總發電量的 26%。這項數據顯示,再生能源發展的趨勢已超越單一政府的政策干預。根據《Earth.Org》報導,去(2025)年美國公用事業公司透過再生能源產生了破紀錄的電力,其佔公用事業級發電容量的 33.2%。值得注意的是,包括德州、佛羅里達州和俄亥俄州等傳統上偏紅的州,貢獻了去年新增太陽能發電容量的 73%。美國能源情報署(EIA)預計今(2026)年新增發電容量中,太陽能、風能和電池儲能將佔 93%。報告指出,再生能源已成為美國最具成本效益的發電方式,即使沒有補貼也具競爭力。相較於天然氣發電廠需數年才能完成建設,太陽能電廠等再生能源基礎設施的部署可在一年內完成。然而,自 2025...

貝佐斯力挺電動車新創 Slate Auto 募得 6.5 億美元劍指平價皮卡

商傳媒|方承業/綜合外電報導亞馬遜(Amazon)創辦人貝佐斯(Jeff Bezos)支持的電動車新創 Slate Auto,近日宣布成功募得 6.5 億美元的 C 輪資金,以加速其電動車業務的擴張計畫。這筆資金由 TWG...

比特幣重上7.4萬美元區間 大盤回穩投資人信心增

商傳媒|吳承岳/台北報導本週一,加密貨幣市場迎來廣泛反彈,比特幣(Bitcoin)價格成功回升至7.4萬美元以上,以太幣(Ethereum)也漲破2,348美元,兩者領漲大盤,帶動投資人風險偏好回溫。儘管地緣政治不確定性仍在,但其對風險資產的影響似乎有所減弱,支撐了市場的穩定。比特幣本週表現亮眼,週初交易期間上漲逾3.5%,整週累積漲幅達8.45%,一度觸及7.3萬美元,並於本週一盤中進一步挑戰7.5萬美元阻力位。《Coinpaper》報導,比特幣已從週末的跌勢中反彈,顯示其動能恢復。整體加密市場總市值也因此上漲4%至2.46兆美元,交易量激增逾60%達480億美元。市場數據顯示,投資人信心逐漸回穩。加密貨幣恐懼與貪婪指數(Crypto Fear and Greed Index)維持在50左右的「中性」區間,並未惡化。未平倉合約(Open Interest)顯著增加至240億美元,接近月度高點,反映在當前地緣政治不確定性下,短線多頭部位需求活躍。此外,狗狗幣(Dogecoin)、XRP、幣安幣(Binance Coin)、Solana及Cardano等主要代幣也出現3%至5%不等的漲幅。技術分析方面,比特幣的相對強弱指數(RSI)和MACD指標均位於中性水平之上,顯示買盤動能增強。《FOREX.com》分析,比特幣若能持續突破74,380美元的關鍵阻力位,有望結束盤整局面和中期跌勢,開啟新的短期上漲趨勢。目前7萬美元關卡持續為市場提供支撐,而60,800美元則是主要下行支撐位。然而,中期而言,加密貨幣市場過去十週的收盤價仍低於前期水平,顯示中性偏空的走勢仍存在,其中Solana跌幅達28.13%為表現最弱的資產。儘管機構投資者對加密貨幣市場持樂觀態度,但預測市場仍相對謹慎。例如,TD Cowen對加密貨幣財庫公司Strive、SharpLink和Nakamoto給予正面評價,並預期比特幣年底可能達到14萬美元,以太幣則可能達到3,650美元。然而,預測平台Polymarket的數據顯示,比特幣在2026年底前創下歷史新高(ATH)的機率僅為14%,遠低於TD Cowen的預期,反映市場對此一目標仍存在分歧看法。標籤:...