AI Agent 應用激增 企業測試部署面臨資安與技術挑戰

Date:

圖/本報資料庫

商傳媒|林昭衡/綜合外電報導

隨著人工智慧技術持續演進,AI agent(代理式人工智慧)正迅速改變人機互動模式,不只在科技巨頭內部廣泛應用,更引發企業轉型,但其複雜性也帶來前所未有的測試挑戰與資安風險。

Agentic AI 崛起:OpenAI 內部實踐與企業需求

據《The Register》報導,OpenAI 內部員工已從傳統聊天機器人轉向使用 agentic AI 執行多步驟任務。這類主動式 AI 用戶在 2026 年上半年成長逾五倍,其中成長最快的用戶群體並非最初的軟體開發人員。報導指出,自 2026 年初以來,個人 Codex 用戶中,提交需耗時八小時以上任務的比例成長近十倍。非開發者使用 Codex 的情況也顯著增加,在 OpenAI 內部成長 12 倍,組織用戶成長 189 倍,個人用戶成長 137 倍。即使是法律與招募等非技術部門,也將 Codex 作為主要 AI 工具。然而,儘管 AI agent 的應用潛力巨大,其廣泛部署前仍面臨嚴峻挑戰。

AI Agent 測試挑戰:不同於傳統軟體

IBM 旗下 Institute for Business Value 的研究顯示,高達八成的企業資訊長(CIO)和技術長(CTO)表示,執行長已下達 AI 轉型指令,但僅有 11% 認為已為未來一年預期的 AI agent 規模部署做好準備。

AI agent 的測試與傳統軟體測試大相徑庭,因為其核心仰賴大型語言模型(LLM)的機率性特性。這意味著同樣的提示,可能在不同執行中產生不同的工具調用序列。若在多步驟任務初期出錯,問題可能要很晚才顯現。此外,具備機器學習能力的 agent 會隨時間演進,可能出現效能退化(regression)或漂移(drift)現象。

IBM 資訊長 Matt Lyteson 指出,企業面臨的挑戰是如何擴展能持續自主運作的 AI 系統,尤其在治理模式和架構設計未能跟上其快速、多變的環境時。測試 agentic AI 不僅要驗證最終答案,還須確保其推理路徑與中間輸出是否適切。不完善的測試會導致重大的營運與治理風險,特別是當 agent 執行多環節的推論與行動鏈時,任一環節的錯誤都可能被放大。

分層測試方法與關鍵衡量指標

為應對這些挑戰,有效的 AI agent 測試應分三層進行。首先是「元件測試」,用於評估單一獨立部件功能,如確認網路搜尋工具正確處理速率限制。其次是「軌跡測試」,評估 agent 從用戶指令到最終回應的完整推理路徑與中間輸出,以捕捉初期不易察覺的突發錯誤。最後是「端對端測試」,在接近真實世界的環境中評估 agent 執行任務的完整性與用戶體驗,例如多輪對話中的一致性。

衡量 AI agent 效能的關鍵指標除了任務完成的「成功率」與工具選擇的「準確度」,還包括從提交任務到最終輸出時間的「延遲」與以 Token 消耗量和 API 調用量計算的「成本」。此外,即使答案正確,若輸出過於冗長或邏輯不連貫,用戶體驗也會受損,因此「簡潔性」與「連貫性」也至關重要。IBM 指出,測試過程中常會運用「LLM-as-a-judge」技術,讓第二個、通常是更強大的 LLM 根據既定評分標準來評估 agent 的輸出品質,有效補充人工評估的規模限制。為模擬真實世界情境,一些公司也發布了環境模擬平台,協助開發者測試在實際環境中難以觸發的狀況。

開源 Agentic AI 帶來的資安威脅

與此同時,開放原始碼的 agentic AI 模型也帶來新的資安威脅。據《Axios》報導,中國智譜 AI(Z.ai)上週發布的 GLM-5.2 模型,其 agentic 能力已媲美 Claude Opus 4.8 和 OpenAI 的 GPT-5.5,但運行成本僅約一半。Graphistry, Inc. 和 Semgrep, Inc. 兩項獨立資安評估發現,GLM-5.2 在資安調查和漏洞發現的基準測試中,表現與美國領先模型不相上下。

Graphistry, Inc. 甚至推測 GLM-5.2 可能是 GPT-5.5 和 Claude Opus 4.8 的「非法蒸餾」版本。由於 GLM-5.2 是開放權重模型,使用者可直接下載修改、移除安全控制,或針對特定任務進行微調,且無需依賴商業供應商。資安公司 Armadin, Inc. 技術長 Travis Lanham 表示,攻擊者可以透過 GLM-5.2 在本地運行,量身打造攻擊方式,如產生釣魚郵件、詐騙腳本等惡意內容,且完全不被任何供應商或防禦方察覺,形成「菁英級人類攻擊」般的個人化攻擊。GuidePoint Security, LLC 的資安顧問 Jason Baker 則指出,駭客已在俄語論壇討論如何輕易破解 GLM-5.2 用於駭客任務。

e485ad49 4fc1 4a74 ab81 c41e25efe0a6

Share post:

spot_imgspot_img

熱門

相關新聞
Related

AI Agent重塑工作模式 OpenAI內部測試顯示非開發人員應用大增

商傳媒|何映辰/台北報導人工智慧(AI)發展加速工作模式轉變。根據《OpenAI》今日公布的內部數據顯示,不同於傳統的聊天機器人僅限於簡短、單次互動,AI Agent(人工智慧代理程式)正逐步成為企業內部最主要的人工智慧工具,處理的任務也從單一互動轉變為可獨立執行、需長期投入的複雜工作。OpenAI 自行採用 Codex(OpenAI與GitHub共同開發的AI程式撰寫模型)的數據顯示,截至2026年6月,Codex 在公司內部產生的總輸出 Token(AI處理資訊的最小單位)中佔比高達 99.8%,遠超其他 AI 工具。這項數據凸顯了...

SI Group 與聖效集團 (Shengxiao Group) 成立合資企業,以加速中國聯苯二酚產能擴張

Shengnova Advanced Materials 強化區內聯苯二酚供應,以滿足亞太地區日益增長的需求上海2026年6月27日 /美通社/ — 全球領先的性能添加劑、製程解決方案及化學中間體開發商和製造商 SI Group,與全球頂尖的液晶聚合物...

防「男人癌」悄悄上身!嘉榮籲40歲以上男性定期篩檢守護攝護腺健康

 [焦點時報/記者陳慧霖嘉義市報導]夜尿、頻尿不一定是老化現象,也可能是攝護腺癌警訊。50多歲張先生因夜間頻尿、尿急及排尿不順,影響睡眠與生活,前往臺中榮總嘉義分院泌尿外科就診,檢查發現攝護腺輕度增生,且攝護腺特異抗原(PSA)高達28 ng/ml。經核磁共振影像融合切片檢查後,確診罹患攝護腺癌,所幸尚未轉移,接受攝護腺切除手術後,目前恢復良好,持續定期追蹤。臺中榮總嘉義分院泌尿外科醫師賴谷順表示,攝護腺癌是男性常見癌症之一,有「男人癌」之稱,初期往往沒有明顯症狀,部分患者僅出現頻尿、夜尿、尿急或排尿困難等情形,因此容易被忽略。根據統計,攝護腺癌已位居台灣男性癌症發生率第三位、死亡率第五位,約四成患者確診時已屬第三、第四期,錯失早期治療時機,且發生率隨年齡增加而明顯上升,好發於40歲以上男性。賴谷順指出,攝護腺癌可能與遺傳、老化及高脂飲食有關,家族中若有人罹病,風險更高。他建議40歲以上男性,尤其有家族史者,應定期接受肛門指診及PSA檢測;若檢查異常,再透過超音波或核磁共振影像融合切片進一步診斷。他強調,攝護腺癌若能早期發現,治癒率相當高,早期可透過手術、放射治療或積極監測控制病情;若已進入中晚期或已有轉移,則需搭配荷爾蒙、標靶或化學治療,以延緩疾病進展並維持生活品質。為提升男性健康照護,嘉義市政府推動「嘉義市民整合性篩檢」,提供55至69歲男性,以及50至54歲具家族史男性免費PSA檢查。若篩檢結果異常,嘉榮也提供一站式轉介服務,協助民眾儘速接受專科診療,爭取治療黃金期。醫師提醒,攝護腺癌早期發現、早期治療是提升存活率的關鍵,呼籲男性朋友定期篩檢,及早守護攝護腺健康。標籤: 合作媒體嘉義地方大小事文教.健康焦點時報

張峻出席「東部平埔原住民族座談會」 籲完善身分登記制度落實歷史正義

座談會中,地方族人分享多年來整理家族族譜、保存口述歷史、推動文化復振、拍攝紀錄片及打造公共藝術等成果。張峻表示,看見族人長年默默投入文化保存工作,令人深受感動,也更加體會文化傳承不僅是保存歷史,更是凝聚族群認同、延續文化生命的重要力量。張峻強調,歷史正義不能停留於法律文字,更應透過持續傾聽、理解與對話,讓制度真正回應人民需求。他表示,未來將持續在議會關注平埔原住民族相關政策,積極反映地方意見,推動中央與地方共同完善制度,讓東部平埔原住民族的文化價值、歷史記憶及族人聲音,在公共政策中獲得更多重視與尊重。張峻最後感謝所有參與座談的族人、文化工作者及關心平埔議題的各界人士。他表示,正因地方長年持續投入文化保存與傳承,歷史正義才能一步步向前推進,期待未來中央、地方與民間持續攜手合作,共同打造更完善、更公平的制度,讓東部平埔原住民族文化永續傳承,世代延續。更多警政時報報導【獨家快訊】尹乃菁傳15日離任文傳會主委 國民黨「內部警訊」浮上檯面【獨家】警專寢室抽菸、黑箱成績爭議連環爆!「無差別加分」後再搞雙標 800準波麗士畢業分發恐崩盤標籤: 合作媒體地方新聞富里鄉平埔原住民族群身分法張峻東部平埔原住民族花蓮縣議會警政時報