AI模型難應付複雜醫療情境 美新基準測驗逾七成流程失敗

Date:

商傳媒|方承業/綜合外電報導

美國AI公司actAVA.ai於週三發布全球首個針對人工智慧(AI)代理在醫療領域長程應用所設計的基準測試CHI-Bench,結果顯示,來自Anthropic、OpenAI及谷歌(Google)等主要業者所開發的頂尖AI模型,在美國實際醫療工作流程中,有高達72%的機率無法順利完成任務。

CHI-Bench基準測試涵蓋75個醫療工作流程及30個前沿AI代理,每個測試案例模擬4至6個臨床階段,包含60至80個步驟,並透過超過200種醫療協調流程(MCP)工具和一份厚達1,279頁的操作手冊,模擬真實的醫療環境。研究發現,表現最佳的AI代理,在三個相同案例重複測試時,通過率仍未超過20%;在耐久性測試中,即使是最佳系統也僅完成不到4%的案例,顯示其穩定性與可靠性仍面臨嚴峻挑戰。特別是在一個AI提交預先授權申請、另一個AI擔任審核者的端對端情境下,所有任務均未能成功通過。

actAVA.ai首席人工智慧長Weiran Yao指出,過往的醫療AI基準測試多聚焦於狹窄的臨床知識,例如回答醫學考試問題或從單一文件提取資訊,然而真實世界的醫療操作,需要AI代理能跨部門、跨角色、多步驟地長時間處理複雜流程。舉例而言,一個用藥審查案例可能需要AI閱讀醫師臨床筆記、應用保險公司特定醫療政策、查詢藥物資料庫、生成符合規範的決定書,並將結果傳送至正確的後續團隊,且所有環節皆須在無人介入下完成。

CHI-Bench的共同作者Haolin Chen表示,這些工作流程漫長、涉及多重角色且受政策約束,AI代理必須像入院櫃檯人員、護理審查員和醫療主任般,在六十多個步驟中扮演不同角色,其中任何一個環節出錯都可能導致一連串的失敗。Weiran Yao強調:「我們需要知道AI代理能否在沒有錯誤的情況下,端對端地完成一個真實案例,CHI-Bench就是為此而建。」這項基準測試獲得約翰·霍普金斯大學、Wellstar、耶魯大學、史丹佛大學、卡內基美隆大學、牛津大學、南加州大學及聖地牙哥加利福尼亞大學等20多個機構的合作支持,並已在GitHub上開源發布,接受社群提交的結果。

這項研究結果對台灣推動醫療人工智慧的發展具有重要參考價值。台灣醫療體系在導入AI應用時,應借鏡美國經驗,除應加強針對多步驟、跨部門複雜流程的AI模型進行嚴謹的效能與可靠性驗證外,亦需投入資源開發符合在地法規與實務需求的評測標準,確保人工智慧工具的導入能真正提升醫療品質,而非帶來額外風險。

26acb7b5 eb0e 486c bdb4 96f4ad7f77a0

相關新聞推薦

正在載入相關新聞…

Share post:

spot_imgspot_img

熱門

相關新聞
Related

中選會「媒宣費」審查過關僅刪78萬 王鴻薇:釋出極大善意

瀏覽數:432王鴻薇質詢時指出,中選會過去媒宣採購長期集中於少數媒體,包括民視、三立等,引發外界對選務中立與資源分配公平性的疑慮。她表示,原本主張全數刪除,是希望中選會正視媒宣採購過度集中的問題;但考量游盈隆新上任,加上年底將舉行九合一選舉,並可能面臨全國性公投,因此決定「釋出極大善意」,將刪減金額下修為78萬元。游盈隆答詢時表示,經詢問中選會相關單位,過去媒宣費用均依公開招標程序辦理,並嚴謹遵循相關規定,但實際結果確實呈現集中情形。他承諾,將進一步深入了解歷年媒宣採購狀況,並彙整完整說明提供內政委員會參考。游盈隆也指出,中選會今年面對大型選務工作,媒宣費僅編列700多萬元,若遭大幅刪除,將對選務宣導造成壓力。他感謝王鴻薇與委員會理解中選會需求,也表示有感受到善意,並同意減列78萬元。王鴻薇表示,中選會肩負選務公平、公正與中立責任,媒體採購更應避免過度集中,未來仍會持續監督相關預算執行情形,要求中選會落實公開透明,讓選務宣導回歸專業與中立。

黃仁推動「南迴傳統生態體驗園區」成形!行政院核准金崙37筆國有地無償撥用

瀏覽數:491黃仁指出,未來「南迴地區傳統生態體驗園區」可結合金崙在地文化、生態教育、休憩綠帶、友善步道、停車空間及河堤周邊公共設施,打造兼具防災、觀光、教育與休閒功能的複合式公共場域,讓土地真正回歸地方、回應居民需求,也為太麻里與金崙創造新的發展契機。據了解,本案是由太麻里鄉代表會提案,建議將「金崙溪疏濬工程」所產生之土石,移置至交通部觀光署位於太麻里鄉金崙村金富段661地號等38筆土地,作為回填造地與整地再利用。年初由黃仁委員主持會勘,陪同會勘的貴賓還包括觀光署副署長黃勢芳、台東縣議會議長吳秀華、台東縣政府建設處代理科長董韋廷、台東縣議員翁麗吟、台東縣議員尤忠正、太麻里鄉民代表羅春明、邱天生、陳孫金、雷明聖、廖雙穎以及太麻里金崙村長、觀光署科長吳盈璇等人。

輝達布局台灣牽動供電挑戰 王鴻薇:「錯誤能源政策」代價已浮現

瀏覽數:912王鴻薇指出,黃仁勳並非首次公開提及能源對AI發展的重要性。他強調,若沒有充足能源,就無法支撐經濟成長,也難以支撐AI產業持續發展。王鴻薇認為,這番說法正反映出台灣當前能源政策所面臨的壓力。王鴻薇批評,民進黨長期推動「非核家園」政策,導致台灣能源結構彈性不足,如今即使討論重啟核二、核三,最快也需等到2028年,難以立即因應AI產業快速成長帶來的用電需求。她直言,「錯誤能源政策」終究必須付出代價,現在問題已逐步浮現。針對輝達落腳北士科所衍生的供電討論,王鴻薇也質疑民進黨立委沈伯洋,將外界關注的能源與缺電問題,轉移成「變電所問題」。她表示,AI產業發展的關鍵不只是個別設施配置,而是整體能源供應是否充足、穩定,政府不應模糊焦點。王鴻薇進一步指出,台電過去也曾說明,隨著台灣AI產業發展,未來電力需求將達過去十年平均增幅的兩倍以上。她強調,若政府無法正視缺電風險,並提出具體能源配置與穩定供電方案,台灣在AI產業鏈中的關鍵地位,恐將受到挑戰。王鴻薇呼籲,政府應誠實面對AI時代的能源需求,不應再以政治立場迴避供電壓力,更不能將產業發展所需的穩定電力,簡化為單一變電設施問題。台灣若要掌握AI浪潮,就必須先確保能源政策務實、電力供應穩定。

美國SEC延遲代幣化資產交易豁免計畫 監管前景添變數

商傳媒|方承業/綜合外電報導美國證券交易委員會(SEC)近期決定延後公布一項廣泛豁免計畫,該計畫原欲允許美國加密貨幣公司交易代幣化資產。此舉恐將使市場期盼已久的監管清晰度再次蒙上陰影。這項被稱為「創新豁免」(innovation exemption)的計畫,原訂近期內發布,旨在為代幣化證券交易提供明確路徑。然而,美國證券交易委員會最終選擇延遲發布,具體原因並未公開說明。此一決定對尋求在美國市場拓展代幣化業務的企業而言,無疑增加了監管的不確定性。分析人士指出,美國在全球金融市場扮演重要角色,其監管動向常為其他國家或地區的數位資產監管框架提供借鑒。美國證券交易委員會的這項延遲舉措,可能讓全球數位資產市場的發展面臨更多變數,同時也可能影響包含台灣在內,正在積極探索和建立自身加密貨幣與代幣化資產監管體系的國家,使其在規劃相關法規時面臨類似的挑戰與不確定性。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒