三大 AI 模型挑戰開發 Chrome 擴充功能 僅 Claude 寫出可用程式碼

Date:

圖/本報AI製圖(示意圖)

商傳媒|葉安庭/綜合外電報導

日前,一份針對大型語言模型(LLM)開發能力的實測報告指出,在給予模糊需求的情況下,OpenAI 的 ChatGPT、Google 的 Gemini 以及 Anthropic 的 Claude 三大主流 AI 模型中,僅有 Claude 成功開發出一個功能完整的 Chrome 擴充功能。

根據科技媒體《MakeUseOf》報導,測試作者要求這三款模型開發一個 Chrome 擴充功能,用於搜尋 Instagram 貼文觀看者名單中的特定使用者。作者僅提供一個非常模糊的提示,旨在測試模型在沒有詳細說明下自行理解和執行任務的能力。

ChatGPT 數次嘗試仍有瑕疵

ChatGPT 的首次嘗試未能成功,生成了一個因缺少工具列彈出視窗而無法點擊的擴充功能。經過修補後,雖然擴充功能可運作,但受限於 Instagram 的「懶載入」機制,每次只能處理少量觀看者名單。儘管 ChatGPT 隨後嘗試改進,加入了「索引所有觀看者」按鈕,聲稱能自動捲動並建立本地索引,但在實際測試中,該功能依然僅限於螢幕上可見的觀看者,未能完全達到預期效果。作者形容,ChatGPT 雖最終讓核心功能運作,卻是透過多次除錯及「相當取巧」的方式達成。

Gemini 表現不如預期

Google 的 Gemini 在測試中表現最不理想。它最初並未直接生成程式碼,反而提供了一份架構分析、關於 DOM 遍歷的教學,以及一段需要貼入代理整合開發環境(IDE)的提示。當作者要求其開發程式碼時,Gemini 試圖將搜尋欄位直接注入 Instagram 的使用者介面中,但該搜尋欄位始終未出現。在經歷六輪不斷失敗的修正後,搜尋欄位雖最終現身,卻仍無法找到任何觀看者,未能實現任何搜尋功能。

Claude 成功克服挑戰

相較之下,Anthropic 的 Claude 展現了出色的問題解決能力。儘管其第一個版本也未能運作,但 Claude 隨後主動分析了 Instagram 的文件物件模型(DOM)結構,並利用 Instagram 的內部應用程式介面(API)端點重新建構了擴充功能。作者表示,Claude 解釋這些內部 API 端點在已登入狀態下更為可靠。最終,經過這次調整,Claude 成功開發出一個完全符合預期且功能完善的 Chrome 擴充功能。作者總結,Claude 是此次測試中最快且僅用最少訊息就達成目標的模型,也是唯一一個成功開發出完全可用工具的模型。

9e26f402 0d7a 4c4b b112 7d3e01a65d79

Share post:

spot_imgspot_img

熱門

相關新聞
Related

美國SEC延遲代幣化資產交易豁免計畫 監管前景添變數

商傳媒|方承業/綜合外電報導美國證券交易委員會(SEC)近期決定延後公布一項廣泛豁免計畫,該計畫原欲允許美國加密貨幣公司交易代幣化資產。此舉恐將使市場期盼已久的監管清晰度再次蒙上陰影。這項被稱為「創新豁免」(innovation exemption)的計畫,原訂近期內發布,旨在為代幣化證券交易提供明確路徑。然而,美國證券交易委員會最終選擇延遲發布,具體原因並未公開說明。此一決定對尋求在美國市場拓展代幣化業務的企業而言,無疑增加了監管的不確定性。分析人士指出,美國在全球金融市場扮演重要角色,其監管動向常為其他國家或地區的數位資產監管框架提供借鑒。美國證券交易委員會的這項延遲舉措,可能讓全球數位資產市場的發展面臨更多變數,同時也可能影響包含台灣在內,正在積極探索和建立自身加密貨幣與代幣化資產監管體系的國家,使其在規劃相關法規時面臨類似的挑戰與不確定性。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒

南韓世宗新設投資公司 年薪上看1.3億韓元挑戰人才磁吸

商傳媒|吳承岳/台北報導南韓世宗特別自治市將成立一家負責管理 2,000 億美元對美戰略投資的全新實體——Korea-US Strategic Investment Corporation,提供年薪高達 1.3 億韓元的職位,被視為當地的高薪「神級職場」。這家新設的投資公司預計下個月正式啟動,並將招募 16...

慶應大學教授示警:伊朗情勢引通膨,減消費稅反添薪柴

商傳媒|吳承岳/台北報導慶應義塾大學經濟學部教授土居丈朗近日指出,在全球通膨壓力持續、伊朗地緣政治緊張情勢未歇之際,日本政府若透過減徵消費稅來刺激國內需求,不僅無助於抑制物價上漲,反而可能加劇通膨。土居丈朗教授強調,伊朗衝突的長期化,可能對全球經濟造成顯著衝擊。由於日本與東南亞國家的供應鏈緊密連結,一旦東南亞地區的石油供應受阻,將直接影響日本的物資供應。他提到,日本企業受困於長達三十年的通縮環境,導致其「價格轉嫁能力」普遍較弱,難以有效將上漲的原料成本轉嫁給消費者,進而影響企業獲利,甚至造成貿易條件惡化。面對當前的物價上漲,土居教授認為,政府的財政政策應著重於抑制需求,而非不必要地刺激需求。他以日本前首相田中角榮為例,田中角榮在第一次石油危機時,曾果斷放棄其「日本列島改造論」,轉而實施抑制需求的政策。土居教授建議,與其片面減免食品消費稅,不如考慮推動「育兒給付稅額抵減」作為更具效益的解決方案。對於財政健全與貨幣政策,土居丈朗教授也表達擔憂。他指出,政府針對十七個領域提出的「危機管理投資」策略,初期可能需發行公債支應,若缺乏明確的償還計畫,可能在現有通膨壓力下,進一步推升利率。他強調,一旦市場對日本財政產生不信任感,將需要付出十倍的努力才能挽回。此外,為遏止日圓持續貶值,日本銀行(BOJ)必須擁有充分的彈性來適時調整利率。儘管有傳聞首相高市不樂見升息,日本銀行仍需向市場明確表達其獨立性,以便在關鍵時刻果斷採取行動。土居教授提到,儘管財政年度 2026 一般會計年度的初級平衡(PB)預計將轉為正數,但如果無法穩定實現初級平衡盈餘,通膨所帶來的名目 GDP 增長恐掩蓋潛在的財政問題,而非真正的財政改善。他呼籲日本各界應進行更誠實、透明的經濟政策討論,而非礙於對首相高市的「過度忖度」而迴避關鍵議題。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒

「大空頭」巴里示警:晶片股狂飆恐重演 2000 年網路泡沫

商傳媒|吳承岳/台北報導曾因準確預測 2008 年金融危機而聞名的美國投資家邁克爾·巴里(MICHAEL Burry)近日示警,指稱科技業已進入危險的「拋物線式」成長階段,這與 2000 年網路泡沫破裂前夕的模式如出一轍。他認為,當前晶片股的狂飆突進,如同市場已「走火入魔」。根據《The Business Times》報導,自三月底以來,費城證券交易所半導體指數(Philadelphia Stock...