三大 AI 模型挑戰開發 Chrome 擴充功能僅 Claude 寫出可用程式碼

圖／本報AI製圖（示意圖）

商傳媒｜葉安庭／綜合外電報導

日前，一份針對大型語言模型（LLM）開發能力的實測報告指出，在給予模糊需求的情況下，OpenAI 的 ChatGPT、Google 的 Gemini 以及 Anthropic 的 Claude 三大主流 AI 模型中，僅有 Claude 成功開發出一個功能完整的 Chrome 擴充功能。

根據科技媒體《MakeUseOf》報導，測試作者要求這三款模型開發一個 Chrome 擴充功能，用於搜尋 Instagram 貼文觀看者名單中的特定使用者。作者僅提供一個非常模糊的提示，旨在測試模型在沒有詳細說明下自行理解和執行任務的能力。

ChatGPT 數次嘗試仍有瑕疵

ChatGPT 的首次嘗試未能成功，生成了一個因缺少工具列彈出視窗而無法點擊的擴充功能。經過修補後，雖然擴充功能可運作，但受限於 Instagram 的「懶載入」機制，每次只能處理少量觀看者名單。儘管 ChatGPT 隨後嘗試改進，加入了「索引所有觀看者」按鈕，聲稱能自動捲動並建立本地索引，但在實際測試中，該功能依然僅限於螢幕上可見的觀看者，未能完全達到預期效果。作者形容，ChatGPT 雖最終讓核心功能運作，卻是透過多次除錯及「相當取巧」的方式達成。

Gemini 表現不如預期

Google 的 Gemini 在測試中表現最不理想。它最初並未直接生成程式碼，反而提供了一份架構分析、關於 DOM 遍歷的教學，以及一段需要貼入代理整合開發環境（IDE）的提示。當作者要求其開發程式碼時，Gemini 試圖將搜尋欄位直接注入 Instagram 的使用者介面中，但該搜尋欄位始終未出現。在經歷六輪不斷失敗的修正後，搜尋欄位雖最終現身，卻仍無法找到任何觀看者，未能實現任何搜尋功能。

Claude 成功克服挑戰

相較之下，Anthropic 的 Claude 展現了出色的問題解決能力。儘管其第一個版本也未能運作，但 Claude 隨後主動分析了 Instagram 的文件物件模型（DOM）結構，並利用 Instagram 的內部應用程式介面（API）端點重新建構了擴充功能。作者表示，Claude 解釋這些內部 API 端點在已登入狀態下更為可靠。最終，經過這次調整，Claude 成功開發出一個完全符合預期且功能完善的 Chrome 擴充功能。作者總結，Claude 是此次測試中最快且僅用最少訊息就達成目標的模型，也是唯一一個成功開發出完全可用工具的模型。

9e26f402 0d7a 4c4b b112 7d3e01a65d79

標籤：合作媒體商傳媒

News WeekMagazine PRO

Company

三大 AI 模型挑戰開發 Chrome 擴充功能 僅 Claude 寫出可用程式碼

ChatGPT 數次嘗試仍有瑕疵

Gemini 表現不如預期

Claude 成功克服挑戰

相關新聞Related

關於我們

最新

News Week
Magazine PRO

三大 AI 模型挑戰開發 Chrome 擴充功能僅 Claude 寫出可用程式碼

相關新聞
Related