Google AI總覽準確率逾九成調查揭每月仍產數百萬筆錯誤資訊

圖／本報資料庫

商傳媒｜林昭衡／綜合外電報導

一份由新創公司 Oumi 為《紐約時報》執行的研究指出，Google 的 AI Overviews（人工智慧總覽）在回答問題時，準確率可達九成以上。然而，即使是看似微小的錯誤率，在全球數十億次的搜尋規模下，仍可能導致每小時數百萬筆的錯誤資訊傳播，引發外界對人工智慧可信度的疑慮。

這項研究針對 4,326 個 Google 搜尋查詢進行分析，並採用業界標準的 SimpleQA 基準測試 Google 的 AI Overviews。測試分為兩輪，第一輪於 2023 年 10 月以 Gemini 2 模型為基礎進行，結果顯示準確率為 85%。隨著 Google 將模型升級至 Gemini 3，第二輪測試於 2024 年 2 月進行，準確率提升至 91%。Google 後續推出的 Gemini 3.1 Pro 模型，其幻覺率（hallucination rate）相較 Gemini 3 更大幅下降了 38 個百分點。Google 也強調，結合網路搜尋結果的人工智慧答案會比單純依賴模型知識更為精確。

儘管準確率看似亮眼，Oumi 發現 Google 的 AI Overviews 在提供答案時，約有 56% 的正確回答無法透過其引用的來源進行驗證。研究中也揭露了多個錯誤案例，例如在搜尋「古典音樂名人堂」相關問題時，AI 總覽雖然辨識出正確網站，卻聲稱大提琴家馬友友（Yo-Yo Ma）未被收錄。在另一個關於北卡羅來納州戈爾茲伯羅（Goldsboro）西部河流的提問中，AI 總覽錯誤地將「小河」（Little River）誤認為「努斯河」（Neuse River），這源於對旅遊網站資訊的錯誤解讀。針對「巴布·馬利博物館」（Bob Marley Museum）的開放年份，AI 總覽則給出了錯誤的 1987 年，原因在於它引用了來自 Facebook 貼文、旅遊部落格和維基百科上相互矛盾的資訊。

研究發現，在 Google 引用的 5,380 個來源中，Facebook 和 Reddit 分別是第二和第四常見的引用平台。其中，Facebook 在 5% 的正確答案中被引用，卻在 7% 的錯誤答案中被引用，顯示其資訊可靠性不穩定。

Google 的 AI Overviews 直接提供答案，而非引導使用者點擊外部網站，這種模式雖然提升了便利性，卻也引發內容發布者對流量流失的擔憂，甚至可能影響其經濟基礎。對此，Google 發言人奈德·艾德里安斯（Ned Adriance）坦承人工智慧的回應可能存在「嚴重漏洞」，並在免責聲明中警示「AI 回應可能包含錯誤」。這使得使用者在面對 AI 提供的資訊時，更需要保持警惕，思考如何辨別真偽。OpenAI 過去在推出 ChatGPT 網路功能時曾表示，樂於聽取使用者對於如何將流量導回原始來源的建議，以維護網路生態系統的健康發展。

1adbda3b d192 404e a36c 8f22c2c752ef

標籤：合作媒體商傳媒

News WeekMagazine PRO

Company

Google AI總覽準確率逾九成 調查揭每月仍產數百萬筆錯誤資訊

相關新聞Related

關於我們

最新

News Week
Magazine PRO

Google AI總覽準確率逾九成調查揭每月仍產數百萬筆錯誤資訊

相關新聞
Related