Google AI總覽準確率逾九成 調查揭每月仍產數百萬筆錯誤資訊

Date:

圖/本報資料庫

商傳媒|林昭衡/綜合外電報導

一份由新創公司 Oumi 為《紐約時報》執行的研究指出,Google 的 AI Overviews(人工智慧總覽)在回答問題時,準確率可達九成以上。然而,即使是看似微小的錯誤率,在全球數十億次的搜尋規模下,仍可能導致每小時數百萬筆的錯誤資訊傳播,引發外界對人工智慧可信度的疑慮。

這項研究針對 4,326 個 Google 搜尋查詢進行分析,並採用業界標準的 SimpleQA 基準測試 Google 的 AI Overviews。測試分為兩輪,第一輪於 2023 年 10 月以 Gemini 2 模型為基礎進行,結果顯示準確率為 85%。隨著 Google 將模型升級至 Gemini 3,第二輪測試於 2024 年 2 月進行,準確率提升至 91%。Google 後續推出的 Gemini 3.1 Pro 模型,其幻覺率(hallucination rate)相較 Gemini 3 更大幅下降了 38 個百分點。Google 也強調,結合網路搜尋結果的人工智慧答案會比單純依賴模型知識更為精確。

儘管準確率看似亮眼,Oumi 發現 Google 的 AI Overviews 在提供答案時,約有 56% 的正確回答無法透過其引用的來源進行驗證。研究中也揭露了多個錯誤案例,例如在搜尋「古典音樂名人堂」相關問題時,AI 總覽雖然辨識出正確網站,卻聲稱大提琴家馬友友(Yo-Yo Ma)未被收錄。在另一個關於北卡羅來納州戈爾茲伯羅(Goldsboro)西部河流的提問中,AI 總覽錯誤地將「小河」(Little River)誤認為「努斯河」(Neuse River),這源於對旅遊網站資訊的錯誤解讀。針對「巴布·馬利博物館」(Bob Marley Museum)的開放年份,AI 總覽則給出了錯誤的 1987 年,原因在於它引用了來自 Facebook 貼文、旅遊部落格和維基百科上相互矛盾的資訊。

研究發現,在 Google 引用的 5,380 個來源中,Facebook 和 Reddit 分別是第二和第四常見的引用平台。其中,Facebook 在 5% 的正確答案中被引用,卻在 7% 的錯誤答案中被引用,顯示其資訊可靠性不穩定。

Google 的 AI Overviews 直接提供答案,而非引導使用者點擊外部網站,這種模式雖然提升了便利性,卻也引發內容發布者對流量流失的擔憂,甚至可能影響其經濟基礎。對此,Google 發言人奈德·艾德里安斯(Ned Adriance)坦承人工智慧的回應可能存在「嚴重漏洞」,並在免責聲明中警示「AI 回應可能包含錯誤」。這使得使用者在面對 AI 提供的資訊時,更需要保持警惕,思考如何辨別真偽。OpenAI 過去在推出 ChatGPT 網路功能時曾表示,樂於聽取使用者對於如何將流量導回原始來源的建議,以維護網路生態系統的健康發展。

1adbda3b d192 404e a36c 8f22c2c752ef

Share post:

spot_imgspot_img

熱門

相關新聞
Related

算力代價太高?美國、印度綠能大爆發 法國AI用電三年增近四成

商傳媒|記者顏康寧/台北報導綜合《TechCrunch》與法國電子通訊、郵政暨媒體發行監管局(Arcep)發布的最新產業資訊,全球綠色能源轉型與人工智慧基礎設施擴張,正呈現結構性改變。在分散式能源方面,總部位於孟買的印度屋頂太陽能全棧平台 SolarSquare,傳出正與 B Capital、Lightspeed Venture Partners 等投資方洽談 C 輪融資,金額約...

臺東「智繪健康行 營接新生活」跨世代攜手同行!打造友善幸福城市

活動成功提升縣民對健康的重視,也展現臺東持續推動全齡友善環境決心。未來將持續結合在地自然資源與健康促進議題,以更多元、創新方式,陪伴縣民一起「營」向健康、迎接活力新生活。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒

AI協作助手改變商務會議生態 提升資訊整合與即時互動

商傳媒|何映辰/台北報導隨著2026年數位工作空間的巨幅轉變,企業會議已不再僅限於視訊通話,而演化為高度智能的協作平台,其中人工智慧(AI)協作助手的發展扮演關鍵角色。這些先進的AI工具,被視為能為使用者提供前所未有的協助,幫助企業追求最大效率,並將對話轉化為具體的實行計畫。過去多年來,「資訊衰退」一直是企業溝通的最大挑戰,會議中的建議常因人為記憶的限制,到了下午便被遺忘。早期的自動化嘗試,如簡單的會議錄影,卻需耗費數小時重新觀看才能找到重點,效果不彰。如今,新一代的AI工具已從單純的「錄影」進化到「理解」,能即時辨識發言目的、分類行動項目,並提供可搜尋的決策歷史紀錄,讓團隊成員能專注於討論,無需分心筆記。AI即時對話助理猶如一個「認知緩衝區」,在對話進行時顯示相關事實、歷史資訊與建議,賦予使用者更從容且具權威性地引導會議。儘管許多AI會議工具仍著重於會後摘要與分析,但部分平台已朝向會議中的即時協助發展。例如,ORO AI便是其中一例,專為Zoom、Microsoft Teams和Google Meet等平台提供即時螢幕支援,功能涵蓋即時對話提示、情境資訊、提醒事項,以及預先上傳議程、筆記等會議準備。AI會議助手的支持者認為,它們能讓資訊即時可得,從而減輕高風險對話的壓力,並透過AI自動標示所需數據,讓資淺同仁也能掌握複雜的技術討論,實現專業知識的普及化。此外,這項技術也藉由即時翻譯與文化背景補充,提升了跨時區與語言團隊的包容性。然而,批評者也對透明度、職場期望以及專業人士在即時討論中對AI生成指引的依賴程度提出疑慮。未來AI在會議中的角色將更趨主動,例如自動建議休息時間或顯示相關文件。AI的目標是透過消除資料搜尋和筆記的負擔,來增強人類判斷力而非取代。使用者若要善用數位協作助手,應預先提供會議目標與議程等背景資訊,並在會議中保持螢幕整潔,讓技術在背景自動檢索資料。會後也應檢閱自動生成的摘要,以確保行動步驟得以持續推進。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒

麥肯錫AI化招聘與諮詢:全球人才市場迎來新變革

商傳媒|責任編輯/綜合外電報導管理顧問巨頭麥肯錫公司(McKinsey & Company)已開始在其招募與評估流程中運用最新人工智慧(AI)工具,此舉不僅重塑其自身的人才策略,更反映全球就業市場正迎來一波由AI驅動的深層變革。根據《Jawlah》報導,麥肯錫正仰賴人工智慧分析與評估工具,特別針對顧問職位招募中常用的量化測驗與個案研究,精準衡量應徵者的技能。這些新工具主要評估候選人的量化與分析能力,這在顧問產業中是最關鍵的技能之一。麥肯錫透過分析模型和數位測驗,衡量思考模式、問題解決能力以及處理數據和複雜個案的能力。這有助於縮短招募決策所需時間,並提升大型組織的選才效率。管理顧問業正普遍趨向在招募、專案管理、數據分析和客戶解決方案提供等環節導入AI。此一趨勢顯示,顧問公司越來越依賴智慧系統加速評估流程,並更準確、系統化地分析候選人的能力與技能。麥肯錫此舉,正凸顯人工智慧在高度依賴人類技能評估、分析和決策的產業中,其應用範圍不斷擴大。這種轉變反映了全球就業市場的普遍趨勢,人工智慧工具正直接影響招募與專業評估流程。智慧系統已不只侷限於自動化任務,更成為大型組織內人才選拔、績效評估和團隊建構的關鍵環節。企業也日益仰賴數位分析來進行招募、升遷和人才發展的決策。對於求職者而言,他們正面臨一個更加依賴數位測驗和數據驅動分析的招募環境。現代工作環境下的成功,已不再單純取決於履歷或傳統面試,更關乎處理智慧測驗和實際展現分析能力。數位技能和使用人工智慧工具的能力,正成為新就業市場的要求。企業不僅是為了降低成本或加快流程,更期望建立一套基於數據、分析和數位能力,更為精確的評估系統。每年數以萬計的職位申請,促使大型組織尋求能更準確地加速篩選、分析和發掘最佳人才的工具。預計人工智慧工具在未來幾年內,將在重塑招聘和專業評估方法方面扮演日益重要的角色。相關新聞推薦正在載入相關新聞...標籤: 合作媒體商傳媒