据外媒Techspot报道,哥伦比亚大学数字新闻研究中心对八款 AI 搜索引擎展开了一场全面研究,涉及 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。此次研究聚焦于各引擎的准确性,以及它们拒绝回答问题的频率。
研究人员从 20 家新闻机构里,每家随机挑选 10 篇报道,这些报道在谷歌搜索时都能排到前三位。随后,研究人员用同样的查询方式对各 AI 搜索工具进行测试,主要评估它们是否能正确引用文章内容、新闻机构名称和原始链接。
结果令人大跌眼镜。除了 Perplexity 及其付费版,其他 AI 搜索引擎的表现都不太理想。整体而言,AI 搜索引擎给出的答案,准确率仅 60%。更让人担忧的是,即便答案错误,AI 还表现得非常 “自信”,这让问题变得更加严重。
这一研究用具体数据证实了人们长久以来的顾虑:大语言模型不仅容易出错,还会理直气壮地输出错误信息,面对质疑也不轻易 “低头”。就拿 ChatGPT 来说,就算它承认了错误,后续回答时仍可能继续编造内容。在大语言模型的机制里,似乎默认要 “有问必答”。像 ChatGPT Search 虽然回答了全部 200 个新闻查询,但 “完全正确” 的比例只有 28%,“完全错误” 率却高达 57% 。
在这八款工具中,ChatGPT 还不是表现最差的。X 旗下的 Grok AI 表现堪称糟糕,其中 Grok-3 Search 的错误率竟然高达 94%。微软 Copilot 同样问题多多,200 次查询中有 104 次拒绝回答,剩下的 96 次里,“完全正确” 的仅有 16 次,“部分正确” 14 次 ,“完全错误” 多达 66 次,总体错误率接近 70%。
Coinbase 即将进行的系统更新预计将标志着其从加密货币交易所向更广泛的金融科技平台转型,...
2 巨鲸转移1.77亿USDT至OKEx消息,据Whale Alert发推称:177,631,601枚USDT从未知钱包转入OKEx交易所。...
3 PayPal 在 Spark 平台上推出 PYUSD 储蓄金库,PayPal 在 Spark 平台上推出 PYUSD 储蓄金库,为其稳定币持有者提供 4.25% 的年化收益率 。该收益率...
4 Cathie Wood在SOFI股票年初至今上涨77%后抛售在SoFi Technologies 股价年初至今已上涨75%之际,Ark Invest首席执行官凯茜伍德出售了超过21,000股股...
5 人工智能代币 vs. 人工智能股票:承诺人工智能加密代币的总市值已从12月初704亿美元的峰值下跌28%至306亿美元,其中Bittensor 和NEAR...
6 AVAX USDT 努力守住 12 美元:SEC 与 AvalanchAvalanche 的 AVAX 代币价格已从 2022 年创下的 158 美元历史高点暴跌 91%,目前市值仅为 53 亿美元,...
7 12月第三周面临清算风险的3种山寨币尽管市场整体情绪极度恐慌,但一些山寨币仍面临潜在的空头挤压。如果 Solana 价格上涨至 1...
8 LINK 价格下跌,鲸鱼买入加仓——13.20 美Chainlink 交易所的代币储备已降至 12 个月以来的最低点,过去一年中超过 4490 万枚代币被提取,...
9 Saylor再购9.8亿美元比特币消息,据Arkham发推称:MicroStrategy 以 9.2098 万美元均价购入约 9.803 亿美元比特币,其持仓总额已...
10 波士顿联储主席解释支持降息原因消息,据美联储传声筒Nick Timiraos发推称:波士顿联储主席苏珊柯林斯解释了她上周投票支持降...
成都来彰科技 蜀ICP备2025134723号-1
资讯来源互联网,如有版权问题请联系管理员删除。