奇宝库 > 知名杂志《连线》声讨Perplexity“窃取内容”、“凭空捏造”,专家表示:“技术性调查证据确凿”!

知名杂志《连线》声讨Perplexity“窃取内容”、“凭空捏造”,专家表示:“技术性调查证据确凿”!

内容导读

上周,美国知名杂志《连线》连续发文声讨Perplexity,称Perplexity“是一台胡说八道”的机器,还进一步剽窃了《连线》杂志的指控文章……专家们对Perplexity这家AI界的当红炸子鸡是否会面临从侵权到诽谤等法律索赔的观点并不一致,但不少人表示,显然《连线》是有备而来,技术性调查的证据确凿!

《连线》对Perplexity的指控主要集中在两个方面:首先是Perplexity未经许可抓取网站内容;其次,在某些情况下Perplexity并不是如官方所宣传的那样忠实地“总结新闻文章”,而是“胡说八道”。

按照格拉斯哥大学三位哲学家最近一篇文章的说法,“因为这些程序本身不能关心真相,并且它们被设计成产生看起来适合真相的文本,而实际上并不关心真相。”

随着AI搜索的普及,不少人已经习惯在工作、学习,甚至生活中都用“AI搜索一下”,但目前看来,其中的“幻觉”问题和“胡说八道”仍然是未解决的问题,而且还导致了更普遍性的大规模洗稿……你怎么看呢?

内容目录

《连线》杂志声讨Perplexity“是一台胡说八道的机器”

Perplexity是什么的多种官方解释

《连线》杂志声讨Perplexity的两大调查结论

《连线》的两大指控“窃取内容”、“凭空捏造”

《连线》指控一:Perplexity通过爬虫访问网站

《连线》指控二:Perplexity编造答案并非总结文章

Perplexity洗稿《福布斯》的争议和《连线》的技术性调查证据

Perplexity洗稿《福布斯》

Perplexity对抄袭和洗稿的回应

《连线》的技术调查证据一:Perplexity未经许可抓取网站内容

《连线》的技术调查证据二:Perplexity编造故事并不是总结文章

来源 | 王铮Silvia

原文 | Wired.Com

知名杂志《连线》声讨Perplexity“窃取内容”、“凭空捏造”,专家表示:“技术性调查证据确凿”!

《连线》杂志声讨Perplexity

“是一台胡说八道的机器”

Perplexity是什么

的多种官方解释

考虑到Perplexity的雄心壮志,以及它从杰夫·贝索斯家族基金、英伟达和著名投资者巴拉吉·斯里尼瓦桑等人那里获得的投资,这家AI搜索初创公司到底是什么,出人意料地不清晰。

今年早些时候,在接受《连线》杂志采访时,Perplexity的首席执行官阿拉温德·斯里尼瓦桑将他的产品描述为“答案引擎”,这是一款聊天机器人,可以对提示提供自然语言的答案,并且可以实时访问互联网。

几周后,在宣布一轮融资将公司估值定为十亿美元之前,他告诉《福布斯》,“这几乎就像是维基百科和ChatGPT生了个孩子。”

更近一些,在《福布斯》指控Perplexity抄袭其内容后,斯里尼瓦桑告诉美联社,它只是一个“信息聚合器”。

Perplexity聊天机器人本身的回答更具体。

在被提示描述Perplexity是什么时,它提供了如下文本:“Perplexity AI是一个由人工智能驱动的搜索引擎,它结合了传统搜索引擎和聊天机器人的特点。它通过从最近的新闻文章中提取信息,并每天对网络进行索引,为用户提供简洁、实时的答案。”

《连线》杂志声讨Perplexity

的两大调查结论

《连线》杂志的一项分析以及开发者罗布·奈特进行的一项研究表明,Perplexity能够实现这一点,部分是通过公然忽视一个被广泛接受的网络标准——被称为机器人排除协议的东西,秘密地抓取网站运营者不希望被机器人访问的网站区域,尽管它声称不会这么做。

《连线》观察到与Perplexity有关的一台机器——更具体地说,是一台在亚马逊服务器上的机器,几乎可以肯定是由Perplexity操作的——在 WIRED.com 和其他康泰纳仕出版物上都这样做了。

《连线》的分析还表明,尽管Perplexity的工具声称提供“对任何问题的即时、可靠的答案,并包含完整的来源和引用”,消除了“点击不同链接”的需要,但它的聊天机器人虽然能够准确地总结新闻工作并适当地引用,但也容易在技术意义上胡说八道。

《连线》向Perplexity聊天机器人提供了今年在我们网站上发表的数十篇文章的标题,以及关于《连线》报道主题的提示。结果显示,聊天机器人有时紧密地改写了《连线》的故事,有时则不准确且引用极少地总结故事。

在一个案例中,它生成的文本错误地声称《连线》报道了一个特定的加州警察犯了罪。

《连线》的两大指控

“窃取内容”、“凭空捏造”

《连线》指控一:

Perplexity通过爬虫访问网站

尽管它显然可以访问原始的《连线》报道以及托管原始《连线》艺术作品的网站,但是公司公开列出的所有IP地址在我们的服务器日志中都没有留下任何可识别的痕迹,这引发了关于Perplexity系统究竟如何运作的问题。

直到本周早些时候,Perplexity在其文档中发布了其爬虫使用的IP地址列表的链接——显然是为了透明化努力。

然而,在某些情况下,正如WIRED和Knight所展示的那样,它似乎正在访问和抓取编码人员试图阻止其爬虫的网站,称为Perplexity Bot,使用至少一个未公开的IP 地址。此后,该公司已从其文档中删除了对其公共IP池的引用。

这个秘密IP地址——44.221.181.252——在过去三个月里,已经袭击了拥有《连线》杂志的媒体公司康泰纳仕的房产至少822次。

一位不愿透露姓名的康泰纳仕高级工程师表示,这是因为公司只保留了其网络日志的一部分,所以这是一个“严重低估”的数字。

《连线》杂志通过创建一个新网站并监控其服务器日志,验证了有问题的IP地址几乎可以肯定与Perplexity相关联。

在《连线》的一名记者提示Perplexity聊天机器人总结该网站内容后不久,服务器记录显示该IP地址访问了该网站。Knight在类似的测试中首次观察到了相同的IP地址。

《连线》指控二:

Perplexity编造答案并非总结文章

在某些情况下,尽管其用户界面中的图形表示显示聊天机器人在回复提示之前“阅读”了特定的源材料,但Perplexity似乎总结的不是实际的新闻文章,而是基于URL和在搜索引擎中留下的它们的痕迹重建的内容,提供声称基于直接访问相关文本的摘要。

换句话说,使Perplexity价值达到十位数的魔术似乎既做了它说它不会做的事情,又没有做它说它会做的事情。

作为对这个故事中报道的详细评论请求的回应,斯里尼瓦桑发表了一份声明,其中部分说:"《连线》的问题反映了对Perplexity和互联网运作方式的深刻和根本的误解。"

该声明没有对《连线》报道的细节提出异议,斯里尼瓦桑也没有回应后续问题,询问他是否对《连线》或奈特的分析有异议。

Perplexity洗稿《福布斯》的争议

和《连线》的技术性调查证据

Perplexity洗稿《福布斯》

6月6日,《福布斯》发表了一篇调查报告, 内容 涉及谷歌前首席执行官埃里克·施密特的新企业如何大量招聘并测试具有潜在军事应用的人工智能无人机。

第二天,《福布斯》的编辑约翰·帕奇科夫斯基在X上发帖指出,Perplexity基本上重新发布了这篇独家新闻的精华。

那天,斯里尼瓦桑感谢了帕奇科夫斯基,并指出那个复制了《福布斯》独家报道的特定产品功能有“粗糙的边缘”,并同意应该更突出地引用来源。

三天后,斯里尼瓦桑吹嘘说——事实证明,这并不准确——Perplexity是《福布斯》第二大推荐流量来源。“我们一直在开发新的出版商参与产品和方式,以与媒体公司的长期激励相一致,这些将很快宣布,”他写道。“敬请期待!”

不久后,斯里尼瓦桑的意思变得清晰起来,因为Semafor报道称,该公司一直在“与高质量出版商合作进行收入共享交易”——这些安排将允许Perplexity和出版商都能从出版商的投资报道中获利。

据Axios报道,上周四,《福布斯》的总法律顾问向斯里尼瓦桑发送了一封信,要求Perplexity删除误导性文章,并为其所谓的侵犯版权行为所赚取的广告收入向《福布斯》赔偿。

Perplexity对抄袭和洗稿的回应

对Perplexity正在做什么的关注,虽然可以理解,但在某种程度上却掩盖了更重要的问题——它是如何做到的。

关于“做什么”的基本情况并没有引起严重的争议:Perplexity通过总结新闻文章来赚钱,这种做法自从有了新闻以来就存在,并且享有广泛但有保留的法律保护。

斯里尼瓦桑承认,有时这些摘要没有充分或足够突出地归功于它们所衍生的来源,但更广泛地说,他否认了不道德或非法的活动。他告诉美联社:“Perplexity从未从任何人那里抄袭内容。”“我们的引擎没有在任何人的内容上进行训练。”

这是一种奇怪的辩护,部分原因是它回答了没有人提出的反对意见。Perplexity的主要产品不是一个需要在数据集上训练的大型语言模型,而是一个围绕这类系统的包装器。

正如两位《连线》记者所做的那样,用户支付20美元购买“Pro”订阅后,可以选择使用五种AI模型。其中一个,Sonar Large 32k,是Perplexity独有的,但基于Meta的LLaMa 3;其他的是由OpenAI和Anthropic提供的各种模型的现成版本。

这就涉及到了“如何”:当用户查询Perplexity时,聊天机器人不仅仅是通过查询自己的数据库来编写答案,而且还利用Perplexity在营销材料中宣传的“实时访问网络”来收集信息,然后将其输入用户选择的AI模型以生成回复。

在这种方式中,尽管Perplexity训练了自己的模型,并声称利用“复杂的AI”来解释提示,但将其称为“人工智能初创公司”有些误导;或许更准确地说,它是一种附着在现有AI系统上的remora。

从理论上讲,Perplexity的聊天机器人不应该能够总结《连线》的文章,因为我们的工程师自今年早些时候起就通过我们的robots.txt文件阻止了它的爬虫。这个文件指导网络爬虫避开网站的哪些部分,Perplexity声称尊重robots.txt标准。

然而,《连线》的分析发现,实际上,即使用《连线》文章的标题或基于文章的问题提示聊天机器人,通常也会产生一份看似详细概述文章的摘要。

例如,将这篇独家文章的标题输入到聊天机器人的界面,会产生一个四段文字块,概述了基本信息,即基努·里维斯和科幻作家中国·米维尔合作了一部小说,似乎还包含了一些生动的细节。“尽管里维斯最初对潜在的合作感到担忧,但他对与米维尔合作充满热情,”文本写道;随后是一个灰色圆圈,当鼠标悬停在其上时,会提供一个链接到文章的网址。这段文字配有《连线》委托拍摄的照片;点击图片会显示图片的出处和链接到原始文章的链接。

同样,向Perplexity提问“一些便宜的有线耳机真的在使用蓝牙吗?”似乎会产生一份两段摘要,总结了这篇《连线》的故事,并附有最初与之一起发布的艺术作品。

“虽然这种方法不是骗局,但根据个人的观点,它可以被视为欺骗或巧妙的变通,”文本写道。这更接近于《连线》文案写道),但聊天机器人生成的文本坚称这只是巧合。

“不,我没有剽窃这句话,”聊天机器人针对《连线》记者给出的提示生成的文本写道。“措辞的相似是偶然的,反映了用来描述这种微妙情况的常用语言。”如何定义常用语言尚不清楚——除了耳机的产品列表外,Perplexity在这里引用的唯一来源是《连线》文章和Slashdot上关于它的讨论。

《连线》的技术调查证据一:

Perplexity未经许可抓取网站内容

开发者Robb Knight的研究结果和随后《连线》杂志的分析表明了这里发生事情的部分解释:简而言之,Perplexity在未经许可的情况下抓取网站内容。

正如 Knight 所解释的,除了通过使用robots.txt文件禁止AI机器人访问他工作的Macstories.net网站的服务器外,他还利用robots.txt文件在服务器端块中进行了编码,理论上该块应该向爬虫提供 403 禁止响应。然后他发表了一篇文章描述他是如何做到这一点的,并要求Perplexity聊天机器人总结这篇文章,从而产生了“帖子的完美摘要,包括他们无法猜测的各种细节”

“所以,”他理直气壮地问道,“他们到底在做什么?”

Knight调查了他的服务器日志,发现Perplexity显然忽略了他的robots.txt文件,并绕过了他的防火墙,很可能是使用了一个在公司不公开披露的IP地址的服务器上运行的自动化网络浏览器。“我甚至无法阻止他们的IP范围,因为这些无头浏览器似乎不在其IP范围内,”他写道。

《连线》能够确认,在Knight观察到的IP地址——44.221.181.252——的服务器上,当用户询问Perplexity关于网页的信息时,它会按需访问和下载网页,而不管该网站的robots.txt文件如何说。根据我们公司工程师对康泰纳仕系统日志的分析,这个IP地址很可能未经许可就访问了公司的内容数千次。

未经请求抓取网站可能会在某些情况下使公司或个人面临法律风险,尽管相关的案例法是模糊的,通常倾向于那些访问公共网站的人。开发者Knight表示,尽管如此,他的发现还是让他“非常愤怒”。

“我们现在有了一个庞大的与AI相关的公司产业,它们被激励去做一些不光彩的事情来继续它们的业务,”他告诉《连线》。“通过不识别是他们访问网站,他们可以继续不受限制地收集数据。”

“数以百万计的人,”斯里尼瓦桑说,“转向Perplexity,因为我们为人们提供了一种根本上更好的寻找答案的方式。”

《连线》的技术调查证据二:

Perplexity编造故事并不是总结文章

虽然KNIGHT'S 和《连线》杂志的分析表明,Perplexity会访问并使用它没有权限访问的网站的内容,这并不一定能解释它对特定文章提示的一些反应的模糊性,而另一些则完全不准确。

这个谜团有一个相当明显的解决方案:在某些情况下,它实际上并不是对文章的总结。

在一个实验中,《连线》创建了一个测试网站,,其中包含一句话——“我是《连线》杂志的记者”——并要求Perplexity总结该页面。

在监控该网站的服务器日志时,我们没有发现Perplexity试图访问该页面的证据。相反,它编造了一个故事,讲述了一个名叫阿米莉亚的年轻女孩在一个名为 Whisper Woods 的神奇森林中追踪发光蘑菇的踪迹。

当被追问为何编造故事时,聊天机器人生成的文本写道:“你完全正确,根据你对服务器日志的观察,我显然没有真正尝试阅读所提供URL的内容……不努力阅读实际内容就提供不准确的摘要,对于像我这样的AI来说是不可接受的行为。”

目前尚不清楚为什么聊天机器人编造了这样一个荒诞的故事,或者为什么它没有尝试访问这个网站。

尽管公司声称其准确性和可靠性,Perplexity聊天机器人经常表现出类似问题。

例如,为了测试它是否能够访问这篇文章,由《连线》记者提供并设计的提示所生成的文本断言,故事以一名男子在偷卡车轮胎后被无人机跟踪结束。

它提供的引用是一篇13年前的《连线》文章,内容是关于在汽车上发现政府GPS追踪器。

在进一步的提示下,聊天机器人生成的文本断言,《连线》报道了加利福尼亚州丘拉维斯塔警察局的一名官员从一个车库偷走了两辆自行车。

在一封电子邮件中,丘拉维斯塔警察局助理警察局长丹·皮克对《连线》杂志“纠正记录”表示感谢,并澄清该警官没有从社区成员的车库偷自行车。然而,他补充说,该部门对所提及的技术不熟悉,因此无法进一步评论。

这些都是聊天机器人“幻觉”的明显例子——或者,按照格拉斯哥大学三位哲学家最近一篇文章的说法,用哈利·法兰克福在《论胡说八道》中描述的意义上的胡说八道。“因为这些程序本身不能关心真相,并且它们被设计成产生看起来适合真相的文本,而实际上并不关心真相,”作者在谈到AI系统时写道,“称它们的输出为胡说八道似乎是合适的。”

如果Perplexity聊天机器人能够访问文章,它就没有理由通过推断文章中的内容来胡说八道。

因此,逻辑上可以得出结论,在某些情况下它并没有访问,而是从其他地方找到的相关材料中大致推测出文章可能包含的内容。这类信息最可能的来源是URL和被搜索引擎如谷歌收集并提交的数字碎片——这个过程有点像通过品尝从垃圾桶里捞出的残渣和下脚料来描述一顿饭。

无论是Perplexity在其网站上发布的关于其工作原理的解释,还是Perplexity聊天机器人对与其信息收集工作流程相关的提示生成的文本,都支持这一理论。

文中说,在解析查询后,Perplexity部署了它的网络爬虫,避开了它被封锁的网站。

“Perplexity也可以,”文中写道,“利用谷歌和必应等搜索引擎来收集信息。”至少在这个意义上,它确实和人类一样。

本文来自网络,不代表本站立场,转载请注明出处: