首页 > AI教程资讯 >多家 AI 公司绕过网络标准抓取新闻出版商网站内容,并将抓取的内容用于训练生成式 AI 系统

多家 AI 公司绕过网络标准抓取新闻出版商网站内容,并将抓取的内容用于训练生成式 AI 系统

2025-06-14万象ai

IT之家 6 月 24 日消息,据路透社上周六报道,专注于“内容许可”领域的初创公司 TollBit 近日向新闻出版商发出警告称,多家人工智能公司正在规避出版商用来阻止抓取内容的常见网络标准,并将抓取的内容用于训练生成式 AI 系统。

这一消息是在 AI 搜索初创公司 Perplexity 与媒体《福布斯》之间就同一网络标准公开争执的背景下发出的。当前,科技和媒体公司之间正在就生成式 AI 时代的内容价值展开更广泛的辩论。

Tollbit 将自己定位为内容匮乏的 AI 公司与愿意与他们达成重大许可协议的出版商之间的“媒人”。

IT之家注:《福布斯》曾指责 Perplexity 在 AI 生成的摘要中剽窃其报道内容,然而前者并未标注消息来源,也没有获得《福布斯》的许可。

另外,《连线》(Wired)杂志上周也发表了一篇调查报道并指出,Perpexity 可能绕过了(新闻出版商设置的)“机器人排除协议(Robots Exclusion Protocol)”或其他阻止网络爬虫的程序。

多家 AI 公司绕过网络标准抓取新闻出版商网站内容,并将抓取的内容用于训练生成式 AI 系统

图源 Pexels

自称代表 2000 多家美国出版商的贸易组织“新闻媒体联盟”也对这一行为表示担忧 ——AI 公司对出版商设置的“禁止抓取”机制或“robots.txt”等工具置若罔闻。该组织** Danielle Coffey 表示,“如果 AI 公司无法停止大规模抓取的话,我们就无法通过有价值的内容获利,也无法为记者们支付报酬。”

Tollbit 表示,Perplexity 并不是唯一无视出版商网站“禁止抓取”机制的违规者。根据其分析,“大量”AI 平台绕过了这一机制,而该机制为 AI 平台抓取自家内容设置了一份“白名单”—— 指示其网站哪些部分可以被抓取。

“这意味着,来自多个来源(而不仅仅是一家公司)的 AI 平台正在选择绕过 robots.txt 协议来从网站中检索内容,”TollBit 写道,“我们获取的出版商日志越多,这种模式出现的次数就越多。”

包括《纽约时报》在内的一些出版商已就这些侵权行为起诉 AI 公司。其他出版商则与人工智能公司签署了许可协议,AI 公司们也愿意为内容付费,尽管双方往往对材料的价值存在分歧。许多 AI 开发者认为,他们免费获取内容并未违反任何法律。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表本站立场。文章及其配图仅供学习分享之

4223
454

游戏预约提醒

游戏正式上线前,我们将通过免费预约短信通知您

预约成功

我们将通过免费预约短信通知您

知道了

当前人数众多,预约失败!

知道了

您已预约,请等待通知!

知道了

隐私声明

严格遵守法律法规,遵循以下隐私保护原则,为您提供更加安全、可靠的服务:

1、安全可靠:

我们竭尽全力通过合理有效的信息安全技术及管理流程,防止您的信息泄露、损毁、丢失。

2、自主选择:

我们为您提供便利的信息管理选项,以便您做出合适的选择,管理您的个人信息

3、保护通信秘密:

我们严格遵照法律法规,保护您的通信秘密,为您提供安全的通信服务。

4、合理必要:

为了向您和其他用户提供更好的服务,我们仅收集必要的信息。

5、清晰透明:

我们努力使用简明易懂的表述,向您介绍隐私政策,以便您清晰地了解我们的信息处理方式。

6、将隐私保护融入产品设计:

我们在产品和服务研发、运营的各个环节,融入隐私保护的理念。

本《隐私政策》主要向您说明:

我们收集哪些信息 我们收集信息的用途 您所享有的权利

希望您仔细阅读《隐私政策》

为了让您有更好的体验、改善我们的服务或经您同意的其他用途,在符合相关法律法规的前提下,我们可能将通过某些服务所收集的信息用于我们的其他服务。例如,将您在使用我们某项服务时的信息,用于另一项服务中向您展示个性化的内容或广告、用于用户研究分析与统计等服务。

若您使用服务,即表示您认同我们在本政策中所述内容。除另有约定外,本政策所用术语与《服务协议》中的术语具有相同的涵义。

如您有问题,请联系我们。

应用权限

此应用程序需要访问以下内容

写入外部存储

允许程序写入外部存储,如SD卡上写文件

完全的网络访问权限

允许该应用创建网络套接字和使用自定义网络协议。浏览器和其他某些应用提供了向互联网发送数据的途径,因此应用无需该权限即可向互联网发送数据

拍摄照片和视频

允许访问摄像头进行拍照或录制视频

读取手机状态和身份

允许应用访问设备的电话功能。此权限可让应用确定本机号码和设备ID、是否正处于通话状态以及拨打的号码。

查看网络状态

允许应用程序查看所有网络的状态。例如存在和连接的网络

查看WLAN状态

允许程序访问WLAN网络状态信息

控制震动

允许应用控制振动设备

拨打电话

允许一个程序初始化一个电话拨号不需通过拨号用户界面需要用户确认,应用程序执行可能需要您付费