#记录我的2024#
快速导读
苹果公司推出了一个名为Applebot-Extended的新工具,允许出版商选择不参与其人工智能(AI)训练。此举引发了多个知名新闻机构和社交媒体平台的关注,包括《纽约时报》和Facebook等,他们已决定排除自己的数据。这一反应反映了公众和行业对自动爬虫在知识产权及互联网未来中的角色的看法变化。出版商可通过修改网站上的robots.txt文件来阻止Applebot-Extended的访问,尽管法律上并不强制执行。分析显示,约7%的高流量网站选择阻止该工具,主要集中在新闻媒体领域,而大多数网站所有者似乎对苹果的AI训练实践没有异议或不知情。此工具的推出在AI训练实践的辩论中引发了新的讨论。

苹果为出版商推出的新工具
在苹果公司悄然推出一项允许出版商选择不参与其人工智能(AI)训练的工具不到三个月的时间里,多个知名新闻机构和社交媒体平台已选择利用这一选项。WIRED确认,包括Facebook、Instagram、Craigslist、Tumblr、《纽约时报》、《金融时报》、《大西洋月刊》、Vox Media、USA Today网络以及WIRED的母公司Condé Nast在内的众多组织,均已决定将其数据排除在苹果的AI训练流程之外。这一冷淡的反响突显了公众和行业对多年来在互联网上进行扫描的自动爬虫的看法发生了重大变化。随着这些机器人在收集AI训练数据中扮演着关键角色,它们已成为关于知识产权和互联网未来格局的争议焦点。

理解Applebot-Extended
新推出的工具,称为Applebot-Extended,作为苹果网络爬虫机器人的扩展,允许网站所有者指示苹果不使用他们的数据进行AI训练。苹果在一篇解释其功能的博客中将此功能称为“控制数据使用”。最初于2015年推出的Applebot,主要设计用于爬取互联网,以支持苹果的搜索产品,如Siri和Spotlight。然而,Applebot的目的最近有所扩展,因为它收集的数据也可以用于训练苹果为其AI项目开发的基础模型。

通过robots.txt实现出版商控制
出版商可以通过修改其网站上的一个文本文件——称为机器人排除协议(robots.txt),来阻止Applebot-Extended。这个文件几十年来一直管理着网络爬虫机器人的行为,并且像这些机器人一样,现在成为了关于AI训练实践更广泛辩论的核心。许多出版商已经更新了他们的robots.txt文件,以防止来自OpenAI、Anthropic及其他重要AI领域参与者的AI机器人。robots.txt文件允许网站所有者逐个案例决定是否允许或阻止特定的机器人。尽管法律并没有要求机器人遵守文本文件中的指示,但遵循这一规范已成为长期以来的惯例,尽管有时会被忽视。今年早些时候,WIRED的一项调查揭示,AI初创公司Perplexity正在无视robots.txt,并秘密抓取网站。目前,Applebot-Extended尚处于新阶段,仅有少数网站选择阻止它。总部位于加拿大安大略省的AI检测初创公司Originality AI进行的一项分析发现,约有7%的1,000个高流量网站样本在阻止Applebot-Extended,主要集中在新闻和媒体机构。另一项由AI代理监测服务Dark Visitors进行的近期分析发现,约有6%的另一组1,000个高流量网站样本也阻止了该机器人。综合这些发现,表明绝大多数网站所有者要么不反对苹果的AI训练实践,要么根本不知晓有阻止Applebot-Extended的选项。


免责声明:文章内容来自互联网,版权归原作者所有,本站仅提供信息存储空间服务,真实性请自行鉴别,本站不承担任何责任,如有侵权等情况,请与本站联系删除。
转载请注明出处:主要网站拒绝苹果的人工智能抓取-苹果官网拒绝了我们的连接请求 https://www.7ca.cn/zsbk/zt/49156.html