主要网站拒绝苹果的人工智能抓取行为-网站拒绝显示此网页怎么解决

#头条首发大赛#

快速导读

苹果公司最近推出了名为Applebot-Extended的增强型网络爬虫,允许出版商选择不让其数据用于AI训练。包括《纽约时报》、《金融时报》等在内的多个知名机构已决定利用这一选项,表明对数据使用的关注日益增强。Applebot-Extended旨在尊重出版商的权利,尽管它仍然允许原始Applebot爬取网站内容,但确保收集的数据不会用于训练苹果的AI模型。出版商可通过修改“机器人排除协议”(robots.txt)文件来阻止Applebot-Extended的访问,这一文件在过去几十年中一直规范着爬虫与网站的互动。随着AI技术的发展,出版商对数据控制的需求愈发强烈,许多已更新其robots.txt文件以限制AI爬虫的访问,反映出知识产权与互联网未来的争夺战。

主要网站拒绝苹果的人工智能抓取行为-网站拒绝显示此网页怎么解决

苹果人工智能训练工具介绍

在苹果公司推出允许出版商选择退出其人工智能(AI)训练功能不到三个月的时间里,若干知名新闻机构和社交媒体平台已决定利用这一选项。WIRED证实,包括Facebook、Instagram、Craigslist、Tumblr、《纽约时报》、《金融时报》、《大西洋月刊》、Vox Media、USA Today网络以及WIRED的母公司Condé Nast在内的多个重要实体,均选择将其数据排除在苹果的AI训练之外。这一冷淡的反应表明,网络爬虫的认知和利用方式发生了显著变化。这些爬虫如今在收集AI训练数据方面扮演着至关重要的角色,成为知识产权权利与互联网未来的争夺战场。

主要网站拒绝苹果的人工智能抓取行为-网站拒绝显示此网页怎么解决

Applebot-Extended的功能

新功能名为Applebot-Extended,作为苹果现有网络爬虫的增强版,使网站所有者能够明确指示苹果不使用其数据进行AI训练。苹果在一篇详细介绍其功能的博客中将这一能力描述为“控制数据使用”。最初于2015年推出的Applebot,最初是为了支持苹果的搜索功能,如Siri和Spotlight而爬取网络。然而,随着它所收集的信息如今也被用于训练苹果为其AI项目开发的基础模型,其角色最近已发生了扩展。

主要网站拒绝苹果的人工智能抓取行为-网站拒绝显示此网页怎么解决

出版商对数据使用的控制

根据苹果发言人Nadine Haija的说法,Applebot-Extended旨在尊重出版商的权利。虽然它并不阻止原始的Applebot爬取网站——这将影响该网站内容在苹果搜索服务中的呈现方式——但它确保收集的数据不会被用于训练苹果的大型语言模型或其他生成性AI项目。实质上,这一功能允许对一个爬虫在与另一个爬虫的关系中进行定制。出版商可以通过修改其网站上的一个文本文件,即“机器人排除协议”(robots.txt),来阻止Applebot-Extended的访问。这个文件几十年来一直规范着爬虫与网站的互动,现在成为了关于AI训练方法的持续辩论的核心。许多出版商已经更新了他们的robots.txt文件,以限制来自OpenAI、Anthropic及其他重要AI参与者的AI爬虫。

主要网站拒绝苹果的人工智能抓取行为-网站拒绝显示此网页怎么解决
主要网站拒绝苹果的人工智能抓取行为-网站拒绝显示此网页怎么解决

免责声明:文章内容来自互联网,版权归原作者所有,本站仅提供信息存储空间服务,真实性请自行鉴别,本站不承担任何责任,如有侵权等情况,请与本站联系删除。
转载请注明出处:主要网站拒绝苹果的人工智能抓取行为-网站拒绝显示此网页怎么解决 https://www.7ca.cn/zsbk/zt/49155.html

上一篇 2024年9月3日 16:22:08
下一篇 2024年9月3日 16:35:10

联系我们

在线咨询: QQ交谈

邮件:362039258#qq.com(把#换成@)

工作时间:周一至周五,10:30-16:30,节假日休息。

铭记历史,吾辈自强!