2023.10.11更新:根据SearchEngineLand报道,Google-Extended只是禁止Bard和其它Google的AI系统抓取,并不阻止SGE(Google的搜索生成体验)中出现网站信,因为SGE是搜索的一部分,要屏蔽搜索结果,需要禁止普通Google蜘蛛的抓取。 ——-更新结束——- 人工智能依然大火。最近看到很多有意思的AI应用,我自己也在尝试在SEO工作中应用AI,以后有机会再和读者分享心得。 上篇帖子提到,AI公司抓取网站内容用于其AI训练,站长本身并不一定愿意。过去几个月,主要AI服务都在商讨怎样让网站禁止AI蜘蛛抓取。网站有权这样做是无需讨论的,但什么方法更稳妥、简单是需要考虑的。出了各种方案,我一直关注着,但直到现在才写,是因为现在才出了有效简单的方法。 为什么要禁止AI蜘蛛抓取网站内容? 因为还没有明确有效的方式得到回报。就目前情况看,AI抓取内容和搜索引擎抓取内容还有点不一样。搜索引擎抓取内容后会给网站流量,SEO们巴不得多抓点。 AI把网站内容用于训练后,网站能得到什么还不确定。ChatGPT和Bard (Google的AI聊天服务)本身基本上是不给出处的,所以网站得不到流量。 Bing和Google都在尝试把生成式AI融入搜索,也就是Bing Chat和Google的SGE(search generative experience,搜索生成体验),这两个都是会给出出处链接的。方式和排版五花八门,还在演进中,可以肯定的是,网站可以得到流量。但Bing Chat和SGE使用范围还不大,以后全面上线后: 用户会不会点击AI回答里的链接?会和以前的第0位结果一样带来流量吗?但第0位结果往往是不完整的,而AI已经完整回答了问题,用户还需要点击吗? 能给出多少链接?搜索结果页面是10个链接,生成式搜索结果会是固定数吗?会是几个? 什么网站能得到链接?同一个话题,用于训练的肯定不是一个网站,那哪个网站会得到链接?和做SEO一样,人人有份吗?还是将集中于权威网站?怎样提高被引用的概率?将诞生另一种优化吗? 点击率是多少?和目前搜索结果类似?点击率差一点,搜索流量就将差异巨大。 等等 还都不知道啊。 像我等小博客也就考虑一下流量回报可能性,大公司还得考虑数据安全、版权、隐私、抗攻击性等更严重的问题。 怎样禁止AI抓取网站内容? 讨论了各种方法后,巨头们显然都意识到用robots文件禁止还是最方便的方法。 8月份,OpenAI发布了他们的抓取蜘蛛的新名字- GPTBot,网站可以像禁止其他蜘蛛一样,用robots文件禁止GPTBot抓取: User-agent: GPTBotDisallow: / 这里有个有点吊诡、很多人又会忽略的地方:ChatGPT的训练数据来源可不一定限于GPTBot抓取的数据。OpenAI的官方文件显示,除了网上的公开信息,他们还可能使用来自第三方的授权信息,这个第三方都包括谁,就不知道了。 9月28号,Google发布了他们用于AI训练的专用蜘蛛名字: Google-Extended,同样可以用robots文件简单禁止: User-agent: Google-ExtendedDisallow: / Google的用词是,用robots文件禁止了Google-Extended蜘蛛,就禁止了Bard和Vertex AI(Google开放给用户使用的云端机器学习平台),以及今后所有用于这些产品的模块。所以禁了Google-Extended就应该彻底不会被用于Google的AI训练了。 比较有意思的是,Google说的是: By using Google-Extended to control access to content on a site, a website administrator can choose whether to help these AI models become more accurate and capable over time. 歌词大意:通过控制Google-Extended,网站可以选择是否要帮助AI模型成长。 禁了,就是不帮助AI成长啊,有点道德绑架的意思啊,哈哈哈。 哪些网站禁止了AI抓取网站内容? Google的禁止方法才发布,还不知道成效。OpenAI的方法公布一个多月,已经有不少大网站禁了GPTBot。 9月22号,Originality.ai发布帖子,统计了前1000名大网站禁止GPTBot等AI蜘蛛的情况,增长速度挺快,真是残忍: 前1000名大网站,已经有242个禁了GPTBot,占了能检查到robots文件的933个网站的26%。其中包括amazon,pinterest,quora,纽约时报,CNN,华盛顿邮报,路透社,等等。 图里的CCBot是Common Crawl的蜘蛛,一个非赢利组织,是个大型网站数据库,很多AI是用CC数据库训练的,说不定就是OpenAI 的第三方数据提供商之一,所以也被不少网站给禁了。 SEO每天一贴会禁止吗? 本博客会禁止GPTBot和Google-Extended吗?至少目前不会。 虽然前一篇帖子抱怨了一下,AI抓我内容用于训练,对我有什么好处呢?不过后来再想想,随它去吧。AI是大势所趋,势不可挡,有没有我这个博客的内容,对它的影响是零。 不禁,除了有点不甘心,也没什么实质坏处。禁了AI蜘蛛,对我也没任何好处啊。还不如换个角度想,能成为这个改变世界的变革的一部分,与有荣焉。 顺祝中秋、国庆快乐。 你可能想看: 你的网站内容被用于AI训练了吗?你愿意吗? 最近几个月不管SEO行业还是整个科技行业,最热门的话题无疑是人工智能。那么,现在你的网站内容已经被AI用于训练了吗? 做Google SEO前,先了解Google抓取网页流程和搜索算法 我们自己搭建外贸独立站更多的就是为了做Google SEO获得排名以获取免费的搜索引擎流量。想要做Google SEO,那么我们首先应该要了解一下Google的搜索引擎抓取网页流程,知道了流程你才知道 谷歌AMP和百度MIP怎样应用于电子商务网站? 前几天Google发了一个帖子,给出了电子商务网站该怎样应用AMP的建议。这些建议应该也适用于百度MIP,和Google AMP一样,百度MIP也是首先应用于新闻内容,然后扩展至其他垂直领域。 SEO新手入门系列2021(六):站内SEO内容篇 这是《SEO新手入门系列2021》中的第六篇文章,前面几篇文章主要是介绍了SEO中的基础知识部份,关于什么是SEO,搜索引擎的工作原理,关键词挖掘等,从这篇开始就要实际分享一些内容,SEO可以分为站内... Google禁止多个页面显示相同的FAQPage结构化数据 之前奶爸给大家介绍过给网站添加常见问答FAQPage结构化数据的方法,可以让我们的文章在Google搜索结果里面展示FAQ模块增加曝光度。 不过Google日前增对FAQPage结构化数据的使用规则进 如何训练你的大脑,让它在工作中发挥最佳状态 你是否曾在工作中"失控",事后又对自己的言行深感后悔? Google用于麻痹Spammer的专利 现在SEO的日子越来越不好过了,部分spammer就更提心吊胆了。当然,还有一部分spammer早就做好心理准备了,是无所谓的。 前几天SEO by the Sea介绍了Google刚刚获得的一项专利... SEO新手入门系列2021(七):站内SEO优化 前一篇文章主要围绕站内内容优化,这篇文章继续说一些站内SEO优化方法。其实想要做好站内优化,就要先把一些基础优化做好,基础的优化占到了站内优化比例90%左右,最多不到10%是属于有点技术难度的高级SE... 没内容的网站怎么优化 这类问题还挺常见的,去开会时经常有人问,有时候貌似不太一样的问题,其实也是同样问题的变体:没有内容怎么做SEO? 未来SEO也许不用再操心爬行、抓取问题? 必应的帖子告诉SEO们,以后很可能不用担心抓取的问题了,有了新页面,或者旧页面有了更新,直接提交URL就行了,不必依靠Bing蜘蛛爬行抓取。
怎样禁止AI抓取网站内容用于其训练
2024-07-04 | 浏览: 24
2023.10.11更新:根据SearchEngineLand报道,Google-Extended只是禁止Bard和其它Google的AI系统抓取,并不阻止SGE(Google的搜索生成体验)中出现网站信,因为SGE是搜索的一部分,要屏蔽搜索结果,需要禁止普通Google蜘蛛的抓取。
——-更新结束——-
人工智能依然大火。最近看到很多有意思的AI应用,我自己也在尝试在SEO工作中应用AI,以后有机会再和读者分享心得。
上篇帖子提到,AI公司抓取网站内容用于其AI训练,站长本身并不一定愿意。过去几个月,主要AI服务都在商讨怎样让网站禁止AI蜘蛛抓取。网站有权这样做是无需讨论的,但什么方法更稳妥、简单是需要考虑的。出了各种方案,我一直关注着,但直到现在才写,是因为现在才出了有效简单的方法。
为什么要禁止AI蜘蛛抓取网站内容?因为还没有明确有效的方式得到回报。就目前情况看,AI抓取内容和搜索引擎抓取内容还有点不一样。搜索引擎抓取内容后会给网站流量,SEO们巴不得多抓点。
AI把网站内容用于训练后,网站能得到什么还不确定。ChatGPT和Bard (Google的AI聊天服务)本身基本上是不给出处的,所以网站得不到流量。
Bing和Google都在尝试把生成式AI融入搜索,也就是Bing Chat和Google的SGE(search generative experience,搜索生成体验),这两个都是会给出出处链接的。方式和排版五花八门,还在演进中,可以肯定的是,网站可以得到流量。但Bing Chat和SGE使用范围还不大,以后全面上线后:
还都不知道啊。
像我等小博客也就考虑一下流量回报可能性,大公司还得考虑数据安全、版权、隐私、抗攻击性等更严重的问题。
怎样禁止AI抓取网站内容?讨论了各种方法后,巨头们显然都意识到用robots文件禁止还是最方便的方法。
8月份,OpenAI发布了他们的抓取蜘蛛的新名字- GPTBot,网站可以像禁止其他蜘蛛一样,用robots文件禁止GPTBot抓取:
User-agent: GPTBotDisallow: /
这里有个有点吊诡、很多人又会忽略的地方:ChatGPT的训练数据来源可不一定限于GPTBot抓取的数据。OpenAI的官方文件显示,除了网上的公开信息,他们还可能使用来自第三方的授权信息,这个第三方都包括谁,就不知道了。
9月28号,Google发布了他们用于AI训练的专用蜘蛛名字: Google-Extended,同样可以用robots文件简单禁止:
Google的用词是,用robots文件禁止了Google-Extended蜘蛛,就禁止了Bard和Vertex AI(Google开放给用户使用的云端机器学习平台),以及今后所有用于这些产品的模块。所以禁了Google-Extended就应该彻底不会被用于Google的AI训练了。
比较有意思的是,Google说的是:
歌词大意:通过控制Google-Extended,网站可以选择是否要帮助AI模型成长。
禁了,就是不帮助AI成长啊,有点道德绑架的意思啊,哈哈哈。
哪些网站禁止了AI抓取网站内容?Google的禁止方法才发布,还不知道成效。OpenAI的方法公布一个多月,已经有不少大网站禁了GPTBot。
9月22号,Originality.ai发布帖子,统计了前1000名大网站禁止GPTBot等AI蜘蛛的情况,增长速度挺快,真是残忍:
前1000名大网站,已经有242个禁了GPTBot,占了能检查到robots文件的933个网站的26%。其中包括amazon,pinterest,quora,纽约时报,CNN,华盛顿邮报,路透社,等等。
图里的CCBot是Common Crawl的蜘蛛,一个非赢利组织,是个大型网站数据库,很多AI是用CC数据库训练的,说不定就是OpenAI 的第三方数据提供商之一,所以也被不少网站给禁了。
SEO每天一贴会禁止吗?本博客会禁止GPTBot和Google-Extended吗?至少目前不会。
虽然前一篇帖子抱怨了一下,AI抓我内容用于训练,对我有什么好处呢?不过后来再想想,随它去吧。AI是大势所趋,势不可挡,有没有我这个博客的内容,对它的影响是零。
不禁,除了有点不甘心,也没什么实质坏处。禁了AI蜘蛛,对我也没任何好处啊。还不如换个角度想,能成为这个改变世界的变革的一部分,与有荣焉。
顺祝中秋、国庆快乐。
你的网站内容被用于AI训练了吗?你愿意吗?
最近几个月不管SEO行业还是整个科技行业,最热门的话题无疑是人工智能。那么,现在你的网站内容已经被AI用于训练了吗?
做Google SEO前,先了解Google抓取网页流程和搜索算法
我们自己搭建外贸独立站更多的就是为了做Google SEO获得排名以获取免费的搜索引擎流量。想要做Google SEO,那么我们首先应该要了解一下Google的搜索引擎抓取网页流程,知道了流程你才知道
谷歌AMP和百度MIP怎样应用于电子商务网站?
前几天Google发了一个帖子,给出了电子商务网站该怎样应用AMP的建议。这些建议应该也适用于百度MIP,和Google AMP一样,百度MIP也是首先应用于新闻内容,然后扩展至其他垂直领域。
SEO新手入门系列2021(六):站内SEO内容篇
这是《SEO新手入门系列2021》中的第六篇文章,前面几篇文章主要是介绍了SEO中的基础知识部份,关于什么是SEO,搜索引擎的工作原理,关键词挖掘等,从这篇开始就要实际分享一些内容,SEO可以分为站内...
Google禁止多个页面显示相同的FAQPage结构化数据
之前奶爸给大家介绍过给网站添加常见问答FAQPage结构化数据的方法,可以让我们的文章在Google搜索结果里面展示FAQ模块增加曝光度。 不过Google日前增对FAQPage结构化数据的使用规则进
如何训练你的大脑,让它在工作中发挥最佳状态
你是否曾在工作中"失控",事后又对自己的言行深感后悔?
Google用于麻痹Spammer的专利
现在SEO的日子越来越不好过了,部分spammer就更提心吊胆了。当然,还有一部分spammer早就做好心理准备了,是无所谓的。 前几天SEO by the Sea介绍了Google刚刚获得的一项专利...
SEO新手入门系列2021(七):站内SEO优化
前一篇文章主要围绕站内内容优化,这篇文章继续说一些站内SEO优化方法。其实想要做好站内优化,就要先把一些基础优化做好,基础的优化占到了站内优化比例90%左右,最多不到10%是属于有点技术难度的高级SE...
没内容的网站怎么优化
这类问题还挺常见的,去开会时经常有人问,有时候貌似不太一样的问题,其实也是同样问题的变体:没有内容怎么做SEO?
未来SEO也许不用再操心爬行、抓取问题?
必应的帖子告诉SEO们,以后很可能不用担心抓取的问题了,有了新页面,或者旧页面有了更新,直接提交URL就行了,不必依靠Bing蜘蛛爬行抓取。