最近几个月不管SEO行业还是整个科技行业,最热门的话题无疑是人工智能。 说实话,过去20多年来,我一直没觉得SEO技术有什么根本变化。虽然搜索引擎们每天更新算法,SEO们探索各种技巧,新名词层出不穷,这个战法,那个黑科技……其实呢,真没什么变化,无非是:创作好的内容,让蜘蛛能抓到,让用户能正常访问,然后,就没了。 自从ChatGPT出现以后,我第一次感觉可能要有变化了。我从来没有像现在这样觉得,SEO可能会有不同的做法了。 所以,现在能引起写帖子冲动的只有AI了。 上篇讨论AI是否会消灭SEO的帖子里提到过,Google测试中的生成式AI没有给出内容出处,也就不会给其他网站带来流量,那么站长们还不得抗议?还能让Google蜘蛛来抓网站内容?我辛辛苦苦创作内容,让蜘蛛免费来抓,训练出AI,回答用户问题时没有链接,没有出处,不会给网站带来任何好处,我图什么呀?如果有那么一天,我反正直接禁止Google蜘蛛来抓了。 那么,现在你的网站内容已经被用于AI训练了吗?这个不太容易确切知道,因为生成式AI的回答不是伪原创,不是拼接,是在学习大量数据后AI自己写的原创。 Bing还好,会标出部分出处,被标的网站显然被用于训练了。Google有没有用呢? 前两天华盛顿邮报发了一篇文章:“Inside the secret list of websites that make AI like ChatGPT sound smart“ – ”那些使ChatGPT之类AI看起来挺聪明的网站们“。文章内嵌了一个小功能,可以查某个网站是否被Google用于AI训练,以及用的比例。 AI们训练的数据是海量的,来源也挺多,出版的书籍,各种数据库,wiki,普通网站肯定也是其中一部分。C4是Google训练AI使用的一个网站数据集,里面有一千五百万个网站。华盛顿邮报分析了每个网站出现的token次数,token越多,大致上被用于训练的数据越多。token我不确定该怎么翻译,“字符串”?反正指的是一小段文字,比如一个词或一个短语。 C4不是Google用于AI训练的所有网站,所以里面没有的网站,不一定就没被用于训练。比如查一下zhihu.com,居然一个token都没有,这不科学,我无法相信知乎的内容没有被用于训练。 已经有人用这个小工具统计出被Google用于训练的token数和占比,Google专利第一,wikipedia第二,scribd第三: 出于好奇和虚荣心,肯定要查一下自己博客: 被用了,280个token。好吧,我也不知道是该高兴还是难过。有点欣慰是肯定的,毕竟,连联合早报都只有19个token: 但短暂的虚荣得到满足之后,接下来就会想,我真的愿意我的内容被Google用于AI训练吗 – 在得不到任何好处的情况下? 各位可以查一下自己的网站有没有被用?用了的话,你心甘情愿吗? 你可能想看: 怎样禁止AI抓取网站内容用于其训练 AI公司抓取网站内容用于其AI训练,站长本身并不一定愿意。过去几个月,主要AI服务都在商讨怎样让网站禁止AI蜘蛛抓取。现在出了有效简单的方法。 SEO新手入门系列2021(六):站内SEO内容篇 这是《SEO新手入门系列2021》中的第六篇文章,前面几篇文章主要是介绍了SEO中的基础知识部份,关于什么是SEO,搜索引擎的工作原理,关键词挖掘等,从这篇开始就要实际分享一些内容,SEO可以分为站内... 如何优化网站SEO?掌握这些技巧让你的网站排名更靠前 本文详细介绍如何通过关键词研究和优化、网站速度优化、移动友好性以及使用SEO工具来提升网站的搜索引擎排名。通过关键词研究找到目标受众常用的词汇,并在网站内容中合理运用;优化网站速度和移动体验以提升用户... 没内容的网站怎么优化 这类问题还挺常见的,去开会时经常有人问,有时候貌似不太一样的问题,其实也是同样问题的变体:没有内容怎么做SEO? 如何训练你的大脑,让它在工作中发挥最佳状态 你是否曾在工作中"失控",事后又对自己的言行深感后悔? Zac免费给你的网站做SEO诊断 是的,这个博客,SEO每天一贴的作者,Zac,为你的网站做SEO诊断。 免费SEO诊断。 如果问:你会结婚吗?你的答案是—— 现在似乎越来越多的人都不结婚了,以后婚姻制度会消亡吗? 隐隐觉得自己有问题吗?你的难过可能来自于情感忽视 「情感忽视」说的就是在父母在孩子情感产生时“没有作为”的态度,在无法关注及正确反应孩子情绪的过程中产生。 谷歌AMP和百度MIP怎样应用于电子商务网站? 前几天Google发了一个帖子,给出了电子商务网站该怎样应用AMP的建议。这些建议应该也适用于百度MIP,和Google AMP一样,百度MIP也是首先应用于新闻内容,然后扩展至其他垂直领域。 亲密关系里,是什么让两个人愿意彼此珍惜? 如此,你保护了自己获得安全,却牺牲了关系可以走向更亲密和相互理解的机会。
你的网站内容被用于AI训练了吗?你愿意吗?
2024-07-04 | 浏览: 24
最近几个月不管SEO行业还是整个科技行业,最热门的话题无疑是人工智能。
说实话,过去20多年来,我一直没觉得SEO技术有什么根本变化。虽然搜索引擎们每天更新算法,SEO们探索各种技巧,新名词层出不穷,这个战法,那个黑科技……其实呢,真没什么变化,无非是:创作好的内容,让蜘蛛能抓到,让用户能正常访问,然后,就没了。
自从ChatGPT出现以后,我第一次感觉可能要有变化了。我从来没有像现在这样觉得,SEO可能会有不同的做法了。
所以,现在能引起写帖子冲动的只有AI了。
上篇讨论AI是否会消灭SEO的帖子里提到过,Google测试中的生成式AI没有给出内容出处,也就不会给其他网站带来流量,那么站长们还不得抗议?还能让Google蜘蛛来抓网站内容?我辛辛苦苦创作内容,让蜘蛛免费来抓,训练出AI,回答用户问题时没有链接,没有出处,不会给网站带来任何好处,我图什么呀?如果有那么一天,我反正直接禁止Google蜘蛛来抓了。
那么,现在你的网站内容已经被用于AI训练了吗?这个不太容易确切知道,因为生成式AI的回答不是伪原创,不是拼接,是在学习大量数据后AI自己写的原创。
Bing还好,会标出部分出处,被标的网站显然被用于训练了。Google有没有用呢?
前两天华盛顿邮报发了一篇文章:“Inside the secret list of websites that make AI like ChatGPT sound smart“ – ”那些使ChatGPT之类AI看起来挺聪明的网站们“。文章内嵌了一个小功能,可以查某个网站是否被Google用于AI训练,以及用的比例。
AI们训练的数据是海量的,来源也挺多,出版的书籍,各种数据库,wiki,普通网站肯定也是其中一部分。C4是Google训练AI使用的一个网站数据集,里面有一千五百万个网站。华盛顿邮报分析了每个网站出现的token次数,token越多,大致上被用于训练的数据越多。token我不确定该怎么翻译,“字符串”?反正指的是一小段文字,比如一个词或一个短语。
C4不是Google用于AI训练的所有网站,所以里面没有的网站,不一定就没被用于训练。比如查一下zhihu.com,居然一个token都没有,这不科学,我无法相信知乎的内容没有被用于训练。
已经有人用这个小工具统计出被Google用于训练的token数和占比,Google专利第一,wikipedia第二,scribd第三:
出于好奇和虚荣心,肯定要查一下自己博客:
被用了,280个token。好吧,我也不知道是该高兴还是难过。有点欣慰是肯定的,毕竟,连联合早报都只有19个token:
但短暂的虚荣得到满足之后,接下来就会想,我真的愿意我的内容被Google用于AI训练吗 – 在得不到任何好处的情况下?
各位可以查一下自己的网站有没有被用?用了的话,你心甘情愿吗?
怎样禁止AI抓取网站内容用于其训练
AI公司抓取网站内容用于其AI训练,站长本身并不一定愿意。过去几个月,主要AI服务都在商讨怎样让网站禁止AI蜘蛛抓取。现在出了有效简单的方法。
SEO新手入门系列2021(六):站内SEO内容篇
这是《SEO新手入门系列2021》中的第六篇文章,前面几篇文章主要是介绍了SEO中的基础知识部份,关于什么是SEO,搜索引擎的工作原理,关键词挖掘等,从这篇开始就要实际分享一些内容,SEO可以分为站内...
如何优化网站SEO?掌握这些技巧让你的网站排名更靠前
本文详细介绍如何通过关键词研究和优化、网站速度优化、移动友好性以及使用SEO工具来提升网站的搜索引擎排名。通过关键词研究找到目标受众常用的词汇,并在网站内容中合理运用;优化网站速度和移动体验以提升用户...
没内容的网站怎么优化
这类问题还挺常见的,去开会时经常有人问,有时候貌似不太一样的问题,其实也是同样问题的变体:没有内容怎么做SEO?
如何训练你的大脑,让它在工作中发挥最佳状态
你是否曾在工作中"失控",事后又对自己的言行深感后悔?
Zac免费给你的网站做SEO诊断
是的,这个博客,SEO每天一贴的作者,Zac,为你的网站做SEO诊断。 免费SEO诊断。
如果问:你会结婚吗?你的答案是——
现在似乎越来越多的人都不结婚了,以后婚姻制度会消亡吗?
隐隐觉得自己有问题吗?你的难过可能来自于情感忽视
「情感忽视」说的就是在父母在孩子情感产生时“没有作为”的态度,在无法关注及正确反应孩子情绪的过程中产生。
谷歌AMP和百度MIP怎样应用于电子商务网站?
前几天Google发了一个帖子,给出了电子商务网站该怎样应用AMP的建议。这些建议应该也适用于百度MIP,和Google AMP一样,百度MIP也是首先应用于新闻内容,然后扩展至其他垂直领域。
亲密关系里,是什么让两个人愿意彼此珍惜?
如此,你保护了自己获得安全,却牺牲了关系可以走向更亲密和相互理解的机会。