6月27号Google工具条PR更新了一次,然后很多人注意到Twitter首页PR降为零。(Google首页也降到9,不过这不是重点。)7月19号Google居然又更新一次工具条PR。Google更新工具条PR值从一个月一次变到3个月一次,甚至半年一次,所以这次不到一个月就再次更新有点蹊跷。据目前透露的信息,这次更新PR貌似主要就是为了修正Twitter PR值的问题。 今天看到SEL上Vanessa Fox的一篇文章,解释了为什么Twitter的一些技术失误导致Google抓取、URL规范化、PR计算等一系列问题,很值得一读,所以大致翻译一下供读者参考。 为什么不是Google的错误,Google却这么上心,更新了PR呢?猜测原因有二,一是无论任何情况下Twitter首页PR为零,大家肯定是说Google有问题,而不是Twitter有问题,虽然其实确实是Twitter自己造成的。二是,在Google+推出的同时,Google与Twitter合作合同到期了,不能直接通过API抓数据了,这时候Twitter PR降为零,大家恐怕心里会嘀咕,这Google真是过了河马上就拆桥啊,Google不想背这个黑锅。 言归正传。 Google一位发言人回复SEL关于Twitter PR时说: 最近Twitter不断修改它们的robots.txt文件和HTTP头信息,玩得太起劲了,暂时造成Google算法处理Twitter时的URL规范化问题。现在规范化问题差不多解决了,所以我们更新了工具条PR以反映最新数据。Twitter在Google索引库里一直有很高PR,没有惩罚。 所以Vanessa Fox研究了一下Twitter到底有什么robots文件、服务器头信息、URL规范化问题。真是不看不知道,一看吓一跳。顺便提一下,Vanessa Fox是前Google员工,负责网管工具webmaster tools的。 预感这篇帖子会比较长,才刚开始就这么长了… Vanessa Fox搜了一下自己名字“Vanessa Fox”,结果如下图: 有URL,但没标题,没说明,也就是其实没抓取,只是部分索引。 直接搜Vanessa Fox自己Twitter页面URL的结果是: 为什么出现了大写?URL最后面那个点(.)又是什么东东?到底怎么回事呢? 先来看看Twitter的robots.txt文件 twitter.com和www.twitter.com的robots.txt文件居然是不一样的。twitter.com/robots.txt是这样的: #Google Search Engine Robot User-agent: Googlebot # Crawl-delay: 10 — Googlebot ignores crawl-delay ftl Allow: /*?*_escaped_fragment_ Disallow: /*? Disallow: /*/with_friends #Yahoo! Search Engine Robot User-Agent: Slurp Crawl-delay: 1 Disallow: /*? Disallow: /*/with_friends #Microsoft Search Engine Robot User-Agent: msnbot Disallow: /*? Disallow: /*/with_friends # Every bot that might possibly read and respect this file. User-agent: * Disallow: /*? Disallow: /*/with_friends Disallow: /oauth Disallow: /1/oauth www.twitter.com/robots.txt是这样的: User-agent: * Disallow: / 也就是说: 某些情况下,带与不带www的两个版本内容可能是不一样的。 Twitter貌似为了规范化网址,禁止搜索引擎爬行www版本。 所以虽然www版本做了301转向到不带www的版本,但Twitter禁止搜索引擎抓www版本,所以搜索引擎蜘蛛看不到那个301啊。杯具啊。 连向Twitter的链接有的是链到www版本,有的是不带www的版本,既然www版本禁止爬行,看不到301,链接权重不能传递,浪费了。 所以在第一个抓图里看到返回的是带www的版本,可能原因是这个版本外链比较多,但Twitter禁止爬行,所以只是部分索引(也就是只有一些来自链接的数据,没有页面本身的内容)。 再来看看302转向 查一下twitter.com/vanessafox这个URL头信息,居然返回302转向到twitter.com/#!/vanessafox。为什么说“居然”呢?请参考301转向和302转向的区别。由于用的是302,权重没有转到twitter.com/#!/vanessafox 而www.twitter.com/vanessafox做了301到twitter.com/vanessafox,当然,由于www版本被屏蔽,链接权重也传递不过来。为什么不从www.twitter.com/vanessafox直接301到twitter.com/#!/vanessafox(这才是Twitter想要的规范化版本)呢?就算要做两次转向,也都要用301,也不能屏蔽www版本。 再来看看Twitter意图的AJAX抓取 Twitter想要的规范化URL是twitter.com/#!/vanessafox,其中的#表示Twitter希望搜索引擎抓取页面AJAX内容。(这里技术问题比较复杂,就不解释了,即将出版的《SEO艺术》有关于AJAX内容和#符号使用的解释,广告一下,呵呵)。 不过由于一系列复杂的转向,可能造成了问题: Google爬行不带www带#!的URL(twitter.com/#!/vanessafox),然后被转向到twitter.com/_escaped_fragment_/vanessafox 然后Google又被301转向到带www不带#!的版本www.twitter.com/vanessafox 而用户访问时JS将用户又转回到带#!的版本 我读到这里时头脑已经比较凌乱了,总之,Twitter弄了一堆转向,目的是让twitter.com/vanessafox这个看着看着干干净净的版本出现在搜索结果中,但用户点击后又被转到twitter.com/#!/vanessafox。弄这么复杂干什么呢,越复杂越容易出错啊。 Rate Limiting又是什么呢 Twitter页面头信息里有一个rate limiting部分: HTTP/1.1 200 OK Date: Mon, 18 Jul 2011 20:48:44 GMT Server: hi Status: 200 OK X-Transaction: 1311022124-32783-45463 X-RateLimit-Limit: 1000 这个limiting又limit(限制)了什么呢?Vanessa Fox不清楚,我就更不知道了,以前没见过这个参数。但limit这个词暗示着是限制了什么和速度有关的东西,要是指抓取速度就惨了。 URL中的大小写字母 最后,如第二个抓图显示的,URL中出现大小写字母,这些都是不同URL,又会造成网址规范化、PR/权重分散、复制内容等等问题。 终于到结尾了。总之,这种技术问题在很多大型网站是经常出现的,看似小问题,其实可能导致严重后果。 你可能想看: 网站URL优化指南-创建SEO友好的URL SEO禅在以前的几篇文章中,都有稍微提一下URL语义化,但是都是简单的介绍,在谷歌SEO新手指南中,谷歌花了不少篇幅去说优化URL的方法,根据SEO禅观察,网站使用友好的URL,在提升网站关键词排名方... 网站URL优化指南-创建SEO友好的URL SEO禅在以前的几篇文章中,都有稍微提一下URL语义化,但是都是简单的介绍,在谷歌SEO新手指南中,谷歌花了不少篇幅去说优化URL的方法,根据SEO禅观察,网站使用友好的URL,在提升网站关键词排名方... Developer Tools在SEO中的运用: Network介绍篇 如果是做前端开发的朋友,对Developer Tools一定不陌生,在我学习前端开发的时候,基本上都是用谷歌浏览器进行开发调试,因为Google浏览器集成了非常好用的Developer Tools,当... 怎样减少无效URL的爬行和索引 – 无完美解 一个严重而且现实的SEO问题:很多网站,尤其是B2C,产品条件过滤系统会产生大量无效URL,怎样尽量使这些URL不被爬行和索引、收录呢? URL静态化还是不静态化? 数据库驱动的网站需要将URL静态化,一直以来都是SEO最基本的要求,可以算是个常识性的东西。 9月份,Google站长博客发表了一篇讨论动态网址还是静态网址的帖子,却颠覆了这个说法。 How to Optimize Your Website for SEO: A Comprehensive Guide Enhance your website's SEO with this comprehensive guide, focusing on on-page SEO, high-quality cont... 关于SEO技术规范的一些说明 上星期的帖子《技术部门SEO规范》有不少留言对其中一些技术点有很具体的疑问,所以写个帖子回复一下。 技术部门SEO规范 很多时候企业需要有一个技术部门必须遵守的SEO规范,以前为客户写过一些技术部门SEO规范,现在简单整理更新一下,分享给大家,希望对其它公司也有帮助。 怎样把网站从http转换成https 近两年的情况表明,网站启用https已是大势所趋。但由于懒,一直没有动作。在David Yin的激励下,终于在人际稀少的春节前夕把SEO每天一贴换到https了。 Matt Cutts正式从Google辞职 全世界SEO人都热爱的Matt Cutts刚刚发了博客帖子,宣布已于2016年12月31号正式从Google辞职。在这之前,他已经休假长达2年半了。
Twitter技术问题导致抓取和URL规范化问题
2024-07-04 | 浏览: 26
6月27号Google工具条PR更新了一次,然后很多人注意到Twitter首页PR降为零。(Google首页也降到9,不过这不是重点。)7月19号Google居然又更新一次工具条PR。Google更新工具条PR值从一个月一次变到3个月一次,甚至半年一次,所以这次不到一个月就再次更新有点蹊跷。据目前透露的信息,这次更新PR貌似主要就是为了修正Twitter PR值的问题。
今天看到SEL上Vanessa Fox的一篇文章,解释了为什么Twitter的一些技术失误导致Google抓取、URL规范化、PR计算等一系列问题,很值得一读,所以大致翻译一下供读者参考。
为什么不是Google的错误,Google却这么上心,更新了PR呢?猜测原因有二,一是无论任何情况下Twitter首页PR为零,大家肯定是说Google有问题,而不是Twitter有问题,虽然其实确实是Twitter自己造成的。二是,在Google+推出的同时,Google与Twitter合作合同到期了,不能直接通过API抓数据了,这时候Twitter PR降为零,大家恐怕心里会嘀咕,这Google真是过了河马上就拆桥啊,Google不想背这个黑锅。
言归正传。
Google一位发言人回复SEL关于Twitter PR时说:
所以Vanessa Fox研究了一下Twitter到底有什么robots文件、服务器头信息、URL规范化问题。真是不看不知道,一看吓一跳。顺便提一下,Vanessa Fox是前Google员工,负责网管工具webmaster tools的。
预感这篇帖子会比较长,才刚开始就这么长了…
Vanessa Fox搜了一下自己名字“Vanessa Fox”,结果如下图:
有URL,但没标题,没说明,也就是其实没抓取,只是部分索引。
直接搜Vanessa Fox自己Twitter页面URL的结果是:
为什么出现了大写?URL最后面那个点(.)又是什么东东?到底怎么回事呢?
先来看看Twitter的robots.txt文件twitter.com和www.twitter.com的robots.txt文件居然是不一样的。twitter.com/robots.txt是这样的:
www.twitter.com/robots.txt是这样的:
也就是说:
所以在第一个抓图里看到返回的是带www的版本,可能原因是这个版本外链比较多,但Twitter禁止爬行,所以只是部分索引(也就是只有一些来自链接的数据,没有页面本身的内容)。
再来看看302转向查一下twitter.com/vanessafox这个URL头信息,居然返回302转向到twitter.com/#!/vanessafox。为什么说“居然”呢?请参考301转向和302转向的区别。由于用的是302,权重没有转到twitter.com/#!/vanessafox
而www.twitter.com/vanessafox做了301到twitter.com/vanessafox,当然,由于www版本被屏蔽,链接权重也传递不过来。为什么不从www.twitter.com/vanessafox直接301到twitter.com/#!/vanessafox(这才是Twitter想要的规范化版本)呢?就算要做两次转向,也都要用301,也不能屏蔽www版本。
再来看看Twitter意图的AJAX抓取Twitter想要的规范化URL是twitter.com/#!/vanessafox,其中的#表示Twitter希望搜索引擎抓取页面AJAX内容。(这里技术问题比较复杂,就不解释了,即将出版的《SEO艺术》有关于AJAX内容和#符号使用的解释,广告一下,呵呵)。
不过由于一系列复杂的转向,可能造成了问题:
我读到这里时头脑已经比较凌乱了,总之,Twitter弄了一堆转向,目的是让twitter.com/vanessafox这个看着看着干干净净的版本出现在搜索结果中,但用户点击后又被转到twitter.com/#!/vanessafox。弄这么复杂干什么呢,越复杂越容易出错啊。
Rate Limiting又是什么呢Twitter页面头信息里有一个rate limiting部分:
这个limiting又limit(限制)了什么呢?Vanessa Fox不清楚,我就更不知道了,以前没见过这个参数。但limit这个词暗示着是限制了什么和速度有关的东西,要是指抓取速度就惨了。
URL中的大小写字母最后,如第二个抓图显示的,URL中出现大小写字母,这些都是不同URL,又会造成网址规范化、PR/权重分散、复制内容等等问题。
终于到结尾了。总之,这种技术问题在很多大型网站是经常出现的,看似小问题,其实可能导致严重后果。
网站URL优化指南-创建SEO友好的URL
SEO禅在以前的几篇文章中,都有稍微提一下URL语义化,但是都是简单的介绍,在谷歌SEO新手指南中,谷歌花了不少篇幅去说优化URL的方法,根据SEO禅观察,网站使用友好的URL,在提升网站关键词排名方...
网站URL优化指南-创建SEO友好的URL
SEO禅在以前的几篇文章中,都有稍微提一下URL语义化,但是都是简单的介绍,在谷歌SEO新手指南中,谷歌花了不少篇幅去说优化URL的方法,根据SEO禅观察,网站使用友好的URL,在提升网站关键词排名方...
Developer Tools在SEO中的运用: Network介绍篇
如果是做前端开发的朋友,对Developer Tools一定不陌生,在我学习前端开发的时候,基本上都是用谷歌浏览器进行开发调试,因为Google浏览器集成了非常好用的Developer Tools,当...
怎样减少无效URL的爬行和索引 – 无完美解
一个严重而且现实的SEO问题:很多网站,尤其是B2C,产品条件过滤系统会产生大量无效URL,怎样尽量使这些URL不被爬行和索引、收录呢?
URL静态化还是不静态化?
数据库驱动的网站需要将URL静态化,一直以来都是SEO最基本的要求,可以算是个常识性的东西。 9月份,Google站长博客发表了一篇讨论动态网址还是静态网址的帖子,却颠覆了这个说法。
How to Optimize Your Website for SEO: A Comprehensive Guide
Enhance your website's SEO with this comprehensive guide, focusing on on-page SEO, high-quality cont...
关于SEO技术规范的一些说明
上星期的帖子《技术部门SEO规范》有不少留言对其中一些技术点有很具体的疑问,所以写个帖子回复一下。
技术部门SEO规范
很多时候企业需要有一个技术部门必须遵守的SEO规范,以前为客户写过一些技术部门SEO规范,现在简单整理更新一下,分享给大家,希望对其它公司也有帮助。
怎样把网站从http转换成https
近两年的情况表明,网站启用https已是大势所趋。但由于懒,一直没有动作。在David Yin的激励下,终于在人际稀少的春节前夕把SEO每天一贴换到https了。
Matt Cutts正式从Google辞职
全世界SEO人都热爱的Matt Cutts刚刚发了博客帖子,宣布已于2016年12月31号正式从Google辞职。在这之前,他已经休假长达2年半了。