首页 > 技术点滴 > zz Google的爬虫家族[Spider]

zz Google的爬虫家族[Spider]

2012年10月9日 baoz 阅读评论

Google爬虫是连接互联网和你的查询需求之间的第一座桥梁。 是新站长们所最喜闻乐见的东东之一。 “她的美并不艳丽,甚至很内敛,却能给人一种安定的感觉。”也许新站长们会用此来形容Google爬虫。

转载开始。

GoogleBot:

是Google爬虫家族(简称G虫家族)知名度最大, 几乎无处不在的一位。 其实G虫家族不仅仅关系到草根搜索, 其实和市场推广,广告投放也密切相关。 下面是Family Tree(G家谱):

Goolge爬虫家谱

功能示意图

GOOGLEBOT: USER-AGENT: GOOGLEBOT

有 人认为GOOGLEBOT会分为FRESHBOT和DEEPBOT, 有人认为FRESHBOT和DEEPBOT是GOOGLEBOT的补充。 还有人认为GOOGLEBOT已经升级到超越了那个阶段, 它可以在任何需要的时候,玩FRESHBOT和DEEPBOT的换脸。

FreshBot:

主要对已经进入索引的页面进行更新检查, 会收集新的URL链接, 页面更新 时间信息。 因此会根据你网站的变化情况, 不定时访问, 有时 候会相当频繁。 因此, 它是Google低死链率的功臣。

DeepBot:  

会对已经发现的链接抓取分析,同时分析所有页面的外链, 以便下一次集中抓取。  一般在Google Dance期间抓的极为卖力。 为新一次大规模更新网页库,更新索引提供数据。

Google Dance:

是 指Google一年10次或者每36天一次的大规模索引更新。 可能会有索引算法更新, 新作弊策略生效。 更新也不是做0-1切换, 会持续几 天,分批做索引切换。 在此之前, GoogleBot会深挖所有的站点, 重新做站点评估。  我们知道Google索引一直是增量变化的, 近期Google进一步缩短更新周期, 会以1周为时间域来部分更新索引。 可以避免集中更新带来的波动。 或许Google的目标是Google索引短周期地动态更新, 做到对大部分查询用户透明的那种动态更新效果。

IMAGEBOT:  USER-AGENT: GOOGLEBOT-IMAGE

图片抓取,并且根据图片数据一般大于网页数据,以及图片链接关注图片周边文字等信息, 做了抓取的优化。

 MEDIABOT: USER-AGENT: MEDIAPARTNERS-GOOGLE

抓取加入了Adsense联盟的网站的网页, 来分析网页内容,以便决定投放何种合适的广告。 据说MEDIABOT会将结果投递到Google Big Daddy数据服 务, 从而进入Google的索引结果。 Google首席工程师Matt Cutts (http://www.mattcutts.com/blog/)证实了MEDIABOT抓取结果会进入Google索引。 因此SEO有人认为Adsense有利用提高Google排名。

Big Daddy:

是Google自2005年12月开始, 到2006三月完成的大规模算法, 软件和数据基础架构升级。 据说同时升级了站点评价机制, 优化了根据出链和入链来评价的机制。 强调可信出链和可信入链, 并且根据站点的评价来预估索引量。 对于超出预估索引量的站点 进行减少索引的打压。 并且, Matt Cutts在他的博客“Bigdaddy on the move” 中给出了两个数据中心IP地址:66.249.93.104和64.233.179.104。

Matt Cutts:

Google高级工程师,质量控制组的一哥, 负责Google的SPAM组,反SEO策略等。 是SEO界的神。  又因为在黄反组干过, 当时这家伙会用老婆饼来换取告知色情查询结果, 又被称为色情饼男(porn cookie guy), 国内人称一休哥。因为会经常透露google的小秘密给SEO界, 而备受追捧。

http://en.wikipedia.org/wiki/Matt_Cutts

ADSBOT:  USER-AGENT: ADSBOT-GOOGLE

是Goolge用来分析Adwords投放效果的工具, 会 对页面做个打分, 然后分析投放Adwords的点展比CTR(Click_Throught_Rate) 和网页内容质量的关系。

 GOOGLEBOT-MOBILE: USER-AGENT: GOOGLEBOT-MOBILE

         是Google抓取WAP站点的时候爬虫, 主要是用来多个手机的User-Agent来应对一些对不同的手机做了优化的页面。

1.   三星(欧洲,美国市场):SAMSUNG-SGH-E250/1.0 Profile/MIDP-2.0 Configuration/CLDC-1.1 UP.Browser/6.2.3.3.c.1.101 (GUI) MMP/2.0 (compatible; googlebot-mobile/2.1; +http://www.google.com/bot.html)。 DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; googlebot-mobile/2.1; +http://www.google.com/bot.html)

2. IPhone(美国,欧洲市场):Mozilla/5.0 (iPhone; U; CPU like Mac OS X; en) AppleWebKit/420+ (KHTML, like Gecko) Version/3.0 Mobile/1A543a Safari/419.3 (compatible; googlebot-mobile/2.1; +http://www.google.com/bot.html)

3. 诺基亚(中国,印度市场):Nokia6820/2.0 (4.83) Profile/MIDP-1.0 Configuration/CLDC-1.0 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)

4. DoCoMO(日本市场): DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)  等等

GSA-CRAWLER:

是Google Search Application(http://www.google.com/enterprise/search/gsa.html)的爬虫标示。 用 于构建站点级和企业搜索服务的。 一般格式是:gsa-crawler (Enterprise; GID01065; yourname@yourcompany.com)

FEEDFETCHER-GOOGLE:

当你要把别人的博客放到Google Reader或者Google Homepage的时候, 这时候的抓取工作就是由FEEDFETCHER完成的。

 

 

参考:http://www.telezent.com/telezent/Resources/FAMILY-OF-GOOGLE-CRAWLERS.pdf

分类: 技术点滴 标签: , ,
  1. 2012年10月9日22:38 | #1

    不错啊不错啊不错啊不错啊不错啊