• Google优化知识-如何辨别Google爬虫身份

  •      搜索引擎派出他的爬虫去访问、索引网站内容,SEOer也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。
    在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。
      目前,Google建议SEOer通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。
    首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。Google的主机名称通常情况下应是这样的:
    �Google:主机名称应包含于googlebot.com域名中,如:crawl-66-249-66-1.googlebot.com;

        最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是Google派出来的。
     

       本文系原创文章,版权归为深圳SEO所有,原文请查看链接地址http://www.baidu-seo.net.cn/google-seo/158/,转载必须带上此地址,并标明原始出处,否则将追究法律责任。
    Tags: google优化技巧  
  • 发表评论:

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

©2009深圳SEO网站优化版权所有.网站地图|网站导航|标签汇总|粤ICP备09094894号|