SEO篇章:专注于SEO优化,分享最新搜索引擎新闻动态!再牛逼的技术,也抵不过冒着傻气的坚持!

SEO优化 > SEO资讯 / 常用抓取返回码示意详解

常用抓取返回码示意详解

SEO篇章 2016-08-31 13:44:44 SEO资讯

   百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,所以请站长们也尽量参考http协议中关于返回码的含义的定义来进行设置。百度spider对常用的http返...

       百度爬虫在进行抓取和处理时,是根据http协议规范来设置相应的逻辑的,所以请站长们也尽量参考http协议中关于返回码的含义的定义来进行设置。百度spider对常用的http返回码的处理逻辑是这样的。     

        1)最常见的404代表“NOT FOUND”,认为网页已经失效,通常将在库中删除,同时短期内如果spider再次发现这条url也不会抓取;
        2)503代表“Service Unavailable”,认为网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503状态码,百度spider不会把这条url直接删除,同时短期内将会反复访问几次,如果网页已恢复,则正常抓取;如果继续返回503,那么这条url仍会被认为是失效链接,从库中删除。
        3)403代表“Forbidden”,认为网页目前禁止访问。如果是新url,spider暂时不抓取,短期内同样会反复访问几次;如果是已收录url,不会直接删除,短期内同样反复访问几次。如果网页正常访问,则正常抓取;如果仍然禁止访问,那么这条url也会被认为是失效链接,从库中删除。
        4)301代表是“Moved Permanently”,认为网页重定向至新url。当遇到站点迁移、域名更换、站点改版的情况时,我们推荐使用301返回码,同时使用站长平台网站改版工具,以减少改版对网站流量造成的损失。

1440940833983244.jpg

本文地址:https://www.seopz.com/seozixun/1898.html

当前位置:SEO优化 > SEO资讯 > 常用抓取返回码示意详解

Tags:seo资讯

搜索
网站分类
标签列表