免费信息发布

百度蜘蛛http状态码查询大全,百度蜘蛛常见IP大全

来源:网络搜索 浏览:3792次 时间:2015-02-12

百度蜘蛛http状态码是指在百度蜘蛛对网站进行访问时网页服务器HTTP响应状态的3位数字代码。它表达了网页访问时所呈现的状态,对于站长而言,是了解网站整体情况必须掌握的内容。百度蜘蛛状态码需要在服务器日志中进行查看,一般通过服务器管理面板生成在根目录同级文件夹log下,以Log.gz结尾的文件,可以通过txt格式打开查看。

打开log文件后,通过查找baiduspider可以看到百度的访问状态。通过网站日志可以清楚的看到百度蜘蛛在什么时间、用什么IP、访问了网站哪个页面以及访问状态等。常见的服务器状态码有200状态码、301状态码、404状态码、500状态码等。下面,我们具体了解一下百度蜘蛛状态码。

2xx成功 

200正常;请求已完成。 

201正常;紧接POST命令。 

202正常;已接受用于处理,但处理尚未完成。 

203正常;部分信息—返回的信息只是一部分。 

204正常;无响应—已接收请求,但不存在要回送的信息。 

3xx重定向 

301已移动—请求的数据具有新的位置且更改是永久的。 

302已找到—请求的数据临时具有不同URI。 

303请参阅其它—可在另一URI下找到对请求的响应,且应使用GET方法检索此响应。 

304未修改—未按预期修改文档。 

305使用代理—必须通过位置字段中提供的代理来访问请求的资源。 

306未使用—不再使用;保留此代码以便将来使用。 

4xx客户机中出现的错误 

400错误请求—请求中有语法问题,或不能满足请求。 

401未授权—未授权客户机访问数据。 

402需要付款—表示计费系统已有效。 

403禁止—即使有授权也不需要访问。 

404找不到—服务器找不到给定的资源;文档不存在。 

407代理认证请求—客户机首先必须使用代理认证自身。 

410请求的网页不存在(永久); 

415介质类型不受支持—服务器拒绝服务请求,因为不支持请求实体的格式。 

5xx服务器中出现的错误 

500内部错误—因为意外情况,服务器不能完成请求。 

501未执行—服务器不支持请求的工具。 

502错误网关—服务器接收到来自上游服务器的无效响应。 

503无法获得服务—由于临时过载或维护,服务器无法处理请求。

百度蜘蛛对常用的http状态码的处理逻辑:
  1、404
  404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常会从搜索结果中删除,并且短期内百度蜘蛛再次发现这条url也不会抓取。
  2、503
  503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度蜘蛛不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这 个url仍会被百度认为是失效链接,从搜索结果中删除。
  3、403
  403返回码的含义是“Forbidden”,百度会认为网页当前禁止访问。对于这种情况,如果是新发现的url,百度蜘蛛暂不会抓取,短期内会 再次检查;如果是百度已收录url,当前也不会直接删除,短期内同样会再访问。届时如果网页允许访问,则正常抓取;如果仍不允许访问,短期内还会反复访问 几次。但是如果网页长期返回403,百度也会认为是失效链接,从搜索结果中删除。
  4、301
  301返回码的含义是“Moved Permanently”,百度会认为网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的 流量损失。虽然百度蜘蛛现在对301跳转的响应周期较长,但我们还是推荐大家这么做。
  百度对于某些常见情况的使用建议:
  1、如果站点临时关闭,当网页不能打开时,不要立即返回404,建议使用503状态。503可以告知百度蜘蛛该页面临时不可访问,请过段时间再重试。
  2、如果百度蜘蛛对您的站点抓取压力过大,请尽量不要使用404,同样建议返回503。这样百度蜘蛛会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。
  3、有一些网站希望百度只收录部分内容,例如审核后的内容,累积一段时间的新用户页等等。在这种情况,建议新发内容暂时返回403,等审核或做好处理之后,再返回正常状态的返回码。
  4、站点迁移,或域名更换时,请使用301返回码。
  案例:
  我曾经为一家电子商务网站提供SEO顾问服务,网站每日新增商品由商家发布,商品发布后便成为一个有效的商品,并会出现到网站平台的商品检索结果以及商品列表中, 同时,平台运营方需要对商品进行审核,对于没有审核通过的商品则进行删除操作;于是,会出现一些情况:新增商品页面被百度爬虫抓取,但随之该页面被删除。
  由于网站在百度的权重比较高,几乎每日新增商品页都会很快收录,因此,在这批新收录的商品页面中有一定比例的页面很快不存在了,即:一批刚被收录的页面又向百度蜘蛛返回了404状态码,简单以蔽之,“让百度收了再让百度删”,我觉得百度可能会“很生气,后果很严重”。
  为解决这个问题,我之前采取了如下方法:
  既然将商家发布的商品包含两种状态:已审核和未审核,那么就为商品页面设计2种URL规则,如果商品未审核,则使用第1套URL规则,同时,利用robots协议限制百度蜘蛛爬虫抓取这些页面;如果商品已审核,那么就与已有商品一样,使用第2套URL规则。这样就可以确保百度Spider抓取到的商品页面都是有效页面,不会由于商品审核不通过而单日内出现大量404页面。
  是否可以利用403状态码来解决该问题?思路如下:
  判断商品是否通过平台运营方审核,是的话,页面就返回200,否的话,就返回403;对于正常的商品页面,可以确保百度蜘蛛正常抓取;对于新增商品,百度新发现的URL是返回403的,当再次回访这些页面时,由于商品已经审核通过,返回的状态码由403变成了200,则百度仍可抓取到;方法仍然有待实验,毕竟之间存在一个时间差以及百度对于返回403的页面是否存在收录效果不佳的风险。
  对于301状态码,在以往的SEO交流中,大家一致认为百度对301并不感冒,而且反应速度超级慢,但无论怎样,301仍然是其推崇的一种规范的处理方式,宗旨,做网站优化,良好的规范是必要的。


分享一份百度蜘蛛IP表,定期更新,可收藏本页。 ☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆
最近为服务器安装了DDoS deflate来自动启用iptables防火墙来提高系统的安全性,为了防止把搜索引擎蜘蛛IP给禁止的尴尬,收集了这份百度蜘蛛IP,分享给大家

百度蜘蛛常见IP:
60.28.22.0 - 60.28.22.255 天津市 百度蜘蛛
123.125.66.0 - 123.125.66.255 北京市 百度蜘蛛
123.125.68.0 - 123.125.68.255 北京市 百度蜘蛛
123.125.70.0 - 123.125.71.255 北京市 百度蜘蛛
159.226.50.0 - 159.226.50.255 北京市 百度蜘蛛
162.105.207.0 - 162.105.207.255 北京市 百度蜘蛛
180.76.0.0 - 180.76.255.255 北京市 百度蜘蛛
180.149.133.0 - 180.149.133.255 北京市 百度蜘蛛
202.108.249.0 - 202.108.250.255 北京市 百度蜘蛛
220.181.107.0 - 220.181.108.255 北京市 百度蜘蛛

百度公司其他IP:
58.217.200.0 - 58.217.200.255 江苏省南京市 百度公司电信节点
58.217.202.0 - 58.217.202.255 江苏省南京市 百度公司电信节点
61.135.145.0 - 61.135.145.255 北京市 百度公司联通节点
61.135.154.0 - 61.135.154.255 北京市 百度公司联通节点
61.135.162.0 - 61.135.163.255 北京市 百度公司联通节点
61.135.165.0 - 61.135.165.255 北京市 百度公司联通节点
61.135.168.0 - 61.135.169.255 北京市 百度公司联通节点
61.135.185.0 - 61.135.186.255 北京市 百度公司联通节点
61.155.165.0 - 61.155.165.255 江苏省苏州市 百度公司
111.13.100.0 - 111.13.101.255 北京市 百度公司移动节点
112.253.12.0 - 112.253.12.255 山东省潍坊市 百度公司
115.239.210.0 - 115.239.211.255 浙江省杭州市 百度公司电信节点
119.63.192.0 - 119.63.199.255 日本 百度公司日本节点
119.75.208.0 - 119.75.218.255 北京市 百度公司
119.75.220.0 - 119.75.223.255 北京市 百度公司
121.32.89.162 - 121.32.89.166 广东省广州市 百度广州分公司
121.32.89.170 - 121.32.89.174 广东省广州市 百度广州分公司
122.152.129.0 - 122.152.129.255 日本 百度日本分公司
123.125.65.0 - 123.125.65.255 北京市 百度公司
123.125.67.0 - 123.125.67.255 北京市 百度公司
123.125.69.0 - 123.125.69.255 北京市 百度公司
123.125.112.0 - 123.125.115.255 北京市 百度公司
180.149.131.0 - 180.149.132.255 北京市 百度公司电信节点
185.10.104.0 - 185.10.107.255 香港 百度公司香港节点
202.108.22.0 - 202.108.22.255 北京市 百度公司联通节点
220.181.6.0 - 220.181.7.255 北京市 百度公司电信节点
220.181.32.0 - 220.181.32.255 北京市 百度公司电信节点
220.181.37.0 - 220.181.37.255 北京市 百度公司电信节点
220.181.50.0 - 220.181.51.255 北京市 百度公司电信节点
220.181.57.0 - 220.181.57.255 北京市 百度公司电信节点
220.181.111.0 - 220.181.112.255 北京市 百度公司电信节点
220.181.163.0 - 220.181.163.255 北京市 百度公司电信节点
222.199.188.0 - 222.199.191.255 北京市 百度公司教育网节点

 

百度蜘蛛对应的user-agent:

网页搜索Baiduspider
无线搜索Baiduspider-mobile
图片搜索Baiduspider-image
视频搜索Baiduspider-video
新闻搜索Baiduspider-news
百度搜藏Baiduspider-favo
百度联盟Baiduspider-cpro


百度的同学向我确认:sitemap索引文件的抓取确定是使用baiduspider这个user-agent,而非某个特定用途的user-agent,而网站robots并没有屏蔽baiduspider,甚至对baiduspider完全开放,那么为什么会出现无法抓取索引文件的情况呢?

重庆SEO公司分析原因有2个:

1、sitemap索引数据文件中的URL被robots文件屏蔽了。(如果robots文件屏蔽了某个目录,而某个URL中包含被屏蔽的目录,则会造成该问题)

2、百度spider IP被屏蔽了。(通过确认,运维人员发现某个IP在短时间内到网站抓取了大量数据占用了很大的带宽,因此把该IP给屏蔽掉了,结果可想而知,这个IP恰恰就是baiduspider众多IP地址中的一个。)

百度目前并没有公布baiduspider的所有IP地址列表,这也是产生上述问题的原因之一,我们也不能要求网站运维人员完全以搜索引擎友好型原则为出发点时刻为baiduspdier敞开大门,而且baiduspider的的确确经常占用大量服务器带宽资源,这都是现实情况。不过可喜的是:百度站长平台接下来会为网站管理员提供“检测IP是否是baiduspider”的功能,那个时候问题就变得简单了,网站运维人员只需到站长平台核实一下就清楚知道他应该如何处理某个“问题IP”了。

而在“检测IP是否是baiduspider”的功能上线之前,为避免类似因为屏蔽IP地址而给搜索引擎抓取与排序造成重大影响问题的出现,我们只能参考有心人公开的数据来综合考虑了。有经验的站长向我推荐了123cha.com的IP查询,它会标示出所查询的IP是否是baiduspider,而且数据相对准确和完整。除此之外,我还找到了目前网上分享出来的常见百度蜘蛛IP地址以及对该IP权重的说明,在此只传播与分享,不对准确性进行核实。

   
123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
   
220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。
   
220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。
   
121.14.89.*这个ip段作为度过新站考察期。
   
203.208.60.*这个ip段出现在新站及站点有不正常现象后。
   
210.72.225.*这个ip段不间断巡逻各站。
   
125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。
   
220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。
   
220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。
   
123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
   
220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
   
220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。
   
220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
   
123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
   
123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
   
220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
   
220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
   
220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
   
220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
   
220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。
   
123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
   
220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
   
注:以上IP尾数还有很多,但段位一样的123.125.71.*段IP 代表抓取内页收录的权重比较低.可能由于你采集文章或拼文章暂时被收录但不放出来.(意思也就是说待定)。
   
220.181.108.*段IP主要是抓取首页占80%,内页占30%,这此爬过的文章或首页,绝对24小时内放出来和隔夜快照的,这点我可以保证!
   
一般成功抓取返回代码都是 200 0 0返回304 0 0代表网站没更新,蜘蛛来过,如果是 200 0 64别担心这不是K站,可能是网站是动态的,所以返回就是这个代码。