为了实现对网站更好的收录,我们特别公布好搜对Robots协议的支持和扩展说明,以便站长们可以通过此协议和好搜沟通收录策略,实现对网站内容更高效、智能的收录。
好搜对Robots协议的支持
好搜支持Robots协议的主要命令,以下为具体说明:
1. user-agent
好搜支持user-agent命令,包括使用通配符的user-agent命令。好搜各产品的爬虫user-agent为:
- 网页搜索 360Spider
- 网页搜索 HaoSouSpider
360搜索域名由so.com改成haosou.com后,蜘蛛UA也做了调整,在一段时间内,360好搜将优先使用HaoSouSpider来访问站点,如果遇到UA识别无法下载页面,会再用 360spider抓取,蜘蛛IP不更改。
- 图片搜索 360Spider-Image
- 视频搜索 360Spider-Video
2. Allow
站长可通过Allow命令指定建议收录的文件、目录 。
3. Disallow
站长可通过Disallow命令指定不建议收录的文件、目录。
好搜对Robots协议的扩展
好搜根据站长们的反馈,会陆续推出扩展的Robots协议命令。这些命令将能帮助站长们提高和好搜爬虫沟通的效率,减少站长们维护Robots协议文件的技术成本。
好搜首个扩展命令是:indexpage,站长们可以使用此命令告知好搜哪些网页经常更新。好搜会根据站长的指示以及自己的算法,智能调整爬虫抓取频率,实现对您网站新内容的更高频率抓取。
在命令中可以使用*、$等通配符。
示例:
使用通配符的
Indexpage: http://bbs.360safe.com/forum-*-1.html$
Indexpage: http://ent.sina.com.cn/*/roll.html
不用通配符的:
Indexpage: http://roll.tech.sina.com.cn/internet_all/index.shtml
Indexpage: http://roll.tech.sina.com.cn/it/index.shtml
Indexpage: http://roll.tech.sina.com.cn/tele/index.shtml
Indexpage: http://roll.tech.sina.com.cn/discovery/index.shtml
Indexpage: http://roll.tech.sina.com.cn/elec/index.shtml
对Robots协议的善意使用
Robots协议是一个搜索引擎和网站之间的善意协议,我们鼓励站长们也以善意的方式使用这一协议,尽量提供准确的信息,除非有充足理由,不使用Robots协议屏蔽某些特定搜索引擎爬虫。
好搜愿和站长们一起,共建一个更健康、公平、透明的搜索引擎生态系统。
推荐资讯
- 撞死宠物狗,竟被索赔十万元?车主:不吃不喝也得挣几年
- 喝粥能养胃吗?这样喝粥,才养胃!
- 地板老是发出声音,怎么办?生活中的妙招不得不服~
- 生活中14个最容易要命的细节,害惨很多人!赶紧看丨提醒
- 海带万万不能直接用水泡,很多人做错,难怪又黑又硬不好吃!
- 老年人应如何养胃?细嚼慢咽对肠胃最有利
- 睡前坚持这样做可延年益寿 喝蜂蜜牛奶预防失眠
- 适合冬藏的食材有哪些?红薯有益心脑血管健康
- 老年人适合吃什么水果?猕猴桃有助于调节糖代谢
- 吃素也能有效补充蛋白质 西兰花高纤维零胆固醇
- 茶非人人可饮,喝对了才养生
- 秋天吃这十种宝,胜过冬虫夏草!不吃就亏大了!
- 鼻炎反复老不好?多半肺有问题!1个动作坚持做,呼吸更顺畅
- 晚餐决定寿命?避开这些雷区就能很长寿
- 这些蔬菜别生吃,这几种吃了可能还会中毒
- 生理期这几个谣言千万不要盲目相信 吃甜食能缓解痛经?