虚拟主机被搜索引擎爬虫访问耗费大批流量解决方法

日期:2016/8/3 / 人气:

问题场景:客户使用虚拟主机,网站被搜索引擎爬虫访问耗费大批流量和带宽,如何处置

解决方法:能够通过在站点根目录下创建Robots.txt,Robots.txt文件是网站的一个文件,搜索引擎蜘蛛抓取网站首先就是抓取这个文件,依据里面的内容来决议对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的操纵蜘蛛的爬取路径。

1、首先,先了解一下当前搜索引擎和其对应的User-Agent,如下:

搜索引擎         User-Agent
AltaVista        Scooter
baidu            Baiduspider
Infoseek         Infoseek
Hotbot           Slurp
AOL Search       Slurp
Excite           ArchitextSpider
Google           Googlebot
Goto             Slurp
Lycos            Lycos
MSN              Slurp
Netscape         Googlebot
NorthernLight    Gulliver
WebCrawler       ArchitextSpider
Iwon             Slurp
Fast             Fast
DirectHit        Grabber
Yahoo Web Pages  Googlebot
LooksmartWebPages Slurp
2、Robots.txt样例代码:

例1. 禁止一切搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
例2. 同意一切的搜索引擎访问网站的任何部分
User-agent: *
Disallow:
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅同意Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
例5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事项:1)三个目录要分别写。
2)请注意最后要带斜杠。
3)带斜杠与不带斜杠的区别。
例6. 同意访问特定目录中的部分url
实现a目录下只有b.htm同意访问
User-agent: *
Allow: /a/b.htm
Disallow: /a/

 

作者:乐豪发国际娱乐下载科技


Go To Top 回顶部