防止搜索引擎收录网站

2016年8月4日 0 条评论 1.71k 次阅读 0 人点赞

robots.txt文件,是屏蔽搜索引擎蜘蛛爬取网站!

Disallow: /user
Disallow: /lib
Disallow: /admin
Disallow: /vendor
 
User-agent: Baiduspider
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: YodaoBot
Disallow: /

这里只是把百度、搜狗、有道、SOSO屏蔽了。如果有需要可以去这里生成robots内容:站长工具

然后在主页文件<head>里面加上一个防止百度蜘蛛收录快照的代码,其他参考站长工具中的蜘蛛名称添加:

<meta name="Baiduspider" content="noarchive">

但是百度或者其他蜘蛛不一定遵守robots规则,可能依然收录,那就用下面的终极办法!

还有一个终极方法,如果你用的是Nginx,以lnmp为例,那就在/usr/local/nginx/conf/vhost文件夹中找到你的域名配置文件,比如:www.baidu.com.conf

然后在里面插入以下代码:

if ($http_user_agent ~* (baiduspider|googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)) {
return 403;
}

然后重启nginx服务(如果提示出错请根据错误修改!),这时候去站长工具测试一下效果,看是不是返回403代码。

如果还有什么方法欢迎补充。

Sevenfal

这个人太懒什么东西都没留下

文章评论(0)