防止搜索引擎收录网站

robots.txt文件，是屏蔽搜索引擎蜘蛛爬取网站！

Disallow: /user
Disallow: /lib
Disallow: /admin
Disallow: /vendor
 
User-agent: Baiduspider
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: sogou spider
Disallow: /
User-agent: YodaoBot
Disallow: /

这里只是把百度、搜狗、有道、SOSO屏蔽了。如果有需要可以去这里生成robots内容：站长工具

然后在主页文件<head>里面加上一个防止百度蜘蛛收录快照的代码，其他参考站长工具中的蜘蛛名称添加：

<meta name="Baiduspider" content="noarchive">

但是百度或者其他蜘蛛不一定遵守robots规则，可能依然收录，那就用下面的终极办法！

还有一个终极方法，如果你用的是Nginx，以lnmp为例，那就在/usr/local/nginx/conf/vhost文件夹中找到你的域名配置文件，比如：www.baidu.com.conf

然后在里面插入以下代码：

if ($http_user_agent ~* (baiduspider|googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)) {
return 403;
}

然后重启nginx服务（如果提示出错请根据错误修改！），这时候去站长工具测试一下效果，看是不是返回403代码。

如果还有什么方法欢迎补充。

搜索引擎收录防止

上一篇: ERROR 2002 (HY000) /tmp/mysql.sock

下一篇: CentOS 7.x设置自定义开机启动,添加自定义系统服务

Sevenfal

这个人太懒什么东西都没留下

防止搜索引擎收录网站

但是百度或者其他蜘蛛不一定遵守robots规则，可能依然收录，那就用下面的终极办法！

文章评论（0）