robots.txt文件,是屏蔽搜索引擎蜘蛛爬取网站!
Disallow: /user Disallow: /lib Disallow: /admin Disallow: /vendor User-agent: Baiduspider Disallow: / User-agent: Sosospider Disallow: / User-agent: sogou spider Disallow: / User-agent: YodaoBot Disallow: /
这里只是把百度、搜狗、有道、SOSO屏蔽了。如果有需要可以去这里生成robots内容:站长工具
然后在主页文件<head>里面加上一个防止百度蜘蛛收录快照的代码,其他参考站长工具中的蜘蛛名称添加:
<meta name="Baiduspider" content="noarchive">
但是百度或者其他蜘蛛不一定遵守robots规则,可能依然收录,那就用下面的终极办法!
还有一个终极方法,如果你用的是Nginx,以lnmp为例,那就在/usr/local/nginx/conf/vhost文件夹中找到你的域名配置文件,比如:www.baidu.com.conf
然后在里面插入以下代码:
if ($http_user_agent ~* (baiduspider|googlebot|soso|bing|sogou|yahoo|sohu-search|yodao|YoudaoBot|robozilla|msnbot|MJ12bot|NHN|Twiceler)) { return 403; }
然后重启nginx服务(如果提示出错请根据错误修改!),这时候去站长工具测试一下效果,看是不是返回403代码。
如果还有什么方法欢迎补充。
© 著作权归作者所有
文章评论(0)