seo优化,如何对网站的robots.txt进行设置
SEO链接优化之robots.txt的写法.robots.txt是什么?这是一个文本文件,它是搜索引擎抓取网页时要查看的第一个文件。你可以告诉搜索引擎哪些文件可以查看,哪些是禁止的。当搜索机器人访问一个站点时,它首先检查根目录中是否存在robots.txt,如果存在,则确定爬行范围,如果不存在,则根据链接顺序进行爬行。
robots.txt有什么用?为什么要用robots.txt告诉搜索机器人不要抓取我们的一些网页,比如后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等。说到底,这些页面或者文件都包含在搜索引擎里,用户也看不到。大部分都需要密码或者数据文件才能进入。这种情况下,如果搜索机器人再次爬行,会浪费服务器资源,增加服务器的压力。因此,我们可以使用robots.txt告诉机器人集中精力收集我们的文章页面。提升用户体验。
1.使用机器人屏蔽网站的重复页面
许多网站提供一种内容的多种浏览版本。虽然方便了用户,但是给蜘蛛造成了困难,因为它分不清哪个是主,哪个是次。一旦让它觉得你在恶意重复,你就惨了
用户代理:*
不允许:/sitemap/《禁止蜘蛛抓取 文本网页》
2.用机器人保护网站
很多人想知道为什么机器人还和网站安全有关系。其实关系还是很大的。很多低级黑客通过搜索默认背景登录达到入侵网站的目的
用户代理:*
不允许:/admin/《禁止蜘蛛抓取admin目录下所有文件》
3.防止链条盗窃
一般偷链的人也就那么几个,但是一旦你被搜索引擎“偷”了,你的100M宽带就买不起了。如果你不是做图片网站的,就不想被搜索引擎“偷”。
用户代理:*
不允许:jpg$
4.提交网站地图
现在做优化的都知道怎么做网站地图,但是很少有人会提交。大多数人只是在网页上添加一个链接。事实上,机器人支持这个功能
sitemap:http :-www-* * *-com/sitemaps/sitemaps . XML
5。禁止抢注二级域名
有些网站会给VIP会员提供一些特殊的服务,但他们不希望这项服务被搜索引擎检索到
用户代理:*
不允许:/
以上五招机器人可以提高你对搜索引擎蜘蛛的控制能力,就像百度说的:我们要和搜索引擎做朋友,增加一些交流,消除一些差距。
robots.txt基本语法:
1.robots.txt的几个关键语法:
A.用户代理:应用以下规则漫游,如Googlebot、Baiduspider等。
B.不允许:被拦截的网站不允许机器人访问。
允许访问网址
D,“*”:通配符-匹配0个或更多任意字符。
e,“$”:匹配行结束符。
f,“#”:注释——描述性词语,可以留空。
G.Googlebot: Google搜索机器人(也叫搜索蜘蛛)。
H.Baiduspider:百度搜索机器人(也叫搜索蜘蛛)。
我,目录,网站写:以正斜杠(/)开头。
诸如…之类的
不允许:/
不允许:/图像/
Disallow:/admin/
Disallow:/css/
2.列出robots.txt的一些具体用途:
(1)允许所有机器人进入
用户代理: *
不允许:
或者
用户代理: *
Allow: /
或者创建一个空文件“robots.txt”。
(2)只有机器人被禁止访问你的网站,比如Baiduspider。
用户代理: Baiduspider
不允许: /
3.只允许某个机器人访问你的网站,比如Baiduspider。
用户代理: Baiduspider
不允许:
用户代理: *
不允许: /
4.禁止访问特定目录
用户代理: *
Disallow: /admin/
Disallow: /css/
不允许:
要拦截所有包含问号(?)(具体来说,此URL以您的域名开头,后跟任意字符串,然后是问号,然后是任意字符串),请使用以下内容:
用户代理: Googlebot
不允许: /*?
若要指定与网址结尾字符的匹配,请使用$。比如屏蔽所有以。xls,使用如下:User-agent: Googlebot
Disallow: /*。xls$
您可以将此模式匹配与“允许”命令结合使用。比如,如果?表示会话标识,则您可能希望排除包含?确保Googlebot不抓取重复的网页。但是用?结束网址可能是您要包含的页面版本。在这种情况下,您可以按如下方式设置robots.txt文件:
用户代理: *
Allow: /*?$
不允许: /*?