[SEO优化]robots怎么正确引导蜘蛛抓取页面?

2022-01-10 18:09

我们在做网站优化的时候都会出现某些页面不希望蜘蛛去抓取,但是蜘蛛的抓取是针对整站的,那有没有办法让蜘蛛不抓取某个页面或文件该怎么办呢。

robots怎么正确引导蜘蛛抓取页面

如果我们希望蜘蛛不抓取网站上的某个文件或页面就可以使用robots协议来达到我们的目的,robots协议是放在网站根目录下的一个协议,它是蜘蛛爬行网站首先访问的文件,通过robots协议,蜘蛛就会知道我们希望那些页面不被它抓取。

一般来说网站所有页面都是可以开放给蜘蛛抓取的,如果某些页面或频道不想蜘蛛抓取就只需要在robots里面设定Disallow就可以了,当然并不是我们设定了robots协议蜘蛛就一定不会抓取,在一般情况下蜘蛛会尊重我们的决定,设定的页面不会被抓取,但在一些情况下即使我们设定了Disallow蜘蛛也会进行抓取。

在实际运营中还会遇到一些比较复杂的情况,比如整站都在https下,但是部分页面需要蜘蛛爬取怎么办?小加整理了几个解决办法,一起来看看吧。

(1)复制一份到HTTP下。

(2)使用user-agent判断来访者,将蜘蛛引导到HTTP页面关于Robots文件,详细说明如下。

(3)特定页面已经不需要蜘蛛抓取,可以进行Disallow。

(4)某类集中的页面具有共同的∪RL参数,可以实现批量禁止抓取功能。在操作批量禁止的时候,需要避免误伤,即具有同样URL特征的功能可能并不在禁止的目的之内,无意中被禁止。关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站,初始页面都是动态页面,从SEO角度考虑,这些动态页面全部批量生成了对应的静态页面。

如果同时被蜘蛛抓取了动态页面和对应的静态页面,那么网站就存在大量的重复页面,对SEO是不好的。可以通过Robots功能,统一禁止动态URL的抓取,比如在Robots文件里写如下内容。

Disallow:/*

在抓取方面,蜘蛛会依据实际情况调整对网站的抓取频次,即分配抓取定额,每天定量抓取网站内容,“定量”这个词意味着是有限的,一个大门户网站如果一次性提交10万条URL,并不意昧着蜘蛛会很快把10万条数据抓取回去,因此,必须有耐心跟踪搜索蜘蛛在网站每天的爬行和收录情况。

以上就是今天robots怎么正确引导蜘蛛抓取页面的全部内容了,如果还不知道robots文件怎么写的同学可以看看小加以前发布的robots有什么用,怎么写?

人才招聘

(简历投放邮箱):zjkj@zuijiakeji.com

备案信息

备案号渝ICP备18016093号-2 备案图标.png 渝公安网备50010502001963号

  • 成都负责人

    免费获取报价(成都)

  • 重庆负责人

    免费获取报价(重庆)

  • 公众号

    关注微信公众号

联系我们

重庆总部

联系人:许总   联系电话:15523213114

联系地址:重庆市两江新区新光大道62号海王星科技大厦C区7楼713

成都分公司

联系人:李总   联系电话:18323256987

联系地址:四川省成都是高新区剑南大道1533号时代晶座3栋1118,1119号