高端响应式模板免费下载

响应式网页设计、开放源代码、永久使用、不限域名、不限使用次数

Txt文件是禁止抓取的,为什么它还包括在内?

有时候我不想让搜索引擎抓取一些内容。我可以写robots.txt文件并把它放在根目录下。理论上,蜘蛛会首先读取这个文件,并根据机器人协议抓取相应的内容。但是许多站长发现蜘蛛没有遵守这个协议。

为了验证这个问题,经过测试,发现如果蜘蛛已经抓取并拥有索引和快照,此时写入robots.txt文件将不符合这个协议。通常,禁止在机器人中抓取文件夹,如下所示。

disallow:/about/

不要担心,添加<元>声明

<meta content="noindex,follow" />

这个语句意味着告诉蜘蛛不要创建索引,而是继续沿着路径爬行。我认为这将删除已经包含的快照。一些网民说,这需要等待,时间并不好。

百度有一个判断页面质量的规则。如果多个页面重复太多内容,它们将被降级,甚至从索引库中删除。将世界从索引数据库中移出需要很长时间。一般来说,调整后网站的收藏量会减少,但不会大幅度减少,因为算法更新后,一些垃圾页面会被移出索引数据库。这对于常规搜索引擎优化实践的网站管理员来说是一件好事,垃圾页面会影响网站的排名。

机器人和nofollow标签都可以控制蜘蛛的抓取范围,但它们的用途不同。

简而言之,nofollow主要是为了集中某个页面的权重,而robots.txt文件是为了控制蜘蛛在整个网站的爬行范围。然后问题出现了,为什么蜘蛛经常不遵守我们的机器人协议?(有些垃圾蜘蛛根本不遵守机器人协议)我们主要指百度蜘蛛和谷歌蜘蛛。

1.写入错误

robots.txt文件的写入格式是逐行的,不能连续写入,例如

user-agent: * disallow: /cgi-bin/ disallow: /tmp/

2.正确书写

每条记录需要另一行。每条记录中不允许有空行。空行用于划分不同的记录。例如:

user-agent: *disallow: /cgi-bin/disallow: /tmp/

大多数情况下,搜索引擎会捕获您的robots.txt文件不允许捕获的内容,这不是因为机器人不遵守它,而是从捕获到索引到显示需要一段时间。当搜索引擎已经捕获时,您只需更新它,那么先前捕获的内容将不会被如此快速地删除,删除周期是不规则的,并且它通常在算法被更新后更有效。

猜你喜欢