当前位置：

怎么使用robots.txt控制搜索引擎抓取文章

发布时间：2010-07-20

浏览量：次

搜索引擎数据库中的所有网页，都是由Robot程序自动抓取收录的。但我们网站上总会有部分私密性数据不希望被搜索引擎抓取，这时候，就需要robots.txt。

　　robots.txt 是一个标准文档，意在阻止搜索引擎的Spider(蜘蛛）从您的 Web 服务器下载某些或全部信息，控制Spider的搜索范围。robots.txt的设置很简单，只要用记事本或其他文本编辑器，依照自己的网站需求，设定一系列选项，然后将其上传到网站根目录即可。robots.txt的设置如下：

User-agent: 搜索引擎的spider代号
Disallow: 输入数据夹或文件名的路径

　　如设定所有的spider都能够搜索及抓取整个网站。

User-agent: *
Disallow:

　　如拒绝Google搜索及抓取整个网站，但允许其它的

User-agent: Googlebot
Disallow:

　　如拒绝所有的Spider

User-agent: *
Disallow: /

　　如拒绝所有的Spider搜索及抓取protect目录及seo目录下abc.html文件

User-agent: *
Disallow: /protect/
Disallow: /seo/abc.html

　　如拒绝google搜索及抓取protect目录及seo目录下abc.html文件，但允许其他的

User-agent: Googlebot
Disallow: /protect/
Disallow: /seo/abc.html

　　很简单吧？另有一点请记住，搜索引擎不会立即对robots.txt 文件所作的更改作出反应，必须等到搜索引擎下一次读取该文件。这段时间，依搜索引擎及具体网站情况，从几小时到几天不等。

上一篇：解决"操作必须使用一个可更新的查询" 下一篇：一级目录是什么意思，它对网站排名有什么影响？

返回列表

[声明]本网转载网络媒体稿件是为了传播更多的信息，此类稿件不代表本网观点，本网不承担此类稿件侵权行为的连带责任。故此，如果您发现本网站的内容侵犯了您的版权，请您的相关内容发至此邮箱【27535611@qq.com】，我们在确认后，会立即删除，保证您的版权。

当前位置：

怎么使用robots.txt控制搜索引擎抓取文章

资讯分类

最新发布

相关资讯