摘要:如果”/robots.txt”是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。禁止所有搜索引擎访问网站的任何部分禁止所有搜索引擎访问网站的任何部分
补充搜索引擎禁令,
一。 什么是 robots.txt 文件?
搜索引擎使用一种名为robot(也称为spider)的程序来自动访问互联网上的网页并获取网页信息。
您可以在您的网站中创建一个纯文本文件 robots.txt,并在此文件中声明您不希望机器人访问的网站部分。 这样,网站的部分或全部内容就不会被搜索引擎索引,或者指定搜索引擎只收录指定的内容。
2. robots.txt文件位于哪里?
robots.txt文件应放置在网站的根目录下。 例如,当机器人访问一个网站(例如)时,它们会首先检查该文件是否存在于该网站中。 如果机器人找到该文件,它将根据该文件的内容确定其访问权限的范围。
网站URL 对应robots.txt的URL
:80/ :80/机器人.txt
:1234/ :1234/robots.txt
3、robots.txt文件格式
“robots.txt”文件包含一条或多条由空行分隔的记录(以 CR、CR/NL 或 NL 结尾)。 每条记录的格式如下:
“;:;;;”。
可以使用#来注释该文件robots 禁止百度收录,具体使用方法与UNIX中的约定相同。 该文件中的记录通常以一行或多行 User-agent 开头robots 禁止百度收录,后跟几行 Disallow 行。 详情如下所示:
用户代理:
此项的值用于描述搜索引擎机器人的名称。 在“robots.txt”文件中,如果有多个User-agent记录,则意味着多个机器人将受到协议的限制。 对于这个文件,至少有一条User-agent记录。 如果此项的值设置为*,则该协议对任何机器人都有效。 在“robots.txt”文件中,只能有一条记录,如“User-agent: *”。
不允许 :
此项的值用于描述您不希望被访问的URL。 该 URL 可以是完整路径或部分路径。 任何以 Disallow 开头的 URL 都不会被机器人访问。 例如,“Disallow: /help”不允许搜索引擎同时访问/help.html和/help/index.html,而“Disallow: /help/”允许机器人访问/help.html,但不能访问/help/指数。 .html。
如果任何Disallow记录为空,则表示网站的所有部分都允许访问。 “/robots.txt”文件中必须至少有一条禁止记录。 如果“/robots.txt”是空文件,则该网站将对所有搜索引擎机器人开放。
4. robots.txt文件的使用示例
示例 1. 禁止所有搜索引擎访问网站的任何部分
下载 robots.txt 文件 用户代理:*
不允许: /
示例2.允许所有机器人访问
(或者您也可以创建一个空文件“/robots.txt”文件)
用户代理: *
不允许:
示例 3. 禁用对某个搜索引擎的访问
用户代理:BadBot
不允许: /
示例 4. 允许某个搜索引擎访问 User-agent: baiduspider
不允许:
用户代理: *
不允许: /
示例 5. 一个简单的示例
本例中,网站存在三个限制搜索引擎访问的目录,即搜索引擎不会访问这三个目录。
需要注意的是,每个目录必须单独声明,而不是写成“Disallow: /cgi-bin/ /tmp/”。
User-agent:后面的*有特殊含义,代表“任何机器人”,因此该文件中不能出现“Disallow: /tmp/*”或“Disallow: *.gif”等记录。
用户代理: *
禁止:/cgi-bin/
禁止:/tmp/
禁止:/~joe/
-------------------------------------------------- -------------------------------------------------- --------------------------
robots.txt 文件的使用示例
示例 1. 禁止所有搜索引擎访问网站的任何部分
下载robots.txt文件
用户代理: *
不允许: /
例2.允许所有机器人访问(或者也可以创建一个空文件“/robots.txt”文件)
用户代理: *
不允许:
示例 3. 禁用对某个搜索引擎的访问
用户代理:BadBot
不允许: /
示例 4. 允许访问某个搜索引擎
用户代理:baiduspider
禁止:用户代理:*
不允许: /
示例 5. 一个简单的示例
本例中,网站存在三个限制搜索引擎访问的目录,即搜索引擎不会访问这三个目录。
需要注意的是,每个目录必须单独声明,而不是写成“Disallow: /cgi-bin/ /tmp/”。
User-agent:后面的*有特殊含义,代表“任何机器人”,因此该文件中不能出现“Disallow: /tmp/*”或“Disallow:*.gif”等记录。
用户代理: *
禁止:/cgi-bin/
禁止:/tmp/
禁止:/~joe/
robots.txt中的百度蜘蛛的名字是什么?
“baiduspider”全部是小写字母。