robot.txt是什么
說起robot.txt文件相信站長朋友們應(yīng)該不會陌生,幾乎每個(gè)網(wǎng)站的根目錄下都有這樣一個(gè)文件,但是真正了解它的人卻非常少,那么,robot.txt是什么?我們就一起通過文章內(nèi)容了解下吧。
robot.txt是什么?
robots.txt是一個(gè)協(xié)議,是搜索引擎訪問網(wǎng)站時(shí)第一個(gè)要查看的文件,它存在的目的是告訴搜索引擎哪些頁面能被抓取,哪些頁面不能被抓取。
當(dāng)spider訪問一個(gè)站點(diǎn)時(shí),會首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,spider會按照文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的spider將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。
具體介紹:
1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中,如果有多條User-agent記錄說明有多個(gè)robot會受到\robots.txt\的限制,對該文件來說,至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*,則對任何robot均有效,在\robots.txt\文件中,\User-agent:*\這樣的記錄只能有一條。
360搜索支持user-agent命令,包括使用通配符的user-agent命令。
2、Disallow命令指定不建議收錄的文件、目錄。
Disallow值可以是一條完整的路徑,也可以是路徑的非空前綴,以Disallow項(xiàng)的值開頭的URL不會被 robot訪問。
3、Allow命令指定建議收錄的文件、目錄。
Allow值用于描述希望被訪問的一組URL,它的值也可以是一條完整的路徑,也可以是路徑的前綴,以Allow項(xiàng)的值開頭的URL 是允許robot訪問的。
User-agent: * 這里的*代表所有的搜索引擎種類,*是一個(gè)通配符,*也可以替換成其他的蜘蛛名稱,例如:Googlebot、yisouspider,表示屏蔽特定搜索引擎的蜘蛛
Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄
Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄
Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄
Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以\.htm\為后綴的URL(包含子目錄)。
Disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號(?) 的網(wǎng)址
Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片
Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
Allow: /cgi-bin/ 這里定義是允許爬尋cgi-bin目錄下面的目錄
Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄
Allow: .htm$ 僅允許訪問以\.htm\為后綴的URL。
Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片
Sitemap: 網(wǎng)站地圖,告訴爬蟲這個(gè)頁面是網(wǎng)站地圖
了解了robot.txt是什么后相信大家也可以在日常工作中很好的利用。不過還有一些注意事項(xiàng)是需要大家引起重視的,以免出現(xiàn)錯(cuò)誤。