熟妇内谢69XXXXXA片,国精产品999国精产品官网,日欧一片内射VA在线影院,久久精品国产亚洲7777

天璐網(wǎng)絡(luò)-10年專注網(wǎng)站建設(shè)，網(wǎng)絡(luò)營銷，品牌推廣，軟件開發(fā)等服務(wù)！

服務(wù)熱線：010-57025202

立即咨詢

行業(yè)資訊

當(dāng)前位置：首頁 >> 營銷知識 >> 行業(yè)資訊

robot.txt是什么

2019年03月05日來源：天璐網(wǎng)絡(luò) 瀏覽：511

說起robot.txt文件相信站長朋友們應(yīng)該不會陌生，幾乎每個(gè)網(wǎng)站的根目錄下都有這樣一個(gè)文件，但是真正了解它的人卻非常少，那么，robot.txt是什么?我們就一起通過文章內(nèi)容了解下吧。

robot.txt是什么

robot.txt是什么?

robots.txt是一個(gè)協(xié)議，是搜索引擎訪問網(wǎng)站時(shí)第一個(gè)要查看的文件，它存在的目的是告訴搜索引擎哪些頁面能被抓取，哪些頁面不能被抓取。

當(dāng)spider訪問一個(gè)站點(diǎn)時(shí)，會首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，spider會按照文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在，所有的spider將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。

具體介紹：

1、User-agent用于描述搜索引擎robot的名字。在\robots.txt\文件中，如果有多條User-agent記錄說明有多個(gè)robot會受到\robots.txt\的限制，對該文件來說，至少要有一條User-agent記錄。如果該項(xiàng)的值設(shè)為*，則對任何robot均有效，在\robots.txt\文件中，\User-agent:*\這樣的記錄只能有一條。

360搜索支持user-agent命令，包括使用通配符的user-agent命令。

2、Disallow命令指定不建議收錄的文件、目錄。

Disallow值可以是一條完整的路徑，也可以是路徑的非空前綴，以Disallow項(xiàng)的值開頭的URL不會被 robot訪問。

3、Allow命令指定建議收錄的文件、目錄。

Allow值用于描述希望被訪問的一組URL，它的值也可以是一條完整的路徑，也可以是路徑的前綴，以Allow項(xiàng)的值開頭的URL 是允許robot訪問的。

User-agent: * 這里的*代表所有的搜索引擎種類，*是一個(gè)通配符，*也可以替換成其他的蜘蛛名稱，例如：Googlebot、yisouspider，表示屏蔽特定搜索引擎的蜘蛛

Disallow: /admin/ 這里定義是禁止爬尋admin目錄下面的目錄

Disallow: /require/ 這里定義是禁止爬尋require目錄下面的目錄

Disallow: /ABC/ 這里定義是禁止爬尋ABC目錄下面的目錄

Disallow: /cgi-bin/*.htm 禁止訪問/cgi-bin/目錄下的所有以\.htm\為后綴的URL(包含子目錄)。

Disallow: /*?* 禁止訪問網(wǎng)站中所有包含問號(?) 的網(wǎng)址

Disallow: /.jpg$ 禁止抓取網(wǎng)頁所有的.jpg格式的圖片

Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。

Allow: /cgi-bin/　這里定義是允許爬尋cgi-bin目錄下面的目錄

Allow: /tmp 這里定義是允許爬尋tmp的整個(gè)目錄

Allow: .htm$ 僅允許訪問以\.htm\為后綴的URL。

Allow: .gif$ 允許抓取網(wǎng)頁和gif格式圖片

Sitemap: 網(wǎng)站地圖，告訴爬蟲這個(gè)頁面是網(wǎng)站地圖

了解了robot.txt是什么后相信大家也可以在日常工作中很好的利用。不過還有一些注意事項(xiàng)是需要大家引起重視的，以免出現(xiàn)錯(cuò)誤。

TAG：

相關(guān)閱讀