首頁 > SEO優化 > Robots.txt文件全解
201309月25

Robots.txt文件全解

一、什么是robots.txt文件?
搜索引擎使用spider程序自動訪問互聯網上的網頁并獲取網頁信息。spider在訪問一個網站時,會首先會檢查該網站的根域下是否有一個叫做robots.txt的純文本文件,這個文件用于指定 spider在您網站上的抓取范圍。您可以在您的網站中創建一個robots.txt,在文件中聲明該網站中不想被搜索引擎收錄的部分或者指定搜索引擎只收錄特定的部分。 請注意,僅當您的網站包 含不希望被搜索引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜索引擎收錄網站上所有內容,請勿建立robots.txt文件。

二、robots.txt文件放在哪里?
robots.txt文件應該放置在網站根目錄下。舉例來說,當spider訪問一個網站(比如http://www.abc.com)時,首先會檢查該網站中是否存在http://www.abc.com/robots.txt這個文件,如果
Spider找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。
網站 URL ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 相應的 robots.txt的 URL
http://www.92479520.com/ ? ? ? ? ? ? ? ?http://www.92479520.com/robots.txt

三、robots.txt有什么用?

如果您不希望互聯網爬蟲(又叫蜘蛛、Crawler、Spider等)抓取您網站的每一個公開的鏈接,而只抓取您指定的某一部分鏈接,或根本不抓取任何鏈接,你可以使用robots.txt向搜索引擎匯 報爬蟲信息。

四、怎么使用robots.txt?

建議您在站點的根目錄下存放一個robots.txt文件。我們的爬蟲在第一次抓取您站點時會首先確認根目錄下是否有robots.txt文件。例如,您的網站地址是www.92479520.com,我們會首先抓 取http://www.92479520.com/robots.txt再進行后續操作。如無法訪問robots.txt文件,系統則默認為您站點的每個鏈接都可以被抓取。

五、怎么寫robots.txt文件?

robots.txt是個很簡單的文本文件,您只要標明“誰不能訪問哪些鏈接”即可。

在文件的第一行寫:

User-Agent: Baiduspider

這就告訴了爬蟲下面的描述是針對名叫Baiduspider的爬蟲。您還可以寫:

User-Agent: *

這就意味著向所有的爬蟲開放。需要注意的是一個robots.txt文件里只能有一個”User-Agent: *”。

接下來是不希望被訪問的鏈接前綴。例如:

Disallow: /private

這就告訴爬蟲不要抓取以”/private”開頭的所有鏈接。包括/private.html,/private/some.html,/private/some/haha.html。如果您寫成:

Disallow: /

則表明整個站點都不希望被訪問。您也可以分多行來指定不希望被抓取的鏈接前綴,例如:

Disallow: /tmp

Disallow: /disallow

那么所有以”/tmp”和”/disallow”開頭的鏈接都不會被訪問了。

最后形成的robots.txt文件如下:

User-Agent: Baiduspider

Disallow: /tmp

Disallow: /private

請注意,如果您的robots.txt文件里有中文等非英語字符,請確定該文件是由UTF-8編碼編寫。

六、怎樣分別指定不同的網絡爬蟲?

這個操作很簡單,只要分別指定“誰能或不能訪問怎樣的鏈接”即可。例如:

User-Agent: YodaoBo

Disallow:

User-Agent: *

Disallow: /private

上面的robots.txt表明,名為Baiduspider的爬蟲可以抓所有的內容,其它名稱的爬蟲不能抓以”/private”開頭的鏈接。

七、robots.txt范例:

淘寶網的robots.txt

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

搜狗的robots.txt

User-agent: Sogou web spider
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: Sogou inst spider
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: Sogou spider2
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: Sogou blog
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: Sogou News Spider
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: Sogou Orion spider
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: JikeSpider
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: Sosospider
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: Googlebot
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: MSNBot
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: Baiduspider
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: 360spider
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: Baiduspider-image
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: YoudaoBot
Disallow: /sogou?
Disallow: /web?
Disallow: /sohu?
Disallow: /quan?

User-agent: *
Disallow: /

ADMIN5站長網的robots.txt

User-agent: *
Disallow: /api/
Disallow: /data/
Disallow: /source/
Disallow: /install/
Disallow: /template/
Disallow: /config/
Disallow: /uc_client/
Disallow: /uc_server/
Disallow: /static/
Disallow: /archiver/
Disallow: /admin.php
Disallow: /search.php
Disallow: /member.php
Disallow: /api.php
Disallow: /misc.php
Disallow: /space-*.html
Disallow: /forum.php?mod=*
Disallow: /home.php?mod=*
Disallow: /userapp.php?mod=*
Disallow: /*?mod=misc*
Disallow: /*?mod=attachment*
Disallow: /*mobile=yes*

文章作者:admin
本文地址:http://www.92479520.com/108.html
版權所有 © 轉載時必須以鏈接形式注明作者和原始出處!

本文目前尚無任何評論.
您必須在 登錄 后才能發布評論.
2018cba什么时候开打