最新發(fā)現(xiàn),百度蜘蛛(Baiduspider)是笨蛋!最近發(fā)現(xiàn)網(wǎng)站百度收錄的很慢,基本上是過幾天重新快照下首頁,其它頁面基本上不收錄!郁悶!實(shí)在郁悶!打開網(wǎng)站IIS log,查了下百度蜘蛛,大驚!有重大發(fā)現(xiàn):百度蜘蛛真是個(gè)笨蛋!
一、先看看百度蜘蛛是怎么笨死的。以下是百度蜘蛛在我網(wǎng)站上的活動記錄。
1、2009-06-03 21:26:05 W3SVC962713505 218.60.130.19 GET /robots.txt - 80 - 123.125.64.15 Baiduspider ( ) 404 0 64 (注:404表明未找到robots.txt)
2、2009-06-03 21:26:49 W3SVC962713505 218.60.130.19 GET /index.asp - 80 - 123.125.64.15 Baiduspider ( ) 200 0 64 (注:200表明找到首頁文件index.asp)
由此可以看出,百度蜘蛛的活動,先到網(wǎng)站找robots.txt 這個(gè)文件,如果沒有則找到網(wǎng)站首頁index.asp,和百度目前收錄的首頁對比后發(fā)現(xiàn)和原來沒變化,然后走了。和廣大站長一樣,誰不想自己被百度收錄的頁面時(shí)不時(shí)的快照更新下?看來只有先完善robots.txt ,牽著百度蜘蛛到我站上到處跑了。
二、書寫robots.txt ,帶百度到你站上四處逛逛。
robots.txt 這個(gè)文件必須寫。具體怎么寫大家都懂吧?不會的話我再重復(fù)下
例1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分
User-agent: *
Disallow: /
例2. 允許所有的robot訪問
(或者也可以建一個(gè)空文件 /robots.txt)
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
(桌子注:這個(gè)必須的,不要建空文件,那是百度在放煙。最好寫下面一句。)
例3. 僅禁止Baiduspider訪問您的網(wǎng)站
User-agent: Baiduspider
Disallow: /
例4. 僅允許Baiduspider訪問您的網(wǎng)站
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
例5. 禁止spider訪問特定目錄
在這個(gè)例子中,該網(wǎng)站有三個(gè)目錄對搜索引擎的訪問做了限制,即robot不會訪問這三個(gè)目錄。需要注意的是對每一個(gè)目錄必須分開聲明,而不能寫成 Disallow: /cgi-bin/ /tmp/。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允許訪問特定目錄中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 使用*限制訪問url
禁止訪問/cgi-bin/目錄下的所有以.htm為后綴的URL(包含子目錄)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用$限制訪問url
僅允許訪問以.htm為后綴的URL。
User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止訪問網(wǎng)站中所有的動態(tài)頁面
User-agent: *
Disallow: /*?*
例10. 禁止Baiduspider抓取網(wǎng)站上所有圖片
僅允許抓取網(wǎng)頁,禁止抓取任何圖片。
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
例11. 僅允許Baiduspider抓取網(wǎng)頁和.gif格式圖片
允許抓取網(wǎng)頁和gif格式圖片,不允許抓取其他格式圖片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
例12. 僅禁止Baiduspider抓取.jpg格式圖片
User-agent: Baiduspider
Disallow: .jpg$
看看桌子自己寫的robots.txt,大家參考
復(fù)制代碼
User-agent: *
Disallow: /admin/
Disallow: /Soft/
Allow: /images/
Allow: /html/
Allow: .htm$
Allow: .php$
Allow: .asp$
Allow: .gif$
Allow: .jpg$
Allow: .jpeg$
Allow: .png$
Allow: .bmp$
Allow: /
解釋:
1、允許各種搜索引擎索引
2、禁止索引/admin目錄,這里是網(wǎng)站的后臺,當(dāng)然禁止了
3、禁止/soft等重要安全目錄
4、允許訪問/images目錄
5、允許訪問/html目錄
6、允許訪問所有htm,php,asp,html文件
7、允許抓取gif,jpg,jpeg,png,bmp格式的圖片
8、允許抓取網(wǎng)站根目錄下的文件。
好了,把你的 robots.txt傳到網(wǎng)站跟目錄下等著百度蜘蛛再來吧。到時(shí)候有這個(gè)好向?qū)е莻€(gè)笨蛋到你站上到處走走的。本文作者桌子,由MOFHOT外貿(mào)服裝批發(fā)網(wǎng)www.mofhot.com 搜集發(fā)布,請A5留個(gè)連接謝謝~發(fā)個(gè)文章也不容易的。