最新消息:建議添加本博客到收藏夾,方便您下次查看哦

看完秒懂robots.txt寫法和注意事項

優化心得 admin 1883瀏覽 1評論

robots.txt直接放在網站根目錄下,是蜘蛛訪問網站時,第一個抓取的文件。robots.txt是告訴蜘蛛網站的哪些文件允許抓取,哪些文件不允許抓取,甚至可以指定特定的蜘蛛能不能抓取特定的文件。沒有抓取就沒有收錄,沒有收錄就沒有排名。

成人抖音app所以作為第一蜘蛛訪問的文件,寫好robots.txt是很重要的,寫好robots.txt后,一定要再檢查一兩遍,以防出錯。這里總結下robots.txt寫法。

看完秒懂robots.txt寫法和注意事項

一.robots.txt具體作用

成人抖音app1.對搜索引擎做出規定,抓取或者不抓取。

2.由于有些信息規定了不讓抓取,所以可以保護到一些必要的信息,比如:網站后臺,用戶信息。

3.節省搜索引擎抓取資源。

二.robots.txt規則

成人抖音app1.User-agent,用于告訴識別蜘蛛類型。比如,User-agent:?Baiduspider 就是指百度蜘蛛。

各類蜘蛛列舉如下:

百度蜘蛛:Baiduspider

谷歌機器人:GoogleBot

360蜘蛛:360Spider

成人抖音app搜狗蜘蛛:Sogou News Spider

雅虎蜘蛛:“Yahoo! Slurp China” 或者 Yahoo!

成人抖音app有道蜘蛛:Youdaobot 或者 Yodaobot

Soso蜘蛛:Sosospider

成人抖音app2.Allow,允許蜘蛛抓取指定目錄或文件,默認是允許抓取所有。

3.Disallow,不允許蜘蛛抓取指定目錄或文件。

4.通配符,“*”,匹配0或多個任意字符。

成人抖音app5.終止符,“$”,可以匹配以指定字符結尾的字符。

 

舉個例子:下面是一個wordpress程序的robots.txt

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
Disallow: /*.js$

Disallow: /*?*

Sitemap: http://shhztz.cn/sitemap.xml

解釋:

User-agent: *:對所有搜索引擎都使用下面的規則。

Disallow: /wp-admin/成人抖音app:不讓蜘蛛抓取根目錄下的wp-admin文件夾。

Disallow: /*.js$成人抖音app:不讓蜘蛛抓取根目錄下所有的js文件。

Disallow: /*?*成人抖音app:不抓取所有的動態鏈接。

Sitemap: http://shhztz.cn/sitemap.xml成人抖音app:給蜘蛛提供網站地圖,方便蜘蛛抓取網站內容。

三.robots.txt注意事項

成人抖音app1.如果你希望搜索引擎收錄網站上所有的內容,那么就不要建立robots.txt文件。

成人抖音app2.如果同時存在動態和靜態鏈接,那么建議屏蔽動態鏈接。

成人抖音app3.robots.txt只能是屏蔽站內文件的,對站外文件沒有屏蔽功能。

4.User-agent,Allow,Disallow,Sitemap的首字母都是大寫的。

5.User-agent,Allow,Disallow,Sitemap的冒號后面都是有空格的,沒有寫空格直接寫接下來的內容會出錯。

robots.txt注意事項

6.網站通常會屏蔽搜索結果頁面。因為搜索結果頁和正常展示的內容頁相比,標題和內容上相同的,而這兩個頁面鏈接是不同的。那搜索引擎該將這篇文章歸屬于哪個內鏈呢?這樣就會造成內鏈之間相互競爭,造成內部資源損耗。

比如上面舉的例子,那個wordpress程序,在沒有設置偽靜態,還是動態鏈接的時候,搜索結果頁面鏈接都包含有/?s=,而 標題和內容 與 正常展示的動態鏈接內容頁重復,可以通過Disallow: /?=*來屏蔽搜索結果頁面。

而現在那個wordpress程序已經設置了偽靜態,也設置了Disallow: /*?*,Disallow: /*?*本身就包含了Disallow: /?=*,所以Disallow: /?=*這句寫不寫都沒有關系。

7.建議屏蔽js文件。Disallow: /*.js$,以 .js 結尾的路徑統統被屏蔽,這樣就屏蔽了js文件。

8.路徑是區分大小寫的。Disallow: /ab/ 和?Disallow: /Ab/ 是不一樣的。

成人抖音app9.robots.txt會暴露網站相關目錄,寫robots.txt時要考慮到這一點。

10.有些seo會將文件直接備份在服務器中,文件是 .zip 格式,然后在robots.txt中屏蔽。個人不建議這樣,這就是明顯告訴人家你的備份文件位置。建議文件和數據都備份到本地。

一些特殊規則對比

11.一些特殊規則對比:

Disallow: /和Disallow: / ab (/后面有個空格,再有ab)是一樣的,/后面多了個空格,蜘蛛之認空格前面那一段,就是Disallow: /,所以兩個都是屏蔽整站的。

成人抖音appDisallow: /ab和Disallow: /ab*是一樣的。比如兩個都能屏蔽http://域名/ab,http://域名/abc,http://域名/abcd。

Disallow: /ab/和Disallow: /ab是不一樣的。很明顯,Disallow: /ab范圍更廣,包含了Disallow: /ab/。因為Disallow: /ab/只能屏蔽http://域名/ab/,http://域名/ab/….這樣的路徑,也就是只能屏蔽ab目錄和ab目錄下的文件不被蜘蛛抓取。

四.驗證robots.txt文件的正確性和是否生效

當我們寫好了robots.txt文件后,怎么確定文件的正確性呢?上傳到服務器根目錄后,怎么判斷robots.txt文件是否生效了呢?這時我們可以借助百度資源平臺Robots。比如輸入樂呵SEO測試服網址,得到如下結果。

驗證robots.txt文件是否生效

驗證robots.txt文件是否生效

檢測到robots.txt文件的內容

成人抖音app檢測到robots.txt文件的內容

驗證robots.txt文件的正確性

成人抖音app驗證robots.txt文件的正確性

結果證明,http://wordpress.leheseo.com/robots.txt這個文件沒有語法錯誤,并且已經生效了。

成人抖音app若是想測試某一個目錄或者文件是否被屏蔽了,百度也是提供了工具的。如下圖,由于 http://wordpress.leheseo.com 是測試服,我屏蔽了所有文件。所以無論我輸入根目錄下的任何目錄或者任何文件,都是檢測不到的,也就是說蜘蛛是抓取不到的。

可以輸入要檢測的目錄或文件

可以輸入要檢測的目錄或文件

成人抖音app輸入了后臺目錄wp-admin:

輸入了后臺目錄wp-admin

后臺目錄檢測結果:

后臺目錄檢測結果

成人抖音app經過測試,其他文件和目錄頁也檢測不到,所以這個功能還是很好用的。

成人抖音app更多robots.txt內容,可以參考百度提供的文檔哦。

成人抖音approbots.txt寫法就總結到這里了,內容有點多,特別是robots.txt規則和robots.txt注意事項部分,希望對您有所幫助咯。

原創文章,作者:樂呵seo,如若轉載,請注明出處:http://shhztz.cn/seojiaocheng/282.html
發表我的評論
取消評論

表情

網友最新評論 (1)

  1. 學到了不少東西
    匿名8個月前 (08-24)回復