robots作用是什么與nofollow有哪些區(qū)別
robots一般用于站長限制搜索引擎訪問頁面,所以說robots是網(wǎng)站跟搜索引擎爬蟲間的協(xié)議,一般站長通過txt文本方式告訴搜索引擎爬蟲被允許的權(quán)限,一般只要在根域名目錄下,未設(shè)置目錄訪問權(quán)限的文件爬蟲都可以抓取的到,如果網(wǎng)站跟搜索引擎之間沒有協(xié)議,將使不可預(yù)知的大量信息泄露到網(wǎng)上,這不是雙方愿意看到的。
robots作用是什么:
1.如果網(wǎng)站改版了,整個文件夾都沒有了的時候,這個情況下就要考慮屏蔽掉整個文件夾。我們可以運用robots來對這整個的文件夾進(jìn)行屏蔽,例如網(wǎng)站里的ab文件夾因改版全都給刪掉了,這個時候就可以這樣子設(shè)置:
User-agent: *
Disallow: /ab/
2.可以利用各種通配符對網(wǎng)站進(jìn)行相對應(yīng)的調(diào)配,例如我不想網(wǎng)站抓取我的所有圖片,這個時候就可以運用$來進(jìn)行設(shè)置。一般我們常見的圖片的格式是BMP?。jpg-w600、GIF、JPEG等格式。這個時候設(shè)置就是:
User-agent: *
Disallow: /.bmp$
Disallow: /.jpg-w600$
Disallow: /.gif-w600$
Disallow: /.jpeg-w600$
3.如果你只想某一個搜索引擎抓取你的信息,這個時候就可以用robots進(jìn)行設(shè)置,例如:我只想我的網(wǎng)站被百度這個收錄,而不想被別的搜索引擎收錄。就可以利用robots進(jìn)行設(shè)置。
User-agent: Baiduspider
Allow:
User-agent: *
Disallow: /
4.還可以利用*來屏蔽掉相關(guān)的URL,有些網(wǎng)站不允許搜索引擎抓取動態(tài)地址的時候可以利用這個*通配符來進(jìn)行匹配設(shè)置。一般情況下動態(tài)URL的有一個特點就是有“?”這個時候我們就可以利用這個特性來進(jìn)行匹配的屏蔽:
User-agent: *
Disallow: /*?*
5.屏蔽所有的搜索引擎抓取信息,如果你的網(wǎng)站只是你的私密性的網(wǎng)站,不想太多的人知道的話,可以利用robots屏蔽掉所有的搜索引擎,例如你寫的私人博客。你就可以把搜索引擎全都屏蔽掉。
robots與nofollow有哪些區(qū)別
robots文件是在根目錄中的一個txt文本文件,里面用代碼語句告訴蜘蛛什么可以抓取,什么不能抓取,從一開始就告訴了蜘蛛:“我有些東西不能讓你看,請你自動繞開?!倍鴑ofollow屬性的鏈接,意思是告訴蜘蛛這個鏈接你可以看看,但是跟我網(wǎng)站無關(guān),不要給這個鏈接權(quán)重,這是比較直觀的說法。
說得更通俗點robots一開始就告訴蜘蛛我們什么鏈接不要去抓取,而對于nofollow標(biāo)簽來說,他無法節(jié)省我們的蜘蛛資源,連接中加了nofollow標(biāo)簽,蜘蛛還是會抓取這個鏈接,只是不傳遞權(quán)重,也就是我們的網(wǎng)站不對這個鏈接傳遞權(quán)重。