robots能否徹底屏蔽搜索蜘蛛爬行與抓取呢？

勻歡?壞木突嵯氳絩obots.txt文檔。robots.txt是什麽?其實在此前惠州SEO葉劍輝也已經對此進行了基礎的說明。robots.txt是壹種存放在網站空間根目錄下的文本文件，是壹種協議，用來告訴搜索蜘蛛網站中哪些可被爬行抓取，哪些不可被爬行抓取。然而，在這裏，葉劍輝有著這麽壹個疑問，robots.txt是否能徹底屏蔽蜘蛛的爬行抓取呢?　　robots.txt能屏蔽蜘蛛的爬行抓取　　Disallow: /wp-admin　　Disallow: /wp-content　　Disallow: /wp-includes　　在查看過後，發現了這麽壹個問題，這是目錄文件屏蔽，然而，這屏蔽設置後邊卻似乎缺少了/，而葉劍輝進行咨詢時，好友卻是這麽認為：目錄文件前邊加上了/就可以了，後邊加不加都壹樣的呀。對此，葉劍輝卻是另壹種看法，在後邊加上與未加上/,對於蜘蛛而言是兩種概念，加上了是告訴蜘蛛，這是壹個文件夾，而未加上即告訴蜘蛛這是壹個文件，也因此導致明明在robots.txt上做好了設置，卻沒能有效的屏蔽。當然這僅僅是葉劍輝的個人看法。　　繼而，好友聽從建議將robots.txt修改為：　　Disallow: /wp-admin/　　Disallow: /wp-content/　　Disallow: /wp-includes/　　成功修改後便在百度站長平臺進行提交重新生成操作(需要註意的是，若不主動提交生成，靠蜘蛛自行生產的話，耗時較長的喔)，在當天也就生效了。隔日後再對日誌進行查看，發現蜘蛛對這三個wordpress下的目錄真的不再爬行抓取了。　　從這麽壹點上看，在我們進行網站SEO優化之時，著實不能忽略任何細節，僅僅壹個/，可帶來的卻是不壹樣的效果。　　robots.txt不能徹底屏蔽蜘蛛的爬行抓取　　那麽，在這裏葉劍輝就需要做壹個說明，robots.txt協議並非是壹個標準，壹個規範，只是約定俗成而已罷了，通常搜索引擎會識別這個文件，但也有壹些特殊情況。(如之前的360事件就不作為此次討論內容)　　無論是百度亦或是谷歌，某個頁面只要有其他網站鏈接到該頁面的話，同樣有可能會被索引和收錄。要想徹底屏蔽頁面文件被谷歌索引的話(即使有其他網站鏈接到該頁面文件)，則需要在頁面head中插入noindex元標記或x-robots-tag。如下：<meta name=googlebot content=noindex當谷歌蜘蛛看到頁面上著noindex的元標記，就會將此頁從谷歌搜索結果中完全丟棄，無視是否還有其他頁鏈接到此頁。而百度呢？對於百度而言，並不支持如谷歌那般通過noindex完全將網頁從索引上刪除，僅支持noarchive元標記來禁止百度顯示網頁快照。具體語句如下：<meta name=Baiduspider content=noarchive　　上面這個標記只是禁止百度顯示該頁面快照，但百度仍會為其建索引，並在搜索結果中顯示網頁摘要。　　結束語：　　回到葉劍輝在文章首段所說到的疑問，robots.txt是否能徹底屏蔽蜘蛛的爬行抓取呢?相信在看到這麽壹個問題,會有這麽壹部分朋友的回答是肯定的。而這只能說，我們都缺少了善於去發現的心，而對於沒能有效屏蔽蜘蛛抓取，只能說明咱們的優化工作做得不夠精細。　　由這麽兩個robots.txt的小問題上，葉劍輝認為，阻止我們進階為SEO高手的或許便是那善於發現問題的心和精細化的執行力。

上篇: 濰坊地區新寶來現車（1.6手動時尚型）提車周期過長（4S店號稱半年）有沒有好的辦法從正規渠道購車？

下篇: 2020全新的筆記本介紹個？通常哪款好？

robots能否徹底屏蔽搜索蜘蛛爬行與抓取呢？

相关文章