如何對付網絡爬蟲
網站建設好了,當然是希望網頁被搜索引擎收錄的越多越好,但有時候我們也會碰到網站不需要被搜索引擎收錄的情況。比如,要啟用壹個新的域名做鏡像網站,主要用於PPC的推廣,這個時候就要想法屏蔽搜索引擎蜘蛛抓取和索引我們鏡像網站的所有網頁。因為如果鏡像網站也被搜索引擎收錄的話,很有可能會影響官網在搜索引擎的權重。以下列舉了屏蔽主流搜索引擎爬蟲(蜘蛛)抓取/索引/收錄網頁的幾種思路。註意:是整站屏蔽,而且是盡可能的屏蔽掉所有主流搜索引擎的爬蟲(蜘蛛)。1、通過robots.txt文件屏蔽可以說robots.txt文件是最重要的壹種渠道(能和搜索引擎建立直接對話),給出以下建議:User-agent:BaiduspiderDisallow:/User-agent:GooglebotDisallow:/User-agent:Googlebot-MobileDisallow:/User-agent:Googlebot-ImageDisallow:/User-agent:Mediapartners-GoogleDisallow:/User-agent:Adsbot-GoogleDisallow:/User-agent:Feedfetcher-GoogleDisallow:/User-agent:Yahoo!SlurpDisallow:/User-agent:Yahoo!SlurpChinaDisallow:/User-agent:Yahoo!-AdCrawlerDisallow:/User-agent:YoudaoBotDisallow:/User-agent:SosospiderDisallow:/User-agent:SogouspiderDisallow:/User-agent:SogouwebspiderDisallow:/User-agent:MSNBotDisallow:/User-agent:ia_archiverDisallow:/User-agent:TomatoBotDisallow:/User-agent:*Disallow:/2、通過metatag屏蔽在所有的網頁頭部文件添加,添加如下語句:3、通過服務器(如:Linux/nginx)配置文件設置直接過濾spider/robots的IP段。小註:第1招和第2招只對“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分別泛指指遵守與不遵守robots.txt協議的spider/robots),所以網站上線之後要不斷跟蹤分析日誌,篩選出這些badbot的ip,然後屏蔽之。