"robots.txt"是什麽?求大神幫助
壹.什麽是robots.txt文件? 搜索引擎通過壹種程序robot(又稱spider),自動訪問互聯網上的網頁並獲取網頁信息。 您可以在您的網站中創建壹個純文本文件robots.txt,在這個文件中聲明該網站中不想被robot訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎收錄了,或者指定搜索引擎只收錄指定的內容。 二.robots.txt文件放在哪裏? robots.txt文件應該放在網站根目錄下。舉例來說,當robots訪問壹個網站(比如/ ,它先去檢查文件robots.txt"target="_blank">/ robots.txt。如果這個文件存在,它便會按照這樣的記錄格式去分析: User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/~joe/ 以確定它是否應該檢索站點的文件。這些記錄是專門給WebRobot看的,壹般的瀏覽者大概永遠不會看到這個文件,所以千萬不要異想天開地在裏面加入形似<imgsrc=*>類的HTML語句或是“Howdoyoudo?whereareyoufrom?”之類假情假意的問候語。 在壹個站點上只能有壹個"/robots.txt"文件,而且文件名的每個字母要求全部是小寫。在Robot的記錄格式中每壹個單獨的"Disallow"行表示妳不希望Robot訪問的URL,每個URL必須單獨占壹行,不能出現"Disallow:/cgi-bin//tmp/"這樣的病句。同時在壹個記錄中不能出現空行,這是因為空行是多個記錄分割的標誌。 User-agent行指出的是Robot或其他代理的名稱。在User-agent行,''*''表示壹個特殊的含義---所有的robot。 下面是幾個robot.txt的例子: 在整個服務器上拒絕所有的robots: User-agent:* Disallow:/ 允許所有的robots訪問整個站點: User-agent:* Disallow: 或者產生壹個空的"/robots.txt"文件。 服務器的部分內容允許所有的robot訪問 User-agent:* Disallow:/cgi-bin/ Disallow:/tmp/ Disallow:/private/ 拒絕某壹個專門的robot: User-agent:BadBot Disallow:/ 只允許某壹個robot光顧: User-agent:WebCrawler Disallow: User-agent:* Disallow:/ 最後我們給出http://www.w3.org/ 站點上的robots.txt: #Forusebysearch.w3.org User-agent:W3Crobot/1 Disallow: User-agent:* Disallow:/Member/#ThisisrestrictedtoW3CMembersonly Disallow:/member/#ThisisrestrictedtoW3CMembersonly Disallow:/team/#ThisisrestrictedtoW3CTeamonly Disallow:/TandS/Member#ThisisrestrictedtoW3CMembersonly Disallow:/TandS/Team#ThisisrestrictedtoW3CTeamonly Disallow:/Project Disallow:/Systems Disallow:/Web Disallow:/Team 使用RobotsMETAtag方式 RobotsMETAtag允許HTML網頁作者指出某壹頁是否可以被索引,或是否可以用來查找更多的鏈接文件。目前只有部分robot實施了這壹功能。 RobotsMETAtag的格式為: <METANAME="ROBOTS"CONTENT="NOINDEX,NOFOLLOW"> 象其他的METAtag壹樣,它應該放在HTML文件的HEAD區: <html> <head> <metaname="robots"content="noindex,nofollow"> <metaname="description"content="Thispage...."> <title>...</title> </head> <body> ... RobotsMETAtag指令使用逗號隔開,可以使用的指令包括[NO]INDEX和[NO]FOLLOW。INDEX指令指出壹個索引性robot是否可以對本頁進行索引;FOLLOW指令指出robot是否可以跟蹤本頁的鏈接。缺省的情況是INDEX和FOLLOW。例如: <metaname="robots"content="index,follow"> <metaname="robots"content="noindex,follow"> <metaname="robots"content="index,nofollow"> <metaname="robots"content="noindex,nofollow"> 壹個好的Web站點管理員應該將robot的管理考慮在內,使robot為自己的主頁服務,同時又不損害自己網頁的安全。