搜索引擎是什麽?
搜索引擎是壹個對互聯網信息資源進行搜索整理和分類,並儲存在網絡數據庫中供用戶查詢的系統,包括信息搜集、信息分類、用戶查詢三部分。
工作原理
1.爬行:搜索引擎是通過壹種特定規律的軟件跟蹤網頁的鏈接,從壹個鏈接爬到另外壹個鏈接,像蜘蛛在蜘蛛網上爬行壹樣,所以被稱為“蜘蛛”也被稱為“機器人”。搜索引擎蜘蛛的爬行是被輸入了壹定的規則的,它需要遵從壹些命令或文件的內容。
2.抓取存儲:搜索引擎是通過蜘蛛跟蹤鏈接爬行到網頁,並將爬行的數據存入原始頁面數據庫。其中的頁面數據與用戶瀏覽器得到的HTML是完全壹樣的。搜索引擎蜘蛛在抓取頁面時,也做壹定的重復內容檢測,壹旦遇到權重很低的網站上有大量抄襲、采集或者復制的內容,很可能就不再爬行。
3.預處理:搜索引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。