搜索引擎是什麽?

搜索引擎是壹個對互聯網信息資源進行搜索整理和分類，並儲存在網絡數據庫中供用戶查詢的系統，包括信息搜集、信息分類、用戶查詢三部分。

工作原理

1.爬行：搜索引擎是通過壹種特定規律的軟件跟蹤網頁的鏈接，從壹個鏈接爬到另外壹個鏈接，像蜘蛛在蜘蛛網上爬行壹樣，所以被稱為“蜘蛛”也被稱為“機器人”。搜索引擎蜘蛛的爬行是被輸入了壹定的規則的，它需要遵從壹些命令或文件的內容。

2.抓取存儲：搜索引擎是通過蜘蛛跟蹤鏈接爬行到網頁，並將爬行的數據存入原始頁面數據庫。其中的頁面數據與用戶瀏覽器得到的HTML是完全壹樣的。搜索引擎蜘蛛在抓取頁面時，也做壹定的重復內容檢測，壹旦遇到權重很低的網站上有大量抄襲、采集或者復制的內容，很可能就不再爬行。

3.預處理：搜索引擎將蜘蛛抓取回來的頁面，進行各種步驟的預處理。