搜索引擎都有哪些分類?
1.全文索引
全文搜索引擎是名副其實的搜索引擎,國外代表有Google,國內則有著名的百度搜索。它們從互聯網提取各個網站的信息(以網頁文字為主),建立起數據庫,並能檢索與用戶查詢條件相匹配的記錄,按壹定的排列順序返回結果。
根據搜索結果來源的不同,全文搜索引擎可分為兩類,壹類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,上面提到的Google和百度就屬於此類;另壹類則是租用其他搜索引擎的數據庫,並按自定的格式排列搜索結果,如Lycos搜索引擎。
2.目錄索引
目錄索引雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞(Keywords)進行查詢。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo!、新浪分類目錄搜索。
3.元搜索引擎
元搜索引擎(META Search Engine)接受用戶查詢請求後,同時在多個搜索引擎上搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結果排列方面,有的直接按來源排列搜索結果,如Dogpile;有的則按自定的規則將結果重新排列組合,如Vivisimo。
其他非主流搜索引擎形式
(1)集合式搜索引擎:該搜索引擎類似元搜索引擎,區別在於它並非同時調用多個搜索引擎進行搜索,而是由用戶從提供的若幹搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。
(2)門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務,但自身既沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他搜索引擎。
(3)免費鏈接列表(Free For All Links,簡稱FFA):壹般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規模要比Yahoo!等目錄索引小很多。
工作原理
1、抓取網頁
每個獨立的搜索引擎都有自己的網頁抓取程序(spider)。Spider順著網頁中的超鏈接,連續地抓取網頁。由於互聯網中超鏈接的應用很普遍,理論上,從壹定範圍的網頁出發,就能搜集到絕大多數的網頁。
2、處理網頁
搜索引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引文件。其他還包括去除重復網頁、分析超鏈接、計算網頁的重要度。
3、提供檢索服務
用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;為了用戶便於判斷,除了網頁標題和URL外,還會提供壹段來自網頁的摘要以及其他信息。