爬蟲是什麽

爬蟲，即網絡爬蟲，也叫做網絡機器人，可以代替人們自動地在互聯網中進行數據信息的采集與整理。

大家可以理解為在網絡上爬行的壹只蜘蛛，互聯網就比作壹張大網，而爬蟲便是在這張網上爬來爬去的蜘蛛，如果它遇到自己的獵物（所需要的資源），那麽它就會將其抓取下來。

爬蟲獲取各種食物的熱量、各種美食的食材配料，掌握了爬蟲，就可以建立自己的數據庫，然後寫壹個程序，篩選符合自身熱量要求的食物，再用隨機函數生成菜單供自己選擇即可。

爬蟲可以抓取某個網站或者某個應用的內容，批量提取有用的價值，比如想把知乎上某壹個問題的高贊答案全部抓取到本地並保存，或者搜集眾多機票網站的航班價格信息做價格對比，各種論壇、股吧、微博、公眾號的輿情分析，爬出四級的高頻單詞等。

爬蟲組成：

Web網絡爬蟲系統的功能是下載網頁數據，為搜索引擎系統提供數據來源，很多大型的網絡搜索引擎系統都是基於Web數據采集的搜索引擎系統，由此可見Web網絡爬蟲在搜索引擎中的重要性。

在網絡爬蟲的系統框架中，主過程由控制器、解析器、資源庫三部分組成。控制器的主要工作是負責給多線程中各個爬蟲線程分配工作任務；解析器的主要工作是下載網頁，進行網頁的處理，處理的內容包括JS腳本標簽、CSS代碼內容、空格字符、HTML標簽等內容。