網(wǎng)絡(luò)爬蟲是什么意思？詳解網(wǎng)絡(luò)爬蟲的分類、組成、工作原理及搜索策略

2023-06-25 10:10:49

網(wǎng)絡(luò)爬蟲是什么意思

一、網(wǎng)絡(luò)爬蟲是什么意思

網(wǎng)絡(luò)爬蟲（英文：Web Crawler或Spider）又稱為網(wǎng)絡(luò)蜘蛛、網(wǎng)頁(yè)蜘蛛或網(wǎng)絡(luò)機(jī)器人，是一種按照一定規(guī)則，自動(dòng)地抓取互聯(lián)網(wǎng)信息的程序或者腳本。網(wǎng)絡(luò)爬蟲是為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè)的程序，是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個(gè)或若干個(gè)初始網(wǎng)頁(yè)上的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列，直到滿足系統(tǒng)的一定停止條件。

二、網(wǎng)絡(luò)爬蟲的分類及工作原理

網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)，大致可以分為以下幾種類型：通用網(wǎng)絡(luò)爬蟲(General PURpose Web Crawler)、聚焦網(wǎng)絡(luò)爬蟲(Focused Web Crawler)、增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)、深度爬蟲(Deep Web Crawler)。實(shí)際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的。

1、通用網(wǎng)絡(luò)爬蟲

通用網(wǎng)絡(luò)爬蟲又稱全網(wǎng)爬蟲(Scalable Web Crawler)，爬行對(duì)象從一些種子 URL 擴(kuò)充到整個(gè) Web，主要為門戶站點(diǎn)搜索引擎和大型 Web 服務(wù)提供商采集數(shù)據(jù)。由于商業(yè)原因，它們的技術(shù)細(xì)節(jié)很少公布出來(lái)。這類網(wǎng)絡(luò)爬蟲的爬行范圍和數(shù)量巨大，對(duì)于爬行速度和存儲(chǔ)空間要求較高，對(duì)于爬行頁(yè)面的順序要求相對(duì)較低，同時(shí)由于待刷新的頁(yè)面太多，通常采用并行工作方式，但需要較長(zhǎng)時(shí)間才能刷新一次頁(yè)面。雖然存在一定缺陷，但通用網(wǎng)絡(luò)爬蟲適用于搜索引擎搜索廣泛的主題，有較強(qiáng)的應(yīng)用價(jià)值。

通用爬蟲的工作流程

*通用爬蟲的工作流程

通用爬蟲主要存在以下幾方面的局限性：

（1）、由于抓取目標(biāo)是盡可能大的覆蓋網(wǎng)絡(luò)，所以爬行的結(jié)果中包含大量用戶不需要的網(wǎng)頁(yè)；

（2）、不能很好地搜索和獲取信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)；

（3）、通用搜索引擎大多是基于關(guān)鍵字的檢索，對(duì)于支持語(yǔ)義信息的查詢和索引擎智能化的要求難以實(shí)現(xiàn)。

2、聚焦網(wǎng)絡(luò)爬蟲（主題爬蟲）

聚焦網(wǎng)絡(luò)爬蟲(Focused Crawler)，又稱主題網(wǎng)絡(luò)爬蟲(Topical Crawler)，是指選擇性地爬行那些與預(yù)先定義好的主題相關(guān)頁(yè)面的網(wǎng)絡(luò)爬蟲。和通用網(wǎng)絡(luò)爬蟲相比，聚焦爬蟲只需要爬行與主題相關(guān)的頁(yè)面，極大地節(jié)省了硬件和網(wǎng)絡(luò)資源，保存的頁(yè)面也由于數(shù)量少而更新快，還可以很好地滿足一些特定人群對(duì)特定領(lǐng)域信息的需求。

（1）、主題爬蟲原理

主題爬蟲并不追求大的覆蓋率，也不是全盤接受所有的網(wǎng)頁(yè)和URL，它根據(jù)既定的抓取目標(biāo)，有選擇的訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接，獲取所需要的信息，不僅客服了通用爬蟲存在的問(wèn)題，而H-返回的數(shù)據(jù)資源更精確。主題爬蟲的基本工作原理是按照預(yù)先確定的主題，分析超鏈接和剛剛抓取的網(wǎng)頁(yè)內(nèi)容，獲取下一個(gè)要爬行的URL，盡可能保證多爬行與主題相關(guān)的網(wǎng)頁(yè)，因此主題爬蟲要解決以下關(guān)鍵問(wèn)題：1)如何判定一個(gè)已經(jīng)抓取的網(wǎng)頁(yè)是否與主題相關(guān)；2)如何過(guò)濾掉海量的網(wǎng)頁(yè)中與主題不相關(guān)的或者相關(guān)度較低的網(wǎng)頁(yè)；3)如何有目的、有控制的抓取與特定主題相關(guān)的web頁(yè)面信息；4)如何決定待訪問(wèn)URL的訪問(wèn)次序；5)如何提高主題爬蟲的覆蓋度；6)如何協(xié)調(diào)抓取目標(biāo)的描述或定義與網(wǎng)頁(yè)分析算法及候選URL排序算法之問(wèn)的關(guān)系；7)如何尋找和發(fā)現(xiàn)高質(zhì)量網(wǎng)頁(yè)和關(guān)鍵資源。高質(zhì)量網(wǎng)頁(yè)和關(guān)鍵資源不僅可以大大提高主題爬蟲搜集Web頁(yè)面的效率和質(zhì)量，還可以為主題表示模型的優(yōu)化等應(yīng)用提供支持。

(2)、主題爬蟲模塊設(shè)計(jì)

主題爬蟲的目標(biāo)是盡可能多的發(fā)現(xiàn)和搜集與預(yù)定主題相關(guān)的網(wǎng)頁(yè)，其最大特點(diǎn)在于具備分析網(wǎng)頁(yè)內(nèi)容和判別主題相關(guān)度的能力。根據(jù)主題爬蟲的工作原理，下面設(shè)計(jì)了一個(gè)主題爬蟲系統(tǒng)，主要有頁(yè)面采集模塊、頁(yè)面分析模塊、相關(guān)度計(jì)算模塊、頁(yè)面過(guò)濾模塊和鏈接排序模塊幾部分組成，其總體功能模塊結(jié)構(gòu) 如圖2所示。

頁(yè)面采集模塊：主要是根據(jù)待訪問(wèn)URL隊(duì)列進(jìn)行頁(yè)面下載，再交給網(wǎng)頁(yè)分析模型處理以抽取網(wǎng)頁(yè)主題向量空間模型。該模塊是任何爬蟲系統(tǒng)都必不可少的模塊。頁(yè)面分析模塊：該模塊的功能是對(duì)采集到的頁(yè)面進(jìn)行分析，主要用于連接超鏈接排序模塊和頁(yè)面相關(guān)度計(jì)算模塊。

頁(yè)面相關(guān)度計(jì)算模塊：該模塊是整個(gè)系統(tǒng)的核心模塊，主要用于評(píng)估與主題的相關(guān)度，并提供相關(guān)的爬行策略用以指導(dǎo)爬蟲的爬行過(guò)程。URL 的超鏈接評(píng)價(jià)得分越高，爬行的優(yōu)先級(jí)就越高。其主要思想是，在系統(tǒng)爬行之前，頁(yè)面相關(guān)度計(jì)算模塊根據(jù)用戶輸入的關(guān)鍵字和初始文本信息進(jìn)行學(xué)習(xí)，訓(xùn)練一個(gè)頁(yè) 面相關(guān)度評(píng)價(jià)模型。當(dāng)一個(gè)被認(rèn)為是主題相關(guān)的頁(yè)面爬行下來(lái)之后，該頁(yè)面就被送入頁(yè)面相關(guān)度評(píng)價(jià)器計(jì)算其主題相關(guān)度值，若該值大于或等于給定的某閡值，則該頁(yè)面就被存入頁(yè)面庫(kù)，否則丟棄¨。頁(yè)面過(guò)濾模塊：過(guò)濾掉與主題無(wú)關(guān)的鏈接，同時(shí)將該URL及其所有隱含的子鏈接一并去除。通過(guò)過(guò)濾，爬蟲就無(wú)需遍歷與主題不相關(guān)的頁(yè)面，從而保證了爬行效率。排序模塊：將過(guò)濾后頁(yè)面按照優(yōu)先級(jí)高低加入到待訪問(wèn)的URL隊(duì)列里。

（3）、主題爬蟲流程設(shè)計(jì)

主題爬蟲需要根據(jù)一定的網(wǎng)頁(yè)分析算法，過(guò)濾掉與主題無(wú)關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它會(huì)根據(jù)一定的搜索策略從待抓取的隊(duì)列中選擇下一個(gè)要抓取的URL，并重復(fù)上述過(guò)程，直到滿足系統(tǒng)停止條件為止。所有被抓取網(wǎng)頁(yè)都會(huì)被系統(tǒng)存儲(chǔ)，經(jīng)過(guò)一定的分析、過(guò)濾，然后建立索引，以便用戶查詢和檢索；這一過(guò)程所得到的分析結(jié)果可以對(duì)以后的抓取過(guò)程提供反饋和指導(dǎo)。

主題爬蟲的工作流程

*主題爬蟲的工作流程

聚焦網(wǎng)絡(luò)爬蟲和通用網(wǎng)絡(luò)爬蟲相比，增加了鏈接評(píng)價(jià)模塊以及內(nèi)容評(píng)價(jià)模塊。聚焦爬蟲爬行策略實(shí)現(xiàn)的關(guān)鍵是評(píng)價(jià)頁(yè)面內(nèi)容和鏈接的重要性，不同的方法計(jì)算出的重要性不同，由此導(dǎo)致鏈接的訪問(wèn)順序也不同。

3、增量式網(wǎng)絡(luò)爬蟲

增量式網(wǎng)絡(luò)爬蟲(Incremental Web Crawler)是指對(duì)已下載網(wǎng)頁(yè)采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁(yè)的爬蟲，它能夠在一定程度上保證所爬行的頁(yè)面是盡可能新的頁(yè)面。和周期性爬行和刷新頁(yè)面的網(wǎng)絡(luò)爬蟲相比，增量式爬蟲只會(huì)在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁(yè)面，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效減少數(shù)據(jù)下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減少時(shí)間和空間上的耗費(fèi)，但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。增量式網(wǎng)絡(luò)爬蟲的體系結(jié)構(gòu)[包含爬行模塊、排序模塊、更新模塊、本地頁(yè)面集、爬行 URL 集以及本地頁(yè)面URL 集]。

增量式爬蟲有兩個(gè)目標(biāo)：保持本地頁(yè)面集中存儲(chǔ)的頁(yè)面為最新頁(yè)面和提高本地頁(yè)面集中頁(yè)面的質(zhì)量。為了實(shí)現(xiàn)第一個(gè)目標(biāo)，增量式爬蟲需要通過(guò)重新訪問(wèn)網(wǎng)頁(yè)來(lái)更新本地頁(yè)面內(nèi)容，常用的方法有：

(1)、統(tǒng)一更新法：爬蟲以相同的頻率訪問(wèn)所有網(wǎng)頁(yè)，不考慮網(wǎng)頁(yè)的改變頻率；

(2)、個(gè)體更新法：爬蟲根據(jù)個(gè)體網(wǎng)頁(yè)的改變頻率來(lái)重新訪問(wèn)各頁(yè)面；

(3)、基于分類的更新法：爬蟲根據(jù)網(wǎng)頁(yè)改變頻率將其分為更新較快網(wǎng)頁(yè)子集和更新較慢網(wǎng)頁(yè)子集兩類，然后以不同的頻率訪問(wèn)這兩類網(wǎng)頁(yè)。

4、Deep Web爬蟲(深度爬蟲)

Web 頁(yè)面按存在方式可以分為表層網(wǎng)頁(yè)(Surface Web)和深層網(wǎng)頁(yè)(Deep Web，也稱 Invisible Web Pages 或 Hidden Web)。表層網(wǎng)頁(yè)是指?jìng)鹘y(tǒng)搜索引擎可以索引的頁(yè)面，以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁(yè)構(gòu)成的 Web 頁(yè)面。Deep Web 是那些大部分內(nèi)容不能通過(guò)靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶提交一些關(guān)鍵詞才能獲得的 Web 頁(yè)面。例如那些用戶注冊(cè)后內(nèi)容才可見(jiàn)的網(wǎng)頁(yè)就屬于 Deep Web。 2000 年 Bright Planet 指出：Deep Web 中可訪問(wèn)信息容量是 Surface Web 的幾百倍，是互聯(lián)網(wǎng)上最大、發(fā)展最快的新型信息資源。

深度爬蟲流程圖

*深度爬蟲流程圖

Deep Web 爬蟲體系結(jié)構(gòu)包含六個(gè)基本功能模塊 (爬行控制器、解析器、表單分析器、表單處理器、響應(yīng)分析器、LVS 控制器)和兩個(gè)爬蟲內(nèi)部數(shù)據(jù)結(jié)構(gòu)(URL 列表、LVS 表)。其中 LVS(Label Value Set)表示標(biāo)簽/數(shù)值集合，用來(lái)表示填充表單的數(shù)據(jù)源。

三、網(wǎng)絡(luò)爬蟲的組成

在網(wǎng)絡(luò)爬蟲的系統(tǒng)框架中，過(guò)程由控制器，解析器，資源庫(kù)三部分組成?？刂破鞯闹饕ぷ魇秦?fù)責(zé)給多線程中的各個(gè)爬蟲線程分配工作任務(wù)。解析器的主要工作是下載網(wǎng)頁(yè)，進(jìn)行頁(yè)面的處理，主要是將一些JS腳本標(biāo)簽、CSS代碼內(nèi)容、空格字符、Html標(biāo)簽等內(nèi)容處理掉，爬蟲的基本工作是由解析器完成。資源庫(kù)是用來(lái)存放下載的網(wǎng)頁(yè)資源，一般都采用大型的數(shù)據(jù)庫(kù)存儲(chǔ)，并對(duì)其建立索引。

1、控制器

控制器是網(wǎng)絡(luò)爬蟲的中央控制器，它主要是負(fù)責(zé)根據(jù)系統(tǒng)傳過(guò)來(lái)的URL鏈接，分配線程，然后啟動(dòng)線程調(diào)用爬蟲爬取網(wǎng)頁(yè)的過(guò)程。

2、解析器

解析器是負(fù)責(zé)網(wǎng)絡(luò)爬蟲的主要部分，其負(fù)責(zé)的工作主要有：下載網(wǎng)頁(yè)的功能，對(duì)網(wǎng)頁(yè)的文本進(jìn)行處理，過(guò)濾功能，抽取特殊HTML標(biāo)簽的功能，分析數(shù)據(jù)的功能。

3、資源庫(kù)

主要是用來(lái)存儲(chǔ)網(wǎng)頁(yè)中下載下來(lái)的數(shù)據(jù)記錄的容器，并提供生成索引的目標(biāo)源。中大型的數(shù)據(jù)庫(kù)產(chǎn)品有：Oracle、SQL Server等。

四、網(wǎng)絡(luò)爬蟲的搜索策略

為了提高工作效率，通用網(wǎng)絡(luò)爬蟲會(huì)采取一定的爬行策略。常用的爬行策略有：IP地址搜索策略、深度優(yōu)先策略及廣度優(yōu)先策略。

1、IP地址搜索策略

IP地址搜索策略是先給爬蟲一個(gè)起始的IP地址，然后根據(jù)IP地址以遞增的方式搜索本IP地址段后的每一個(gè)地址中的文檔，它完全不考慮各文檔中指向其它Web站點(diǎn)的超級(jí)鏈接地址。這種搜索策略的優(yōu)點(diǎn)是搜索比較全面，因此能夠發(fā)現(xiàn)那些沒(méi)被其它文檔引用的新文檔的信息源；但是缺點(diǎn)是不適合大規(guī)模搜索。

2、深度優(yōu)先策略：其基本方法是按照深度由低到高的順序，依次訪問(wèn)下一級(jí)網(wǎng)頁(yè)鏈接，直到不能再深入為止。爬蟲在完成一個(gè)爬行分支后返回到上一鏈接節(jié)點(diǎn)進(jìn)一步搜索其它鏈接。當(dāng)所有鏈接遍歷完成后，爬行任務(wù)結(jié)束。這種策略比較適合垂直搜索或站內(nèi)搜索，但爬行頁(yè)面內(nèi)容層次較深的站點(diǎn)時(shí)會(huì)造成資源的巨大浪費(fèi)。

3、廣度優(yōu)先策略：此策略按照網(wǎng)頁(yè)內(nèi)容目錄層次深淺來(lái)爬行頁(yè)面，處于較淺目錄層次的頁(yè)面首先被爬行。當(dāng)同一層次中的頁(yè)面爬行完畢后，爬蟲再深入下一層繼續(xù)爬行。這種策略能夠有效控制頁(yè)面的爬行深度，避免遇到一個(gè)無(wú)窮深層分支時(shí)無(wú)法結(jié)束爬行的問(wèn)題，實(shí)現(xiàn)方便，無(wú)需存儲(chǔ)大量中間節(jié)點(diǎn)，不足之處在于需要較長(zhǎng)時(shí)間才能爬行到目錄層次較深的頁(yè)面。

五、網(wǎng)絡(luò)爬蟲的基本步驟

1、首先選取一部分種子URL；

2、將這些URL放入待抓取URL隊(duì)列；

3、從待抓取URL隊(duì)列中取出待抓取的URL,解析DNS，得到主機(jī)的IP，并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái)，存儲(chǔ)到已下載網(wǎng)頁(yè)庫(kù)中，此外，將這些URL放入已抓取URL隊(duì)列；

4、分析已抓取到的網(wǎng)頁(yè)內(nèi)容中的其他URL,并將URL放入待抓取URL隊(duì)列，從而進(jìn)入下一個(gè)循環(huán)。

六、網(wǎng)絡(luò)爬蟲的應(yīng)用場(chǎng)景

1、搜索引擎抓取網(wǎng)頁(yè)信息

大家常用的搜索引擎的首要工作流程就是利用網(wǎng)絡(luò)爬蟲去爬取各個(gè)網(wǎng)站的頁(yè)面。以百度蜘蛛為例，一旦有網(wǎng)站的頁(yè)面更新了，百度蜘蛛就會(huì)出動(dòng)，然后把爬取的頁(yè)面信息搬回百度，再進(jìn)行多次的篩選和整理。最終在大家搜索相關(guān)信息的時(shí)候，通過(guò)排名呈現(xiàn)給大家。可以說(shuō)，沒(méi)有網(wǎng)絡(luò)爬蟲，我們使用搜索引擎查詢資料的時(shí)候，就不會(huì)那么便捷、全面和高效。

2、爬取需要對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)

冷數(shù)據(jù)啟動(dòng)是豐富數(shù)據(jù)的主要工具，新業(yè)務(wù)開(kāi)始時(shí)，由于剛起步，所以沒(méi)有多少數(shù)據(jù)，此時(shí)就需要爬取其他平臺(tái)的數(shù)據(jù)來(lái)填充我們的業(yè)務(wù)數(shù)據(jù)。比如說(shuō)，如果我們想做一個(gè)類似大眾點(diǎn)評(píng)這樣的平臺(tái)，一開(kāi)始沒(méi)有商戶等信息，就需要去爬取大眾，美團(tuán)等商家的信息來(lái)填充數(shù)據(jù)，比如天眼查，企查查，西瓜數(shù)據(jù)等等。

3、出行類軟件通過(guò)爬蟲搶票

如果問(wèn)網(wǎng)絡(luò)爬蟲技術(shù)應(yīng)用最多的領(lǐng)域是什么？那一定是出行行業(yè)。相信每逢春運(yùn)或是節(jié)假日，大家都用過(guò)一些搶票的軟件，就為了獲得一張機(jī)票或者是一張火車票，而這種出行類軟件正是運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)來(lái)達(dá)到搶票的目的。像搶票軟件這樣的網(wǎng)絡(luò)爬蟲，會(huì)不停地爬取交通出行的售票網(wǎng)站，一旦有票就會(huì)點(diǎn)擊拍下來(lái)，放到自己的網(wǎng)站售賣。如果一定時(shí)間內(nèi)沒(méi)有人購(gòu)買，就會(huì)自動(dòng)退票。然后又通過(guò)網(wǎng)站爬蟲把票拍下來(lái)，到時(shí)間又繼續(xù)退票，如此反復(fù)循環(huán)。

4、聚合平臺(tái)整合信息進(jìn)行比較。

如今，出現(xiàn)了很多比價(jià)平臺(tái)、聚合電商還有返利平臺(tái)等，這類聚合平臺(tái)的本質(zhì)都是提供橫向數(shù)據(jù)比較，聚合服。比如說(shuō)電商中經(jīng)常需要有一種比價(jià)系統(tǒng)，從各大電商平臺(tái)，如拼多多，淘寶，京東等抓取同一個(gè)商品的價(jià)格信息，以給用戶提供最實(shí)惠的商品價(jià)格，這樣就需要利用網(wǎng)絡(luò)爬蟲從各大電商平臺(tái)爬取信息。

七、主流搜索引擎爬蟲介紹

1、BaiduSpider（百度蜘蛛）

常見(jiàn)的百度蜘蛛有：Baiduspider 和 Baiduspider-image（抓取圖片）。國(guó)內(nèi)網(wǎng)站大多數(shù)流量都來(lái)自百度，所以推薦放行。

百度還有其它幾個(gè)蜘蛛：

Baiduspider-video（抓取視頻）

Baiduspider-news（抓取新聞）

Baiduspider-mobile（抓取wap）

百度蜘蛛介紹：http://www.baidu.com/search/spider.html

2、Googlebot（谷歌蜘蛛）

常見(jiàn)的谷歌蜘蛛有：Googlebot，還有一個(gè) Googlebot-Mobile ，不是很常見(jiàn)，看名字應(yīng)該是抓取 wap 頁(yè)面的。世界第一大搜索引擎，推薦放行。

谷歌蜘蛛鏈接：http://www.google.com/bot.html

3、360Spider（360蜘蛛）

一個(gè)十分"勤奮抓爬"的蜘蛛。

360蜘蛛IP：https://www.so.com/help/spider_ip.html

4、Sogou web spider（搜狗蜘蛛）

搜狗公司還有其它幾個(gè)蜘蛛：Sogou News Spider、Sogou inst spider、Sogou spider2、Sogou blog、Sogou Orion spider、Sogou web spider。

搜狗蜘蛛爬蟲：http://www.sogou.com/docs/help/webmasters.htm

5、Bingbot（必應(yīng)蜘蛛）

必應(yīng)是微軟的搜索引擎，微軟的IE瀏覽器和Edge瀏覽器會(huì)默認(rèn)使用該搜索引擎，而且占有率也還可以，不建議屏蔽。

必應(yīng)蜘蛛爬蟲：http://www.bing.com/bingbot.htm

6、Sosospider（SOSO蜘蛛）

騰訊soso，目前搜狗公司管理。

soso蜘蛛爬蟲：http://help.soso.com/webspider.htm

7、Yahoo Slurp China（雅虎中國(guó)）或 Yahoo! Slurp（雅虎英文）

雅虎蜘蛛爬蟲：

雅虎中國(guó)：http://misc.yahoo.com.cn/help.html

雅虎英文：http://help.yahoo.com/help/us/ysearch/slurp

8、MSNBot，MSNot-media（MSN蜘蛛）

MSNBOT應(yīng)該是 bing 搜索的蜘蛛，MSN和bing是一家的，可以只保留 Bingbot。

MSN蜘蛛爬蟲：http://search.msn.com/msnbot.htm

9、YisouSpider（一搜蜘蛛/神馬搜索）

神馬搜索是UC和阿里2013年已經(jīng)成立合資公司推出的移動(dòng)搜索引擎。

該蜘蛛抓取頻率還是很高的，很多人并不看好，不過(guò)如果屏蔽的話，會(huì)損失 UC瀏覽器的流量來(lái)源。自己斟酌吧！

10、還有一些蜘蛛，不會(huì)給網(wǎng)站帶來(lái)什么流量，站長(zhǎng)看是否屏蔽。

YoudaoBot（有道蜘蛛）：網(wǎng)易有道的蜘蛛，并不會(huì)帶來(lái)流量。

JikeSpider（即刻蜘蛛）："即刻搜索"是由人民搜索網(wǎng)絡(luò)股份公司于2011年6月20日推出的通用搜索引擎平臺(tái)。

即刻蜘蛛：http://shoulu.jike.com/spider.html

ToutiaoSpider（頭條號(hào)）：今日頭條的頭條號(hào)蜘蛛，不能帶來(lái)流量，屏蔽好啦。

來(lái)源：http //web toutiao com/media_cooperation

除了上述的爬蟲，其他的就直接毫不猶豫的禁掉。

總結(jié)

優(yōu)化猩SEO：在信息大爆炸的時(shí)代，網(wǎng)絡(luò)爬蟲可以代替手工做很多事情，比如可以用于做搜索引擎，也可以爬取網(wǎng)站上面的圖片等，網(wǎng)絡(luò)爬蟲可以更高效率地利用好互聯(lián)網(wǎng)中的有效信息。

參考鏈接：

網(wǎng)絡(luò)爬蟲_百度百科

https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711

網(wǎng)絡(luò)爬蟲 - MBA智庫(kù)百科

https://wiki.mbalib.com/wiki/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB

2019年搜索引擎蜘蛛爬蟲名稱最新整理總匯-騰訊云

https://cloud.tencent.com/developer/article/1537951

網(wǎng)絡(luò)爬蟲是干什么的？有哪些應(yīng)用場(chǎng)景？-博學(xué)谷

https://www.boxuegu.com/news/3975.html

修改于2023-06-25

想了解更多SEO百科的內(nèi)容，請(qǐng)?jiān)L問(wèn)：SEO百科

本文來(lái)源：http://www.sherrygarden.cn/seojianzhan/17484.html

免責(zé)聲明：部分文章信息來(lái)源于網(wǎng)絡(luò)以及網(wǎng)友投稿，本網(wǎng)站只負(fù)責(zé)對(duì)文章進(jìn)行整理、排版、編輯，是出于傳遞更多信息之目的，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，不承擔(dān)任何法律責(zé)任。