從搜索引擎角度分析網(wǎng)頁蜘蛛抓取內(nèi)容的類別與過程
從搜索引擎的角度來看,互聯(lián)網(wǎng)上的網(wǎng)頁主要分為四類,即被抓取的網(wǎng)頁、被抓取的內(nèi)容、可抓取的網(wǎng)頁和暗網(wǎng)。
顧名思義,爬網(wǎng)網(wǎng)頁是蜘蛛已經(jīng)爬網(wǎng)的網(wǎng)頁內(nèi)容。要爬網(wǎng)的網(wǎng)頁尚未爬網(wǎng),但已進(jìn)入等待列表。爬行是一個尚未被發(fā)現(xiàn)但已經(jīng)存在的網(wǎng)頁。暗網(wǎng)是一個網(wǎng)頁,搜索引擎無法通過自爬網(wǎng)找到一個鏈接,需要手動提交。
平時(shí)我們分析的頁面抓取主要是非黑網(wǎng)絡(luò)中的頁面抓取。每個搜索引擎在黑暗的網(wǎng)絡(luò)抓取都有自己獨(dú)到的算法。我們不做太多分析。
搜索引擎收錄有兩種主要策略,即廣度優(yōu)先策略和深度優(yōu)先策略。
大多數(shù)網(wǎng)頁除了有自己的鏈接外,還會有很多鏈接,如相關(guān)新聞、相關(guān)案例和其他詳細(xì)信息頁面的鏈接。當(dāng)一個搜索引擎訪問一個頁面時(shí),頁面上的所有鏈接都將被存儲并按順序排列,然后遍歷并抓取發(fā)現(xiàn)的頁面,然后將新發(fā)現(xiàn)的URL放入存儲并按此邏輯排列等待抓取,抓取是廣度優(yōu)先的策略。讓我們用圖片和文字來了解自己。
根據(jù)頁面的一個鏈接,我們可以逐層抓取它,直到到達(dá)鏈接的末尾,然后返回到初始位置,以同樣的方式抓取其余的鏈接,這是深度優(yōu)先的策略。
無論是廣度優(yōu)先還是深度優(yōu)先,搜索引擎只要有足夠的時(shí)間就可以捕獲所有的頁面,但搜索引擎的抓取能量是優(yōu)先的,這不能保證抓取頁面的全面性。由于搜索引擎受到自身資源的限制,它們不能忽視獲取頁面優(yōu)先級的問題。還有另外兩種搶奪策略。
判斷網(wǎng)頁的重要性,搜索引擎主要從自身的質(zhì)量和權(quán)重來判斷。另一個重要因素是導(dǎo)入鏈接的數(shù)量。例如,主頁的導(dǎo)入鏈接必須從頁數(shù)開始,因此主頁的優(yōu)先級相對較高。
很明顯,大網(wǎng)站的優(yōu)先權(quán)是一組搜索者對大網(wǎng)站有偏好,并且他們自己的權(quán)重相對較高。這里的不僅在于PR,還在于信任。并不是說人的力量很大,而且權(quán)重也很高,搜索引擎很喜歡。很多B2B網(wǎng)站的內(nèi)容量很大,但是搜索引擎不擅長抓取頁面內(nèi)容,相對來說,一些比較好的網(wǎng)站可以有很好的主動性,所以新聞可以增加主動性,而且在發(fā)送到大站的主頁時(shí)也可以實(shí)現(xiàn)二次接收。
總之,搜索引擎的資源是有限的。在搜索引擎資源有限的情況下,我們應(yīng)該盡可能依靠外部鏈接來引導(dǎo)蜘蛛,提高網(wǎng)站的權(quán)重,這是SEO搜索引擎優(yōu)化長期運(yùn)行中很重要的事情。
想了解更多SEO技術(shù)的內(nèi)容,請?jiān)L問:SEO技術(shù)