抓取診斷是什么?詳解百度抓取診斷工具的使用方法、作用及常見(jiàn)問(wèn)題
一、抓取診斷是什么
抓取診斷工具,可以讓站長(zhǎng)從百度蜘蛛的視角查看抓取內(nèi)容,自助診斷百度蜘蛛看到的內(nèi)容,和預(yù)期是否一致。每個(gè)站點(diǎn)每周可使用70次,抓取結(jié)果只展現(xiàn)百度蜘蛛可見(jiàn)的前200KB內(nèi)容。是SEO優(yōu)化師常用的百度官方工具之一。
二、百度抓取診斷工具的使用方法
1、登陸百度搜索資源平臺(tái),然后從" 搜索服務(wù)"找到" 抓取診斷"點(diǎn)擊進(jìn)入,百度抓取診斷工具入口鏈接為:https://ziyuan.baidu.com/crawltools/index。
*百度抓取診斷工具截圖
2、將要診斷的網(wǎng)站填入輸入框然后點(diǎn)擊" 抓取"按鈕進(jìn)行抓取,比如要診斷的鏈接為" http://www.sherrygarden.cn/baiduseo/",那么輸入" baiduSEO/"即可,抓取診斷還提供了PC和移動(dòng)端的選項(xiàng),如果你的鏈接是PC端的就選PC,如果你的鏈接是移動(dòng)端的就選移動(dòng),如果你的H5自適應(yīng)網(wǎng)站,那么選兩個(gè)都可以。
3、抓取診斷工具抓取時(shí)間也就幾秒返回抓取結(jié)果,等返回抓取結(jié)果后,可以點(diǎn)擊抓取狀態(tài)的"抓取成功"或"抓取失敗"進(jìn)行抓取內(nèi)容分析,尤其是抓取失敗的時(shí)候,看看具體是什么原因?qū)е伦ト∈ ?
三、抓取診斷工具的作用
目前抓取診斷工具有如下作用:
1、讓站長(zhǎng)從百度蜘蛛的視角查看抓取內(nèi)容,自助診斷百度蜘蛛看到的內(nèi)容和預(yù)期是否一致。譬如很多商品詳情頁(yè)面,價(jià)格信息是通過(guò)JavaScript輸出的,對(duì)百度蜘蛛不友好,價(jià)格信息較難在搜索中應(yīng)用。問(wèn)題修正后,可用診斷工具再次抓取檢驗(yàn)。
*百度Spider抓取結(jié)果及頁(yè)面信息示例(圖1)
2、診斷網(wǎng)頁(yè)是否被加了黒鏈、隱藏文本。網(wǎng)站如果被黑,可能被加上隱藏的鏈接,這些鏈可能只在百度抓取時(shí)才出現(xiàn),需要用此抓取工具診斷。
3、檢查網(wǎng)站與百度的連接是否暢通,若是IP信息不一致,可以報(bào)錯(cuò)通知百度更新IP。
*百度Spider抓取結(jié)果及頁(yè)面信息示例(圖2)
四、抓取失敗的原因與分析
1、網(wǎng)址url不規(guī)范
百度支持抓取的url長(zhǎng)度不超過(guò)1024,如果您的鏈接長(zhǎng)度過(guò)長(zhǎng),請(qǐng)?jiān)诒WC正常訪問(wèn)的情況下,適當(dāng)精簡(jiǎn),保證鏈接能被百度正常抓取和收錄。
2、網(wǎng)站重定向錯(cuò)誤
重定向是指百度spider訪問(wèn)鏈接時(shí)發(fā)生了跳轉(zhuǎn),如果跳轉(zhuǎn)后的鏈接超長(zhǎng)或者連續(xù)跳轉(zhuǎn)的次數(shù)超過(guò)5次,就會(huì)發(fā)生重定向錯(cuò)誤而導(dǎo)致抓取失敗。
3、服務(wù)器連接錯(cuò)誤
這種情況是指,由于服務(wù)器響應(yīng)過(guò)慢或您的網(wǎng)站屏蔽了百度spider,而導(dǎo)致百度無(wú)法訪問(wèn)您的網(wǎng)站。從而會(huì)導(dǎo)致百度無(wú)法正常收錄或者更新您網(wǎng)站的內(nèi)容。您可能看到以下具體錯(cuò)誤:連接超時(shí)、連接失敗、連接被拒、無(wú)響應(yīng)、響應(yīng)遭到截?cái)?、連接重置、標(biāo)頭遭到截?cái)?、超時(shí)。
4、網(wǎng)站啟用了robots封禁
在抓取診斷工具中如果返回的抓取失敗結(jié)論是robots封禁,請(qǐng)確認(rèn)您是否對(duì)該網(wǎng)址設(shè)置了robots,阻止百度spider抓取網(wǎng)站的某些內(nèi)容,如果您未使用robots文件屏蔽百度,請(qǐng)點(diǎn)擊旁邊的報(bào)錯(cuò)鏈接,百度會(huì)立即更新您站點(diǎn)的robots信息;如果是您的誤操作導(dǎo)致了封禁,請(qǐng)及時(shí)修改robots文件,避免造成您的網(wǎng)站在百度收錄量和流量的下降。
5、服務(wù)器DNS錯(cuò)誤
DNS錯(cuò)誤是指由于服務(wù)器停止運(yùn)行或DNS到您網(wǎng)域的路由存在問(wèn)題,導(dǎo)致百度spider無(wú)法與DNS服務(wù)器通信。
如何處理DNS錯(cuò)誤?
確保百度能夠抓取您的網(wǎng)站。對(duì)重要網(wǎng)頁(yè)(例如您的首頁(yè))采用抓取診斷工具,如果它能順利返回您的首頁(yè)內(nèi)容,那么您就可以認(rèn)為百度能夠正常訪問(wèn)您的網(wǎng)站。
對(duì)于持續(xù)的或反復(fù)出現(xiàn)的DNS錯(cuò)誤,請(qǐng)與您的DNS提供商聯(lián)系。通常情況下,您的DNS提供商即為網(wǎng)站托管服務(wù)提供商。
配置您的服務(wù)器,使其能夠以404或500等HTTP錯(cuò)誤代碼對(duì)不存在的主機(jī)名作出響應(yīng)。
6、網(wǎng)頁(yè)404錯(cuò)誤
一般情況下,當(dāng)百度spider訪問(wèn)到不存在的網(wǎng)頁(yè)(因?yàn)槟鷦h除或重命名了網(wǎng)頁(yè)且沒(méi)有將舊網(wǎng)址重定向到新網(wǎng)頁(yè),或者鏈接中存在拼寫錯(cuò)誤)時(shí),就會(huì)出現(xiàn)"未找到"狀態(tài)錯(cuò)誤(通常是404 HTTP狀態(tài)代碼)。
詳細(xì)介紹請(qǐng)查看:404錯(cuò)誤。
7、百度蜘蛛訪問(wèn)遭拒絕
一般情況下,百度會(huì)通過(guò)跟蹤網(wǎng)頁(yè)間的鏈接來(lái)查找內(nèi)容。百度spider必須能夠訪問(wèn)某個(gè)網(wǎng)頁(yè)才能抓取該網(wǎng)頁(yè)。如果您意外地看到了"訪問(wèn)遭拒"錯(cuò)誤,可能是由于以下幾種原因?qū)е碌模?
(1)百度spider無(wú)法訪問(wèn)您網(wǎng)站上的網(wǎng)址,因?yàn)槟W(wǎng)站上的所有或部分內(nèi)容要求用戶登錄后才能查看。
(2)您的服務(wù)器要求用戶使用代理進(jìn)行身份驗(yàn)證,或者您的托管服務(wù)提供商阻止百度spider訪問(wèn)您的網(wǎng)站。
8、參數(shù)錯(cuò)誤
由于請(qǐng)求的語(yǔ)法格式有誤,不符合服務(wù)器對(duì)請(qǐng)求的某些限制,或者請(qǐng)求本身存在一定的錯(cuò)誤,服務(wù)器無(wú)法理解此請(qǐng)求,導(dǎo)致抓取失敗。
9、socket讀寫錯(cuò)誤
當(dāng)百度spider訪問(wèn)服務(wù)器,進(jìn)行tcp通信的時(shí)候,socket讀寫發(fā)生異常,導(dǎo)致數(shù)據(jù)不能正常返回。請(qǐng)檢查服務(wù)器連接狀況和防火墻設(shè)置是否符合預(yù)期。
10、讀取http頭或者頁(yè)面內(nèi)容時(shí)失敗
您的服務(wù)器收到了我們的完整請(qǐng)求,但是返回信息時(shí)不完整,http頭或者響應(yīng)正文發(fā)生了截?cái)啵瑢?dǎo)致網(wǎng)頁(yè)內(nèi)容不能正常讀取。
五、抓取診斷工具常見(jiàn)問(wèn)答
1、百度抓取診斷是否有助于收錄?
優(yōu)化猩SEO從實(shí)測(cè)觀察來(lái)看,使用抓取診斷工具似乎對(duì)百度收錄沒(méi)有太多的影響,未收錄的頁(yè)面提交多次也還是未收錄。但在與同行的交流中發(fā)現(xiàn),有SEOer認(rèn)為抓取工具對(duì)百度快照更新會(huì)產(chǎn)生一定的影響。
2、抓取失敗對(duì)網(wǎng)站有哪些影響
對(duì)于大量?jī)?nèi)容無(wú)法正常抓取的網(wǎng)站,搜索引擎會(huì)認(rèn)為網(wǎng)站存在用戶體驗(yàn)上的缺陷,并降低對(duì)網(wǎng)站的評(píng)價(jià),在抓取、索引、權(quán)重上都會(huì)受到一定程度的負(fù)面影響,最終影響到網(wǎng)站從百度獲取的流量。
總結(jié)
優(yōu)化猩SEO:百度抓取診斷工具最大的好處就是讓站長(zhǎng)從百度蜘蛛的視角查看抓取內(nèi)容,從而診斷百度蜘蛛看到的內(nèi)容和預(yù)期是否一致,如果與預(yù)期不一致,那么就可以從抓取報(bào)告中找到不一致的地方,從而進(jìn)行網(wǎng)頁(yè)優(yōu)化處理。
參考鏈接:
平臺(tái)工具使用手冊(cè)_抓取診斷_百度搜索資源平臺(tái)
https://ziyuan.baidu.com/college/courseinfo?id=267&page=10
抓取診斷工具上線_百度搜索資源平臺(tái)
想了解更多SEO百科的內(nèi)容,請(qǐng)?jiān)L問(wèn):SEO百科