通常,網(wǎng)站管理員會抱怨蜘蛛以304狀態(tài)獲取返回代碼,爬行次數(shù)越來越少。搜索引擎將盡最大努力提高檢索調(diào)用率、準(zhǔn)確性和新鮮度,以滿足自己的用戶體驗,這將導(dǎo)致搜索引擎不得不專注于具有高質(zhì)量內(nèi)容源的網(wǎng)站。只有這樣,搜索結(jié)果的質(zhì)量才能更符合搜索者的體驗
因此,我們認(rèn)為搜索引擎爬蟲更喜歡頻繁更新內(nèi)容源的網(wǎng)站。通過對在特定時間內(nèi)返回到網(wǎng)站的狀態(tài)代碼進行爬網(wǎng),可以調(diào)整網(wǎng)站的爬網(wǎng)頻率。如果站點在一段時間內(nèi)處于304狀態(tài),引擎爬蟲可能會減少其對站點的爬網(wǎng)次數(shù)。相反,如果網(wǎng)站變化很快,每個爬蟲都可以得到一個新版本,爬蟲的返回率會隨著時間的推移而增加
無論是少還是304,這都是現(xiàn)象,而不是問題的原因。我們能把網(wǎng)站的流量增加200嗎?相反,我們應(yīng)該考慮生產(chǎn)304的原因。變更對網(wǎng)站目標(biāo)有何影響?我們不能忽視一般目的。標(biāo)簽強調(diào)了過程的細(xì)節(jié),并解決了304/200
304的狀態(tài)是如何形成的
為了提高網(wǎng)站的訪問速度,服務(wù)器為一些以前訪問過的頁面建立了緩存機制。當(dāng)客戶端在此處請求這些頁面時,服務(wù)器將根據(jù)緩存的內(nèi)容判斷這些頁面是否相同。如果頁面相同,它將直接返回到304。此時,客戶端調(diào)用緩存的內(nèi)容,而不進行第二次調(diào)用。下載時,可以說304在一定程度上起到了減少服務(wù)器帶寬和提高爬行器爬行效率的作用
304為什么會生成狀態(tài)碼
頁面更新周期長或無更新
2。純靜態(tài)頁面或強制靜態(tài)HTML生成
304狀態(tài)處理方法
1。首先細(xì)分生成的304頁。什么樣的頁面返回304?如果這些頁面返回304
2。這些頁面是如何生成的?是否有更新機制?更新機制是否與蜘蛛爬行網(wǎng)站的頻率一致
3。頁面更新區(qū)域的位置是否合理?是否位于頁面主要內(nèi)容的托管區(qū)
4、304狀態(tài)碼過多可能導(dǎo)致以下問題:
停止網(wǎng)站快照
減少收集量
減輕重量
如何減少304返回碼
首先,內(nèi)容更新要迎合百度蜘蛛,分析日志,記錄蜘蛛訪問的時間,大致得到蜘蛛訪問的頻率。然后,根據(jù)以下內(nèi)容更新文章:原創(chuàng)+復(fù)制,而不是純粹的收藏。復(fù)制還需要新的優(yōu)質(zhì)資源,以便爬行器獲取,這將返回200多個普通代碼;其次,嘗試添加一個交互式部分。現(xiàn)在大型網(wǎng)站基本上都做到了這一點,比如評論、消息等等。大型網(wǎng)站的更新可能變化不大,但通過這些交互,用戶會發(fā)送一些內(nèi)容,網(wǎng)站會有很多新東西。