大家知道,網(wǎng)站是經(jīng)常會更新的,搜索引擎為了讓用戶得到最新的搜索結果,也會派Spider進行更新的爬行的,這就需要我們了解Spider再次抓取的更新內(nèi)容策略。在有限的資源的情況下,搜索引擎首先要保證部分網(wǎng)頁索引的更新。這部分網(wǎng)頁的,擁有大部分的用戶所需要的內(nèi)容。同時呢也要保證所有搜索頁面,所有的頁面都有一個更新的機制。在這個網(wǎng)頁上需要先用的新的內(nèi)容索引時的SPIDER就要進行再次的抓緊并更新網(wǎng)頁索引。但是我們需要了解的事就是Spider再次抓取更新的策略有哪些。其實很簡單,他主要是包含了四個方面的內(nèi)容。
一、用戶體驗。因為我們都知道用戶當他在使用一個搜索引擎進行搜索相關的內(nèi)容的時候,他的行為也會同時反饋給搜索引擎。比如說,我是第一次搜索手機,讓他彈出來相關的頁面。針對返回的內(nèi)容,我點擊的內(nèi)容是什么?如果我點擊的頁面是第一頁的第五項,第五個網(wǎng)頁,那么很有可能第五個網(wǎng)頁他在下次進行抓取的時候,給它返回的內(nèi)容就會靠前。這也是根據(jù)不同的用戶他們總體的一個體驗的效果,然后呢告訴搜索引擎。有搜索引擎進行分析最后進行排名。當用戶在進一次再進行或者以后再進行,搜索引擎進行相關關鍵詞的搜索的時候,彈出的頁面,很可能就是根據(jù)之前用戶1到用戶N,他們之前用戶體驗得到的結果。這就是剛才說的用戶體驗對Spider再次抓取的一個影響。
二、歷史更新頻率。我們都知道一般的網(wǎng)站,它的內(nèi)容都會進行更新的。Spider也會關注相應的網(wǎng)站。他也會得出一個結論,比如說,新浪基本都是實時更新的,那他抓緊的頻率可能就會很快,而且新浪的權重比較高,那么在抓取的時候可能次數(shù)就比較多。但是有的網(wǎng)站,假如說。第一天更新了一次。然后隔著十天更新了一次,再過十天更新了一次,那么Spider,可能就會認為。他的平均更新的頻率是十天更新一次,那么可能Spider在前期對他進行觀察,就給它定義為十天更新一次來十天進行一次抓取。如果是某些網(wǎng)站更新頻率很高,那么可能再次抓取的頻率就更高了。如果一個網(wǎng)站不經(jīng)常更新,Spider的抓取頻率就更低。如果你的網(wǎng)站不經(jīng)常更新的話??赡芟嚓P的關鍵詞,用戶在搜索的時候就不能把你搜到,這也是,會影響整個你網(wǎng)站產(chǎn)品對用戶的一個體驗的問題,就是涉及到歷史更新的頻率。
另外一個比較重要的是網(wǎng)頁的類型,我們都知道一個網(wǎng)站是包含大概四個部分:首頁、目錄頁、專題頁和文章頁。首頁目錄頁,我就不用多說,進入一個網(wǎng)站的時候,給我們最開始展示出來的頁面。那么專題頁和文章頁有的時候,網(wǎng)上會針對相關的實效性作出相關的專題頁,例如說如果是在高考臨近的時候,網(wǎng)站可能會推出相關針對高考的專題,然后下設很多文章。專題頁對應著文章頁,他們基本是很多情況他們是屬于一個從屬的關系的。Spider在抓取的時候,他會根據(jù)你這個網(wǎng)頁再整個網(wǎng)站中的重要性,比如首頁和目錄頁,它的重要性是由于高于專題頁和文章頁的。Spider再次抓取的時候可能直接從首頁和目錄頁抓取。那么頻率就會相對于來說高一些。
還有一個就是網(wǎng)頁權重,在很多的時候都會說到網(wǎng)頁權重,也是我跟大家說的是比較重要的一點內(nèi)容。網(wǎng)頁權重基本是可以決定你這個網(wǎng)站的生死,我們做的很多的努力其實都是為了提高我們的網(wǎng)頁的排名。當很多綜合因素都一致的時候你的網(wǎng)頁的權重會起到最后的決定作用。那么只有四個字可以說:非常重要。用戶在搜索引擎在眾多網(wǎng)站中能把你搜到。當很多競爭的,網(wǎng)站,跟你采取的機制和你采取的SEO都一樣的時候,最后決定你這個網(wǎng)站排名能否靠前,除了做競價排名,另外一個就是你的網(wǎng)站的權重。
OK,以上就是我對SPider再次抓取的時候更新策略,他跟初次抓取的時候是。有很大的區(qū)別的,這里體現(xiàn)到了一個用戶體驗,另外一個是根據(jù)這個網(wǎng)站他歷史更新內(nèi)容的一個頻率,還有一個網(wǎng)站上的頁面相關的類型。最后一個起決定作用的,有可能是網(wǎng)站網(wǎng)頁的權重。綜合以上四點來決定Spider再次抓取這個網(wǎng)頁網(wǎng)站的策略。