大家好,我是發(fā)菜,昨天跟大家分享了搜索引擎的基本工作原理,今天來講一下SPIDER的抓取策略。Spider又叫爬蟲、蜘蛛或者是機器人,它是在整個搜索引擎中的是第一個開始工作的程序,或者說是環(huán)節(jié),或工具。我們是只要是說spider能抓取到的url,才可能會參與排名。如果是你的網(wǎng)站沒有被Spider來抓取分析,那么你的網(wǎng)站在用戶進行關(guān)鍵詞搜索的時候就展現(xiàn)不出來。所以說了解Spider他的工作原理也是很重要的。Spider工作目的主要是抓取相關(guān)的網(wǎng)頁或者是url,建立索引并排名,這也是剛才我之前我跟大家說過的這個搜索引擎它的工作原理,其實Spider的主要是為這些接下來的環(huán)節(jié)做服務(wù)的。Spider是分為三類的,第一個是批量型的,這個批量型的Spider他類似于一種我們小型的搜索引擎的是Spider工具,批量的意思就是,按照一定的數(shù)量,他是被設(shè)置明確的抓取范圍和目標設(shè)置抓取時間的限制,抓取數(shù)據(jù)量的限制,要抓緊用一定的范圍頁面的限制等。類似我們?nèi)绻俏覀冏鲎约旱木W(wǎng)站我們需要了解到對方,我們的競爭對手他們的網(wǎng)站的相應(yīng)的情況。那么我們可以派出一個Spider,來抓去他們的網(wǎng)頁的信息。我們只是對這個網(wǎng)站,對相應(yīng)的關(guān)鍵詞的一個內(nèi)容的分布、連接的設(shè)置,還有相應(yīng)的代碼的編寫等等。這是批量型的Spider。另外一種的是增量型的,這個是應(yīng)用在就像百度谷歌這樣比較大型的搜索引擎。他們是對一個網(wǎng)站進行分析的時候,會從頭到尾把這個網(wǎng)站可以分析到的任何一個角落,任何一個部分都進行一個分析,直到完成任務(wù)為止,直到?jīng)]有內(nèi)容可抓取。我們一般情況研究的就是增量型的Spider。另外一個是垂直型的。就是介于剛才講到的兩種Spider之間的,他只是對某一類網(wǎng)站,假如我要搜相關(guān)的教育類的,那就只對教育的網(wǎng)站他進行相應(yīng)的分析,只抓取他們的內(nèi)容和URL,就是垂直型的。那么Spider就這三類。我們重點需要了解的就是,增量型的Spider。
下一個,我們就需要知道,Spider抓取策略。當搜索引擎派出Spider的時候,SPider面對一個網(wǎng)站,他想要抓取這個網(wǎng)站的相應(yīng)的關(guān)鍵詞,對應(yīng)的url,相應(yīng)的鏈接。那么他是用一個什么樣的方式來去爬取的?給它設(shè)置一個什么樣的策略,就像我們一個人,我們要去一個地方,是希望走著去呀,還是打車去,他都有相應(yīng)的策略的方法的。那么當Spider他們面臨面對一個網(wǎng)站的時候,通常他會有兩種選擇,也是會對網(wǎng)站,進行一個初步的判斷,是左還是向右呢?他會有兩種判斷,一個是深度優(yōu)先。給他的一個入口的時候,她選擇的一個行走的順序,這個網(wǎng)站,它是有一個Spider的入口,同時的有三個大的欄目,是一級的欄目,另外的還有二三四六七九十等三級的欄目,那Spider游走的順序的是先從這個入口進來,然后針對某一個欄目,對這一個欄目的所有的頁面,彈出相應(yīng)的鏈接的頁面,都會進行一查到底,就是等他把這個一級頁面進行分析了之后,他才會跳轉(zhuǎn)到下一個二級欄目,然后分析這個欄目的系列的子欄目,然后同時到?jīng)]有什么內(nèi)容可搜索,它會跳到另外一個大欄目。這是一個深度優(yōu)先的概念。另外一種的是廣度優(yōu)先。廣度優(yōu)先是以幾個大框架,同級別的進行抓取和分析。然后呢在進行下一級。雖然Spider是一個工具,但他是需要運行資源的,當面對他不可能把所有的網(wǎng)站都進行這樣的分析,所有的也不一定是用戶想要的那么他自己就會有一個判斷了。以上兩種方法,只是我們在理想中想象的到他按照這樣的兩種方法,其實他最主要的還是以上兩種策略,會進行一個判斷,是什么呢:重要頁面優(yōu)先抓取。其實這個是我們進行搜索引擎優(yōu)化的,最核心的工作。就是如何讓我們的網(wǎng)站,在百度這樣搜索引擎眼中是比較重要的,這里涉及到一個權(quán)重的問題,未來我會跟大家詳細的說,如何提高我們的網(wǎng)頁的權(quán)重。如果權(quán)重提高上去了,就意味著我們的網(wǎng)站相應(yīng)來說,在百度眼里它是有價值的,那他就會對我進行優(yōu)先的抓取。另外一個是大站優(yōu)先策略,相對來說知名度高,體驗比較好的,這些這些網(wǎng)站。對體驗比較好的一些網(wǎng)站就是用戶量比較高。用戶基本每日都有一定的流量,而且在搜索上知名度比較高的這樣的網(wǎng)站站。Spider都會進行優(yōu)先的收錄,這就是為什么那我們搜一個新聞的時候彈出來的時候都是那些比較出名,知名的一些網(wǎng)站,例如,網(wǎng)易新浪騰訊這樣的一些綜合門戶型的網(wǎng)站。因為這些網(wǎng)站都已經(jīng)被Spider列入比較優(yōu)質(zhì)的網(wǎng)站,然后對這些網(wǎng)站進行剛才像我所說的兩種策略進行分析。這就是整個的一個Spider它的工作原理。