搜索引擎(蜘蛛)是抓取來抓取網(wǎng)頁的,基礎(chǔ)流程或原理什么?
一、抓取
搜索引擎派出一個能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序,這個程序通常形象的稱之為蜘蛛(Spider)。各大搜索引擎的蜘蛛都有自己的名稱,谷歌蜘蛛:Googlebot 百度蜘蛛:Baiduspider 360蜘蛛:360Spider 搜狗蜘蛛:Sogou web spiderSpider
首先順著網(wǎng)頁中的超鏈接、外鏈,從這個網(wǎng)站爬到另一個網(wǎng)站,去跟蹤網(wǎng)頁中的鏈接,從網(wǎng)頁發(fā)現(xiàn)并訪問更多的網(wǎng)頁,在互聯(lián)網(wǎng)中發(fā)現(xiàn)搜集大量的這些網(wǎng)頁信息,將網(wǎng)頁從互聯(lián)中搜集到自己的臨時數(shù)據(jù)庫中,這個過程稱為抓取。
蜘蛛抓取過程中,首先訪問到的是網(wǎng)站根目錄下的robots.txt文件,該文件是網(wǎng)站主設(shè)置蜘蛛抓取目錄權(quán)限的文件,所以特別重要,不能設(shè)置錯誤,把蜘蛛“拒之門外”就無法抓取了。另文說明robots.txt文件的詳細設(shè)置。
抓取的過程中,搜索引擎蜘蛛一般有兩種策略:深度抓取和廣度抓取
深度抓取是進入你的首頁,再到欄目頁A,接著抓取你的內(nèi)容頁抓取完了之后,再返回抓取并列的欄目頁B,再到下面的內(nèi)容頁。
廣度抓取是先抓取首頁,再抓取各個欄目頁,最后抓取各欄目下的內(nèi)容頁。
通常老站多是深度抓取,因為欄目相對固定了;新站多是廣度抓緊,蜘蛛以判斷該站的分類目錄和網(wǎng)站的主題內(nèi)容。
建站時注意:不利于蜘蛛抓取識別的內(nèi)容
1.網(wǎng)站使用js,flash,iframe框架(層級多),鑲嵌table,需要登錄后的頁面都是不利于蜘蛛抓取的,應(yīng)該盡量避免。
2.圖片太多(加alt屬性輔佐識別)
3.服務(wù)器保持穩(wěn)定,別三天兩頭網(wǎng)站打不開,那就什么也不用玩了。
二、分析過濾
為了避免重復(fù)爬行和抓取網(wǎng)址,造成太多垃圾,從而影響用戶體驗,搜索引擎在抓取之后會通過各種算法對所有的網(wǎng)頁進行過濾,過濾一些作弊的網(wǎng)站,如低質(zhì)量的內(nèi)容頁面,或內(nèi)容非法的,或是大量采集的,文不對題,對用戶沒有價值的內(nèi)容進行降權(quán)和摒棄,提取展示優(yōu)質(zhì)的網(wǎng)站和信息頁面進入數(shù)據(jù)庫。
三、存儲庫索引
搜索引擎會對信息進行有質(zhì)量提取和組織建立索引庫,當(dāng)有用戶搜索哪個關(guān)鍵詞時,搜索只需要在存儲索引數(shù)據(jù)庫中進行查找。
眾所周知,搜索引擎的索引庫是分層級的,優(yōu)質(zhì)的網(wǎng)頁會被分配到重要索引庫,普通網(wǎng)頁會待在普通庫,再差一些的網(wǎng)頁會被分配到低級庫去當(dāng)補充材料。目前60%的檢索需求只調(diào)用重要索引庫即可滿足,這也就解釋了為什么有些網(wǎng)站的收錄量超高流量卻一直不理想。
那么,哪些網(wǎng)頁可以進入優(yōu)質(zhì)索引庫呢。其實總的原則就是一個:對用戶的價值。包括卻不僅于:
1,有時效性且有價值的頁面:在這里,時效性和價值是并列關(guān)系,缺一不可。有些站點為了產(chǎn)生時效性內(nèi)容頁面做了大量采集工作,產(chǎn)生了一堆無價值面頁,也是百度不愿看到的.
2,內(nèi)容優(yōu)質(zhì)的專題頁面:專題頁面的內(nèi)容不一定完全是原創(chuàng)的,即可以很好地把各方內(nèi)容整合在一起,或者增加一些新鮮的內(nèi)容,比如觀點和評論,給用戶更豐富全面的內(nèi)容。
3,高價值原創(chuàng)內(nèi)容頁面:百度把原創(chuàng)定義為花費一定成本、大量經(jīng)驗積累提取后形成的文章。千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)。
4,重要個人頁面:這里僅舉一個例子,科比在新浪微博開戶了,需要他不經(jīng)常更新,但對于百度來說,它仍然是一個極重要的頁面。
四、展示排名
數(shù)據(jù)抓取過慮完畢,接下來要做的就是排名了。那么在數(shù)以億為單位的網(wǎng)頁庫中查找特定的某些關(guān)鍵詞猶如大海里面撈針,這么龐大的數(shù)據(jù)里也許花的時間得很長才可以完成查找,但是用戶等不起,從用戶體驗角度我們必須在毫秒級別給予用戶滿意的結(jié)果,否則用戶只能流失。怎樣才能達到這種要求呢?其實百度在建立索引庫時,就已經(jīng)把排名排好了。主要機制是:根據(jù)用戶搜索詞進行分詞,分詞都有一個頁面庫,當(dāng)用戶搜索到這個詞時就直接從這個頁面庫里尋找,從而快速展現(xiàn)在網(wǎng)民面前。頁面庫里會根據(jù)詞熱度、新的頁面加入等因素進行重新排名,當(dāng)然這個更新有一定的時間,并不是實時的每分每秒的更新。所以,新站即使被收錄了,也不能馬上有排名;網(wǎng)站被K排名倒時掉得快,哈哈。還有,如果網(wǎng)站更換了關(guān)鍵詞,用老關(guān)鍵詞搜索,還是會展現(xiàn)出來的,直到該搜索詞里的索引庫更新。
總面言之:
當(dāng)我們在搜索引擎看到的只是一結(jié)果,搜索引擎會根據(jù)信息的有效性,原創(chuàng)性和信息的認(rèn)可度,網(wǎng)站自身權(quán)重等綜合算法給于相應(yīng)的排名顯示,對搜索用戶的搜索做統(tǒng)計,最后根據(jù)該用戶搜索習(xí)慣給出相應(yīng)結(jié)果。