av网址免费在线_久精品免费动漫_国产精品日韩欧美色窝窝_久久综合九色综合视频网站

<pre id="kmrel"><tt id="kmrel"></tt></pre>

熱門推薦

一張圖淺析百度搜索引擎抓取頁面排名原理過程

閱讀數(shù)：時間：2016-09-09 來源：發(fā)菜管理系統(tǒng) 標(biāo)簽：搜索引擎排名百度排名優(yōu)化

搜索引擎（蜘蛛）是抓取來抓取網(wǎng)頁的，基礎(chǔ)流程或原理什么？

一張圖淺析百度搜索引擎抓取頁面排名原理過程

一、抓取

搜索引擎派出一個能夠在網(wǎng)上發(fā)現(xiàn)新網(wǎng)頁并抓文件的程序，這個程序通常形象的稱之為蜘蛛(Spider)。各大搜索引擎的蜘蛛都有自己的名稱，谷歌蜘蛛：Googlebot 百度蜘蛛：Baiduspider 360蜘蛛：360Spider 搜狗蜘蛛：Sogou web spiderSpider

首先順著網(wǎng)頁中的超鏈接、外鏈，從這個網(wǎng)站爬到另一個網(wǎng)站，去跟蹤網(wǎng)頁中的鏈接，從網(wǎng)頁發(fā)現(xiàn)并訪問更多的網(wǎng)頁，在互聯(lián)網(wǎng)中發(fā)現(xiàn)搜集大量的這些網(wǎng)頁信息，將網(wǎng)頁從互聯(lián)中搜集到自己的臨時數(shù)據(jù)庫中，這個過程稱為抓取。

蜘蛛抓取過程中，首先訪問到的是網(wǎng)站根目錄下的robots.txt文件，該文件是網(wǎng)站主設(shè)置蜘蛛抓取目錄權(quán)限的文件，所以特別重要，不能設(shè)置錯誤，把蜘蛛“拒之門外”就無法抓取了。另文說明robots.txt文件的詳細設(shè)置。

抓取的過程中，搜索引擎蜘蛛一般有兩種策略：深度抓取和廣度抓取

深度抓取是進入你的首頁，再到欄目頁A，接著抓取你的內(nèi)容頁抓取完了之后，再返回抓取并列的欄目頁B，再到下面的內(nèi)容頁。

廣度抓取是先抓取首頁，再抓取各個欄目頁，最后抓取各欄目下的內(nèi)容頁。

通常老站多是深度抓取，因為欄目相對固定了；新站多是廣度抓緊，蜘蛛以判斷該站的分類目錄和網(wǎng)站的主題內(nèi)容。

建站時注意：不利于蜘蛛抓取識別的內(nèi)容

1.網(wǎng)站使用js，flash，iframe框架(層級多），鑲嵌table，需要登錄后的頁面都是不利于蜘蛛抓取的，應(yīng)該盡量避免。

2.圖片太多（加alt屬性輔佐識別）

3.服務(wù)器保持穩(wěn)定，別三天兩頭網(wǎng)站打不開，那就什么也不用玩了。

二、分析過濾

為了避免重復(fù)爬行和抓取網(wǎng)址，造成太多垃圾，從而影響用戶體驗，搜索引擎在抓取之后會通過各種算法對所有的網(wǎng)頁進行過濾，過濾一些作弊的網(wǎng)站，如低質(zhì)量的內(nèi)容頁面，或內(nèi)容非法的，或是大量采集的，文不對題，對用戶沒有價值的內(nèi)容進行降權(quán)和摒棄，提取展示優(yōu)質(zhì)的網(wǎng)站和信息頁面進入數(shù)據(jù)庫。

三、存儲庫索引

搜索引擎會對信息進行有質(zhì)量提取和組織建立索引庫，當(dāng)有用戶搜索哪個關(guān)鍵詞時，搜索只需要在存儲索引數(shù)據(jù)庫中進行查找。

眾所周知，搜索引擎的索引庫是分層級的，優(yōu)質(zhì)的網(wǎng)頁會被分配到重要索引庫，普通網(wǎng)頁會待在普通庫，再差一些的網(wǎng)頁會被分配到低級庫去當(dāng)補充材料。目前60%的檢索需求只調(diào)用重要索引庫即可滿足，這也就解釋了為什么有些網(wǎng)站的收錄量超高流量卻一直不理想。

　　那么，哪些網(wǎng)頁可以進入優(yōu)質(zhì)索引庫呢。其實總的原則就是一個：對用戶的價值。包括卻不僅于：

　　1，有時效性且有價值的頁面：在這里，時效性和價值是并列關(guān)系，缺一不可。有些站點為了產(chǎn)生時效性內(nèi)容頁面做了大量采集工作，產(chǎn)生了一堆無價值面頁，也是百度不愿看到的.

　　2，內(nèi)容優(yōu)質(zhì)的專題頁面：專題頁面的內(nèi)容不一定完全是原創(chuàng)的，即可以很好地把各方內(nèi)容整合在一起，或者增加一些新鮮的內(nèi)容，比如觀點和評論，給用戶更豐富全面的內(nèi)容。

　　3，高價值原創(chuàng)內(nèi)容頁面：百度把原創(chuàng)定義為花費一定成本、大量經(jīng)驗積累提取后形成的文章。千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)。

　　4，重要個人頁面：這里僅舉一個例子，科比在新浪微博開戶了，需要他不經(jīng)常更新，但對于百度來說，它仍然是一個極重要的頁面。

四、展示排名

數(shù)據(jù)抓取過慮完畢，接下來要做的就是排名了。那么在數(shù)以億為單位的網(wǎng)頁庫中查找特定的某些關(guān)鍵詞猶如大海里面撈針，這么龐大的數(shù)據(jù)里也許花的時間得很長才可以完成查找，但是用戶等不起，從用戶體驗角度我們必須在毫秒級別給予用戶滿意的結(jié)果，否則用戶只能流失。怎樣才能達到這種要求呢？其實百度在建立索引庫時，就已經(jīng)把排名排好了。主要機制是：根據(jù)用戶搜索詞進行分詞，分詞都有一個頁面庫，當(dāng)用戶搜索到這個詞時就直接從這個頁面庫里尋找，從而快速展現(xiàn)在網(wǎng)民面前。頁面庫里會根據(jù)詞熱度、新的頁面加入等因素進行重新排名，當(dāng)然這個更新有一定的時間，并不是實時的每分每秒的更新。所以，新站即使被收錄了，也不能馬上有排名；網(wǎng)站被K排名倒時掉得快，哈哈。還有，如果網(wǎng)站更換了關(guān)鍵詞，用老關(guān)鍵詞搜索，還是會展現(xiàn)出來的，直到該搜索詞里的索引庫更新。

總面言之：

當(dāng)我們在搜索引擎看到的只是一結(jié)果，搜索引擎會根據(jù)信息的有效性，原創(chuàng)性和信息的認(rèn)可度，網(wǎng)站自身權(quán)重等綜合算法給于相應(yīng)的排名顯示，對搜索用戶的搜索做統(tǒng)計，最后根據(jù)該用戶搜索習(xí)慣給出相應(yīng)結(jié)果。

上篇：暫無

下篇：百度官方解釋網(wǎng)站不收錄原因分析

推薦文章/ Related products

最新案例/ LATEST CASES

發(fā)菜網(wǎng)絡(luò)工作室外貿(mào)建站專注企業(yè)外貿(mào)網(wǎng)站設(shè)計制作

提供專業(yè)的外貿(mào)網(wǎng)站設(shè)計、小語種站群、Google ADS推廣、谷歌SEO優(yōu)化、AI大數(shù)據(jù)營銷、SNS社媒營銷

©發(fā)菜工作室® 版權(quán)所有客戶管理系統(tǒng)企業(yè)建站外貿(mào)建站公司官網(wǎng) 備案號：粵ICP備16047914號技術(shù)支持：廣州發(fā)菜工作室文章標(biāo)簽 SiteMap.xml

X

微信咨詢

截屏，微信識別二維碼

微信號：gdfacai

（點擊微信號復(fù)制，添加好友）

微信號已復(fù)制，請打開微信添加咨詢詳情！

關(guān)注我們

網(wǎng)站需求