基本流程
-
抓取網(wǎng)頁。每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序爬蟲(Spider)。爬蟲順著網(wǎng)頁中的超鏈接,從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站,通過超鏈接分析連續(xù)訪問抓取更多網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。
-
處理網(wǎng)頁。搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫和索引。其他還包括去除重復(fù)網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計(jì)算網(wǎng)頁的重要度/豐富度等。
-
提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會(huì)提供一段來自網(wǎng)頁的摘要以及其他信息。
搜索引擎的自動(dòng)信息搜集功能
-
提交網(wǎng)站搜索。站長(zhǎng)主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)定向向你的網(wǎng)站派出爬蟲,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫,以備用戶查詢。由于搜索引擎索引規(guī)則相對(duì)于過去已發(fā)生很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫,因此站長(zhǎng)應(yīng)該在網(wǎng)站內(nèi)容上多下功夫,并讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。
-
當(dāng)用戶以關(guān)鍵詞查找信息時(shí),搜索引擎會(huì)在數(shù)據(jù)庫中進(jìn)行搜尋,如果找到與用戶要求內(nèi)容相符的網(wǎng)站,便采用特殊的算法——通常根據(jù)網(wǎng)頁中關(guān)鍵詞的匹配程度,出現(xiàn)的位置、頻次,鏈接質(zhì)量等——計(jì)算出各網(wǎng)頁的相關(guān)度及排名等級(jí),然后根據(jù)關(guān)聯(lián)度高低,按順序?qū)⑦@些網(wǎng)頁鏈接返回給用戶。
Tips:我們想說的是您應(yīng)該將您優(yōu)化的重心和出發(fā)點(diǎn)主要放在用戶體驗(yàn)上,因?yàn)橛脩舨攀悄W(wǎng)站內(nèi)容的主要受眾,是他們通過搜索引擎找到了您的網(wǎng)站。過度專注于用特定的技巧獲取搜索引擎自然搜索結(jié)果的排名不一定能夠達(dá)到您想要的結(jié)果。