2015年8月11日 星期二

搜尋引擎抓取策略-頁面抓取流程

搜尋引擎抓取策略


搜尋引擎實際上就是利用資料擷取程式在網路上進行資料擷取,至於擷取的能力直接取決了搜尋引擎可提供的訊息量及對網路的覆蓋範圍,進而影響查詢品質。所以我們可知各大搜尋引擎是卯足勁都要提高擷取的能力。

頁面抓取流程

在網路中,URL是每個頁面的入口位址,搜尋引擎網頁自動尋檢程式通過URL抓取到頁面的。

  1. 搜尋引擎網頁自動尋檢程式從原始URL列表出發。
  2. 通過URL抓取並儲存原始頁面;同時提取原始頁面中的URL並加入URL列表中。
  3. 如此不斷循環,就可以從網路中抓取足夠多的頁面。

 URL(頁面的入口),功能變數名稱(網站的入口)。
正常情況下自動尋檢程式會通過功能變數進入網站,在展開對網頁的抓取。
換句話說要讓程式擷取到頁面,必須建立一個足夠大的原始功能變數名稱列表,再透過變數名稱進入相應的網站,抓取網站中的頁面。

方法一:利用搜尋引擎提交功能變數名稱,此方法比較被動,收錄時間慢。
這邊提供讀者一些主流中文搜尋引擎的網站提交入口:GoogleBing百度360搜狗

方法二:通過與外部網站建立連結關係,使搜尋引擎透過外部網站發現我們的網站,進而對網站收錄。此方法比較主導權在我們(只要我們擁有足夠多的高品質連結即可),收錄時間較快(通常2~7天就會被搜尋引擎收錄)。


一句話只要有方法就得嘗試去做,畢竟SEO是需要不斷不斷調整達到效果的。
PS:這邊的目的就是頁面被抓取收錄!!




每天學一點快樂輕鬆學~

「往上走的人沒時間往後看,因為你不會發現你們正在拉開差距。」



沒有留言:

張貼留言