2015年8月18日 星期二

搜尋引擎抓取策略-頁面抓取方式-暗網抓取-查詢組合

搜尋引擎抓取策略


暗網抓取

暗網(作深網、不可見網、隱藏網)是指那些儲存在網路資料庫裡、不能透過超連結存取而需要通過動態網頁技術或人工發起查詢造訪的資源集合,不屬於那些可以被標準搜尋引擎索引的資訊。

  --查詢組合--

暗網資料普遍存在於大型網站中,最常見的表現形式就是網站的搜尋功能(包含組合條件查詢及文字檢索)。

例如:旅遊網站的機票資料(雄獅旅遊)。若透過連結方式呈現資料量太巨大不現實,因此該類型網站通常會提供相應的搜尋功能,以便用戶能快速檢索個人化的需求資訊。

機票搜尋工具

網路上的暗網資料量是非常大的,並不是所有的暗網資料都有價值,這就要求搜尋引擎對特殊網頁自動檢索程式對這些暗網資料進行挖掘及識別了。

例如:人力資源網(104人力銀行)。若透過網頁自動檢索程式組合式查詢,對網站伺服器壓力一定不小。


職位搜尋工具

所以搜尋引擎通常的作法即是對可能有價值的資訊查詢準則進行組合,像主要條件(行業別、職位別、工作地點等)進行組合查詢即可找到該站的有價值資訊。


目的:知道暗網資料不太屬於那些標準搜尋索引資訊,盡量少用這種方式呈現!





每天學一點快樂輕鬆學~

「往上走的人沒時間往後看,因為你不會發現你們正在拉開差距。」


沒有留言:

張貼留言