2015年8月23日 星期日

搜尋引擎抓取策略-如何避免重複性抓取

搜尋引擎抓取策略


如何避免重複性抓取

網站中資訊重複在所難免,怎麼讓搜尋引擎識別重複資訊呢?又怎麼判斷哪些是原創資訊?哪些是複製貼上的?那些雖然重複卻是有價值的?那些可直接捨棄不要的?

網站中重複資訊主要有轉載內容及鏡像內容。因為大量的重複資訊,不但佔用巨大的伺服器空間,更增加使用者尋找資訊的時間,降低使用者體驗,但不代表重複資訊都是沒有價值的。

重要程度:原創資訊>轉載資訊> 鏡像資訊 


轉載頁面:指與原創相同或相似的頁面。


搜尋引擎會將網頁內容分成N個區域並進行比較,如果其中有M個區域(搜尋引擎會指定比例)相同或相似,就會被判斷互為轉載頁面。接著,搜尋引擎會結合頁面最後修改時間(搜尋引擎在抓取頁面時就已經儲存附加資訊)、頁面權重等因素就可知誰是原創頁面、誰是轉載頁面了。

鏡像頁面:指與原創完全相同的頁面。


搜尋引擎會將網頁內容分成N區域進行比較,如果N區域的內容完全一樣,就會被判斷互為鏡像頁面。接著,一樣綜合其他因素(最後修改時間、頁面權重等)來識別哪個是源頁面、哪個是鏡像頁面了。


目的:搜尋引擎透過抓取時附加資訊(頁面權重、最後修改時間等等)來識別原創、轉載、鏡像。





每天學一點快樂輕鬆學~

「往上走的人沒時間往後看,因為你不會發現你們正在拉開差距。」

沒有留言:

張貼留言