一樣令人印象深刻的機器學習和算法的情報,他們往往缺乏的東西是自然對人類:常識。
眾所周知,把同樣的內(nèi)容在多個頁面產(chǎn)生重復內(nèi)容。但如果你創(chuàng)建頁面類似的事情,與差異,重要嗎?算法國旗作為重復,盡管人類區(qū)分這樣的頁面沒有問題:
電子商務(wù):有多個變量的類似產(chǎn)品或關(guān)鍵的差異
旅游:酒店分支,目的地包具有類似內(nèi)容
分類:詳盡的列表相同的物品
業(yè)務(wù):頁面為當?shù)胤种г诓煌貐^(qū)提供同樣的服務(wù)
這是如何發(fā)生的?你怎么能發(fā)現(xiàn)問題?你可以做什么?
重復內(nèi)容的危險
重復內(nèi)容干擾你讓你的網(wǎng)站對搜索用戶可見的能力
虧損排名獨特的頁面,無意中爭奪相同的關(guān)鍵詞
無法排名頁面在一個集群中,因為谷歌選擇一個頁面作為一個規(guī)范
損失大量的薄內(nèi)容的網(wǎng)站的權(quán)威
機器識別重復內(nèi)容如何
谷歌使用算法來確定兩頁或部分頁面重復內(nèi)容,谷歌將其定義為內(nèi)容”明顯相似“.
谷歌的相似性檢測是基于他們的專利Simhash算法,分析的內(nèi)容在一個web頁面。然后計算每個塊的惟一標識符,并組成一個哈希表,或者“指紋”,為每一個頁面。
因為網(wǎng)頁的數(shù)量是巨大的,可伸縮性是關(guān)鍵。目前,Simhash是唯一可行的方法尋找大規(guī)模重復內(nèi)容。
Simhash指紋是:
便宜的來計算。它們是建立在單個頁面的抓取。
比較容易,多虧了他們的固定長度。
能找到復本。他們把頁面上的微小的變化等同于小散列的變化,與其他算法。
最后這意味著任何兩個指紋的區(qū)別可以測量算法表示為一個百分比。減少的成本評估每一兩頁,谷歌使用技術(shù),如:
集群:通過分組集足夠相似的頁面在一起,僅在一個集群中指紋需要相比,因為一切已經(jīng)被分類為不同的。
估計:特別大的集群,平均相似性應(yīng)用一定數(shù)量的指紋后對計算。
來源:Martech