之前看到搜索引擎原創識別與站內權重繼承算法解析這篇文章,寫的很好,但對于普通水平的同學來說很難理解,同時也有一部分算法未提及。
對于原創的識別上,原文提到的提取關鍵詞,然后運用md5或者頻率對比的方式是可以的,但實際運用起來可能效果不是很好。在搜索引擎對原創內容識別上,按照關鍵詞詞頻(TF)的比較閑的有些低級,應為內容太多,很容易出現誤判的情況。所以,還需要另一個指標來判斷。這種方法就是切片比較,按照固定步長對內容進行切片,比較其相似度,會更接近于真實結果。切片比較可以很好的識別段落打亂的偽原創手法。
頁面降噪技術搜索引擎使用的很廣泛,對于大部分標題+正文的內容,都可以用降噪技術來獲得接近于真實內容的內容。那么,我們在SEO中就需要在正文中間加入干擾因素來打斷搜索引擎的提詞、切片。加入的內容可以使錨文本鏈接、也可以使相關的一段話。同時,這種手法同樣可以打亂搜索引擎的向量化處理。
原文中還提高了站內權重繼承問題。站內的頁面權重繼承并非像原文作者說的那樣簡單,權重分配也并非簡單的平均分配。同時,為了防止一個網站通過短時間內大量制造內鏈來提高自身權重的問題,在站內權重傳遞過程中還會加入一個阻尼基數,這個阻尼基數一般為0.15。也就是說,如果一個頁面有一百個導出鏈接,會有其中的15個鏈接不會參與到權重的傳遞。按照鏈接出現的位置,各個位置的鏈接所獲得的權重繼承也不一樣;按照鏈接使用的標簽不同,各個鏈接所獲得的權重繼承也不一樣;按照不同的相關度,各個鏈接所獲得的權重繼承也不一樣。這里補充一點,對于某些位置的鏈接,可能會由于去噪或者阻尼基數優先剔除。
權重繼承算法是一個很復雜的公式,類似google pr計算公式。原文還提到了一個對于中文語法的應用。其實搜索引擎不會太多的關注中文語法,只需要找出停止詞就可以了,這里的停止詞,可以是任何詞性,也可以是任何語法單元。搜索引擎對于提取的詞都是作為名詞看待,而在詞義上偏褒義詞。因為用戶的搜索動作是中性的,并不會對搜索關鍵詞賦予感情色彩。或許未來會出現感情色彩搜索引擎,讓你選擇搜索時的情感狀態,在返回不同的結果,不過現在看來,似乎有些理想化了。
雖然搜索引擎不會區分詞性,但會區分語氣。因為語氣可以判斷用戶需求。當你搜索糖果時,搜索引擎無法判斷你是想找好吃的糖果,還是一個品牌,還是糖果的作用等等。但當你搜索什么糖果時,搜索引擎就可以判斷你的需求很強烈,也許你在找最好吃的糖果,也許是找最貴的糖果、也有可能是最難看的等等。
這里就比較難以理解,因為對“最好吃的糖果”這個詞來說,里面含有形容詞“好吃”,但前面我說了,搜索引擎不會區分詞性,只會區分語氣。這里的“最”也就代表了語氣,而“好吃”只是作為名詞來看待。大家可以百度“好糖果”和“好 糖果”,看看百度的結果,就可以發現這個問題了。排名靠前的,往往是帶有疑問語氣或者加重語氣的標題。
這次就寫到這吧,寫的有些亂,下次整理一下。同樣,也要申明一下,以上內容小部分為個人理解,大部分為別人分享的內容。有這方面興趣的朋友可以到微博找我:http://www.weibo.com/se6en
注:相關網站建設技巧閱讀請移步到建站教程頻道。