最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

偽原創(chuàng )相似度查詢(xún)( Google是如何判斷原創(chuàng )與偽原創(chuàng )的?(一))

優(yōu)采云 發(fā)布時(shí)間: 2022-03-01 11:18

  偽原創(chuàng )相似度查詢(xún)(

Google是如何判斷原創(chuàng )與偽原創(chuàng )的?(一))

  

  我們在做站群的時(shí)候,不可避免地會(huì )產(chǎn)生大量的內容。一般我們依賴(lài)采集+偽原創(chuàng )。谷歌對偽原創(chuàng )的判斷優(yōu)于百度。它更準確。根據老毛手上的數據,我們來(lái)看看谷歌是如何判斷原創(chuàng )和偽原創(chuàng )的。

  首先我們需要掌握幾個(gè)概念:

  1.相似度

  相似度是搜索引擎重用最多的算法。用得最多的是TF/IDF算法,也是一種計算相關(guān)性的算法。TF-IDF的主要意思是說(shuō):如果某個(gè)單詞或短語(yǔ)在a中,如果該單詞或短語(yǔ)在文章中出現頻率很高,而在其他文章中很少出現,則認為這個(gè)詞或短語(yǔ)具有良好的類(lèi)別區分能力,適合分類(lèi)。

  TF 詞頻(Term Frequency)是指給定詞在文件中出現的次數。

  IDF逆文檔頻率(Inverse Document Frequency)是指:如果收錄詞條的文檔越少,IDF越大,說(shuō)明詞條區分類(lèi)別的能力很好。

  當根據TF/IDF計算出一個(gè)文章時(shí),就形成了一個(gè)多維向量,這個(gè)向量就是這個(gè)文章的內容特征向量。當兩個(gè)文章的特征向量趨于一致時(shí),我們認為這兩個(gè)文章的內容是相似的,如果一致,就說(shuō)明它們是重復的。

  關(guān)于TF/IDF和向量算法的詳細信息,請參考Google Blackboard的數學(xué)美12-余弦定理和新聞分類(lèi)

  2.數據指紋

  搜索引擎在通過(guò)相似度采集文章時(shí),需要判斷是否是重復的文章,經(jīng)常會(huì )用到數據指紋。數據指紋的算法有很多,比如文章的標點(diǎn)就提出了,為了對比,很難想象有兩個(gè)不同的文章,標點(diǎn)是一致的。還有一個(gè)向量的比較,就是TF詞頻(關(guān)鍵詞密度)等來(lái)判斷。

  這時(shí)候,你可以想象很多偽原創(chuàng )工具只是替換了關(guān)鍵詞。想要替換關(guān)鍵詞后,標點(diǎn)指紋不會(huì )改變,甚至TF詞頻也不會(huì )改變。持續的。還有一個(gè)文章的段落翻拍,確實(shí)把標點(diǎn)搞亂了,但是向量和詞頻問(wèn)題依然存在。那么你可以想象這樣的 偽原創(chuàng ) 工具的價(jià)值。(它可能仍然適用于百度)

  3.代碼噪音

  以上都是基于一個(gè)條件,即搜索引擎需要知道文章是什么,因為每個(gè)網(wǎng)站都有不同的模板和不同的代碼,各種信息混雜在一起。如果能夠找到文本是搜索引擎必須處理的第一件事。

  一般谷歌會(huì )區分代碼的布局和噪聲比,哪些是導航,哪些是文本,可以忽略一些典型代碼。所以我們在制作模板的時(shí)候一定要注意。這里有個(gè)糾結點(diǎn),就是整頁(yè)降噪方便搜索引擎確認文字,但要適當增加文字區域,增加搜索引擎識別重復的難度。

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区