最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

SEO如何處理采集的內容(5)

優(yōu)采云 發(fā)布時(shí)間: 2020-08-05 12:53

  背景中還有很多問(wèn)題,本文是對其中兩個(gè)問(wèn)題的解答

  文本提取

  在[SEO如何處理集合內容①]的“泛集合”部分中,提到了文本提取,有些人仍然說(shuō)他們不知道該怎么做.

  這個(gè)東西可以在Internet上開(kāi)源. 在Google搜索“ {programming language}文本提取算法”時(shí),可以找到很多解決方案,例如: 可讀性,Boilerpipe,Diffbot ...大多數算法已經(jīng)打包. 您可以直接使用它,而無(wú)需自己編寫(xiě). 我們在做網(wǎng)站,而不是技術(shù)網(wǎng)站. 如果您有現成的車(chē)輪,就可以.

  所以有些人還有另一個(gè)問(wèn)題: 我應該使用哪個(gè)?

  否否,這不是在考慮輪子. 首先,不可能每種算法都提取所有網(wǎng)頁(yè). 其次,有不止一種算法.

  這很簡(jiǎn)單. 算法不會(huì )提取當前網(wǎng)頁(yè)的正文. 它很容易處理. 無(wú)需做任何其他事情. 只需切出算法,然后重試即可. 如果此方法不起作用,請更改另一種. 如果網(wǎng)頁(yè)正常,可以提取文字. 除非此頁(yè)面模板凌亂且收錄所有內容(例如網(wǎng)站首頁(yè)),否則沒(méi)有明顯的主要內容塊,這是另一回事.

  因此,如果在平移采集過(guò)程中需要提取鏈接的文本,則最好首先過(guò)濾主頁(yè)URL.

  如果您需要糾結使用哪一個(gè),請參閱: / blog / 2011/06/09 / evaluating-text-extraction-algorithms /

  重復數據刪除

  另一個(gè)問(wèn)題,如果我采集重復的內容該怎么辦?

  這種爐渣以前使用過(guò)兩種方法.

  第一種類(lèi)型:

  首先,我們定義了有效內容需要滿(mǎn)足的指標,例如,單詞數必須大于150個(gè)單詞才能被視為有效內容,而刪除少于150個(gè)單詞將不會(huì )存儲在數據庫. 然后,大于150個(gè)單詞的內容通常具有超過(guò)4個(gè)標點(diǎn)符號.

  XXXXXXX,XXXXXXXXX。XXX:“XXXXXX,XXXXXXXXXXXX。XXXXXX,XXXXXXXXXX,XXXXXXXX,XXXXXX。XXX?”

XXXX,XXXXXXX。XXXXXXX;XXXX;XXXXXXXX;XXXXXX,XXXXXXXXXX,XXXXXXXX,XXXXXX - XXX!

  因此,對于每篇文章,從第二個(gè)標點(diǎn)符號開(kāi)始,連續提取兩個(gè)標點(diǎn)符號之間的文本,并且單詞數大于7,直到提取了三個(gè)文本段.

  然后將這三個(gè)文本段合并為一個(gè),刪除該文本段的重復項,并僅保留一個(gè). 因為基本上重復了具有相同文本段的三個(gè)連續文章,并且它們被完全重復,所以它們不會(huì )更改.

  第二種

  使用現成的文本重復數據刪除算法,還在Google搜索中使用一堆現成的解決方案,例如simhash,Shingling ...

  首先清理所有捕獲的文本,刪除不相關(guān)的詞,例如停用詞,輔助詞(不起作用...)等,然后使用上述解決方案計算相似的文檔.

  哪個(gè)更好?渣all都是中等的,我認為沒(méi)有什么好用的,但是都可以使用. .

  但是有一個(gè)問(wèn)題. 一旦大量的文章(例如數以百萬(wàn)計的文章)變大,程序就會(huì )運行緩慢,并且CPU會(huì )被大量消耗. 我該怎么辦? ?

  所以我遵循第一種方法的思想,而不是分析全文,而是直接找到每篇文章的最長(cháng)n個(gè)句子,再次進(jìn)行哈希簽名,然后使用上述現成的算法要運行,n通常需要3. 不僅運行速度快得多,而且找到相似文章的最終效果似乎比以前要好.

  ================================================ ====

  知識星球->將來(lái)會(huì )有好處,例如一段可以編寫(xiě)*敏*感*詞*句子的Python代碼

  

  微信公眾號---->右下角

  

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区