SEO如何處理采集的內容(5)
優(yōu)采云 發(fā)布時(shí)間: 2020-08-05 12:53背景中還有很多問(wèn)題,本文是對其中兩個(gè)問(wèn)題的解答
文本提取
在[SEO如何處理集合內容①]的“泛集合”部分中,提到了文本提取,有些人仍然說(shuō)他們不知道該怎么做.
這個(gè)東西可以在Internet上開(kāi)源. 在Google搜索“ {programming language}文本提取算法”時(shí),可以找到很多解決方案,例如: 可讀性,Boilerpipe,Diffbot ...大多數算法已經(jīng)打包. 您可以直接使用它,而無(wú)需自己編寫(xiě). 我們在做網(wǎng)站,而不是技術(shù)網(wǎng)站. 如果您有現成的車(chē)輪,就可以.
所以有些人還有另一個(gè)問(wèn)題: 我應該使用哪個(gè)?
否否,這不是在考慮輪子. 首先,不可能每種算法都提取所有網(wǎng)頁(yè). 其次,有不止一種算法.
這很簡(jiǎn)單. 算法不會(huì )提取當前網(wǎng)頁(yè)的正文. 它很容易處理. 無(wú)需做任何其他事情. 只需切出算法,然后重試即可. 如果此方法不起作用,請更改另一種. 如果網(wǎng)頁(yè)正常,可以提取文字. 除非此頁(yè)面模板凌亂且收錄所有內容(例如網(wǎng)站首頁(yè)),否則沒(méi)有明顯的主要內容塊,這是另一回事.
因此,如果在平移采集過(guò)程中需要提取鏈接的文本,則最好首先過(guò)濾主頁(yè)URL.
如果您需要糾結使用哪一個(gè),請參閱: / blog / 2011/06/09 / evaluating-text-extraction-algorithms /
重復數據刪除
另一個(gè)問(wèn)題,如果我采集重復的內容該怎么辦?
這種爐渣以前使用過(guò)兩種方法.
第一種類(lèi)型:
首先,我們定義了有效內容需要滿(mǎn)足的指標,例如,單詞數必須大于150個(gè)單詞才能被視為有效內容,而刪除少于150個(gè)單詞將不會(huì )存儲在數據庫. 然后,大于150個(gè)單詞的內容通常具有超過(guò)4個(gè)標點(diǎn)符號.
XXXXXXX,XXXXXXXXX。XXX:“XXXXXX,XXXXXXXXXXXX。XXXXXX,XXXXXXXXXX,XXXXXXXX,XXXXXX。XXX?”
XXXX,XXXXXXX。XXXXXXX;XXXX;XXXXXXXX;XXXXXX,XXXXXXXXXX,XXXXXXXX,XXXXXX - XXX!
因此,對于每篇文章,從第二個(gè)標點(diǎn)符號開(kāi)始,連續提取兩個(gè)標點(diǎn)符號之間的文本,并且單詞數大于7,直到提取了三個(gè)文本段.
然后將這三個(gè)文本段合并為一個(gè),刪除該文本段的重復項,并僅保留一個(gè). 因為基本上重復了具有相同文本段的三個(gè)連續文章,并且它們被完全重復,所以它們不會(huì )更改.
第二種
使用現成的文本重復數據刪除算法,還在Google搜索中使用一堆現成的解決方案,例如simhash,Shingling ...
首先清理所有捕獲的文本,刪除不相關(guān)的詞,例如停用詞,輔助詞(不起作用...)等,然后使用上述解決方案計算相似的文檔.
哪個(gè)更好?渣all都是中等的,我認為沒(méi)有什么好用的,但是都可以使用. .
但是有一個(gè)問(wèn)題. 一旦大量的文章(例如數以百萬(wàn)計的文章)變大,程序就會(huì )運行緩慢,并且CPU會(huì )被大量消耗. 我該怎么辦? ?
所以我遵循第一種方法的思想,而不是分析全文,而是直接找到每篇文章的最長(cháng)n個(gè)句子,再次進(jìn)行哈希簽名,然后使用上述現成的算法要運行,n通常需要3. 不僅運行速度快得多,而且找到相似文章的最終效果似乎比以前要好.
================================================ ====
知識星球->將來(lái)會(huì )有好處,例如一段可以編寫(xiě)*敏*感*詞*句子的Python代碼
微信公眾號---->右下角