最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

<form id="sec03"></form><style id="sec03"></style>

<source id="sec03"><optgroup id="sec03"></optgroup></source>

<sub id="sec03"></sub>

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

SEO如何處理采集的內容（5）

優(yōu)采云發(fā)布時(shí)間: 2020-08-05 12:53

　　背景中還有很多問(wèn)題，本文是對其中兩個(gè)問(wèn)題的解答

　　文本提取

　　在[SEO如何處理集合內容①]的“泛集合”部分中，提到了文本提取，有些人仍然說(shuō)他們不知道該怎么做.

　　這個(gè)東西可以在Internet上開(kāi)源. 在Google搜索“ {programming language}文本提取算法”時(shí)，可以找到很多解決方案，例如: 可讀性，Boilerpipe，Diffbot ...大多數算法已經(jīng)打包. 您可以直接使用它，而無(wú)需自己編寫(xiě). 我們在做網(wǎng)站，而不是技術(shù)網(wǎng)站. 如果您有現成的車(chē)輪，就可以.

　　所以有些人還有另一個(gè)問(wèn)題: 我應該使用哪個(gè)？

　　否否，這不是在考慮輪子. 首先，不可能每種算法都提取所有網(wǎng)頁(yè). 其次，有不止一種算法.

　　這很簡(jiǎn)單. 算法不會(huì )提取當前網(wǎng)頁(yè)的正文. 它很容易處理. 無(wú)需做任何其他事情. 只需切出算法，然后重試即可. 如果此方法不起作用，請更改另一種. 如果網(wǎng)頁(yè)正常，可以提取文字. 除非此頁(yè)面模板凌亂且收錄所有內容（例如網(wǎng)站首頁(yè)），否則沒(méi)有明顯的主要內容塊，這是另一回事.

　　因此，如果在平移采集過(guò)程中需要提取鏈接的文本，則最好首先過(guò)濾主頁(yè)URL.

　　如果您需要糾結使用哪一個(gè)，請參閱: / blog / 2011/06/09 / evaluating-text-extraction-algorithms /

　　重復數據刪除

　　另一個(gè)問(wèn)題，如果我采集重復的內容該怎么辦？

　　這種爐渣以前使用過(guò)兩種方法.

　　第一種類(lèi)型:

　　首先，我們定義了有效內容需要滿(mǎn)足的指標，例如，單詞數必須大于150個(gè)單詞才能被視為有效內容，而刪除少于150個(gè)單詞將不會(huì )存儲在數據庫. 然后，大于150個(gè)單詞的內容通常具有超過(guò)4個(gè)標點(diǎn)符號.

　　XXXXXXX，XXXXXXXXX。XXX：“XXXXXX，XXXXXXXXXXXX。XXXXXX，XXXXXXXXXX，XXXXXXXX，XXXXXX。XXX？”

XXXX，XXXXXXX。XXXXXXX；XXXX；XXXXXXXX；XXXXXX，XXXXXXXXXX，XXXXXXXX，XXXXXX - XXX!

　　因此，對于每篇文章，從第二個(gè)標點(diǎn)符號開(kāi)始，連續提取兩個(gè)標點(diǎn)符號之間的文本，并且單詞數大于7，直到提取了三個(gè)文本段.

　　然后將這三個(gè)文本段合并為一個(gè)，刪除該文本段的重復項，并僅保留一個(gè). 因為基本上重復了具有相同文本段的三個(gè)連續文章，并且它們被完全重復，所以它們不會(huì )更改.

　　第二種

　　使用現成的文本重復數據刪除算法，還在Google搜索中使用一堆現成的解決方案，例如simhash，Shingling ...

　　首先清理所有捕獲的文本，刪除不相關(guān)的詞，例如停用詞，輔助詞（不起作用...）等，然后使用上述解決方案計算相似的文檔.

　　哪個(gè)更好？渣all都是中等的，我認為沒(méi)有什么好用的，但是都可以使用. .

　　但是有一個(gè)問(wèn)題. 一旦大量的文章（例如數以百萬(wàn)計的文章）變大，程序就會(huì )運行緩慢，并且CPU會(huì )被大量消耗. 我該怎么辦？？

　　所以我遵循第一種方法的思想，而不是分析全文，而是直接找到每篇文章的最長(cháng)n個(gè)句子，再次進(jìn)行哈希簽名，然后使用上述現成的算法要運行，n通常需要3. 不僅運行速度快得多，而且找到相似文章的最終效果似乎比以前要好.

　　================================================ ====

　　知識星球->將來(lái)會(huì )有好處，例如一段可以編寫(xiě)*敏*感*詞*句子的Python代碼

　　

　　微信公眾號---->右下角

　　

0

2020-08-05

內容采集

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区