最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

百度偽原創(chuàng )工具(關(guān)于TF/IDF與向量算法的詳細請收下!)

優(yōu)采云 發(fā)布時(shí)間: 2021-09-09 02:03

  百度偽原創(chuàng )工具(關(guān)于TF/IDF與向量算法的詳細請收下!)

  最簡(jiǎn)單的查詢(xún)方法是在百度中復制一些你要查詢(xún)的文字內容進(jìn)行搜索,一次復制兩三行左右,搜索查詢(xún),如果有相同或相似的內容,百度搜索結果將顯示為紅色的。但是,如果是從網(wǎng)絡(luò )上抄襲,然后再編輯,就不好查了。但如果不是學(xué)術(shù)文本,從網(wǎng)上抄下來(lái)再編輯也沒(méi)什么大不了的。

  另外,我可以給大家介紹幾個(gè)更專(zhuān)業(yè)的概念,幫助大家區分原創(chuàng )和偽原創(chuàng )。

  1.similarity

  相似性是搜索引擎最常用的算法。最常用的算法是TF/IDF算法。這也是一種計算相關(guān)性的算法。 TF-IDF的主要含義是說(shuō):如果一個(gè)詞或詞組在一個(gè)文章中頻繁出現而在其他文章中很少出現,則認為該詞或詞組具有良好的分類(lèi)能力,適合于分類(lèi)。

  TF Term Frequency 是指給定單詞在文件中出現的次數。

  IDF 逆文檔頻率(Inverse Document Frequency)是指:如果收錄條目的文檔較少,則 IDF 越大,說(shuō)明條目具有良好的類(lèi)別區分能力。

  當一篇文章文章根據TF/IDF進(jìn)行計算時(shí),就形成了一個(gè)多維向量。這個(gè)向量就是這個(gè)文章的內容特征向量,當兩個(gè)文章的特征向量趨于相同的時(shí)候,我們認為這兩個(gè)文章的內容是相似的,如果他們是相同,這意味著(zhù)它們是重復的。

  TF/IDF 和向量算法的詳細介紹請參考 Google Blackboard 的數學(xué)之美 12-余弦定律和新聞分類(lèi)

  2.數據指紋

  搜索引擎通過(guò)相似度采集文章時(shí),需要判斷是否與文章重復。經(jīng)常使用數據指紋。數據指紋的算法有很多,比如文章的標點(diǎn)符號。符號提出,為了比較,你很難想象有兩個(gè)不同的文章,而且標點(diǎn)符號是一致的。還有一個(gè)比較向量,就是TF詞頻(關(guān)鍵詞密度)等等來(lái)判斷。

  這個(gè)時(shí)候,你可以想象很多偽原創(chuàng )工具只是替換了關(guān)鍵詞。你認為關(guān)鍵詞被替換后,標點(diǎn)指紋是一樣的,甚至TF詞的頻率也沒(méi)有變化。還有文章那段的重拍。這確實(shí)是打亂了標點(diǎn)符號,但向量和詞頻問(wèn)題仍然存在。那么你可以想象這樣的偽原創(chuàng )工具的價(jià)值。

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区