最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

偽原創(chuàng )相似度查詢(xún)(做一個(gè)簡(jiǎn)單的自動(dòng)去重的工具,你知道嗎?)

優(yōu)采云 發(fā)布時(shí)間: 2021-12-18 03:07

  偽原創(chuàng )相似度查詢(xún)(做一個(gè)簡(jiǎn)單的自動(dòng)去重的工具,你知道嗎?)

  寫(xiě)在前面

  正值畢業(yè)季,很多朋友都為論文的復核而煩惱。于是想到做一個(gè)簡(jiǎn)單的自動(dòng)去重工具,先看效果,然后再對原理或代碼實(shí)現做進(jìn)一步的分析。

  首先,您需要輸入 appid 和密鑰。您可以在百度翻譯開(kāi)放平臺申請賬號,可以免費申請賬號。然后將需要減重的文本內容復制到對應的輸入框中,點(diǎn)擊開(kāi)始按鈕輸出不同但相似的句子,即達到減重減重的效果。點(diǎn)擊復制按鈕將獲取到的新文本復制到剪貼板,點(diǎn)擊清除按鈕重新輸入需要減重的文本,迭代進(jìn)行。

  重復數據刪除原理

  論文檢查的粒度是句子,兩個(gè)句子的相似度主要取決于句子收錄哪些詞以及詞在句子中的位置。句子相似度只是文本比較,沒(méi)有考慮語(yǔ)義相似度。

  正因為如此,我們可以采取的措施是改變句子結構,使用相似的詞替換。

  為了完成這些句子的自動(dòng)替換,從而達到減輕權重的目的,很容易想到利用不同語(yǔ)言之間的相互轉換來(lái)生成新的文本。例如,在這個(gè)工具中,我采用了中文→英文→韓文→中文的策略。您也可以采用更長(cháng)的轉換路徑,但這似乎會(huì )大大降低文本的可讀性。

  使用開(kāi)放平臺

  對于句子翻譯,我使用了百度翻譯開(kāi)放平臺的接口。一個(gè)簡(jiǎn)單的申請后,我每個(gè)月就可以獲得200萬(wàn)個(gè)免費字符翻譯權限。

  這個(gè)API的訪(fǎng)問(wèn)方式有點(diǎn)麻煩,需要生成簽名標志,拼接完整的url。

  def translate(q,lan_from,lan_to):

url = 'http://api.fanyi.baidu.com/api/trans/vip/translate'

salt = random.randint(1, 65536)

sign = hashlib.md5((str(appid)+str(q)+str(salt)+str(key)).encode('utf-8')).hexdigest()

params = {

'from' :lan_from,

'to' :lan_to,

'salt' : salt,

'sign' : sign,

'appid' : appid,

'q': q

}

r = requests.get(url,params=params)

txt = r.json()

if txt.get('trans_result', -1) == -1:

print('ERROR Code:{}'.format(txt))

return q

return txt['trans_result'][0]['dst']

  總結

  搞清楚API的原理和調用方式之后,我們就可以很方便的寫(xiě)出一個(gè)GUI界面,就是這個(gè)減重工具。當然,這個(gè)工具是非?;A的,你可以更全面地擴展它。

  創(chuàng )作不易,喜歡就??好??!

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区