偽原創(chuàng )相似度查詢(xún)(做一個(gè)簡(jiǎn)單的自動(dòng)去重的工具,你知道嗎?)
優(yōu)采云 發(fā)布時(shí)間: 2021-12-18 03:07偽原創(chuàng )相似度查詢(xún)(做一個(gè)簡(jiǎn)單的自動(dòng)去重的工具,你知道嗎?)
寫(xiě)在前面
正值畢業(yè)季,很多朋友都為論文的復核而煩惱。于是想到做一個(gè)簡(jiǎn)單的自動(dòng)去重工具,先看效果,然后再對原理或代碼實(shí)現做進(jìn)一步的分析。
首先,您需要輸入 appid 和密鑰。您可以在百度翻譯開(kāi)放平臺申請賬號,可以免費申請賬號。然后將需要減重的文本內容復制到對應的輸入框中,點(diǎn)擊開(kāi)始按鈕輸出不同但相似的句子,即達到減重減重的效果。點(diǎn)擊復制按鈕將獲取到的新文本復制到剪貼板,點(diǎn)擊清除按鈕重新輸入需要減重的文本,迭代進(jìn)行。
重復數據刪除原理
論文檢查的粒度是句子,兩個(gè)句子的相似度主要取決于句子收錄哪些詞以及詞在句子中的位置。句子相似度只是文本比較,沒(méi)有考慮語(yǔ)義相似度。
正因為如此,我們可以采取的措施是改變句子結構,使用相似的詞替換。
為了完成這些句子的自動(dòng)替換,從而達到減輕權重的目的,很容易想到利用不同語(yǔ)言之間的相互轉換來(lái)生成新的文本。例如,在這個(gè)工具中,我采用了中文→英文→韓文→中文的策略。您也可以采用更長(cháng)的轉換路徑,但這似乎會(huì )大大降低文本的可讀性。
使用開(kāi)放平臺
對于句子翻譯,我使用了百度翻譯開(kāi)放平臺的接口。一個(gè)簡(jiǎn)單的申請后,我每個(gè)月就可以獲得200萬(wàn)個(gè)免費字符翻譯權限。
這個(gè)API的訪(fǎng)問(wèn)方式有點(diǎn)麻煩,需要生成簽名標志,拼接完整的url。
def translate(q,lan_from,lan_to):
url = 'http://api.fanyi.baidu.com/api/trans/vip/translate'
salt = random.randint(1, 65536)
sign = hashlib.md5((str(appid)+str(q)+str(salt)+str(key)).encode('utf-8')).hexdigest()
params = {
'from' :lan_from,
'to' :lan_to,
'salt' : salt,
'sign' : sign,
'appid' : appid,
'q': q
}
r = requests.get(url,params=params)
txt = r.json()
if txt.get('trans_result', -1) == -1:
print('ERROR Code:{}'.format(txt))
return q
return txt['trans_result'][0]['dst']
總結
搞清楚API的原理和調用方式之后,我們就可以很方便的寫(xiě)出一個(gè)GUI界面,就是這個(gè)減重工具。當然,這個(gè)工具是非?;A的,你可以更全面地擴展它。
創(chuàng )作不易,喜歡就??好??!