最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

偽原創(chuàng )相似度查詢(xún)(做一個(gè)簡(jiǎn)單的自動(dòng)去重的工具，你知道嗎？)

優(yōu)采云發(fā)布時(shí)間: 2021-12-18 03:07

　　偽原創(chuàng )相似度查詢(xún)(做一個(gè)簡(jiǎn)單的自動(dòng)去重的工具，你知道嗎？)

　　寫(xiě)在前面

　　正值畢業(yè)季，很多朋友都為論文的復核而煩惱。于是想到做一個(gè)簡(jiǎn)單的自動(dòng)去重工具，先看效果，然后再對原理或代碼實(shí)現做進(jìn)一步的分析。

　　首先，您需要輸入 appid 和密鑰。您可以在百度翻譯開(kāi)放平臺申請賬號，可以免費申請賬號。然后將需要減重的文本內容復制到對應的輸入框中，點(diǎn)擊開(kāi)始按鈕輸出不同但相似的句子，即達到減重減重的效果。點(diǎn)擊復制按鈕將獲取到的新文本復制到剪貼板，點(diǎn)擊清除按鈕重新輸入需要減重的文本，迭代進(jìn)行。

　　重復數據刪除原理

　　論文檢查的粒度是句子，兩個(gè)句子的相似度主要取決于句子收錄哪些詞以及詞在句子中的位置。句子相似度只是文本比較，沒(méi)有考慮語(yǔ)義相似度。

　　正因為如此，我們可以采取的措施是改變句子結構，使用相似的詞替換。

　　為了完成這些句子的自動(dòng)替換，從而達到減輕權重的目的，很容易想到利用不同語(yǔ)言之間的相互轉換來(lái)生成新的文本。例如，在這個(gè)工具中，我采用了中文→英文→韓文→中文的策略。您也可以采用更長(cháng)的轉換路徑，但這似乎會(huì )大大降低文本的可讀性。

　　使用開(kāi)放平臺

　　對于句子翻譯，我使用了百度翻譯開(kāi)放平臺的接口。一個(gè)簡(jiǎn)單的申請后，我每個(gè)月就可以獲得200萬(wàn)個(gè)免費字符翻譯權限。

　　這個(gè)API的訪(fǎng)問(wèn)方式有點(diǎn)麻煩，需要生成簽名標志，拼接完整的url。

　　def translate(q,lan_from,lan_to):

url = 'http://api.fanyi.baidu.com/api/trans/vip/translate'

salt = random.randint(1, 65536)

sign = hashlib.md5((str(appid)+str(q)+str(salt)+str(key)).encode('utf-8')).hexdigest()

params = {

'from' :lan_from,

'to' :lan_to,

'salt' : salt,

'sign' : sign,

'appid' : appid,

'q': q

}

r = requests.get(url,params=params)

txt = r.json()

if txt.get('trans_result', -1) == -1:

print('ERROR Code：{}'.format(txt))

return q

return txt['trans_result'][0]['dst']

　　總結

　　搞清楚API的原理和調用方式之后，我們就可以很方便的寫(xiě)出一個(gè)GUI界面，就是這個(gè)減重工具。當然，這個(gè)工具是非?；A的，你可以更全面地擴展它。

　　創(chuàng )作不易，喜歡就??好??！

0

2021-12-18

偽原創(chuàng )相似度查詢(xún)

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区