學(xué)習Rost-CM內容挖掘系統的動(dòng)詞工具
優(yōu)采云 發(fā)布時(shí)間: 2020-05-08 08:03
GooSeeker大數據開(kāi)發(fā)團隊開(kāi)發(fā)的在線(xiàn)的動(dòng)詞工具軟件,要做到“文科生能用的動(dòng)詞軟件”,比如,公共管理專(zhuān)業(yè)、社會(huì )學(xué)各專(zhuān)業(yè)、工商行政管理各專(zhuān)業(yè)、營(yíng)銷(xiāo)管理各專(zhuān)業(yè)等等?!拔目粕睕](méi)有任何褒貶涵義,其實(shí)我們GooSeeker團隊的分析師也大部分都是“文科生”,因為她們可以免受技術(shù)思路的禁錮,直接看見(jiàn)業(yè)務(wù)層面的問(wèn)題和解答,在商業(yè)剖析和智慧城市大數據管理等領(lǐng)域執行各類(lèi)研究工作的企劃、頂層設計和管理。
基于以上目標,總路線(xiàn)是采用在線(xiàn)云服務(wù),重點(diǎn)解決以下幾個(gè)問(wèn)題:
1. 下載到本地安裝的軟件萬(wàn)一有病毒或則木馬如何辦?即使官方發(fā)布的軟件不會(huì )富含病毒,但是從別的軟件下載網(wǎng)站下載的版本就是一個(gè)不得不考慮的問(wèn)題
2. 最新的軟件功能是否能及時(shí)用上?下載到本地安裝的軟件,這也是一個(gè)疼點(diǎn)問(wèn)題,所以,我們要采用云的方法,除了能第一時(shí)間把新功能交給用戶(hù)以外,還可以第一時(shí)間用上最新的自然語(yǔ)言處理(NLP)、中文信息處理和文本挖掘技術(shù)和產(chǎn)品。比如,在云服務(wù)的構架下,可以隨時(shí)采用愈發(fā)先進(jìn)的中文分詞技術(shù),畢竟那些基礎技術(shù)都須要采用第三方的業(yè)界領(lǐng)先的產(chǎn)品。
3. 產(chǎn)品和服務(wù)是否仍然持續提供?技術(shù)在發(fā)展,用戶(hù)需求在變化,一個(gè)好的產(chǎn)品一定是一個(gè)持續服務(wù)的產(chǎn)品,比如,軟件功能升級、用戶(hù)問(wèn)題解答。
4. 導入的文檔可以是pdf,word,txt,excel分詞技術(shù) 爬蟲(chóng),輸出都是excel,excel是分析師的最?lèi)?ài)。
基于以上考慮,在持續的產(chǎn)品發(fā)展過(guò)程中,GooSeeker研制團隊參考了大量的動(dòng)詞和文本挖掘軟件。如果講技術(shù)或則面向工程師,應該去研究BAT們發(fā)布的NLP云服務(wù),毫無(wú)疑問(wèn)非常強悍。然而,面對“文科生”和各專(zhuān)業(yè)寫(xiě)論文的中學(xué)生,而且想快速幫助他/她完成剖析任務(wù),還是應當放眼這些方便軟件工具為好。
這個(gè)系列文章,我們重點(diǎn)分析Rost-CM內容挖掘系統,只有汲取先進(jìn)養分,才能做得愈發(fā)卓越。
1,Rost-CM的功能界面
Rost CM發(fā)展了多個(gè)版本,下面是我最熟悉和使用最多的版本4.0.0
還有5.8.0
從界面和菜單才能看出,這是一個(gè)功能豐富的軟件,圍繞著(zhù)內容挖掘(Content Mining)集成了好*敏*感*詞*模塊。先重點(diǎn)關(guān)注以下兩個(gè)功能(節選自V6版本的ROST用戶(hù)指南):
?。?)分詞
點(diǎn)擊功能性剖析下拉列表框中的動(dòng)詞選項,打開(kāi)動(dòng)詞窗口,在待處理文本框中載入待處理文件,如“虛擬學(xué)習團隊201087.txt”,則系統根據程序目錄下的User 目錄下的User.txt 文檔,自動(dòng)在輸出文件框中生成“虛擬學(xué)習團隊201087_分詞后.txt”文件,獲得以空格分離的動(dòng)詞后文檔,如果原先文檔中有空格的位置保留空格。點(diǎn)擊確定按鍵,即可打開(kāi)該文檔。
如果須要自己降低一些詞,則點(diǎn)擊工具下拉列表框中的自定義文件→分詞自定義詞表,系統將手動(dòng)在記事本中打開(kāi)user 目錄下的user.txt 文件,編輯后點(diǎn)擊保存讀檔,再次重新啟動(dòng)本軟件,方可生效。
?。?)字頻剖析
點(diǎn)擊功能性剖析下拉列表框中的字頻剖析選項,打開(kāi)字頻剖析窗口, 在待處理文件框中載入待處理文件, 如“ 虛擬學(xué)習團隊201087.txt”,則系統手動(dòng)在輸出文件框中生成“虛擬學(xué)習團隊201087_字頻.txt”文件,點(diǎn)擊確定按鍵,即可打開(kāi)該文檔。
這是兩個(gè)最重要的功能,大部分基于動(dòng)詞的研究任務(wù)或則作業(yè)基本上用這兩個(gè)功能就夠了,得到了動(dòng)詞結果,可以做各類(lèi)統計,最可能做的可視化操作是畫(huà)一個(gè)詞云。后續的那些數據剖析和可視化操作,可以在其他專(zhuān)用軟件上做,很靈活。所以,暫且放下其他功能不去揣測,先瞧瞧我對產(chǎn)品的規劃。
2,文科生都能用的動(dòng)詞工具
上面早已說(shuō)過(guò),最常用的功能就是 分詞和詞頻 統計,能否做到導出要剖析的內容能夠導入須要的結果?是的,不需要將動(dòng)詞和詞頻剖析分成兩個(gè)步驟。
導入之后,就能見(jiàn)到原始數據和動(dòng)詞好的數據,也能看到根據詞頻排序的詞句,這時(shí)候可以不做多余的操作,只導入就行了,會(huì )將四張表打包在一起:
既然動(dòng)詞和詞頻統計如此簡(jiǎn)單,為什么非要坐到筆記本前做這件事情呢?如果要動(dòng)詞的文件是通過(guò)陌陌收到的,如果動(dòng)詞結果要通過(guò)陌陌發(fā)送出去,如果結果文件要在PC和手機間傳遞,都只需掃一次二維碼即可分詞技術(shù) 爬蟲(chóng),這就是陌陌小程序——分詞作業(yè)幫 的好處。
3,寫(xiě)作規劃
接下來(lái),我將用多篇文章,引導讀者深入體驗多個(gè)動(dòng)詞工具的功能特點(diǎn)。