最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

解讀:案例 | R語(yǔ)言數據挖掘實(shí)戰:電商評論情感分析

優(yōu)采云 發(fā)布時(shí)間: 2022-12-04 20:56

  解讀:案例 | R語(yǔ)言數據挖掘實(shí)戰:電商評論情感分析

  微信加CDA為好友(ID:joinlearn),拉你進(jìn)500人數據分析師交流群。點(diǎn)擊閱讀原文查看CDA數據分析師交流群規范及收益。期待您的光臨~

  隨著(zhù)網(wǎng)絡(luò )購物的普及,各大電子商務(wù)公司之間的競爭也非常激烈。為了提高客戶(hù)服務(wù)質(zhì)量,除了打價(jià)格戰,了解客戶(hù)的需求,傾聽(tīng)客戶(hù)的聲音也越來(lái)越重要。最重要的方法是對文本評論進(jìn)行數據挖掘。今天通過(guò)學(xué)習《R語(yǔ)言數據挖掘實(shí)戰》案例:電商點(diǎn)評與數據分析,從目標到操作內容與大家分享。

  本文結構如下

  1.要達到的目標

  通過(guò)對客戶(hù)評論的分析,進(jìn)行一系列的方法來(lái)獲取客戶(hù)對某產(chǎn)品的態(tài)度和情感傾向,以及客戶(hù)關(guān)注產(chǎn)品的哪些屬性,產(chǎn)品的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及產(chǎn)品的賣(mài)點(diǎn)是什么,等等...

  2.文本挖掘的主要思想。

  由于語(yǔ)言數據的特殊性,我們主要提取句子中的關(guān)鍵詞,提取評論的關(guān)鍵詞,然后根據關(guān)鍵詞的權重,這里我們使用空間向量模型將每個(gè)特征關(guān)鍵詞轉化為數字向量,然后計算其距離,然后聚類(lèi)得到三類(lèi)情緒,分別是積極的、消極的和中性的。用 來(lái)代表顧客對產(chǎn)品的情感傾向。

  3、文本挖掘的主要流程:

  請輸入標題 4.案例流程簡(jiǎn)介及原理介紹及軟件操作

  4.1 數據爬取

  首先下載優(yōu)采云軟件。鏈接是 。下載安裝后,注冊賬號并登錄,界面如上:

  點(diǎn)擊快速開(kāi)始-新建任務(wù),輸入任務(wù)名稱(chēng),點(diǎn)擊下一步,打開(kāi)京東熱水器頁(yè)面

  將頁(yè)面地址復制到優(yōu)采云,如下圖:

  觀(guān)察網(wǎng)頁(yè)類(lèi)型,由于收錄美的熱水器的頁(yè)面不止一個(gè),下面有一個(gè)翻頁(yè)按鈕,所以我們需要創(chuàng )建一個(gè)點(diǎn)擊下一頁(yè)的循環(huán),然后在京東上點(diǎn)擊下一頁(yè)優(yōu)采云中的頁(yè)面,點(diǎn)擊彈出的對話(huà)框列表中,點(diǎn)擊循環(huán),點(diǎn)擊下一頁(yè),如圖:

  然后點(diǎn)擊一個(gè)產(chǎn)品,在彈出的頁(yè)面點(diǎn)擊Add an element list處理祖先元素--點(diǎn)擊Add to list--繼續編輯列表,接下來(lái)我們點(diǎn)擊另一個(gè)產(chǎn)品的名稱(chēng),點(diǎn)擊Add to在彈出的頁(yè)面列表上,讓軟件自動(dòng)識別頁(yè)面上的其他產(chǎn)品,然后點(diǎn)擊創(chuàng )建列表完成,再點(diǎn)擊循環(huán)創(chuàng )建頁(yè)面中的產(chǎn)品列表,循環(huán)抓取。

  然后軟件自動(dòng)跳轉到第一個(gè)產(chǎn)品的特定頁(yè)面。我們點(diǎn)擊評論,在彈出的頁(yè)面中點(diǎn)擊這個(gè)元素,看到有很多頁(yè)的評論。這時(shí)候我們就需要創(chuàng )建一個(gè)循環(huán)列表。同上,點(diǎn)擊下一頁(yè)—循環(huán)點(diǎn)擊。然后點(diǎn)擊我們需要抓取的評論文字,點(diǎn)擊彈出頁(yè)面創(chuàng )建元素列表處理一組元素——點(diǎn)擊添加到列表——繼續編輯列表,然后點(diǎn)擊第二條評論點(diǎn)擊在彈出的頁(yè)面上Add to the list—cycle,然后點(diǎn)擊評論的文字,選擇該元素的文字。好了,軟件會(huì )循環(huán)抓取這個(gè)頁(yè)面的文字,如圖:

  全部點(diǎn)擊完成后,我們查看設計器,發(fā)現有4個(gè)循環(huán),第一個(gè)是翻頁(yè),第二個(gè)是循環(huán)點(diǎn)擊每個(gè)商品,第三個(gè)是翻評論頁(yè),然后第四是抓取循環(huán)評論文本,所以我們需要把第四個(gè)循環(huán)嵌入到第三個(gè)循環(huán)中,然后整體嵌入到第二個(gè)循環(huán)中,然后再整體嵌入到第一個(gè)循環(huán)中,也就是說(shuō),先點(diǎn)擊下一頁(yè),然后點(diǎn)擊產(chǎn)品,再點(diǎn)擊下一個(gè)功能,然后抓取評論,這一套action loops。那么我們只需要在設計器中將第4個(gè)循環(huán)拖到第3個(gè)循環(huán)中,這樣拖下去即可。就是這樣:拖動(dòng)結果如下: ,然后點(diǎn)擊Next—Next—點(diǎn)擊采集就OK了。

  4.2 文本去重

  本例以京東平臺下美的熱水器的顧客評論為分析對象。按照流程,我們先用優(yōu)采云爬取了京東網(wǎng)站上客戶(hù)對美的熱水器的評論,部分數據如下!

  通過(guò)簡(jiǎn)單的觀(guān)察,我們可以發(fā)現評論的一些特征,

  因此,我們需要對這些數據進(jìn)行數據預處理,首先進(jìn)行數據清洗,而編輯距離去重實(shí)際上是一種計算字符串之間相似度的方法。給定兩個(gè)字符串,將字符串A變換為字符串B所需的刪除、插入、替換等操作的次數稱(chēng)為從A到B的編輯路徑。最短的編輯路徑稱(chēng)為字符串A和B的編輯距離。對于例如,“還沒(méi)用過(guò),不知道怎么樣,但是安裝材料費有點(diǎn)高,380”和“還沒(méi)用過(guò),不知道質(zhì)量如何,但是”的編輯距離安裝材料費確實(shí)貴,380寸是9。

  首先,我們需要對重復的評論進(jìn)行重復,也就是刪除重復的評論。

  重復詞出現在另一個(gè)句子中,會(huì )影響關(guān)鍵詞在整個(gè)評論中出現的頻率過(guò)高,影響分析結果。我們想壓縮它。

  還有一些無(wú)意義的評論,比如自動(dòng)點(diǎn)贊的評論,我們需要識別并刪除。

  4.3 壓縮語(yǔ)句規則:

  1.如果讀的和上面的list一樣,但是下面是空的,就放下。2.如果讀取的和上面的表一樣,但是有底,則判斷重復,清空底表。3.如果read和top list相同,bottom是,則判斷不是Heavy,上下清零 4.如果read和上面list不同,字符>=2,判斷為重復,上下清零 5.如果讀的和上面的表不一樣,底是空的,判斷不重,繼續放 6.如果讀的和上面的表不一樣,有底,判斷是不重,放下 7. 看完后,判斷上下,重則壓緊。

  4.4 然后我們進(jìn)行中文分詞。分詞的一般原則是:

  中文分詞是指將一系列漢字分割成獨立的詞。分詞結果的準確性對文本挖掘的效果非常重要。目前分詞算法主要有四種:字符串匹配算法、基于理解的算法、基于統計的方法和基于機器學(xué)習的算法。

  1、字符串匹配算法是將待分詞的文本字符串與字典中的詞進(jìn)行精確匹配。如果字典中的字符串出現在當前待分詞的文本中,則匹配成功。常用的匹配算法主要有正向最大匹配、反向最大匹配、雙向最大匹配和最小分割。

  2、基于理解的算法通過(guò)模擬人們在現實(shí)中對一句話(huà)的理解效果進(jìn)行分詞。這種方法需要分析句法結構,同時(shí)需要用到大量的語(yǔ)言知識和信息,比較復雜。

  3、基于統計的方法就是利用統計的思想進(jìn)行分詞。單詞由單個(gè)字符組成。在文本中,相鄰字符同時(shí)出現的次數越多,它們組成單詞的概率就越大;因此,可以用字符間的共現概率來(lái)反映詞的概率,統計相鄰字符的共現情況。出現次數并計算它們的共現概率。當共現概率高于設定的閾值時(shí),可以認為它們可能構成該詞

  4. 最后是基于機器學(xué)習的方法:利用機器學(xué)習進(jìn)行模型構建。構建大量的分割文本作為訓練數據,使用機器學(xué)習算法進(jìn)行模型訓練,利用模型對未知文本進(jìn)行分割。

  4.5 得到分詞結果后

  我們知道這些句子中經(jīng)常會(huì )有一些“了”、“啊”、“但是”,語(yǔ)氣詞、關(guān)聯(lián)詞、介詞等,這些詞對句子的特征沒(méi)有貢獻,我們可以去掉它們,還有一些專(zhuān)有名詞,對于這個(gè)分析案例,“熱水器”和“中國”經(jīng)常出現在評論中,這是我們已經(jīng)知道的,因為我們最初分析的是關(guān)于熱水器的評論,所以這些都是無(wú)用的信息。我們也可以刪除它們。那么這里必須刪除這些詞。一般通過(guò)建立的自定義詞庫刪除。

  4.6 分詞結果處理后

  那么我們就可以進(jìn)行統計,畫(huà)出詞頻云圖,大致了解那些關(guān)鍵詞的情況,為我們接下來(lái)的分析提供思路素材。操作如下:

  4.7 得到分詞結果后

  我們開(kāi)始建模和分析。模型選擇的方法有很多,但歸納起來(lái),只有兩種,即向量空間模型和概率模型。在這里我們介紹一個(gè)具有代表性的模型

  模型一:TF-IDF方法:

  方法A:對每個(gè)詞的出現頻率進(jìn)行加權后,作為其維度的坐標來(lái)確定一個(gè)特征的空間位置。

  方法B:將所有出現的詞所收錄的屬性作為維度,然后將詞與各個(gè)屬性之間的關(guān)系作為坐標,進(jìn)而定位一篇文檔在向量空間中的位置。

  但實(shí)際上,如果一個(gè)詞條在一類(lèi)文檔中頻繁出現,說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征。此類(lèi)詞條應該被賦予更高的權重,并被選為此類(lèi)文本的特征詞,用于將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。

  

  模型二:.LDA模型

  傳統的判斷兩篇文檔相似度的方法是查看兩篇文檔中出現的詞的數量,比如TF-IDF。幾乎沒(méi)有,但是這兩個(gè)文件很相似。

  例如,有如下兩個(gè)句子:

  “喬布斯走了?!?“蘋(píng)果會(huì )降價(jià)嗎?”

  可以看出,上面兩句話(huà)沒(méi)有共同詞,但是兩句話(huà)很相似。如果按照傳統的方法判斷兩個(gè)句子,肯定是不相似的,所以在判斷文檔的相關(guān)性時(shí),需要考慮文檔。語(yǔ)義學(xué),語(yǔ)義挖掘的武器是主題模型,LDA是比較有效的模型之一。

  LDA模型是一種無(wú)監督的主題生成模型,它假設文檔集中的文檔按照一定的概率共享一組隱藏主題,隱藏主題集由相關(guān)詞組成。這里一共有三個(gè)集合,分別是文檔集合、主題集合和單詞集合。文檔集到主題集服從概率分布,詞集到主題集也服從概率分布。既然我們知道了文檔集和詞集,那么根據貝葉斯定理就可以找到主題集了。具體算法很復雜,這里就不多解釋了。有興趣的同學(xué)可以參考以下資料

   37616

  4.8 項目概要

  1、數據復雜度較高,文本挖掘面臨的非結構化語(yǔ)言,文本非常復雜。

  2.過(guò)程不同,文本挖掘更注重預處理階段

  3、整體流程如下:

  五、應用領(lǐng)域:

  一、輿情分析

  2.搜索引擎優(yōu)化

  3、其他行業(yè)的輔助應用

  6、分析工具:

  ROST CM 6 是目前國內唯一由武漢大學(xué)沉陽(yáng)教授開(kāi)發(fā)編碼,助力人文社會(huì )科學(xué)研究的大型免費社交計算平臺。本軟件可以實(shí)現微博分析、聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類(lèi)分析等一系列文本分析.,擁有超過(guò)7000名用戶(hù),覆蓋*敏*感*詞*100多所大學(xué),包括劍橋大學(xué)、北海道大學(xué)、北京大學(xué)、清華大學(xué)、香港城市大學(xué)、澳門(mén)大學(xué)等多所高校。下載地址:

  RStudio是R語(yǔ)言的集成開(kāi)發(fā)環(huán)境(IDE),其亮點(diǎn)在于出色的界面設計和編程輔助。它可以運行在多種平臺上,包括windows、Mac、Ubuntu和網(wǎng)頁(yè)版。另外,本軟件是免費開(kāi)源的,可以在官網(wǎng)下載:

  7.1 Rostcm6實(shí)現:

  打開(kāi)軟件ROSTCM6

  這是處理前的文本內容。我們會(huì )從爬取的數據中只去除評論字段,然后將其保存為T(mén)XT格式。打開(kāi)它如下。按照流程,我們會(huì )先去除重復和字符、英文、數字等項。

  2、點(diǎn)擊文本處理-一般處理-處理條件選擇“retain only one for all repeated lines”和“delete all English characters contained in all lines”,去掉英文和數字等字符

  這是處理后的文件內容,可以看到數字和英文都??被刪除了。

  3、接下來(lái)進(jìn)行分詞。點(diǎn)擊功能分析——分詞(這里可以選擇自定義詞庫,如搜狗詞庫等)

  分詞處理后的結果。簡(jiǎn)單觀(guān)察一下,分詞之后,出現了很多無(wú)意義的停用詞,比如“in”、“under”、“one”等等

  4. 接下來(lái),我們過(guò)濾專(zhuān)有名詞,停用詞,統計詞頻。點(diǎn)函數分析——詞頻分析(中文)

  在功能分析下,單擊情緒分析以執行情緒分析。

  并且可以實(shí)現云圖的可視化。

  7.2 R的實(shí)現

  這里需要安裝幾個(gè)必要的包,因為幾個(gè)包的安裝比較復雜,這里是鏈接

  可以參考這篇博客安裝包。安裝完成后,就可以開(kāi)始R文本挖掘了。下面代碼的說(shuō)明文字較少,各個(gè)函數的作用初學(xué)者比較陌生。讀者可以先閱讀這些文章文章,了解各個(gè)函數的作用后,使用R進(jìn)行文本挖掘。鏈接如下:

  博客/檔案/29060

  直接

  讀完之后,進(jìn)行下去就會(huì )清楚很多。

  加載工作區庫 (rJava)

  圖書(shū)館(tmcn)

  圖書(shū)館(Rwordseg)

  圖書(shū)館(TM)

  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")

  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")

  頭(數據1)

  數據

  —————————————————————— #Rwordseg分詞

  data1_cut=segmentCN(data1, nosymbol=T, returnType="tm")

  刪除\n、英文字母、數字 data1_cut=gsub("\n", "", data1_cut)

  data1_cut=gsub("[az]*", "", data1_cut)

  

  data1_cut=gsub("\d+", "", data1_cut)

  write.table(data1_cut, 'data1_cut.txt', row.names = FALSE)

  Data1=readLines('data1_cut.txt')

  Data1=gsub('\"', '', data1_cut)

  長(cháng)度(數據1)

  頭(數據1)

  ———————————————————————————— #Load workspace

  圖書(shū)館(自然語(yǔ)言處理)

  圖書(shū)館(TM)

  圖書(shū)館(大滿(mǎn)貫)

  圖書(shū)館(主題模型)

  R語(yǔ)言環(huán)境下的文本可視化與主題分析 setwd("F:/data and program/chapter15/computer experiment")

  data1=readLines("./data/meidi_jd_pos_cut.txt", encoding = "UTF-8")

  頭(數據1)

  停用詞

  停用詞=停用詞[611:長(cháng)度(停用詞)]

  去掉空格、字母 Data1=gsub("\n", "", Data1)

  Data1=gsub("[a~z]*", "", Data1)

  Data1=gsub("\d+", "", Data1)

  構建語(yǔ)料庫 corpus1 = Corpus(VectorSource(Data1))

  corpus1 = tm_map(corpus1, FUN=removeWords, stopwordsCN(stopwords))

  創(chuàng )建文檔術(shù)語(yǔ)矩陣 sample.dtm1

  colnames(as.matrix(sample.dtm1))

  tm::findFreqTerms(sample.dtm1, 2)

  unlist(tm::findAssocs(sample.dtm1, '安裝', 0.2))

  ——————————————————————–

  # 主題模型分析

  Gibbs = LDA(sample.dtm1, k = 3, method = "Gibbs", control = list(seed = 2015, burnin = 1000, thin = 100, iter = 1000))

  最有可能的主題文檔 Topic1

  表(主題1)

  每個(gè)主題的前 10 個(gè) TermTerms1

  條款1

  —————————————————————————— #使用vec方法分詞

  圖書(shū)館(tmcn)

  圖書(shū)館(TM)

  圖書(shū)館(Rwordseg)

  圖書(shū)館(文字云)

  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")

  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")

  d.vec1

  wc1=getWordFreq(unlist(d.vec1), onlyCN = TRUE)

  wordcloud(wc1$Word,wc1$Freq,col=rainbow(長(cháng)度(wc1$Freq)),min.freq = 1000)

  #

  八、結果展示及說(shuō)明

  這是分析的部分結果??梢钥吹?,大部分客戶(hù)的評論都帶有正面的情緒,說(shuō)明客戶(hù)對美的熱水器的滿(mǎn)意度是比較高的。哪些方面滿(mǎn)意,哪些方面不滿(mǎn)意,哪些方面可以保持,哪些方面需要改進(jìn),這就需要我們另一種結果展示了。

  點(diǎn)擊可視化工具,得到詞頻云圖。根據云圖,我們可以看到客戶(hù)最關(guān)心的點(diǎn),也就是評論中提到較多的點(diǎn)。從圖中可以看到“安裝”、“師傅”、“配件”、“暖氣”、“快”、“便宜”、“速度”、“品牌”、“京東”、“送貨”、“服務(wù)” 、“價(jià)格”、“供暖”等關(guān)鍵詞出現頻率很高,我們可以大致猜到26

  另外,值得注意的是,云圖中還有一些“好”、“大”、“滿(mǎn)意”等字眼。我們還不知道這些詞背后的語(yǔ)義,所以我們需要找到相應的注釋。,提取這些詞對應的主題點(diǎn),然后對分析結果進(jìn)行優(yōu)化

  文|@白加黑治療病

  來(lái)源 | PPV類(lèi)

  原來(lái)的:

  點(diǎn)擊閱讀原文查看CDA數據分析師交流群規范及收益

  解讀:文章圖片提取工具(圖片提取文本的工具有哪些)

  目錄:

  1. 一個(gè)圖片提取文字的工具

  批量提取網(wǎng)站圖片。使用圖片提取工具從我們的網(wǎng)頁(yè)中提取圖片。圖片批量提取工具具有圖片過(guò)濾功能。通過(guò)設置圖片大小范圍,可以提取目標網(wǎng)站抓取的所有圖片,而采集文章采集,提取文章中的插圖。

  2.從圖片中提取文章

  批量提取網(wǎng)站圖片工具,可以通過(guò)批量鏈接下載圖片,導入我們的圖片鏈接批量下載保存到本地,其次可以使用批量關(guān)鍵詞采集,通過(guò)圖片采集、文章采集、文章導出插圖生成本地圖片素材庫,最后即可提取下載全站圖片,輸入目標鏈接地址即可,可以批量導出整站圖片。

  3. 文章 內容提取工具

  4.圖片提取文本文件

  

  在我們的 網(wǎng)站 上重做視覺(jué)內容,包括信息圖表、視頻、圖像和視覺(jué)元素 我們甚至可以決定更改 網(wǎng)站 的設計作為內容更新的一部分,只要我們認為它是好的當決定(例如,我們的 網(wǎng)站 設計看起來(lái)過(guò)時(shí)了)執行 文章 圖像優(yōu)化時(shí),我們需要做的第一件事實(shí)際上是分析所有內容并選擇要刷新的部分。

  5.文檔圖像提取

  為了更新和重新制作我們的內容,我們可以從最好的論文中聘請專(zhuān)業(yè)的作家并撰寫(xiě)網(wǎng)站,或者我們可以自己完成所有工作但是,在開(kāi)始選擇內容時(shí),我們應該自己完成

  6、圖文提取工具有哪些?

  為了幫助我們選擇最好的內容來(lái)刷新,我們可以使用我們在 文章 圖像優(yōu)化過(guò)程中使用的優(yōu)先級排序的基本原則: 檢查 SEO 排名 - 檢查不同內容的搜索引擎排名 它們是否在第一頁(yè)?如果他們曾經(jīng)在第一頁(yè)上但掉到第二頁(yè)或第三頁(yè),請關(guān)注這些部分。

  7.圖片提取文件軟件

  我們可能只需要進(jìn)行一些更改即可使這些部分再次排在第一頁(yè)上

  

  8.圖片文字提取

  考慮我們的品牌——我們最近是否改變了我們的品牌?我們的聽(tīng)眾與以前的聽(tīng)眾有什么不同嗎?如果是這種情況,請為我們的老觀(guān)眾找到內容,然后找到一種方法來(lái)更新或重新制作這些內容以與我們當前的觀(guān)眾相關(guān) 查看指標 - 我們可能正在跟蹤很多指標,所以只需檢查它們,我們就可以決定需要刷新的內容。

  9.從文檔中提取圖片

  瀏覽量、點(diǎn)贊數、評論數、分享數等都是需要更改哪些部分的良好指標。比如標題稍微改一下,就可以提高點(diǎn)擊率

  10、有什么工具可以從圖片中提取文字

  讓自己成為領(lǐng)導者——如果我們想在自己周?chē)⒛撤N品牌形象,讓我們被視為我們領(lǐng)域的權威和思想領(lǐng)袖,那么我們絕對應該用新發(fā)現更新舊內容。自從我們發(fā)布這些文章文章 關(guān)于自以來(lái)新發(fā)現或開(kāi)發(fā)的主題。

  然后,向這些添加新信息

  圖片

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区