最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

采集內容插入詞庫

采集內容插入詞庫

采集內容插入詞庫 曝光:手機搜狐網(wǎng)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 104 次瀏覽 ? 2022-12-22 15:25 ? 來(lái)自相關(guān)話(huà)題

  采集內容插入詞庫 曝光:手機搜狐網(wǎng)
  流量站是網(wǎng)站的核心部分,但是對于很多SEO新手來(lái)說(shuō),卻不知道如何操作。 作為新手,我們如何通過(guò)搜索引擎建立一個(gè)高流量的網(wǎng)站呢?
  1、為每個(gè)品類(lèi)建立完整的關(guān)鍵詞庫
  
  比如通過(guò)關(guān)鍵詞“寵物”,我開(kāi)發(fā)了寵物分類(lèi)、寵物護理知識、寵物價(jià)格、寵物圖片等幾大類(lèi),我可以用這些類(lèi)單獨建一個(gè)詞庫,每一個(gè)下面可以展開(kāi)很多子項。 在這里我要告訴大家的是,建詞庫的方法有很多種,但是沒(méi)有一個(gè)核心是明確的。 為每個(gè)類(lèi)別建詞庫的好處是可以通過(guò)詞匯表分析每個(gè)類(lèi)別的優(yōu)化情況,從而為后續的優(yōu)化做充分的規劃。
  2.購買(mǎi)專(zhuān)業(yè)書(shū)籍,掃描文章上傳
  大家都知道百度現在很重視原創(chuàng )內容,對采集站的打擊也很?chē)馈?很多做流量站的朋友都遇到過(guò)一個(gè)問(wèn)題,就是很多流量站的關(guān)鍵詞文章在線(xiàn)。 太多了,每篇文章都自己原創(chuàng ),又費時(shí)又費力,所以很多人選擇采集,結果就是網(wǎng)站的權威性會(huì )降低。 在成為流量站之前,我們必須準備大量的文章。 沒(méi)有團隊能寫(xiě)文章的可以告訴大家一個(gè)方法,抽空去圖書(shū)館買(mǎi)基本相關(guān)的書(shū)回來(lái),然后買(mǎi)支漢王掃描筆掃描上傳。 雖然不能保證100%原創(chuàng ),但確實(shí)很省事,原創(chuàng )也不算太差。 . 在這里需要提醒大家的是,買(mǎi)書(shū)之前最好先百度一下,看看有沒(méi)有人已經(jīng)掃過(guò)書(shū)了。 如果有人已經(jīng)上傳到網(wǎng)上,最好再買(mǎi)一個(gè)。
  
  3.堅持
  其實(shí)無(wú)論做什么工作,堅持都是非常必要的,SEO也是。 一般來(lái)說(shuō),要想做一個(gè)比較客觀(guān)的流量站,關(guān)鍵詞詞庫至少要有1W以上。 我這里說(shuō)的詞庫需要有詞庫的前三頁(yè),那么優(yōu)化的力度可想而知。 如果沒(méi)有無(wú)法持久化的持久化知識。
  最新版本:優(yōu)采云采集器V9.20版自動(dòng)更新cookie功能如何使用
  有財優(yōu)采云采集器于2020年6月15日更新了V9.20版本,本次版本更新中新增了cookie自動(dòng)更新功能。 功能更實(shí)用。 當IP被封,或者特定網(wǎng)頁(yè)必須有cookie時(shí),頁(yè)面才能正常采集。 這時(shí)候可以先獲取cookie,再進(jìn)行頁(yè)面采集。 但是經(jīng)過(guò)測試,發(fā)現功能還是不夠完善。 以下示例用于測試和說(shuō)明過(guò)程中發(fā)現的問(wèn)題。
  1、建立的采集任務(wù)在其他設置的最后一行有一個(gè)update cookie function設置選項。 打開(kāi)頁(yè)面后如下圖所示。 可以參考下圖進(jìn)行設置。 不同的網(wǎng)站在被屏蔽時(shí)會(huì )有不同的返回碼。 需要設置它。 當然也可以根據返回數據的大小來(lái)設置。 設置完成后保存任務(wù),在任務(wù)列表中啟動(dòng)任務(wù)運行。 這里沒(méi)有測試。 在與官方客服溝通時(shí),客服表示當前功能無(wú)法單獨測試使用,整體運行才能生效。
  2.運行任務(wù)后,沒(méi)有采集數據,但是彈出錯誤信息:對象引用沒(méi)有設置到對象實(shí)例,下面是一堆錯誤的代碼,大部分用戶(hù)應該看不懂。 由于這個(gè)任務(wù)是從其他任務(wù)復制過(guò)來(lái)的,所以我又復制了一次任務(wù),運行后還是出現這個(gè)錯誤信息。 創(chuàng )建新任務(wù)后,使用任務(wù)批量編輯功能復制之前的任務(wù)設置,任務(wù)整體運行后錯誤信息消失,但仍然無(wú)法采集。
  
  3、運行后設置的自動(dòng)更新采集cookie沒(méi)有觸發(fā),設置的采集判斷字符串和請求內容長(cháng)度沒(méi)有用。 此時(shí)使用了http代理,但是無(wú)法正常請求數據。
  4、在編輯任務(wù)頁(yè)面采集并測試后,發(fā)現可以正常采集數據,如下圖。 最后重新構建了一個(gè)新的任務(wù),然后除了之前在采集字段中使用的任務(wù)設置外,其他所有任務(wù)都被重寫(xiě)了。 測試通過(guò),可以正常采集數據。 但是目前這個(gè)功能還存在很多問(wèn)題。
  
  總結發(fā)現的問(wèn)題:
  一種。 如果服務(wù)器沒(méi)有響應,此時(shí)設置的錯誤標志和內容返回大小沒(méi)有作用,設置不會(huì )生效。
  b. 最主要的問(wèn)題是這個(gè)功能的請求頁(yè)面在獲取cookie的時(shí)候不會(huì )經(jīng)過(guò)http代理。 如果需要使用代理,只能使用全局代理。 什么是全球代理,現在普遍購買(mǎi)的代理軟件(直接安裝在電腦上,有頁(yè)面的代理軟件,如:ET代理、芝麻代理軟件、熊貓代理等)。 此外,您還可以在互聯(lián)網(wǎng)設置和局域網(wǎng)設置中設置代理。 注意這里設置的代理瀏覽器不能使用火狐代理,可以使用谷歌內核代理。
  C。 總體來(lái)說(shuō)功能很好,但目前還不完善。 畢竟一般認為是IP被封禁后才使用cookies。 但是如何在獲取cookie的時(shí)候不經(jīng)過(guò)代理使用這個(gè)功能呢,希望官方以后能改進(jìn)一下。 查看全部

  采集內容插入詞庫 曝光:手機搜狐網(wǎng)
  流量站是網(wǎng)站的核心部分,但是對于很多SEO新手來(lái)說(shuō),卻不知道如何操作。 作為新手,我們如何通過(guò)搜索引擎建立一個(gè)高流量的網(wǎng)站呢?
  1、為每個(gè)品類(lèi)建立完整的關(guān)鍵詞
  
  比如通過(guò)關(guān)鍵詞“寵物”,我開(kāi)發(fā)了寵物分類(lèi)、寵物護理知識、寵物價(jià)格、寵物圖片等幾大類(lèi),我可以用這些類(lèi)單獨建一個(gè)詞庫,每一個(gè)下面可以展開(kāi)很多子項。 在這里我要告訴大家的是,建詞庫的方法有很多種,但是沒(méi)有一個(gè)核心是明確的。 為每個(gè)類(lèi)別建詞庫的好處是可以通過(guò)詞匯表分析每個(gè)類(lèi)別的優(yōu)化情況,從而為后續的優(yōu)化做充分的規劃。
  2.購買(mǎi)專(zhuān)業(yè)書(shū)籍,掃描文章上傳
  大家都知道百度現在很重視原創(chuàng )內容,對采集站的打擊也很?chē)馈?很多做流量站的朋友都遇到過(guò)一個(gè)問(wèn)題,就是很多流量站的關(guān)鍵詞文章在線(xiàn)。 太多了,每篇文章都自己原創(chuàng ),又費時(shí)又費力,所以很多人選擇采集,結果就是網(wǎng)站的權威性會(huì )降低。 在成為流量站之前,我們必須準備大量的文章。 沒(méi)有團隊能寫(xiě)文章的可以告訴大家一個(gè)方法,抽空去圖書(shū)館買(mǎi)基本相關(guān)的書(shū)回來(lái),然后買(mǎi)支漢王掃描筆掃描上傳。 雖然不能保證100%原創(chuàng ),但確實(shí)很省事,原創(chuàng )也不算太差。 . 在這里需要提醒大家的是,買(mǎi)書(shū)之前最好先百度一下,看看有沒(méi)有人已經(jīng)掃過(guò)書(shū)了。 如果有人已經(jīng)上傳到網(wǎng)上,最好再買(mǎi)一個(gè)。
  
  3.堅持
  其實(shí)無(wú)論做什么工作,堅持都是非常必要的,SEO也是。 一般來(lái)說(shuō),要想做一個(gè)比較客觀(guān)的流量站,關(guān)鍵詞詞庫至少要有1W以上。 我這里說(shuō)的詞庫需要有詞庫的前三頁(yè),那么優(yōu)化的力度可想而知。 如果沒(méi)有無(wú)法持久化的持久化知識。
  最新版本:優(yōu)采云采集器V9.20版自動(dòng)更新cookie功能如何使用
  有財優(yōu)采云采集器于2020年6月15日更新了V9.20版本,本次版本更新中新增了cookie自動(dòng)更新功能。 功能更實(shí)用。 當IP被封,或者特定網(wǎng)頁(yè)必須有cookie時(shí),頁(yè)面才能正常采集。 這時(shí)候可以先獲取cookie,再進(jìn)行頁(yè)面采集。 但是經(jīng)過(guò)測試,發(fā)現功能還是不夠完善。 以下示例用于測試和說(shuō)明過(guò)程中發(fā)現的問(wèn)題。
  1、建立的采集任務(wù)在其他設置的最后一行有一個(gè)update cookie function設置選項。 打開(kāi)頁(yè)面后如下圖所示。 可以參考下圖進(jìn)行設置。 不同的網(wǎng)站在被屏蔽時(shí)會(huì )有不同的返回碼。 需要設置它。 當然也可以根據返回數據的大小來(lái)設置。 設置完成后保存任務(wù),在任務(wù)列表中啟動(dòng)任務(wù)運行。 這里沒(méi)有測試。 在與官方客服溝通時(shí),客服表示當前功能無(wú)法單獨測試使用,整體運行才能生效。
  2.運行任務(wù)后,沒(méi)有采集數據,但是彈出錯誤信息:對象引用沒(méi)有設置到對象實(shí)例,下面是一堆錯誤的代碼,大部分用戶(hù)應該看不懂。 由于這個(gè)任務(wù)是從其他任務(wù)復制過(guò)來(lái)的,所以我又復制了一次任務(wù),運行后還是出現這個(gè)錯誤信息。 創(chuàng )建新任務(wù)后,使用任務(wù)批量編輯功能復制之前的任務(wù)設置,任務(wù)整體運行后錯誤信息消失,但仍然無(wú)法采集。
  
  3、運行后設置的自動(dòng)更新采集cookie沒(méi)有觸發(fā),設置的采集判斷字符串和請求內容長(cháng)度沒(méi)有用。 此時(shí)使用了http代理,但是無(wú)法正常請求數據。
  4、在編輯任務(wù)頁(yè)面采集并測試后,發(fā)現可以正常采集數據,如下圖。 最后重新構建了一個(gè)新的任務(wù),然后除了之前在采集字段中使用的任務(wù)設置外,其他所有任務(wù)都被重寫(xiě)了。 測試通過(guò),可以正常采集數據。 但是目前這個(gè)功能還存在很多問(wèn)題。
  
  總結發(fā)現的問(wèn)題:
  一種。 如果服務(wù)器沒(méi)有響應,此時(shí)設置的錯誤標志和內容返回大小沒(méi)有作用,設置不會(huì )生效。
  b. 最主要的問(wèn)題是這個(gè)功能的請求頁(yè)面在獲取cookie的時(shí)候不會(huì )經(jīng)過(guò)http代理。 如果需要使用代理,只能使用全局代理。 什么是全球代理,現在普遍購買(mǎi)的代理軟件(直接安裝在電腦上,有頁(yè)面的代理軟件,如:ET代理、芝麻代理軟件、熊貓代理等)。 此外,您還可以在互聯(lián)網(wǎng)設置和局域網(wǎng)設置中設置代理。 注意這里設置的代理瀏覽器不能使用火狐代理,可以使用谷歌內核代理。
  C。 總體來(lái)說(shuō)功能很好,但目前還不完善。 畢竟一般認為是IP被封禁后才使用cookies。 但是如何在獲取cookie的時(shí)候不經(jīng)過(guò)代理使用這個(gè)功能呢,希望官方以后能改進(jìn)一下。

最新版本:敏感詞庫下載 2017 最新版收集2017年最新最全敏感詞

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 282 次瀏覽 ? 2022-12-22 13:22 ? 來(lái)自相關(guān)話(huà)題

  最新版本:敏感詞庫下載 2017 最新版收集2017年最新最全敏感詞
  敏感詞庫收錄2017年最新最全的敏感詞庫,收錄2萬(wàn)余條。 它根據不同的行業(yè)進(jìn)行分類(lèi)。 提供txt和xlsx兩種文本格式供用戶(hù)直接導入使用python、php、Java、數據庫。 很方便。
  軟件說(shuō)明
  
  集成多個(gè)敏感詞庫,并添加java實(shí)現敏感詞過(guò)濾的工具類(lèi),需要根據具體業(yè)務(wù)適當調整詞庫內容
  敏感詞合集,共2W+個(gè)敏感詞,已通過(guò)程序算法去除重復項。
  最新在線(xiàn)詞庫
  
  使用說(shuō)明
  考慮到各個(gè)行業(yè)需要的分詞規則不同,這里沒(méi)有合并
  文件為txt、xlsx文本,用于敏感詞過(guò)濾
  相關(guān)搜索:敏感
  教程:流氓SEO優(yōu)質(zhì)外鏈發(fā)布工具綠色版(SEO自動(dòng)發(fā)外鏈推廣軟件)1.2最新版
  Rogue SEO高質(zhì)量外鏈發(fā)布工具免費下載。 大家都知道現在建網(wǎng)站需要外鏈建設。 今天為大家帶來(lái)Rogue SEO優(yōu)質(zhì)外鏈發(fā)布工具。 是維維小編整理的一款綠色實(shí)用的外鏈SEO自動(dòng)推廣軟件,可以免費為您的網(wǎng)站在線(xiàn)添加大量外鏈,本軟件適用于無(wú)法建立大量外鏈的新站短時(shí)間內鏈接,可以幫助站長(cháng)提高對外可以說(shuō)是草根站長(cháng)必備的站長(cháng)工具,喜歡就用吧。
  特征
  
  外鏈工具只是一個(gè)輔助工具。 一般適用于短時(shí)間內無(wú)法建立大量外鏈的新站。 新站一天做一到兩次,一周左右就能看到效果。
  有了這個(gè)工具,您可以在網(wǎng)站添加外鏈,大大提高了發(fā)布外鏈的效率。 是草根網(wǎng)站必備的網(wǎng)站工具。
  超級SEO外鏈工具采集了上千個(gè)網(wǎng)站網(wǎng)址,包括IP查詢(xún)、SEO綜合信息查詢(xún)、SEO外鏈數量查詢(xún)、Alexa排名查詢(xún)、PR值查詢(xún)。
  由于這些網(wǎng)址大部分都有查詢(xún)記錄,而百度、谷歌等搜索引擎會(huì )抓取這些網(wǎng)址,所以在使用SEO外鏈工具在線(xiàn)增加SEO外鏈時(shí),SEO外鏈工具會(huì )自動(dòng)查詢(xún)這幾千個(gè)URL。 以達到留下無(wú)數記錄供搜索引擎抓取的目的。 =
  
  當搜索引擎抓取它時(shí),它會(huì )將反向鏈接添加到刷鏈接的 URL 中。 通常,您在刷牙后的幾天內就能看到明顯的改善。
  上一篇:盟都電子發(fā)票核銷(xiāo)軟件綠色版(盟多發(fā)票管理軟件)1.2免費版
  下一篇:深藍密碼本地存儲綠色版(本地密碼管理軟件)v3.0最新版 查看全部

  最新版本:敏感詞庫下載 2017 最新版收集2017年最新最全敏感詞
  敏感詞庫收錄2017年最新最全的敏感詞庫,收錄2萬(wàn)余條。 它根據不同的行業(yè)進(jìn)行分類(lèi)。 提供txt和xlsx兩種文本格式供用戶(hù)直接導入使用python、php、Java、數據庫。 很方便。
  軟件說(shuō)明
  
  集成多個(gè)敏感詞庫,并添加java實(shí)現敏感詞過(guò)濾的工具類(lèi),需要根據具體業(yè)務(wù)適當調整詞庫內容
  敏感詞合集,共2W+個(gè)敏感詞,已通過(guò)程序算法去除重復項。
  最新在線(xiàn)詞庫
  
  使用說(shuō)明
  考慮到各個(gè)行業(yè)需要的分詞規則不同,這里沒(méi)有合并
  文件為txt、xlsx文本,用于敏感詞過(guò)濾
  相關(guān)搜索:敏感
  教程:流氓SEO優(yōu)質(zhì)外鏈發(fā)布工具綠色版(SEO自動(dòng)發(fā)外鏈推廣軟件)1.2最新版
  Rogue SEO高質(zhì)量外鏈發(fā)布工具免費下載。 大家都知道現在建網(wǎng)站需要外鏈建設。 今天為大家帶來(lái)Rogue SEO優(yōu)質(zhì)外鏈發(fā)布工具。 是維維小編整理的一款綠色實(shí)用的外鏈SEO自動(dòng)推廣軟件,可以免費為您的網(wǎng)站在線(xiàn)添加大量外鏈,本軟件適用于無(wú)法建立大量外鏈的新站短時(shí)間內鏈接,可以幫助站長(cháng)提高對外可以說(shuō)是草根站長(cháng)必備的站長(cháng)工具,喜歡就用吧。
  特征
  
  外鏈工具只是一個(gè)輔助工具。 一般適用于短時(shí)間內無(wú)法建立大量外鏈的新站。 新站一天做一到兩次,一周左右就能看到效果。
  有了這個(gè)工具,您可以在網(wǎng)站添加外鏈,大大提高了發(fā)布外鏈的效率。 是草根網(wǎng)站必備的網(wǎng)站工具。
  超級SEO外鏈工具采集了上千個(gè)網(wǎng)站網(wǎng)址,包括IP查詢(xún)、SEO綜合信息查詢(xún)、SEO外鏈數量查詢(xún)、Alexa排名查詢(xún)、PR值查詢(xún)。
  由于這些網(wǎng)址大部分都有查詢(xún)記錄,而百度、谷歌等搜索引擎會(huì )抓取這些網(wǎng)址,所以在使用SEO外鏈工具在線(xiàn)增加SEO外鏈時(shí),SEO外鏈工具會(huì )自動(dòng)查詢(xún)這幾千個(gè)URL。 以達到留下無(wú)數記錄供搜索引擎抓取的目的。 =
  
  當搜索引擎抓取它時(shí),它會(huì )將反向鏈接添加到刷鏈接的 URL 中。 通常,您在刷牙后的幾天內就能看到明顯的改善。
  上一篇:盟都電子發(fā)票核銷(xiāo)軟件綠色版(盟多發(fā)票管理軟件)1.2免費版
  下一篇:深藍密碼本地存儲綠色版(本地密碼管理軟件)v3.0最新版

技巧:詞庫網(wǎng)關(guān)鍵詞挖掘工具

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 113 次瀏覽 ? 2022-12-11 07:45 ? 來(lái)自相關(guān)話(huà)題

  技巧:詞庫網(wǎng)關(guān)鍵詞挖掘工具
  關(guān)鍵詞 挖掘工具
  本文介紹優(yōu)采云采集詞庫網(wǎng)絡(luò )長(cháng)尾關(guān)鍵詞的使用方法。長(cháng)尾關(guān)鍵詞挖掘對于站長(cháng)來(lái)說(shuō)是一項非常重要的技能,尾巴在長(cháng)尾理論中的作用不容忽視。使用長(cháng)尾理論制定關(guān)鍵詞搜索引擎營(yíng)銷(xiāo)策略非常有效。
  雖然核心關(guān)鍵詞或者比較流行的關(guān)鍵詞帶來(lái)的流量會(huì )超過(guò)總流量的一半,但是那些關(guān)鍵詞(長(cháng)尾關(guān)鍵詞)的整合也能帶來(lái)很多網(wǎng)站 的流量,但正是這些長(cháng)尾 關(guān)鍵詞 帶來(lái)了更高的客戶(hù)轉化率。
  采集網(wǎng)站:
  本文以一組(關(guān)鍵詞 100個(gè)B2B行業(yè)有索引)為例,對采集所有與該組關(guān)鍵詞相關(guān)的長(cháng)尾關(guān)鍵詞。
  采集內容包括:搜索后的長(cháng)尾關(guān)鍵詞、360索引、該長(cháng)尾關(guān)鍵詞的搜索量和搜索
  四個(gè)有效字段是搜索量的第一個(gè)網(wǎng)站(頁(yè)面)。
  使用功能點(diǎn):
  ●循環(huán)文字輸入
  ● XPath
  XPath 入門(mén)教程 1
  xpath 2簡(jiǎn)介
  相對 XPATH 教程 - 版本 7.0
  ●數字翻頁(yè)
  第 1 步:創(chuàng )建 采集 任務(wù)
  1)進(jìn)入主界面,選擇“自定義采集”
  2) 將采集的網(wǎng)址復制粘貼到網(wǎng)站輸入框,點(diǎn)擊“保存網(wǎng)址”
  第 2 步:創(chuàng )建循環(huán)以輸入文本
  1)打開(kāi)網(wǎng)頁(yè)后,點(diǎn)擊右上角的進(jìn)程,然后從左邊拖一個(gè)循環(huán)進(jìn)入
  
  2)點(diǎn)擊循環(huán)步驟,在其高級選項中選擇文本列表,然后點(diǎn)擊下面的A,將復制的關(guān)鍵詞全部粘貼進(jìn)去,注意換行,然后點(diǎn)擊確定保存。
  3)創(chuàng )建循環(huán)文字輸入后,點(diǎn)擊頁(yè)面搜索框創(chuàng )建輸入文字的步驟,
  注意,
  您無(wú)需輸入任何文本。如果自動(dòng)生成的在循環(huán)外,就把它拖進(jìn)去,然后檢查循環(huán)。
  4)右鍵選擇頁(yè)面上的搜索按鈕,設置點(diǎn)擊元素。這樣就設置了循環(huán)文本輸入,搜索到的長(cháng)尾關(guān)鍵詞在流程的底部。
  第 3 步:創(chuàng )建數字翻轉
  1)由于搜索結果頁(yè)沒(méi)有下一頁(yè)按鈕,只有頁(yè)數,所以我們需要利用xpath的一些相關(guān)知識來(lái)設置特殊頁(yè)數。先到火狐瀏覽器打開(kāi)網(wǎng)頁(yè)搜索對應的關(guān)鍵詞,打開(kāi)瀏覽器右上角
  firebug工具——小瓢蟲(chóng)(不懂的同學(xué)可以去官網(wǎng)教程看對應的xpath教程)
  2)翻到頁(yè)面底部,找到數字位置的源代碼。您可以看到當前頁(yè)面上的數字與其他數字不同。源碼中節點(diǎn)的屬性類(lèi)不一樣
  3) 收入我們首先定位到此頁(yè)面的人數
  單詞位置,手寫(xiě)xpath://div[@id="page"]/a[contains(@class,'current')]
  4)復用固定函數
  繼兄弟
  定位到本節點(diǎn)之后的第一個(gè)相似節點(diǎn),注意這個(gè)函數后面的::是固定格式,a[1]指的是本節點(diǎn)之后的第一個(gè)相似節點(diǎn)
  5)翻頁(yè)后可以查看到下一頁(yè)的數字正常定位,說(shuō)明xpath沒(méi)有問(wèn)題
  6)回到優(yōu)采云,在左邊的流程頁(yè)面拖一個(gè)循環(huán),在高級選項中選擇單個(gè)元素,將xpath放入其中,點(diǎn)擊確定保存
  
  7)然后從左邊拖一個(gè)點(diǎn)擊元素,在高級選項里勾選循環(huán),就創(chuàng )建了特殊的數字翻頁(yè)循環(huán)
  步
  4:創(chuàng )建循環(huán)列表
  1)我們安裝了常規的創(chuàng )建循環(huán)列表的方法,發(fā)現在搜索結果后的表格中出現了這一整行無(wú)用的信息。
  2)因此,在優(yōu)采云中無(wú)法正常創(chuàng )建循環(huán)列表,因為這個(gè)無(wú)用的信息導致優(yōu)采云自動(dòng)生成的列表定位不準確
  3)所以我們還是要用到xpath的知識,去火狐瀏覽器手動(dòng)創(chuàng )建一個(gè)循環(huán)列表的xpath。首先定位到第一行第一列的源代碼位置
  4)找到每一行的源碼位置,發(fā)現都是tbody父節點(diǎn)下的同一個(gè)tr標簽
  5)觀(guān)察每行真正的tr節點(diǎn)有一個(gè)共同的屬性“id”,id屬性有一個(gè)共同的tr值,所以我們以此為共同點(diǎn),手寫(xiě)xpath:.//tbody/tr [收錄(@id,'tr')]
  , 定位到所有tr節點(diǎn),并過(guò)濾掉所有無(wú)用的tr,這樣循環(huán)鏈表的xpath就創(chuàng )建好了
  6)然后從左邊拖出一個(gè)循環(huán),選擇不固定的元素作為循環(huán)模式,拖動(dòng)
  將xpath放入優(yōu)采云,以第一個(gè)循環(huán)為例,設置對應的采集字段(因為有些字段在源碼中沒(méi)有,所以采集無(wú)法訪(fǎng)問(wèn)),
  第 5 步:開(kāi)始 采集
  1)點(diǎn)擊保存任務(wù)后,運行采集,以本地采集為例
  2) 采集完成后,會(huì )彈出提示,選擇“導出數據”。選擇“適當的導出方法”導出采集好的數據。
  心得:技巧:哪個(gè)偽原創(chuàng )工具最好用?最受大家喜歡?
  簡(jiǎn)單的 采集器
  提示:哪種 偽原創(chuàng ) 工具最適合使用?最喜歡的?
  哪個(gè) 偽原創(chuàng ) 工具最好用?最喜歡的?每個(gè) 偽原創(chuàng ) 都會(huì )問(wèn)這個(gè)問(wèn)題。比如今天我就詳細講解一下各個(gè)偽原創(chuàng )工具的優(yōu)缺點(diǎn),以及各個(gè)偽原創(chuàng )工具的使用方法。事實(shí)上,偽原創(chuàng )工具是最常用于排版和編輯的工具。為什么有些人說(shuō) 偽原創(chuàng ) 工具不好?因為那些垃圾偽原創(chuàng )工具往往是多個(gè)偽原創(chuàng )工具的集合,同時(shí)又起到降低原創(chuàng )度的作用,所以會(huì )被認為是垃圾工具。
  
  但是今天,我想對偽原創(chuàng )進(jìn)行分類(lèi),然后告訴大家各個(gè)工具的優(yōu)缺點(diǎn)。第一點(diǎn):快狗偽原創(chuàng ):快狗偽原創(chuàng )是一款兼容PC端和移動(dòng)端的偽原創(chuàng )小插件,支持27種主流偽原創(chuàng )工具,例如:模板、主題, platform first release, github utility, hexo utility, bootstrap utility, picture偽原創(chuàng )tool, boil偽原創(chuàng )tool, resume偽原創(chuàng )tool, redirect偽原創(chuàng )tool , Blog Auto 偽原創(chuàng ) 工具,知乎偽原創(chuàng ) 工具,紅包 偽原創(chuàng ) 工具,關(guān)鍵詞 自動(dòng) 偽原創(chuàng ) 工具,自定義 偽原創(chuàng ) 工具,偽原創(chuàng )bulk偽原創(chuàng )工具,解鎖偽原創(chuàng )工具,sublimetextbulk偽原創(chuàng )工具,blogger偽原創(chuàng )工具,wordpress偽原創(chuàng )工具,powerbi偽原創(chuàng )工具, imageoptima偽原創(chuàng )工具,
  第二點(diǎn):vue偽原創(chuàng )這是一個(gè)網(wǎng)頁(yè)偽原創(chuàng )工具,可以制作長(cháng)圖網(wǎng)頁(yè)。優(yōu)點(diǎn)是可以通過(guò)切換圖片來(lái)驅動(dòng)文章的內容。最能帶動(dòng)閱讀的圖片放在首頁(yè)。插件方法很簡(jiǎn)單,上傳你需要的圖片,然后一鍵生成長(cháng)圖標。第三點(diǎn):soda偽原創(chuàng )這是一個(gè)可以發(fā)工資的軟件偽原創(chuàng )。適用于工資卡數據透明的excel格式的文件和表格。
  今天,小編提醒大家注意微信中的這些取消推送功能。這個(gè)取消推送功能會(huì )直接在微信公眾號里屏蔽,所以遇到這些現象一定要及時(shí)關(guān)注,千萬(wàn)別生了病。第四點(diǎn):Fisheye Express偽原創(chuàng )這是一個(gè)偽原創(chuàng )選品工具,每天推薦不同類(lèi)型的文章偽原創(chuàng ),但實(shí)際上推薦的是一些長(cháng)尾的,不用多花時(shí)間寫(xiě),大家可以點(diǎn)個(gè)文章,網(wǎng)賺黨抓熱點(diǎn)。
  
  第五點(diǎn):500元相冊本工具特別適合直接在500元相冊中搜索關(guān)鍵詞,或者通過(guò)百度指數、谷歌趨勢、360趨勢中的熱門(mén)詞搜索。的所有字都是在相冊里找到編輯的。然后,我們之前說(shuō)過(guò),你一定要說(shuō)你不會(huì )寫(xiě)!小編想說(shuō)的是,不要怕,復制文章,去百度指數看看點(diǎn)擊率。事實(shí)上,百度指數現在也有各種偽原創(chuàng )工具。比如我們看圖中5點(diǎn)的百度指數,這就是百度。
  偽原創(chuàng ) 沒(méi)有工具(電子商務(wù) 采集器 是免費的 關(guān)鍵詞 排名相關(guān)工具)
  優(yōu)采云采集器是用戶(hù)提供的網(wǎng)站關(guān)鍵詞,自動(dòng)在云端采集相關(guān)文章并發(fā)布給用戶(hù)網(wǎng)站 采集器??梢宰詣?dòng)識別各種網(wǎng)頁(yè)的標題、正文等信息,無(wú)需用戶(hù)編寫(xiě)任何采集規則,即可實(shí)現全網(wǎng)采集。采集收到內容后,會(huì )自動(dòng)計算內容與集合關(guān)鍵詞的相關(guān)性,只推送相關(guān)的文章給用戶(hù)。支持標題前綴、關(guān)鍵詞自動(dòng)加粗、插入固定鏈接、自動(dòng)提取Tag標簽、自動(dòng)內鏈、自動(dòng)圖片匹配、自動(dòng)偽原創(chuàng )、內容過(guò)濾和替換、電話(huà)號碼和URL清理、定時(shí)采集、百度主動(dòng)提交等一系列SEO功能,用戶(hù)只需設置關(guān)鍵詞及相關(guān)需求,即可實(shí)現網(wǎng)站全托管零內容更新維護。網(wǎng)站的數量沒(méi)有限制,無(wú)論是單個(gè)網(wǎng)站還是大批量的站群,都可以非常方便的管理。 查看全部

  技巧:詞庫網(wǎng)關(guān)鍵詞挖掘工具
  關(guān)鍵詞 挖掘工具
  本文介紹優(yōu)采云采集詞庫網(wǎng)絡(luò )長(cháng)尾關(guān)鍵詞的使用方法。長(cháng)尾關(guān)鍵詞挖掘對于站長(cháng)來(lái)說(shuō)是一項非常重要的技能,尾巴在長(cháng)尾理論中的作用不容忽視。使用長(cháng)尾理論制定關(guān)鍵詞搜索引擎營(yíng)銷(xiāo)策略非常有效。
  雖然核心關(guān)鍵詞或者比較流行的關(guān)鍵詞帶來(lái)的流量會(huì )超過(guò)總流量的一半,但是那些關(guān)鍵詞(長(cháng)尾關(guān)鍵詞)的整合也能帶來(lái)很多網(wǎng)站 的流量,但正是這些長(cháng)尾 關(guān)鍵詞 帶來(lái)了更高的客戶(hù)轉化率。
  采集網(wǎng)站:
  本文以一組(關(guān)鍵詞 100個(gè)B2B行業(yè)有索引)為例,對采集所有與該組關(guān)鍵詞相關(guān)的長(cháng)尾關(guān)鍵詞。
  采集內容包括:搜索后的長(cháng)尾關(guān)鍵詞、360索引、該長(cháng)尾關(guān)鍵詞的搜索量和搜索
  四個(gè)有效字段是搜索量的第一個(gè)網(wǎng)站(頁(yè)面)。
  使用功能點(diǎn):
  ●循環(huán)文字輸入
  ● XPath
  XPath 入門(mén)教程 1
  xpath 2簡(jiǎn)介
  相對 XPATH 教程 - 版本 7.0
  ●數字翻頁(yè)
  第 1 步:創(chuàng )建 采集 任務(wù)
  1)進(jìn)入主界面,選擇“自定義采集”
  2) 將采集的網(wǎng)址復制粘貼到網(wǎng)站輸入框,點(diǎn)擊“保存網(wǎng)址”
  第 2 步:創(chuàng )建循環(huán)以輸入文本
  1)打開(kāi)網(wǎng)頁(yè)后,點(diǎn)擊右上角的進(jìn)程,然后從左邊拖一個(gè)循環(huán)進(jìn)入
  
  2)點(diǎn)擊循環(huán)步驟,在其高級選項中選擇文本列表,然后點(diǎn)擊下面的A,將復制的關(guān)鍵詞全部粘貼進(jìn)去,注意換行,然后點(diǎn)擊確定保存。
  3)創(chuàng )建循環(huán)文字輸入后,點(diǎn)擊頁(yè)面搜索框創(chuàng )建輸入文字的步驟,
  注意,
  您無(wú)需輸入任何文本。如果自動(dòng)生成的在循環(huán)外,就把它拖進(jìn)去,然后檢查循環(huán)。
  4)右鍵選擇頁(yè)面上的搜索按鈕,設置點(diǎn)擊元素。這樣就設置了循環(huán)文本輸入,搜索到的長(cháng)尾關(guān)鍵詞在流程的底部。
  第 3 步:創(chuàng )建數字翻轉
  1)由于搜索結果頁(yè)沒(méi)有下一頁(yè)按鈕,只有頁(yè)數,所以我們需要利用xpath的一些相關(guān)知識來(lái)設置特殊頁(yè)數。先到火狐瀏覽器打開(kāi)網(wǎng)頁(yè)搜索對應的關(guān)鍵詞,打開(kāi)瀏覽器右上角
  firebug工具——小瓢蟲(chóng)(不懂的同學(xué)可以去官網(wǎng)教程看對應的xpath教程)
  2)翻到頁(yè)面底部,找到數字位置的源代碼。您可以看到當前頁(yè)面上的數字與其他數字不同。源碼中節點(diǎn)的屬性類(lèi)不一樣
  3) 收入我們首先定位到此頁(yè)面的人數
  單詞位置,手寫(xiě)xpath://div[@id="page"]/a[contains(@class,'current')]
  4)復用固定函數
  繼兄弟
  定位到本節點(diǎn)之后的第一個(gè)相似節點(diǎn),注意這個(gè)函數后面的::是固定格式,a[1]指的是本節點(diǎn)之后的第一個(gè)相似節點(diǎn)
  5)翻頁(yè)后可以查看到下一頁(yè)的數字正常定位,說(shuō)明xpath沒(méi)有問(wèn)題
  6)回到優(yōu)采云,在左邊的流程頁(yè)面拖一個(gè)循環(huán),在高級選項中選擇單個(gè)元素,將xpath放入其中,點(diǎn)擊確定保存
  
  7)然后從左邊拖一個(gè)點(diǎn)擊元素,在高級選項里勾選循環(huán),就創(chuàng )建了特殊的數字翻頁(yè)循環(huán)
  步
  4:創(chuàng )建循環(huán)列表
  1)我們安裝了常規的創(chuàng )建循環(huán)列表的方法,發(fā)現在搜索結果后的表格中出現了這一整行無(wú)用的信息。
  2)因此,在優(yōu)采云中無(wú)法正常創(chuàng )建循環(huán)列表,因為這個(gè)無(wú)用的信息導致優(yōu)采云自動(dòng)生成的列表定位不準確
  3)所以我們還是要用到xpath的知識,去火狐瀏覽器手動(dòng)創(chuàng )建一個(gè)循環(huán)列表的xpath。首先定位到第一行第一列的源代碼位置
  4)找到每一行的源碼位置,發(fā)現都是tbody父節點(diǎn)下的同一個(gè)tr標簽
  5)觀(guān)察每行真正的tr節點(diǎn)有一個(gè)共同的屬性“id”,id屬性有一個(gè)共同的tr值,所以我們以此為共同點(diǎn),手寫(xiě)xpath:.//tbody/tr [收錄(@id,'tr')]
  , 定位到所有tr節點(diǎn),并過(guò)濾掉所有無(wú)用的tr,這樣循環(huán)鏈表的xpath就創(chuàng )建好了
  6)然后從左邊拖出一個(gè)循環(huán),選擇不固定的元素作為循環(huán)模式,拖動(dòng)
  將xpath放入優(yōu)采云,以第一個(gè)循環(huán)為例,設置對應的采集字段(因為有些字段在源碼中沒(méi)有,所以采集無(wú)法訪(fǎng)問(wèn)),
  第 5 步:開(kāi)始 采集
  1)點(diǎn)擊保存任務(wù)后,運行采集,以本地采集為例
  2) 采集完成后,會(huì )彈出提示,選擇“導出數據”。選擇“適當的導出方法”導出采集好的數據。
  心得:技巧:哪個(gè)偽原創(chuàng )工具最好用?最受大家喜歡?
  簡(jiǎn)單的 采集
  提示:哪種 偽原創(chuàng ) 工具最適合使用?最喜歡的?
  哪個(gè) 偽原創(chuàng ) 工具最好用?最喜歡的?每個(gè) 偽原創(chuàng ) 都會(huì )問(wèn)這個(gè)問(wèn)題。比如今天我就詳細講解一下各個(gè)偽原創(chuàng )工具的優(yōu)缺點(diǎn),以及各個(gè)偽原創(chuàng )工具的使用方法。事實(shí)上,偽原創(chuàng )工具是最常用于排版和編輯的工具。為什么有些人說(shuō) 偽原創(chuàng ) 工具不好?因為那些垃圾偽原創(chuàng )工具往往是多個(gè)偽原創(chuàng )工具的集合,同時(shí)又起到降低原創(chuàng )度的作用,所以會(huì )被認為是垃圾工具。
  
  但是今天,我想對偽原創(chuàng )進(jìn)行分類(lèi),然后告訴大家各個(gè)工具的優(yōu)缺點(diǎn)。第一點(diǎn):快狗偽原創(chuàng ):快狗偽原創(chuàng )是一款兼容PC端和移動(dòng)端的偽原創(chuàng )小插件,支持27種主流偽原創(chuàng )工具,例如:模板、主題, platform first release, github utility, hexo utility, bootstrap utility, picture偽原創(chuàng )tool, boil偽原創(chuàng )tool, resume偽原創(chuàng )tool, redirect偽原創(chuàng )tool , Blog Auto 偽原創(chuàng ) 工具,知乎偽原創(chuàng ) 工具,紅包 偽原創(chuàng ) 工具,關(guān)鍵詞 自動(dòng) 偽原創(chuàng ) 工具,自定義 偽原創(chuàng ) 工具,偽原創(chuàng )bulk偽原創(chuàng )工具,解鎖偽原創(chuàng )工具,sublimetextbulk偽原創(chuàng )工具,blogger偽原創(chuàng )工具,wordpress偽原創(chuàng )工具,powerbi偽原創(chuàng )工具, imageoptima偽原創(chuàng )工具,
  第二點(diǎn):vue偽原創(chuàng )這是一個(gè)網(wǎng)頁(yè)偽原創(chuàng )工具,可以制作長(cháng)圖網(wǎng)頁(yè)。優(yōu)點(diǎn)是可以通過(guò)切換圖片來(lái)驅動(dòng)文章的內容。最能帶動(dòng)閱讀的圖片放在首頁(yè)。插件方法很簡(jiǎn)單,上傳你需要的圖片,然后一鍵生成長(cháng)圖標。第三點(diǎn):soda偽原創(chuàng )這是一個(gè)可以發(fā)工資的軟件偽原創(chuàng )。適用于工資卡數據透明的excel格式的文件和表格。
  今天,小編提醒大家注意微信中的這些取消推送功能。這個(gè)取消推送功能會(huì )直接在微信公眾號里屏蔽,所以遇到這些現象一定要及時(shí)關(guān)注,千萬(wàn)別生了病。第四點(diǎn):Fisheye Express偽原創(chuàng )這是一個(gè)偽原創(chuàng )選品工具,每天推薦不同類(lèi)型的文章偽原創(chuàng ),但實(shí)際上推薦的是一些長(cháng)尾的,不用多花時(shí)間寫(xiě),大家可以點(diǎn)個(gè)文章,網(wǎng)賺黨抓熱點(diǎn)。
  
  第五點(diǎn):500元相冊本工具特別適合直接在500元相冊中搜索關(guān)鍵詞,或者通過(guò)百度指數、谷歌趨勢、360趨勢中的熱門(mén)詞搜索。的所有字都是在相冊里找到編輯的。然后,我們之前說(shuō)過(guò),你一定要說(shuō)你不會(huì )寫(xiě)!小編想說(shuō)的是,不要怕,復制文章,去百度指數看看點(diǎn)擊率。事實(shí)上,百度指數現在也有各種偽原創(chuàng )工具。比如我們看圖中5點(diǎn)的百度指數,這就是百度。
  偽原創(chuàng ) 沒(méi)有工具(電子商務(wù) 采集器 是免費的 關(guān)鍵詞 排名相關(guān)工具)
  優(yōu)采云采集器是用戶(hù)提供的網(wǎng)站關(guān)鍵詞,自動(dòng)在云端采集相關(guān)文章并發(fā)布給用戶(hù)網(wǎng)站 采集器??梢宰詣?dòng)識別各種網(wǎng)頁(yè)的標題、正文等信息,無(wú)需用戶(hù)編寫(xiě)任何采集規則,即可實(shí)現全網(wǎng)采集。采集收到內容后,會(huì )自動(dòng)計算內容與集合關(guān)鍵詞的相關(guān)性,只推送相關(guān)的文章給用戶(hù)。支持標題前綴、關(guān)鍵詞自動(dòng)加粗、插入固定鏈接、自動(dòng)提取Tag標簽、自動(dòng)內鏈、自動(dòng)圖片匹配、自動(dòng)偽原創(chuàng )、內容過(guò)濾和替換、電話(huà)號碼和URL清理、定時(shí)采集、百度主動(dòng)提交等一系列SEO功能,用戶(hù)只需設置關(guān)鍵詞及相關(guān)需求,即可實(shí)現網(wǎng)站全托管零內容更新維護。網(wǎng)站的數量沒(méi)有限制,無(wú)論是單個(gè)網(wǎng)站還是大批量的站群,都可以非常方便的管理。

教程:采集內容插入詞庫,參照如何通過(guò)百度學(xué)會(huì )編程?(圖)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 65 次瀏覽 ? 2022-12-10 01:12 ? 來(lái)自相關(guān)話(huà)題

  教程:采集內容插入詞庫,參照如何通過(guò)百度學(xué)會(huì )編程?(圖)
  采集內容插入詞庫,
  詞庫導入是指把搜索引擎認可的網(wǎng)站的pv與流量單價(jià)進(jìn)行合理的乘積,再從搜索引擎中提取詞匯并組合成單獨的詞匯出現在搜索結果中,通過(guò)某種方式(網(wǎng)頁(yè)鏈接,js等)使用戶(hù)自主選擇出現搜索結果中的詞匯(通常就是我們??吹降摹爸?-軟文--第一位網(wǎng)頁(yè)”),另外還有一種基于企業(yè)自身要求來(lái)選擇詞匯,但必須以真實(shí)有效詞匯出現。
  全站pv/uv及流量相對高的網(wǎng)站標定,匹配相應的標準詞,然后展示給用戶(hù)。
  參照如何通過(guò)百度學(xué)會(huì )編程?這個(gè)回答
  
  百度詞庫,
  feed流標準詞庫的表示方法。目前還沒(méi)有人提到這個(gè)問(wèn)題,不過(guò)這是seo的一部分,大家應該都一樣。
  那就是根據網(wǎng)站訪(fǎng)問(wèn)原始url中,詞條包含詞,通過(guò)抓取網(wǎng)站內容,并根據關(guān)鍵詞和網(wǎng)站內容組合出新的一個(gè)關(guān)鍵詞出來(lái)。
  前端一般都是sitemap注入,使用蜘蛛抓取蜘蛛將搜索結果中url發(fā)送給前端來(lái)源。詞庫一般都是通過(guò)百度爬蟲(chóng)自身爬取的網(wǎng)站,一般情況下如果根據url里面不出現字的話(huà),
  有標定之后,利用sprite、spring等構建,直接把url發(fā)送給前端去爬,
  
  解析url發(fā)送詞庫詞
  1、搜索、解析url中的標題、描述、關(guān)鍵詞;
  2、根據解析結果在serp中,
  3、通過(guò)serp相關(guān)性匹配出這些詞,
  4、完成展示; 查看全部

  教程:采集內容插入詞庫,參照如何通過(guò)百度學(xué)會(huì )編程?(圖)
  采集內容插入詞庫,
  詞庫導入是指把搜索引擎認可的網(wǎng)站的pv與流量單價(jià)進(jìn)行合理的乘積,再從搜索引擎中提取詞匯并組合成單獨的詞匯出現在搜索結果中,通過(guò)某種方式(網(wǎng)頁(yè)鏈接,js等)使用戶(hù)自主選擇出現搜索結果中的詞匯(通常就是我們??吹降摹爸?-軟文--第一位網(wǎng)頁(yè)”),另外還有一種基于企業(yè)自身要求來(lái)選擇詞匯,但必須以真實(shí)有效詞匯出現。
  全站pv/uv及流量相對高的網(wǎng)站標定,匹配相應的標準詞,然后展示給用戶(hù)。
  參照如何通過(guò)百度學(xué)會(huì )編程?這個(gè)回答
  
  百度詞庫,
  feed流標準詞庫的表示方法。目前還沒(méi)有人提到這個(gè)問(wèn)題,不過(guò)這是seo的一部分,大家應該都一樣。
  那就是根據網(wǎng)站訪(fǎng)問(wèn)原始url中,詞條包含詞,通過(guò)抓取網(wǎng)站內容,并根據關(guān)鍵詞和網(wǎng)站內容組合出新的一個(gè)關(guān)鍵詞出來(lái)。
  前端一般都是sitemap注入,使用蜘蛛抓取蜘蛛將搜索結果中url發(fā)送給前端來(lái)源。詞庫一般都是通過(guò)百度爬蟲(chóng)自身爬取的網(wǎng)站,一般情況下如果根據url里面不出現字的話(huà),
  有標定之后,利用sprite、spring等構建,直接把url發(fā)送給前端去爬,
  
  解析url發(fā)送詞庫詞
  1、搜索、解析url中的標題、描述、關(guān)鍵詞;
  2、根據解析結果在serp中,
  3、通過(guò)serp相關(guān)性匹配出這些詞,
  4、完成展示;

采集內容插入詞庫 行業(yè)解決方案:SaaS 投手,玩轉 SEO 生態(tài)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 104 次瀏覽 ? 2022-12-05 01:56 ? 來(lái)自相關(guān)話(huà)題

  采集內容插入詞庫 行業(yè)解決方案:SaaS 投手,玩轉 SEO 生態(tài)
  SaaS投手,玩轉SEO生態(tài)
  通訊社
  2022-07-13 11:41 北京
  打開(kāi)網(wǎng)易新聞查看精彩圖片
  文字 | 顧海松搜索營(yíng)銷(xiāo)專(zhuān)家
  整理 | 易圈
  盡管新的營(yíng)銷(xiāo)方式層出不窮,但搜索營(yíng)銷(xiāo)仍然是SaaS企業(yè)重要的營(yíng)銷(xiāo)渠道。搜索引擎掌握了巨大的流量,是用戶(hù)了解信息的首選渠道。SEM(Search Engine Marketing)和SEO(Search Engine Optimization)都是SaaS公司需要努力去玩的策略。
  本次分享整理自崔牛時(shí)代,由搜索營(yíng)銷(xiāo)專(zhuān)家、Martech王國經(jīng)理顧海松帶來(lái)的主題分享《SaaS企業(yè)如何玩轉搜索生態(tài)》,主要拆解了搜索的趨勢與本質(zhì),而站內優(yōu)化扮演著(zhù)重要角色在診斷評估方面,關(guān)鍵詞研究、創(chuàng )建友好站點(diǎn)、發(fā)布站點(diǎn)鏈接、五個(gè)節點(diǎn)的效果評估,以及避免常見(jiàn)作弊手段的建議。牛頭CMO頻道整理提取主要資料,供學(xué)習參考。
  全文核心內容:
  1. 搜索的趨勢和性質(zhì)
  2.站點(diǎn)優(yōu)化的核心邏輯
  三、內容生態(tài)的基本解決方案
  4.如何避免常見(jiàn)的作弊手段
  搜索的趨勢和本質(zhì)
  搜索的本質(zhì)是由意圖觸發(fā)的,其特點(diǎn)是用戶(hù)想要查詢(xún)特定的信息,而不是像原生廣告那樣被人群無(wú)意中瀏覽或大量營(yíng)銷(xiāo)。這是搜索點(diǎn)擊與意外瀏覽點(diǎn)擊觸發(fā)的先決條件的根本區別。由于這種特殊性,搜索流量對營(yíng)銷(xiāo)人員來(lái)說(shuō)比其他網(wǎng)絡(luò )流量更有價(jià)值。
  根據StatCounte提供的2022年5月全球搜索市場(chǎng)份額數據,谷歌市場(chǎng)份額占比92.48%;Bing的市場(chǎng)份額占3.08%;雅虎市場(chǎng)份額占1.30%;百度市場(chǎng)份額占比0.79%;YANDEX的市場(chǎng)份額為1.05%;其他搜索引擎的市場(chǎng)份額也在1%以下。
  根據Stat Counte 2022年5月提供的大陸搜索市場(chǎng)數據:百度市場(chǎng)份額占比73.86%;搜狗市場(chǎng)份額占比5.88%;Bing的市場(chǎng)份額占11.03%;谷歌市場(chǎng)份額占3.88% 好搜市場(chǎng)份額為2.48%;神馬市場(chǎng)份額為2.31%;其他搜索引擎的市場(chǎng)份額不到1%。
  搜索引擎的價(jià)值是不言而喻的。
  搜索引擎是一個(gè)巨大的流量入口。就目前的趨勢來(lái)看,搜索引擎仍然擁有巨大的流量,無(wú)論是SEM還是SEO都是我們需要努力去玩的策略。同時(shí),搜索引擎也是品牌的口碑陣地,是用戶(hù)了解信息的首選渠道。搜索結果對品牌形象非常重要。另外,搜索引擎也是品牌的公關(guān)陣地。偶爾,企業(yè)經(jīng)營(yíng)中難免會(huì )出現產(chǎn)品質(zhì)量、服務(wù)不當等問(wèn)題,不良信息很可能在搜索中出現并被放大,吸引更多用戶(hù)的關(guān)注,因此如何對搜索引擎進(jìn)行宣傳就顯得尤為重要。
  用戶(hù)在搜索引擎中的行為主要包括:搜索、瀏覽和比較。首先,當用戶(hù)選擇產(chǎn)生需求時(shí),就會(huì )在搜索引擎上產(chǎn)生一個(gè)搜索動(dòng)作。在品牌選擇階段,企業(yè)應通過(guò)綜合曝光、品牌引導、口碑傳播、新聞曝光等方式,增加品牌被瀏覽的概率;在獲取產(chǎn)品信息階段,企業(yè)應在搜索過(guò)程中增加品牌曝光度,提升品牌知名度;在產(chǎn)品對比階段,企業(yè)要挖掘產(chǎn)品的差異性、優(yōu)勢性、創(chuàng )新性,提煉賣(mài)點(diǎn),吸引用戶(hù)購買(mǎi)。
  在布局搜索生態(tài)時(shí),有哪些搜索優(yōu)化組策略?
  網(wǎng)站優(yōu)化。通過(guò)內容重構、外鏈優(yōu)化等策略,提升品牌官網(wǎng)排名,增加曝光度,完成內部轉型。
  品牌保護。降低虛假信息的權重,在品牌詞搜索結果頁(yè)展示正面的品牌信息。
  信息疊加。通過(guò)內容輸出策略,用戶(hù)在搜索行業(yè)詞、口碑詞時(shí),可以看到我們的站點(diǎn),達到曝光的效果。
  平臺維護。優(yōu)化特定熱門(mén)平臺,如百度百科、知乎、小紅書(shū)等,提升平臺品牌表現,限制敏感內容曝光,增加正面曝光。
  如果我們遍歷整個(gè)搜索優(yōu)化組的策略,我們可能會(huì )得到 3 個(gè)有效結果。
  增加品牌曝光度:優(yōu)化宣傳內容,增加品牌空間,為用戶(hù)提供正面引導,更好地引導潛在消費者的購買(mǎi)意向,促進(jìn)銷(xiāo)售增長(cháng)。
  凈化搜索環(huán)境:控制品牌詞在搜索引擎中暴露的敏感信息,減少非正面口碑信息的暴露和排名概率,防御競品惡意流量攔截,優(yōu)化品牌展示形式和內容,提升品牌美譽(yù)度。
  維護優(yōu)質(zhì)形象:增加優(yōu)質(zhì)品牌信息量,增加正面口碑信息占用,持續增加品牌曝光度,增強用戶(hù)對產(chǎn)品的信任度,確保搜索的自然結果正確和積極的。
  網(wǎng)站優(yōu)化的核心邏輯
  在A(yíng)I和大數據時(shí)代,現階段SEO最本質(zhì)的工作內容就是考慮應該用什么樣的技術(shù)手段來(lái)獲取大量用戶(hù)需要的優(yōu)質(zhì)內容,讓掌握了這些技能的SEOer可以更快地提高他們的能力和體驗。
  SEO 一直是在搜索生態(tài)系統中推廣內容的營(yíng)銷(xiāo)工具。如何讓自己(公司)站點(diǎn)有價(jià)值的內容被搜索引擎發(fā)現?如何讓它獲得更好的排名?如何更快地擊敗你的“競品”?既然搜索的本質(zhì)是滿(mǎn)足用戶(hù)的搜索意圖,那么搜索引擎的第一個(gè)核心重點(diǎn)就是生成滿(mǎn)足用戶(hù)搜索習慣的內容頁(yè)面。無(wú)論是首頁(yè)、產(chǎn)品介紹頁(yè)、SaaS解決方案頁(yè),甚至是白皮書(shū)、視頻講解頁(yè),都能承載用戶(hù)的搜索意圖。
  SEO一直是搜索引擎端推廣內容的戰略手段。只要搜索引擎存在,SEO 就存在。搜索引擎的每一次算法維護更新,都是為了展示更真實(shí)的內容算法結果,為用戶(hù)提供更完美的體驗。算法的變革推動(dòng)了SEO相關(guān)技術(shù)和策略的變革。
  SEO一直是搜索引擎端推廣內容的一種技術(shù)手段。這種技術(shù)手段是指我們?yōu)榱俗屗阉饕娓宄亓私庹军c(diǎn)策略,在人工智能和大數據技術(shù)的支持下,快速產(chǎn)出海量?jì)热莸牟呗浴?br />   以下是該站工作的流程節點(diǎn)。通過(guò)“診斷評估、關(guān)鍵詞研究、創(chuàng )建友情站點(diǎn)、發(fā)布站點(diǎn)鏈接、效果評估方法”五個(gè)節點(diǎn)的不斷循環(huán),使流量達到新的高峰。
  一、場(chǎng)地診斷與評估
  診斷評估的主要目的是了解場(chǎng)地和比賽情況。
  首先,定義海拔緯度。梳理SEO渠道的效果預期,讓團隊、部門(mén)、個(gè)人有明確的OKR或KPI。
  二是采集賽道品牌站點(diǎn)信息,評估競爭對手。
  第三,通過(guò)內網(wǎng)能力在網(wǎng)站站點(diǎn)采集和定義問(wèn)題,診斷存在的問(wèn)題。是框架的問(wèn)題還是連接的問(wèn)題,還是我們自己對用戶(hù)的搜索意圖,即關(guān)鍵詞研究的不夠透徹。
  四、了解網(wǎng)站開(kāi)發(fā)框架,是cms還是JS框架?很多框架不適合搜索引擎,阻礙了搜索引擎對網(wǎng)站內容的理解和區分。
  2.關(guān)鍵詞的研究
  在研究關(guān)鍵詞的過(guò)程中,可以了解用戶(hù)的搜索意圖,感知用戶(hù)的想法。能夠預測需求的變化方向,并在工作中積極響應,讓用戶(hù)在行業(yè)相關(guān)熱搜中不斷發(fā)現品牌內容。
  (1) 關(guān)鍵詞采集技術(shù)
  首先,關(guān)鍵詞通過(guò)公司內部傳播或GAKP/SEM推薦的行業(yè)熱詞確認。
  二是競爭對手熱詞實(shí)時(shí)分析。找出你的競爭對手正在做什么來(lái)彌補缺失的 關(guān)鍵詞 部分。
  第三,搜索引擎在推薦位置推薦的搜索詞。
  第四,行業(yè)工具推薦的詞包,比如5118、關(guān)鍵詞 planner等工具。
  (2) 關(guān)鍵詞趨勢跟蹤
  了解關(guān)鍵詞的動(dòng)向,最初的目的是確認相關(guān)的關(guān)鍵詞是否值得我們持續跟進(jìn),是否可以分配更高優(yōu)先級的資源。跟蹤關(guān)鍵詞的趨勢的另一個(gè)目的是了解相對后續的價(jià)值和變化趨勢。
  有朋友在社區問(wèn)我們,這個(gè)行業(yè)有成百上千的詞袋,我們應該如何分配精力?如果站點(diǎn)體量足夠大,可以通過(guò)資源分配策略將所有關(guān)鍵詞贖回。如果頁(yè)面體量有限,需要關(guān)注關(guān)鍵詞的動(dòng)向和自身價(jià)值,完成量化推廣動(dòng)作。
  (3)關(guān)鍵詞的應用技巧
  首先,屏幕行業(yè)屬性關(guān)鍵詞可以改善UV和轉換效果并建立層次詞典。
  二、規劃重構各種可重復匹配關(guān)鍵詞對應的landing page邏輯。
  
  第三,在內鏈框架及相關(guān)模塊的構建中,將核心關(guān)鍵詞作為核心位置管理層次。
  四、推送訪(fǎng)問(wèn)、抓取、索引、獲取優(yōu)質(zhì)展示位置。
  3.友好的網(wǎng)站
  (1)友好站點(diǎn)的必要元素
  我們如何做一個(gè)友好的網(wǎng)站,有哪些要素?
  有一個(gè)合理的、易于訪(fǎng)問(wèn)的開(kāi)發(fā)框架,可以被搜索引擎訪(fǎng)問(wèn)和抓取。一些JS類(lèi)的前端框架,雖然在前端展示時(shí)給用戶(hù)展示的是文字和圖片,但是當搜索引擎訪(fǎng)問(wèn)時(shí),只是一組組的JS代碼,以及被搜索引擎抓取后的相關(guān)解析模塊無(wú)法理解要解析理解的真實(shí)內容內容。
  創(chuàng )建連貫的雙端結構,無(wú)論是自適應站點(diǎn)還是雙端站點(diǎn),都要明確定義結構。
  只有URL合理,搜索引擎才能更有效地發(fā)布站點(diǎn),而不會(huì )給搜索引擎造成障礙。比如我們在開(kāi)發(fā)前端頁(yè)面的時(shí)候,為了保持技術(shù)的相關(guān)性,跟上潮流,我們可能會(huì )用到一些類(lèi)似JS的前端框架。一些框架涉及路由設置。通常會(huì )有哈希模式。這種模式下,“#”,搜索引擎在抓取機制上有特殊點(diǎn)。對于#字符下的頁(yè)面,蜘蛛會(huì )將其定義為頁(yè)面的子內容,一般不會(huì )抓取。這個(gè)是開(kāi)發(fā)框架上的障礙。
  關(guān)鍵詞優(yōu)化后,我們整個(gè)站點(diǎn)結構都可以匹配到完整版??紤]關(guān)鍵詞匹配整體結構下的內容優(yōu)化,可讀性等細節。
  Meta標簽基本上涵蓋了搜索標簽和社交標簽,比如圖片描述,H1標簽,這些都是我們需要注意的細微環(huán)節。
 ?。ǘ┙Y構化內容策劃建議
  進(jìn)行結構化內容規劃的建議。如果您只有少數主頁(yè)或產(chǎn)品頁(yè)面,那么需要什么策略來(lái)創(chuàng )建搜索引擎喜愛(ài)的 SEO 型網(wǎng)站?除了我們通??梢岳斫獾氖醉?yè)、產(chǎn)品介紹頁(yè)、解決方案頁(yè)、基礎文檔頁(yè)之外,還需要考慮哪些策略呢?
  經(jīng)常和我交流攻略的應該知道,我一般都會(huì )推薦大家做一些特殊的頁(yè)面和聚合頁(yè)面。制作此類(lèi)頁(yè)面與如何構建關(guān)鍵詞 庫之間存在一定的邏輯關(guān)系。我們需要為每一個(gè)關(guān)鍵詞匹配一個(gè)對應的能夠產(chǎn)生高效轉化的頁(yè)面,然后在相關(guān)頁(yè)面植入關(guān)鍵詞轉化邏輯,可以包括但不限于banner位置、JS特效和客戶(hù)服務(wù)彈出窗口等。
  還有與平臺機會(huì )相關(guān)的其他細節。比如百度平臺推廣提供了很多基于內容的優(yōu)質(zhì)攻略,比如小程序、專(zhuān)業(yè)問(wèn)答,這些都是流量?jì)A斜支持的機會(huì )。市場(chǎng)部無(wú)論多少人,都可以有針對性地嘗試一兩個(gè)人,在一定的周期內試用平臺提供的潛在機會(huì )。
  比如專(zhuān)業(yè)問(wèn)答阿拉丁,只要進(jìn)入專(zhuān)業(yè)問(wèn)答文字群,基本上在搜索結果中排在第一位,所以也叫top 0。盡量利用大的資源搜索平臺,完成阿拉丁相關(guān)模塊的應用,梳理相關(guān)功能的開(kāi)發(fā)流程,可以為我們帶來(lái)新的流量升級。
  4.發(fā)布附加鏈接
  有幾種創(chuàng )建鏈接的方法:
  首先,在我們自己的系統中創(chuàng )建一個(gè)內部鏈結構。很多采集站點(diǎn)都會(huì )瘋狂抓取各個(gè)平臺的優(yōu)質(zhì)內容。我們在做日常內鏈管理和反作弊策略的時(shí)候,可以在優(yōu)質(zhì)頁(yè)面上適當購買(mǎi)一些內鏈點(diǎn),引導正常轉發(fā)或異常轉發(fā),創(chuàng )造新的外部機會(huì )。
  其次,要注意站內合理的鏈接結構,我們稱(chēng)之為“內鏈模塊”。
  三是梳理行業(yè)內優(yōu)質(zhì)內容進(jìn)行自我傳播。早年大家喜歡在新浪博客等平臺發(fā)布自己寫(xiě)的優(yōu)質(zhì)內容,然后傳播相關(guān)內容。
  第四,與同行和優(yōu)質(zhì)行業(yè)站點(diǎn)交換鏈接。眾所周知,搜索引擎給予的集中權重是基于整個(gè)站點(diǎn)的真實(shí)價(jià)值頁(yè)面,即“首頁(yè)”。我們可以針對行業(yè)上下游機構替換首頁(yè)鏈接。這是我們日常運營(yíng)的核心動(dòng)作。
  此外,鏈接管理在有序和無(wú)序呈現模式下均有效。
  manager模塊有序管理。根據我們前面分析的關(guān)鍵詞趨勢、重要性和匹配頁(yè)面的重要度,可以分配管理者給的權重,讓內容機制優(yōu)先判斷和展示權重高的內容。讓我們整個(gè)站點(diǎn)的內部鏈接顯示在首頁(yè)或者產(chǎn)品頁(yè)上?;靵y也是一種常見(jiàn)的策略。
  五、效果評價(jià)方法
 ?。ㄒ唬┬Чu價(jià)方法
  我們如何評估我們的有效性?需要注意兩點(diǎn):
  一方面,我們需要了解SEO渠道數據的表現。我們能否量化搜索渠道增益的影響,進(jìn)而探究相關(guān)增益的真正來(lái)源?是通過(guò)某個(gè)詞或者某個(gè)推薦頁(yè)面來(lái)實(shí)現有效的改變?調查一些增益比較小的頁(yè)面,有哪些細節沒(méi)注意,是權重分配不夠,還是用戶(hù)的搜索意圖沒(méi)有得到滿(mǎn)足。使用這些策略使其成為整個(gè)站點(diǎn)的初始循環(huán)。
  另一方面,我們不得不考慮外部競爭分析。公司在做內審的同時(shí),需要借助第三方工具了解公司的競爭對手在同一時(shí)期的工作中是否有新的變化。比如本季度公司通過(guò)搜索渠道達到了一個(gè)新的30字位置,公司的競爭是否發(fā)生了明顯的變化。它發(fā)生了什么樣的變化,變化發(fā)生在哪些頁(yè)面上,哪些關(guān)鍵詞對我們的影響與這些新頁(yè)面相關(guān)聯(lián),這些都是我們需要了解和關(guān)注的點(diǎn)。
  值得注意的是,我們需要通過(guò)性能評估的結果來(lái)回顧頁(yè)面詞和轉化路徑。當相關(guān)效果呈現出來(lái)后,我們就可以進(jìn)行新一輪的站點(diǎn)結構審核和優(yōu)化。由于我們在第一遍中已經(jīng)植入了很多新的邏輯和新的模塊,所以后面的工作會(huì )相對容易一些。這樣,通過(guò)每個(gè)季度的循環(huán),整個(gè)網(wǎng)站都會(huì )有一個(gè)質(zhì)的提升。
  (2)工作成就維度
  SEO項目初期,需要考慮項目的業(yè)務(wù)發(fā)展和布局策略。提前了解并參與此計劃或變更,可以快速有效地制定SEO項目計劃和相關(guān)管理計劃。
  以下是需要注意的成就維度:
  品牌知名度。提高品牌關(guān)鍵詞/行業(yè)詞的排名,增加相關(guān)詞組的搜索曝光率。
  捕獲相關(guān)流量。SEO 可以在 網(wǎng)站 網(wǎng)站建設中啟動(dòng),以考慮處于最原創(chuàng )狀態(tài)的頁(yè)面流量的屬性。
  渠道營(yíng)銷(xiāo)模式。甲方SEO團隊的工作不僅要考慮SEO策略的制定,還要考慮這部分精準流量轉化的路徑。
  6.其他提示
  (1) 賬本追蹤系統
  賬本追蹤系統偏向于管理經(jīng)驗,包括需要存儲原型文件;網(wǎng)站迭代記錄和跟蹤效果的維度是否一致;維護團隊中的哪個(gè)人正在執行哪個(gè)模塊,等等。
  (2) 獲得內部支持
  如何獲得內部支持?
  確定適當的漏斗階段目標。雖然SEO是一項長(cháng)期的工作,但團隊需要從這個(gè)渠道的成長(cháng)中獲得相關(guān)的信心和支持。重要的是要有正確的目標來(lái)有效地實(shí)現并激勵團隊。
  需要具有適當周期長(cháng)度的獲勝方法。將高頻關(guān)鍵詞和低頻關(guān)鍵詞納入同一個(gè)執行周期,讓有效呈現與長(cháng)期目標形成粘性互動(dòng)。
  為團隊提供可衡量的數據。定期提供渠道變化數據,如關(guān)鍵詞排名效果、流量增長(cháng)趨勢、引流量、渠道轉化效果等。
  設置里程碑以引導團隊的注意力。我們可以將里程碑式的渠道收益轉化為一種可交流的類(lèi)業(yè)務(wù)語(yǔ)言,以指導團隊內部的支持。
  (3) 搜索渠道意圖整理
  搜索漏斗意圖的整理是對 關(guān)鍵詞 狀態(tài)的補充。
  做個(gè)表格,注意單詞的變化趨勢,統計觀(guān)察可以挖潛。品牌站可以通過(guò)優(yōu)質(zhì)行業(yè)詞的跟蹤篩選形式,來(lái)評估跟蹤相關(guān)詞組的上升趨勢和流量天花板。
  評估意圖 關(guān)鍵詞 的排名和流量。通過(guò)國際第三方工具跟蹤相關(guān)排名,根據Google Trends或Google Bidding Tool中的搜索模塊了解相關(guān)搜索詞的單價(jià)、搜索量和檢索趨勢。
  拆分潛在品牌詞、商業(yè)詞、競品詞,匯集到優(yōu)化方案中。
  七、新網(wǎng)案例解讀
  以新網(wǎng)為例。我的任期是2017年到2019年,我離開(kāi)的時(shí)候,新網(wǎng)的日流量是10萬(wàn)多,剛加入的時(shí)候才1萬(wàn)多。當時(shí)我們整個(gè)站點(diǎn)的字量在PC加移動(dòng)端不到4000。在接下來(lái)的15個(gè)月的周期里,我們制定了不下四個(gè)新的內容增量項目,其中包括早年百度比較執著(zhù)推進(jìn)的MIP項目。以及我們正在做的一些聚合頁(yè)面。
  我們在內容生產(chǎn)方面也做了很多事情,比如通過(guò)算法聚合進(jìn)行迭代改寫(xiě),開(kāi)發(fā)行業(yè)需要的主題頁(yè)面。下圖中,我截取了今年6月份的數據??梢钥吹?,目前第三方評估的新網(wǎng)日均流量在30萬(wàn)左右,PC加移動(dòng)的存量為20萬(wàn)。
  打開(kāi)網(wǎng)易新聞查看精彩圖片
  內容生態(tài)的基本解決方案
  搜索通信有三種基本策略:
  挖掘用戶(hù)關(guān)注點(diǎn)與內容的匹配度,輸出內容。比如近兩年備受關(guān)注的私域運營(yíng)SOP和營(yíng)銷(xiāo)技術(shù),可以出相關(guān)營(yíng)銷(xiāo)技術(shù)白皮書(shū)和SOP合集。
  
  選擇優(yōu)質(zhì)媒體展示位置。根據搜索模式和所需空間類(lèi)型,選擇媒體類(lèi)型,分析媒體數據,選擇收錄空間好、空間穩定的平臺進(jìn)行內容投放。
  SEO技術(shù)支持,提升曝光率。通過(guò)關(guān)鍵詞布局策略、外鏈手段、模擬數據等,提升鏈接權重和排名能力,延長(cháng)排名周期。最起碼,我們要創(chuàng )造滿(mǎn)足用戶(hù)搜索習慣的內容,比如滿(mǎn)足用戶(hù)搜索習慣的標題。
  搜索傳播會(huì )有什么樣的差異?比如B端傳播,要傳播社會(huì )公益、機構認證、戰略合作、事件營(yíng)銷(xiāo)等場(chǎng)景。對于C端,要傳播平臺信息、差異化標簽、品牌價(jià)值。
  此外,還推薦了一些傳播方向。在國家層面,跟隨政策,做公益,在海外打造品牌,標桿行業(yè);在監管層面,是否合規,個(gè)人保護法和數據法對營(yíng)銷(xiāo)技術(shù)的影響;在行業(yè)影響層面,是否有一些可以直觀(guān)對外公布的新數據;在用戶(hù)層面,能否產(chǎn)生服務(wù)體驗、品牌信任、平臺差異化。
  最后,我們整理了一些關(guān)于搜索傳播范圍的建議,其中有一些是可以自己實(shí)現的。如果自媒體平臺有足夠的人力來(lái)維護,那么搜索生態(tài)傳播的工作就已經(jīng)完成了一半。目前,自媒體生態(tài)中的一些平臺仍然受到搜索引擎的高度關(guān)注,例如百度百家號和知乎。同時(shí),我們可以選擇一些優(yōu)質(zhì)的科技門(mén)戶(hù)網(wǎng)站。如果是大型的產(chǎn)品推廣活動(dòng),我們可以選擇當地的媒體。如果是重行業(yè)屬性,可以關(guān)注相對垂直的媒體。
  如何避免常見(jiàn)的作弊手段
  常規作弊手段有哪些,如何避免?這是很多朋友頭疼的問(wèn)題。這幾年在幫朋友關(guān)注搜索質(zhì)量的時(shí)候,大家對黑馬的東西還是比較敏感的,所以我簡(jiǎn)單跟大家說(shuō)說(shuō)需要避免的坑。
  在常見(jiàn)的作弊方式中,有兩點(diǎn)是不被搜索引擎喜歡的。首先是模擬點(diǎn)擊,它可以影響整個(gè)網(wǎng)站的真實(shí)統計。二是模擬發(fā)包,基于搜索引擎的定向數據接收池,通過(guò)批量IP發(fā)送定向數據包,不影響真實(shí)統計。
  也就是說(shuō),模擬點(diǎn)擊效果不僅會(huì )影響搜索引擎的數據,還會(huì )影響自己站點(diǎn)的數據。模擬合同影響了資源中心的統計數據,但真實(shí)的代表統計數據幾乎沒(méi)有變化。因為模擬點(diǎn)擊創(chuàng )建真實(shí)訪(fǎng)問(wèn),它會(huì )導致企業(yè)誤判網(wǎng)站本身的質(zhì)量。模擬承包影響搜索引擎自身平臺的數據,但不影響策略本身。這兩個(gè)特征就是判斷是否遇到過(guò)相關(guān)的過(guò)去狀態(tài)。
  模擬點(diǎn)擊是目前正在全國推廣的快速排序策略之一。早在2017年,我們就在小范圍內測試了真實(shí)IP。我們通過(guò)一個(gè)具體的過(guò)程,測試了純手動(dòng)點(diǎn)擊的真實(shí)IP,在200 index關(guān)鍵詞以下測試,短時(shí)間內效果很好,但是一個(gè)多月的老IP就不行了對重訪(fǎng)時(shí)的搜索排名起到更好的作用。在這個(gè)策略中,真正生效有兩個(gè)關(guān)鍵,一個(gè)是穩定正常的IP,一個(gè)是符合正常檢索意圖的行為。
  2021年,百度平臺連續兩次升級模擬點(diǎn)擊的黑帽相關(guān)算法“百度驚雷算法”,期間無(wú)數站點(diǎn)掉線(xiàn)。之所以下跌,是因為他們使用了海量的IP數據庫和類(lèi)似的模擬行為特征,讓百度官方可以更清楚地了解相關(guān)流量是否為真實(shí)流量,是否為真實(shí)動(dòng)作。
  模擬合約投放技術(shù)可以簡(jiǎn)單理解為將之前模擬點(diǎn)擊的參數和動(dòng)作寫(xiě)入數據腳本,通過(guò)特定接口或漏洞發(fā)送給搜索引擎的分析平臺。第一次真正理解這個(gè)攻略是在某搜索平臺和一位大牛聊起他之前工作經(jīng)歷時(shí)會(huì )遇到的正常事件。
  當然,這種開(kāi)口,有可能被守著(zhù)偷走,也有可能被無(wú)限分析。但也取決于具體的IP庫和具體的參數特性。這些固定地址和行為特征很容易在特定范圍內觸發(fā)百度的識別機制。
  常問(wèn)問(wèn)題
  問(wèn):鏈接農場(chǎng)/蜘蛛池在百度或其他搜索引擎中是否仍然有效?與直接購買(mǎi)外鏈相比有哪些優(yōu)勢和劣勢?
  A:鏈接農場(chǎng)/蜘蛛池的核心功能是引導搜索引擎的爬行模塊(蜘蛛)訪(fǎng)問(wèn)新的地址或站點(diǎn)。只要站點(diǎn)的訪(fǎng)問(wèn)IP不是負IP或者沒(méi)有觸發(fā)相關(guān)站點(diǎn),基本沒(méi)有危害。與外部鏈接的作用相比,外部鏈接的定期投放準確定義了錨文本,增加了錨文本與頁(yè)面之間鏈接的信任度。另外,常規的外鏈一般都是尋找權重比較高的頁(yè)面,這也是一個(gè)明顯的區別。
  Q:如何控制關(guān)鍵詞優(yōu)化的節奏,所有關(guān)鍵詞都要沖量,但在精力有限的情況下如何安排工作節奏?
  A:在了解了本次直播的第二部分后,其實(shí)這個(gè)問(wèn)題自己回答起來(lái)還是比較容易的。首先,SEO部分的關(guān)鍵詞優(yōu)化不是短期的事情,所以我們需要在初期規劃的時(shí)候,根據整個(gè)站點(diǎn)頁(yè)面的大小和結構,嘗試一次性完成布局。其次,我們?yōu)楝F場(chǎng)和非現場(chǎng)鏈接分配相對的 關(guān)鍵詞 重要性權重。
  Q:網(wǎng)站關(guān)閉站點(diǎn)多久會(huì )影響排名,站點(diǎn)迭代改版需要注意什么?
  A:目前站點(diǎn)的快照周期一般維持一周左右。如果周二/周三服務(wù)器恰好宕機或下線(xiàn),預計周末快照會(huì )發(fā)生變化或消失。在網(wǎng)站遷移/改版過(guò)程中需要注意以下細節:第一,盡量保持網(wǎng)站的URL結構不變,以便搜索引擎按照通常的結構進(jìn)行訪(fǎng)問(wèn)和抓??;第二,盡量不要對TDK架構進(jìn)行頻繁的調整和變更;三是改版使用的框架需要盡可能對搜索引擎友好。
  Q:SEO在企業(yè)中的作用,如何與企業(yè)負責人溝通網(wǎng)站優(yōu)化的重要性?
  A:搜索引擎一直是網(wǎng)站來(lái)源的核心渠道。SEO工作的價(jià)值與SEM相當,只是兩種渠道的轉化路徑不同,流量的精準度也不同。但在有效SEO的情況下,應該是當前渠道中ROI效果最好的渠道。因為它只需要自己的一部分人工成本和資源成本,不需要外包,所以這部分投入遠低于競價(jià)廣告和原生廣告。
  問(wèn):如何衡量 SEO 工作的有效性?如何評估效果?
  A:落在甲方市場(chǎng)部的KPI永遠是有效的線(xiàn)索和營(yíng)業(yè)額。如果是甲方市場(chǎng)部,可以參考的工作效果指標可以是以下幾個(gè)層次:收錄數量、有效關(guān)鍵詞數量、核心關(guān)鍵詞排名效果(無(wú)需要強調的核心)、流量、轉化率或成為的線(xiàn)索數量。
  乙方服務(wù)項目組的KPI主要以流量來(lái)衡量。乙方項目組在項目需求溝通中的定期核心考核包括:有效流量增長(cháng)、核心關(guān)鍵詞優(yōu)質(zhì)排名等。
  Q:我們公司的SEO優(yōu)化是外包給第三方公司的。關(guān)鍵詞 基本上在主頁(yè)上。不過(guò),與去年相比,今年的線(xiàn)上線(xiàn)索少了很多。不知道怎么提高?
  A:1、需要判斷相關(guān)關(guān)鍵詞是否有效關(guān)鍵詞,相關(guān)關(guān)鍵詞是否有流量接入,以及接入的相關(guān)參數詳情。
  2、線(xiàn)索量要與市場(chǎng)行業(yè)、用戶(hù)搜索習慣相關(guān)。受疫情影響,投放和購買(mǎi)方向的支出及相關(guān)行為明顯縮水。
  3、可以跟蹤相關(guān)行業(yè)關(guān)鍵詞近期指數走勢,判斷是否為相關(guān)關(guān)鍵詞的真實(shí)訪(fǎng)問(wèn)趨勢。
  Q:如何平衡官網(wǎng)營(yíng)銷(xiāo)功能和網(wǎng)站健康指標?
  答:網(wǎng)站 優(yōu)化的健康指標是協(xié)助網(wǎng)站 營(yíng)銷(xiāo)的有力武器。兩者相輔相成。如果是基于開(kāi)發(fā)框架,再考慮相關(guān)的營(yíng)銷(xiāo)和運營(yíng)能力,我想應該是對SEO沒(méi)有全面的了解。政策和規范產(chǎn)生了一些認知偏差。即使我們使用有利于運營(yíng)的前后端分離模式的開(kāi)發(fā)框架。我們仍然有策略使網(wǎng)站有利于搜索引擎索引和排名。
  Q:不懂搜索引擎規則,如何快速增加收錄?簡(jiǎn)單的爬行收錄高效的方式?
  A:收錄沒(méi)有簡(jiǎn)單的搶法,但是有標準化的策略來(lái)提高搶的基數和效率。一個(gè)好的 收錄 粉底有兩個(gè)基本支撐。我們不僅要保證我們的網(wǎng)站有合理的開(kāi)發(fā)框架和流暢的URL結構,還要保證在官網(wǎng)有固定的內容輸出和展示頻率。網(wǎng)站在to B營(yíng)銷(xiāo)類(lèi)中的一個(gè)收錄細節依據是網(wǎng)站內容質(zhì)量,這一點(diǎn)在之前的群分享中被很多朋友強調過(guò)。
  Q:在哪里可以查看比賽的變化?有什么工具嗎?
  A:我們可以重點(diǎn)關(guān)注三個(gè)站點(diǎn)的變化:Chinaz、愛(ài)站、5118。
  問(wèn):從全球范圍來(lái)看,谷歌的市場(chǎng)份額占90%以上。那么對于目標受眾在國內市場(chǎng)的企業(yè)來(lái)說(shuō),在谷歌上投放是否合適呢?
  A:從搜索生態(tài)的角度,我們可以根據用戶(hù)畫(huà)像或者市場(chǎng)比例來(lái)分配廣告費用,通過(guò)前期的預算來(lái)測試真實(shí)的廣告投放效果,考慮渠道是否適合產(chǎn)品和平臺。
  SEO是一個(gè)通用規范,在各種搜索引擎上都可以呈現,但有些搜索引擎抓取時(shí)間長(cháng),更新頻率慢,能看到的效果不夠直觀(guān)。比如百度的更新周期可能是按周計算的,但是搜狗、360、神馬,他們的快照更新,收錄,他們的周期比較長(cháng),需要比較扎實(shí)的內容基礎來(lái)吸引他們. 三個(gè)感興趣的平臺。Google 和 Bing 等平臺對爬取相對開(kāi)放。我測試過(guò),谷歌可以維持一個(gè)站點(diǎn)日均50萬(wàn)左右的抓取量,但是360、搜狗、百度達不到這個(gè)水平。
  從純SEO的角度來(lái)看,我們可以采用更適用、更規范的內容策略,使網(wǎng)站更適合所有搜索引擎。
  Q:您如何看待目前搜索流量的下滑?企業(yè)該如何應對?
  A:搜索流量下降并不是一個(gè)特別準確的描述。目前整個(gè)搜索池處于穩定狀態(tài),搜索用戶(hù)市場(chǎng)在8.5億到8.8億之間。有些行業(yè)確實(shí)會(huì )受到用戶(hù)日常碎片化時(shí)間的影響,比如轉向知乎、抖音等生態(tài)。
  針對這種情況,我能給的建議是關(guān)注行業(yè)的關(guān)鍵詞,這兩年的趨勢是什么。如果確實(shí)是下降趨勢,我們可以關(guān)注用戶(hù)使用不同APP的時(shí)長(cháng),找到相關(guān)的行業(yè)趨勢來(lái)比較各個(gè)APP的增長(cháng)情況。如果確實(shí)有增長(cháng),則考慮適當分配預算以轉化營(yíng)銷(xiāo)行為。
  然后,根據行業(yè)詞的分析確定以下?tīng)I銷(xiāo)行為??梢钥纯搓P(guān)鍵詞的研究。
  Q:百度收錄有一萬(wàn)多冊,但幾乎沒(méi)有百度搜索流量。問(wèn)題是什么?
  A:核心問(wèn)題出在自己創(chuàng )建的頁(yè)面上。一是可能不滿(mǎn)足用戶(hù)的搜索習慣;另一種是這些頁(yè)面可能只滿(mǎn)足了基本的展示需求,但質(zhì)量和結構都達不到要求,需要重新對頁(yè)面進(jìn)行重構和優(yōu)化。
  Q:如何看待短視頻關(guān)鍵詞搜索覆蓋率?
  A:確實(shí)有圈內朋友在做短視頻關(guān)鍵詞搜索覆蓋。通過(guò)量產(chǎn)視頻、覆蓋特殊場(chǎng)景文案關(guān)鍵詞,這是對抖音生態(tài)的有效舉措。目前我能觀(guān)察到的關(guān)鍵詞覆蓋范圍主要是應用于消費品、化工、貿易等產(chǎn)品,目前SaaS公司很少。
  問(wèn):公司的關(guān)鍵詞是由競爭對手推出的。當我搜索我的公司名稱(chēng)時(shí),另一家公司顯示在我面前。如何解決這個(gè)問(wèn)題呢。
  A:根據我之前在代理機構的工作經(jīng)驗,我建議你先建立一個(gè)比較完善的權益機制,優(yōu)先取得商標權,把公司名稱(chēng)變成正式的品牌商標。如果您有已獲批的商標,您可以利用該商標的權益向SEM專(zhuān)屬客服及顧問(wèn)反映情況。如果沒(méi)有效果,可以直接去業(yè)務(wù)投訴,或者投訴到百度法務(wù)。
  另外判斷對方的關(guān)鍵詞是否受歡迎,如果受歡迎,可以通過(guò)網(wǎng)絡(luò )進(jìn)行投訴。如果沒(méi)有飄飄紅,一般情況下客服是不會(huì )有好的解決辦法的。目前,這是商戰中的一種非常規行為。SaaS圈內大家對這種行為還是很鄙視的,但是很多人確實(shí)是為了KPI在執行相關(guān)動(dòng)作。
  Q:網(wǎng)站公司權重低,無(wú)法排在前列。搜索業(yè)務(wù)關(guān)鍵詞前十頁(yè)看不到我公司的網(wǎng)站。請問(wèn)老師,除了花錢(qián),還有什么方法可以快速提高排名?
  A:快速提升排名的方法在第四部分已經(jīng)介紹過(guò)了,但是本身并不是白帽策略,是變態(tài)的。如果搜索引擎通過(guò)算法對比發(fā)現你確實(shí)使用了不正常的策略,你可能就完蛋了。如果你提醒三次,基本上這個(gè)網(wǎng)站就會(huì )被永久沙盒化,不會(huì )再出來(lái)了。
  因此,我的建議是,您應該清楚地了解站點(diǎn)是否存在問(wèn)題,并解決站點(diǎn)的問(wèn)題。這是第一步。第二步是要有一個(gè)詳細的內容計劃,讓網(wǎng)站更具周期性,這樣搜索引擎就會(huì )清楚地識別出你網(wǎng)站的變化。當引擎清楚地看到網(wǎng)站本身的行為趨于良好時(shí),就會(huì )給你更多的關(guān)注,這會(huì )讓你的網(wǎng)站成為搜索引擎喜歡的網(wǎng)站。
  關(guān)于作者:
  顧海松:原博雅魔方SEO業(yè)務(wù)總監,Martech王國社區/公眾號負責人,ABM成長(cháng)研究院名譽(yù)顧問(wèn),直播研究院名譽(yù)顧問(wèn),第十三屆虎嘯獎評委會(huì )委員,鳥(niǎo)筆記作者柱子。
  近11年to B服務(wù)經(jīng)驗,致力于搜索生態(tài)優(yōu)化,專(zhuān)注于企業(yè)服務(wù)、教育培訓、汽車(chē)租賃、電商經(jīng)濟、云生態(tài)、行業(yè)等領(lǐng)域的流量提升策略。曾為阿里巴巴、螞蟻集團、新網(wǎng)科技、權大師、人人貸、長(cháng)城汽車(chē)等眾多品牌和平臺提供服務(wù)。
  解決方案:php74 騎士 優(yōu)采云采集簡(jiǎn)歷 接口及采集規則
  
  Knightcms人才系統是一套基于PHP+MYSQL開(kāi)發(fā)的免費+開(kāi)源的專(zhuān)業(yè)人才招聘系統。軟件具有執行效率高、模板自由切換、便捷的后臺管理功能等諸多優(yōu)良特性。所有代碼均來(lái)自Knight Network原創(chuàng ),擁有完整的知識產(chǎn)權。騎士人才系統依靠騎士網(wǎng)絡(luò )不斷創(chuàng )新的精神和認真的工作態(tài)度,已成為國內同類(lèi)軟件中最優(yōu)秀的人才系統。騎士cms人才系統v5.0.1 更新內容: 新增:后臺增加跳轉頁(yè)面 增加:短信預警提醒,方便客戶(hù)及時(shí)充值 單獨呈現,方便跟蹤客戶(hù)新增:后臺統計增加列表頁(yè)面。
   查看全部

  采集內容插入詞庫 行業(yè)解決方案:SaaS 投手,玩轉 SEO 生態(tài)
  SaaS投手,玩轉SEO生態(tài)
  通訊社
  2022-07-13 11:41 北京
  打開(kāi)網(wǎng)易新聞查看精彩圖片
  文字 | 顧海松搜索營(yíng)銷(xiāo)專(zhuān)家
  整理 | 易圈
  盡管新的營(yíng)銷(xiāo)方式層出不窮,但搜索營(yíng)銷(xiāo)仍然是SaaS企業(yè)重要的營(yíng)銷(xiāo)渠道。搜索引擎掌握了巨大的流量,是用戶(hù)了解信息的首選渠道。SEM(Search Engine Marketing)和SEO(Search Engine Optimization)都是SaaS公司需要努力去玩的策略。
  本次分享整理自崔牛時(shí)代,由搜索營(yíng)銷(xiāo)專(zhuān)家、Martech王國經(jīng)理顧海松帶來(lái)的主題分享《SaaS企業(yè)如何玩轉搜索生態(tài)》,主要拆解了搜索的趨勢與本質(zhì),而站內優(yōu)化扮演著(zhù)重要角色在診斷評估方面,關(guān)鍵詞研究、創(chuàng )建友好站點(diǎn)、發(fā)布站點(diǎn)鏈接、五個(gè)節點(diǎn)的效果評估,以及避免常見(jiàn)作弊手段的建議。牛頭CMO頻道整理提取主要資料,供學(xué)習參考。
  全文核心內容:
  1. 搜索的趨勢和性質(zhì)
  2.站點(diǎn)優(yōu)化的核心邏輯
  三、內容生態(tài)的基本解決方案
  4.如何避免常見(jiàn)的作弊手段
  搜索的趨勢和本質(zhì)
  搜索的本質(zhì)是由意圖觸發(fā)的,其特點(diǎn)是用戶(hù)想要查詢(xún)特定的信息,而不是像原生廣告那樣被人群無(wú)意中瀏覽或大量營(yíng)銷(xiāo)。這是搜索點(diǎn)擊與意外瀏覽點(diǎn)擊觸發(fā)的先決條件的根本區別。由于這種特殊性,搜索流量對營(yíng)銷(xiāo)人員來(lái)說(shuō)比其他網(wǎng)絡(luò )流量更有價(jià)值。
  根據StatCounte提供的2022年5月全球搜索市場(chǎng)份額數據,谷歌市場(chǎng)份額占比92.48%;Bing的市場(chǎng)份額占3.08%;雅虎市場(chǎng)份額占1.30%;百度市場(chǎng)份額占比0.79%;YANDEX的市場(chǎng)份額為1.05%;其他搜索引擎的市場(chǎng)份額也在1%以下。
  根據Stat Counte 2022年5月提供的大陸搜索市場(chǎng)數據:百度市場(chǎng)份額占比73.86%;搜狗市場(chǎng)份額占比5.88%;Bing的市場(chǎng)份額占11.03%;谷歌市場(chǎng)份額占3.88% 好搜市場(chǎng)份額為2.48%;神馬市場(chǎng)份額為2.31%;其他搜索引擎的市場(chǎng)份額不到1%。
  搜索引擎的價(jià)值是不言而喻的。
  搜索引擎是一個(gè)巨大的流量入口。就目前的趨勢來(lái)看,搜索引擎仍然擁有巨大的流量,無(wú)論是SEM還是SEO都是我們需要努力去玩的策略。同時(shí),搜索引擎也是品牌的口碑陣地,是用戶(hù)了解信息的首選渠道。搜索結果對品牌形象非常重要。另外,搜索引擎也是品牌的公關(guān)陣地。偶爾,企業(yè)經(jīng)營(yíng)中難免會(huì )出現產(chǎn)品質(zhì)量、服務(wù)不當等問(wèn)題,不良信息很可能在搜索中出現并被放大,吸引更多用戶(hù)的關(guān)注,因此如何對搜索引擎進(jìn)行宣傳就顯得尤為重要。
  用戶(hù)在搜索引擎中的行為主要包括:搜索、瀏覽和比較。首先,當用戶(hù)選擇產(chǎn)生需求時(shí),就會(huì )在搜索引擎上產(chǎn)生一個(gè)搜索動(dòng)作。在品牌選擇階段,企業(yè)應通過(guò)綜合曝光、品牌引導、口碑傳播、新聞曝光等方式,增加品牌被瀏覽的概率;在獲取產(chǎn)品信息階段,企業(yè)應在搜索過(guò)程中增加品牌曝光度,提升品牌知名度;在產(chǎn)品對比階段,企業(yè)要挖掘產(chǎn)品的差異性、優(yōu)勢性、創(chuàng )新性,提煉賣(mài)點(diǎn),吸引用戶(hù)購買(mǎi)。
  在布局搜索生態(tài)時(shí),有哪些搜索優(yōu)化組策略?
  網(wǎng)站優(yōu)化。通過(guò)內容重構、外鏈優(yōu)化等策略,提升品牌官網(wǎng)排名,增加曝光度,完成內部轉型。
  品牌保護。降低虛假信息的權重,在品牌詞搜索結果頁(yè)展示正面的品牌信息。
  信息疊加。通過(guò)內容輸出策略,用戶(hù)在搜索行業(yè)詞、口碑詞時(shí),可以看到我們的站點(diǎn),達到曝光的效果。
  平臺維護。優(yōu)化特定熱門(mén)平臺,如百度百科、知乎、小紅書(shū)等,提升平臺品牌表現,限制敏感內容曝光,增加正面曝光。
  如果我們遍歷整個(gè)搜索優(yōu)化組的策略,我們可能會(huì )得到 3 個(gè)有效結果。
  增加品牌曝光度:優(yōu)化宣傳內容,增加品牌空間,為用戶(hù)提供正面引導,更好地引導潛在消費者的購買(mǎi)意向,促進(jìn)銷(xiāo)售增長(cháng)。
  凈化搜索環(huán)境:控制品牌詞在搜索引擎中暴露的敏感信息,減少非正面口碑信息的暴露和排名概率,防御競品惡意流量攔截,優(yōu)化品牌展示形式和內容,提升品牌美譽(yù)度。
  維護優(yōu)質(zhì)形象:增加優(yōu)質(zhì)品牌信息量,增加正面口碑信息占用,持續增加品牌曝光度,增強用戶(hù)對產(chǎn)品的信任度,確保搜索的自然結果正確和積極的。
  網(wǎng)站優(yōu)化的核心邏輯
  在A(yíng)I和大數據時(shí)代,現階段SEO最本質(zhì)的工作內容就是考慮應該用什么樣的技術(shù)手段來(lái)獲取大量用戶(hù)需要的優(yōu)質(zhì)內容,讓掌握了這些技能的SEOer可以更快地提高他們的能力和體驗。
  SEO 一直是在搜索生態(tài)系統中推廣內容的營(yíng)銷(xiāo)工具。如何讓自己(公司)站點(diǎn)有價(jià)值的內容被搜索引擎發(fā)現?如何讓它獲得更好的排名?如何更快地擊敗你的“競品”?既然搜索的本質(zhì)是滿(mǎn)足用戶(hù)的搜索意圖,那么搜索引擎的第一個(gè)核心重點(diǎn)就是生成滿(mǎn)足用戶(hù)搜索習慣的內容頁(yè)面。無(wú)論是首頁(yè)、產(chǎn)品介紹頁(yè)、SaaS解決方案頁(yè),甚至是白皮書(shū)、視頻講解頁(yè),都能承載用戶(hù)的搜索意圖。
  SEO一直是搜索引擎端推廣內容的戰略手段。只要搜索引擎存在,SEO 就存在。搜索引擎的每一次算法維護更新,都是為了展示更真實(shí)的內容算法結果,為用戶(hù)提供更完美的體驗。算法的變革推動(dòng)了SEO相關(guān)技術(shù)和策略的變革。
  SEO一直是搜索引擎端推廣內容的一種技術(shù)手段。這種技術(shù)手段是指我們?yōu)榱俗屗阉饕娓宄亓私庹军c(diǎn)策略,在人工智能和大數據技術(shù)的支持下,快速產(chǎn)出海量?jì)热莸牟呗浴?br />   以下是該站工作的流程節點(diǎn)。通過(guò)“診斷評估、關(guān)鍵詞研究、創(chuàng )建友情站點(diǎn)、發(fā)布站點(diǎn)鏈接、效果評估方法”五個(gè)節點(diǎn)的不斷循環(huán),使流量達到新的高峰。
  一、場(chǎng)地診斷與評估
  診斷評估的主要目的是了解場(chǎng)地和比賽情況。
  首先,定義海拔緯度。梳理SEO渠道的效果預期,讓團隊、部門(mén)、個(gè)人有明確的OKR或KPI。
  二是采集賽道品牌站點(diǎn)信息,評估競爭對手。
  第三,通過(guò)內網(wǎng)能力在網(wǎng)站站點(diǎn)采集和定義問(wèn)題,診斷存在的問(wèn)題。是框架的問(wèn)題還是連接的問(wèn)題,還是我們自己對用戶(hù)的搜索意圖,即關(guān)鍵詞研究的不夠透徹。
  四、了解網(wǎng)站開(kāi)發(fā)框架,是cms還是JS框架?很多框架不適合搜索引擎,阻礙了搜索引擎對網(wǎng)站內容的理解和區分。
  2.關(guān)鍵詞的研究
  在研究關(guān)鍵詞的過(guò)程中,可以了解用戶(hù)的搜索意圖,感知用戶(hù)的想法。能夠預測需求的變化方向,并在工作中積極響應,讓用戶(hù)在行業(yè)相關(guān)熱搜中不斷發(fā)現品牌內容。
  (1) 關(guān)鍵詞采集技術(shù)
  首先,關(guān)鍵詞通過(guò)公司內部傳播或GAKP/SEM推薦的行業(yè)熱詞確認。
  二是競爭對手熱詞實(shí)時(shí)分析。找出你的競爭對手正在做什么來(lái)彌補缺失的 關(guān)鍵詞 部分。
  第三,搜索引擎在推薦位置推薦的搜索詞。
  第四,行業(yè)工具推薦的詞包,比如5118、關(guān)鍵詞 planner等工具。
  (2) 關(guān)鍵詞趨勢跟蹤
  了解關(guān)鍵詞的動(dòng)向,最初的目的是確認相關(guān)的關(guān)鍵詞是否值得我們持續跟進(jìn),是否可以分配更高優(yōu)先級的資源。跟蹤關(guān)鍵詞的趨勢的另一個(gè)目的是了解相對后續的價(jià)值和變化趨勢。
  有朋友在社區問(wèn)我們,這個(gè)行業(yè)有成百上千的詞袋,我們應該如何分配精力?如果站點(diǎn)體量足夠大,可以通過(guò)資源分配策略將所有關(guān)鍵詞贖回。如果頁(yè)面體量有限,需要關(guān)注關(guān)鍵詞的動(dòng)向和自身價(jià)值,完成量化推廣動(dòng)作。
  (3)關(guān)鍵詞的應用技巧
  首先,屏幕行業(yè)屬性關(guān)鍵詞可以改善UV和轉換效果并建立層次詞典。
  二、規劃重構各種可重復匹配關(guān)鍵詞對應的landing page邏輯。
  
  第三,在內鏈框架及相關(guān)模塊的構建中,將核心關(guān)鍵詞作為核心位置管理層次。
  四、推送訪(fǎng)問(wèn)、抓取、索引、獲取優(yōu)質(zhì)展示位置。
  3.友好的網(wǎng)站
  (1)友好站點(diǎn)的必要元素
  我們如何做一個(gè)友好的網(wǎng)站,有哪些要素?
  有一個(gè)合理的、易于訪(fǎng)問(wèn)的開(kāi)發(fā)框架,可以被搜索引擎訪(fǎng)問(wèn)和抓取。一些JS類(lèi)的前端框架,雖然在前端展示時(shí)給用戶(hù)展示的是文字和圖片,但是當搜索引擎訪(fǎng)問(wèn)時(shí),只是一組組的JS代碼,以及被搜索引擎抓取后的相關(guān)解析模塊無(wú)法理解要解析理解的真實(shí)內容內容。
  創(chuàng )建連貫的雙端結構,無(wú)論是自適應站點(diǎn)還是雙端站點(diǎn),都要明確定義結構。
  只有URL合理,搜索引擎才能更有效地發(fā)布站點(diǎn),而不會(huì )給搜索引擎造成障礙。比如我們在開(kāi)發(fā)前端頁(yè)面的時(shí)候,為了保持技術(shù)的相關(guān)性,跟上潮流,我們可能會(huì )用到一些類(lèi)似JS的前端框架。一些框架涉及路由設置。通常會(huì )有哈希模式。這種模式下,“#”,搜索引擎在抓取機制上有特殊點(diǎn)。對于#字符下的頁(yè)面,蜘蛛會(huì )將其定義為頁(yè)面的子內容,一般不會(huì )抓取。這個(gè)是開(kāi)發(fā)框架上的障礙。
  關(guān)鍵詞優(yōu)化后,我們整個(gè)站點(diǎn)結構都可以匹配到完整版??紤]關(guān)鍵詞匹配整體結構下的內容優(yōu)化,可讀性等細節。
  Meta標簽基本上涵蓋了搜索標簽和社交標簽,比如圖片描述,H1標簽,這些都是我們需要注意的細微環(huán)節。
 ?。ǘ┙Y構化內容策劃建議
  進(jìn)行結構化內容規劃的建議。如果您只有少數主頁(yè)或產(chǎn)品頁(yè)面,那么需要什么策略來(lái)創(chuàng )建搜索引擎喜愛(ài)的 SEO 型網(wǎng)站?除了我們通??梢岳斫獾氖醉?yè)、產(chǎn)品介紹頁(yè)、解決方案頁(yè)、基礎文檔頁(yè)之外,還需要考慮哪些策略呢?
  經(jīng)常和我交流攻略的應該知道,我一般都會(huì )推薦大家做一些特殊的頁(yè)面和聚合頁(yè)面。制作此類(lèi)頁(yè)面與如何構建關(guān)鍵詞 庫之間存在一定的邏輯關(guān)系。我們需要為每一個(gè)關(guān)鍵詞匹配一個(gè)對應的能夠產(chǎn)生高效轉化的頁(yè)面,然后在相關(guān)頁(yè)面植入關(guān)鍵詞轉化邏輯,可以包括但不限于banner位置、JS特效和客戶(hù)服務(wù)彈出窗口等。
  還有與平臺機會(huì )相關(guān)的其他細節。比如百度平臺推廣提供了很多基于內容的優(yōu)質(zhì)攻略,比如小程序、專(zhuān)業(yè)問(wèn)答,這些都是流量?jì)A斜支持的機會(huì )。市場(chǎng)部無(wú)論多少人,都可以有針對性地嘗試一兩個(gè)人,在一定的周期內試用平臺提供的潛在機會(huì )。
  比如專(zhuān)業(yè)問(wèn)答阿拉丁,只要進(jìn)入專(zhuān)業(yè)問(wèn)答文字群,基本上在搜索結果中排在第一位,所以也叫top 0。盡量利用大的資源搜索平臺,完成阿拉丁相關(guān)模塊的應用,梳理相關(guān)功能的開(kāi)發(fā)流程,可以為我們帶來(lái)新的流量升級。
  4.發(fā)布附加鏈接
  有幾種創(chuàng )建鏈接的方法:
  首先,在我們自己的系統中創(chuàng )建一個(gè)內部鏈結構。很多采集站點(diǎn)都會(huì )瘋狂抓取各個(gè)平臺的優(yōu)質(zhì)內容。我們在做日常內鏈管理和反作弊策略的時(shí)候,可以在優(yōu)質(zhì)頁(yè)面上適當購買(mǎi)一些內鏈點(diǎn),引導正常轉發(fā)或異常轉發(fā),創(chuàng )造新的外部機會(huì )。
  其次,要注意站內合理的鏈接結構,我們稱(chēng)之為“內鏈模塊”。
  三是梳理行業(yè)內優(yōu)質(zhì)內容進(jìn)行自我傳播。早年大家喜歡在新浪博客等平臺發(fā)布自己寫(xiě)的優(yōu)質(zhì)內容,然后傳播相關(guān)內容。
  第四,與同行和優(yōu)質(zhì)行業(yè)站點(diǎn)交換鏈接。眾所周知,搜索引擎給予的集中權重是基于整個(gè)站點(diǎn)的真實(shí)價(jià)值頁(yè)面,即“首頁(yè)”。我們可以針對行業(yè)上下游機構替換首頁(yè)鏈接。這是我們日常運營(yíng)的核心動(dòng)作。
  此外,鏈接管理在有序和無(wú)序呈現模式下均有效。
  manager模塊有序管理。根據我們前面分析的關(guān)鍵詞趨勢、重要性和匹配頁(yè)面的重要度,可以分配管理者給的權重,讓內容機制優(yōu)先判斷和展示權重高的內容。讓我們整個(gè)站點(diǎn)的內部鏈接顯示在首頁(yè)或者產(chǎn)品頁(yè)上?;靵y也是一種常見(jiàn)的策略。
  五、效果評價(jià)方法
 ?。ㄒ唬┬Чu價(jià)方法
  我們如何評估我們的有效性?需要注意兩點(diǎn):
  一方面,我們需要了解SEO渠道數據的表現。我們能否量化搜索渠道增益的影響,進(jìn)而探究相關(guān)增益的真正來(lái)源?是通過(guò)某個(gè)詞或者某個(gè)推薦頁(yè)面來(lái)實(shí)現有效的改變?調查一些增益比較小的頁(yè)面,有哪些細節沒(méi)注意,是權重分配不夠,還是用戶(hù)的搜索意圖沒(méi)有得到滿(mǎn)足。使用這些策略使其成為整個(gè)站點(diǎn)的初始循環(huán)。
  另一方面,我們不得不考慮外部競爭分析。公司在做內審的同時(shí),需要借助第三方工具了解公司的競爭對手在同一時(shí)期的工作中是否有新的變化。比如本季度公司通過(guò)搜索渠道達到了一個(gè)新的30字位置,公司的競爭是否發(fā)生了明顯的變化。它發(fā)生了什么樣的變化,變化發(fā)生在哪些頁(yè)面上,哪些關(guān)鍵詞對我們的影響與這些新頁(yè)面相關(guān)聯(lián),這些都是我們需要了解和關(guān)注的點(diǎn)。
  值得注意的是,我們需要通過(guò)性能評估的結果來(lái)回顧頁(yè)面詞和轉化路徑。當相關(guān)效果呈現出來(lái)后,我們就可以進(jìn)行新一輪的站點(diǎn)結構審核和優(yōu)化。由于我們在第一遍中已經(jīng)植入了很多新的邏輯和新的模塊,所以后面的工作會(huì )相對容易一些。這樣,通過(guò)每個(gè)季度的循環(huán),整個(gè)網(wǎng)站都會(huì )有一個(gè)質(zhì)的提升。
  (2)工作成就維度
  SEO項目初期,需要考慮項目的業(yè)務(wù)發(fā)展和布局策略。提前了解并參與此計劃或變更,可以快速有效地制定SEO項目計劃和相關(guān)管理計劃。
  以下是需要注意的成就維度:
  品牌知名度。提高品牌關(guān)鍵詞/行業(yè)詞的排名,增加相關(guān)詞組的搜索曝光率。
  捕獲相關(guān)流量。SEO 可以在 網(wǎng)站 網(wǎng)站建設中啟動(dòng),以考慮處于最原創(chuàng )狀態(tài)的頁(yè)面流量的屬性。
  渠道營(yíng)銷(xiāo)模式。甲方SEO團隊的工作不僅要考慮SEO策略的制定,還要考慮這部分精準流量轉化的路徑。
  6.其他提示
  (1) 賬本追蹤系統
  賬本追蹤系統偏向于管理經(jīng)驗,包括需要存儲原型文件;網(wǎng)站迭代記錄和跟蹤效果的維度是否一致;維護團隊中的哪個(gè)人正在執行哪個(gè)模塊,等等。
  (2) 獲得內部支持
  如何獲得內部支持?
  確定適當的漏斗階段目標。雖然SEO是一項長(cháng)期的工作,但團隊需要從這個(gè)渠道的成長(cháng)中獲得相關(guān)的信心和支持。重要的是要有正確的目標來(lái)有效地實(shí)現并激勵團隊。
  需要具有適當周期長(cháng)度的獲勝方法。將高頻關(guān)鍵詞和低頻關(guān)鍵詞納入同一個(gè)執行周期,讓有效呈現與長(cháng)期目標形成粘性互動(dòng)。
  為團隊提供可衡量的數據。定期提供渠道變化數據,如關(guān)鍵詞排名效果、流量增長(cháng)趨勢、引流量、渠道轉化效果等。
  設置里程碑以引導團隊的注意力。我們可以將里程碑式的渠道收益轉化為一種可交流的類(lèi)業(yè)務(wù)語(yǔ)言,以指導團隊內部的支持。
  (3) 搜索渠道意圖整理
  搜索漏斗意圖的整理是對 關(guān)鍵詞 狀態(tài)的補充。
  做個(gè)表格,注意單詞的變化趨勢,統計觀(guān)察可以挖潛。品牌站可以通過(guò)優(yōu)質(zhì)行業(yè)詞的跟蹤篩選形式,來(lái)評估跟蹤相關(guān)詞組的上升趨勢和流量天花板。
  評估意圖 關(guān)鍵詞 的排名和流量。通過(guò)國際第三方工具跟蹤相關(guān)排名,根據Google Trends或Google Bidding Tool中的搜索模塊了解相關(guān)搜索詞的單價(jià)、搜索量和檢索趨勢。
  拆分潛在品牌詞、商業(yè)詞、競品詞,匯集到優(yōu)化方案中。
  七、新網(wǎng)案例解讀
  以新網(wǎng)為例。我的任期是2017年到2019年,我離開(kāi)的時(shí)候,新網(wǎng)的日流量是10萬(wàn)多,剛加入的時(shí)候才1萬(wàn)多。當時(shí)我們整個(gè)站點(diǎn)的字量在PC加移動(dòng)端不到4000。在接下來(lái)的15個(gè)月的周期里,我們制定了不下四個(gè)新的內容增量項目,其中包括早年百度比較執著(zhù)推進(jìn)的MIP項目。以及我們正在做的一些聚合頁(yè)面。
  我們在內容生產(chǎn)方面也做了很多事情,比如通過(guò)算法聚合進(jìn)行迭代改寫(xiě),開(kāi)發(fā)行業(yè)需要的主題頁(yè)面。下圖中,我截取了今年6月份的數據??梢钥吹?,目前第三方評估的新網(wǎng)日均流量在30萬(wàn)左右,PC加移動(dòng)的存量為20萬(wàn)。
  打開(kāi)網(wǎng)易新聞查看精彩圖片
  內容生態(tài)的基本解決方案
  搜索通信有三種基本策略:
  挖掘用戶(hù)關(guān)注點(diǎn)與內容的匹配度,輸出內容。比如近兩年備受關(guān)注的私域運營(yíng)SOP和營(yíng)銷(xiāo)技術(shù),可以出相關(guān)營(yíng)銷(xiāo)技術(shù)白皮書(shū)和SOP合集。
  
  選擇優(yōu)質(zhì)媒體展示位置。根據搜索模式和所需空間類(lèi)型,選擇媒體類(lèi)型,分析媒體數據,選擇收錄空間好、空間穩定的平臺進(jìn)行內容投放。
  SEO技術(shù)支持,提升曝光率。通過(guò)關(guān)鍵詞布局策略、外鏈手段、模擬數據等,提升鏈接權重和排名能力,延長(cháng)排名周期。最起碼,我們要創(chuàng )造滿(mǎn)足用戶(hù)搜索習慣的內容,比如滿(mǎn)足用戶(hù)搜索習慣的標題。
  搜索傳播會(huì )有什么樣的差異?比如B端傳播,要傳播社會(huì )公益、機構認證、戰略合作、事件營(yíng)銷(xiāo)等場(chǎng)景。對于C端,要傳播平臺信息、差異化標簽、品牌價(jià)值。
  此外,還推薦了一些傳播方向。在國家層面,跟隨政策,做公益,在海外打造品牌,標桿行業(yè);在監管層面,是否合規,個(gè)人保護法和數據法對營(yíng)銷(xiāo)技術(shù)的影響;在行業(yè)影響層面,是否有一些可以直觀(guān)對外公布的新數據;在用戶(hù)層面,能否產(chǎn)生服務(wù)體驗、品牌信任、平臺差異化。
  最后,我們整理了一些關(guān)于搜索傳播范圍的建議,其中有一些是可以自己實(shí)現的。如果自媒體平臺有足夠的人力來(lái)維護,那么搜索生態(tài)傳播的工作就已經(jīng)完成了一半。目前,自媒體生態(tài)中的一些平臺仍然受到搜索引擎的高度關(guān)注,例如百度百家號和知乎。同時(shí),我們可以選擇一些優(yōu)質(zhì)的科技門(mén)戶(hù)網(wǎng)站。如果是大型的產(chǎn)品推廣活動(dòng),我們可以選擇當地的媒體。如果是重行業(yè)屬性,可以關(guān)注相對垂直的媒體。
  如何避免常見(jiàn)的作弊手段
  常規作弊手段有哪些,如何避免?這是很多朋友頭疼的問(wèn)題。這幾年在幫朋友關(guān)注搜索質(zhì)量的時(shí)候,大家對黑馬的東西還是比較敏感的,所以我簡(jiǎn)單跟大家說(shuō)說(shuō)需要避免的坑。
  在常見(jiàn)的作弊方式中,有兩點(diǎn)是不被搜索引擎喜歡的。首先是模擬點(diǎn)擊,它可以影響整個(gè)網(wǎng)站的真實(shí)統計。二是模擬發(fā)包,基于搜索引擎的定向數據接收池,通過(guò)批量IP發(fā)送定向數據包,不影響真實(shí)統計。
  也就是說(shuō),模擬點(diǎn)擊效果不僅會(huì )影響搜索引擎的數據,還會(huì )影響自己站點(diǎn)的數據。模擬合同影響了資源中心的統計數據,但真實(shí)的代表統計數據幾乎沒(méi)有變化。因為模擬點(diǎn)擊創(chuàng )建真實(shí)訪(fǎng)問(wèn),它會(huì )導致企業(yè)誤判網(wǎng)站本身的質(zhì)量。模擬承包影響搜索引擎自身平臺的數據,但不影響策略本身。這兩個(gè)特征就是判斷是否遇到過(guò)相關(guān)的過(guò)去狀態(tài)。
  模擬點(diǎn)擊是目前正在全國推廣的快速排序策略之一。早在2017年,我們就在小范圍內測試了真實(shí)IP。我們通過(guò)一個(gè)具體的過(guò)程,測試了純手動(dòng)點(diǎn)擊的真實(shí)IP,在200 index關(guān)鍵詞以下測試,短時(shí)間內效果很好,但是一個(gè)多月的老IP就不行了對重訪(fǎng)時(shí)的搜索排名起到更好的作用。在這個(gè)策略中,真正生效有兩個(gè)關(guān)鍵,一個(gè)是穩定正常的IP,一個(gè)是符合正常檢索意圖的行為。
  2021年,百度平臺連續兩次升級模擬點(diǎn)擊的黑帽相關(guān)算法“百度驚雷算法”,期間無(wú)數站點(diǎn)掉線(xiàn)。之所以下跌,是因為他們使用了海量的IP數據庫和類(lèi)似的模擬行為特征,讓百度官方可以更清楚地了解相關(guān)流量是否為真實(shí)流量,是否為真實(shí)動(dòng)作。
  模擬合約投放技術(shù)可以簡(jiǎn)單理解為將之前模擬點(diǎn)擊的參數和動(dòng)作寫(xiě)入數據腳本,通過(guò)特定接口或漏洞發(fā)送給搜索引擎的分析平臺。第一次真正理解這個(gè)攻略是在某搜索平臺和一位大牛聊起他之前工作經(jīng)歷時(shí)會(huì )遇到的正常事件。
  當然,這種開(kāi)口,有可能被守著(zhù)偷走,也有可能被無(wú)限分析。但也取決于具體的IP庫和具體的參數特性。這些固定地址和行為特征很容易在特定范圍內觸發(fā)百度的識別機制。
  常問(wèn)問(wèn)題
  問(wèn):鏈接農場(chǎng)/蜘蛛池在百度或其他搜索引擎中是否仍然有效?與直接購買(mǎi)外鏈相比有哪些優(yōu)勢和劣勢?
  A:鏈接農場(chǎng)/蜘蛛池的核心功能是引導搜索引擎的爬行模塊(蜘蛛)訪(fǎng)問(wèn)新的地址或站點(diǎn)。只要站點(diǎn)的訪(fǎng)問(wèn)IP不是負IP或者沒(méi)有觸發(fā)相關(guān)站點(diǎn),基本沒(méi)有危害。與外部鏈接的作用相比,外部鏈接的定期投放準確定義了錨文本,增加了錨文本與頁(yè)面之間鏈接的信任度。另外,常規的外鏈一般都是尋找權重比較高的頁(yè)面,這也是一個(gè)明顯的區別。
  Q:如何控制關(guān)鍵詞優(yōu)化的節奏,所有關(guān)鍵詞都要沖量,但在精力有限的情況下如何安排工作節奏?
  A:在了解了本次直播的第二部分后,其實(shí)這個(gè)問(wèn)題自己回答起來(lái)還是比較容易的。首先,SEO部分的關(guān)鍵詞優(yōu)化不是短期的事情,所以我們需要在初期規劃的時(shí)候,根據整個(gè)站點(diǎn)頁(yè)面的大小和結構,嘗試一次性完成布局。其次,我們?yōu)楝F場(chǎng)和非現場(chǎng)鏈接分配相對的 關(guān)鍵詞 重要性權重。
  Q:網(wǎng)站關(guān)閉站點(diǎn)多久會(huì )影響排名,站點(diǎn)迭代改版需要注意什么?
  A:目前站點(diǎn)的快照周期一般維持一周左右。如果周二/周三服務(wù)器恰好宕機或下線(xiàn),預計周末快照會(huì )發(fā)生變化或消失。在網(wǎng)站遷移/改版過(guò)程中需要注意以下細節:第一,盡量保持網(wǎng)站的URL結構不變,以便搜索引擎按照通常的結構進(jìn)行訪(fǎng)問(wèn)和抓??;第二,盡量不要對TDK架構進(jìn)行頻繁的調整和變更;三是改版使用的框架需要盡可能對搜索引擎友好。
  Q:SEO在企業(yè)中的作用,如何與企業(yè)負責人溝通網(wǎng)站優(yōu)化的重要性?
  A:搜索引擎一直是網(wǎng)站來(lái)源的核心渠道。SEO工作的價(jià)值與SEM相當,只是兩種渠道的轉化路徑不同,流量的精準度也不同。但在有效SEO的情況下,應該是當前渠道中ROI效果最好的渠道。因為它只需要自己的一部分人工成本和資源成本,不需要外包,所以這部分投入遠低于競價(jià)廣告和原生廣告。
  問(wèn):如何衡量 SEO 工作的有效性?如何評估效果?
  A:落在甲方市場(chǎng)部的KPI永遠是有效的線(xiàn)索和營(yíng)業(yè)額。如果是甲方市場(chǎng)部,可以參考的工作效果指標可以是以下幾個(gè)層次:收錄數量、有效關(guān)鍵詞數量、核心關(guān)鍵詞排名效果(無(wú)需要強調的核心)、流量、轉化率或成為的線(xiàn)索數量。
  乙方服務(wù)項目組的KPI主要以流量來(lái)衡量。乙方項目組在項目需求溝通中的定期核心考核包括:有效流量增長(cháng)、核心關(guān)鍵詞優(yōu)質(zhì)排名等。
  Q:我們公司的SEO優(yōu)化是外包給第三方公司的。關(guān)鍵詞 基本上在主頁(yè)上。不過(guò),與去年相比,今年的線(xiàn)上線(xiàn)索少了很多。不知道怎么提高?
  A:1、需要判斷相關(guān)關(guān)鍵詞是否有效關(guān)鍵詞,相關(guān)關(guān)鍵詞是否有流量接入,以及接入的相關(guān)參數詳情。
  2、線(xiàn)索量要與市場(chǎng)行業(yè)、用戶(hù)搜索習慣相關(guān)。受疫情影響,投放和購買(mǎi)方向的支出及相關(guān)行為明顯縮水。
  3、可以跟蹤相關(guān)行業(yè)關(guān)鍵詞近期指數走勢,判斷是否為相關(guān)關(guān)鍵詞的真實(shí)訪(fǎng)問(wèn)趨勢。
  Q:如何平衡官網(wǎng)營(yíng)銷(xiāo)功能和網(wǎng)站健康指標?
  答:網(wǎng)站 優(yōu)化的健康指標是協(xié)助網(wǎng)站 營(yíng)銷(xiāo)的有力武器。兩者相輔相成。如果是基于開(kāi)發(fā)框架,再考慮相關(guān)的營(yíng)銷(xiāo)和運營(yíng)能力,我想應該是對SEO沒(méi)有全面的了解。政策和規范產(chǎn)生了一些認知偏差。即使我們使用有利于運營(yíng)的前后端分離模式的開(kāi)發(fā)框架。我們仍然有策略使網(wǎng)站有利于搜索引擎索引和排名。
  Q:不懂搜索引擎規則,如何快速增加收錄?簡(jiǎn)單的爬行收錄高效的方式?
  A:收錄沒(méi)有簡(jiǎn)單的搶法,但是有標準化的策略來(lái)提高搶的基數和效率。一個(gè)好的 收錄 粉底有兩個(gè)基本支撐。我們不僅要保證我們的網(wǎng)站有合理的開(kāi)發(fā)框架和流暢的URL結構,還要保證在官網(wǎng)有固定的內容輸出和展示頻率。網(wǎng)站在to B營(yíng)銷(xiāo)類(lèi)中的一個(gè)收錄細節依據是網(wǎng)站內容質(zhì)量,這一點(diǎn)在之前的群分享中被很多朋友強調過(guò)。
  Q:在哪里可以查看比賽的變化?有什么工具嗎?
  A:我們可以重點(diǎn)關(guān)注三個(gè)站點(diǎn)的變化:Chinaz、愛(ài)站、5118。
  問(wèn):從全球范圍來(lái)看,谷歌的市場(chǎng)份額占90%以上。那么對于目標受眾在國內市場(chǎng)的企業(yè)來(lái)說(shuō),在谷歌上投放是否合適呢?
  A:從搜索生態(tài)的角度,我們可以根據用戶(hù)畫(huà)像或者市場(chǎng)比例來(lái)分配廣告費用,通過(guò)前期的預算來(lái)測試真實(shí)的廣告投放效果,考慮渠道是否適合產(chǎn)品和平臺。
  SEO是一個(gè)通用規范,在各種搜索引擎上都可以呈現,但有些搜索引擎抓取時(shí)間長(cháng),更新頻率慢,能看到的效果不夠直觀(guān)。比如百度的更新周期可能是按周計算的,但是搜狗、360、神馬,他們的快照更新,收錄,他們的周期比較長(cháng),需要比較扎實(shí)的內容基礎來(lái)吸引他們. 三個(gè)感興趣的平臺。Google 和 Bing 等平臺對爬取相對開(kāi)放。我測試過(guò),谷歌可以維持一個(gè)站點(diǎn)日均50萬(wàn)左右的抓取量,但是360、搜狗、百度達不到這個(gè)水平。
  從純SEO的角度來(lái)看,我們可以采用更適用、更規范的內容策略,使網(wǎng)站更適合所有搜索引擎。
  Q:您如何看待目前搜索流量的下滑?企業(yè)該如何應對?
  A:搜索流量下降并不是一個(gè)特別準確的描述。目前整個(gè)搜索池處于穩定狀態(tài),搜索用戶(hù)市場(chǎng)在8.5億到8.8億之間。有些行業(yè)確實(shí)會(huì )受到用戶(hù)日常碎片化時(shí)間的影響,比如轉向知乎、抖音等生態(tài)。
  針對這種情況,我能給的建議是關(guān)注行業(yè)的關(guān)鍵詞,這兩年的趨勢是什么。如果確實(shí)是下降趨勢,我們可以關(guān)注用戶(hù)使用不同APP的時(shí)長(cháng),找到相關(guān)的行業(yè)趨勢來(lái)比較各個(gè)APP的增長(cháng)情況。如果確實(shí)有增長(cháng),則考慮適當分配預算以轉化營(yíng)銷(xiāo)行為。
  然后,根據行業(yè)詞的分析確定以下?tīng)I銷(xiāo)行為??梢钥纯搓P(guān)鍵詞的研究。
  Q:百度收錄有一萬(wàn)多冊,但幾乎沒(méi)有百度搜索流量。問(wèn)題是什么?
  A:核心問(wèn)題出在自己創(chuàng )建的頁(yè)面上。一是可能不滿(mǎn)足用戶(hù)的搜索習慣;另一種是這些頁(yè)面可能只滿(mǎn)足了基本的展示需求,但質(zhì)量和結構都達不到要求,需要重新對頁(yè)面進(jìn)行重構和優(yōu)化。
  Q:如何看待短視頻關(guān)鍵詞搜索覆蓋率?
  A:確實(shí)有圈內朋友在做短視頻關(guān)鍵詞搜索覆蓋。通過(guò)量產(chǎn)視頻、覆蓋特殊場(chǎng)景文案關(guān)鍵詞,這是對抖音生態(tài)的有效舉措。目前我能觀(guān)察到的關(guān)鍵詞覆蓋范圍主要是應用于消費品、化工、貿易等產(chǎn)品,目前SaaS公司很少。
  問(wèn):公司的關(guān)鍵詞是由競爭對手推出的。當我搜索我的公司名稱(chēng)時(shí),另一家公司顯示在我面前。如何解決這個(gè)問(wèn)題呢。
  A:根據我之前在代理機構的工作經(jīng)驗,我建議你先建立一個(gè)比較完善的權益機制,優(yōu)先取得商標權,把公司名稱(chēng)變成正式的品牌商標。如果您有已獲批的商標,您可以利用該商標的權益向SEM專(zhuān)屬客服及顧問(wèn)反映情況。如果沒(méi)有效果,可以直接去業(yè)務(wù)投訴,或者投訴到百度法務(wù)。
  另外判斷對方的關(guān)鍵詞是否受歡迎,如果受歡迎,可以通過(guò)網(wǎng)絡(luò )進(jìn)行投訴。如果沒(méi)有飄飄紅,一般情況下客服是不會(huì )有好的解決辦法的。目前,這是商戰中的一種非常規行為。SaaS圈內大家對這種行為還是很鄙視的,但是很多人確實(shí)是為了KPI在執行相關(guān)動(dòng)作。
  Q:網(wǎng)站公司權重低,無(wú)法排在前列。搜索業(yè)務(wù)關(guān)鍵詞前十頁(yè)看不到我公司的網(wǎng)站。請問(wèn)老師,除了花錢(qián),還有什么方法可以快速提高排名?
  A:快速提升排名的方法在第四部分已經(jīng)介紹過(guò)了,但是本身并不是白帽策略,是變態(tài)的。如果搜索引擎通過(guò)算法對比發(fā)現你確實(shí)使用了不正常的策略,你可能就完蛋了。如果你提醒三次,基本上這個(gè)網(wǎng)站就會(huì )被永久沙盒化,不會(huì )再出來(lái)了。
  因此,我的建議是,您應該清楚地了解站點(diǎn)是否存在問(wèn)題,并解決站點(diǎn)的問(wèn)題。這是第一步。第二步是要有一個(gè)詳細的內容計劃,讓網(wǎng)站更具周期性,這樣搜索引擎就會(huì )清楚地識別出你網(wǎng)站的變化。當引擎清楚地看到網(wǎng)站本身的行為趨于良好時(shí),就會(huì )給你更多的關(guān)注,這會(huì )讓你的網(wǎng)站成為搜索引擎喜歡的網(wǎng)站。
  關(guān)于作者:
  顧海松:原博雅魔方SEO業(yè)務(wù)總監,Martech王國社區/公眾號負責人,ABM成長(cháng)研究院名譽(yù)顧問(wèn),直播研究院名譽(yù)顧問(wèn),第十三屆虎嘯獎評委會(huì )委員,鳥(niǎo)筆記作者柱子。
  近11年to B服務(wù)經(jīng)驗,致力于搜索生態(tài)優(yōu)化,專(zhuān)注于企業(yè)服務(wù)、教育培訓、汽車(chē)租賃、電商經(jīng)濟、云生態(tài)、行業(yè)等領(lǐng)域的流量提升策略。曾為阿里巴巴、螞蟻集團、新網(wǎng)科技、權大師、人人貸、長(cháng)城汽車(chē)等眾多品牌和平臺提供服務(wù)。
  解決方案:php74 騎士 優(yōu)采云采集簡(jiǎn)歷 接口及采集規則
  
  Knightcms人才系統是一套基于PHP+MYSQL開(kāi)發(fā)的免費+開(kāi)源的專(zhuān)業(yè)人才招聘系統。軟件具有執行效率高、模板自由切換、便捷的后臺管理功能等諸多優(yōu)良特性。所有代碼均來(lái)自Knight Network原創(chuàng ),擁有完整的知識產(chǎn)權。騎士人才系統依靠騎士網(wǎng)絡(luò )不斷創(chuàng )新的精神和認真的工作態(tài)度,已成為國內同類(lèi)軟件中最優(yōu)秀的人才系統。騎士cms人才系統v5.0.1 更新內容: 新增:后臺增加跳轉頁(yè)面 增加:短信預警提醒,方便客戶(hù)及時(shí)充值 單獨呈現,方便跟蹤客戶(hù)新增:后臺統計增加列表頁(yè)面。
  

解讀:案例 | R語(yǔ)言數據挖掘實(shí)戰:電商評論情感分析

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 169 次瀏覽 ? 2022-12-04 20:56 ? 來(lái)自相關(guān)話(huà)題

  解讀:案例 | R語(yǔ)言數據挖掘實(shí)戰:電商評論情感分析
  微信加CDA為好友(ID:joinlearn),拉你進(jìn)500人數據分析師交流群。點(diǎn)擊閱讀原文查看CDA數據分析師交流群規范及收益。期待您的光臨~
  隨著(zhù)網(wǎng)絡(luò )購物的普及,各大電子商務(wù)公司之間的競爭也非常激烈。為了提高客戶(hù)服務(wù)質(zhì)量,除了打價(jià)格戰,了解客戶(hù)的需求,傾聽(tīng)客戶(hù)的聲音也越來(lái)越重要。最重要的方法是對文本評論進(jìn)行數據挖掘。今天通過(guò)學(xué)習《R語(yǔ)言數據挖掘實(shí)戰》案例:電商點(diǎn)評與數據分析,從目標到操作內容與大家分享。
  本文結構如下
  1.要達到的目標
  通過(guò)對客戶(hù)評論的分析,進(jìn)行一系列的方法來(lái)獲取客戶(hù)對某產(chǎn)品的態(tài)度和情感傾向,以及客戶(hù)關(guān)注產(chǎn)品的哪些屬性,產(chǎn)品的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及產(chǎn)品的賣(mài)點(diǎn)是什么,等等...
  2.文本挖掘的主要思想。
  由于語(yǔ)言數據的特殊性,我們主要提取句子中的關(guān)鍵詞,提取評論的關(guān)鍵詞,然后根據關(guān)鍵詞的權重,這里我們使用空間向量模型將每個(gè)特征關(guān)鍵詞轉化為數字向量,然后計算其距離,然后聚類(lèi)得到三類(lèi)情緒,分別是積極的、消極的和中性的。用 來(lái)代表顧客對產(chǎn)品的情感傾向。
  3、文本挖掘的主要流程:
  請輸入標題 4.案例流程簡(jiǎn)介及原理介紹及軟件操作
  4.1 數據爬取
  首先下載優(yōu)采云軟件。鏈接是 。下載安裝后,注冊賬號并登錄,界面如上:
  點(diǎn)擊快速開(kāi)始-新建任務(wù),輸入任務(wù)名稱(chēng),點(diǎn)擊下一步,打開(kāi)京東熱水器頁(yè)面
  將頁(yè)面地址復制到優(yōu)采云,如下圖:
  觀(guān)察網(wǎng)頁(yè)類(lèi)型,由于收錄美的熱水器的頁(yè)面不止一個(gè),下面有一個(gè)翻頁(yè)按鈕,所以我們需要創(chuàng )建一個(gè)點(diǎn)擊下一頁(yè)的循環(huán),然后在京東上點(diǎn)擊下一頁(yè)優(yōu)采云中的頁(yè)面,點(diǎn)擊彈出的對話(huà)框列表中,點(diǎn)擊循環(huán),點(diǎn)擊下一頁(yè),如圖:
  然后點(diǎn)擊一個(gè)產(chǎn)品,在彈出的頁(yè)面點(diǎn)擊Add an element list處理祖先元素--點(diǎn)擊Add to list--繼續編輯列表,接下來(lái)我們點(diǎn)擊另一個(gè)產(chǎn)品的名稱(chēng),點(diǎn)擊Add to在彈出的頁(yè)面列表上,讓軟件自動(dòng)識別頁(yè)面上的其他產(chǎn)品,然后點(diǎn)擊創(chuàng )建列表完成,再點(diǎn)擊循環(huán)創(chuàng )建頁(yè)面中的產(chǎn)品列表,循環(huán)抓取。
  然后軟件自動(dòng)跳轉到第一個(gè)產(chǎn)品的特定頁(yè)面。我們點(diǎn)擊評論,在彈出的頁(yè)面中點(diǎn)擊這個(gè)元素,看到有很多頁(yè)的評論。這時(shí)候我們就需要創(chuàng )建一個(gè)循環(huán)列表。同上,點(diǎn)擊下一頁(yè)—循環(huán)點(diǎn)擊。然后點(diǎn)擊我們需要抓取的評論文字,點(diǎn)擊彈出頁(yè)面創(chuàng )建元素列表處理一組元素——點(diǎn)擊添加到列表——繼續編輯列表,然后點(diǎn)擊第二條評論點(diǎn)擊在彈出的頁(yè)面上Add to the list—cycle,然后點(diǎn)擊評論的文字,選擇該元素的文字。好了,軟件會(huì )循環(huán)抓取這個(gè)頁(yè)面的文字,如圖:
  全部點(diǎn)擊完成后,我們查看設計器,發(fā)現有4個(gè)循環(huán),第一個(gè)是翻頁(yè),第二個(gè)是循環(huán)點(diǎn)擊每個(gè)商品,第三個(gè)是翻評論頁(yè),然后第四是抓取循環(huán)評論文本,所以我們需要把第四個(gè)循環(huán)嵌入到第三個(gè)循環(huán)中,然后整體嵌入到第二個(gè)循環(huán)中,然后再整體嵌入到第一個(gè)循環(huán)中,也就是說(shuō),先點(diǎn)擊下一頁(yè),然后點(diǎn)擊產(chǎn)品,再點(diǎn)擊下一個(gè)功能,然后抓取評論,這一套action loops。那么我們只需要在設計器中將第4個(gè)循環(huán)拖到第3個(gè)循環(huán)中,這樣拖下去即可。就是這樣:拖動(dòng)結果如下: ,然后點(diǎn)擊Next—Next—點(diǎn)擊采集就OK了。
  4.2 文本去重
  本例以京東平臺下美的熱水器的顧客評論為分析對象。按照流程,我們先用優(yōu)采云爬取了京東網(wǎng)站上客戶(hù)對美的熱水器的評論,部分數據如下!
  通過(guò)簡(jiǎn)單的觀(guān)察,我們可以發(fā)現評論的一些特征,
  因此,我們需要對這些數據進(jìn)行數據預處理,首先進(jìn)行數據清洗,而編輯距離去重實(shí)際上是一種計算字符串之間相似度的方法。給定兩個(gè)字符串,將字符串A變換為字符串B所需的刪除、插入、替換等操作的次數稱(chēng)為從A到B的編輯路徑。最短的編輯路徑稱(chēng)為字符串A和B的編輯距離。對于例如,“還沒(méi)用過(guò),不知道怎么樣,但是安裝材料費有點(diǎn)高,380”和“還沒(méi)用過(guò),不知道質(zhì)量如何,但是”的編輯距離安裝材料費確實(shí)貴,380寸是9。
  首先,我們需要對重復的評論進(jìn)行重復,也就是刪除重復的評論。
  重復詞出現在另一個(gè)句子中,會(huì )影響關(guān)鍵詞在整個(gè)評論中出現的頻率過(guò)高,影響分析結果。我們想壓縮它。
  還有一些無(wú)意義的評論,比如自動(dòng)點(diǎn)贊的評論,我們需要識別并刪除。
  4.3 壓縮語(yǔ)句規則:
  1.如果讀的和上面的list一樣,但是下面是空的,就放下。2.如果讀取的和上面的表一樣,但是有底,則判斷重復,清空底表。3.如果read和top list相同,bottom是,則判斷不是Heavy,上下清零 4.如果read和上面list不同,字符>=2,判斷為重復,上下清零 5.如果讀的和上面的表不一樣,底是空的,判斷不重,繼續放 6.如果讀的和上面的表不一樣,有底,判斷是不重,放下 7. 看完后,判斷上下,重則壓緊。
  4.4 然后我們進(jìn)行中文分詞。分詞的一般原則是:
  中文分詞是指將一系列漢字分割成獨立的詞。分詞結果的準確性對文本挖掘的效果非常重要。目前分詞算法主要有四種:字符串匹配算法、基于理解的算法、基于統計的方法和基于機器學(xué)習的算法。
  1、字符串匹配算法是將待分詞的文本字符串與字典中的詞進(jìn)行精確匹配。如果字典中的字符串出現在當前待分詞的文本中,則匹配成功。常用的匹配算法主要有正向最大匹配、反向最大匹配、雙向最大匹配和最小分割。
  2、基于理解的算法通過(guò)模擬人們在現實(shí)中對一句話(huà)的理解效果進(jìn)行分詞。這種方法需要分析句法結構,同時(shí)需要用到大量的語(yǔ)言知識和信息,比較復雜。
  3、基于統計的方法就是利用統計的思想進(jìn)行分詞。單詞由單個(gè)字符組成。在文本中,相鄰字符同時(shí)出現的次數越多,它們組成單詞的概率就越大;因此,可以用字符間的共現概率來(lái)反映詞的概率,統計相鄰字符的共現情況。出現次數并計算它們的共現概率。當共現概率高于設定的閾值時(shí),可以認為它們可能構成該詞
  4. 最后是基于機器學(xué)習的方法:利用機器學(xué)習進(jìn)行模型構建。構建大量的分割文本作為訓練數據,使用機器學(xué)習算法進(jìn)行模型訓練,利用模型對未知文本進(jìn)行分割。
  4.5 得到分詞結果后
  我們知道這些句子中經(jīng)常會(huì )有一些“了”、“啊”、“但是”,語(yǔ)氣詞、關(guān)聯(lián)詞、介詞等,這些詞對句子的特征沒(méi)有貢獻,我們可以去掉它們,還有一些專(zhuān)有名詞,對于這個(gè)分析案例,“熱水器”和“中國”經(jīng)常出現在評論中,這是我們已經(jīng)知道的,因為我們最初分析的是關(guān)于熱水器的評論,所以這些都是無(wú)用的信息。我們也可以刪除它們。那么這里必須刪除這些詞。一般通過(guò)建立的自定義詞庫刪除。
  4.6 分詞結果處理后
  那么我們就可以進(jìn)行統計,畫(huà)出詞頻云圖,大致了解那些關(guān)鍵詞的情況,為我們接下來(lái)的分析提供思路素材。操作如下:
  4.7 得到分詞結果后
  我們開(kāi)始建模和分析。模型選擇的方法有很多,但歸納起來(lái),只有兩種,即向量空間模型和概率模型。在這里我們介紹一個(gè)具有代表性的模型
  模型一:TF-IDF方法:
  方法A:對每個(gè)詞的出現頻率進(jìn)行加權后,作為其維度的坐標來(lái)確定一個(gè)特征的空間位置。
  方法B:將所有出現的詞所收錄的屬性作為維度,然后將詞與各個(gè)屬性之間的關(guān)系作為坐標,進(jìn)而定位一篇文檔在向量空間中的位置。
  但實(shí)際上,如果一個(gè)詞條在一類(lèi)文檔中頻繁出現,說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征。此類(lèi)詞條應該被賦予更高的權重,并被選為此類(lèi)文本的特征詞,用于將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。
  
  模型二:.LDA模型
  傳統的判斷兩篇文檔相似度的方法是查看兩篇文檔中出現的詞的數量,比如TF-IDF。幾乎沒(méi)有,但是這兩個(gè)文件很相似。
  例如,有如下兩個(gè)句子:
  “喬布斯走了?!?“蘋(píng)果會(huì )降價(jià)嗎?”
  可以看出,上面兩句話(huà)沒(méi)有共同詞,但是兩句話(huà)很相似。如果按照傳統的方法判斷兩個(gè)句子,肯定是不相似的,所以在判斷文檔的相關(guān)性時(shí),需要考慮文檔。語(yǔ)義學(xué),語(yǔ)義挖掘的武器是主題模型,LDA是比較有效的模型之一。
  LDA模型是一種無(wú)監督的主題生成模型,它假設文檔集中的文檔按照一定的概率共享一組隱藏主題,隱藏主題集由相關(guān)詞組成。這里一共有三個(gè)集合,分別是文檔集合、主題集合和單詞集合。文檔集到主題集服從概率分布,詞集到主題集也服從概率分布。既然我們知道了文檔集和詞集,那么根據貝葉斯定理就可以找到主題集了。具體算法很復雜,這里就不多解釋了。有興趣的同學(xué)可以參考以下資料
   37616
  4.8 項目概要
  1、數據復雜度較高,文本挖掘面臨的非結構化語(yǔ)言,文本非常復雜。
  2.過(guò)程不同,文本挖掘更注重預處理階段
  3、整體流程如下:
  五、應用領(lǐng)域:
  一、輿情分析
  2.搜索引擎優(yōu)化
  3、其他行業(yè)的輔助應用
  6、分析工具:
  ROST CM 6 是目前國內唯一由武漢大學(xué)沉陽(yáng)教授開(kāi)發(fā)編碼,助力人文社會(huì )科學(xué)研究的大型免費社交計算平臺。本軟件可以實(shí)現微博分析、聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類(lèi)分析等一系列文本分析.,擁有超過(guò)7000名用戶(hù),覆蓋國內外100多所大學(xué),包括劍橋大學(xué)、北海道大學(xué)、北京大學(xué)、清華大學(xué)、香港城市大學(xué)、澳門(mén)大學(xué)等多所高校。下載地址:
  RStudio是R語(yǔ)言的集成開(kāi)發(fā)環(huán)境(IDE),其亮點(diǎn)在于出色的界面設計和編程輔助。它可以運行在多種平臺上,包括windows、Mac、Ubuntu和網(wǎng)頁(yè)版。另外,本軟件是免費開(kāi)源的,可以在官網(wǎng)下載:
  7.1 Rostcm6實(shí)現:
  打開(kāi)軟件ROSTCM6
  這是處理前的文本內容。我們會(huì )從爬取的數據中只去除評論字段,然后將其保存為T(mén)XT格式。打開(kāi)它如下。按照流程,我們會(huì )先去除重復和字符、英文、數字等項。
  2、點(diǎn)擊文本處理-一般處理-處理條件選擇“retain only one for all repeated lines”和“delete all English characters contained in all lines”,去掉英文和數字等字符
  這是處理后的文件內容,可以看到數字和英文都??被刪除了。
  3、接下來(lái)進(jìn)行分詞。點(diǎn)擊功能分析——分詞(這里可以選擇自定義詞庫,如搜狗詞庫等)
  分詞處理后的結果。簡(jiǎn)單觀(guān)察一下,分詞之后,出現了很多無(wú)意義的停用詞,比如“in”、“under”、“one”等等
  4. 接下來(lái),我們過(guò)濾專(zhuān)有名詞,停用詞,統計詞頻。點(diǎn)函數分析——詞頻分析(中文)
  在功能分析下,單擊情緒分析以執行情緒分析。
  并且可以實(shí)現云圖的可視化。
  7.2 R的實(shí)現
  這里需要安裝幾個(gè)必要的包,因為幾個(gè)包的安裝比較復雜,這里是鏈接
  可以參考這篇博客安裝包。安裝完成后,就可以開(kāi)始R文本挖掘了。下面代碼的說(shuō)明文字較少,各個(gè)函數的作用初學(xué)者比較陌生。讀者可以先閱讀這些文章文章,了解各個(gè)函數的作用后,使用R進(jìn)行文本挖掘。鏈接如下:
  博客/檔案/29060
  直接
  讀完之后,進(jìn)行下去就會(huì )清楚很多。
  加載工作區庫 (rJava)
  圖書(shū)館(tmcn)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(TM)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  頭(數據1)
  數據
  —————————————————————— #Rwordseg分詞
  data1_cut=segmentCN(data1, nosymbol=T, returnType="tm")
  刪除\n、英文字母、數字 data1_cut=gsub("\n", "", data1_cut)
  data1_cut=gsub("[az]*", "", data1_cut)
  
  data1_cut=gsub("\d+", "", data1_cut)
  write.table(data1_cut, 'data1_cut.txt', row.names = FALSE)
  Data1=readLines('data1_cut.txt')
  Data1=gsub('\"', '', data1_cut)
  長(cháng)度(數據1)
  頭(數據1)
  ———————————————————————————— #Load workspace
  圖書(shū)館(自然語(yǔ)言處理)
  圖書(shū)館(TM)
  圖書(shū)館(大滿(mǎn)貫)
  圖書(shū)館(主題模型)
  R語(yǔ)言環(huán)境下的文本可視化與主題分析 setwd("F:/data and program/chapter15/computer experiment")
  data1=readLines("./data/meidi_jd_pos_cut.txt", encoding = "UTF-8")
  頭(數據1)
  停用詞
  停用詞=停用詞[611:長(cháng)度(停用詞)]
  去掉空格、字母 Data1=gsub("\n", "", Data1)
  Data1=gsub("[a~z]*", "", Data1)
  Data1=gsub("\d+", "", Data1)
  構建語(yǔ)料庫 corpus1 = Corpus(VectorSource(Data1))
  corpus1 = tm_map(corpus1, FUN=removeWords, stopwordsCN(stopwords))
  創(chuàng )建文檔術(shù)語(yǔ)矩陣 sample.dtm1
  colnames(as.matrix(sample.dtm1))
  tm::findFreqTerms(sample.dtm1, 2)
  unlist(tm::findAssocs(sample.dtm1, '安裝', 0.2))
  ——————————————————————–
  # 主題模型分析
  Gibbs = LDA(sample.dtm1, k = 3, method = "Gibbs", control = list(seed = 2015, burnin = 1000, thin = 100, iter = 1000))
  最有可能的主題文檔 Topic1
  表(主題1)
  每個(gè)主題的前 10 個(gè) TermTerms1
  條款1
  —————————————————————————— #使用vec方法分詞
  圖書(shū)館(tmcn)
  圖書(shū)館(TM)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(文字云)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  d.vec1
  wc1=getWordFreq(unlist(d.vec1), onlyCN = TRUE)
  wordcloud(wc1$Word,wc1$Freq,col=rainbow(長(cháng)度(wc1$Freq)),min.freq = 1000)
  #
  八、結果展示及說(shuō)明
  這是分析的部分結果??梢钥吹?,大部分客戶(hù)的評論都帶有正面的情緒,說(shuō)明客戶(hù)對美的熱水器的滿(mǎn)意度是比較高的。哪些方面滿(mǎn)意,哪些方面不滿(mǎn)意,哪些方面可以保持,哪些方面需要改進(jìn),這就需要我們另一種結果展示了。
  點(diǎn)擊可視化工具,得到詞頻云圖。根據云圖,我們可以看到客戶(hù)最關(guān)心的點(diǎn),也就是評論中提到較多的點(diǎn)。從圖中可以看到“安裝”、“師傅”、“配件”、“暖氣”、“快”、“便宜”、“速度”、“品牌”、“京東”、“送貨”、“服務(wù)” 、“價(jià)格”、“供暖”等關(guān)鍵詞出現頻率很高,我們可以大致猜到26
  另外,值得注意的是,云圖中還有一些“好”、“大”、“滿(mǎn)意”等字眼。我們還不知道這些詞背后的語(yǔ)義,所以我們需要找到相應的注釋。,提取這些詞對應的主題點(diǎn),然后對分析結果進(jìn)行優(yōu)化
  文|@白加黑治療病
  來(lái)源 | PPV類(lèi)
  原來(lái)的:
  點(diǎn)擊閱讀原文查看CDA數據分析師交流群規范及收益
  解讀:文章圖片提取工具(圖片提取文本的工具有哪些)
  目錄:
  1. 一個(gè)圖片提取文字的工具
  批量提取網(wǎng)站圖片。使用圖片提取工具從我們的網(wǎng)頁(yè)中提取圖片。圖片批量提取工具具有圖片過(guò)濾功能。通過(guò)設置圖片大小范圍,可以提取目標網(wǎng)站抓取的所有圖片,而采集為文章采集,提取文章中的插圖。
  2.從圖片中提取文章
  批量提取網(wǎng)站圖片工具,可以通過(guò)批量鏈接下載圖片,導入我們的圖片鏈接批量下載保存到本地,其次可以使用批量關(guān)鍵詞采集,通過(guò)圖片采集、文章采集、文章導出插圖生成本地圖片素材庫,最后即可提取下載全站圖片,輸入目標鏈接地址即可,可以批量導出整站圖片。
  3. 文章 內容提取工具
  4.圖片提取文本文件
  
  在我們的 網(wǎng)站 上重做視覺(jué)內容,包括信息圖表、視頻、圖像和視覺(jué)元素 我們甚至可以決定更改 網(wǎng)站 的設計作為內容更新的一部分,只要我們認為它是好的當決定(例如,我們的 網(wǎng)站 設計看起來(lái)過(guò)時(shí)了)執行 文章 圖像優(yōu)化時(shí),我們需要做的第一件事實(shí)際上是分析所有內容并選擇要刷新的部分。
  5.文檔圖像提取
  為了更新和重新制作我們的內容,我們可以從最好的論文中聘請專(zhuān)業(yè)的作家并撰寫(xiě)網(wǎng)站,或者我們可以自己完成所有工作但是,在開(kāi)始選擇內容時(shí),我們應該自己完成
  6、圖文提取工具有哪些?
  為了幫助我們選擇最好的內容來(lái)刷新,我們可以使用我們在 文章 圖像優(yōu)化過(guò)程中使用的優(yōu)先級排序的基本原則: 檢查 SEO 排名 - 檢查不同內容的搜索引擎排名 它們是否在第一頁(yè)?如果他們曾經(jīng)在第一頁(yè)上但掉到第二頁(yè)或第三頁(yè),請關(guān)注這些部分。
  7.圖片提取文件軟件
  我們可能只需要進(jìn)行一些更改即可使這些部分再次排在第一頁(yè)上
  
  8.圖片文字提取
  考慮我們的品牌——我們最近是否改變了我們的品牌?我們的聽(tīng)眾與以前的聽(tīng)眾有什么不同嗎?如果是這種情況,請為我們的老觀(guān)眾找到內容,然后找到一種方法來(lái)更新或重新制作這些內容以與我們當前的觀(guān)眾相關(guān) 查看指標 - 我們可能正在跟蹤很多指標,所以只需檢查它們,我們就可以決定需要刷新的內容。
  9.從文檔中提取圖片
  瀏覽量、點(diǎn)贊數、評論數、分享數等都是需要更改哪些部分的良好指標。比如標題稍微改一下,就可以提高點(diǎn)擊率
  10、有什么工具可以從圖片中提取文字
  讓自己成為領(lǐng)導者——如果我們想在自己周?chē)⒛撤N品牌形象,讓我們被視為我們領(lǐng)域的權威和思想領(lǐng)袖,那么我們絕對應該用新發(fā)現更新舊內容。自從我們發(fā)布這些文章文章 關(guān)于自以來(lái)新發(fā)現或開(kāi)發(fā)的主題。
  然后,向這些添加新信息
  圖片 查看全部

  解讀:案例 | R語(yǔ)言數據挖掘實(shí)戰:電商評論情感分析
  微信加CDA為好友(ID:joinlearn),拉你進(jìn)500人數據分析師交流群。點(diǎn)擊閱讀原文查看CDA數據分析師交流群規范及收益。期待您的光臨~
  隨著(zhù)網(wǎng)絡(luò )購物的普及,各大電子商務(wù)公司之間的競爭也非常激烈。為了提高客戶(hù)服務(wù)質(zhì)量,除了打價(jià)格戰,了解客戶(hù)的需求,傾聽(tīng)客戶(hù)的聲音也越來(lái)越重要。最重要的方法是對文本評論進(jìn)行數據挖掘。今天通過(guò)學(xué)習《R語(yǔ)言數據挖掘實(shí)戰》案例:電商點(diǎn)評與數據分析,從目標到操作內容與大家分享。
  本文結構如下
  1.要達到的目標
  通過(guò)對客戶(hù)評論的分析,進(jìn)行一系列的方法來(lái)獲取客戶(hù)對某產(chǎn)品的態(tài)度和情感傾向,以及客戶(hù)關(guān)注產(chǎn)品的哪些屬性,產(chǎn)品的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及產(chǎn)品的賣(mài)點(diǎn)是什么,等等...
  2.文本挖掘的主要思想。
  由于語(yǔ)言數據的特殊性,我們主要提取句子中的關(guān)鍵詞,提取評論的關(guān)鍵詞,然后根據關(guān)鍵詞的權重,這里我們使用空間向量模型將每個(gè)特征關(guān)鍵詞轉化為數字向量,然后計算其距離,然后聚類(lèi)得到三類(lèi)情緒,分別是積極的、消極的和中性的。用 來(lái)代表顧客對產(chǎn)品的情感傾向。
  3、文本挖掘的主要流程:
  請輸入標題 4.案例流程簡(jiǎn)介及原理介紹及軟件操作
  4.1 數據爬取
  首先下載優(yōu)采云軟件。鏈接是 。下載安裝后,注冊賬號并登錄,界面如上:
  點(diǎn)擊快速開(kāi)始-新建任務(wù),輸入任務(wù)名稱(chēng),點(diǎn)擊下一步,打開(kāi)京東熱水器頁(yè)面
  將頁(yè)面地址復制到優(yōu)采云,如下圖:
  觀(guān)察網(wǎng)頁(yè)類(lèi)型,由于收錄美的熱水器的頁(yè)面不止一個(gè),下面有一個(gè)翻頁(yè)按鈕,所以我們需要創(chuàng )建一個(gè)點(diǎn)擊下一頁(yè)的循環(huán),然后在京東上點(diǎn)擊下一頁(yè)優(yōu)采云中的頁(yè)面,點(diǎn)擊彈出的對話(huà)框列表中,點(diǎn)擊循環(huán),點(diǎn)擊下一頁(yè),如圖:
  然后點(diǎn)擊一個(gè)產(chǎn)品,在彈出的頁(yè)面點(diǎn)擊Add an element list處理祖先元素--點(diǎn)擊Add to list--繼續編輯列表,接下來(lái)我們點(diǎn)擊另一個(gè)產(chǎn)品的名稱(chēng),點(diǎn)擊Add to在彈出的頁(yè)面列表上,讓軟件自動(dòng)識別頁(yè)面上的其他產(chǎn)品,然后點(diǎn)擊創(chuàng )建列表完成,再點(diǎn)擊循環(huán)創(chuàng )建頁(yè)面中的產(chǎn)品列表,循環(huán)抓取。
  然后軟件自動(dòng)跳轉到第一個(gè)產(chǎn)品的特定頁(yè)面。我們點(diǎn)擊評論,在彈出的頁(yè)面中點(diǎn)擊這個(gè)元素,看到有很多頁(yè)的評論。這時(shí)候我們就需要創(chuàng )建一個(gè)循環(huán)列表。同上,點(diǎn)擊下一頁(yè)—循環(huán)點(diǎn)擊。然后點(diǎn)擊我們需要抓取的評論文字,點(diǎn)擊彈出頁(yè)面創(chuàng )建元素列表處理一組元素——點(diǎn)擊添加到列表——繼續編輯列表,然后點(diǎn)擊第二條評論點(diǎn)擊在彈出的頁(yè)面上Add to the list—cycle,然后點(diǎn)擊評論的文字,選擇該元素的文字。好了,軟件會(huì )循環(huán)抓取這個(gè)頁(yè)面的文字,如圖:
  全部點(diǎn)擊完成后,我們查看設計器,發(fā)現有4個(gè)循環(huán),第一個(gè)是翻頁(yè),第二個(gè)是循環(huán)點(diǎn)擊每個(gè)商品,第三個(gè)是翻評論頁(yè),然后第四是抓取循環(huán)評論文本,所以我們需要把第四個(gè)循環(huán)嵌入到第三個(gè)循環(huán)中,然后整體嵌入到第二個(gè)循環(huán)中,然后再整體嵌入到第一個(gè)循環(huán)中,也就是說(shuō),先點(diǎn)擊下一頁(yè),然后點(diǎn)擊產(chǎn)品,再點(diǎn)擊下一個(gè)功能,然后抓取評論,這一套action loops。那么我們只需要在設計器中將第4個(gè)循環(huán)拖到第3個(gè)循環(huán)中,這樣拖下去即可。就是這樣:拖動(dòng)結果如下: ,然后點(diǎn)擊Next—Next—點(diǎn)擊采集就OK了。
  4.2 文本去重
  本例以京東平臺下美的熱水器的顧客評論為分析對象。按照流程,我們先用優(yōu)采云爬取了京東網(wǎng)站上客戶(hù)對美的熱水器的評論,部分數據如下!
  通過(guò)簡(jiǎn)單的觀(guān)察,我們可以發(fā)現評論的一些特征,
  因此,我們需要對這些數據進(jìn)行數據預處理,首先進(jìn)行數據清洗,而編輯距離去重實(shí)際上是一種計算字符串之間相似度的方法。給定兩個(gè)字符串,將字符串A變換為字符串B所需的刪除、插入、替換等操作的次數稱(chēng)為從A到B的編輯路徑。最短的編輯路徑稱(chēng)為字符串A和B的編輯距離。對于例如,“還沒(méi)用過(guò),不知道怎么樣,但是安裝材料費有點(diǎn)高,380”和“還沒(méi)用過(guò),不知道質(zhì)量如何,但是”的編輯距離安裝材料費確實(shí)貴,380寸是9。
  首先,我們需要對重復的評論進(jìn)行重復,也就是刪除重復的評論。
  重復詞出現在另一個(gè)句子中,會(huì )影響關(guān)鍵詞在整個(gè)評論中出現的頻率過(guò)高,影響分析結果。我們想壓縮它。
  還有一些無(wú)意義的評論,比如自動(dòng)點(diǎn)贊的評論,我們需要識別并刪除。
  4.3 壓縮語(yǔ)句規則:
  1.如果讀的和上面的list一樣,但是下面是空的,就放下。2.如果讀取的和上面的表一樣,但是有底,則判斷重復,清空底表。3.如果read和top list相同,bottom是,則判斷不是Heavy,上下清零 4.如果read和上面list不同,字符>=2,判斷為重復,上下清零 5.如果讀的和上面的表不一樣,底是空的,判斷不重,繼續放 6.如果讀的和上面的表不一樣,有底,判斷是不重,放下 7. 看完后,判斷上下,重則壓緊。
  4.4 然后我們進(jìn)行中文分詞。分詞的一般原則是:
  中文分詞是指將一系列漢字分割成獨立的詞。分詞結果的準確性對文本挖掘的效果非常重要。目前分詞算法主要有四種:字符串匹配算法、基于理解的算法、基于統計的方法和基于機器學(xué)習的算法。
  1、字符串匹配算法是將待分詞的文本字符串與字典中的詞進(jìn)行精確匹配。如果字典中的字符串出現在當前待分詞的文本中,則匹配成功。常用的匹配算法主要有正向最大匹配、反向最大匹配、雙向最大匹配和最小分割。
  2、基于理解的算法通過(guò)模擬人們在現實(shí)中對一句話(huà)的理解效果進(jìn)行分詞。這種方法需要分析句法結構,同時(shí)需要用到大量的語(yǔ)言知識和信息,比較復雜。
  3、基于統計的方法就是利用統計的思想進(jìn)行分詞。單詞由單個(gè)字符組成。在文本中,相鄰字符同時(shí)出現的次數越多,它們組成單詞的概率就越大;因此,可以用字符間的共現概率來(lái)反映詞的概率,統計相鄰字符的共現情況。出現次數并計算它們的共現概率。當共現概率高于設定的閾值時(shí),可以認為它們可能構成該詞
  4. 最后是基于機器學(xué)習的方法:利用機器學(xué)習進(jìn)行模型構建。構建大量的分割文本作為訓練數據,使用機器學(xué)習算法進(jìn)行模型訓練,利用模型對未知文本進(jìn)行分割。
  4.5 得到分詞結果后
  我們知道這些句子中經(jīng)常會(huì )有一些“了”、“啊”、“但是”,語(yǔ)氣詞、關(guān)聯(lián)詞、介詞等,這些詞對句子的特征沒(méi)有貢獻,我們可以去掉它們,還有一些專(zhuān)有名詞,對于這個(gè)分析案例,“熱水器”和“中國”經(jīng)常出現在評論中,這是我們已經(jīng)知道的,因為我們最初分析的是關(guān)于熱水器的評論,所以這些都是無(wú)用的信息。我們也可以刪除它們。那么這里必須刪除這些詞。一般通過(guò)建立的自定義詞庫刪除。
  4.6 分詞結果處理后
  那么我們就可以進(jìn)行統計,畫(huà)出詞頻云圖,大致了解那些關(guān)鍵詞的情況,為我們接下來(lái)的分析提供思路素材。操作如下:
  4.7 得到分詞結果后
  我們開(kāi)始建模和分析。模型選擇的方法有很多,但歸納起來(lái),只有兩種,即向量空間模型和概率模型。在這里我們介紹一個(gè)具有代表性的模型
  模型一:TF-IDF方法:
  方法A:對每個(gè)詞的出現頻率進(jìn)行加權后,作為其維度的坐標來(lái)確定一個(gè)特征的空間位置。
  方法B:將所有出現的詞所收錄的屬性作為維度,然后將詞與各個(gè)屬性之間的關(guān)系作為坐標,進(jìn)而定位一篇文檔在向量空間中的位置。
  但實(shí)際上,如果一個(gè)詞條在一類(lèi)文檔中頻繁出現,說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征。此類(lèi)詞條應該被賦予更高的權重,并被選為此類(lèi)文本的特征詞,用于將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。
  
  模型二:.LDA模型
  傳統的判斷兩篇文檔相似度的方法是查看兩篇文檔中出現的詞的數量,比如TF-IDF。幾乎沒(méi)有,但是這兩個(gè)文件很相似。
  例如,有如下兩個(gè)句子:
  “喬布斯走了?!?“蘋(píng)果會(huì )降價(jià)嗎?”
  可以看出,上面兩句話(huà)沒(méi)有共同詞,但是兩句話(huà)很相似。如果按照傳統的方法判斷兩個(gè)句子,肯定是不相似的,所以在判斷文檔的相關(guān)性時(shí),需要考慮文檔。語(yǔ)義學(xué),語(yǔ)義挖掘的武器是主題模型,LDA是比較有效的模型之一。
  LDA模型是一種無(wú)監督的主題生成模型,它假設文檔集中的文檔按照一定的概率共享一組隱藏主題,隱藏主題集由相關(guān)詞組成。這里一共有三個(gè)集合,分別是文檔集合、主題集合和單詞集合。文檔集到主題集服從概率分布,詞集到主題集也服從概率分布。既然我們知道了文檔集和詞集,那么根據貝葉斯定理就可以找到主題集了。具體算法很復雜,這里就不多解釋了。有興趣的同學(xué)可以參考以下資料
   37616
  4.8 項目概要
  1、數據復雜度較高,文本挖掘面臨的非結構化語(yǔ)言,文本非常復雜。
  2.過(guò)程不同,文本挖掘更注重預處理階段
  3、整體流程如下:
  五、應用領(lǐng)域:
  一、輿情分析
  2.搜索引擎優(yōu)化
  3、其他行業(yè)的輔助應用
  6、分析工具:
  ROST CM 6 是目前國內唯一由武漢大學(xué)沉陽(yáng)教授開(kāi)發(fā)編碼,助力人文社會(huì )科學(xué)研究的大型免費社交計算平臺。本軟件可以實(shí)現微博分析、聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類(lèi)分析等一系列文本分析.,擁有超過(guò)7000名用戶(hù),覆蓋國內外100多所大學(xué),包括劍橋大學(xué)、北海道大學(xué)、北京大學(xué)、清華大學(xué)、香港城市大學(xué)、澳門(mén)大學(xué)等多所高校。下載地址:
  RStudio是R語(yǔ)言的集成開(kāi)發(fā)環(huán)境(IDE),其亮點(diǎn)在于出色的界面設計和編程輔助。它可以運行在多種平臺上,包括windows、Mac、Ubuntu和網(wǎng)頁(yè)版。另外,本軟件是免費開(kāi)源的,可以在官網(wǎng)下載:
  7.1 Rostcm6實(shí)現:
  打開(kāi)軟件ROSTCM6
  這是處理前的文本內容。我們會(huì )從爬取的數據中只去除評論字段,然后將其保存為T(mén)XT格式。打開(kāi)它如下。按照流程,我們會(huì )先去除重復和字符、英文、數字等項。
  2、點(diǎn)擊文本處理-一般處理-處理條件選擇“retain only one for all repeated lines”和“delete all English characters contained in all lines”,去掉英文和數字等字符
  這是處理后的文件內容,可以看到數字和英文都??被刪除了。
  3、接下來(lái)進(jìn)行分詞。點(diǎn)擊功能分析——分詞(這里可以選擇自定義詞庫,如搜狗詞庫等)
  分詞處理后的結果。簡(jiǎn)單觀(guān)察一下,分詞之后,出現了很多無(wú)意義的停用詞,比如“in”、“under”、“one”等等
  4. 接下來(lái),我們過(guò)濾專(zhuān)有名詞,停用詞,統計詞頻。點(diǎn)函數分析——詞頻分析(中文)
  在功能分析下,單擊情緒分析以執行情緒分析。
  并且可以實(shí)現云圖的可視化。
  7.2 R的實(shí)現
  這里需要安裝幾個(gè)必要的包,因為幾個(gè)包的安裝比較復雜,這里是鏈接
  可以參考這篇博客安裝包。安裝完成后,就可以開(kāi)始R文本挖掘了。下面代碼的說(shuō)明文字較少,各個(gè)函數的作用初學(xué)者比較陌生。讀者可以先閱讀這些文章文章,了解各個(gè)函數的作用后,使用R進(jìn)行文本挖掘。鏈接如下:
  博客/檔案/29060
  直接
  讀完之后,進(jìn)行下去就會(huì )清楚很多。
  加載工作區庫 (rJava)
  圖書(shū)館(tmcn)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(TM)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  頭(數據1)
  數據
  —————————————————————— #Rwordseg分詞
  data1_cut=segmentCN(data1, nosymbol=T, returnType="tm")
  刪除\n、英文字母、數字 data1_cut=gsub("\n", "", data1_cut)
  data1_cut=gsub("[az]*", "", data1_cut)
  
  data1_cut=gsub("\d+", "", data1_cut)
  write.table(data1_cut, 'data1_cut.txt', row.names = FALSE)
  Data1=readLines('data1_cut.txt')
  Data1=gsub('\"', '', data1_cut)
  長(cháng)度(數據1)
  頭(數據1)
  ———————————————————————————— #Load workspace
  圖書(shū)館(自然語(yǔ)言處理)
  圖書(shū)館(TM)
  圖書(shū)館(大滿(mǎn)貫)
  圖書(shū)館(主題模型)
  R語(yǔ)言環(huán)境下的文本可視化與主題分析 setwd("F:/data and program/chapter15/computer experiment")
  data1=readLines("./data/meidi_jd_pos_cut.txt", encoding = "UTF-8")
  頭(數據1)
  停用詞
  停用詞=停用詞[611:長(cháng)度(停用詞)]
  去掉空格、字母 Data1=gsub("\n", "", Data1)
  Data1=gsub("[a~z]*", "", Data1)
  Data1=gsub("\d+", "", Data1)
  構建語(yǔ)料庫 corpus1 = Corpus(VectorSource(Data1))
  corpus1 = tm_map(corpus1, FUN=removeWords, stopwordsCN(stopwords))
  創(chuàng )建文檔術(shù)語(yǔ)矩陣 sample.dtm1
  colnames(as.matrix(sample.dtm1))
  tm::findFreqTerms(sample.dtm1, 2)
  unlist(tm::findAssocs(sample.dtm1, '安裝', 0.2))
  ——————————————————————–
  # 主題模型分析
  Gibbs = LDA(sample.dtm1, k = 3, method = "Gibbs", control = list(seed = 2015, burnin = 1000, thin = 100, iter = 1000))
  最有可能的主題文檔 Topic1
  表(主題1)
  每個(gè)主題的前 10 個(gè) TermTerms1
  條款1
  —————————————————————————— #使用vec方法分詞
  圖書(shū)館(tmcn)
  圖書(shū)館(TM)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(文字云)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  d.vec1
  wc1=getWordFreq(unlist(d.vec1), onlyCN = TRUE)
  wordcloud(wc1$Word,wc1$Freq,col=rainbow(長(cháng)度(wc1$Freq)),min.freq = 1000)
  #
  八、結果展示及說(shuō)明
  這是分析的部分結果??梢钥吹?,大部分客戶(hù)的評論都帶有正面的情緒,說(shuō)明客戶(hù)對美的熱水器的滿(mǎn)意度是比較高的。哪些方面滿(mǎn)意,哪些方面不滿(mǎn)意,哪些方面可以保持,哪些方面需要改進(jìn),這就需要我們另一種結果展示了。
  點(diǎn)擊可視化工具,得到詞頻云圖。根據云圖,我們可以看到客戶(hù)最關(guān)心的點(diǎn),也就是評論中提到較多的點(diǎn)。從圖中可以看到“安裝”、“師傅”、“配件”、“暖氣”、“快”、“便宜”、“速度”、“品牌”、“京東”、“送貨”、“服務(wù)” 、“價(jià)格”、“供暖”等關(guān)鍵詞出現頻率很高,我們可以大致猜到26
  另外,值得注意的是,云圖中還有一些“好”、“大”、“滿(mǎn)意”等字眼。我們還不知道這些詞背后的語(yǔ)義,所以我們需要找到相應的注釋。,提取這些詞對應的主題點(diǎn),然后對分析結果進(jìn)行優(yōu)化
  文|@白加黑治療病
  來(lái)源 | PPV類(lèi)
  原來(lái)的:
  點(diǎn)擊閱讀原文查看CDA數據分析師交流群規范及收益
  解讀:文章圖片提取工具(圖片提取文本的工具有哪些)
  目錄:
  1. 一個(gè)圖片提取文字的工具
  批量提取網(wǎng)站圖片。使用圖片提取工具從我們的網(wǎng)頁(yè)中提取圖片。圖片批量提取工具具有圖片過(guò)濾功能。通過(guò)設置圖片大小范圍,可以提取目標網(wǎng)站抓取的所有圖片,而采集文章采集,提取文章中的插圖。
  2.從圖片中提取文章
  批量提取網(wǎng)站圖片工具,可以通過(guò)批量鏈接下載圖片,導入我們的圖片鏈接批量下載保存到本地,其次可以使用批量關(guān)鍵詞采集,通過(guò)圖片采集、文章采集、文章導出插圖生成本地圖片素材庫,最后即可提取下載全站圖片,輸入目標鏈接地址即可,可以批量導出整站圖片。
  3. 文章 內容提取工具
  4.圖片提取文本文件
  
  在我們的 網(wǎng)站 上重做視覺(jué)內容,包括信息圖表、視頻、圖像和視覺(jué)元素 我們甚至可以決定更改 網(wǎng)站 的設計作為內容更新的一部分,只要我們認為它是好的當決定(例如,我們的 網(wǎng)站 設計看起來(lái)過(guò)時(shí)了)執行 文章 圖像優(yōu)化時(shí),我們需要做的第一件事實(shí)際上是分析所有內容并選擇要刷新的部分。
  5.文檔圖像提取
  為了更新和重新制作我們的內容,我們可以從最好的論文中聘請專(zhuān)業(yè)的作家并撰寫(xiě)網(wǎng)站,或者我們可以自己完成所有工作但是,在開(kāi)始選擇內容時(shí),我們應該自己完成
  6、圖文提取工具有哪些?
  為了幫助我們選擇最好的內容來(lái)刷新,我們可以使用我們在 文章 圖像優(yōu)化過(guò)程中使用的優(yōu)先級排序的基本原則: 檢查 SEO 排名 - 檢查不同內容的搜索引擎排名 它們是否在第一頁(yè)?如果他們曾經(jīng)在第一頁(yè)上但掉到第二頁(yè)或第三頁(yè),請關(guān)注這些部分。
  7.圖片提取文件軟件
  我們可能只需要進(jìn)行一些更改即可使這些部分再次排在第一頁(yè)上
  
  8.圖片文字提取
  考慮我們的品牌——我們最近是否改變了我們的品牌?我們的聽(tīng)眾與以前的聽(tīng)眾有什么不同嗎?如果是這種情況,請為我們的老觀(guān)眾找到內容,然后找到一種方法來(lái)更新或重新制作這些內容以與我們當前的觀(guān)眾相關(guān) 查看指標 - 我們可能正在跟蹤很多指標,所以只需檢查它們,我們就可以決定需要刷新的內容。
  9.從文檔中提取圖片
  瀏覽量、點(diǎn)贊數、評論數、分享數等都是需要更改哪些部分的良好指標。比如標題稍微改一下,就可以提高點(diǎn)擊率
  10、有什么工具可以從圖片中提取文字
  讓自己成為領(lǐng)導者——如果我們想在自己周?chē)⒛撤N品牌形象,讓我們被視為我們領(lǐng)域的權威和思想領(lǐng)袖,那么我們絕對應該用新發(fā)現更新舊內容。自從我們發(fā)布這些文章文章 關(guān)于自以來(lái)新發(fā)現或開(kāi)發(fā)的主題。
  然后,向這些添加新信息
  圖片

解讀:學(xué)術(shù)觀(guān)點(diǎn)| 拿“雙十一”開(kāi)涮的文本挖掘:電商評論情感分析

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 143 次瀏覽 ? 2022-12-04 20:56 ? 來(lái)自相關(guān)話(huà)題

  解讀:學(xué)術(shù)觀(guān)點(diǎn)| 拿“雙十一”開(kāi)涮的文本挖掘:電商評論情感分析
  隨著(zhù)網(wǎng)絡(luò )購物的普及,各大電子商務(wù)公司之間的競爭也非常激烈。為了提高客戶(hù)服務(wù)質(zhì)量,除了打價(jià)格戰,了解客戶(hù)的需求,傾聽(tīng)客戶(hù)的聲音也越來(lái)越重要。最重要的方法是對文本評論進(jìn)行數據挖掘。今天通過(guò)學(xué)習《R語(yǔ)言數據挖掘實(shí)戰》案例:電商點(diǎn)評與數據分析,從目標到操作內容與大家分享。
  本文結構如下
  1.要達到的目標
  通過(guò)對客戶(hù)評論的分析,進(jìn)行一系列的方法來(lái)獲取客戶(hù)對某產(chǎn)品的態(tài)度和情感傾向,以及客戶(hù)關(guān)注產(chǎn)品的哪些屬性,產(chǎn)品的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及產(chǎn)品的賣(mài)點(diǎn)是什么,等等...
  2.文本挖掘的主要思想。
  由于語(yǔ)言數據的特殊性,我們主要提取句子中的關(guān)鍵詞,提取評論的關(guān)鍵詞,然后根據關(guān)鍵詞的權重,這里我們使用空間向量模型將每個(gè)特征關(guān)鍵詞轉化為數字向量,然后計算其距離,然后聚類(lèi)得到三類(lèi)情緒,分別是積極的、消極的和中性的。用 來(lái)代表顧客對產(chǎn)品的情感傾向。
  3、文本挖掘的主要流程:
  請輸入標題 4.案例流程簡(jiǎn)介及原理介紹及軟件操作
  4.1 數據爬取
  首先下載優(yōu)采云軟件。鏈接是 。下載安裝后,注冊賬號并登錄,界面如上:
  點(diǎn)擊快速開(kāi)始-新建任務(wù),輸入任務(wù)名稱(chēng),點(diǎn)擊下一步,打開(kāi)京東熱水器頁(yè)面
  將頁(yè)面地址復制到優(yōu)采云,如下圖:
  觀(guān)察網(wǎng)頁(yè)類(lèi)型,由于收錄美的熱水器的頁(yè)面不止一個(gè),下面有一個(gè)翻頁(yè)按鈕,所以我們需要創(chuàng )建一個(gè)點(diǎn)擊下一頁(yè)的循環(huán),然后在京東上點(diǎn)擊下一頁(yè)優(yōu)采云中的頁(yè)面,點(diǎn)擊彈出的對話(huà)框列表中,點(diǎn)擊循環(huán),點(diǎn)擊下一頁(yè),如圖:
  然后點(diǎn)擊一個(gè)產(chǎn)品,在彈出的頁(yè)面點(diǎn)擊Add an element list處理祖先元素--點(diǎn)擊Add to list--繼續編輯列表,接下來(lái)我們點(diǎn)擊另一個(gè)產(chǎn)品的名稱(chēng),點(diǎn)擊Add to在彈出的頁(yè)面列表上,讓軟件自動(dòng)識別頁(yè)面上的其他產(chǎn)品,然后點(diǎn)擊創(chuàng )建列表完成,再點(diǎn)擊循環(huán)創(chuàng )建頁(yè)面中的產(chǎn)品列表,循環(huán)抓取。
  然后軟件自動(dòng)跳轉到第一個(gè)產(chǎn)品的特定頁(yè)面。我們點(diǎn)擊評論,在彈出的頁(yè)面中點(diǎn)擊這個(gè)元素,看到有很多頁(yè)的評論。這時(shí)候我們就需要創(chuàng )建一個(gè)循環(huán)列表。同上,點(diǎn)擊下一頁(yè)—循環(huán)點(diǎn)擊。然后點(diǎn)擊我們需要抓取的評論文字,點(diǎn)擊彈出頁(yè)面創(chuàng )建元素列表處理一組元素——點(diǎn)擊添加到列表——繼續編輯列表,然后點(diǎn)擊第二條評論點(diǎn)擊在彈出的頁(yè)面上Add to the list—cycle,然后點(diǎn)擊評論的文字,選擇該元素的文字。好了,軟件會(huì )循環(huán)抓取這個(gè)頁(yè)面的文字,如圖:
  全部點(diǎn)擊完成后,我們查看設計器,發(fā)現有4個(gè)循環(huán),第一個(gè)是翻頁(yè),第二個(gè)是循環(huán)點(diǎn)擊每個(gè)商品,第三個(gè)是翻評論頁(yè),然后第四是抓取循環(huán)評論文本,所以我們需要把第四個(gè)循環(huán)嵌入到第三個(gè)循環(huán)中,然后整體嵌入到第二個(gè)循環(huán)中,然后再整體嵌入到第一個(gè)循環(huán)中,也就是說(shuō),先點(diǎn)擊下一頁(yè),然后點(diǎn)擊產(chǎn)品,再點(diǎn)擊下一個(gè)功能,然后抓取評論,這一套action loops。那么我們只需要在設計器中將第4個(gè)循環(huán)拖到第3個(gè)循環(huán)中,這樣拖下去即可。就是這樣:拖動(dòng)結果如下: ,然后點(diǎn)擊Next—Next—點(diǎn)擊采集就OK了。
  4.2 文本去重
  本例以京東平臺下美的熱水器的顧客評論為分析對象。按照流程,我們先用優(yōu)采云爬取了京東網(wǎng)站上客戶(hù)對美的熱水器的評論,部分數據如下!
  通過(guò)簡(jiǎn)單的觀(guān)察,我們可以發(fā)現評論的一些特征,
  因此,我們需要對這些數據進(jìn)行數據預處理,首先進(jìn)行數據清洗,而編輯距離去重實(shí)際上是一種計算字符串之間相似度的方法。給定兩個(gè)字符串,將字符串A變換為字符串B所需的刪除、插入、替換等操作的次數稱(chēng)為從A到B的編輯路徑。最短的編輯路徑稱(chēng)為字符串A和B的編輯距離。對于例如,“還沒(méi)用過(guò),不知道怎么樣,但是安裝材料費有點(diǎn)高,380”和“還沒(méi)用過(guò),不知道質(zhì)量如何,但是”的編輯距離安裝材料費確實(shí)貴,380寸是9。
  首先,我們需要對重復的評論進(jìn)行重復,也就是刪除重復的評論。
  重復詞出現在另一個(gè)句子中,會(huì )影響關(guān)鍵詞在整個(gè)評論中出現的頻率過(guò)高,影響分析結果。我們想壓縮它。
  還有一些無(wú)意義的評論,比如自動(dòng)點(diǎn)贊的評論,我們需要識別并刪除。
  4.3 壓縮語(yǔ)句規則:
  1.如果讀的和上面的list一樣,但是下面是空的,就放下。2.如果讀取的和上面的表一樣,但是有底,則判斷重復,清空底表。3.如果read和top list相同,bottom是,則判斷不是Heavy,上下清零 4.如果read和上面list不同,字符>=2,判斷為重復,上下清零 5.如果讀的和上面的表不一樣,底是空的,判斷不重,繼續放 6.如果讀的和上面的表不一樣,有底,判斷是不重,放下 7. 看完后,判斷上下,重則壓緊。
  4.4 然后我們進(jìn)行中文分詞。分詞的一般原則是:
  中文分詞是指將一系列漢字分割成獨立的詞。分詞結果的準確性對文本挖掘的效果非常重要。目前分詞算法主要有四種:字符串匹配算法、基于理解的算法、基于統計的方法和基于機器學(xué)習的算法。
  1、字符串匹配算法是將待分詞的文本字符串與字典中的詞進(jìn)行精確匹配。如果字典中的字符串出現在當前待分詞的文本中,則匹配成功。常用的匹配算法主要有正向最大匹配、反向最大匹配、雙向最大匹配和最小分割。
  2、基于理解的算法通過(guò)模擬人們在現實(shí)中對一句話(huà)的理解效果進(jìn)行分詞。這種方法需要分析句法結構,同時(shí)需要用到大量的語(yǔ)言知識和信息,比較復雜。
  3、基于統計的方法就是利用統計的思想進(jìn)行分詞。單詞由單個(gè)字符組成。在文本中,相鄰字符同時(shí)出現的次數越多,它們組成單詞的概率就越大;因此,可以用字符間的共現概率來(lái)反映詞的概率,統計相鄰字符的共現情況。出現次數并計算它們的共現概率。當共現概率高于設定的閾值時(shí),可以認為它們可能構成該詞
  4. 最后是基于機器學(xué)習的方法:利用機器學(xué)習進(jìn)行模型構建。構建大量的分割文本作為訓練數據,使用機器學(xué)習算法進(jìn)行模型訓練,利用模型對未知文本進(jìn)行分割。
  4.5 得到分詞結果后
  我們知道這些句子中經(jīng)常會(huì )有一些“了”、“啊”、“但是”,語(yǔ)氣詞、關(guān)聯(lián)詞、介詞等,這些詞對句子的特征沒(méi)有貢獻,我們可以去掉它們,還有一些專(zhuān)有名詞,對于這個(gè)分析案例,“熱水器”和“中國”經(jīng)常出現在評論中,這是我們已經(jīng)知道的,因為我們最初分析的是關(guān)于熱水器的評論,所以這些都是無(wú)用的信息。我們也可以刪除它們。那么這里必須刪除這些詞。一般通過(guò)建立的自定義詞庫刪除。
  4.6 分詞結果處理后
  那么我們就可以進(jìn)行統計,畫(huà)出詞頻云圖,大致了解那些關(guān)鍵詞的情況,為我們接下來(lái)的分析提供思路素材。操作如下:
  4.7 得到分詞結果后
  我們開(kāi)始建模和分析。模型選擇的方法有很多,但歸納起來(lái),只有兩種,即向量空間模型和概率模型。在這里我們介紹一個(gè)具有代表性的模型
  模型一:TF-IDF方法:
  方法A:對每個(gè)詞的出現頻率進(jìn)行加權后,作為其維度的坐標來(lái)確定一個(gè)特征的空間位置。
  方法B:將所有出現的詞所收錄的屬性作為維度,然后將詞與各個(gè)屬性之間的關(guān)系作為坐標,進(jìn)而定位一篇文檔在向量空間中的位置。
  但實(shí)際上,如果一個(gè)詞條在一類(lèi)文檔中頻繁出現,說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征。此類(lèi)詞條應該被賦予更高的權重,并被選為此類(lèi)文本的特征詞,用于將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。
  模型二:.LDA模型
  
  傳統的判斷兩篇文檔相似度的方法是查看兩篇文檔中出現的詞的數量,比如TF-IDF。幾乎沒(méi)有,但是這兩個(gè)文件很相似。
  例如,有如下兩個(gè)句子:
  “喬布斯走了?!?“蘋(píng)果會(huì )降價(jià)嗎?”
  可以看出,上面兩句話(huà)沒(méi)有共同詞,但是兩句話(huà)很相似。如果按照傳統的方法判斷兩個(gè)句子,肯定是不相似的,所以在判斷文檔的相關(guān)性時(shí),需要考慮文檔。語(yǔ)義學(xué),語(yǔ)義挖掘的武器是主題模型,LDA是比較有效的模型之一。
  LDA模型是一種無(wú)監督的主題生成模型,它假設文檔集中的文檔按照一定的概率共享一組隱藏主題,隱藏主題集由相關(guān)詞組成。這里一共有三個(gè)集合,分別是文檔集合、主題集合和單詞集合。文檔集到主題集服從概率分布,詞集到主題集也服從概率分布。既然我們知道了文檔集和詞集,那么根據貝葉斯定理就可以找到主題集了。具體算法很復雜,這里就不多解釋了。有興趣的同學(xué)可以參考以下資料
   37616
  4.8 項目概要
  1、數據復雜度較高,文本挖掘面臨的非結構化語(yǔ)言,文本非常復雜。
  2.過(guò)程不同,文本挖掘更注重預處理階段
  3、整體流程如下:
  五、應用領(lǐng)域:
  一、輿情分析
  2.搜索引擎優(yōu)化
  3、其他行業(yè)的輔助應用
  6、分析工具:
  ROST CM 6 是目前國內唯一由武漢大學(xué)沉陽(yáng)教授開(kāi)發(fā)編碼,助力人文社會(huì )科學(xué)研究的大型免費社交計算平臺。本軟件可以實(shí)現微博分析、聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類(lèi)分析等一系列文本分析.,擁有超過(guò)7000名用戶(hù),覆蓋國內外100多所大學(xué),包括劍橋大學(xué)、北海道大學(xué)、北京大學(xué)、清華大學(xué)、香港城市大學(xué)、澳門(mén)大學(xué)等多所高校。下載地址:
  RStudio是R語(yǔ)言的集成開(kāi)發(fā)環(huán)境(IDE),其亮點(diǎn)在于出色的界面設計和編程輔助。它可以運行在多種平臺上,包括windows、Mac、Ubuntu和網(wǎng)頁(yè)版。另外,本軟件是免費開(kāi)源的,可以在官網(wǎng)下載:
  7.1 Rostcm6實(shí)現:
  打開(kāi)軟件ROSTCM6
  這是處理前的文本內容。我們會(huì )從爬取的數據中只去除評論字段,然后將其保存為T(mén)XT格式。打開(kāi)它如下。按照流程,我們會(huì )先去除重復和字符、英文、數字等項。
  2、點(diǎn)擊文本處理-一般處理-處理條件選擇“retain only one for all repeated lines”和“delete all English characters contained in all lines”,去掉英文和數字等字符
  這是處理后的文件內容,可以看到數字和英文都??被刪除了。
  3、接下來(lái)進(jìn)行分詞。點(diǎn)擊功能分析——分詞(這里可以選擇自定義詞庫,如搜狗詞庫等)
  分詞處理后的結果。簡(jiǎn)單觀(guān)察一下,分詞之后,出現了很多無(wú)意義的停用詞,比如“in”、“under”、“one”等等
  4. 接下來(lái),我們過(guò)濾專(zhuān)有名詞,停用詞,統計詞頻。點(diǎn)函數分析——詞頻分析(中文)
  在功能分析下,單擊情緒分析以執行情緒分析。
  并且可以實(shí)現云圖的可視化。
  7.2 R的實(shí)現
  這里需要安裝幾個(gè)必要的包,因為幾個(gè)包的安裝比較復雜,這里是鏈接
  可以參考這篇博客安裝包。安裝完成后,就可以開(kāi)始R文本挖掘了。下面代碼的說(shuō)明文字較少,各個(gè)函數的作用初學(xué)者比較陌生。讀者可以先閱讀這些文章文章,了解各個(gè)函數的作用后,使用R進(jìn)行文本挖掘。鏈接如下:
  博客/檔案/29060
  直接
  讀完之后,進(jìn)行下去就會(huì )清楚很多。
  加載工作區庫 (rJava)
  圖書(shū)館(tmcn)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(TM)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  頭(數據1)
  數據
  —————————————————————— #Rwordseg分詞
  data1_cut=segmentCN(data1, nosymbol=T, returnType="tm")
  刪除\n、英文字母、數字 data1_cut=gsub("\n", "", data1_cut)
  data1_cut=gsub("[az]*", "", data1_cut)
  data1_cut=gsub("\d+", "", data1_cut)
  write.table(data1_cut, 'data1_cut.txt', row.names = FALSE)
  
  Data1=readLines('data1_cut.txt')
  Data1=gsub('\"', '', data1_cut)
  長(cháng)度(數據1)
  頭(數據1)
  ———————————————————————————— #Load workspace
  圖書(shū)館(自然語(yǔ)言處理)
  圖書(shū)館(TM)
  圖書(shū)館(大滿(mǎn)貫)
  圖書(shū)館(主題模型)
  R語(yǔ)言環(huán)境下的文本可視化與主題分析 setwd("F:/data and program/chapter15/computer experiment")
  data1=readLines("./data/meidi_jd_pos_cut.txt", encoding = "UTF-8")
  頭(數據1)
  停用詞
  停用詞=停用詞[611:長(cháng)度(停用詞)]
  去掉空格、字母 Data1=gsub("\n", "", Data1)
  Data1=gsub("[a~z]*", "", Data1)
  Data1=gsub("\d+", "", Data1)
  構建語(yǔ)料庫 corpus1 = Corpus(VectorSource(Data1))
  corpus1 = tm_map(corpus1, FUN=removeWords, stopwordsCN(stopwords))
  創(chuàng )建文檔術(shù)語(yǔ)矩陣 sample.dtm1
  colnames(as.matrix(sample.dtm1))
  tm::findFreqTerms(sample.dtm1, 2)
  unlist(tm::findAssocs(sample.dtm1, '安裝', 0.2))
  ——————————————————————–
  # 主題模型分析
  Gibbs = LDA(sample.dtm1, k = 3, method = "Gibbs", control = list(seed = 2015, burnin = 1000, thin = 100, iter = 1000))
  最有可能的主題文檔 Topic1
  表(主題1)
  每個(gè)主題的前 10 個(gè) TermTerms1
  條款1
  —————————————————————————— #使用vec方法分詞
  圖書(shū)館(tmcn)
  圖書(shū)館(TM)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(文字云)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  d.vec1
  wc1=getWordFreq(unlist(d.vec1), onlyCN = TRUE)
  wordcloud(wc1$Word,wc1$Freq,col=rainbow(長(cháng)度(wc1$Freq)),min.freq = 1000)
  #
  八、結果展示及說(shuō)明
  這是分析的部分結果??梢钥吹?,大部分客戶(hù)的評論都帶有正面的情緒,說(shuō)明客戶(hù)對美的熱水器的滿(mǎn)意度是比較高的。哪些方面滿(mǎn)意,哪些方面不滿(mǎn)意,哪些方面可以保持,哪些方面需要改進(jìn),這就需要我們另一種結果展示了。
  點(diǎn)擊可視化工具,得到詞頻云圖。根據云圖,我們可以看到客戶(hù)最關(guān)心的點(diǎn),也就是評論中提到較多的點(diǎn)。從圖中可以看到“安裝”、“師傅”、“配件”、“暖氣”、“快”、“便宜”、“速度”、“品牌”、“京東”、“送貨”、“服務(wù)” 、“價(jià)格”、“供暖”等關(guān)鍵詞出現頻率很高,我們可以大致猜到26
  另外,值得注意的是,云圖中還有一些“好”、“大”、“滿(mǎn)意”等字眼。我們還不知道這些詞背后的語(yǔ)義,所以我們需要找到相應的注釋。,提取這些詞對應的主題點(diǎn),然后對分析結果進(jìn)行優(yōu)化
  文|@白加黑治療病
  來(lái)源 | PPV類(lèi)
  原來(lái)的:
  1個(gè)
  出版與投稿
  2個(gè)
  編輯部招募新讀者
  現在我們的專(zhuān)欄“讀書(shū)筆記”編輯部正在招募青年教師和研究生加入我們的讀書(shū)寫(xiě)作活動(dòng)。入選閱讀對象包括SSCI、CSSCI優(yōu)秀論文和國內外學(xué)術(shù)專(zhuān)著(zhù)。每個(gè)成員都參與編輯小組討論、文章寫(xiě)作、校對和編輯(其中許多是自愿的)。我們有一個(gè)8人的穩定團隊,現在我們正在繼續招募語(yǔ)言學(xué)、翻譯學(xué)和文學(xué)領(lǐng)域的新人。由于讀寫(xiě)任務(wù)壓力大,圍觀(guān)者很快被淘汰。誠意歡迎有學(xué)術(shù)奉獻精神的新人加盟。加入方式:微信添加公眾號負責人:wonderdesire(請添加真實(shí)姓名,或實(shí)名入群:姓名-單位-研究方向)。對于其他業(yè)務(wù)聯(lián)系人,請發(fā)送電子郵件至:
  解讀:文章圖片提取工具(圖片提取文本的工具有哪些)
  目錄:
  1. 一個(gè)圖片提取文字的工具
  批量提取網(wǎng)站圖片。使用圖片提取工具從我們的網(wǎng)頁(yè)中提取圖片。圖片批量提取工具具有圖片過(guò)濾功能。通過(guò)設置圖片大小范圍,可以提取目標網(wǎng)站抓取的所有圖片,而采集為文章采集,提取文章中的插圖。
  2.從圖片中提取文章
  批量提取網(wǎng)站圖片工具,可以通過(guò)批量鏈接下載圖片,導入我們的圖片鏈接批量下載保存到本地,其次可以使用批量關(guān)鍵詞采集,通過(guò)圖片采集、文章采集、文章導出插圖生成本地圖片素材庫,最后即可提取下載全站圖片,輸入目標鏈接地址即可,可以批量導出整站圖片。
  3. 文章 內容提取工具
  4.圖片提取文本文件
  
  在我們的 網(wǎng)站 上重做視覺(jué)內容,包括信息圖表、視頻、圖像和視覺(jué)元素 我們甚至可以決定更改 網(wǎng)站 的設計作為內容更新的一部分,只要我們認為它是好的當決定(例如,我們的 網(wǎng)站 設計看起來(lái)過(guò)時(shí)了)執行 文章 圖像優(yōu)化時(shí),我們需要做的第一件事實(shí)際上是分析所有內容并選擇要刷新的部分。
  5.文檔圖像提取
  為了更新和重新制作我們的內容,我們可以從最好的論文中聘請專(zhuān)業(yè)的作家并撰寫(xiě)網(wǎng)站,或者我們可以自己完成所有工作但是,在開(kāi)始選擇內容時(shí),我們應該自己完成
  6、圖文提取工具有哪些?
  為了幫助我們選擇最好的內容來(lái)刷新,我們可以使用我們在 文章 圖像優(yōu)化過(guò)程中使用的優(yōu)先級排序的基本原則: 檢查 SEO 排名 - 檢查不同內容的搜索引擎排名 它們是否在第一頁(yè)?如果他們曾經(jīng)在第一頁(yè)上但掉到第二頁(yè)或第三頁(yè),請關(guān)注這些部分。
  7.圖片提取文件軟件
  我們可能只需要進(jìn)行一些更改即可使這些部分再次排在第一頁(yè)上
  
  8.圖片文字提取
  考慮我們的品牌——我們最近是否改變了我們的品牌?我們的聽(tīng)眾與以前的聽(tīng)眾有什么不同嗎?如果是這種情況,請為我們的老觀(guān)眾找到內容,然后找到一種方法來(lái)更新或重新制作這些內容以與我們當前的觀(guān)眾相關(guān) 查看指標 - 我們可能正在跟蹤很多指標,所以只需檢查它們,我們就可以決定需要刷新的內容。
  9.從文檔中提取圖片
  瀏覽量、點(diǎn)贊數、評論數、分享數等都是需要更改哪些部分的良好指標。比如標題稍微改一下,就可以提高點(diǎn)擊率
  10、有什么工具可以從圖片中提取文字
  讓自己成為領(lǐng)導者——如果我們想在自己周?chē)⒛撤N品牌形象,讓我們被視為我們領(lǐng)域的權威和思想領(lǐng)袖,那么我們絕對應該用新發(fā)現更新舊內容。自從我們發(fā)布這些文章文章 關(guān)于自以來(lái)新發(fā)現或開(kāi)發(fā)的主題。
  然后,向這些添加新信息
  圖片 查看全部

  解讀:學(xué)術(shù)觀(guān)點(diǎn)| 拿“雙十一”開(kāi)涮的文本挖掘:電商評論情感分析
  隨著(zhù)網(wǎng)絡(luò )購物的普及,各大電子商務(wù)公司之間的競爭也非常激烈。為了提高客戶(hù)服務(wù)質(zhì)量,除了打價(jià)格戰,了解客戶(hù)的需求,傾聽(tīng)客戶(hù)的聲音也越來(lái)越重要。最重要的方法是對文本評論進(jìn)行數據挖掘。今天通過(guò)學(xué)習《R語(yǔ)言數據挖掘實(shí)戰》案例:電商點(diǎn)評與數據分析,從目標到操作內容與大家分享。
  本文結構如下
  1.要達到的目標
  通過(guò)對客戶(hù)評論的分析,進(jìn)行一系列的方法來(lái)獲取客戶(hù)對某產(chǎn)品的態(tài)度和情感傾向,以及客戶(hù)關(guān)注產(chǎn)品的哪些屬性,產(chǎn)品的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及產(chǎn)品的賣(mài)點(diǎn)是什么,等等...
  2.文本挖掘的主要思想。
  由于語(yǔ)言數據的特殊性,我們主要提取句子中的關(guān)鍵詞,提取評論的關(guān)鍵詞,然后根據關(guān)鍵詞的權重,這里我們使用空間向量模型將每個(gè)特征關(guān)鍵詞轉化為數字向量,然后計算其距離,然后聚類(lèi)得到三類(lèi)情緒,分別是積極的、消極的和中性的。用 來(lái)代表顧客對產(chǎn)品的情感傾向。
  3、文本挖掘的主要流程:
  請輸入標題 4.案例流程簡(jiǎn)介及原理介紹及軟件操作
  4.1 數據爬取
  首先下載優(yōu)采云軟件。鏈接是 。下載安裝后,注冊賬號并登錄,界面如上:
  點(diǎn)擊快速開(kāi)始-新建任務(wù),輸入任務(wù)名稱(chēng),點(diǎn)擊下一步,打開(kāi)京東熱水器頁(yè)面
  將頁(yè)面地址復制到優(yōu)采云,如下圖:
  觀(guān)察網(wǎng)頁(yè)類(lèi)型,由于收錄美的熱水器的頁(yè)面不止一個(gè),下面有一個(gè)翻頁(yè)按鈕,所以我們需要創(chuàng )建一個(gè)點(diǎn)擊下一頁(yè)的循環(huán),然后在京東上點(diǎn)擊下一頁(yè)優(yōu)采云中的頁(yè)面,點(diǎn)擊彈出的對話(huà)框列表中,點(diǎn)擊循環(huán),點(diǎn)擊下一頁(yè),如圖:
  然后點(diǎn)擊一個(gè)產(chǎn)品,在彈出的頁(yè)面點(diǎn)擊Add an element list處理祖先元素--點(diǎn)擊Add to list--繼續編輯列表,接下來(lái)我們點(diǎn)擊另一個(gè)產(chǎn)品的名稱(chēng),點(diǎn)擊Add to在彈出的頁(yè)面列表上,讓軟件自動(dòng)識別頁(yè)面上的其他產(chǎn)品,然后點(diǎn)擊創(chuàng )建列表完成,再點(diǎn)擊循環(huán)創(chuàng )建頁(yè)面中的產(chǎn)品列表,循環(huán)抓取。
  然后軟件自動(dòng)跳轉到第一個(gè)產(chǎn)品的特定頁(yè)面。我們點(diǎn)擊評論,在彈出的頁(yè)面中點(diǎn)擊這個(gè)元素,看到有很多頁(yè)的評論。這時(shí)候我們就需要創(chuàng )建一個(gè)循環(huán)列表。同上,點(diǎn)擊下一頁(yè)—循環(huán)點(diǎn)擊。然后點(diǎn)擊我們需要抓取的評論文字,點(diǎn)擊彈出頁(yè)面創(chuàng )建元素列表處理一組元素——點(diǎn)擊添加到列表——繼續編輯列表,然后點(diǎn)擊第二條評論點(diǎn)擊在彈出的頁(yè)面上Add to the list—cycle,然后點(diǎn)擊評論的文字,選擇該元素的文字。好了,軟件會(huì )循環(huán)抓取這個(gè)頁(yè)面的文字,如圖:
  全部點(diǎn)擊完成后,我們查看設計器,發(fā)現有4個(gè)循環(huán),第一個(gè)是翻頁(yè),第二個(gè)是循環(huán)點(diǎn)擊每個(gè)商品,第三個(gè)是翻評論頁(yè),然后第四是抓取循環(huán)評論文本,所以我們需要把第四個(gè)循環(huán)嵌入到第三個(gè)循環(huán)中,然后整體嵌入到第二個(gè)循環(huán)中,然后再整體嵌入到第一個(gè)循環(huán)中,也就是說(shuō),先點(diǎn)擊下一頁(yè),然后點(diǎn)擊產(chǎn)品,再點(diǎn)擊下一個(gè)功能,然后抓取評論,這一套action loops。那么我們只需要在設計器中將第4個(gè)循環(huán)拖到第3個(gè)循環(huán)中,這樣拖下去即可。就是這樣:拖動(dòng)結果如下: ,然后點(diǎn)擊Next—Next—點(diǎn)擊采集就OK了。
  4.2 文本去重
  本例以京東平臺下美的熱水器的顧客評論為分析對象。按照流程,我們先用優(yōu)采云爬取了京東網(wǎng)站上客戶(hù)對美的熱水器的評論,部分數據如下!
  通過(guò)簡(jiǎn)單的觀(guān)察,我們可以發(fā)現評論的一些特征,
  因此,我們需要對這些數據進(jìn)行數據預處理,首先進(jìn)行數據清洗,而編輯距離去重實(shí)際上是一種計算字符串之間相似度的方法。給定兩個(gè)字符串,將字符串A變換為字符串B所需的刪除、插入、替換等操作的次數稱(chēng)為從A到B的編輯路徑。最短的編輯路徑稱(chēng)為字符串A和B的編輯距離。對于例如,“還沒(méi)用過(guò),不知道怎么樣,但是安裝材料費有點(diǎn)高,380”和“還沒(méi)用過(guò),不知道質(zhì)量如何,但是”的編輯距離安裝材料費確實(shí)貴,380寸是9。
  首先,我們需要對重復的評論進(jìn)行重復,也就是刪除重復的評論。
  重復詞出現在另一個(gè)句子中,會(huì )影響關(guān)鍵詞在整個(gè)評論中出現的頻率過(guò)高,影響分析結果。我們想壓縮它。
  還有一些無(wú)意義的評論,比如自動(dòng)點(diǎn)贊的評論,我們需要識別并刪除。
  4.3 壓縮語(yǔ)句規則:
  1.如果讀的和上面的list一樣,但是下面是空的,就放下。2.如果讀取的和上面的表一樣,但是有底,則判斷重復,清空底表。3.如果read和top list相同,bottom是,則判斷不是Heavy,上下清零 4.如果read和上面list不同,字符>=2,判斷為重復,上下清零 5.如果讀的和上面的表不一樣,底是空的,判斷不重,繼續放 6.如果讀的和上面的表不一樣,有底,判斷是不重,放下 7. 看完后,判斷上下,重則壓緊。
  4.4 然后我們進(jìn)行中文分詞。分詞的一般原則是:
  中文分詞是指將一系列漢字分割成獨立的詞。分詞結果的準確性對文本挖掘的效果非常重要。目前分詞算法主要有四種:字符串匹配算法、基于理解的算法、基于統計的方法和基于機器學(xué)習的算法。
  1、字符串匹配算法是將待分詞的文本字符串與字典中的詞進(jìn)行精確匹配。如果字典中的字符串出現在當前待分詞的文本中,則匹配成功。常用的匹配算法主要有正向最大匹配、反向最大匹配、雙向最大匹配和最小分割。
  2、基于理解的算法通過(guò)模擬人們在現實(shí)中對一句話(huà)的理解效果進(jìn)行分詞。這種方法需要分析句法結構,同時(shí)需要用到大量的語(yǔ)言知識和信息,比較復雜。
  3、基于統計的方法就是利用統計的思想進(jìn)行分詞。單詞由單個(gè)字符組成。在文本中,相鄰字符同時(shí)出現的次數越多,它們組成單詞的概率就越大;因此,可以用字符間的共現概率來(lái)反映詞的概率,統計相鄰字符的共現情況。出現次數并計算它們的共現概率。當共現概率高于設定的閾值時(shí),可以認為它們可能構成該詞
  4. 最后是基于機器學(xué)習的方法:利用機器學(xué)習進(jìn)行模型構建。構建大量的分割文本作為訓練數據,使用機器學(xué)習算法進(jìn)行模型訓練,利用模型對未知文本進(jìn)行分割。
  4.5 得到分詞結果后
  我們知道這些句子中經(jīng)常會(huì )有一些“了”、“啊”、“但是”,語(yǔ)氣詞、關(guān)聯(lián)詞、介詞等,這些詞對句子的特征沒(méi)有貢獻,我們可以去掉它們,還有一些專(zhuān)有名詞,對于這個(gè)分析案例,“熱水器”和“中國”經(jīng)常出現在評論中,這是我們已經(jīng)知道的,因為我們最初分析的是關(guān)于熱水器的評論,所以這些都是無(wú)用的信息。我們也可以刪除它們。那么這里必須刪除這些詞。一般通過(guò)建立的自定義詞庫刪除。
  4.6 分詞結果處理后
  那么我們就可以進(jìn)行統計,畫(huà)出詞頻云圖,大致了解那些關(guān)鍵詞的情況,為我們接下來(lái)的分析提供思路素材。操作如下:
  4.7 得到分詞結果后
  我們開(kāi)始建模和分析。模型選擇的方法有很多,但歸納起來(lái),只有兩種,即向量空間模型和概率模型。在這里我們介紹一個(gè)具有代表性的模型
  模型一:TF-IDF方法:
  方法A:對每個(gè)詞的出現頻率進(jìn)行加權后,作為其維度的坐標來(lái)確定一個(gè)特征的空間位置。
  方法B:將所有出現的詞所收錄的屬性作為維度,然后將詞與各個(gè)屬性之間的關(guān)系作為坐標,進(jìn)而定位一篇文檔在向量空間中的位置。
  但實(shí)際上,如果一個(gè)詞條在一類(lèi)文檔中頻繁出現,說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征。此類(lèi)詞條應該被賦予更高的權重,并被選為此類(lèi)文本的特征詞,用于將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。
  模型二:.LDA模型
  
  傳統的判斷兩篇文檔相似度的方法是查看兩篇文檔中出現的詞的數量,比如TF-IDF。幾乎沒(méi)有,但是這兩個(gè)文件很相似。
  例如,有如下兩個(gè)句子:
  “喬布斯走了?!?“蘋(píng)果會(huì )降價(jià)嗎?”
  可以看出,上面兩句話(huà)沒(méi)有共同詞,但是兩句話(huà)很相似。如果按照傳統的方法判斷兩個(gè)句子,肯定是不相似的,所以在判斷文檔的相關(guān)性時(shí),需要考慮文檔。語(yǔ)義學(xué),語(yǔ)義挖掘的武器是主題模型,LDA是比較有效的模型之一。
  LDA模型是一種無(wú)監督的主題生成模型,它假設文檔集中的文檔按照一定的概率共享一組隱藏主題,隱藏主題集由相關(guān)詞組成。這里一共有三個(gè)集合,分別是文檔集合、主題集合和單詞集合。文檔集到主題集服從概率分布,詞集到主題集也服從概率分布。既然我們知道了文檔集和詞集,那么根據貝葉斯定理就可以找到主題集了。具體算法很復雜,這里就不多解釋了。有興趣的同學(xué)可以參考以下資料
   37616
  4.8 項目概要
  1、數據復雜度較高,文本挖掘面臨的非結構化語(yǔ)言,文本非常復雜。
  2.過(guò)程不同,文本挖掘更注重預處理階段
  3、整體流程如下:
  五、應用領(lǐng)域:
  一、輿情分析
  2.搜索引擎優(yōu)化
  3、其他行業(yè)的輔助應用
  6、分析工具:
  ROST CM 6 是目前國內唯一由武漢大學(xué)沉陽(yáng)教授開(kāi)發(fā)編碼,助力人文社會(huì )科學(xué)研究的大型免費社交計算平臺。本軟件可以實(shí)現微博分析、聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類(lèi)分析等一系列文本分析.,擁有超過(guò)7000名用戶(hù),覆蓋國內外100多所大學(xué),包括劍橋大學(xué)、北海道大學(xué)、北京大學(xué)、清華大學(xué)、香港城市大學(xué)、澳門(mén)大學(xué)等多所高校。下載地址:
  RStudio是R語(yǔ)言的集成開(kāi)發(fā)環(huán)境(IDE),其亮點(diǎn)在于出色的界面設計和編程輔助。它可以運行在多種平臺上,包括windows、Mac、Ubuntu和網(wǎng)頁(yè)版。另外,本軟件是免費開(kāi)源的,可以在官網(wǎng)下載:
  7.1 Rostcm6實(shí)現:
  打開(kāi)軟件ROSTCM6
  這是處理前的文本內容。我們會(huì )從爬取的數據中只去除評論字段,然后將其保存為T(mén)XT格式。打開(kāi)它如下。按照流程,我們會(huì )先去除重復和字符、英文、數字等項。
  2、點(diǎn)擊文本處理-一般處理-處理條件選擇“retain only one for all repeated lines”和“delete all English characters contained in all lines”,去掉英文和數字等字符
  這是處理后的文件內容,可以看到數字和英文都??被刪除了。
  3、接下來(lái)進(jìn)行分詞。點(diǎn)擊功能分析——分詞(這里可以選擇自定義詞庫,如搜狗詞庫等)
  分詞處理后的結果。簡(jiǎn)單觀(guān)察一下,分詞之后,出現了很多無(wú)意義的停用詞,比如“in”、“under”、“one”等等
  4. 接下來(lái),我們過(guò)濾專(zhuān)有名詞,停用詞,統計詞頻。點(diǎn)函數分析——詞頻分析(中文)
  在功能分析下,單擊情緒分析以執行情緒分析。
  并且可以實(shí)現云圖的可視化。
  7.2 R的實(shí)現
  這里需要安裝幾個(gè)必要的包,因為幾個(gè)包的安裝比較復雜,這里是鏈接
  可以參考這篇博客安裝包。安裝完成后,就可以開(kāi)始R文本挖掘了。下面代碼的說(shuō)明文字較少,各個(gè)函數的作用初學(xué)者比較陌生。讀者可以先閱讀這些文章文章,了解各個(gè)函數的作用后,使用R進(jìn)行文本挖掘。鏈接如下:
  博客/檔案/29060
  直接
  讀完之后,進(jìn)行下去就會(huì )清楚很多。
  加載工作區庫 (rJava)
  圖書(shū)館(tmcn)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(TM)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  頭(數據1)
  數據
  —————————————————————— #Rwordseg分詞
  data1_cut=segmentCN(data1, nosymbol=T, returnType="tm")
  刪除\n、英文字母、數字 data1_cut=gsub("\n", "", data1_cut)
  data1_cut=gsub("[az]*", "", data1_cut)
  data1_cut=gsub("\d+", "", data1_cut)
  write.table(data1_cut, 'data1_cut.txt', row.names = FALSE)
  
  Data1=readLines('data1_cut.txt')
  Data1=gsub('\"', '', data1_cut)
  長(cháng)度(數據1)
  頭(數據1)
  ———————————————————————————— #Load workspace
  圖書(shū)館(自然語(yǔ)言處理)
  圖書(shū)館(TM)
  圖書(shū)館(大滿(mǎn)貫)
  圖書(shū)館(主題模型)
  R語(yǔ)言環(huán)境下的文本可視化與主題分析 setwd("F:/data and program/chapter15/computer experiment")
  data1=readLines("./data/meidi_jd_pos_cut.txt", encoding = "UTF-8")
  頭(數據1)
  停用詞
  停用詞=停用詞[611:長(cháng)度(停用詞)]
  去掉空格、字母 Data1=gsub("\n", "", Data1)
  Data1=gsub("[a~z]*", "", Data1)
  Data1=gsub("\d+", "", Data1)
  構建語(yǔ)料庫 corpus1 = Corpus(VectorSource(Data1))
  corpus1 = tm_map(corpus1, FUN=removeWords, stopwordsCN(stopwords))
  創(chuàng )建文檔術(shù)語(yǔ)矩陣 sample.dtm1
  colnames(as.matrix(sample.dtm1))
  tm::findFreqTerms(sample.dtm1, 2)
  unlist(tm::findAssocs(sample.dtm1, '安裝', 0.2))
  ——————————————————————–
  # 主題模型分析
  Gibbs = LDA(sample.dtm1, k = 3, method = "Gibbs", control = list(seed = 2015, burnin = 1000, thin = 100, iter = 1000))
  最有可能的主題文檔 Topic1
  表(主題1)
  每個(gè)主題的前 10 個(gè) TermTerms1
  條款1
  —————————————————————————— #使用vec方法分詞
  圖書(shū)館(tmcn)
  圖書(shū)館(TM)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(文字云)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  d.vec1
  wc1=getWordFreq(unlist(d.vec1), onlyCN = TRUE)
  wordcloud(wc1$Word,wc1$Freq,col=rainbow(長(cháng)度(wc1$Freq)),min.freq = 1000)
  #
  八、結果展示及說(shuō)明
  這是分析的部分結果??梢钥吹?,大部分客戶(hù)的評論都帶有正面的情緒,說(shuō)明客戶(hù)對美的熱水器的滿(mǎn)意度是比較高的。哪些方面滿(mǎn)意,哪些方面不滿(mǎn)意,哪些方面可以保持,哪些方面需要改進(jìn),這就需要我們另一種結果展示了。
  點(diǎn)擊可視化工具,得到詞頻云圖。根據云圖,我們可以看到客戶(hù)最關(guān)心的點(diǎn),也就是評論中提到較多的點(diǎn)。從圖中可以看到“安裝”、“師傅”、“配件”、“暖氣”、“快”、“便宜”、“速度”、“品牌”、“京東”、“送貨”、“服務(wù)” 、“價(jià)格”、“供暖”等關(guān)鍵詞出現頻率很高,我們可以大致猜到26
  另外,值得注意的是,云圖中還有一些“好”、“大”、“滿(mǎn)意”等字眼。我們還不知道這些詞背后的語(yǔ)義,所以我們需要找到相應的注釋。,提取這些詞對應的主題點(diǎn),然后對分析結果進(jìn)行優(yōu)化
  文|@白加黑治療病
  來(lái)源 | PPV類(lèi)
  原來(lái)的:
  1個(gè)
  出版與投稿
  2個(gè)
  編輯部招募新讀者
  現在我們的專(zhuān)欄“讀書(shū)筆記”編輯部正在招募青年教師和研究生加入我們的讀書(shū)寫(xiě)作活動(dòng)。入選閱讀對象包括SSCI、CSSCI優(yōu)秀論文和國內外學(xué)術(shù)專(zhuān)著(zhù)。每個(gè)成員都參與編輯小組討論、文章寫(xiě)作、校對和編輯(其中許多是自愿的)。我們有一個(gè)8人的穩定團隊,現在我們正在繼續招募語(yǔ)言學(xué)、翻譯學(xué)和文學(xué)領(lǐng)域的新人。由于讀寫(xiě)任務(wù)壓力大,圍觀(guān)者很快被淘汰。誠意歡迎有學(xué)術(shù)奉獻精神的新人加盟。加入方式:微信添加公眾號負責人:wonderdesire(請添加真實(shí)姓名,或實(shí)名入群:姓名-單位-研究方向)。對于其他業(yè)務(wù)聯(lián)系人,請發(fā)送電子郵件至:
  解讀:文章圖片提取工具(圖片提取文本的工具有哪些)
  目錄:
  1. 一個(gè)圖片提取文字的工具
  批量提取網(wǎng)站圖片。使用圖片提取工具從我們的網(wǎng)頁(yè)中提取圖片。圖片批量提取工具具有圖片過(guò)濾功能。通過(guò)設置圖片大小范圍,可以提取目標網(wǎng)站抓取的所有圖片,而采集文章采集,提取文章中的插圖。
  2.從圖片中提取文章
  批量提取網(wǎng)站圖片工具,可以通過(guò)批量鏈接下載圖片,導入我們的圖片鏈接批量下載保存到本地,其次可以使用批量關(guān)鍵詞采集,通過(guò)圖片采集、文章采集、文章導出插圖生成本地圖片素材庫,最后即可提取下載全站圖片,輸入目標鏈接地址即可,可以批量導出整站圖片。
  3. 文章 內容提取工具
  4.圖片提取文本文件
  
  在我們的 網(wǎng)站 上重做視覺(jué)內容,包括信息圖表、視頻、圖像和視覺(jué)元素 我們甚至可以決定更改 網(wǎng)站 的設計作為內容更新的一部分,只要我們認為它是好的當決定(例如,我們的 網(wǎng)站 設計看起來(lái)過(guò)時(shí)了)執行 文章 圖像優(yōu)化時(shí),我們需要做的第一件事實(shí)際上是分析所有內容并選擇要刷新的部分。
  5.文檔圖像提取
  為了更新和重新制作我們的內容,我們可以從最好的論文中聘請專(zhuān)業(yè)的作家并撰寫(xiě)網(wǎng)站,或者我們可以自己完成所有工作但是,在開(kāi)始選擇內容時(shí),我們應該自己完成
  6、圖文提取工具有哪些?
  為了幫助我們選擇最好的內容來(lái)刷新,我們可以使用我們在 文章 圖像優(yōu)化過(guò)程中使用的優(yōu)先級排序的基本原則: 檢查 SEO 排名 - 檢查不同內容的搜索引擎排名 它們是否在第一頁(yè)?如果他們曾經(jīng)在第一頁(yè)上但掉到第二頁(yè)或第三頁(yè),請關(guān)注這些部分。
  7.圖片提取文件軟件
  我們可能只需要進(jìn)行一些更改即可使這些部分再次排在第一頁(yè)上
  
  8.圖片文字提取
  考慮我們的品牌——我們最近是否改變了我們的品牌?我們的聽(tīng)眾與以前的聽(tīng)眾有什么不同嗎?如果是這種情況,請為我們的老觀(guān)眾找到內容,然后找到一種方法來(lái)更新或重新制作這些內容以與我們當前的觀(guān)眾相關(guān) 查看指標 - 我們可能正在跟蹤很多指標,所以只需檢查它們,我們就可以決定需要刷新的內容。
  9.從文檔中提取圖片
  瀏覽量、點(diǎn)贊數、評論數、分享數等都是需要更改哪些部分的良好指標。比如標題稍微改一下,就可以提高點(diǎn)擊率
  10、有什么工具可以從圖片中提取文字
  讓自己成為領(lǐng)導者——如果我們想在自己周?chē)⒛撤N品牌形象,讓我們被視為我們領(lǐng)域的權威和思想領(lǐng)袖,那么我們絕對應該用新發(fā)現更新舊內容。自從我們發(fā)布這些文章文章 關(guān)于自以來(lái)新發(fā)現或開(kāi)發(fā)的主題。
  然后,向這些添加新信息
  圖片

解決方案:百分點(diǎn)蘇海波:深度遷移學(xué)習在NLP中的應用及實(shí)踐

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 64 次瀏覽 ? 2022-12-02 19:32 ? 來(lái)自相關(guān)話(huà)題

  解決方案:百分點(diǎn)蘇海波:深度遷移學(xué)習在NLP中的應用及實(shí)踐
  深度遷移學(xué)習無(wú)疑是當前NLP領(lǐng)域的主流技術(shù),在越來(lái)越多的實(shí)際應用場(chǎng)景中取得了驕人的成績(jì)。那么,如何更好地應用這項技術(shù)來(lái)解決樣本小、算力不足的問(wèn)題呢?如何在各種技術(shù)流派的碰撞中找到最優(yōu)解?
  事實(shí)上,Percent在NLP方面擁有多年的技術(shù)和業(yè)務(wù)實(shí)踐經(jīng)驗,服務(wù)過(guò)上百家企業(yè)和政府客戶(hù),成功采用深度遷移學(xué)習技術(shù)解決各行業(yè)客戶(hù)的NLP現實(shí)業(yè)務(wù)問(wèn)題。
  11月21日,AICon全球人工智能與機器學(xué)習大會(huì )首日在北京國際會(huì )議中心開(kāi)幕,百分比首席算法科學(xué)家蘇海波受邀參會(huì ),與大家分享AI最佳實(shí)踐國內外名人,深入剖析模型。技術(shù)原理、谷歌TPU使用經(jīng)驗、模型調參和數據增強等優(yōu)化技巧,同時(shí)分享深度遷移學(xué)習模型在智能問(wèn)答、增強分析、情感等各類(lèi)NLP任務(wù)中的應用實(shí)踐和價(jià)值分析。
  以下為演講實(shí)錄:
  突破深度學(xué)習困境
  大家都知道Algphago在圍棋上打敗了人類(lèi),但它還是有明顯的缺陷,不能像人類(lèi)一樣舉一反三。它針對的是 19*19 的板子。如果換成21*21的棋盤(pán),Alphago馬上就失敗了,不過(guò)人類(lèi)可以舉一反三。
  以騎自行車(chē)為例。如果你學(xué)騎自行車(chē),你會(huì )在學(xué)摩托車(chē)時(shí)借鑒騎自行車(chē)的經(jīng)驗,大大加快摩托車(chē)的學(xué)習速度。這種遷移學(xué)習的能力對人類(lèi)學(xué)習新事物起著(zhù)非常重要的作用。關(guān)鍵作用。
  AI界大神吳恩達曾說(shuō)過(guò):遷移學(xué)習將是繼監督學(xué)習之后未來(lái)五年內最有可能實(shí)現商業(yè)化的AI技術(shù)。那么,什么是遷移學(xué)習?遷移學(xué)習是指利用數據、任務(wù)或模型之間的相似性,將在舊領(lǐng)域學(xué)習的模型應用到新領(lǐng)域的學(xué)習過(guò)程。
  之所以需要遷移學(xué)習是為了解決以下四個(gè)問(wèn)題:
  1、深度學(xué)習與標注少的矛盾:目前深度學(xué)習只能在標注數據充足的場(chǎng)景下發(fā)揮威力。但是在很多實(shí)際問(wèn)題中,我們沒(méi)有足夠的標注數據,這時(shí)候就需要遷移學(xué)習;
  2、算力強與資源弱的矛盾:某些海量數據模型訓練任務(wù)需要非常大的算力,只有大公司才能負擔得起,而普通人的機器資源非常有限。使他們也能夠利用數據和模型;
  3、通用模型與個(gè)體需求的矛盾:通用模型可以解決大部分公共問(wèn)題,但具體的個(gè)體需求有其獨特性,通用模型根本無(wú)法滿(mǎn)足。因此,有必要對這種通用模型進(jìn)行改造和適配,以更好地服務(wù)于各種個(gè)性化需求;
  4. 對特定應用的要求:現實(shí)世界中的一些特定應用,比如個(gè)性化推薦,存在用戶(hù)數據冷啟動(dòng)的問(wèn)題,因此可以通過(guò)遷移學(xué)習來(lái)遷移相似領(lǐng)域的知識。
  遷移學(xué)習方法可以分為四類(lèi),包括基于樣本的遷移學(xué)習方法、基于特征的遷移學(xué)習方法、基于模型的遷移學(xué)習方法和基于關(guān)系的遷移學(xué)習方法。
  今天給大家分享的是基于模型的遷移方法,就是構建一個(gè)源域和目標域參數共享的模型,比如圖中的Chihuahua判別模型和shepherd判別模型,在模型中有沒(méi)有腳有沒(méi)有眼睛的部分可以分享。
  基于模型的遷移學(xué)習方法:從圖像到 NLP
  基于模型的遷移方法特別適用于深度神經(jīng)網(wǎng)絡(luò ),因為神經(jīng)網(wǎng)絡(luò )的結構可以直接遷移,我們稱(chēng)之為深度遷移學(xué)習。早期,這種方法被應用于計算機視覺(jué)中的圖像識別。源域中學(xué)習到的低級特征具有普適性,包括邊緣特征、形狀特征等,從而可以在源域中預訓練整個(gè)模型,并將低級通用特征遷移到目標域可以顯著(zhù)提高相應模型的學(xué)習效果。
  2018年,隨著(zhù)Google BERT的出現,這種預訓練模型方法開(kāi)始應用于NLP領(lǐng)域,對NLP領(lǐng)域產(chǎn)生了革命性的影響。如果學(xué)習詞向量就像學(xué)習計算機視覺(jué)中的圖像邊緣,那么 NLP 中的預訓練模型就像學(xué)習圖像特征的完整層次結構,從邊緣到形狀再到高級語(yǔ)義概念。
  上圖展示了深度遷移學(xué)習在NLP中的技術(shù)思路。首先,通過(guò)源域中已有的海量語(yǔ)料庫,以無(wú)監督的方式訓練一個(gè)語(yǔ)言模型,即預訓練模型。然后在具體目標任務(wù)中,遷移預訓練模型,在其上連接一層全連接網(wǎng)絡(luò )或深度網(wǎng)絡(luò )(如CNN、LSTM、DenseNet、HighWayLSTM等),結合標注樣本訓練當前任務(wù)的模型 這種方法與深度學(xué)習模型相比,所需的樣本數量可以大大減少。
  百分比最佳實(shí)踐:底層效率提升+三大場(chǎng)景應用
  Percent在各種NLP任務(wù)中廣泛使用BERT技術(shù),并不斷優(yōu)化改進(jìn),包括使用谷歌TPU解決算力瓶頸,使用BERT與上層神經(jīng)網(wǎng)絡(luò )聯(lián)合調參,使用各種擴展模型等BERT在效果提升和數據增強方面進(jìn)行探索和實(shí)踐。
  Percent Cognitive Intelligence 業(yè)務(wù)技術(shù)框架圖
  Percent Cognitive Intelligence業(yè)務(wù)的技術(shù)框架。除了CPU和GPU,底層硬件資源也會(huì )租用谷歌的TPU。機器學(xué)習平臺從傳統的機器學(xué)習和深度學(xué)習逐漸轉向目前主流的深度遷移學(xué)習;核心認知 智能技術(shù)層包括自然語(yǔ)言處理、知識圖譜和智能交互。智能交互分為問(wèn)答式問(wèn)答、任務(wù)式問(wèn)答、閱讀理解和NL2SQL;行業(yè)內典型的認知智能應用包括公安法智能檢察問(wèn)答系統、快速零售智能業(yè)務(wù)態(tài)勢分析系統、公安智能翻譯系統、
  接下來(lái)圍繞架構圖中紅色標注的技術(shù)點(diǎn)和應用進(jìn)行展開(kāi)。
  首先是谷歌TPU的做法
  在預訓練語(yǔ)言模型的時(shí)候,我們會(huì )采集
大量的語(yǔ)料(包括維基百科、百度百科、微博、微信等,大約幾十G),訓練一個(gè)通用的預訓練模型,但是base版本的BERT 模型有 1.5 億個(gè)參數,而大版本超過(guò) 3 億,微調和重新預訓練所需的計算能力太高。
  另外,我們在基于預訓練模型進(jìn)行實(shí)際的NLP開(kāi)發(fā)時(shí),會(huì )同時(shí)有多個(gè)任務(wù)。如果我們串行執行,則需要等待很多時(shí)間;如果并行的話(huà),會(huì )消耗太多的算力,硬件成本負擔不起。. 因此,如何探索出一種高效、低成本的研發(fā)模式,將是NLP算法研究人員和工程師共同面臨的問(wèn)題。結合我們的實(shí)踐經(jīng)驗,使用谷歌的TPU資源是解決方案之一。TPU的運算速度是GPU的80多倍。
  下面以租用一個(gè)TPU V2 八核為例,系統的講解一下如何創(chuàng )建虛擬機實(shí)例和TPU實(shí)例。首先進(jìn)入谷歌云的首頁(yè):
  然后需要創(chuàng )建一個(gè)VM實(shí)例,在options中配置顯存、內存量、系統鏡像等。
  
  接下來(lái),創(chuàng )建一個(gè) TPU。有幾個(gè)選項值得注意。在TPUtype項中,會(huì )有v2-8、v3-8、v3-32等選項的說(shuō)明,其中v2或v3是tpu的型號,-8或-32是核心數,最小核心數為8個(gè)核心。
  我們使用TPU V2-8進(jìn)行計算,并在計算時(shí)間和成本上與主流GPU進(jìn)行對比,使用TPU和GPU對BERT模型進(jìn)行500K步的訓練。如圖所示,使用GPU訓練大約需要7天,而使用TPU訓練完成只需要1.2天。同時(shí),總成本也大大降低??梢钥闯?,TPU在BERT預訓練模型的計算時(shí)間和總成本上已經(jīng)完全超越了目前主流的GPU。
  然后我們使用 TPU 作為硬件加速方式,在 BERT 模型上進(jìn)行十輪小時(shí)。這項技術(shù)極大地提高了NLP領(lǐng)域的fine-tune。通過(guò)與目前主流GPU Tesla V100*8對比發(fā)現,TPU完成fine-tune只需要10分鐘左右,而GPU完成同樣的fine-tune需要不止一個(gè)神經(jīng)網(wǎng)絡(luò )計算效率,并且從總成本來(lái)看,使用TPU的成本僅為GPU的3.5%左右。
  因此,TPU超高的效率和低廉的價(jià)格讓神經(jīng)網(wǎng)絡(luò )計算更加“親民”。TPU可以從根本上解決對算力要求高但資金不足的中小企業(yè)的顧慮。過(guò)去幾天需要幾十個(gè) GPU。BERT的預訓練現在一個(gè)TPU一天就可以輕松搞定,讓所有的中小企業(yè)都擁有了之前所缺乏的強大算力。盡管 TPU 在很多方面都打敗了 GPU,但我們認為 TPU 仍有很大的改進(jìn)空間:
  1、TPU的代碼示例和文檔很少,使用門(mén)檻很高;
  2. TPU是圍繞Tensorflow框架設計的硬件。使用其他人工智能框架的項目很難高效低成本地使用TPU進(jìn)行計算;
  3、TPU在checkpoint讀寫(xiě)上效率低下,導致在計算小模型時(shí)效率上沒(méi)有明顯優(yōu)勢。
  情感分類(lèi)實(shí)踐
  情感分類(lèi)是Percent智能消費者洞察分析系統的核心功能?;陔娚?、微信、微博、論壇等數據,系統進(jìn)行各種文本語(yǔ)義分析(包括情感分析、熱點(diǎn)分析等),最終支持口碑分析、趨勢分析、用戶(hù)體驗分析和其他申請決定。目前,該產(chǎn)品已服務(wù)于眾多快消行業(yè)的標桿客戶(hù)。
  需要注意的是,情感分類(lèi)分為短文本和長(cháng)文本,因為BERT模型對輸入文本有長(cháng)度限制,不能超過(guò)512個(gè)詞。
  對于短文本情感分類(lèi),在BERT預訓練模型出現之前,我們使用的是卷積神經(jīng)網(wǎng)絡(luò )(CNN)模型,先應用于圖像,后應用于文本情感分析。CNN主要由輸入層、卷積層、池化層和全連接層組成。卷積的計算方式是對相鄰區域的元素進(jìn)行加權求和,與位置無(wú)關(guān)。實(shí)現了權重參數的共享,池化層實(shí)現了空間采樣,這些方法大大減少了神經(jīng)網(wǎng)絡(luò )的參數,避免了模型過(guò)擬合。
  對于短文本的情感分類(lèi)任務(wù),BERT模型在文本前面插入了一個(gè)[CLS]符號,將該符號對應的輸出向量作為該文本的語(yǔ)義表示進(jìn)行情感分類(lèi),因為它不同于其他文字中已有的詞。相比之下,這種沒(méi)有語(yǔ)義信息的符號會(huì )更“公平”地融合文本中每個(gè)詞的語(yǔ)義信息。
  以上分別是BERT和CNN的實(shí)驗結果??梢钥闯?,隨著(zhù)訓練數據的增加,兩種模型的情感分類(lèi)準確率都在不斷提高。不過(guò),兩者的反差也很明顯。當BERT模型只有1000個(gè)訓練集時(shí),預測準確率達到90%。當CNN模型有10萬(wàn)個(gè)訓練集樣本時(shí),預測準確率僅為88.2%。這表明深度遷移學(xué)習模型所需的標記樣本數量遠小于以往的深度學(xué)習模型,能夠取得更好的效果。
  由于BERT模型的輸入文本有512個(gè)字符的限制,短文本分類(lèi)比較簡(jiǎn)單,直接輸入BERT模型即可。但是對于長(cháng)文本,如何使用BERT模型呢?如果直接截取前面的512個(gè)字符,會(huì )有信息丟失。我們的解決方案是對長(cháng)文本進(jìn)行平均截斷,比如按照平均6段截斷,分成幾段短文本,然后輸入對應的BERT模型或者各種變體,比如RoBERT、Xlnet等,然后將輸出的增強語(yǔ)義向量進(jìn)行拼接,然后連接到GRU模型。
  我們對標記數據集執行 5 折分割,并交叉驗證平均截斷策略的效果。上圖實(shí)驗結果表明,RoBERTa+平均截斷訓練生成的模型F1值高于RoBERTa版本模型,說(shuō)明在長(cháng)文本情感分類(lèi)中,平均截斷策略可以有效提升效果預訓練模型。
  此外,我們還采用了post train的方式來(lái)提升模型的效果。實(shí)驗結果表明,在每條數據上,RoBERTa+ Post train 組合的 F1 和 Acc 均高于 RoBERTa 版本的模型。因此,在長(cháng)文本情感分類(lèi)中,Post train策略可以有效提升預訓練模型的效果。
  智能問(wèn)答實(shí)踐
  下面是百分位數預訓練模型在智能問(wèn)答中的實(shí)踐。
  我們開(kāi)發(fā)了智能檢察問(wèn)答系統,解決了老百姓的普法難題。為廣大群眾日常生活中遇到的法律問(wèn)題提供智能解答,改善民生體驗。該系統榮獲“2019年度全國政法智能建設優(yōu)秀創(chuàng )新產(chǎn)品”獎。系統的核心是問(wèn)題的等價(jià)語(yǔ)義識別,因為同一個(gè)問(wèn)題可以有多種表達方式,例如“18歲以下?lián)尳偈欠穹缸铩?、?8歲以下?lián)尳偈欠穹缸铩?18”表示相同的意思。
  那么如何找到語(yǔ)義等價(jià)問(wèn)題呢?傳統的相似度搜索算法(包括余弦相似度、編輯距離、關(guān)鍵詞巧合、BM25)可以發(fā)揮作用,但仍然不夠,比如“什么是公益訴訟?” 和“什么是行政訴訟?” 編輯距離為2,不等價(jià)于“什么是公益訴訟?”的編輯距離 和“解釋公益訴訟的定義?” 為7,但它們是等價(jià)的,所以需要增加等價(jià)模塊的判斷。
  等價(jià)判斷中存在兩個(gè)典型問(wèn)題:字面相似的句子語(yǔ)義不等價(jià),字面不同的句子語(yǔ)義等價(jià)。我們只是舉了兩個(gè)例子。為了在這兩個(gè)問(wèn)題上取得好的效果,我們的經(jīng)驗是一方面優(yōu)化模型,將深度學(xué)習改為深度遷移學(xué)習模型,通過(guò)人工標注+數據增強的方式增加訓練。數據。
  在具體模型方面,我們基于BERT和BIMPM開(kāi)發(fā)了一種新的語(yǔ)義等價(jià)模型。在BIMPM模型的基礎上,我們進(jìn)行了兩方面的改造。一方面,我們去掉了原來(lái)BIMPM模型中連接詞向量層的Bi-LSTM模型。原因是LSTM沒(méi)有設計機制保證梯度反向傳導到深度模型。. 另一方面,將 BIMPM 頂部的 Bi-LSTM 模型替換為 Transformer 模型。主要原因是Bi-LSTM可以捕捉到數據中的序列特征。但是由于BIMPM采用了多重匹配,序列性不強,所以Transformer更適合這個(gè)模型。
  Percent 提出的問(wèn)句級匹配模型在公開(kāi)的 Quora 數據集中達到了當前最先進(jìn)的水平。該數據集包括超過(guò)400,000個(gè)問(wèn)題組,專(zhuān)門(mén)用于研究?jì)蓚€(gè)句子在語(yǔ)義上是否等價(jià)的二元問(wèn)題。. 由于該數據集的標注質(zhì)量很高,常被用來(lái)測試語(yǔ)義理解的模型效果。我們按照7:2:1的比例分配訓練集、驗證集和測試集。在測試集上的具體實(shí)驗結果如下:
  作為對比,我們第一個(gè)結果是BERT單模型的結果,第二個(gè)和第三個(gè)分別是BERT和ABCNN、BERT和BIMPM的結果。在特征提取的深度方面,我們選擇了BERT預訓練模型的表面層一、表面二層和表面三層。
  如上表結果所示,BERT和BIMPM的結合已經(jīng)超越了BERT單一模型。在我們的新模型中增加 BERT 的特征層數可以提高幾個(gè)點(diǎn)的性能。隨著(zhù)層數的增加,可以獲得更高的F1值和準確率。當層數為3時(shí),準確率為90.52%,F1值為89.68%,達到state-of-the-art效果。
  為了保證實(shí)驗結論的有效性,除了Quora數據集外,我們還使用了SLNI數據集中收錄
句子對等的子數據集,該子數據集收錄
550,000個(gè)訓練集和10,000個(gè)測試集。許多論文使用這些數據來(lái)測試他們的模型包的效果。與這些模型相比,我們的準確率提高了近兩個(gè)點(diǎn),達到了當前最先進(jìn)的水平。具體實(shí)驗結果如上圖所示。.
  我們比較了基于 BERT 的新模型和傳統 CNN 模型在問(wèn)題等價(jià)性上的識別效果。隨著(zhù)訓練數據集的增加,兩者的效果都在逐漸提升。BERT模型在訓練集為5000時(shí),可以識別出CNN模型的準確率達到77%,而CNN模型在訓練集為50000時(shí),識別準確率約為75.5%。好結果。
  
  除了模型的改進(jìn),我們結合數據增強技術(shù),進(jìn)一步提高問(wèn)題語(yǔ)義對等的識別效果。什么是數據增強?
  數據擴充可以簡(jiǎn)單理解為從少量數據生成大量數據的過(guò)程。一般來(lái)說(shuō),一個(gè)比較成功的神經(jīng)網(wǎng)絡(luò )都有大量的參數。要使這些參數正確工作,需要大量數據進(jìn)行訓練,但在實(shí)際情況下,并沒(méi)有那么多數據,因此需要進(jìn)行數據增強,可以提高模型的泛化能力和魯棒性。性別。圖像識別中的數據增強方法包括翻轉、旋轉、縮放等。文本中的數據增強包括切分句子、增刪詞、構造新句子,或者用同義詞替換句子,或者根據模板替換句子等等。
  優(yōu)化相當于問(wèn)句的模型后,可以通過(guò)加入標注數據來(lái)提升效果。那么,需要添加什么樣的標簽數據才能達到好的效果呢?
  我們把整個(gè)大問(wèn)題分解成幾個(gè)子問(wèn)題,表中列出了一些主要的子問(wèn)題。在規律不改變意義的前提下是等價(jià)的;對于庫里的問(wèn)題,有很多詞與問(wèn)的問(wèn)題重疊,但語(yǔ)義并不等同。
  第一種數據增強方法是無(wú)意義詞和關(guān)鍵詞的添加和修改,包括添加無(wú)意義詞進(jìn)行等價(jià),將關(guān)鍵詞替換為同義詞,將關(guān)鍵詞替換為非同義詞后不等價(jià)。
  第二種數據增強方法是改變問(wèn)法后的語(yǔ)義對等,通過(guò)構造一個(gè)等值的問(wèn)句模板,比如名詞短語(yǔ)+有效的各種說(shuō)法,動(dòng)詞短語(yǔ)+各種非法的說(shuō)法等,將相同或等價(jià)的句子元素組合起來(lái)使用不同的模板,例如“請問(wèn),殺死兒童是否構成犯罪?” 和“請問(wèn),殺孩子犯法嗎?” 這兩個(gè)問(wèn)題是模板和同義詞增強生成的等價(jià)問(wèn)題。
  第三種數據增強,加修飾語(yǔ)后語(yǔ)義不等,刪掉修飾語(yǔ)后的句子依然流暢。這里我們使用依存語(yǔ)法的技術(shù)來(lái)分析句子中所有單詞的主從關(guān)系。
  通過(guò)依存句法分析,分析句子的核心關(guān)系、主謂關(guān)系、謂賓關(guān)系、陳述關(guān)系、決定關(guān)系等?!癱ourt”與“made”的關(guān)系是主謂關(guān)系,“made”與“judgment”的關(guān)系是謂賓關(guān)系,“those”與“situation”的關(guān)系是決心。
  根據依存句法的分析結果,我們可以刪除句子中的修飾語(yǔ),以保證刪除后的句子依然順暢,如刪除“those”或“those situations”。
  此外,在很多重疊詞的情況下,我們替換依賴(lài)句法樹(shù)的子樹(shù)。替換后語(yǔ)義不等價(jià),但依然流暢。如何處理請求”。
  通過(guò)這些方法,我們生成了大量的增廣樣本并重新訓練模型,效果得到了顯著(zhù)提升。例如,在用非同義詞替換庫里問(wèn)題關(guān)鍵詞的情況下,準確率從65%提高到91%;在 Curry question 添加不等語(yǔ)義修飾語(yǔ)的情況下,準確率從 63% 提高到 91% 。
  增強分析實(shí)踐
  接下來(lái)介紹深度遷移學(xué)習在增強分析中的實(shí)踐。
  首先,什么是增強分析?增強分析是指基于機器學(xué)習的數據分析和BI功能,包括智能數據發(fā)現、增強數據準備、增強數據分析等模塊。目前,增強分析在BI中得到了廣泛的應用。Gartner認為,到2020年,增強分析將成為新用戶(hù)購買(mǎi)BI產(chǎn)品和數據分析平臺的主要驅動(dòng)力。Percent開(kāi)發(fā)了一套增強型分析產(chǎn)品——智能業(yè)務(wù)分析系統,簡(jiǎn)稱(chēng)Clever BI。
  智能問(wèn)答功能是Clever BI中一個(gè)非常重要的子任務(wù)。其目的是讓用戶(hù)通過(guò)一句自然語(yǔ)言自動(dòng)生成相應的圖表。比如你問(wèn)“我知道這些省份的投訴比較多,是哪個(gè)渠道影響了客戶(hù)體驗?” 系統會(huì )自動(dòng)顯示相應的圖表結果。在學(xué)術(shù)界,這個(gè)任務(wù)被稱(chēng)為NL2SQL,并且已經(jīng)有很多關(guān)于它的研究。
  Clever BI的系統架構包括數據管理層、算法支撐層、功能模塊層和API層。核心功能是智能推薦、智能問(wèn)答和智能挖掘。接下來(lái)重點(diǎn)介紹智能問(wèn)答,這是NL2SQL的實(shí)現原理。
  首先對輸入的問(wèn)句進(jìn)行分詞和依存句法分析,然后需要填充語(yǔ)義槽,通過(guò)模型分析查詢(xún)字段、聚合函數、過(guò)濾條件、分組字段,最后得到對應的生成 SQL 語(yǔ)句。
  將自然語(yǔ)言轉換成 SQL 本身可以看作是一個(gè) Seq2seq 任務(wù)。目前主流的方法是預先寫(xiě)好SQL的模板槽,然后用多個(gè)模型一個(gè)一個(gè)預測槽。X-SQL模型是其中的代表方法之一。,其過(guò)程是通過(guò)MT-DNN對原創(chuàng )
問(wèn)題和字段名稱(chēng)進(jìn)行編碼。MT-DNN是微軟推出的針對多任務(wù)聯(lián)合學(xué)習的BERT優(yōu)化方案。輸出層包括6個(gè)子模型:S-COL和S-AGG。預測select字段,W-NUM用于預測where條件的個(gè)數,W-COL、W-OP、W-VAL用于預測過(guò)濾條件的具體內容。這個(gè)架構已經(jīng)很完善了,但是由于數據限制,模型無(wú)法預測多選多組的內容。
  百分點(diǎn)提出了一種結合X-SQL和依賴(lài)語(yǔ)法樹(shù)的方法來(lái)解決這個(gè)問(wèn)題。X-SQL從深層語(yǔ)義的角度抽取元素,而句法分析則從問(wèn)題的語(yǔ)法結構抽取。舉一個(gè)實(shí)際的例子,分析“每個(gè)區域的新訂單總數”,第一步是分詞,第二步是依存句法分析,可以得到一棵樹(shù),包括詞性、實(shí)體類(lèi)別、結果標簽和依賴(lài)關(guān)系。第三步,通過(guò)詞庫和后序遍歷分析依賴(lài)樹(shù),分析查詢(xún)字段、聚合函數和分組字段。例如“新訂單數量”通過(guò)X-SQL被識別為查詢(xún)詞,“地區” 通過(guò)依賴(lài)關(guān)系識別出來(lái)是一個(gè)分組字段,最后生成對應的SQL語(yǔ)句。另外,在具體使用過(guò)程中,經(jīng)常會(huì )出現比較復雜的時(shí)間題。比如“上個(gè)月”、“將近7天”等等,這些問(wèn)題比較固定,但是解析的時(shí)候需要很多知識。我們使用模板來(lái)處理它們。模板由普通字符和正則語(yǔ)法組成。
  實(shí)際測試中,由于中文NL2SQL領(lǐng)域沒(méi)有統一的數據集,通過(guò)采集
用戶(hù)在Clever BI產(chǎn)品中的實(shí)際使用數據,選取了250條中文測試數據(題目可能包括分組、過(guò)濾條件、復雜時(shí)間等)表達式、查詢(xún)內容和排序等),并在此基礎上進(jìn)行測試,得到的結果如上圖所示。與X-SQL模型相比,改進(jìn)的百分點(diǎn)算法有明顯的效果提升。在實(shí)際測試中,準確率達到了90.45%,并且在實(shí)際使用中,已經(jīng)達到了商用效果。
  綜上所述,在過(guò)去的一年里,隨著(zhù)谷歌BERT模型的出現,給自然語(yǔ)言處理帶來(lái)了長(cháng)足的進(jìn)步。深度遷移學(xué)習已經(jīng)成為未來(lái)NLP的主流技術(shù)。在現有研發(fā)成果的基礎上,TPU、數據增強、BERT模型改進(jìn)、上層網(wǎng)絡(luò )設計等技術(shù)將進(jìn)一步提升深度遷移學(xué)習方法的效率和有效性。
  與深度學(xué)習給計算機視覺(jué)帶來(lái)的技術(shù)突破類(lèi)似,在NLP模型的效果突破之后,零售快消、公共安全、媒體出版等各行業(yè)也將出現越來(lái)越多的認知智能應用。未來(lái)是認知智能發(fā)展的黃金十年。我希望更多的人加入這個(gè)令人興奮的行業(yè)。
  相關(guān)文章
  1個(gè)
  2個(gè)
  3個(gè)
  4個(gè)
  解決方案:篇五:數字化轉型行動(dòng)指南
  優(yōu)化您的組織:
  1、建立業(yè)務(wù)與技術(shù)一體化的組織,就是在業(yè)務(wù)中建設技術(shù)能力,為業(yè)務(wù)部門(mén)配備技術(shù)人員,使其成為具體業(yè)務(wù)部門(mén)的一部分,形成長(cháng)期固定的組織形式。
  絕大多數公司采用職能部門(mén)制組織,看似分工明確,流程順暢,但效率低,速度慢,時(shí)間成本、人力成本、溝通成本特別高,而簡(jiǎn)單的問(wèn)題復雜化,表現為慢、費、難的問(wèn)題
  有些公司采用的是項目制組織,這自然是一種臨時(shí)組織,只對項目目標負責,不對長(cháng)期結果負責。在這個(gè)過(guò)程中,不可能將項目中獲得的數字化經(jīng)驗積累成公司的能力。一旦項目組解散,任何組織都無(wú)法承擔企業(yè)數字化轉型的長(cháng)期任務(wù)。解決慢、貴、難的問(wèn)題,但工藝能力無(wú)法固化,容易流失
  許多公司沒(méi)有意識到人才在哪里,能力就在哪里。職能部門(mén)組織和項目型組織之所以不能在數字化轉型中發(fā)揮作用,是因為他們忽略了這一點(diǎn):能力是人與生俱來(lái)的。業(yè)務(wù)技術(shù)集成的組織方式是目前華為經(jīng)過(guò)10多年探索形成的最好的組織方式。在這種組織模式中,能力不是封閉固化的,而是不斷增長(cháng)的
  2、成立公司級數據管理部門(mén),由各領(lǐng)域專(zhuān)家組成,發(fā)布企業(yè)數據管理總體綱要,編制數據質(zhì)量管理政策和數據源頭管理政策,定期審核數據結構,確定數據歸屬,確定數據互操作性規范等
  數據是資產(chǎn),數據是資產(chǎn)。如果沒(méi)有這樣的組織,那么資產(chǎn)連管理部門(mén)都沒(méi)有。您是否羞于說(shuō)數據是一種資產(chǎn)?
  這個(gè)組織最大的職責是建立一個(gè)結構和組織數據以進(jìn)行有效的溝通。未考慮之前,切不可急于各種系統。你寧愿慢一點(diǎn),否則你將需要花費數倍的精力來(lái)清理數據。
  管理數據質(zhì)量:
  1、元數據管理:元數據是用來(lái)描述數據的數據。這個(gè)非常重要。例如生產(chǎn)班次數據定義為B、C、A,分別代表白班、夜班、三班。這使 BCA 變得有意義。而一旦定義好,存C就是夜班,不能隨便改,C班和二班都不是。這個(gè)必須要由相應的業(yè)務(wù)部門(mén)來(lái)管理,大部分公司不重視這個(gè)。同樣,這非常非常重要!
  2、“一數一源,用而不存”:標準化數據是不同業(yè)務(wù)流程之間相互溝通的業(yè)務(wù)語(yǔ)言。一個(gè)數據定義完成后,其他系統調用只能從這個(gè)數據的源頭調用。這是非常非常重要的。事實(shí)上,在大多數公司,數據源表面上是單一部門(mén)管理,但存儲時(shí)轉手的部門(mén)太多,實(shí)際調用時(shí)數據的真實(shí)性和準確性根本無(wú)法保證. 比如我司產(chǎn)品二維碼編碼規則末尾兩位代表產(chǎn)品模具號(元數據概念),開(kāi)發(fā)部數據庫中存有對照表,其中45代表編號. 12 產(chǎn)品B模具 生產(chǎn)部門(mén)調用時(shí),數字45被解釋為產(chǎn)品B的12號模具,存入生產(chǎn)數據庫。這樣45可能會(huì )被誤解為12,中間dump的進(jìn)程越多,丟失和更改的數據就越多,最終會(huì )導致不同業(yè)務(wù)部門(mén)對同一個(gè)對象的描述不一致。
  3、數據類(lèi)型:主要是文本、數字、日期等類(lèi)型,根據業(yè)務(wù)類(lèi)型設置,該選什么類(lèi)型,很多公司不注重數據類(lèi)型的管理,基本都是文本類(lèi)型,比如date Stored作為文本類(lèi)型,導致數據庫中存儲了大量非日期的日期(如2021-01-35),后期數據匯總分析時(shí)經(jīng)常會(huì )報錯。
  4. ER模型:又稱(chēng)雪花模型、實(shí)體-關(guān)系模型,它提供了一種表示實(shí)體、屬性和聯(lián)系的方法,是一種描述現實(shí)世界概念結構模型的方法。實(shí)體對象之間的關(guān)系通常是一對一、一對多、多對多等,這些概念非常重要和基礎,嚴格按照這種方式設計信息系統會(huì )避免很多冗余. 而且,ER模型是數據建模和分析的基礎,是數據分析各個(gè)環(huán)節不可或缺的理論基礎。
  5、主數據編碼:公司核心實(shí)體對象必須編碼,編碼規則可由公司自行設計。只有編碼對象才能成為數字世界中真實(shí)對象的孿生對象。不難理解,一個(gè)人的身份證號碼就是一個(gè)人的實(shí)體對象代碼。在數字世界中,身份證號碼代表一個(gè)人的唯一實(shí)體,參與數字世界的商業(yè)運作,而不是人的姓名。
  很多公司努力開(kāi)發(fā)了系統,卻在業(yè)務(wù)中途崩盤(pán),這一般是由于對上述對象的管理不到位造成的。這也是我在工作中經(jīng)常遇到的事情,需要花很多時(shí)間去處理。其實(shí)都是臟活累活。如果在系統設計中考慮到以上問(wèn)題,將為后期更多進(jìn)程的不斷擴展和介入提供更多的支持。方便的。
  數據治理能力不是一個(gè)崇高的概念。企業(yè)只要數據質(zhì)量好,就可以不斷打磨出適合企業(yè)的數據標準。您可以開(kāi)發(fā)適合您的數字系統。換句話(huà)說(shuō),數據治理是一個(gè)標準的管理問(wèn)題。
  學(xué)習數據工具:
  以下內容主要是為了提高企業(yè)的業(yè)務(wù)效率。掌握它的人越多,對企業(yè)越有利
  數據采集
  
  1、設備數據采集OPC、組態(tài)軟件InTouch、組態(tài)王等(略),這些我都不會(huì ),下次找高手專(zhuān)門(mén)寫(xiě)篇文章。
  2.網(wǎng)絡(luò )爬蟲(chóng)
  互聯(lián)網(wǎng)是當今世界上最大的數據庫。如果你學(xué)習了爬蟲(chóng)技術(shù),你可以在網(wǎng)絡(luò )中采集
你需要的數據,及時(shí)將數據保存到本地,參與到你公司的業(yè)務(wù)流程中。
  常見(jiàn)的非編程爬蟲(chóng)軟件有:優(yōu)采云
collector、優(yōu)采云
collector、優(yōu)采云
collector、優(yōu)采云
collector等,基本上就是拖拽數據采集規則就形成了,非常友好,可以滿(mǎn)足80%的使用場(chǎng)景。高級用戶(hù)需要學(xué)習一些HTML標簽和XPath定位技術(shù)。接下來(lái)的升級是用編程語(yǔ)言寫(xiě)爬蟲(chóng),推薦Python。
  3、正則表達式:
  Regular Expression,縮寫(xiě)為RE,是字符串運算的邏輯公式。就是先定義一個(gè)特定字符的組合,然后使用這個(gè)組合所代表的規則來(lái)過(guò)濾字符串的邏輯。主要用于檢查文本輸入的合規性,檢查數據入庫前,使存儲的數據干凈整潔,符合要求。例如,“^\d{n}$”用于限制只能輸入n位的數字。
  數據存儲
  1.主要是關(guān)系型數據庫,Access一般個(gè)人用,免費MySQL一般中小企業(yè)用,大一點(diǎn)的企業(yè)可以用微軟的SQLserver,不缺錢(qián)的用Oracle的Oracle。每個(gè)數據庫都有自己的管理工具,可以借鑒貴公司使用的數據庫。通用的數據庫管理工具Navicat比較流行。
  2.非關(guān)系型數據庫,代表產(chǎn)品MongoDB,基于鍵值對存儲,聽(tīng)說(shuō)性能比較好,沒(méi)用過(guò)。
  3.文件存儲、FTP
  這里主要學(xué)習的是SQL語(yǔ)言,99%的語(yǔ)法是所有數據庫通用的。業(yè)務(wù)人員如果掌握了簡(jiǎn)單的SQL,后面進(jìn)行自助分析時(shí)就會(huì )游刃有余。
  數據清洗
  為了獲得可供分析系統使用的優(yōu)質(zhì)源數據,必須進(jìn)行數據清洗(ETCL,Extract-Transform-Clean-Load)。這個(gè)過(guò)程是對業(yè)務(wù)系統的數據進(jìn)行抽取、轉換、清洗,加載到數據倉庫的過(guò)程。ETCL是數據集成的第一步,也是構建數據倉庫最重要的一步。其目的是整合企業(yè)中分散、雜亂、不統一的數據,為下一步的建模和分析做準備。
  大多數 ETCL 工具都集成到分析工具中。我理解ETCL其實(shí)是一種將不規則數據轉化為規則數據的方法,而不僅僅是一個(gè)清洗工具。
  比如數據庫中的視圖函數,你可以通過(guò)各種函數把表中的數據處理成可以分析的數據形式。
  在清理過(guò)程中,如果能了解一些基本的統計數據就好了,比如均值、標準差、中位數等,這些功能都收錄
在工具中。有一次成都政府在調查我們公司員工的收入時(shí),要求他們按類(lèi)別填寫(xiě)中位數,這讓我們HR很為難。
  ETCL工具,個(gè)人使用推薦Excel的powerquery,2016版本后直接集成到Excel中,不需要單獨安裝。重要性不言而喻??梢詮母鞣N數據庫和文件中提取數據,可視化的操作流程讓數據清洗變得非常簡(jiǎn)單
  報表系統
  對于個(gè)人使用,推薦使用 Excel power pivot。2013之后的Excel直接集成了這個(gè)插件,使用DAX表達式(幾乎和Excel函數一樣)進(jìn)行簡(jiǎn)單的數據清洗,拖拽完成數據建模,最后以數據透視表的形式進(jìn)行OLAP多維分析。Excel基礎好的同學(xué),學(xué)起來(lái)毫無(wú)壓力。
  團隊使用,推薦Finereport,低代碼編程,可定制設計一整套企業(yè)解決方案。設計界面類(lèi)似Excel(功能與Excel功能基本一致)。如果你的Excel功底還不錯,SQL功底很厲害的話(huà),學(xué)這個(gè)也沒(méi)什么壓力。
  
  自助分析系統(BI)
  又稱(chēng)敏捷商業(yè)智能系統,是讓業(yè)務(wù)人員在數據中自由探索的系統。
  例如,當業(yè)務(wù)人員需要分析哪些因素與報廢率有關(guān)時(shí),傳統的方法是先根據經(jīng)驗或專(zhuān)業(yè)理論猜測可能的原因,比如溫度、濕度等,然后采集一段時(shí)間的數據,最后做個(gè)散點(diǎn)圖,求相關(guān)系數。BI 是如何做到的?可以打開(kāi)BI軟件,用SQL調取溫濕度數據,然后調取報廢率數據,做散點(diǎn)圖,自動(dòng)計算相關(guān)系數。聽(tīng)起來(lái)差不多,但是如果你好奇的話(huà),你可以把企業(yè)里面的數據都跑一遍。數據用于與廢品率相關(guān)聯(lián),例如材料的化學(xué)成分,機械性能數據,甚至員工出勤率,食堂就餐人數,拖拽看與報廢率的相關(guān)性。以此尋找可能的突破點(diǎn)。只需幾分鐘,這在傳統分析中是不可想象的??赡苡信笥崖?tīng)過(guò),我說(shuō)的是探索性分析。我認為BI是為業(yè)務(wù)人員的探索性分析而生的。
  BI常用工具
  1. Tableau,目前世界上最好的商業(yè)智能軟件,市場(chǎng)占有率最高,但去年它也頂著(zhù)漂亮的國民名片跟著(zhù)國人的脖子,讓中國高校論文發(fā)表受挫2020年,愛(ài)國者果斷放棄(主要是收費太高)
  2.powerBI,微軟出品,免費個(gè)人版,直接與Excel冪查詢(xún)集成,不斷更新各種圖表插件,是探索性分析的神器,會(huì )Excel學(xué)習成本很低
  3、永紅BI國內市場(chǎng)占有率第一,僅次于Tableau。沒(méi)用過(guò),不做評價(jià)
  4.FineBI,帆軟出品,雖然功能不如這兩個(gè)國外的,但是最懂中國人,操作起來(lái)也很方便。比如計算同比,需要在power BI中寫(xiě)公式,但在Fine BI中只需要點(diǎn)OK就可以了,而且對中文地圖的支持還是比較友好的。
  BI是未來(lái)的趨勢,相信會(huì )越來(lái)越受到管理層的重視。
  通用工具Excel
  Excel在上述工具中多次提到,Excel是學(xué)習上述工具的基礎,因為:
  1、Excel表格可以作為數據庫,每張表格都可以作為數據庫源表
  2、在Excel中獲取外部數據的選項中,點(diǎn)擊從Microsoft Query,就可以直接使用SQL來(lái)操作數據,就像一個(gè)數據庫管理工具
  3.Excel冪查詢(xún)是一款專(zhuān)業(yè)的數據清理工具
  4.Excel power pivot是一款專(zhuān)業(yè)的數據建模工具
  5.power BI 專(zhuān)業(yè)的敏捷自助分析工具
  6、VBA是Excel的加分項。如果你學(xué)會(huì )了,你可以用Excel設計一套完整的商務(wù)軟件
  學(xué)習Excel再學(xué)習其他工具,可以事半功倍。
  最后推薦一本書(shū)《華為數據之道》,這是一本從技術(shù)、流程、管理等多個(gè)維度系統解讀華為數據治理和數字化轉型的書(shū)。書(shū)中濃縮了大量寶貴的經(jīng)驗、方法論、規范、模型、解決方案和案例,不僅可以即學(xué)即用,還可以了解華為數字化建設的全過(guò)程。 查看全部

  解決方案:百分點(diǎn)蘇海波:深度遷移學(xué)習在NLP中的應用及實(shí)踐
  深度遷移學(xué)習無(wú)疑是當前NLP領(lǐng)域的主流技術(shù),在越來(lái)越多的實(shí)際應用場(chǎng)景中取得了驕人的成績(jì)。那么,如何更好地應用這項技術(shù)來(lái)解決樣本小、算力不足的問(wèn)題呢?如何在各種技術(shù)流派的碰撞中找到最優(yōu)解?
  事實(shí)上,Percent在NLP方面擁有多年的技術(shù)和業(yè)務(wù)實(shí)踐經(jīng)驗,服務(wù)過(guò)上百家企業(yè)和政府客戶(hù),成功采用深度遷移學(xué)習技術(shù)解決各行業(yè)客戶(hù)的NLP現實(shí)業(yè)務(wù)問(wèn)題。
  11月21日,AICon全球人工智能與機器學(xué)習大會(huì )首日在北京國際會(huì )議中心開(kāi)幕,百分比首席算法科學(xué)家蘇海波受邀參會(huì ),與大家分享AI最佳實(shí)踐國內外名人,深入剖析模型。技術(shù)原理、谷歌TPU使用經(jīng)驗、模型調參和數據增強等優(yōu)化技巧,同時(shí)分享深度遷移學(xué)習模型在智能問(wèn)答、增強分析、情感等各類(lèi)NLP任務(wù)中的應用實(shí)踐和價(jià)值分析。
  以下為演講實(shí)錄:
  突破深度學(xué)習困境
  大家都知道Algphago在圍棋上打敗了人類(lèi),但它還是有明顯的缺陷,不能像人類(lèi)一樣舉一反三。它針對的是 19*19 的板子。如果換成21*21的棋盤(pán),Alphago馬上就失敗了,不過(guò)人類(lèi)可以舉一反三。
  以騎自行車(chē)為例。如果你學(xué)騎自行車(chē),你會(huì )在學(xué)摩托車(chē)時(shí)借鑒騎自行車(chē)的經(jīng)驗,大大加快摩托車(chē)的學(xué)習速度。這種遷移學(xué)習的能力對人類(lèi)學(xué)習新事物起著(zhù)非常重要的作用。關(guān)鍵作用。
  AI界大神吳恩達曾說(shuō)過(guò):遷移學(xué)習將是繼監督學(xué)習之后未來(lái)五年內最有可能實(shí)現商業(yè)化的AI技術(shù)。那么,什么是遷移學(xué)習?遷移學(xué)習是指利用數據、任務(wù)或模型之間的相似性,將在舊領(lǐng)域學(xué)習的模型應用到新領(lǐng)域的學(xué)習過(guò)程。
  之所以需要遷移學(xué)習是為了解決以下四個(gè)問(wèn)題:
  1、深度學(xué)習與標注少的矛盾:目前深度學(xué)習只能在標注數據充足的場(chǎng)景下發(fā)揮威力。但是在很多實(shí)際問(wèn)題中,我們沒(méi)有足夠的標注數據,這時(shí)候就需要遷移學(xué)習;
  2、算力強與資源弱的矛盾:某些海量數據模型訓練任務(wù)需要非常大的算力,只有大公司才能負擔得起,而普通人的機器資源非常有限。使他們也能夠利用數據和模型;
  3、通用模型與個(gè)體需求的矛盾:通用模型可以解決大部分公共問(wèn)題,但具體的個(gè)體需求有其獨特性,通用模型根本無(wú)法滿(mǎn)足。因此,有必要對這種通用模型進(jìn)行改造和適配,以更好地服務(wù)于各種個(gè)性化需求;
  4. 對特定應用的要求:現實(shí)世界中的一些特定應用,比如個(gè)性化推薦,存在用戶(hù)數據冷啟動(dòng)的問(wèn)題,因此可以通過(guò)遷移學(xué)習來(lái)遷移相似領(lǐng)域的知識。
  遷移學(xué)習方法可以分為四類(lèi),包括基于樣本的遷移學(xué)習方法、基于特征的遷移學(xué)習方法、基于模型的遷移學(xué)習方法和基于關(guān)系的遷移學(xué)習方法。
  今天給大家分享的是基于模型的遷移方法,就是構建一個(gè)源域和目標域參數共享的模型,比如圖中的Chihuahua判別模型和shepherd判別模型,在模型中有沒(méi)有腳有沒(méi)有眼睛的部分可以分享。
  基于模型的遷移學(xué)習方法:從圖像到 NLP
  基于模型的遷移方法特別適用于深度神經(jīng)網(wǎng)絡(luò ),因為神經(jīng)網(wǎng)絡(luò )的結構可以直接遷移,我們稱(chēng)之為深度遷移學(xué)習。早期,這種方法被應用于計算機視覺(jué)中的圖像識別。源域中學(xué)習到的低級特征具有普適性,包括邊緣特征、形狀特征等,從而可以在源域中預訓練整個(gè)模型,并將低級通用特征遷移到目標域可以顯著(zhù)提高相應模型的學(xué)習效果。
  2018年,隨著(zhù)Google BERT的出現,這種預訓練模型方法開(kāi)始應用于NLP領(lǐng)域,對NLP領(lǐng)域產(chǎn)生了革命性的影響。如果學(xué)習詞向量就像學(xué)習計算機視覺(jué)中的圖像邊緣,那么 NLP 中的預訓練模型就像學(xué)習圖像特征的完整層次結構,從邊緣到形狀再到高級語(yǔ)義概念。
  上圖展示了深度遷移學(xué)習在NLP中的技術(shù)思路。首先,通過(guò)源域中已有的海量語(yǔ)料庫,以無(wú)監督的方式訓練一個(gè)語(yǔ)言模型,即預訓練模型。然后在具體目標任務(wù)中,遷移預訓練模型,在其上連接一層全連接網(wǎng)絡(luò )或深度網(wǎng)絡(luò )(如CNN、LSTM、DenseNet、HighWayLSTM等),結合標注樣本訓練當前任務(wù)的模型 這種方法與深度學(xué)習模型相比,所需的樣本數量可以大大減少。
  百分比最佳實(shí)踐:底層效率提升+三大場(chǎng)景應用
  Percent在各種NLP任務(wù)中廣泛使用BERT技術(shù),并不斷優(yōu)化改進(jìn),包括使用谷歌TPU解決算力瓶頸,使用BERT與上層神經(jīng)網(wǎng)絡(luò )聯(lián)合調參,使用各種擴展模型等BERT在效果提升和數據增強方面進(jìn)行探索和實(shí)踐。
  Percent Cognitive Intelligence 業(yè)務(wù)技術(shù)框架圖
  Percent Cognitive Intelligence業(yè)務(wù)的技術(shù)框架。除了CPU和GPU,底層硬件資源也會(huì )租用谷歌的TPU。機器學(xué)習平臺從傳統的機器學(xué)習和深度學(xué)習逐漸轉向目前主流的深度遷移學(xué)習;核心認知 智能技術(shù)層包括自然語(yǔ)言處理、知識圖譜和智能交互。智能交互分為問(wèn)答式問(wèn)答、任務(wù)式問(wèn)答、閱讀理解和NL2SQL;行業(yè)內典型的認知智能應用包括公安法智能檢察問(wèn)答系統、快速零售智能業(yè)務(wù)態(tài)勢分析系統、公安智能翻譯系統、
  接下來(lái)圍繞架構圖中紅色標注的技術(shù)點(diǎn)和應用進(jìn)行展開(kāi)。
  首先是谷歌TPU的做法
  在預訓練語(yǔ)言模型的時(shí)候,我們會(huì )采集
大量的語(yǔ)料(包括維基百科、百度百科、微博、微信等,大約幾十G),訓練一個(gè)通用的預訓練模型,但是base版本的BERT 模型有 1.5 億個(gè)參數,而大版本超過(guò) 3 億,微調和重新預訓練所需的計算能力太高。
  另外,我們在基于預訓練模型進(jìn)行實(shí)際的NLP開(kāi)發(fā)時(shí),會(huì )同時(shí)有多個(gè)任務(wù)。如果我們串行執行,則需要等待很多時(shí)間;如果并行的話(huà),會(huì )消耗太多的算力,硬件成本負擔不起。. 因此,如何探索出一種高效、低成本的研發(fā)模式,將是NLP算法研究人員和工程師共同面臨的問(wèn)題。結合我們的實(shí)踐經(jīng)驗,使用谷歌的TPU資源是解決方案之一。TPU的運算速度是GPU的80多倍。
  下面以租用一個(gè)TPU V2 八核為例,系統的講解一下如何創(chuàng )建虛擬機實(shí)例和TPU實(shí)例。首先進(jìn)入谷歌云的首頁(yè):
  然后需要創(chuàng )建一個(gè)VM實(shí)例,在options中配置顯存、內存量、系統鏡像等。
  
  接下來(lái),創(chuàng )建一個(gè) TPU。有幾個(gè)選項值得注意。在TPUtype項中,會(huì )有v2-8、v3-8、v3-32等選項的說(shuō)明,其中v2或v3是tpu的型號,-8或-32是核心數,最小核心數為8個(gè)核心。
  我們使用TPU V2-8進(jìn)行計算,并在計算時(shí)間和成本上與主流GPU進(jìn)行對比,使用TPU和GPU對BERT模型進(jìn)行500K步的訓練。如圖所示,使用GPU訓練大約需要7天,而使用TPU訓練完成只需要1.2天。同時(shí),總成本也大大降低??梢钥闯?,TPU在BERT預訓練模型的計算時(shí)間和總成本上已經(jīng)完全超越了目前主流的GPU。
  然后我們使用 TPU 作為硬件加速方式,在 BERT 模型上進(jìn)行十輪小時(shí)。這項技術(shù)極大地提高了NLP領(lǐng)域的fine-tune。通過(guò)與目前主流GPU Tesla V100*8對比發(fā)現,TPU完成fine-tune只需要10分鐘左右,而GPU完成同樣的fine-tune需要不止一個(gè)神經(jīng)網(wǎng)絡(luò )計算效率,并且從總成本來(lái)看,使用TPU的成本僅為GPU的3.5%左右。
  因此,TPU超高的效率和低廉的價(jià)格讓神經(jīng)網(wǎng)絡(luò )計算更加“親民”。TPU可以從根本上解決對算力要求高但資金不足的中小企業(yè)的顧慮。過(guò)去幾天需要幾十個(gè) GPU。BERT的預訓練現在一個(gè)TPU一天就可以輕松搞定,讓所有的中小企業(yè)都擁有了之前所缺乏的強大算力。盡管 TPU 在很多方面都打敗了 GPU,但我們認為 TPU 仍有很大的改進(jìn)空間:
  1、TPU的代碼示例和文檔很少,使用門(mén)檻很高;
  2. TPU是圍繞Tensorflow框架設計的硬件。使用其他人工智能框架的項目很難高效低成本地使用TPU進(jìn)行計算;
  3、TPU在checkpoint讀寫(xiě)上效率低下,導致在計算小模型時(shí)效率上沒(méi)有明顯優(yōu)勢。
  情感分類(lèi)實(shí)踐
  情感分類(lèi)是Percent智能消費者洞察分析系統的核心功能?;陔娚?、微信、微博、論壇等數據,系統進(jìn)行各種文本語(yǔ)義分析(包括情感分析、熱點(diǎn)分析等),最終支持口碑分析、趨勢分析、用戶(hù)體驗分析和其他申請決定。目前,該產(chǎn)品已服務(wù)于眾多快消行業(yè)的標桿客戶(hù)。
  需要注意的是,情感分類(lèi)分為短文本和長(cháng)文本,因為BERT模型對輸入文本有長(cháng)度限制,不能超過(guò)512個(gè)詞。
  對于短文本情感分類(lèi),在BERT預訓練模型出現之前,我們使用的是卷積神經(jīng)網(wǎng)絡(luò )(CNN)模型,先應用于圖像,后應用于文本情感分析。CNN主要由輸入層、卷積層、池化層和全連接層組成。卷積的計算方式是對相鄰區域的元素進(jìn)行加權求和,與位置無(wú)關(guān)。實(shí)現了權重參數的共享,池化層實(shí)現了空間采樣,這些方法大大減少了神經(jīng)網(wǎng)絡(luò )的參數,避免了模型過(guò)擬合。
  對于短文本的情感分類(lèi)任務(wù),BERT模型在文本前面插入了一個(gè)[CLS]符號,將該符號對應的輸出向量作為該文本的語(yǔ)義表示進(jìn)行情感分類(lèi),因為它不同于其他文字中已有的詞。相比之下,這種沒(méi)有語(yǔ)義信息的符號會(huì )更“公平”地融合文本中每個(gè)詞的語(yǔ)義信息。
  以上分別是BERT和CNN的實(shí)驗結果??梢钥闯?,隨著(zhù)訓練數據的增加,兩種模型的情感分類(lèi)準確率都在不斷提高。不過(guò),兩者的反差也很明顯。當BERT模型只有1000個(gè)訓練集時(shí),預測準確率達到90%。當CNN模型有10萬(wàn)個(gè)訓練集樣本時(shí),預測準確率僅為88.2%。這表明深度遷移學(xué)習模型所需的標記樣本數量遠小于以往的深度學(xué)習模型,能夠取得更好的效果。
  由于BERT模型的輸入文本有512個(gè)字符的限制,短文本分類(lèi)比較簡(jiǎn)單,直接輸入BERT模型即可。但是對于長(cháng)文本,如何使用BERT模型呢?如果直接截取前面的512個(gè)字符,會(huì )有信息丟失。我們的解決方案是對長(cháng)文本進(jìn)行平均截斷,比如按照平均6段截斷,分成幾段短文本,然后輸入對應的BERT模型或者各種變體,比如RoBERT、Xlnet等,然后將輸出的增強語(yǔ)義向量進(jìn)行拼接,然后連接到GRU模型。
  我們對標記數據集執行 5 折分割,并交叉驗證平均截斷策略的效果。上圖實(shí)驗結果表明,RoBERTa+平均截斷訓練生成的模型F1值高于RoBERTa版本模型,說(shuō)明在長(cháng)文本情感分類(lèi)中,平均截斷策略可以有效提升效果預訓練模型。
  此外,我們還采用了post train的方式來(lái)提升模型的效果。實(shí)驗結果表明,在每條數據上,RoBERTa+ Post train 組合的 F1 和 Acc 均高于 RoBERTa 版本的模型。因此,在長(cháng)文本情感分類(lèi)中,Post train策略可以有效提升預訓練模型的效果。
  智能問(wèn)答實(shí)踐
  下面是百分位數預訓練模型在智能問(wèn)答中的實(shí)踐。
  我們開(kāi)發(fā)了智能檢察問(wèn)答系統,解決了老百姓的普法難題。為廣大群眾日常生活中遇到的法律問(wèn)題提供智能解答,改善民生體驗。該系統榮獲“2019年度全國政法智能建設優(yōu)秀創(chuàng )新產(chǎn)品”獎。系統的核心是問(wèn)題的等價(jià)語(yǔ)義識別,因為同一個(gè)問(wèn)題可以有多種表達方式,例如“18歲以下?lián)尳偈欠穹缸铩?、?8歲以下?lián)尳偈欠穹缸铩?18”表示相同的意思。
  那么如何找到語(yǔ)義等價(jià)問(wèn)題呢?傳統的相似度搜索算法(包括余弦相似度、編輯距離、關(guān)鍵詞巧合、BM25)可以發(fā)揮作用,但仍然不夠,比如“什么是公益訴訟?” 和“什么是行政訴訟?” 編輯距離為2,不等價(jià)于“什么是公益訴訟?”的編輯距離 和“解釋公益訴訟的定義?” 為7,但它們是等價(jià)的,所以需要增加等價(jià)模塊的判斷。
  等價(jià)判斷中存在兩個(gè)典型問(wèn)題:字面相似的句子語(yǔ)義不等價(jià),字面不同的句子語(yǔ)義等價(jià)。我們只是舉了兩個(gè)例子。為了在這兩個(gè)問(wèn)題上取得好的效果,我們的經(jīng)驗是一方面優(yōu)化模型,將深度學(xué)習改為深度遷移學(xué)習模型,通過(guò)人工標注+數據增強的方式增加訓練。數據。
  在具體模型方面,我們基于BERT和BIMPM開(kāi)發(fā)了一種新的語(yǔ)義等價(jià)模型。在BIMPM模型的基礎上,我們進(jìn)行了兩方面的改造。一方面,我們去掉了原來(lái)BIMPM模型中連接詞向量層的Bi-LSTM模型。原因是LSTM沒(méi)有設計機制保證梯度反向傳導到深度模型。. 另一方面,將 BIMPM 頂部的 Bi-LSTM 模型替換為 Transformer 模型。主要原因是Bi-LSTM可以捕捉到數據中的序列特征。但是由于BIMPM采用了多重匹配,序列性不強,所以Transformer更適合這個(gè)模型。
  Percent 提出的問(wèn)句級匹配模型在公開(kāi)的 Quora 數據集中達到了當前最先進(jìn)的水平。該數據集包括超過(guò)400,000個(gè)問(wèn)題組,專(zhuān)門(mén)用于研究?jì)蓚€(gè)句子在語(yǔ)義上是否等價(jià)的二元問(wèn)題。. 由于該數據集的標注質(zhì)量很高,常被用來(lái)測試語(yǔ)義理解的模型效果。我們按照7:2:1的比例分配訓練集、驗證集和測試集。在測試集上的具體實(shí)驗結果如下:
  作為對比,我們第一個(gè)結果是BERT單模型的結果,第二個(gè)和第三個(gè)分別是BERT和ABCNN、BERT和BIMPM的結果。在特征提取的深度方面,我們選擇了BERT預訓練模型的表面層一、表面二層和表面三層。
  如上表結果所示,BERT和BIMPM的結合已經(jīng)超越了BERT單一模型。在我們的新模型中增加 BERT 的特征層數可以提高幾個(gè)點(diǎn)的性能。隨著(zhù)層數的增加,可以獲得更高的F1值和準確率。當層數為3時(shí),準確率為90.52%,F1值為89.68%,達到state-of-the-art效果。
  為了保證實(shí)驗結論的有效性,除了Quora數據集外,我們還使用了SLNI數據集中收錄
句子對等的子數據集,該子數據集收錄
550,000個(gè)訓練集和10,000個(gè)測試集。許多論文使用這些數據來(lái)測試他們的模型包的效果。與這些模型相比,我們的準確率提高了近兩個(gè)點(diǎn),達到了當前最先進(jìn)的水平。具體實(shí)驗結果如上圖所示。.
  我們比較了基于 BERT 的新模型和傳統 CNN 模型在問(wèn)題等價(jià)性上的識別效果。隨著(zhù)訓練數據集的增加,兩者的效果都在逐漸提升。BERT模型在訓練集為5000時(shí),可以識別出CNN模型的準確率達到77%,而CNN模型在訓練集為50000時(shí),識別準確率約為75.5%。好結果。
  
  除了模型的改進(jìn),我們結合數據增強技術(shù),進(jìn)一步提高問(wèn)題語(yǔ)義對等的識別效果。什么是數據增強?
  數據擴充可以簡(jiǎn)單理解為從少量數據生成大量數據的過(guò)程。一般來(lái)說(shuō),一個(gè)比較成功的神經(jīng)網(wǎng)絡(luò )都有大量的參數。要使這些參數正確工作,需要大量數據進(jìn)行訓練,但在實(shí)際情況下,并沒(méi)有那么多數據,因此需要進(jìn)行數據增強,可以提高模型的泛化能力和魯棒性。性別。圖像識別中的數據增強方法包括翻轉、旋轉、縮放等。文本中的數據增強包括切分句子、增刪詞、構造新句子,或者用同義詞替換句子,或者根據模板替換句子等等。
  優(yōu)化相當于問(wèn)句的模型后,可以通過(guò)加入標注數據來(lái)提升效果。那么,需要添加什么樣的標簽數據才能達到好的效果呢?
  我們把整個(gè)大問(wèn)題分解成幾個(gè)子問(wèn)題,表中列出了一些主要的子問(wèn)題。在規律不改變意義的前提下是等價(jià)的;對于庫里的問(wèn)題,有很多詞與問(wèn)的問(wèn)題重疊,但語(yǔ)義并不等同。
  第一種數據增強方法是無(wú)意義詞和關(guān)鍵詞的添加和修改,包括添加無(wú)意義詞進(jìn)行等價(jià),將關(guān)鍵詞替換為同義詞,將關(guān)鍵詞替換為非同義詞后不等價(jià)。
  第二種數據增強方法是改變問(wèn)法后的語(yǔ)義對等,通過(guò)構造一個(gè)等值的問(wèn)句模板,比如名詞短語(yǔ)+有效的各種說(shuō)法,動(dòng)詞短語(yǔ)+各種非法的說(shuō)法等,將相同或等價(jià)的句子元素組合起來(lái)使用不同的模板,例如“請問(wèn),殺死兒童是否構成犯罪?” 和“請問(wèn),殺孩子犯法嗎?” 這兩個(gè)問(wèn)題是模板和同義詞增強生成的等價(jià)問(wèn)題。
  第三種數據增強,加修飾語(yǔ)后語(yǔ)義不等,刪掉修飾語(yǔ)后的句子依然流暢。這里我們使用依存語(yǔ)法的技術(shù)來(lái)分析句子中所有單詞的主從關(guān)系。
  通過(guò)依存句法分析,分析句子的核心關(guān)系、主謂關(guān)系、謂賓關(guān)系、陳述關(guān)系、決定關(guān)系等?!癱ourt”與“made”的關(guān)系是主謂關(guān)系,“made”與“judgment”的關(guān)系是謂賓關(guān)系,“those”與“situation”的關(guān)系是決心。
  根據依存句法的分析結果,我們可以刪除句子中的修飾語(yǔ),以保證刪除后的句子依然順暢,如刪除“those”或“those situations”。
  此外,在很多重疊詞的情況下,我們替換依賴(lài)句法樹(shù)的子樹(shù)。替換后語(yǔ)義不等價(jià),但依然流暢。如何處理請求”。
  通過(guò)這些方法,我們生成了大量的增廣樣本并重新訓練模型,效果得到了顯著(zhù)提升。例如,在用非同義詞替換庫里問(wèn)題關(guān)鍵詞的情況下,準確率從65%提高到91%;在 Curry question 添加不等語(yǔ)義修飾語(yǔ)的情況下,準確率從 63% 提高到 91% 。
  增強分析實(shí)踐
  接下來(lái)介紹深度遷移學(xué)習在增強分析中的實(shí)踐。
  首先,什么是增強分析?增強分析是指基于機器學(xué)習的數據分析和BI功能,包括智能數據發(fā)現、增強數據準備、增強數據分析等模塊。目前,增強分析在BI中得到了廣泛的應用。Gartner認為,到2020年,增強分析將成為新用戶(hù)購買(mǎi)BI產(chǎn)品和數據分析平臺的主要驅動(dòng)力。Percent開(kāi)發(fā)了一套增強型分析產(chǎn)品——智能業(yè)務(wù)分析系統,簡(jiǎn)稱(chēng)Clever BI。
  智能問(wèn)答功能是Clever BI中一個(gè)非常重要的子任務(wù)。其目的是讓用戶(hù)通過(guò)一句自然語(yǔ)言自動(dòng)生成相應的圖表。比如你問(wèn)“我知道這些省份的投訴比較多,是哪個(gè)渠道影響了客戶(hù)體驗?” 系統會(huì )自動(dòng)顯示相應的圖表結果。在學(xué)術(shù)界,這個(gè)任務(wù)被稱(chēng)為NL2SQL,并且已經(jīng)有很多關(guān)于它的研究。
  Clever BI的系統架構包括數據管理層、算法支撐層、功能模塊層和API層。核心功能是智能推薦、智能問(wèn)答和智能挖掘。接下來(lái)重點(diǎn)介紹智能問(wèn)答,這是NL2SQL的實(shí)現原理。
  首先對輸入的問(wèn)句進(jìn)行分詞和依存句法分析,然后需要填充語(yǔ)義槽,通過(guò)模型分析查詢(xún)字段、聚合函數、過(guò)濾條件、分組字段,最后得到對應的生成 SQL 語(yǔ)句。
  將自然語(yǔ)言轉換成 SQL 本身可以看作是一個(gè) Seq2seq 任務(wù)。目前主流的方法是預先寫(xiě)好SQL的模板槽,然后用多個(gè)模型一個(gè)一個(gè)預測槽。X-SQL模型是其中的代表方法之一。,其過(guò)程是通過(guò)MT-DNN對原創(chuàng )
問(wèn)題和字段名稱(chēng)進(jìn)行編碼。MT-DNN是微軟推出的針對多任務(wù)聯(lián)合學(xué)習的BERT優(yōu)化方案。輸出層包括6個(gè)子模型:S-COL和S-AGG。預測select字段,W-NUM用于預測where條件的個(gè)數,W-COL、W-OP、W-VAL用于預測過(guò)濾條件的具體內容。這個(gè)架構已經(jīng)很完善了,但是由于數據限制,模型無(wú)法預測多選多組的內容。
  百分點(diǎn)提出了一種結合X-SQL和依賴(lài)語(yǔ)法樹(shù)的方法來(lái)解決這個(gè)問(wèn)題。X-SQL從深層語(yǔ)義的角度抽取元素,而句法分析則從問(wèn)題的語(yǔ)法結構抽取。舉一個(gè)實(shí)際的例子,分析“每個(gè)區域的新訂單總數”,第一步是分詞,第二步是依存句法分析,可以得到一棵樹(shù),包括詞性、實(shí)體類(lèi)別、結果標簽和依賴(lài)關(guān)系。第三步,通過(guò)詞庫和后序遍歷分析依賴(lài)樹(shù),分析查詢(xún)字段、聚合函數和分組字段。例如“新訂單數量”通過(guò)X-SQL被識別為查詢(xún)詞,“地區” 通過(guò)依賴(lài)關(guān)系識別出來(lái)是一個(gè)分組字段,最后生成對應的SQL語(yǔ)句。另外,在具體使用過(guò)程中,經(jīng)常會(huì )出現比較復雜的時(shí)間題。比如“上個(gè)月”、“將近7天”等等,這些問(wèn)題比較固定,但是解析的時(shí)候需要很多知識。我們使用模板來(lái)處理它們。模板由普通字符和正則語(yǔ)法組成。
  實(shí)際測試中,由于中文NL2SQL領(lǐng)域沒(méi)有統一的數據集,通過(guò)采集
用戶(hù)在Clever BI產(chǎn)品中的實(shí)際使用數據,選取了250條中文測試數據(題目可能包括分組、過(guò)濾條件、復雜時(shí)間等)表達式、查詢(xún)內容和排序等),并在此基礎上進(jìn)行測試,得到的結果如上圖所示。與X-SQL模型相比,改進(jìn)的百分點(diǎn)算法有明顯的效果提升。在實(shí)際測試中,準確率達到了90.45%,并且在實(shí)際使用中,已經(jīng)達到了商用效果。
  綜上所述,在過(guò)去的一年里,隨著(zhù)谷歌BERT模型的出現,給自然語(yǔ)言處理帶來(lái)了長(cháng)足的進(jìn)步。深度遷移學(xué)習已經(jīng)成為未來(lái)NLP的主流技術(shù)。在現有研發(fā)成果的基礎上,TPU、數據增強、BERT模型改進(jìn)、上層網(wǎng)絡(luò )設計等技術(shù)將進(jìn)一步提升深度遷移學(xué)習方法的效率和有效性。
  與深度學(xué)習給計算機視覺(jué)帶來(lái)的技術(shù)突破類(lèi)似,在NLP模型的效果突破之后,零售快消、公共安全、媒體出版等各行業(yè)也將出現越來(lái)越多的認知智能應用。未來(lái)是認知智能發(fā)展的黃金十年。我希望更多的人加入這個(gè)令人興奮的行業(yè)。
  相關(guān)文章
  1個(gè)
  2個(gè)
  3個(gè)
  4個(gè)
  解決方案:篇五:數字化轉型行動(dòng)指南
  優(yōu)化您的組織:
  1、建立業(yè)務(wù)與技術(shù)一體化的組織,就是在業(yè)務(wù)中建設技術(shù)能力,為業(yè)務(wù)部門(mén)配備技術(shù)人員,使其成為具體業(yè)務(wù)部門(mén)的一部分,形成長(cháng)期固定的組織形式。
  絕大多數公司采用職能部門(mén)制組織,看似分工明確,流程順暢,但效率低,速度慢,時(shí)間成本、人力成本、溝通成本特別高,而簡(jiǎn)單的問(wèn)題復雜化,表現為慢、費、難的問(wèn)題
  有些公司采用的是項目制組織,這自然是一種臨時(shí)組織,只對項目目標負責,不對長(cháng)期結果負責。在這個(gè)過(guò)程中,不可能將項目中獲得的數字化經(jīng)驗積累成公司的能力。一旦項目組解散,任何組織都無(wú)法承擔企業(yè)數字化轉型的長(cháng)期任務(wù)。解決慢、貴、難的問(wèn)題,但工藝能力無(wú)法固化,容易流失
  許多公司沒(méi)有意識到人才在哪里,能力就在哪里。職能部門(mén)組織和項目型組織之所以不能在數字化轉型中發(fā)揮作用,是因為他們忽略了這一點(diǎn):能力是人與生俱來(lái)的。業(yè)務(wù)技術(shù)集成的組織方式是目前華為經(jīng)過(guò)10多年探索形成的最好的組織方式。在這種組織模式中,能力不是封閉固化的,而是不斷增長(cháng)的
  2、成立公司級數據管理部門(mén),由各領(lǐng)域專(zhuān)家組成,發(fā)布企業(yè)數據管理總體綱要,編制數據質(zhì)量管理政策和數據源頭管理政策,定期審核數據結構,確定數據歸屬,確定數據互操作性規范等
  數據是資產(chǎn),數據是資產(chǎn)。如果沒(méi)有這樣的組織,那么資產(chǎn)連管理部門(mén)都沒(méi)有。您是否羞于說(shuō)數據是一種資產(chǎn)?
  這個(gè)組織最大的職責是建立一個(gè)結構和組織數據以進(jìn)行有效的溝通。未考慮之前,切不可急于各種系統。你寧愿慢一點(diǎn),否則你將需要花費數倍的精力來(lái)清理數據。
  管理數據質(zhì)量:
  1、元數據管理:元數據是用來(lái)描述數據的數據。這個(gè)非常重要。例如生產(chǎn)班次數據定義為B、C、A,分別代表白班、夜班、三班。這使 BCA 變得有意義。而一旦定義好,存C就是夜班,不能隨便改,C班和二班都不是。這個(gè)必須要由相應的業(yè)務(wù)部門(mén)來(lái)管理,大部分公司不重視這個(gè)。同樣,這非常非常重要!
  2、“一數一源,用而不存”:標準化數據是不同業(yè)務(wù)流程之間相互溝通的業(yè)務(wù)語(yǔ)言。一個(gè)數據定義完成后,其他系統調用只能從這個(gè)數據的源頭調用。這是非常非常重要的。事實(shí)上,在大多數公司,數據源表面上是單一部門(mén)管理,但存儲時(shí)轉手的部門(mén)太多,實(shí)際調用時(shí)數據的真實(shí)性和準確性根本無(wú)法保證. 比如我司產(chǎn)品二維碼編碼規則末尾兩位代表產(chǎn)品模具號(元數據概念),開(kāi)發(fā)部數據庫中存有對照表,其中45代表編號. 12 產(chǎn)品B模具 生產(chǎn)部門(mén)調用時(shí),數字45被解釋為產(chǎn)品B的12號模具,存入生產(chǎn)數據庫。這樣45可能會(huì )被誤解為12,中間dump的進(jìn)程越多,丟失和更改的數據就越多,最終會(huì )導致不同業(yè)務(wù)部門(mén)對同一個(gè)對象的描述不一致。
  3、數據類(lèi)型:主要是文本、數字、日期等類(lèi)型,根據業(yè)務(wù)類(lèi)型設置,該選什么類(lèi)型,很多公司不注重數據類(lèi)型的管理,基本都是文本類(lèi)型,比如date Stored作為文本類(lèi)型,導致數據庫中存儲了大量非日期的日期(如2021-01-35),后期數據匯總分析時(shí)經(jīng)常會(huì )報錯。
  4. ER模型:又稱(chēng)雪花模型、實(shí)體-關(guān)系模型,它提供了一種表示實(shí)體、屬性和聯(lián)系的方法,是一種描述現實(shí)世界概念結構模型的方法。實(shí)體對象之間的關(guān)系通常是一對一、一對多、多對多等,這些概念非常重要和基礎,嚴格按照這種方式設計信息系統會(huì )避免很多冗余. 而且,ER模型是數據建模和分析的基礎,是數據分析各個(gè)環(huán)節不可或缺的理論基礎。
  5、主數據編碼:公司核心實(shí)體對象必須編碼,編碼規則可由公司自行設計。只有編碼對象才能成為數字世界中真實(shí)對象的孿生對象。不難理解,一個(gè)人的身份證號碼就是一個(gè)人的實(shí)體對象代碼。在數字世界中,身份證號碼代表一個(gè)人的唯一實(shí)體,參與數字世界的商業(yè)運作,而不是人的姓名。
  很多公司努力開(kāi)發(fā)了系統,卻在業(yè)務(wù)中途崩盤(pán),這一般是由于對上述對象的管理不到位造成的。這也是我在工作中經(jīng)常遇到的事情,需要花很多時(shí)間去處理。其實(shí)都是臟活累活。如果在系統設計中考慮到以上問(wèn)題,將為后期更多進(jìn)程的不斷擴展和介入提供更多的支持。方便的。
  數據治理能力不是一個(gè)崇高的概念。企業(yè)只要數據質(zhì)量好,就可以不斷打磨出適合企業(yè)的數據標準。您可以開(kāi)發(fā)適合您的數字系統。換句話(huà)說(shuō),數據治理是一個(gè)標準的管理問(wèn)題。
  學(xué)習數據工具:
  以下內容主要是為了提高企業(yè)的業(yè)務(wù)效率。掌握它的人越多,對企業(yè)越有利
  數據采集
  
  1、設備數據采集OPC、組態(tài)軟件InTouch、組態(tài)王等(略),這些我都不會(huì ),下次找高手專(zhuān)門(mén)寫(xiě)篇文章。
  2.網(wǎng)絡(luò )爬蟲(chóng)
  互聯(lián)網(wǎng)是當今世界上最大的數據庫。如果你學(xué)習了爬蟲(chóng)技術(shù),你可以在網(wǎng)絡(luò )中采集
你需要的數據,及時(shí)將數據保存到本地,參與到你公司的業(yè)務(wù)流程中。
  常見(jiàn)的非編程爬蟲(chóng)軟件有:優(yōu)采云
collector、優(yōu)采云
collector、優(yōu)采云
collector、優(yōu)采云
collector等,基本上就是拖拽數據采集規則就形成了,非常友好,可以滿(mǎn)足80%的使用場(chǎng)景。高級用戶(hù)需要學(xué)習一些HTML標簽和XPath定位技術(shù)。接下來(lái)的升級是用編程語(yǔ)言寫(xiě)爬蟲(chóng),推薦Python。
  3、正則表達式:
  Regular Expression,縮寫(xiě)為RE,是字符串運算的邏輯公式。就是先定義一個(gè)特定字符的組合,然后使用這個(gè)組合所代表的規則來(lái)過(guò)濾字符串的邏輯。主要用于檢查文本輸入的合規性,檢查數據入庫前,使存儲的數據干凈整潔,符合要求。例如,“^\d{n}$”用于限制只能輸入n位的數字。
  數據存儲
  1.主要是關(guān)系型數據庫,Access一般個(gè)人用,免費MySQL一般中小企業(yè)用,大一點(diǎn)的企業(yè)可以用微軟的SQLserver,不缺錢(qián)的用Oracle的Oracle。每個(gè)數據庫都有自己的管理工具,可以借鑒貴公司使用的數據庫。通用的數據庫管理工具Navicat比較流行。
  2.非關(guān)系型數據庫,代表產(chǎn)品MongoDB,基于鍵值對存儲,聽(tīng)說(shuō)性能比較好,沒(méi)用過(guò)。
  3.文件存儲、FTP
  這里主要學(xué)習的是SQL語(yǔ)言,99%的語(yǔ)法是所有數據庫通用的。業(yè)務(wù)人員如果掌握了簡(jiǎn)單的SQL,后面進(jìn)行自助分析時(shí)就會(huì )游刃有余。
  數據清洗
  為了獲得可供分析系統使用的優(yōu)質(zhì)源數據,必須進(jìn)行數據清洗(ETCL,Extract-Transform-Clean-Load)。這個(gè)過(guò)程是對業(yè)務(wù)系統的數據進(jìn)行抽取、轉換、清洗,加載到數據倉庫的過(guò)程。ETCL是數據集成的第一步,也是構建數據倉庫最重要的一步。其目的是整合企業(yè)中分散、雜亂、不統一的數據,為下一步的建模和分析做準備。
  大多數 ETCL 工具都集成到分析工具中。我理解ETCL其實(shí)是一種將不規則數據轉化為規則數據的方法,而不僅僅是一個(gè)清洗工具。
  比如數據庫中的視圖函數,你可以通過(guò)各種函數把表中的數據處理成可以分析的數據形式。
  在清理過(guò)程中,如果能了解一些基本的統計數據就好了,比如均值、標準差、中位數等,這些功能都收錄
在工具中。有一次成都政府在調查我們公司員工的收入時(shí),要求他們按類(lèi)別填寫(xiě)中位數,這讓我們HR很為難。
  ETCL工具,個(gè)人使用推薦Excel的powerquery,2016版本后直接集成到Excel中,不需要單獨安裝。重要性不言而喻??梢詮母鞣N數據庫和文件中提取數據,可視化的操作流程讓數據清洗變得非常簡(jiǎn)單
  報表系統
  對于個(gè)人使用,推薦使用 Excel power pivot。2013之后的Excel直接集成了這個(gè)插件,使用DAX表達式(幾乎和Excel函數一樣)進(jìn)行簡(jiǎn)單的數據清洗,拖拽完成數據建模,最后以數據透視表的形式進(jìn)行OLAP多維分析。Excel基礎好的同學(xué),學(xué)起來(lái)毫無(wú)壓力。
  團隊使用,推薦Finereport,低代碼編程,可定制設計一整套企業(yè)解決方案。設計界面類(lèi)似Excel(功能與Excel功能基本一致)。如果你的Excel功底還不錯,SQL功底很厲害的話(huà),學(xué)這個(gè)也沒(méi)什么壓力。
  
  自助分析系統(BI)
  又稱(chēng)敏捷商業(yè)智能系統,是讓業(yè)務(wù)人員在數據中自由探索的系統。
  例如,當業(yè)務(wù)人員需要分析哪些因素與報廢率有關(guān)時(shí),傳統的方法是先根據經(jīng)驗或專(zhuān)業(yè)理論猜測可能的原因,比如溫度、濕度等,然后采集一段時(shí)間的數據,最后做個(gè)散點(diǎn)圖,求相關(guān)系數。BI 是如何做到的?可以打開(kāi)BI軟件,用SQL調取溫濕度數據,然后調取報廢率數據,做散點(diǎn)圖,自動(dòng)計算相關(guān)系數。聽(tīng)起來(lái)差不多,但是如果你好奇的話(huà),你可以把企業(yè)里面的數據都跑一遍。數據用于與廢品率相關(guān)聯(lián),例如材料的化學(xué)成分,機械性能數據,甚至員工出勤率,食堂就餐人數,拖拽看與報廢率的相關(guān)性。以此尋找可能的突破點(diǎn)。只需幾分鐘,這在傳統分析中是不可想象的??赡苡信笥崖?tīng)過(guò),我說(shuō)的是探索性分析。我認為BI是為業(yè)務(wù)人員的探索性分析而生的。
  BI常用工具
  1. Tableau,目前世界上最好的商業(yè)智能軟件,市場(chǎng)占有率最高,但去年它也頂著(zhù)漂亮的國民名片跟著(zhù)國人的脖子,讓中國高校論文發(fā)表受挫2020年,愛(ài)國者果斷放棄(主要是收費太高)
  2.powerBI,微軟出品,免費個(gè)人版,直接與Excel冪查詢(xún)集成,不斷更新各種圖表插件,是探索性分析的神器,會(huì )Excel學(xué)習成本很低
  3、永紅BI國內市場(chǎng)占有率第一,僅次于Tableau。沒(méi)用過(guò),不做評價(jià)
  4.FineBI,帆軟出品,雖然功能不如這兩個(gè)國外的,但是最懂中國人,操作起來(lái)也很方便。比如計算同比,需要在power BI中寫(xiě)公式,但在Fine BI中只需要點(diǎn)OK就可以了,而且對中文地圖的支持還是比較友好的。
  BI是未來(lái)的趨勢,相信會(huì )越來(lái)越受到管理層的重視。
  通用工具Excel
  Excel在上述工具中多次提到,Excel是學(xué)習上述工具的基礎,因為:
  1、Excel表格可以作為數據庫,每張表格都可以作為數據庫源表
  2、在Excel中獲取外部數據的選項中,點(diǎn)擊從Microsoft Query,就可以直接使用SQL來(lái)操作數據,就像一個(gè)數據庫管理工具
  3.Excel冪查詢(xún)是一款專(zhuān)業(yè)的數據清理工具
  4.Excel power pivot是一款專(zhuān)業(yè)的數據建模工具
  5.power BI 專(zhuān)業(yè)的敏捷自助分析工具
  6、VBA是Excel的加分項。如果你學(xué)會(huì )了,你可以用Excel設計一套完整的商務(wù)軟件
  學(xué)習Excel再學(xué)習其他工具,可以事半功倍。
  最后推薦一本書(shū)《華為數據之道》,這是一本從技術(shù)、流程、管理等多個(gè)維度系統解讀華為數據治理和數字化轉型的書(shū)。書(shū)中濃縮了大量寶貴的經(jīng)驗、方法論、規范、模型、解決方案和案例,不僅可以即學(xué)即用,還可以了解華為數字化建設的全過(guò)程。

最新版:需要在前端頁(yè)面開(kāi)啟插入url功能(圖)期

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 158 次瀏覽 ? 2022-12-02 14:21 ? 來(lái)自相關(guān)話(huà)題

  最新版:需要在前端頁(yè)面開(kāi)啟插入url功能(圖)期
  采集內容插入詞庫,需要有一個(gè)可以對應的網(wǎng)頁(yè)庫?,F在一般都是用百度網(wǎng)頁(yè)搜索的方式,你要有一個(gè)可以直接采集的網(wǎng)頁(yè),提供源碼讓大家下載,這個(gè)網(wǎng)頁(yè)就可以直接插入文本信息,而不用自己寫(xiě)什么網(wǎng)址。
  同求!搜索“我的”“我的主頁(yè)”都不能對接網(wǎng)頁(yè)版搜索
  我們正準備實(shí)現這一項目,
  我的也需要這樣的服務(wù)。
  我也一直在搜索這樣的問(wèn)題。
  已經(jīng)有中國百度網(wǎng)站增強服務(wù)了。
  
  需要在前端頁(yè)面開(kāi)啟插入url功能
  我的現在這么問(wèn)題也搜不到,第一次遇到這個(gè)情況,
  我想知道沒(méi)有插入自己網(wǎng)站首頁(yè)能不能插入前端頁(yè)面。
  我的就想問(wèn)下,當你要搜索“我的工作”這個(gè)詞時(shí),搜索結果怎么顯示給你,但是很少搜到相關(guān)的信息。
  已經(jīng)找到方法了,百度“我的主頁(yè)”就可以插入相關(guān)的數據了。
  我的也是這樣的問(wèn)題,看了一下各位的解答后想到:有可能是沒(méi)有出現搜索“我的工作”這樣的關(guān)鍵詞時(shí)候的話(huà)會(huì )失效。
  
  同求
  我的也是這樣的問(wèn)題!
  我的現在就要碰到這個(gè)問(wèn)題!
  我的現在也遇到這個(gè)問(wèn)題
  搜我名字
  同求??!
  我也要如何把url填進(jìn)去還要可以和其他網(wǎng)站合作,不過(guò)像我這樣搜索自己的名字搜不到哎。搜公司名字也搜不到,如果是電腦也要按理說(shuō)搜索自己公司名稱(chēng)搜不到??梢赃@樣?如果使用手機號搜索,搜索我的就還好,但是搜我沒(méi)有關(guān)鍵詞我就搜不到,又不可以使用其他搜索方式,這樣數據怎么查找, 查看全部

  最新版:需要在前端頁(yè)面開(kāi)啟插入url功能(圖)期
  采集內容插入詞庫,需要有一個(gè)可以對應的網(wǎng)頁(yè)庫?,F在一般都是用百度網(wǎng)頁(yè)搜索的方式,你要有一個(gè)可以直接采集的網(wǎng)頁(yè),提供源碼讓大家下載,這個(gè)網(wǎng)頁(yè)就可以直接插入文本信息,而不用自己寫(xiě)什么網(wǎng)址。
  同求!搜索“我的”“我的主頁(yè)”都不能對接網(wǎng)頁(yè)版搜索
  我們正準備實(shí)現這一項目,
  我的也需要這樣的服務(wù)。
  我也一直在搜索這樣的問(wèn)題。
  已經(jīng)有中國百度網(wǎng)站增強服務(wù)了。
  
  需要在前端頁(yè)面開(kāi)啟插入url功能
  我的現在這么問(wèn)題也搜不到,第一次遇到這個(gè)情況,
  我想知道沒(méi)有插入自己網(wǎng)站首頁(yè)能不能插入前端頁(yè)面。
  我的就想問(wèn)下,當你要搜索“我的工作”這個(gè)詞時(shí),搜索結果怎么顯示給你,但是很少搜到相關(guān)的信息。
  已經(jīng)找到方法了,百度“我的主頁(yè)”就可以插入相關(guān)的數據了。
  我的也是這樣的問(wèn)題,看了一下各位的解答后想到:有可能是沒(méi)有出現搜索“我的工作”這樣的關(guān)鍵詞時(shí)候的話(huà)會(huì )失效。
  
  同求
  我的也是這樣的問(wèn)題!
  我的現在就要碰到這個(gè)問(wèn)題!
  我的現在也遇到這個(gè)問(wèn)題
  搜我名字
  同求??!
  我也要如何把url填進(jìn)去還要可以和其他網(wǎng)站合作,不過(guò)像我這樣搜索自己的名字搜不到哎。搜公司名字也搜不到,如果是電腦也要按理說(shuō)搜索自己公司名稱(chēng)搜不到??梢赃@樣?如果使用手機號搜索,搜索我的就還好,但是搜我沒(méi)有關(guān)鍵詞我就搜不到,又不可以使用其他搜索方式,這樣數據怎么查找,

解決方案:有可以按照指定關(guān)鍵詞采集新聞并自己更新數據的軟件嗎,網(wǎng)站文章采集器

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 117 次瀏覽 ? 2022-12-02 07:27 ? 來(lái)自相關(guān)話(huà)題

  解決方案:有可以按照指定關(guān)鍵詞采集新聞并自己更新數據的軟件嗎,網(wǎng)站文章采集器
  淘寶達人喜歡用的關(guān)鍵詞數據采集工具有哪些?
  20萬(wàn)熱門(mén)搜索詞、同行店鋪ID數據、同行熱銷(xiāo)商品數據(年卡用戶(hù)開(kāi)通)??梢渣c(diǎn)擊關(guān)鍵詞加入分類(lèi),軟件會(huì )自動(dòng)跳轉過(guò)去,熱門(mén)商品采集
,愛(ài)淘寶采集
,同行采集
,采集
鏈接第一時(shí)間搜索熱門(mén)商品、數據凈化、淘寶賬號管理。
  如何使用免費文章采集器讓網(wǎng)站快速收錄和關(guān)鍵詞排名,為什么我的網(wǎng)站頁(yè)面沒(méi)有收錄,明明是原創(chuàng )內容。那么為什么網(wǎng)站頁(yè)面不被搜索引擎收錄呢?一個(gè)網(wǎng)站要想有穩定的排名和源源不斷的流量,就需要收錄,收錄的越多越好。如果網(wǎng)站頁(yè)面不收錄,不能怪文章質(zhì)量差。收不收與網(wǎng)站的關(guān)鍵詞、鏈接、robots.txt等內容都有關(guān)系。網(wǎng)站經(jīng)過(guò)前期的優(yōu)化,現在最快的收錄網(wǎng)站頁(yè)面是在發(fā)布之后,即使再慢,也會(huì )在當天收錄。如何使用文章采集器實(shí)現快速采集?
  本文章采集器實(shí)現自動(dòng)采集偽原創(chuàng )刊物并主動(dòng)推送至搜索引擎,讓網(wǎng)站實(shí)現全自動(dòng)優(yōu)化。操作簡(jiǎn)單,無(wú)需學(xué)習更多專(zhuān)業(yè)技術(shù),簡(jiǎn)單幾步即可輕松采集內容數據。用戶(hù)只需對文章采集器進(jìn)行簡(jiǎn)單的設置即可。采集
文章,以便您可以確保與行業(yè)文章的一致性。采集的文章可以保存在本地,也可以偽原創(chuàng )后自動(dòng)發(fā)布,方便快捷的內容采集和偽原創(chuàng )內容的快速制作。
  這個(gè)文章采集器和其他文章采集器相比,基本沒(méi)有任何規則,更不用說(shuō)花很多時(shí)間學(xué)習正則表達式或者html標簽了,一分鐘就能上手。只需要輸入關(guān)鍵詞即可實(shí)現采集(文章 采集器也自帶關(guān)鍵詞采集功能)。全自動(dòng)掛機!設置任務(wù),自動(dòng)執行采集偽原創(chuàng )發(fā)布并主動(dòng)推送至搜索引擎。
  
  無(wú)論您有成百上千個(gè)不同的CMS網(wǎng)站,都可以實(shí)現統一管理。一個(gè)人維護成百上千篇網(wǎng)站文章更新不是問(wèn)題。本文章采集器還搭載了很多SEO功能,可以在通過(guò)軟件采集偽原創(chuàng )刊物的同時(shí)提高很多SEO優(yōu)化。
  1、網(wǎng)站主動(dòng)推送(讓搜索引擎更快的發(fā)現我們的網(wǎng)站)
  2.自動(dòng)匹配圖片(如果文章內容中沒(méi)有圖片,會(huì )自動(dòng)配置相關(guān)圖片)設置為自動(dòng)下載圖片并保存在本地或第三方(這樣內容就不再有對方的外鏈)派對)。
  3、自動(dòng)內鏈(讓搜索引擎更深入地抓取你的鏈接)
  4.在內容或標題前后插入段落或關(guān)鍵詞(標題和標題可以選擇插入相同的關(guān)鍵詞)
  5. 網(wǎng)站內容插入或隨機作者、隨機閱讀等均視為“高度原創(chuàng )”。
  6、定時(shí)發(fā)布(定時(shí)發(fā)布文章,讓搜索引擎按時(shí)抓取你的網(wǎng)站內容)
  利用這些SEO功能可以提高網(wǎng)站頁(yè)面的原創(chuàng )性,提高網(wǎng)站的排名。通過(guò)工具上的監控管理,可以查看文章的收錄發(fā)布情況并主動(dòng)推送(百度/360/搜狗神馬/谷歌等),無(wú)需每天登錄網(wǎng)站后臺查看。直接在工具上自動(dòng)完成SEO內容優(yōu)化。目前博主親測軟件免費,可直接下載使用!
  
  1.增加網(wǎng)站采集
的SEO技巧
  1、主動(dòng)推送鏈接
  作為seo站長(cháng)朋友,我們每天不斷更新sitemap地圖,然后在百度資源上驗證網(wǎng)站,安裝自動(dòng)推送代碼。這種優(yōu)化對搜索引擎非常友好,可以加快網(wǎng)站頁(yè)面內容的抓取和收錄。(可通過(guò)文章采集
器獲得)
  2、提高網(wǎng)站內容的豐富度
  內容是網(wǎng)站的靈魂,網(wǎng)站需要新的內容。站在用戶(hù)的角度,我們可以提取重要的關(guān)鍵詞,做更多他們會(huì )搜索的內容,或者回答問(wèn)題或者解決實(shí)際需求。當然,圖文并茂的內容更受歡迎。文章內容一般不少于500字,配圖不少于3張。另外,別忘了給圖片加上ALT屬性。(通過(guò)采集
新聞源文章實(shí)現)
  3.引導百度蜘蛛爬行
  每天,每個(gè)人都喜歡和更好的人靠攏,百度蜘蛛也不例外。蜘蛛喜歡高權重的網(wǎng)站。網(wǎng)站的權重越高,蜘蛛的訪(fǎng)問(wèn)量就越大。一些優(yōu)質(zhì)的友情鏈接可以引導百度蜘蛛進(jìn)行爬取,加快網(wǎng)站內容的爬取和收錄。
  解決方案:網(wǎng)站怎么優(yōu)化? 全面優(yōu)化網(wǎng)站的四個(gè)大方向分析
  每天都有新的朋友進(jìn)入這個(gè)行業(yè)做網(wǎng)站,這也意味著(zhù)每天都會(huì )產(chǎn)生大量的新網(wǎng)站。但是很多朋友,甚至很多是SEO的朋友,不知道如何讓網(wǎng)站快速收錄,快速排名。那么,應該怎么做才能讓網(wǎng)站快速收錄和排名呢?從三個(gè)方面來(lái)分析。
  一、建站程序
  一、節目選擇
  建網(wǎng)站首先要考慮選擇什么樣的程序,是ASP程序、PHP程序、JSP程序還是程序。確定之后還要考慮是使用開(kāi)源程序還是找建站公司完全開(kāi)發(fā)新的程序。根據自己的需要,如果自己制作網(wǎng)站、論壇、博客、展示站等,一般可以選擇開(kāi)源程序。
  2.代碼簡(jiǎn)化
  如果選擇了開(kāi)源程序,那么在選擇開(kāi)源程序之后就可以選擇對應程序的模板了。網(wǎng)上流行的模板成千上萬(wàn),但我們需要選擇一個(gè)非常精簡(jiǎn)的,符合SEO的。為網(wǎng)站選擇這樣的模板,不僅一目了然,而且打開(kāi)速度非???,給訪(fǎng)問(wèn)者最好的速度體驗。
  而且精簡(jiǎn)的代碼非常有利于搜索引擎的抓取。如果選擇建站公司,需要選擇懂SEO的網(wǎng)站,設計出來(lái)的網(wǎng)站符合SEO的要求,否則優(yōu)化起來(lái)相當困難,也不利于排名。
  三、網(wǎng)站結構
  不同的網(wǎng)站需要根據網(wǎng)站的用途和網(wǎng)站的內容設置不同的欄目,但網(wǎng)站上盡量少用framework和flash。如果要使用它,必須清楚地寫(xiě)出它的屬性。網(wǎng)站一定要有一目了然的導航,這樣用戶(hù)才不會(huì )不知道自己在網(wǎng)站的什么位置就進(jìn)入了網(wǎng)站。
  二、零基礎初學(xué)者如何學(xué)習SEO技術(shù)
  1.我一直認為,如果你從某物中學(xué)習SEO,你就會(huì )成為某物。
  
  古語(yǔ)有名師出良徒。向弱者學(xué)習,自己就會(huì )變得弱??;向強者學(xué)習,自己就會(huì )變得強大。學(xué)習和在社會(huì )上一樣。向聰明的商人學(xué)習,你就會(huì )成為商業(yè)高手;向擺地攤學(xué)習,就會(huì )成為擺地攤;學(xué)習SEO也是如此。
  現在很多朋友喜歡在網(wǎng)上找視頻資料自學(xué)SEO,但是光看視頻是不可能學(xué)好SEO技術(shù)的,沒(méi)有人指導。絕大多數自學(xué)SEO的人還停留在發(fā)外鏈的水平。通過(guò)自學(xué)所學(xué)到的東西只是觸及表面。
  3、想學(xué)習真正的SEO干貨,成為SEO技術(shù)高手,可以加入這條裙子:前面192,然后中間5 8 6,最后加795。有免費直播教學(xué)每天由SEO專(zhuān)家,分享SEO技術(shù)經(jīng)驗。并且還有很多一起學(xué)習SEO技術(shù)的小伙伴與大家交流技術(shù),共同學(xué)習進(jìn)步。你不需要付出任何代價(jià),只要你真的想學(xué)好這門(mén)技術(shù),就可以加入,不想學(xué)就不要加入。
  3. 搜索引擎
  一、文章的原創(chuàng )性
  原創(chuàng )這個(gè)詞,我覺(jué)得說(shuō)多了會(huì )變成渣。之所以在這里提倡原創(chuàng ),只是為了方便搜索引擎收錄。事實(shí)上,即使是機器偽原創(chuàng ),搜索引擎往往也會(huì )樂(lè )此不疲地收錄。當然,搜索引擎是越來(lái)越聰明了,所以搜索引擎會(huì )逐漸識別什么是偽原創(chuàng ),什么是原創(chuàng )。所以,想要前期有好的排名,最好不要轉載,最好選擇純原創(chuàng )或者重度修改的偽原創(chuàng )。
  當然,這并不意味著(zhù)將一篇文章改得面目全非就是偽原創(chuàng )文章。我們在修改文章的同時(shí),也要保證這篇文章對用戶(hù)還是有幫助的,即滿(mǎn)足用戶(hù)的需求,這樣才是合格的偽原創(chuàng )文章。
  2.文章質(zhì)量
  說(shuō)到質(zhì)量,如上所述,假冒原創(chuàng )也可以被搜索引擎收錄,但這并不意味著(zhù)它們可以獲得良好的 關(guān)鍵詞 排名。用戶(hù)無(wú)法忍受低質(zhì)量的假冒原件。所以要寫(xiě)偽原創(chuàng ),一定要是對用戶(hù)有幫助的文章。這樣,蜘蛛就很容易被收錄,用戶(hù)就會(huì )喜歡。對我們之前網(wǎng)站的快速排名很有幫助。當然,如果你有本事,高質(zhì)量的原版肯定更合適。
  3.外鏈。外部鏈接為王。但是現在很多朋友已經(jīng)不再相信“外鏈為王”的傳聞了。
  為什么是這樣?因為在幾年前,建站和排名是非常簡(jiǎn)單的。只要有很多外部鏈接,排名就很容易做到。但是現在垃圾外鏈已經(jīng)失效了,一些垃圾外鏈直接導致網(wǎng)站或者K站降級。但我認為“外鏈為王”貫穿于整個(gè)SEO行業(yè)從過(guò)去到未來(lái)。
  
  4、目前的外鏈不求多,只求精。一個(gè)高質(zhì)量的外鏈可以直接把你的冷門(mén)關(guān)鍵詞推到第一位。因此,在前期發(fā)出高質(zhì)量的外鏈是非常有必要的。它可以輕松地將您的網(wǎng)站提升到最前面。能做好外鏈的絕對高手,比站內優(yōu)化的技術(shù)還要強。光聽(tīng)人家胡說(shuō)八道是行不通的。
  4. 用戶(hù)
  1.直接訪(fǎng)問(wèn)用戶(hù)
  顯然,看這個(gè)的時(shí)候,可以通過(guò)通訊工具等行為直接獲取訪(fǎng)問(wèn)流量。這種前期的流量當然是有效果的,但是效果很小,因為你的網(wǎng)站沒(méi)有被搜索引擎收錄,直接訪(fǎng)問(wèn)必須是你自己推廣的,所以這樣的用戶(hù)對排名是有影響的關(guān)鍵詞 在您網(wǎng)站的早期階段非常小。
  2.從外部鏈接獲得的用戶(hù)
  其實(shí)在前期排名的時(shí)候,通過(guò)外鏈獲取流量是非常重要的。通過(guò)優(yōu)質(zhì)的外鏈,可以將用戶(hù)引導到你的網(wǎng)站,從而形成訪(fǎng)問(wèn)量,你的網(wǎng)站就會(huì )開(kāi)始參與排名。在參與排名的情況下,如果流量足夠好,它會(huì )把我們的主要關(guān)鍵詞推到一個(gè)很高的位置。
  3、搜索引擎獲取的用戶(hù)
  早期排名,很少有用戶(hù)會(huì )通過(guò)搜索直接進(jìn)入你的站點(diǎn),除非你站外有軟文強行讓別人用關(guān)鍵詞搜索,或者你的搜索結果進(jìn)入前兩頁(yè)。此時(shí),您的站點(diǎn)顯示在搜索結果中。如果你的標題足夠好,用戶(hù)很容易選擇點(diǎn)擊你的網(wǎng)站,從而獲得相應的關(guān)鍵詞搜索流量,將關(guān)鍵詞排名提升到靠前的位置。
  4、滿(mǎn)足用戶(hù)需求(核心)。還是忘不了最最最最最重要的:滿(mǎn)足用戶(hù)需求。
  如果我們做的網(wǎng)站不能滿(mǎn)足用戶(hù)的需求,那么即使用戶(hù)通過(guò)一些渠道來(lái)了,也很快就會(huì )離開(kāi)。如果用戶(hù)來(lái)了就喜歡你的網(wǎng)站,并點(diǎn)擊了其他頁(yè)面,那么,恭喜你,你的網(wǎng)站離第一名又近了一點(diǎn)。所以,我們要讓所有進(jìn)來(lái)的訪(fǎng)問(wèn)者盡可能多地瀏覽你的網(wǎng)站,讓它有效地為你的網(wǎng)站投票,這樣你的網(wǎng)站才有更大的機會(huì )排在前列。 查看全部

  解決方案:有可以按照指定關(guān)鍵詞采集新聞并自己更新數據的軟件嗎,網(wǎng)站文章采集器
  淘寶達人喜歡用的關(guān)鍵詞數據采集工具有哪些?
  20萬(wàn)熱門(mén)搜索詞、同行店鋪ID數據、同行熱銷(xiāo)商品數據(年卡用戶(hù)開(kāi)通)??梢渣c(diǎn)擊關(guān)鍵詞加入分類(lèi),軟件會(huì )自動(dòng)跳轉過(guò)去,熱門(mén)商品采集
,愛(ài)淘寶采集
,同行采集
,采集
鏈接第一時(shí)間搜索熱門(mén)商品、數據凈化、淘寶賬號管理。
  如何使用免費文章采集器讓網(wǎng)站快速收錄和關(guān)鍵詞排名,為什么我的網(wǎng)站頁(yè)面沒(méi)有收錄,明明是原創(chuàng )內容。那么為什么網(wǎng)站頁(yè)面不被搜索引擎收錄呢?一個(gè)網(wǎng)站要想有穩定的排名和源源不斷的流量,就需要收錄,收錄的越多越好。如果網(wǎng)站頁(yè)面不收錄,不能怪文章質(zhì)量差。收不收與網(wǎng)站的關(guān)鍵詞、鏈接、robots.txt等內容都有關(guān)系。網(wǎng)站經(jīng)過(guò)前期的優(yōu)化,現在最快的收錄網(wǎng)站頁(yè)面是在發(fā)布之后,即使再慢,也會(huì )在當天收錄。如何使用文章采集器實(shí)現快速采集?
  本文章采集器實(shí)現自動(dòng)采集偽原創(chuàng )刊物并主動(dòng)推送至搜索引擎,讓網(wǎng)站實(shí)現全自動(dòng)優(yōu)化。操作簡(jiǎn)單,無(wú)需學(xué)習更多專(zhuān)業(yè)技術(shù),簡(jiǎn)單幾步即可輕松采集內容數據。用戶(hù)只需對文章采集器進(jìn)行簡(jiǎn)單的設置即可。采集
文章,以便您可以確保與行業(yè)文章的一致性。采集的文章可以保存在本地,也可以偽原創(chuàng )后自動(dòng)發(fā)布,方便快捷的內容采集和偽原創(chuàng )內容的快速制作。
  這個(gè)文章采集器和其他文章采集器相比,基本沒(méi)有任何規則,更不用說(shuō)花很多時(shí)間學(xué)習正則表達式或者html標簽了,一分鐘就能上手。只需要輸入關(guān)鍵詞即可實(shí)現采集(文章 采集器也自帶關(guān)鍵詞采集功能)。全自動(dòng)掛機!設置任務(wù),自動(dòng)執行采集偽原創(chuàng )發(fā)布并主動(dòng)推送至搜索引擎。
  
  無(wú)論您有成百上千個(gè)不同的CMS網(wǎng)站,都可以實(shí)現統一管理。一個(gè)人維護成百上千篇網(wǎng)站文章更新不是問(wèn)題。本文章采集器還搭載了很多SEO功能,可以在通過(guò)軟件采集偽原創(chuàng )刊物的同時(shí)提高很多SEO優(yōu)化。
  1、網(wǎng)站主動(dòng)推送(讓搜索引擎更快的發(fā)現我們的網(wǎng)站)
  2.自動(dòng)匹配圖片(如果文章內容中沒(méi)有圖片,會(huì )自動(dòng)配置相關(guān)圖片)設置為自動(dòng)下載圖片并保存在本地或第三方(這樣內容就不再有對方的外鏈)派對)。
  3、自動(dòng)內鏈(讓搜索引擎更深入地抓取你的鏈接)
  4.在內容或標題前后插入段落或關(guān)鍵詞(標題和標題可以選擇插入相同的關(guān)鍵詞)
  5. 網(wǎng)站內容插入或隨機作者、隨機閱讀等均視為“高度原創(chuàng )”。
  6、定時(shí)發(fā)布(定時(shí)發(fā)布文章,讓搜索引擎按時(shí)抓取你的網(wǎng)站內容)
  利用這些SEO功能可以提高網(wǎng)站頁(yè)面的原創(chuàng )性,提高網(wǎng)站的排名。通過(guò)工具上的監控管理,可以查看文章的收錄發(fā)布情況并主動(dòng)推送(百度/360/搜狗神馬/谷歌等),無(wú)需每天登錄網(wǎng)站后臺查看。直接在工具上自動(dòng)完成SEO內容優(yōu)化。目前博主親測軟件免費,可直接下載使用!
  
  1.增加網(wǎng)站采集
的SEO技巧
  1、主動(dòng)推送鏈接
  作為seo站長(cháng)朋友,我們每天不斷更新sitemap地圖,然后在百度資源上驗證網(wǎng)站,安裝自動(dòng)推送代碼。這種優(yōu)化對搜索引擎非常友好,可以加快網(wǎng)站頁(yè)面內容的抓取和收錄。(可通過(guò)文章采集
器獲得)
  2、提高網(wǎng)站內容的豐富度
  內容是網(wǎng)站的靈魂,網(wǎng)站需要新的內容。站在用戶(hù)的角度,我們可以提取重要的關(guān)鍵詞,做更多他們會(huì )搜索的內容,或者回答問(wèn)題或者解決實(shí)際需求。當然,圖文并茂的內容更受歡迎。文章內容一般不少于500字,配圖不少于3張。另外,別忘了給圖片加上ALT屬性。(通過(guò)采集
新聞源文章實(shí)現)
  3.引導百度蜘蛛爬行
  每天,每個(gè)人都喜歡和更好的人靠攏,百度蜘蛛也不例外。蜘蛛喜歡高權重的網(wǎng)站。網(wǎng)站的權重越高,蜘蛛的訪(fǎng)問(wèn)量就越大。一些優(yōu)質(zhì)的友情鏈接可以引導百度蜘蛛進(jìn)行爬取,加快網(wǎng)站內容的爬取和收錄。
  解決方案:網(wǎng)站怎么優(yōu)化? 全面優(yōu)化網(wǎng)站的四個(gè)大方向分析
  每天都有新的朋友進(jìn)入這個(gè)行業(yè)做網(wǎng)站,這也意味著(zhù)每天都會(huì )產(chǎn)生大量的新網(wǎng)站。但是很多朋友,甚至很多是SEO的朋友,不知道如何讓網(wǎng)站快速收錄,快速排名。那么,應該怎么做才能讓網(wǎng)站快速收錄和排名呢?從三個(gè)方面來(lái)分析。
  一、建站程序
  一、節目選擇
  建網(wǎng)站首先要考慮選擇什么樣的程序,是ASP程序、PHP程序、JSP程序還是程序。確定之后還要考慮是使用開(kāi)源程序還是找建站公司完全開(kāi)發(fā)新的程序。根據自己的需要,如果自己制作網(wǎng)站、論壇、博客、展示站等,一般可以選擇開(kāi)源程序。
  2.代碼簡(jiǎn)化
  如果選擇了開(kāi)源程序,那么在選擇開(kāi)源程序之后就可以選擇對應程序的模板了。網(wǎng)上流行的模板成千上萬(wàn),但我們需要選擇一個(gè)非常精簡(jiǎn)的,符合SEO的。為網(wǎng)站選擇這樣的模板,不僅一目了然,而且打開(kāi)速度非???,給訪(fǎng)問(wèn)者最好的速度體驗。
  而且精簡(jiǎn)的代碼非常有利于搜索引擎的抓取。如果選擇建站公司,需要選擇懂SEO的網(wǎng)站,設計出來(lái)的網(wǎng)站符合SEO的要求,否則優(yōu)化起來(lái)相當困難,也不利于排名。
  三、網(wǎng)站結構
  不同的網(wǎng)站需要根據網(wǎng)站的用途和網(wǎng)站的內容設置不同的欄目,但網(wǎng)站上盡量少用framework和flash。如果要使用它,必須清楚地寫(xiě)出它的屬性。網(wǎng)站一定要有一目了然的導航,這樣用戶(hù)才不會(huì )不知道自己在網(wǎng)站的什么位置就進(jìn)入了網(wǎng)站。
  二、零基礎初學(xué)者如何學(xué)習SEO技術(shù)
  1.我一直認為,如果你從某物中學(xué)習SEO,你就會(huì )成為某物。
  
  古語(yǔ)有名師出良徒。向弱者學(xué)習,自己就會(huì )變得弱??;向強者學(xué)習,自己就會(huì )變得強大。學(xué)習和在社會(huì )上一樣。向聰明的商人學(xué)習,你就會(huì )成為商業(yè)高手;向擺地攤學(xué)習,就會(huì )成為擺地攤;學(xué)習SEO也是如此。
  現在很多朋友喜歡在網(wǎng)上找視頻資料自學(xué)SEO,但是光看視頻是不可能學(xué)好SEO技術(shù)的,沒(méi)有人指導。絕大多數自學(xué)SEO的人還停留在發(fā)外鏈的水平。通過(guò)自學(xué)所學(xué)到的東西只是觸及表面。
  3、想學(xué)習真正的SEO干貨,成為SEO技術(shù)高手,可以加入這條裙子:前面192,然后中間5 8 6,最后加795。有免費直播教學(xué)每天由SEO專(zhuān)家,分享SEO技術(shù)經(jīng)驗。并且還有很多一起學(xué)習SEO技術(shù)的小伙伴與大家交流技術(shù),共同學(xué)習進(jìn)步。你不需要付出任何代價(jià),只要你真的想學(xué)好這門(mén)技術(shù),就可以加入,不想學(xué)就不要加入。
  3. 搜索引擎
  一、文章的原創(chuàng )性
  原創(chuàng )這個(gè)詞,我覺(jué)得說(shuō)多了會(huì )變成渣。之所以在這里提倡原創(chuàng ),只是為了方便搜索引擎收錄。事實(shí)上,即使是機器偽原創(chuàng ),搜索引擎往往也會(huì )樂(lè )此不疲地收錄。當然,搜索引擎是越來(lái)越聰明了,所以搜索引擎會(huì )逐漸識別什么是偽原創(chuàng ),什么是原創(chuàng )。所以,想要前期有好的排名,最好不要轉載,最好選擇純原創(chuàng )或者重度修改的偽原創(chuàng )。
  當然,這并不意味著(zhù)將一篇文章改得面目全非就是偽原創(chuàng )文章。我們在修改文章的同時(shí),也要保證這篇文章對用戶(hù)還是有幫助的,即滿(mǎn)足用戶(hù)的需求,這樣才是合格的偽原創(chuàng )文章。
  2.文章質(zhì)量
  說(shuō)到質(zhì)量,如上所述,假冒原創(chuàng )也可以被搜索引擎收錄,但這并不意味著(zhù)它們可以獲得良好的 關(guān)鍵詞 排名。用戶(hù)無(wú)法忍受低質(zhì)量的假冒原件。所以要寫(xiě)偽原創(chuàng ),一定要是對用戶(hù)有幫助的文章。這樣,蜘蛛就很容易被收錄,用戶(hù)就會(huì )喜歡。對我們之前網(wǎng)站的快速排名很有幫助。當然,如果你有本事,高質(zhì)量的原版肯定更合適。
  3.外鏈。外部鏈接為王。但是現在很多朋友已經(jīng)不再相信“外鏈為王”的傳聞了。
  為什么是這樣?因為在幾年前,建站和排名是非常簡(jiǎn)單的。只要有很多外部鏈接,排名就很容易做到。但是現在垃圾外鏈已經(jīng)失效了,一些垃圾外鏈直接導致網(wǎng)站或者K站降級。但我認為“外鏈為王”貫穿于整個(gè)SEO行業(yè)從過(guò)去到未來(lái)。
  
  4、目前的外鏈不求多,只求精。一個(gè)高質(zhì)量的外鏈可以直接把你的冷門(mén)關(guān)鍵詞推到第一位。因此,在前期發(fā)出高質(zhì)量的外鏈是非常有必要的。它可以輕松地將您的網(wǎng)站提升到最前面。能做好外鏈的絕對高手,比站內優(yōu)化的技術(shù)還要強。光聽(tīng)人家胡說(shuō)八道是行不通的。
  4. 用戶(hù)
  1.直接訪(fǎng)問(wèn)用戶(hù)
  顯然,看這個(gè)的時(shí)候,可以通過(guò)通訊工具等行為直接獲取訪(fǎng)問(wèn)流量。這種前期的流量當然是有效果的,但是效果很小,因為你的網(wǎng)站沒(méi)有被搜索引擎收錄,直接訪(fǎng)問(wèn)必須是你自己推廣的,所以這樣的用戶(hù)對排名是有影響的關(guān)鍵詞 在您網(wǎng)站的早期階段非常小。
  2.從外部鏈接獲得的用戶(hù)
  其實(shí)在前期排名的時(shí)候,通過(guò)外鏈獲取流量是非常重要的。通過(guò)優(yōu)質(zhì)的外鏈,可以將用戶(hù)引導到你的網(wǎng)站,從而形成訪(fǎng)問(wèn)量,你的網(wǎng)站就會(huì )開(kāi)始參與排名。在參與排名的情況下,如果流量足夠好,它會(huì )把我們的主要關(guān)鍵詞推到一個(gè)很高的位置。
  3、搜索引擎獲取的用戶(hù)
  早期排名,很少有用戶(hù)會(huì )通過(guò)搜索直接進(jìn)入你的站點(diǎn),除非你站外有軟文強行讓別人用關(guān)鍵詞搜索,或者你的搜索結果進(jìn)入前兩頁(yè)。此時(shí),您的站點(diǎn)顯示在搜索結果中。如果你的標題足夠好,用戶(hù)很容易選擇點(diǎn)擊你的網(wǎng)站,從而獲得相應的關(guān)鍵詞搜索流量,將關(guān)鍵詞排名提升到靠前的位置。
  4、滿(mǎn)足用戶(hù)需求(核心)。還是忘不了最最最最最重要的:滿(mǎn)足用戶(hù)需求。
  如果我們做的網(wǎng)站不能滿(mǎn)足用戶(hù)的需求,那么即使用戶(hù)通過(guò)一些渠道來(lái)了,也很快就會(huì )離開(kāi)。如果用戶(hù)來(lái)了就喜歡你的網(wǎng)站,并點(diǎn)擊了其他頁(yè)面,那么,恭喜你,你的網(wǎng)站離第一名又近了一點(diǎn)。所以,我們要讓所有進(jìn)來(lái)的訪(fǎng)問(wèn)者盡可能多地瀏覽你的網(wǎng)站,讓它有效地為你的網(wǎng)站投票,這樣你的網(wǎng)站才有更大的機會(huì )排在前列。

匯總:采集內容插入詞庫程序的特點(diǎn)及特點(diǎn)分析-樂(lè )題庫

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 103 次瀏覽 ? 2022-12-01 12:36 ? 來(lái)自相關(guān)話(huà)題

  匯總:采集內容插入詞庫程序的特點(diǎn)及特點(diǎn)分析-樂(lè )題庫
  采集內容插入詞庫,首先要做的就是要有內容的數據。爬蟲(chóng)工具我目前了解到有“全詞抓取”這個(gè)工具,可以先抓取很多網(wǎng)站里的詞語(yǔ),爬蟲(chóng)能不能爬到,不能返回給java工程師這個(gè)可能就有問(wèn)題。你可以自己配一個(gè)庫,自己寫(xiě)一個(gè)庫實(shí)現。爬蟲(chóng)程序應該是自己寫(xiě)的。
  個(gè)人覺(jué)得搜狗的話(huà)可以用網(wǎng)頁(yè)抓?。╯pider.baidu)。建議你抓網(wǎng)頁(yè)的時(shí)候帶上詞庫的url。
  
  你可以搜索一下網(wǎng)頁(yè)的內容,有些詞可能放在某些網(wǎng)站里,要不然你到搜狗搜索這個(gè)詞,可能是其他的站收錄的內容。我用的是sogou網(wǎng)頁(yè)搜索,
  個(gè)人感覺(jué)搜狗網(wǎng)頁(yè)抓取比較好用。
  搜狗搜索很方便
  
  有個(gè)工具很好用,將網(wǎng)頁(yè)內容提取出來(lái),可以上傳詞庫,也可以分詞抓取,是一種很好的方式,和插入網(wǎng)頁(yè)詞庫不同,這種方式可以和java程序分享網(wǎng)頁(yè)內容,segmentfault也有人有成功的案例。
  搜狗搜索打開(kāi)站內搜索網(wǎng)頁(yè)才能搜索,是個(gè)很好的嘗試。
  從爬蟲(chóng)技術(shù)角度來(lái)說(shuō),一個(gè)好的爬蟲(chóng)程序應該具備如下特點(diǎn):能夠自動(dòng)提取網(wǎng)頁(yè)中提供給java程序爬取的詞語(yǔ)或者短語(yǔ);爬蟲(chóng)程序讀取、提取網(wǎng)頁(yè)的地址過(guò)程應該簡(jiǎn)單無(wú)腦;爬蟲(chóng)程序應該具有良好的個(gè)性化設置,要有完善的設計規范,方便以后更好地管理、使用。從java程序角度來(lái)說(shuō),一個(gè)好的java爬蟲(chóng)程序應該具備如下特點(diǎn):能夠自動(dòng)提取網(wǎng)頁(yè)中提供給java程序爬取的詞語(yǔ)或者短語(yǔ);爬蟲(chóng)程序讀取、提取網(wǎng)頁(yè)的地址過(guò)程應該簡(jiǎn)單無(wú)腦;爬蟲(chóng)程序應該具有良好的個(gè)性化設置,要有完善的設計規范,方便以后更好地管理、使用。 查看全部

  匯總:采集內容插入詞庫程序的特點(diǎn)及特點(diǎn)分析-樂(lè )題庫
  采集內容插入詞庫,首先要做的就是要有內容的數據。爬蟲(chóng)工具我目前了解到有“全詞抓取”這個(gè)工具,可以先抓取很多網(wǎng)站里的詞語(yǔ),爬蟲(chóng)能不能爬到,不能返回給java工程師這個(gè)可能就有問(wèn)題。你可以自己配一個(gè)庫,自己寫(xiě)一個(gè)庫實(shí)現。爬蟲(chóng)程序應該是自己寫(xiě)的。
  個(gè)人覺(jué)得搜狗的話(huà)可以用網(wǎng)頁(yè)抓?。╯pider.baidu)。建議你抓網(wǎng)頁(yè)的時(shí)候帶上詞庫的url。
  
  你可以搜索一下網(wǎng)頁(yè)的內容,有些詞可能放在某些網(wǎng)站里,要不然你到搜狗搜索這個(gè)詞,可能是其他的站收錄的內容。我用的是sogou網(wǎng)頁(yè)搜索,
  個(gè)人感覺(jué)搜狗網(wǎng)頁(yè)抓取比較好用。
  搜狗搜索很方便
  
  有個(gè)工具很好用,將網(wǎng)頁(yè)內容提取出來(lái),可以上傳詞庫,也可以分詞抓取,是一種很好的方式,和插入網(wǎng)頁(yè)詞庫不同,這種方式可以和java程序分享網(wǎng)頁(yè)內容,segmentfault也有人有成功的案例。
  搜狗搜索打開(kāi)站內搜索網(wǎng)頁(yè)才能搜索,是個(gè)很好的嘗試。
  從爬蟲(chóng)技術(shù)角度來(lái)說(shuō),一個(gè)好的爬蟲(chóng)程序應該具備如下特點(diǎn):能夠自動(dòng)提取網(wǎng)頁(yè)中提供給java程序爬取的詞語(yǔ)或者短語(yǔ);爬蟲(chóng)程序讀取、提取網(wǎng)頁(yè)的地址過(guò)程應該簡(jiǎn)單無(wú)腦;爬蟲(chóng)程序應該具有良好的個(gè)性化設置,要有完善的設計規范,方便以后更好地管理、使用。從java程序角度來(lái)說(shuō),一個(gè)好的java爬蟲(chóng)程序應該具備如下特點(diǎn):能夠自動(dòng)提取網(wǎng)頁(yè)中提供給java程序爬取的詞語(yǔ)或者短語(yǔ);爬蟲(chóng)程序讀取、提取網(wǎng)頁(yè)的地址過(guò)程應該簡(jiǎn)單無(wú)腦;爬蟲(chóng)程序應該具有良好的個(gè)性化設置,要有完善的設計規范,方便以后更好地管理、使用。

干貨內容:seo清洗百萬(wàn)長(cháng)尾詞數據的策略

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 66 次瀏覽 ? 2022-11-29 13:45 ? 來(lái)自相關(guān)話(huà)題

  干貨內容:seo清洗百萬(wàn)長(cháng)尾詞數據的策略
  前言
  要不是有CEO主動(dòng)找了高薪SEO的人坐飛機過(guò)來(lái),說(shuō)實(shí)話(huà),很多SEO人員在公司都是“弱勢群體”。
  絕大多數普通seo人員在公司和跨部門(mén)溝通中沒(méi)有多少相應的話(huà)語(yǔ)權,有很多細節無(wú)法協(xié)調。
  在這樣的環(huán)境下,seoer要想做好,就必須充分發(fā)揮自己的主觀(guān)能動(dòng)性,千方百計去完成那些表面上不值一提,暗地里卻又不可避免的事情。
  問(wèn)題
  seo和sem需要在全網(wǎng)大量挖掘長(cháng)尾詞,但是大規模的長(cháng)尾詞注定會(huì )帶來(lái)一些數據清洗工作。在大多數情況下,清理工作可以在 Excel 中完成,但也有很多情況。Excel很難處理,比如:
  這是從第三方關(guān)鍵詞工具下載的詞根“drainage”的長(cháng)尾詞數據,但是遇到了一個(gè)尷尬的問(wèn)題。詞根“drainage”有同義詞但場(chǎng)景不同,所以會(huì )導致挖掘出很多不相關(guān)的長(cháng)尾詞:
  事實(shí)上,這種情況很常見(jiàn)。單個(gè)詞往往不可避免地與其他場(chǎng)景混淆,例如:
  水果中的“蘋(píng)果”、手機中的“蘋(píng)果”和電影中的“蘋(píng)果”,是一個(gè)形同字義卻截然不同的詞。單純的用詞根挖詞,自然會(huì )挖出很多非目標的長(cháng)尾詞。
  類(lèi)似的情況還有很多,那么問(wèn)題來(lái)了:剔除非目標長(cháng)尾詞是必須的。這樣的細枝末節在seo工作中做好是理所當然的事情。老板一來(lái)不會(huì )幫我們做,二來(lái)也不會(huì )指派我們去做。如果這是一個(gè)百萬(wàn)級別的長(cháng)尾詞數據,在Excel中全部篩選淘汰,這個(gè)項目可能已經(jīng)過(guò)時(shí)了。
  面對如此雜亂的長(cháng)尾詞數據,如何進(jìn)行高效的過(guò)濾篩選?
  今天的文章是一篇完全基于技術(shù)的內容,但是對于不懂技術(shù)的朋友,強烈推薦完整閱讀。有兩點(diǎn):
  技術(shù)是另一種思維方式。不是技術(shù)的朋友,可以看看技術(shù)人員遇到問(wèn)題是怎么處理的。
  在“網(wǎng)絡(luò )營(yíng)銷(xiāo)”工作中,有很多工作超出了我們的能力范圍,但是充分發(fā)揮我們的主觀(guān)能動(dòng)性,做出超出這個(gè)崗位應有的能力水平,往往會(huì )帶來(lái)額外的收獲。
  開(kāi)始
  前段時(shí)間接手了一個(gè)采集
項目(只是熟人之間的合法生意)。隨著(zhù)收錄量的增加,“敏感詞過(guò)濾”的工作在所難免,比如政治、色情、暴力、廣告等,這些相關(guān)的詞都要被識別出來(lái)。
  目前市面上能搜集到的敏感詞庫,如果只是整合幾份的話(huà),可以達到幾萬(wàn)甚至更多,因為隨著(zhù)時(shí)間的推移,會(huì )產(chǎn)生各種新的詞匯。
  使用程序識別一篇文章是否收錄
目標敏感詞,以Python為例:
  refusalWord = '敏感詞'
targetText = '內容正文'
if refusalWord in target_text:print(True)
  讓程序在目標文本中搜索這個(gè)敏感詞。如果找到,則說(shuō)明存在敏感詞。這是只有一個(gè)敏感詞的情況。如果有多個(gè)敏感詞,也簡(jiǎn)單。添加一個(gè)循環(huán):
  refusalWord = ['敏感詞1','敏感詞2','敏感詞3']
targetText = '內容正文'
for word in refusalWord:
if word in target_text:print(True)
  該程序在目標文本中逐一搜索敏感詞。如果有幾百個(gè)敏感詞,一個(gè)一個(gè)重復處理,效率很低,感覺(jué)不是很優(yōu)雅。正則表達式可以做得很簡(jiǎn)潔:
  import re
refusalWord = ['敏感詞1','敏感詞2','敏感詞3']
targetText = '內容正文'
if re.search('|'.join(refusalWord),targetText):print(True)
  所有敏感詞用“|”連接 組成一個(gè)正則表達式:“敏感詞1|敏感詞2|敏感詞3”,用這個(gè)表達式匹配目標文本,找出所有出現的敏感詞。
  但是如果有幾萬(wàn)個(gè)甚至更多的敏感詞怎么辦?了解正則表達式的朋友都知道,這樣寫(xiě)的表達式極不合理,可能會(huì )出現各種各樣的問(wèn)題。
  而且,當敏感詞數以萬(wàn)計或更多時(shí),效率會(huì )線(xiàn)性下降。加上后期更換等其他工作,時(shí)間成本會(huì )更高。
  而且,我們之前的演示只是針對只有一個(gè)目標文本的情況。如果敏感詞個(gè)數為N,目標文本為M怎么辦?在簡(jiǎn)單的雙循環(huán)的情況下,時(shí)間復雜度至少是N*M。
  這時(shí)候就需要用到我們今天的主角了:“交流自動(dòng)機”算法。
  PS:不懂技術(shù)的朋友不用糾結代碼,只需要明白這是一個(gè)方案優(yōu)化的問(wèn)題。我們在面對敏感詞從1到N到N++的過(guò)程中不斷優(yōu)化技術(shù)方案,提高效率。
  AC自動(dòng)機算法是一種多模匹配算法。算法的高明和深奧,不是我們這種非科學(xué)的人可以去探究的,但是算法的意義和不同,我們還是可以理解的。
  在上面的例子中,即使是非技術(shù)的朋友也會(huì )明白,隨著(zhù)敏感詞庫數量的不斷增加,程序會(huì )判斷一篇文章是否收錄
某個(gè)詞或敏感詞庫中的某些詞,時(shí)間成本會(huì )逐漸增加。是的,因為無(wú)意義的判斷越來(lái)越多,所以這是一個(gè)單一的模式。
  AC自動(dòng)機通過(guò)使用多模匹配算法來(lái)解決這個(gè)問(wèn)題,也就是說(shuō):隨著(zhù)敏感詞庫的增加,時(shí)間成本保持不變(至少在一定數量級內)。
  那么這與我們正在談?wù)摰?關(guān)鍵詞 清理有什么關(guān)系呢?下面我們一步一步來(lái)演示。
  第一步:選擇一個(gè)有代表性的詞根
  這是一個(gè)擁有數十萬(wàn)詞的“引流”長(cháng)尾詞庫。里面有兩種長(cháng)尾詞,網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞和醫療技術(shù)相關(guān)的長(cháng)尾詞。我們的目的是將這兩類(lèi)長(cháng)尾詞分開(kāi)。
  在Excel中,面對這樣一條數據,需要將兩邊分開(kāi),即過(guò)濾掉目標或者過(guò)濾掉非目標再剔除。我們先來(lái)考慮一下一般的操作方法是怎樣的:
  逐行讀取,標記非目標數據,然后過(guò)濾掉全部刪除,但是對象有幾十萬(wàn),甚至更多。這效率可想而知。能一行一行念下去,是個(gè)兇人。
  選擇一些高頻的非目標詞或詞,然后過(guò)濾掉,反復重復這個(gè)操作。這種方法看起來(lái)很快,一次可以消除一大片區域。
  但是如果你充分理解了關(guān)鍵詞的長(cháng)尾效應,你就會(huì )明白這個(gè)方法在后期會(huì )比較痛苦,因為很多選中的詞在后期不會(huì )刪除很多詞,反復篩選和刪除會(huì )讓人崩潰。
  另外,在Excel上似乎沒(méi)有更好的方法來(lái)處理這樣的問(wèn)題,現在我們用另一種方法來(lái)解決這個(gè)問(wèn)題。
  和往常一樣,先把所有的長(cháng)尾詞切分,統計詞頻:
  接下來(lái),需要根據“常識”人工選擇具有代表性的“類(lèi)別種子根”?!芭c醫療技術(shù)相關(guān)的詞被選擇并放在另一個(gè)文件中。
  所謂“明明而已”,比如:“腳本”,也就是腳本工具,這樣的詞基本不可能和醫療技術(shù)的長(cháng)尾詞有任何關(guān)系,而“傷口”基本不可能與互聯(lián)網(wǎng)推廣有任何關(guān)系。什么關(guān)系。
  所謂“常識”,比如:經(jīng)常有一些與網(wǎng)絡(luò )推廣相關(guān)的平臺名稱(chēng),比如知乎、微信、淘寶等,這些想都沒(méi)想就直接寫(xiě)了。
  所以在選擇的時(shí)候一定要確定這個(gè)詞的歸屬是否明確。如果它是模糊的,我寧愿不要!
  前者被視為“正”,后者被視為“負”?!罢笔俏覀兡繕碎L(cháng)尾詞的代表詞根。選擇多少?同樣,關(guān)鍵詞 符合 28 原則。
  我們可以看到,top root 詞出現的頻率非常高,一個(gè)詞根可以牽連到很多長(cháng)尾詞。我只從幾十萬(wàn)個(gè)長(cháng)尾詞中選出了一百八十個(gè)這樣的長(cháng)尾詞。
  即使長(cháng)尾詞的數量增加了 10 倍,也不會(huì )有更多的代表詞根可供選擇。
  第 2 步:擴展代表根
  我們選擇這些種子詞的目的很簡(jiǎn)單:在將“正面”種子詞納入詞庫時(shí),可以從肯定是目標類(lèi)別的長(cháng)尾詞中篩選出“正面”種子詞。上面我們選擇了“WeChat”作為種子詞,我們認為它只可能出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中,所以可以通過(guò)取“WeChat”過(guò)濾掉所有收錄
“WeChat”的長(cháng)尾詞進(jìn)入詞庫。這些與網(wǎng)絡(luò )推廣有關(guān):
  長(cháng)尾詞一般具有以下特點(diǎn):
  微信引流腳本開(kāi)發(fā)
  對于這樣的長(cháng)尾詞,我們通過(guò)“微信”進(jìn)行提取。除了詞根“drainage”,因為這個(gè)長(cháng)尾詞與網(wǎng)絡(luò )推廣有關(guān),其他詞根很可能與網(wǎng)絡(luò )推廣有關(guān)。比如這里的“Scripts”和“development”是絕對不可能和醫療技術(shù)相關(guān)的,反之亦然:
  膿腫切開(kāi)引流
  我們從種子詞“surgery”中得到,分詞“abscess”和“incision”與網(wǎng)絡(luò )推廣的可能性不大,可以作為新的種子詞加入“anti”的范疇。
  這時(shí)候思路就清晰了。我們首先選取一些有代表性的種子詞,用這些種子詞過(guò)濾出所有相關(guān)的長(cháng)尾詞,然后將這些選取的長(cháng)尾詞進(jìn)行分割,利用關(guān)鍵詞的關(guān)聯(lián),得到更多我們沒(méi)有得到的種子詞在上一步中選擇目標分類(lèi)。
  所有這些種子詞都是我們后續分類(lèi)的基石。
  
  用這個(gè)思路其實(shí)解決了關(guān)鍵詞的長(cháng)尾效應問(wèn)題。我們不能一個(gè)一個(gè)地手動(dòng)選擇種子詞,通過(guò)關(guān)聯(lián)自動(dòng)采集
更多我們沒(méi)有手動(dòng)選擇的種子詞。
  這些種子詞可以幫助我們覆蓋更多的長(cháng)尾詞。
  PS:這是一個(gè)示范思路。篩選必須由程序批量處理,不能在 Excel 上進(jìn)行。
  這一步需要對提取出來(lái)的種子詞計算各自的詞頻,并對應保存,后面會(huì )有用。
  比如我們用“positive”種子詞來(lái)過(guò)濾所有的長(cháng)尾詞,所有這些長(cháng)尾詞在分詞后得到所有的根。這段長(cháng)尾詞(這些被選中的)中每個(gè)詞根的總詞頻是多少。
  第三步:篩選代表詞根
  至此,我們其實(shí)就可以開(kāi)始區分了,不過(guò)還有一些細節需要優(yōu)化:
  1:通過(guò)第二步的自動(dòng)擴容,某個(gè)種子詞會(huì )同時(shí)出現在“正面”和“負面”中,比如“video”。
  這個(gè)詞出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中并不奇怪,但實(shí)際上它也會(huì )出現在醫療技術(shù)“引流”的長(cháng)尾詞中:
  對于這種情況,我們其實(shí)可以考慮一個(gè)問(wèn)題,是偶然的還是正常的。比如“視頻”這個(gè)詞,兩邊經(jīng)常出現,所以干脆不用,也就是完全沒(méi)有代表。性別。
  如果是偶然的,比如“艾滋病”,那也是奇跡??吹皆~庫里的一個(gè)長(cháng)尾詞:
  賣(mài)艾滋病試紙促進(jìn)引流
  除了這個(gè),其他都是醫學(xué)的,所以這是偶然的。對比我們第二步保留的詞頻,哪一邊顯得壓倒性的大,保留那一邊的種子詞,另一邊直接去掉。
  如果數據相差不大,那么雙方都會(huì )直接去掉這個(gè)無(wú)偏種子詞。
  根據我的經(jīng)驗,對于這些事故中的大多數,它們之間的詞頻比較相差很大。
  2:詞匯無(wú)偏好,數字,字符,這些都是無(wú)偏好的,不應該用作種子詞。
  其次,類(lèi)似于:應該、如何、可能、可以、的、是、和?這些副詞、助詞、連詞、語(yǔ)氣助詞、疑問(wèn)句等,沒(méi)有傾向性。分詞時(shí),直接按照jieba的詞性進(jìn)行剔除:
  經(jīng)過(guò)這一步過(guò)濾后,詞頻數據就可以省略了。當然,每一個(gè)“引”字,都要有主根,都要去掉!
  第 4 步:快速分類(lèi)
  現在我們將上面計算出的種子詞作為關(guān)鍵詞。其實(shí)這個(gè)和我們上面說(shuō)的集合例子是一樣的。這些種子詞相當于敏感詞,每個(gè)待分類(lèi)的長(cháng)尾詞相當于目標文本內容。
  傳統的Python使用方式是這樣的:
  # 正
seed_word_r = []
# 反
seed_word_e = []
# 詞庫
keyword = []
for word in keyword:
for r in seed_word_r:
if r in word:
pass
for e in seed_word_e:
if e in word:
pass
  把每個(gè)長(cháng)尾詞拿出來(lái),每個(gè)種子詞和它比對一次,看是否收錄
,然后確定分類(lèi)。
  如果有N個(gè)長(cháng)尾詞,則外層循環(huán)會(huì )執行N次,如果有M個(gè)詞,則N中每個(gè)詞收錄
M次,執行成本可想而知。
  另外,幾萬(wàn)個(gè)甚至更多的詞根與一個(gè)只有10個(gè)字左右的長(cháng)尾詞進(jìn)行比較,勢必會(huì )有太多無(wú)意義的比較。
  這時(shí)可以使用AC自動(dòng)機算法:
  import ahocorasick
# 正
seed_word_r = ['種子詞1','種子詞2','種子詞3','種子詞4']
tree = ahocorasick.AhoCorasick(*seed_word_r)
print(tree.search('長(cháng)尾詞'))
  如上面代碼,我們將種子詞(敏感詞)傳給AC自動(dòng)機建立一個(gè)模型,然后這個(gè)模型可以計算出當前長(cháng)尾詞(目標文本內容)是否收錄
模型中的一些詞,以及display 所有出現的詞都出來(lái)了。
  這種計算并不是像上面的方法那樣,內外循環(huán)一對一的比較。
  因此,在做了上面的長(cháng)尾詞分類(lèi)工作之后,你可以:
  import ahocorasick
# 正
seed_word_r = ['種子詞1','種子詞2','種子詞3','種子詞4']
# 反
seed_word_e = ['種子詞1','種子詞2','種子詞3','種子詞4']
# 詞庫
keyword = []
# 構建
tree_r = ahocorasick.AhoCorasick(*seed_word_r)
tree_e = ahocorasick.AhoCorasick(*seed_word_e)
# 遍歷
for word in keyword:
r = tree_r.search(word)
e = tree_e.search(word)
pass
  每次都把長(cháng)尾詞傳給兩邊,瞬間得到兩邊長(cháng)尾詞的收錄
,pass部分用于針對性判斷。
  可預見(jiàn)的結果如下:
  1:長(cháng)尾詞只屬于“positive”或者只屬于“negative”,那就很簡(jiǎn)單,就屬于對應的類(lèi)別。
  2:如果一個(gè)長(cháng)尾詞不屬于“positive”或“negative”,則先將這種情況歸為一類(lèi)保存。
  3:某個(gè)長(cháng)尾詞既屬于“正面”又屬于“負面”,需要進(jìn)一步判斷。我們把這種詞歸為一類(lèi)保存起來(lái)。
  r和e都是集合數據結構,根據交集和并集組合的長(cháng)度判斷歸屬。
  
  w1不賦值,w2同時(shí)賦值,w3是“positive”類(lèi)別,也就是我們要的與網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞,w4是“reverse”,與網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞到我們不想要的醫療技術(shù)。
  3、4的內容不會(huì )有問(wèn)題,如果偶爾分類(lèi)不準確,找出不準確的詞匯,追溯其種子詞。這一定是種子詞的錯誤選擇。
  刪掉重新運行代碼即可,所以在開(kāi)始手動(dòng)選擇的時(shí)候,一定要選擇明確的歸屬地,不能含糊其辭。
  但是我們看到w2,也就是同時(shí)還有1.9M屬于它,打開(kāi)看看:
  還有6W多的記錄無(wú)法確定分類(lèi)(截圖沒(méi)有完整展示,懶得再截了)。雖然按比例來(lái)說(shuō),我們已經(jīng)分類(lèi)了80%,但是超過(guò)6W還是很多的。
  既然都是同時(shí)判斷屬于的,也就是兩邊都能匹配到,那我們就隨機取一個(gè)詞到原程序中,再跑一遍,看兩邊匹配的是什么。
  闌尾炎引流管每日引流
  這是一個(gè)與醫療技術(shù)相關(guān)的長(cháng)尾詞。程序運行后,這個(gè)長(cháng)尾詞的結果是:
  正面:交通
  逆位:闌尾,闌尾炎,引流,引流管,引流
  這是長(cháng)尾詞在種子詞中命中的詞,所以顯然程序沒(méi)有問(wèn)題,因為詞流量出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中是正常的。
  但是這個(gè)詞跟醫療有關(guān),我們還是希望它能被判“反”,怎么辦呢?
  還是要用到概率的思維,結合我們上面說(shuō)的相關(guān)性,一個(gè)長(cháng)尾詞屬于哪個(gè)領(lǐng)域,分詞后的詞屬于這個(gè)領(lǐng)域的可能性很大。
  所以我們從上面可以看出,這個(gè)長(cháng)尾詞中命中“anti”的種子詞數量遠遠超過(guò)命中“positive”的種子詞。,我們可以直接獎勵人數最多的一方。
  優(yōu)化程序判斷后,結果為:
  可以看到w2從1.9M下降到300+kb,w3和w4都有明顯的增加,因為更多的詞被分類(lèi)了。
  可以看到w2中有10000多個(gè)詞條。對于專(zhuān)門(mén)和Excel打交道的seo或者sem人員來(lái)說(shuō),這樣的數據量,反復操作幾次就可以很快整理出來(lái)。
  但其實(shí)如果你愿意,這個(gè)還是可以?xún)?yōu)化的。w2會(huì )有這么多,很大一部分原因是準確分詞的問(wèn)題。有興趣的可以自行研究?jì)?yōu)化方案。
  對于未提及的 w1:
  我故意把它截短了一點(diǎn)。為什么這些詞不屬于任何一方?看完之后我就明白了。事實(shí)上,這類(lèi)詞已經(jīng)超出了長(cháng)尾詞的范疇。去掉“引流”,去掉不傾斜的詞后,基本就沒(méi)有詞了。是時(shí)候做出判斷了。
  這種詞結構非常簡(jiǎn)單。如果確實(shí)需要,可以在Excel中快速整理。
  最后放上w3和w4的數據:
  總共有15W+的長(cháng)尾詞,這就是我們需要的數據!
  總共有30W+的長(cháng)尾詞,這是我們不需要的數據!
  交流自動(dòng)機
  # pip install ahocorasick-python
import ahocorasick
t1 = time.time()
ac = ahocorasick.AhoCorasick(*seed_word)
t2 = time.time()
rw = []
print(t2-t1)
for word in keyword:
sw = ac.search(word)
for i in sw:
word = word.replace(i,'***')
rw.append(word)
t3 = time.time()
print(t3-t2)
rw = []
t1 = time.time()
for word in keyword:
for i in seed_word:
if i in word:
word = word.replace(i,'***')
rw.append(word)
t2 = time.time()
print(t2-t1)
  我用的是AC Automata的第三方模塊,算法效率還是不錯的,一共5W詞匯和50W目標文本,傳統方式共耗時(shí)1450秒,使用AC Automata,構建耗時(shí)20秒,但這是一次性的 具體來(lái)說(shuō),判斷加替換是100秒。
  其實(shí)無(wú)論是種子詞聯(lián)想的思想還是AC自動(dòng)機算法,一個(gè)不恰當的類(lèi)比類(lèi)似于將線(xiàn)性問(wèn)題轉化為指數問(wèn)題(這個(gè)表達式可能有問(wèn)題),時(shí)間成本不會(huì )機械地增加隨著(zhù)數據量的增加。上升。
  敏感詞過(guò)濾等問(wèn)題還有其他解決方案,比如DFA,解決方案沒(méi)有標準,只有適合自己的。
  結語(yǔ)
  如何大量剔除不相似的長(cháng)尾詞,我在之前的公眾號付費文章中也給出了解決方案,但是需要網(wǎng)絡(luò )數據做支撐判斷,而且這個(gè)是完全本地化的,相對來(lái)說(shuō)更經(jīng)濟。
  這個(gè)工作一般不會(huì )超過(guò)半個(gè)小時(shí),得益于“用種子詞帶出更多種子詞”的思路,“根據概率判斷歸屬”的邏輯,以及“AC自動(dòng)機算法”的高效,會(huì )有幾十萬(wàn)和幾百萬(wàn)的處理時(shí)間相差不大,程序真正的計算時(shí)間不到10分鐘。
  雖然我們絞盡腦汁,用了很多策略來(lái)完成這樣的工作,但當我們第一次完成它時(shí),我們可能會(huì )感到有些自豪。
  但實(shí)際上就價(jià)值而言,這是一個(gè)甚至不值得對外談?wù)摰墓ぷ黜椖?,因為它不是具體的結果指標。
  在外人看來(lái),這就是你立足的基礎,也確實(shí)如此。
  另外,可能有朋友覺(jué)得用AC自動(dòng)機算法和普通方法相比,幾十萬(wàn)字的時(shí)間差相差不大,不亞于程序計算的幾十分鐘。
  沒(méi)錯,整個(gè)過(guò)程沒(méi)有標準的步驟或解決方案。我只是想傳達一個(gè)工作方法。遇到很多難題時(shí),發(fā)散思路,換個(gè)角度。其實(shí)有很多思路可以解決。.
  同時(shí),對于懂技術(shù)的朋友來(lái)說(shuō),與傳統方法相比,使用AC自動(dòng)機只是寫(xiě)幾行代碼而已,但好處不僅限于這些。多學(xué)一門(mén)技術(shù)可以解決很多同類(lèi)問(wèn)題。
  對于上面提到的采集項目,我可以使用AC自動(dòng)機來(lái)處理敏感詞和文章的不斷增加。下一階段我會(huì )在這個(gè)采集項目上做另外一個(gè)工作:篩選目標領(lǐng)域的內容。
  在目標集合源中,并不是所有的內容都一定是我們目標字段的內容??赡軙?huì )有很多無(wú)關(guān)緊要的內容。對于不相關(guān)的內容,當然是選擇丟棄,不存儲。
  因此需要設計一個(gè)簡(jiǎn)單的判斷邏輯,類(lèi)似推薦算法給文章打標簽,判斷當前內容是否屬于目標領(lǐng)域,如果不屬于則不采集,減少人工審核的工作量。是最高的。
  所以:我覺(jué)得默默地啃這些棘手的問(wèn)題,目前看來(lái)是吃虧的,但在以后的工作中,肯定會(huì )帶來(lái)更多的“復利”。
  PS:很多做長(cháng)尾詞數據處理的朋友跟我說(shuō)不知道怎么清洗。過(guò)段時(shí)間會(huì )寫(xiě)類(lèi)似的工具,放到公眾號上。
  推薦文章:刷百度關(guān)鍵詞排名 網(wǎng)站排名
  平頂山新廣網(wǎng)絡(luò )科技有限公司
  優(yōu)化原則:
  整站優(yōu)化的原則是將高質(zhì)量的數據反饋給百度,從而提高網(wǎng)站排名、字數和流量。比如增加蜘蛛的爬行量,增加外鏈數量,站點(diǎn)等級,優(yōu)化蜘蛛的爬行速度等,進(jìn)而提升關(guān)鍵詞排名,首頁(yè)排名字數和交通。
  效果特點(diǎn):
  1、整體提升百度排名效果顯著(zhù);
  2、完全符合百度排名規則,沒(méi)有;與常規SEO相比,提升更快,排名效果直接,大部分直接上**,一批一批排名,不是一個(gè)一個(gè)排名;
  3、與常規SEO相比,成本非常低。
  全站自動(dòng)提取百度排名,手機端也可以同時(shí)上傳單詞,但不計入單詞數!換句話(huà)說(shuō),手機上的排名是一個(gè)禮物!
  收費規則:真正的按效果付費
  以愛(ài)站網(wǎng)基礎查詢(xún)數據為基礎,根據當前總字數確定首頁(yè)單價(jià)和低增長(cháng)數量。
  費用達到上限后,將支付任何額外的字數。
  1、整站優(yōu)化的原則是什么?
  答:整站優(yōu)化的原則是將優(yōu)質(zhì)數據反饋給百度,從而提高網(wǎng)站排名、字數和流量。比如增加蜘蛛的爬行量,增加外鏈數量,站點(diǎn)等級,優(yōu)化蜘蛛的爬行速度等,進(jìn)而提升關(guān)鍵詞排名,首頁(yè)排名字數和交通。
  2、首頁(yè)添加的關(guān)鍵詞從何而來(lái)?是長(cháng)尾詞嗎?有索引還是沒(méi)有索引?
  A:首頁(yè)添加到當前*知名頁(yè)面的關(guān)鍵詞和頁(yè)面SEO布局的關(guān)鍵詞相關(guān)性高但沒(méi)有排名;批量?jì)?yōu)化,提升到首頁(yè),結算標準是參考愛(ài)站數據,這些詞都是索引至少50以上的詞,否則愛(ài)站詞庫不收錄。
  3、我可以指定關(guān)鍵詞被提升到首頁(yè)嗎?
  答:第一步是生成詞,對沒(méi)有排名的詞進(jìn)行排名;第二步,將已經(jīng)排名的詞推廣到首頁(yè)??蛻?hù)可以提交一些詞給我們,但需要排名,在優(yōu)化范圍內。正常流程是前期增加總字數,后期再增加到首頁(yè)**的字數。
  4.我可以?xún)?yōu)化字數嗎?
  答:整站優(yōu)化是真正的按效果付費,你加多少字就收多少。我們在優(yōu)化上是認真的,毫無(wú)保留的。我們始終為客戶(hù)著(zhù)想,幫助他們改善,以達到最佳效果。字數越多,效果越好,平均成本越低。
  5、整站優(yōu)化需要多長(cháng)時(shí)間才能見(jiàn)效?
  答:基礎數據好的時(shí)候,優(yōu)化10-20天后會(huì )有明顯的數據增長(cháng)。如果三個(gè)月沒(méi)有明顯效果,會(huì )全額支付(這個(gè)概率是最低的)。
  
  如何優(yōu)化文章關(guān)鍵詞的排名?
  有的排在首頁(yè),有的排在欄目頁(yè),有的排在大量的文章內容。一個(gè)經(jīng)過(guò)適當優(yōu)化的結果,在正常情況下,應該有大量的文章內容頁(yè)面排名。大量的文章頁(yè)面排名意味著(zhù)大量的精準點(diǎn)擊,意味著(zhù)收錄頁(yè)面將權重傳遞給欄目頁(yè)面和內容頁(yè)面。
  在某些情況下,文章的排名會(huì )很低。在這種情況下,盡可能對收錄的文章進(jìn)行排名就顯得非常重要,這幾乎是優(yōu)化的必經(jīng)之路。針對文章關(guān)鍵詞排名偏低,百萬(wàn)數系統建議從以下幾個(gè)方面入手。
  增加了主站的重量。
  如何快速增加成品重量?理想很美好,現實(shí)卻很骨氣。主站權重的增加可以直接提升內容文章頁(yè)或專(zhuān)欄頁(yè)的排名。這個(gè)道理誰(shuí)都懂,但是實(shí)現起來(lái)卻相當困難。
  當前文章頁(yè)面優(yōu)化設置。
  這個(gè)優(yōu)化點(diǎn)是可以實(shí)現的。具體操作包括但不限于:設置文章頁(yè)面自身新聞源格式、調用相關(guān)內容、設置豐富元素、圖文結合展示內容、設置面包屑導航、通過(guò)ugc增加頁(yè)面價(jià)值、添加內容詞、更高的關(guān)鍵詞密度(精確匹配和分詞匹配)、重要的關(guān)鍵詞出現在重要的位置等。
  外鏈方式提高了文章頁(yè)的關(guān)鍵詞排名。
  鏈接可以提高所有頁(yè)面的關(guān)鍵詞排名,包括首頁(yè)、專(zhuān)欄頁(yè)、內容頁(yè)。知道了這個(gè)原理之后,就可以通過(guò)錨文本等方式來(lái)推進(jìn)遲發(fā)文章的排名。
  在網(wǎng)上看到一篇關(guān)于文章優(yōu)化技巧的文章,可以參考如下:
  1.文章標題優(yōu)化技巧
  文章是吸引用戶(hù)點(diǎn)擊的因素。文章的點(diǎn)擊率高不高取決于文章的標題是否吸引人。很多站長(cháng)在寫(xiě)標題的時(shí)候很隨意,沒(méi)有對標題進(jìn)行優(yōu)化,也沒(méi)有加入營(yíng)銷(xiāo)詞。這樣一來(lái),再精彩的內容,也沒(méi)有多少用戶(hù)會(huì )看。大家可以看看新聞的頭條,為什么點(diǎn)擊率這么高,頭條的吸引力有很大的作用。
  那么如何做好文章標題優(yōu)化技巧呢?
  1、題目主題要結合企業(yè)需要,不能脫離事實(shí);
  2.在標題中添加用戶(hù)關(guān)注的熱門(mén)話(huà)題;
  3、在標題中加入利誘等詞,就像商城活躍的詞一樣;
  4、使用關(guān)鍵詞選詞工具,選擇長(cháng)尾關(guān)鍵詞和問(wèn)題關(guān)鍵詞作為標題;這些方法對于吸引用戶(hù)點(diǎn)擊非常實(shí)用,具體操作需要結合企業(yè)的實(shí)際情況,才能吸引到自己企業(yè)的潛在客戶(hù)。
  2.文章關(guān)鍵詞出現的頻率
  很多新手站長(cháng)為了增加關(guān)鍵詞的密度,告訴搜索引擎優(yōu)化文章中的關(guān)鍵詞,惡意堆砌人為干預關(guān)鍵詞的頻率,導致句子不連貫而且嚴重影響用戶(hù)閱讀時(shí),跳出率高,嚴重影響文章質(zhì)量。這種搜索引擎也不喜歡。站長(cháng)一定要注意不要把關(guān)鍵詞堆起來(lái),就讓流量增加關(guān)鍵詞,記住關(guān)鍵詞應該出現在標題里,這樣自然就形成了關(guān)鍵詞的密度,會(huì )被搜索引擎識別,搜索引擎會(huì )很容易判斷出需要優(yōu)化的關(guān)鍵詞。
  3. 關(guān)鍵詞應該出現在哪里
  說(shuō)到這一點(diǎn),主要是考慮文章關(guān)鍵詞的排版,以免形成惡意堆砌,同時(shí)也像搜索引擎一樣清晰表達文章關(guān)鍵詞的內部?jì)?yōu)化。
  
  1、標題收錄
關(guān)鍵詞;
  2、關(guān)鍵詞出現在段落的句中;
  3、最后必須有關(guān)鍵詞;
  4. 中間內部出現3-5次;
  5、關(guān)鍵詞必須收錄
在文章圖片的ALT標簽中;只要做好這幾點(diǎn),關(guān)鍵詞的密度自然會(huì )增加,切記不要堆起來(lái)。
  4. 關(guān)鍵詞大膽的處理
  關(guān)鍵詞加粗是提醒搜索引擎這是重點(diǎn)關(guān)鍵詞,沒(méi)必要每次出現關(guān)鍵詞都加粗,這個(gè)沒(méi)有必要,但是會(huì )導致懷疑過(guò)度優(yōu)化,記住 關(guān)鍵詞 出現時(shí)可以加粗。
  5.文章標簽
  TAG標簽是改善內鏈的重要優(yōu)化技術(shù),便于引導蜘蛛深度爬取,也便于用戶(hù)深度瀏覽,提高關(guān)鍵詞的權重和排名。TAG關(guān)鍵詞標簽就是把內容相同的文章整合到一個(gè)頁(yè)面里,怎么整合呢?對于每個(gè)優(yōu)化過(guò)的關(guān)鍵詞,設置一個(gè)TAG關(guān)鍵詞標簽,使用程序使用TAG關(guān)鍵詞標簽放在一起。
  6. 關(guān)鍵詞 錨文本鏈接
  關(guān)鍵詞 添加鏈接,這個(gè)也叫關(guān)鍵詞錨文本,也是優(yōu)化內鏈的方式。做一個(gè)錨文本鏈接,引導蜘蛛抓取內容,引導用戶(hù)瀏覽企業(yè)要給用戶(hù)瀏覽的內容。只需在第一次出現的 關(guān)鍵詞 處添加一個(gè)錨文本鏈接。一旦出現就沒(méi)有必要添加錨文本鏈接。這是典型的方式,不利于優(yōu)化。同一個(gè)關(guān)鍵詞可以添加一次鏈接,不同的關(guān)鍵詞不能超過(guò)3個(gè)鏈接。
  7.關(guān)鍵詞的出現次數
  一篇文章可以?xún)?yōu)化1-3個(gè)關(guān)鍵詞,要求三個(gè)關(guān)鍵詞都是同一類(lèi)型。如果不是同一類(lèi)型,那么文章就很難寫(xiě)了。寫(xiě)在一篇文章里,有點(diǎn)舍不得,*去中心化,搜索引擎不知道你要優(yōu)化哪個(gè)關(guān)鍵詞。
  8.圖文顯示
  文章考慮了搜索引擎,也需要考慮用戶(hù)和用戶(hù)的瀏覽環(huán)境。簡(jiǎn)單的一堆文字很容易造成視覺(jué)疲勞,降低宣傳效果。有了圖片,更好地排版文章,優(yōu)化文章結構。直觀(guān)地向用戶(hù)表達文章的主題。注意圖片不要超過(guò)200KB,以免影響頁(yè)面加載速度。
  文章優(yōu)化技巧很重要。這是幫助企業(yè)獲得更好的權重和關(guān)鍵詞排名必須要做的工作。很多公司天天更新,有一些原創(chuàng )文章,但是沒(méi)有考慮使用文章優(yōu)化技巧。降低了文章的優(yōu)化值。通過(guò)做文章優(yōu)化,可以為公司帶來(lái)更多的長(cháng)尾關(guān)鍵詞排名,尤其是新站**詞,短時(shí)間內很難有很好的排名,所以多用文章來(lái)提升排名是非常重要的。使長(cháng)尾 關(guān)鍵詞 需要。
  文章排名不僅與內容質(zhì)量本身有關(guān),還與頁(yè)面質(zhì)量和網(wǎng)站質(zhì)量有關(guān)。文章排名偏低,按照上面的方法,基本可以做到**。注意:在很多情況下,理想與現實(shí)是有差距的。從SEO的角度來(lái)看,理論點(diǎn)并不復雜,但具體優(yōu)化要素的實(shí)現卻很復雜。
  關(guān)鍵詞排名優(yōu)化問(wèn)題,0375互聯(lián)網(wǎng)媒體一站式解決方案,快速穩定
  關(guān)鍵詞優(yōu)化排名,平均2-4周上傳詞,進(jìn)入搜索引擎首頁(yè),持續穩定
  -/gjicie/- 查看全部

  干貨內容:seo清洗百萬(wàn)長(cháng)尾詞數據的策略
  前言
  要不是有CEO主動(dòng)找了高薪SEO的人坐飛機過(guò)來(lái),說(shuō)實(shí)話(huà),很多SEO人員在公司都是“弱勢群體”。
  絕大多數普通seo人員在公司和跨部門(mén)溝通中沒(méi)有多少相應的話(huà)語(yǔ)權,有很多細節無(wú)法協(xié)調。
  在這樣的環(huán)境下,seoer要想做好,就必須充分發(fā)揮自己的主觀(guān)能動(dòng)性,千方百計去完成那些表面上不值一提,暗地里卻又不可避免的事情。
  問(wèn)題
  seo和sem需要在全網(wǎng)大量挖掘長(cháng)尾詞,但是大規模的長(cháng)尾詞注定會(huì )帶來(lái)一些數據清洗工作。在大多數情況下,清理工作可以在 Excel 中完成,但也有很多情況。Excel很難處理,比如:
  這是從第三方關(guān)鍵詞工具下載的詞根“drainage”的長(cháng)尾詞數據,但是遇到了一個(gè)尷尬的問(wèn)題。詞根“drainage”有同義詞但場(chǎng)景不同,所以會(huì )導致挖掘出很多不相關(guān)的長(cháng)尾詞:
  事實(shí)上,這種情況很常見(jiàn)。單個(gè)詞往往不可避免地與其他場(chǎng)景混淆,例如:
  水果中的“蘋(píng)果”、手機中的“蘋(píng)果”和電影中的“蘋(píng)果”,是一個(gè)形同字義卻截然不同的詞。單純的用詞根挖詞,自然會(huì )挖出很多非目標的長(cháng)尾詞。
  類(lèi)似的情況還有很多,那么問(wèn)題來(lái)了:剔除非目標長(cháng)尾詞是必須的。這樣的細枝末節在seo工作中做好是理所當然的事情。老板一來(lái)不會(huì )幫我們做,二來(lái)也不會(huì )指派我們去做。如果這是一個(gè)百萬(wàn)級別的長(cháng)尾詞數據,在Excel中全部篩選淘汰,這個(gè)項目可能已經(jīng)過(guò)時(shí)了。
  面對如此雜亂的長(cháng)尾詞數據,如何進(jìn)行高效的過(guò)濾篩選?
  今天的文章是一篇完全基于技術(shù)的內容,但是對于不懂技術(shù)的朋友,強烈推薦完整閱讀。有兩點(diǎn):
  技術(shù)是另一種思維方式。不是技術(shù)的朋友,可以看看技術(shù)人員遇到問(wèn)題是怎么處理的。
  在“網(wǎng)絡(luò )營(yíng)銷(xiāo)”工作中,有很多工作超出了我們的能力范圍,但是充分發(fā)揮我們的主觀(guān)能動(dòng)性,做出超出這個(gè)崗位應有的能力水平,往往會(huì )帶來(lái)額外的收獲。
  開(kāi)始
  前段時(shí)間接手了一個(gè)采集
項目(只是熟人之間的合法生意)。隨著(zhù)收錄量的增加,“敏感詞過(guò)濾”的工作在所難免,比如政治、色情、暴力、廣告等,這些相關(guān)的詞都要被識別出來(lái)。
  目前市面上能搜集到的敏感詞庫,如果只是整合幾份的話(huà),可以達到幾萬(wàn)甚至更多,因為隨著(zhù)時(shí)間的推移,會(huì )產(chǎn)生各種新的詞匯。
  使用程序識別一篇文章是否收錄
目標敏感詞,以Python為例:
  refusalWord = '敏感詞'
targetText = '內容正文'
if refusalWord in target_text:print(True)
  讓程序在目標文本中搜索這個(gè)敏感詞。如果找到,則說(shuō)明存在敏感詞。這是只有一個(gè)敏感詞的情況。如果有多個(gè)敏感詞,也簡(jiǎn)單。添加一個(gè)循環(huán):
  refusalWord = ['敏感詞1','敏感詞2','敏感詞3']
targetText = '內容正文'
for word in refusalWord:
if word in target_text:print(True)
  該程序在目標文本中逐一搜索敏感詞。如果有幾百個(gè)敏感詞,一個(gè)一個(gè)重復處理,效率很低,感覺(jué)不是很優(yōu)雅。正則表達式可以做得很簡(jiǎn)潔:
  import re
refusalWord = ['敏感詞1','敏感詞2','敏感詞3']
targetText = '內容正文'
if re.search('|'.join(refusalWord),targetText):print(True)
  所有敏感詞用“|”連接 組成一個(gè)正則表達式:“敏感詞1|敏感詞2|敏感詞3”,用這個(gè)表達式匹配目標文本,找出所有出現的敏感詞。
  但是如果有幾萬(wàn)個(gè)甚至更多的敏感詞怎么辦?了解正則表達式的朋友都知道,這樣寫(xiě)的表達式極不合理,可能會(huì )出現各種各樣的問(wèn)題。
  而且,當敏感詞數以萬(wàn)計或更多時(shí),效率會(huì )線(xiàn)性下降。加上后期更換等其他工作,時(shí)間成本會(huì )更高。
  而且,我們之前的演示只是針對只有一個(gè)目標文本的情況。如果敏感詞個(gè)數為N,目標文本為M怎么辦?在簡(jiǎn)單的雙循環(huán)的情況下,時(shí)間復雜度至少是N*M。
  這時(shí)候就需要用到我們今天的主角了:“交流自動(dòng)機”算法。
  PS:不懂技術(shù)的朋友不用糾結代碼,只需要明白這是一個(gè)方案優(yōu)化的問(wèn)題。我們在面對敏感詞從1到N到N++的過(guò)程中不斷優(yōu)化技術(shù)方案,提高效率。
  AC自動(dòng)機算法是一種多模匹配算法。算法的高明和深奧,不是我們這種非科學(xué)的人可以去探究的,但是算法的意義和不同,我們還是可以理解的。
  在上面的例子中,即使是非技術(shù)的朋友也會(huì )明白,隨著(zhù)敏感詞庫數量的不斷增加,程序會(huì )判斷一篇文章是否收錄
某個(gè)詞或敏感詞庫中的某些詞,時(shí)間成本會(huì )逐漸增加。是的,因為無(wú)意義的判斷越來(lái)越多,所以這是一個(gè)單一的模式。
  AC自動(dòng)機通過(guò)使用多模匹配算法來(lái)解決這個(gè)問(wèn)題,也就是說(shuō):隨著(zhù)敏感詞庫的增加,時(shí)間成本保持不變(至少在一定數量級內)。
  那么這與我們正在談?wù)摰?關(guān)鍵詞 清理有什么關(guān)系呢?下面我們一步一步來(lái)演示。
  第一步:選擇一個(gè)有代表性的詞根
  這是一個(gè)擁有數十萬(wàn)詞的“引流”長(cháng)尾詞庫。里面有兩種長(cháng)尾詞,網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞和醫療技術(shù)相關(guān)的長(cháng)尾詞。我們的目的是將這兩類(lèi)長(cháng)尾詞分開(kāi)。
  在Excel中,面對這樣一條數據,需要將兩邊分開(kāi),即過(guò)濾掉目標或者過(guò)濾掉非目標再剔除。我們先來(lái)考慮一下一般的操作方法是怎樣的:
  逐行讀取,標記非目標數據,然后過(guò)濾掉全部刪除,但是對象有幾十萬(wàn),甚至更多。這效率可想而知。能一行一行念下去,是個(gè)兇人。
  選擇一些高頻的非目標詞或詞,然后過(guò)濾掉,反復重復這個(gè)操作。這種方法看起來(lái)很快,一次可以消除一大片區域。
  但是如果你充分理解了關(guān)鍵詞的長(cháng)尾效應,你就會(huì )明白這個(gè)方法在后期會(huì )比較痛苦,因為很多選中的詞在后期不會(huì )刪除很多詞,反復篩選和刪除會(huì )讓人崩潰。
  另外,在Excel上似乎沒(méi)有更好的方法來(lái)處理這樣的問(wèn)題,現在我們用另一種方法來(lái)解決這個(gè)問(wèn)題。
  和往常一樣,先把所有的長(cháng)尾詞切分,統計詞頻:
  接下來(lái),需要根據“常識”人工選擇具有代表性的“類(lèi)別種子根”?!芭c醫療技術(shù)相關(guān)的詞被選擇并放在另一個(gè)文件中。
  所謂“明明而已”,比如:“腳本”,也就是腳本工具,這樣的詞基本不可能和醫療技術(shù)的長(cháng)尾詞有任何關(guān)系,而“傷口”基本不可能與互聯(lián)網(wǎng)推廣有任何關(guān)系。什么關(guān)系。
  所謂“常識”,比如:經(jīng)常有一些與網(wǎng)絡(luò )推廣相關(guān)的平臺名稱(chēng),比如知乎、微信、淘寶等,這些想都沒(méi)想就直接寫(xiě)了。
  所以在選擇的時(shí)候一定要確定這個(gè)詞的歸屬是否明確。如果它是模糊的,我寧愿不要!
  前者被視為“正”,后者被視為“負”?!罢笔俏覀兡繕碎L(cháng)尾詞的代表詞根。選擇多少?同樣,關(guān)鍵詞 符合 28 原則。
  我們可以看到,top root 詞出現的頻率非常高,一個(gè)詞根可以牽連到很多長(cháng)尾詞。我只從幾十萬(wàn)個(gè)長(cháng)尾詞中選出了一百八十個(gè)這樣的長(cháng)尾詞。
  即使長(cháng)尾詞的數量增加了 10 倍,也不會(huì )有更多的代表詞根可供選擇。
  第 2 步:擴展代表根
  我們選擇這些種子詞的目的很簡(jiǎn)單:在將“正面”種子詞納入詞庫時(shí),可以從肯定是目標類(lèi)別的長(cháng)尾詞中篩選出“正面”種子詞。上面我們選擇了“WeChat”作為種子詞,我們認為它只可能出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中,所以可以通過(guò)取“WeChat”過(guò)濾掉所有收錄
“WeChat”的長(cháng)尾詞進(jìn)入詞庫。這些與網(wǎng)絡(luò )推廣有關(guān):
  長(cháng)尾詞一般具有以下特點(diǎn):
  微信引流腳本開(kāi)發(fā)
  對于這樣的長(cháng)尾詞,我們通過(guò)“微信”進(jìn)行提取。除了詞根“drainage”,因為這個(gè)長(cháng)尾詞與網(wǎng)絡(luò )推廣有關(guān),其他詞根很可能與網(wǎng)絡(luò )推廣有關(guān)。比如這里的“Scripts”和“development”是絕對不可能和醫療技術(shù)相關(guān)的,反之亦然:
  膿腫切開(kāi)引流
  我們從種子詞“surgery”中得到,分詞“abscess”和“incision”與網(wǎng)絡(luò )推廣的可能性不大,可以作為新的種子詞加入“anti”的范疇。
  這時(shí)候思路就清晰了。我們首先選取一些有代表性的種子詞,用這些種子詞過(guò)濾出所有相關(guān)的長(cháng)尾詞,然后將這些選取的長(cháng)尾詞進(jìn)行分割,利用關(guān)鍵詞的關(guān)聯(lián),得到更多我們沒(méi)有得到的種子詞在上一步中選擇目標分類(lèi)。
  所有這些種子詞都是我們后續分類(lèi)的基石。
  
  用這個(gè)思路其實(shí)解決了關(guān)鍵詞的長(cháng)尾效應問(wèn)題。我們不能一個(gè)一個(gè)地手動(dòng)選擇種子詞,通過(guò)關(guān)聯(lián)自動(dòng)采集
更多我們沒(méi)有手動(dòng)選擇的種子詞。
  這些種子詞可以幫助我們覆蓋更多的長(cháng)尾詞。
  PS:這是一個(gè)示范思路。篩選必須由程序批量處理,不能在 Excel 上進(jìn)行。
  這一步需要對提取出來(lái)的種子詞計算各自的詞頻,并對應保存,后面會(huì )有用。
  比如我們用“positive”種子詞來(lái)過(guò)濾所有的長(cháng)尾詞,所有這些長(cháng)尾詞在分詞后得到所有的根。這段長(cháng)尾詞(這些被選中的)中每個(gè)詞根的總詞頻是多少。
  第三步:篩選代表詞根
  至此,我們其實(shí)就可以開(kāi)始區分了,不過(guò)還有一些細節需要優(yōu)化:
  1:通過(guò)第二步的自動(dòng)擴容,某個(gè)種子詞會(huì )同時(shí)出現在“正面”和“負面”中,比如“video”。
  這個(gè)詞出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中并不奇怪,但實(shí)際上它也會(huì )出現在醫療技術(shù)“引流”的長(cháng)尾詞中:
  對于這種情況,我們其實(shí)可以考慮一個(gè)問(wèn)題,是偶然的還是正常的。比如“視頻”這個(gè)詞,兩邊經(jīng)常出現,所以干脆不用,也就是完全沒(méi)有代表。性別。
  如果是偶然的,比如“艾滋病”,那也是奇跡??吹皆~庫里的一個(gè)長(cháng)尾詞:
  賣(mài)艾滋病試紙促進(jìn)引流
  除了這個(gè),其他都是醫學(xué)的,所以這是偶然的。對比我們第二步保留的詞頻,哪一邊顯得壓倒性的大,保留那一邊的種子詞,另一邊直接去掉。
  如果數據相差不大,那么雙方都會(huì )直接去掉這個(gè)無(wú)偏種子詞。
  根據我的經(jīng)驗,對于這些事故中的大多數,它們之間的詞頻比較相差很大。
  2:詞匯無(wú)偏好,數字,字符,這些都是無(wú)偏好的,不應該用作種子詞。
  其次,類(lèi)似于:應該、如何、可能、可以、的、是、和?這些副詞、助詞、連詞、語(yǔ)氣助詞、疑問(wèn)句等,沒(méi)有傾向性。分詞時(shí),直接按照jieba的詞性進(jìn)行剔除:
  經(jīng)過(guò)這一步過(guò)濾后,詞頻數據就可以省略了。當然,每一個(gè)“引”字,都要有主根,都要去掉!
  第 4 步:快速分類(lèi)
  現在我們將上面計算出的種子詞作為關(guān)鍵詞。其實(shí)這個(gè)和我們上面說(shuō)的集合例子是一樣的。這些種子詞相當于敏感詞,每個(gè)待分類(lèi)的長(cháng)尾詞相當于目標文本內容。
  傳統的Python使用方式是這樣的:
  # 正
seed_word_r = []
# 反
seed_word_e = []
# 詞庫
keyword = []
for word in keyword:
for r in seed_word_r:
if r in word:
pass
for e in seed_word_e:
if e in word:
pass
  把每個(gè)長(cháng)尾詞拿出來(lái),每個(gè)種子詞和它比對一次,看是否收錄
,然后確定分類(lèi)。
  如果有N個(gè)長(cháng)尾詞,則外層循環(huán)會(huì )執行N次,如果有M個(gè)詞,則N中每個(gè)詞收錄
M次,執行成本可想而知。
  另外,幾萬(wàn)個(gè)甚至更多的詞根與一個(gè)只有10個(gè)字左右的長(cháng)尾詞進(jìn)行比較,勢必會(huì )有太多無(wú)意義的比較。
  這時(shí)可以使用AC自動(dòng)機算法:
  import ahocorasick
# 正
seed_word_r = ['種子詞1','種子詞2','種子詞3','種子詞4']
tree = ahocorasick.AhoCorasick(*seed_word_r)
print(tree.search('長(cháng)尾詞'))
  如上面代碼,我們將種子詞(敏感詞)傳給AC自動(dòng)機建立一個(gè)模型,然后這個(gè)模型可以計算出當前長(cháng)尾詞(目標文本內容)是否收錄
模型中的一些詞,以及display 所有出現的詞都出來(lái)了。
  這種計算并不是像上面的方法那樣,內外循環(huán)一對一的比較。
  因此,在做了上面的長(cháng)尾詞分類(lèi)工作之后,你可以:
  import ahocorasick
# 正
seed_word_r = ['種子詞1','種子詞2','種子詞3','種子詞4']
# 反
seed_word_e = ['種子詞1','種子詞2','種子詞3','種子詞4']
# 詞庫
keyword = []
# 構建
tree_r = ahocorasick.AhoCorasick(*seed_word_r)
tree_e = ahocorasick.AhoCorasick(*seed_word_e)
# 遍歷
for word in keyword:
r = tree_r.search(word)
e = tree_e.search(word)
pass
  每次都把長(cháng)尾詞傳給兩邊,瞬間得到兩邊長(cháng)尾詞的收錄
,pass部分用于針對性判斷。
  可預見(jiàn)的結果如下:
  1:長(cháng)尾詞只屬于“positive”或者只屬于“negative”,那就很簡(jiǎn)單,就屬于對應的類(lèi)別。
  2:如果一個(gè)長(cháng)尾詞不屬于“positive”或“negative”,則先將這種情況歸為一類(lèi)保存。
  3:某個(gè)長(cháng)尾詞既屬于“正面”又屬于“負面”,需要進(jìn)一步判斷。我們把這種詞歸為一類(lèi)保存起來(lái)。
  r和e都是集合數據結構,根據交集和并集組合的長(cháng)度判斷歸屬。
  
  w1不賦值,w2同時(shí)賦值,w3是“positive”類(lèi)別,也就是我們要的與網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞,w4是“reverse”,與網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞到我們不想要的醫療技術(shù)。
  3、4的內容不會(huì )有問(wèn)題,如果偶爾分類(lèi)不準確,找出不準確的詞匯,追溯其種子詞。這一定是種子詞的錯誤選擇。
  刪掉重新運行代碼即可,所以在開(kāi)始手動(dòng)選擇的時(shí)候,一定要選擇明確的歸屬地,不能含糊其辭。
  但是我們看到w2,也就是同時(shí)還有1.9M屬于它,打開(kāi)看看:
  還有6W多的記錄無(wú)法確定分類(lèi)(截圖沒(méi)有完整展示,懶得再截了)。雖然按比例來(lái)說(shuō),我們已經(jīng)分類(lèi)了80%,但是超過(guò)6W還是很多的。
  既然都是同時(shí)判斷屬于的,也就是兩邊都能匹配到,那我們就隨機取一個(gè)詞到原程序中,再跑一遍,看兩邊匹配的是什么。
  闌尾炎引流管每日引流
  這是一個(gè)與醫療技術(shù)相關(guān)的長(cháng)尾詞。程序運行后,這個(gè)長(cháng)尾詞的結果是:
  正面:交通
  逆位:闌尾,闌尾炎,引流,引流管,引流
  這是長(cháng)尾詞在種子詞中命中的詞,所以顯然程序沒(méi)有問(wèn)題,因為詞流量出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中是正常的。
  但是這個(gè)詞跟醫療有關(guān),我們還是希望它能被判“反”,怎么辦呢?
  還是要用到概率的思維,結合我們上面說(shuō)的相關(guān)性,一個(gè)長(cháng)尾詞屬于哪個(gè)領(lǐng)域,分詞后的詞屬于這個(gè)領(lǐng)域的可能性很大。
  所以我們從上面可以看出,這個(gè)長(cháng)尾詞中命中“anti”的種子詞數量遠遠超過(guò)命中“positive”的種子詞。,我們可以直接獎勵人數最多的一方。
  優(yōu)化程序判斷后,結果為:
  可以看到w2從1.9M下降到300+kb,w3和w4都有明顯的增加,因為更多的詞被分類(lèi)了。
  可以看到w2中有10000多個(gè)詞條。對于專(zhuān)門(mén)和Excel打交道的seo或者sem人員來(lái)說(shuō),這樣的數據量,反復操作幾次就可以很快整理出來(lái)。
  但其實(shí)如果你愿意,這個(gè)還是可以?xún)?yōu)化的。w2會(huì )有這么多,很大一部分原因是準確分詞的問(wèn)題。有興趣的可以自行研究?jì)?yōu)化方案。
  對于未提及的 w1:
  我故意把它截短了一點(diǎn)。為什么這些詞不屬于任何一方?看完之后我就明白了。事實(shí)上,這類(lèi)詞已經(jīng)超出了長(cháng)尾詞的范疇。去掉“引流”,去掉不傾斜的詞后,基本就沒(méi)有詞了。是時(shí)候做出判斷了。
  這種詞結構非常簡(jiǎn)單。如果確實(shí)需要,可以在Excel中快速整理。
  最后放上w3和w4的數據:
  總共有15W+的長(cháng)尾詞,這就是我們需要的數據!
  總共有30W+的長(cháng)尾詞,這是我們不需要的數據!
  交流自動(dòng)機
  # pip install ahocorasick-python
import ahocorasick
t1 = time.time()
ac = ahocorasick.AhoCorasick(*seed_word)
t2 = time.time()
rw = []
print(t2-t1)
for word in keyword:
sw = ac.search(word)
for i in sw:
word = word.replace(i,'***')
rw.append(word)
t3 = time.time()
print(t3-t2)
rw = []
t1 = time.time()
for word in keyword:
for i in seed_word:
if i in word:
word = word.replace(i,'***')
rw.append(word)
t2 = time.time()
print(t2-t1)
  我用的是AC Automata的第三方模塊,算法效率還是不錯的,一共5W詞匯和50W目標文本,傳統方式共耗時(shí)1450秒,使用AC Automata,構建耗時(shí)20秒,但這是一次性的 具體來(lái)說(shuō),判斷加替換是100秒。
  其實(shí)無(wú)論是種子詞聯(lián)想的思想還是AC自動(dòng)機算法,一個(gè)不恰當的類(lèi)比類(lèi)似于將線(xiàn)性問(wèn)題轉化為指數問(wèn)題(這個(gè)表達式可能有問(wèn)題),時(shí)間成本不會(huì )機械地增加隨著(zhù)數據量的增加。上升。
  敏感詞過(guò)濾等問(wèn)題還有其他解決方案,比如DFA,解決方案沒(méi)有標準,只有適合自己的。
  結語(yǔ)
  如何大量剔除不相似的長(cháng)尾詞,我在之前的公眾號付費文章中也給出了解決方案,但是需要網(wǎng)絡(luò )數據做支撐判斷,而且這個(gè)是完全本地化的,相對來(lái)說(shuō)更經(jīng)濟。
  這個(gè)工作一般不會(huì )超過(guò)半個(gè)小時(shí),得益于“用種子詞帶出更多種子詞”的思路,“根據概率判斷歸屬”的邏輯,以及“AC自動(dòng)機算法”的高效,會(huì )有幾十萬(wàn)和幾百萬(wàn)的處理時(shí)間相差不大,程序真正的計算時(shí)間不到10分鐘。
  雖然我們絞盡腦汁,用了很多策略來(lái)完成這樣的工作,但當我們第一次完成它時(shí),我們可能會(huì )感到有些自豪。
  但實(shí)際上就價(jià)值而言,這是一個(gè)甚至不值得對外談?wù)摰墓ぷ黜椖?,因為它不是具體的結果指標。
  在外人看來(lái),這就是你立足的基礎,也確實(shí)如此。
  另外,可能有朋友覺(jué)得用AC自動(dòng)機算法和普通方法相比,幾十萬(wàn)字的時(shí)間差相差不大,不亞于程序計算的幾十分鐘。
  沒(méi)錯,整個(gè)過(guò)程沒(méi)有標準的步驟或解決方案。我只是想傳達一個(gè)工作方法。遇到很多難題時(shí),發(fā)散思路,換個(gè)角度。其實(shí)有很多思路可以解決。.
  同時(shí),對于懂技術(shù)的朋友來(lái)說(shuō),與傳統方法相比,使用AC自動(dòng)機只是寫(xiě)幾行代碼而已,但好處不僅限于這些。多學(xué)一門(mén)技術(shù)可以解決很多同類(lèi)問(wèn)題。
  對于上面提到的采集項目,我可以使用AC自動(dòng)機來(lái)處理敏感詞和文章的不斷增加。下一階段我會(huì )在這個(gè)采集項目上做另外一個(gè)工作:篩選目標領(lǐng)域的內容。
  在目標集合源中,并不是所有的內容都一定是我們目標字段的內容??赡軙?huì )有很多無(wú)關(guān)緊要的內容。對于不相關(guān)的內容,當然是選擇丟棄,不存儲。
  因此需要設計一個(gè)簡(jiǎn)單的判斷邏輯,類(lèi)似推薦算法給文章打標簽,判斷當前內容是否屬于目標領(lǐng)域,如果不屬于則不采集,減少人工審核的工作量。是最高的。
  所以:我覺(jué)得默默地啃這些棘手的問(wèn)題,目前看來(lái)是吃虧的,但在以后的工作中,肯定會(huì )帶來(lái)更多的“復利”。
  PS:很多做長(cháng)尾詞數據處理的朋友跟我說(shuō)不知道怎么清洗。過(guò)段時(shí)間會(huì )寫(xiě)類(lèi)似的工具,放到公眾號上。
  推薦文章:刷百度關(guān)鍵詞排名 網(wǎng)站排名
  平頂山新廣網(wǎng)絡(luò )科技有限公司
  優(yōu)化原則:
  整站優(yōu)化的原則是將高質(zhì)量的數據反饋給百度,從而提高網(wǎng)站排名、字數和流量。比如增加蜘蛛的爬行量,增加外鏈數量,站點(diǎn)等級,優(yōu)化蜘蛛的爬行速度等,進(jìn)而提升關(guān)鍵詞排名,首頁(yè)排名字數和交通。
  效果特點(diǎn):
  1、整體提升百度排名效果顯著(zhù);
  2、完全符合百度排名規則,沒(méi)有;與常規SEO相比,提升更快,排名效果直接,大部分直接上**,一批一批排名,不是一個(gè)一個(gè)排名;
  3、與常規SEO相比,成本非常低。
  全站自動(dòng)提取百度排名,手機端也可以同時(shí)上傳單詞,但不計入單詞數!換句話(huà)說(shuō),手機上的排名是一個(gè)禮物!
  收費規則:真正的按效果付費
  以愛(ài)站網(wǎng)基礎查詢(xún)數據為基礎,根據當前總字數確定首頁(yè)單價(jià)和低增長(cháng)數量。
  費用達到上限后,將支付任何額外的字數。
  1、整站優(yōu)化的原則是什么?
  答:整站優(yōu)化的原則是將優(yōu)質(zhì)數據反饋給百度,從而提高網(wǎng)站排名、字數和流量。比如增加蜘蛛的爬行量,增加外鏈數量,站點(diǎn)等級,優(yōu)化蜘蛛的爬行速度等,進(jìn)而提升關(guān)鍵詞排名,首頁(yè)排名字數和交通。
  2、首頁(yè)添加的關(guān)鍵詞從何而來(lái)?是長(cháng)尾詞嗎?有索引還是沒(méi)有索引?
  A:首頁(yè)添加到當前*知名頁(yè)面的關(guān)鍵詞和頁(yè)面SEO布局的關(guān)鍵詞相關(guān)性高但沒(méi)有排名;批量?jì)?yōu)化,提升到首頁(yè),結算標準是參考愛(ài)站數據,這些詞都是索引至少50以上的詞,否則愛(ài)站詞庫不收錄。
  3、我可以指定關(guān)鍵詞被提升到首頁(yè)嗎?
  答:第一步是生成詞,對沒(méi)有排名的詞進(jìn)行排名;第二步,將已經(jīng)排名的詞推廣到首頁(yè)??蛻?hù)可以提交一些詞給我們,但需要排名,在優(yōu)化范圍內。正常流程是前期增加總字數,后期再增加到首頁(yè)**的字數。
  4.我可以?xún)?yōu)化字數嗎?
  答:整站優(yōu)化是真正的按效果付費,你加多少字就收多少。我們在優(yōu)化上是認真的,毫無(wú)保留的。我們始終為客戶(hù)著(zhù)想,幫助他們改善,以達到最佳效果。字數越多,效果越好,平均成本越低。
  5、整站優(yōu)化需要多長(cháng)時(shí)間才能見(jiàn)效?
  答:基礎數據好的時(shí)候,優(yōu)化10-20天后會(huì )有明顯的數據增長(cháng)。如果三個(gè)月沒(méi)有明顯效果,會(huì )全額支付(這個(gè)概率是最低的)。
  
  如何優(yōu)化文章關(guān)鍵詞的排名?
  有的排在首頁(yè),有的排在欄目頁(yè),有的排在大量的文章內容。一個(gè)經(jīng)過(guò)適當優(yōu)化的結果,在正常情況下,應該有大量的文章內容頁(yè)面排名。大量的文章頁(yè)面排名意味著(zhù)大量的精準點(diǎn)擊,意味著(zhù)收錄頁(yè)面將權重傳遞給欄目頁(yè)面和內容頁(yè)面。
  在某些情況下,文章的排名會(huì )很低。在這種情況下,盡可能對收錄的文章進(jìn)行排名就顯得非常重要,這幾乎是優(yōu)化的必經(jīng)之路。針對文章關(guān)鍵詞排名偏低,百萬(wàn)數系統建議從以下幾個(gè)方面入手。
  增加了主站的重量。
  如何快速增加成品重量?理想很美好,現實(shí)卻很骨氣。主站權重的增加可以直接提升內容文章頁(yè)或專(zhuān)欄頁(yè)的排名。這個(gè)道理誰(shuí)都懂,但是實(shí)現起來(lái)卻相當困難。
  當前文章頁(yè)面優(yōu)化設置。
  這個(gè)優(yōu)化點(diǎn)是可以實(shí)現的。具體操作包括但不限于:設置文章頁(yè)面自身新聞源格式、調用相關(guān)內容、設置豐富元素、圖文結合展示內容、設置面包屑導航、通過(guò)ugc增加頁(yè)面價(jià)值、添加內容詞、更高的關(guān)鍵詞密度(精確匹配和分詞匹配)、重要的關(guān)鍵詞出現在重要的位置等。
  外鏈方式提高了文章頁(yè)的關(guān)鍵詞排名。
  鏈接可以提高所有頁(yè)面的關(guān)鍵詞排名,包括首頁(yè)、專(zhuān)欄頁(yè)、內容頁(yè)。知道了這個(gè)原理之后,就可以通過(guò)錨文本等方式來(lái)推進(jìn)遲發(fā)文章的排名。
  在網(wǎng)上看到一篇關(guān)于文章優(yōu)化技巧的文章,可以參考如下:
  1.文章標題優(yōu)化技巧
  文章是吸引用戶(hù)點(diǎn)擊的因素。文章的點(diǎn)擊率高不高取決于文章的標題是否吸引人。很多站長(cháng)在寫(xiě)標題的時(shí)候很隨意,沒(méi)有對標題進(jìn)行優(yōu)化,也沒(méi)有加入營(yíng)銷(xiāo)詞。這樣一來(lái),再精彩的內容,也沒(méi)有多少用戶(hù)會(huì )看。大家可以看看新聞的頭條,為什么點(diǎn)擊率這么高,頭條的吸引力有很大的作用。
  那么如何做好文章標題優(yōu)化技巧呢?
  1、題目主題要結合企業(yè)需要,不能脫離事實(shí);
  2.在標題中添加用戶(hù)關(guān)注的熱門(mén)話(huà)題;
  3、在標題中加入利誘等詞,就像商城活躍的詞一樣;
  4、使用關(guān)鍵詞選詞工具,選擇長(cháng)尾關(guān)鍵詞和問(wèn)題關(guān)鍵詞作為標題;這些方法對于吸引用戶(hù)點(diǎn)擊非常實(shí)用,具體操作需要結合企業(yè)的實(shí)際情況,才能吸引到自己企業(yè)的潛在客戶(hù)。
  2.文章關(guān)鍵詞出現的頻率
  很多新手站長(cháng)為了增加關(guān)鍵詞的密度,告訴搜索引擎優(yōu)化文章中的關(guān)鍵詞,惡意堆砌人為干預關(guān)鍵詞的頻率,導致句子不連貫而且嚴重影響用戶(hù)閱讀時(shí),跳出率高,嚴重影響文章質(zhì)量。這種搜索引擎也不喜歡。站長(cháng)一定要注意不要把關(guān)鍵詞堆起來(lái),就讓流量增加關(guān)鍵詞,記住關(guān)鍵詞應該出現在標題里,這樣自然就形成了關(guān)鍵詞的密度,會(huì )被搜索引擎識別,搜索引擎會(huì )很容易判斷出需要優(yōu)化的關(guān)鍵詞。
  3. 關(guān)鍵詞應該出現在哪里
  說(shuō)到這一點(diǎn),主要是考慮文章關(guān)鍵詞的排版,以免形成惡意堆砌,同時(shí)也像搜索引擎一樣清晰表達文章關(guān)鍵詞的內部?jì)?yōu)化。
  
  1、標題收錄
關(guān)鍵詞;
  2、關(guān)鍵詞出現在段落的句中;
  3、最后必須有關(guān)鍵詞;
  4. 中間內部出現3-5次;
  5、關(guān)鍵詞必須收錄
在文章圖片的ALT標簽中;只要做好這幾點(diǎn),關(guān)鍵詞的密度自然會(huì )增加,切記不要堆起來(lái)。
  4. 關(guān)鍵詞大膽的處理
  關(guān)鍵詞加粗是提醒搜索引擎這是重點(diǎn)關(guān)鍵詞,沒(méi)必要每次出現關(guān)鍵詞都加粗,這個(gè)沒(méi)有必要,但是會(huì )導致懷疑過(guò)度優(yōu)化,記住 關(guān)鍵詞 出現時(shí)可以加粗。
  5.文章標簽
  TAG標簽是改善內鏈的重要優(yōu)化技術(shù),便于引導蜘蛛深度爬取,也便于用戶(hù)深度瀏覽,提高關(guān)鍵詞的權重和排名。TAG關(guān)鍵詞標簽就是把內容相同的文章整合到一個(gè)頁(yè)面里,怎么整合呢?對于每個(gè)優(yōu)化過(guò)的關(guān)鍵詞,設置一個(gè)TAG關(guān)鍵詞標簽,使用程序使用TAG關(guān)鍵詞標簽放在一起。
  6. 關(guān)鍵詞 錨文本鏈接
  關(guān)鍵詞 添加鏈接,這個(gè)也叫關(guān)鍵詞錨文本,也是優(yōu)化內鏈的方式。做一個(gè)錨文本鏈接,引導蜘蛛抓取內容,引導用戶(hù)瀏覽企業(yè)要給用戶(hù)瀏覽的內容。只需在第一次出現的 關(guān)鍵詞 處添加一個(gè)錨文本鏈接。一旦出現就沒(méi)有必要添加錨文本鏈接。這是典型的方式,不利于優(yōu)化。同一個(gè)關(guān)鍵詞可以添加一次鏈接,不同的關(guān)鍵詞不能超過(guò)3個(gè)鏈接。
  7.關(guān)鍵詞的出現次數
  一篇文章可以?xún)?yōu)化1-3個(gè)關(guān)鍵詞,要求三個(gè)關(guān)鍵詞都是同一類(lèi)型。如果不是同一類(lèi)型,那么文章就很難寫(xiě)了。寫(xiě)在一篇文章里,有點(diǎn)舍不得,*去中心化,搜索引擎不知道你要優(yōu)化哪個(gè)關(guān)鍵詞。
  8.圖文顯示
  文章考慮了搜索引擎,也需要考慮用戶(hù)和用戶(hù)的瀏覽環(huán)境。簡(jiǎn)單的一堆文字很容易造成視覺(jué)疲勞,降低宣傳效果。有了圖片,更好地排版文章,優(yōu)化文章結構。直觀(guān)地向用戶(hù)表達文章的主題。注意圖片不要超過(guò)200KB,以免影響頁(yè)面加載速度。
  文章優(yōu)化技巧很重要。這是幫助企業(yè)獲得更好的權重和關(guān)鍵詞排名必須要做的工作。很多公司天天更新,有一些原創(chuàng )文章,但是沒(méi)有考慮使用文章優(yōu)化技巧。降低了文章的優(yōu)化值。通過(guò)做文章優(yōu)化,可以為公司帶來(lái)更多的長(cháng)尾關(guān)鍵詞排名,尤其是新站**詞,短時(shí)間內很難有很好的排名,所以多用文章來(lái)提升排名是非常重要的。使長(cháng)尾 關(guān)鍵詞 需要。
  文章排名不僅與內容質(zhì)量本身有關(guān),還與頁(yè)面質(zhì)量和網(wǎng)站質(zhì)量有關(guān)。文章排名偏低,按照上面的方法,基本可以做到**。注意:在很多情況下,理想與現實(shí)是有差距的。從SEO的角度來(lái)看,理論點(diǎn)并不復雜,但具體優(yōu)化要素的實(shí)現卻很復雜。
  關(guān)鍵詞排名優(yōu)化問(wèn)題,0375互聯(lián)網(wǎng)媒體一站式解決方案,快速穩定
  關(guān)鍵詞優(yōu)化排名,平均2-4周上傳詞,進(jìn)入搜索引擎首頁(yè),持續穩定
  -/gjicie/-

采集內容插入詞庫 福利:【年度巨獻】@開(kāi)發(fā)者,你要的HarmonyOS精神大餐,來(lái)啦~(下)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2022-11-26 21:33 ? 來(lái)自相關(guān)話(huà)題

  采集內容插入詞庫 福利:【年度巨獻】@開(kāi)發(fā)者,你要的HarmonyOS精神大餐,來(lái)啦~(下)
  這個(gè)春節開(kāi)發(fā)者是不是過(guò)得很開(kāi)心,除了大魚(yú)大肉,是否也很想念下半場(chǎng)的鴻蒙精神盛宴?,F在就來(lái)滿(mǎn)足大家,HarmonyOS開(kāi)發(fā)“精神食糧”——開(kāi)發(fā)者最關(guān)心、最想得到答案的問(wèn)題又來(lái)了~
  開(kāi)年第一周,無(wú)論是獨自享受還是分享給各位開(kāi)發(fā)者,依舊是那么的干貨滿(mǎn)滿(mǎn)。新的一年,讓我們在HarmonyOS的發(fā)展征途上走得更遠。讓我們從這場(chǎng)“心靈盛宴”開(kāi)始吧。吃飽喝足,我們的“心靈盛宴”馬上就要開(kāi)始了!
  質(zhì)檢&
  安全
  Q1:如何保證多機通話(huà)的安全?
  A:HarmonyOS提供了分布式的安全機制來(lái)保障分布式終端場(chǎng)景下的安全。詳情請參考官網(wǎng)安全說(shuō)明文檔↓↓↓
  安全文檔:
  Q2:是不是只有消費者才能解密加密數據,而華為無(wú)法打開(kāi)加密數據?
  A:是的,除了消費者自己之外,任何人都無(wú)法讀取加密數據。
  Q3:如果我是安全級別最高的設備,無(wú)論我和誰(shuí)連接都不能傳輸數據,那么我的設備就相當于一座孤島?
  A:不是這個(gè)邏輯。雖然是最高安全等級S5,但是能否傳輸還是由數據決定的。接收端的安全級別是否與數據的安全級別相匹配,不是由設備決定的。數據是分級的,安全級別高的設備可以向安全級別低的設備傳輸安全級別低的數據。
  Q4:理論上,如果操作系統被破解,指紋驗證可以被屏蔽嗎?
  A:操作系統和安全系統是解耦的。理論上,如果屏蔽的是指紋驗證,這個(gè)功能是不可用的,這是正確的。而華為設備指紋芯片的采集和處理是在安全處理器中進(jìn)行的。即使操作系統在理論上被攻破,也無(wú)法獲取指紋和模板,指紋無(wú)法被偽造。
  Q5:分布式調度的安全性能如何?
  A:HarmonyOS的安全加密性能達到了業(yè)界最佳,遠超日常需求。目前數據加密性能已經(jīng)達到8Gbps,而目前WiFi和5G的通信性能遠低于8Gbps,不是瓶頸。
  原則
  Q1:不同的HarmonyOS設備使用同一個(gè)APP進(jìn)行跨設備遷移。被遷移的設備是否也需要安裝相應的APP?如果對端不需要安裝APP,遷移時(shí)會(huì )自動(dòng)下載。如何解決延遲和等待體驗問(wèn)題?
  A:所謂遷移,一定是運行狀態(tài)下的FA。因此,當FA運行時(shí),從設備A遷移到設備B有兩種場(chǎng)景:
  1、如果設備B上已經(jīng)安裝了FA,則直接拉起FA;
  2、如果B設備上沒(méi)有安裝FA,需要走免安裝流程;
  至于免費安裝的延遲,主要瓶頸在于網(wǎng)速。因此,我們現在對不安裝FA需要安裝的包的大小進(jìn)行了限制;盡量讓它盡可能小,否則延遲會(huì )很明顯。
  一次安裝多臺設備的能力,這個(gè)需要根據用戶(hù)自己的需求來(lái)選擇,不建議直接在多臺設備上同時(shí)安裝。目前,該功能還處于預研階段,尚未對外發(fā)布。
  Q2:什么是分布式配置文件?
  A:分布式Profile主要管理分布式場(chǎng)景下用戶(hù)設備信息的特性,描述設備之間的基本信息、能力信息、狀態(tài)信息等。
  Q3:LAN和BLE的發(fā)現是同時(shí)進(jìn)行的嗎?發(fā)現方法能區分嗎?
  A:根據業(yè)務(wù)需要,可以同時(shí)支持BLE發(fā)現和LAN發(fā)現。開(kāi)發(fā)人員可以在 BLE 或 LAN 發(fā)現之間自由選擇。
  Q4:軟總線(xiàn)無(wú)感自組網(wǎng)發(fā)展到什么程度?你現在的體驗如何?
  A:自組織網(wǎng)絡(luò )已經(jīng)初步形成??蓪?shí)現設備自動(dòng)上下線(xiàn)檢測,支持局域網(wǎng)和P2P組網(wǎng)方式。增強的聯(lián)網(wǎng)功能正在開(kāi)發(fā)中。請關(guān)注華為官方信息。
  Q5:軟總線(xiàn)有負載限制嗎?
  A:軟總線(xiàn)的負載取決于底層的無(wú)線(xiàn)承載技術(shù)。如果是WiFi連接,則負載上限為WiFi負載上限;如果是BR連接,則受BR負載上限限制。
  
  Q6:設備互聯(lián)是否需要用戶(hù)每次都觸發(fā)?是否可以在后臺調用其他設備?
  A:設備的發(fā)現連接不需要用戶(hù)主動(dòng)觸發(fā)。軟總線(xiàn)提供了自動(dòng)發(fā)現連接的能力,但是自動(dòng)連接會(huì )帶來(lái)額外的功耗。因此,對于業(yè)務(wù)來(lái)說(shuō),沒(méi)有必要主動(dòng)觸發(fā)發(fā)現,但建議業(yè)務(wù)觸發(fā)建立連接,按需傳輸數據??梢院笈_調用其他設備,但業(yè)務(wù)/應用需要申請權限。
  Q7:手表和電視可以直連嗎?就是不要用手機作為交通工具?
  A:是的,現在的智能手表已經(jīng)具備了直接連接電視的功能,不需要手機做中繼。
  Q8:廠(chǎng)商A的應用創(chuàng )建的KV數據能被廠(chǎng)商B的應用讀取嗎?如果不是,通過(guò)什么加密?
  A:內部嚴格執行數據訪(fǎng)問(wèn)控制,不同應用的數據在物理上和邏輯上都是隔離的。通過(guò)應用程序包名稱(chēng)和簽名來(lái)隔離不同應用程序的數據。
  Q9:設備A和設備B有文件名稱(chēng)相同但內容不同怎么辦?
  A: 1.本地和遠程沖突,遠程文件重命名??吹降耐募潜镜赝募?,遠程文件重命名;
  2.如果多個(gè)遠程設備之間存在沖突,則設備ID較小的同名文件將按訪(fǎng)問(wèn)設備ID的順序顯示,其他文件按順序重命名;
  3、如果聯(lián)網(wǎng)場(chǎng)景下目錄樹(shù)下有遠程文件,創(chuàng )建同名文件并提示文件已存在;
  4、沖突文件顯示_conflict_dev后,依次添加id;
  5、同名目錄不沖突,但文件與遠程目錄同名沖突,遠程目錄后綴加上_remote_directory。
  Q10:如果手機微信保存的圖片需要平板美圖編輯,如何分享文件?
  A:當前版本只支持同應用間的分布式共享,后續版本將支持公共文件,可以跨設備、跨應用訪(fǎng)問(wèn)。
  Q11:是否有圖片搜索和對象搜索?
  A:融合搜索只支持普通數據類(lèi)型的搜索,不支持其他二進(jìn)制形式的多模式搜索。
  Q12:Fusion Search有跨華為賬號跨設備搜索的功能嗎?
  A:聚合搜索支持索引分組管理。它可以將一個(gè)設備的數據作為一個(gè)組來(lái)管理,但是它不具備在設備之間同步數據的能力。設備間同步索引數據的通道需要APP搭建。
  1、設備1命名為group1(例子),設備2命名為group2(例子);
  2、改變索引時(shí),指定groupName為對應的組名;
  3.搜索時(shí),可以分組搜索。group1的結果是設備1的搜索結果,group2的結果是設備2的搜索結果。
  Q13:分布式文件系統和搜索,1+8+N可以應用在哪些設備上?
  A:手機、平板、智慧屏、車(chē)機等富設備不支持手表、音箱等輕量級設備。
  Q14:鴻蒙分布式數據庫和文件管理需要云服務(wù)器支持嗎?
  A:分布式數據庫和分布式文件系統目前都是基于局域網(wǎng)環(huán)境。沒(méi)有云服務(wù)器的幫助,所有的內容都不會(huì )上云。
  Q15:詞庫有多大?在手機上做還是在云端做?
  A:100w詞庫以?xún)龋?0M級別,手機端,不在云端。
  Q16:融合索引可以索引不同應用、不同設備的數據嗎?
  A:APP開(kāi)發(fā)者可以搜索自己管理的索引數據,不能搜索其他APP插入的索引數據。
  例如:短信索引插入短信App,郵件索引插入郵件App。在郵件應用程序上可以找到郵件,但找不到短信。
  
  但是,如果郵件應用有短信數據,并且自己插入了短信索引,那么郵件應用就可以在自己管理的索引中搜索郵件和短信。
  對于多設備、多應用的搜索,需要APP自己獲取數據,然后調用搜索框架接口對數據進(jìn)行分組管理,在對應的分組中進(jìn)行搜索。
  Q17:分布式會(huì )備份所有的設備文件嗎?那會(huì )占用很多存儲空間,對吧?
  A:分布式文件系統所有文件只有一份,沒(méi)有備份,所以不會(huì )占用多余的存儲空間。
  Q18:在文件同步過(guò)程中更改文件時(shí),設備更改到一半就關(guān)機了?會(huì )發(fā)生什么樣的同步?
  A:如果文件保存在遠程設備上,遠程設備斷電后,后續文件將無(wú)法保存;如果文件保存在本地設備,遠程設備斷電,不受影響,仍然可以保存成功。終端設備開(kāi)機后,訪(fǎng)問(wèn)文件時(shí),可以訪(fǎng)問(wèn)到最新的文件。
  Q19:分布式數據庫、設備與設備之間使用什么通信協(xié)議?
  A:通信協(xié)議主要由分布式軟總線(xiàn)封裝實(shí)現,分布式數據庫不感知。分布式數據庫定義了自己的一套應用層協(xié)議來(lái)發(fā)送和接收數據。
  Q20:這個(gè)技術(shù)和RPC/REST有什么區別?
  A:分布式調度包括RPC,REST是RPC的一種形式
  Q21:如果沒(méi)有DisConnect連接,會(huì )一直留在池中消耗資源嗎?
  A:當物理網(wǎng)絡(luò )連接斷開(kāi)或應用程序退出時(shí),系統會(huì )自動(dòng)斷開(kāi)連接。如果應用程序存活并且服務(wù)完成而沒(méi)有釋放連接,則會(huì )消耗資源
  Q22:軟總線(xiàn)的設備列表綁定了華為賬號。HarmonyOS支持多賬號切換嗎?
  A:軟總線(xiàn)設備列表不綁定華為賬號。軟總線(xiàn)設備列表是用戶(hù)信任的設備。同一個(gè)華為賬號代表同一個(gè)用戶(hù)的設備,默認為用戶(hù)信任。當前問(wèn)題中的賬號指的是華為賬號,即Huawei Mobile Services,是云服務(wù)與本地用戶(hù)的綁定關(guān)系;鴻蒙系統是設備上的系統。如果說(shuō)賬號切換,應該是設備本地用戶(hù)切換。如果是華為賬號切換其實(shí)就是本地和云服務(wù)賬號的解綁和重新綁定。
  Q23:這個(gè)和現在的電視投影有什么區別嗎?
  A:目前電視投屏有兩種,一種是DLNA,由應用程序控制,將應用程序的顯示界面復制到另一個(gè)屏幕上顯示,也就是將Surface Layer內存復制處理后傳輸到另一個(gè)屏幕顯示。另一種是mirror Cast,即系統將發(fā)送到屏幕的疊加內存內容進(jìn)行復制、處理和傳輸,以便在另一個(gè)屏幕上顯示。分布式調度不同于這兩種類(lèi)型。只傳輸應用控制指令和應用數據,不涉及顯示渲染。顯示渲染在兩個(gè)設備上本地執行。
  Q24:不同設備的軟總線(xiàn)列表是否一致?
  A:根據權限不同,在不同的用戶(hù)和設備上看到的信任設備列表是不同的。同一物理網(wǎng)絡(luò )中的指令集是相同的。
  Q25:一臺設備可以綁定多人嗎?比如一臺電視綁定一家3口的手機?
  A:只能綁定一個(gè)Owner,其他的由Owner授權。
  Q26:HarmonyOS 以后會(huì )采用微內核,還是三個(gè)內核統一?
  A:HarmonyOS支持多核。開(kāi)發(fā)者和合作伙伴可以根據不同的產(chǎn)品和場(chǎng)景使用不同的內核。
  Q27:設備傳輸可以語(yǔ)音控制嗎?
  A:HarmonyOS提供分布式能力,包括硬件虛擬化、數據協(xié)同、服務(wù)調用協(xié)同。業(yè)務(wù)應用可以基于這些能力實(shí)現交互設備的狀態(tài)同步和切換。后續計劃在HarmonyOS上逐步開(kāi)放三方業(yè)務(wù)融合的語(yǔ)音控制,用于實(shí)現“小藝小藝,幫我繼續播放智慧屏上的視頻”等語(yǔ)音控制功能。
  好了,以上就是我們?yōu)榇蠹規?lái)的鴻蒙精神盛宴的下半場(chǎng),和上半場(chǎng)一起吃效果會(huì )更好。新的一年,如果大家對HarmonyOS的開(kāi)發(fā)有什么疑問(wèn),歡迎在后臺留言,我們會(huì )一一采集
開(kāi)發(fā)者的問(wèn)題~
  新的一年,讓我們揚帆起航,共同邁進(jìn)萬(wàn)物互聯(lián)新時(shí)代!
  結尾
  掃描二維碼關(guān)注不迷路
  干貨教程:thinkcmf搭建教程?thinkcmf自動(dòng)生成采集文章插件
  為什么要用thinkcmf插件?如何使用thinkcmf插件對網(wǎng)站進(jìn)行收錄和關(guān)鍵詞排名。網(wǎng)站優(yōu)化前,網(wǎng)站的代碼、路徑、標簽、服務(wù)器狀態(tài)等必須處于有利于優(yōu)化的狀態(tài)。否則,我們在以后的網(wǎng)站優(yōu)化過(guò)程中可能會(huì )事倍功半,很難達到預期的效果。如果我們在上線(xiàn)前做好站內優(yōu)化,那么我們在優(yōu)化過(guò)程中可能會(huì )輕松很多,也更容易出結果。
  1.描述優(yōu)化
  1)標題標題優(yōu)化。通常,標題下方的描述中會(huì )收錄
一兩個(gè)關(guān)鍵詞,這是網(wǎng)頁(yè)與關(guān)鍵詞的相關(guān)性,而這個(gè)關(guān)鍵詞同時(shí)出現在標題和描述中網(wǎng)頁(yè)>,說(shuō)明這個(gè)網(wǎng)頁(yè)的內容是和這個(gè)關(guān)鍵詞相關(guān)的,加上這個(gè)網(wǎng)站的內外部?jì)?yōu)化,所以搜索引擎會(huì )給這個(gè)網(wǎng)站一個(gè)好的排名,展示在我們面前。
  2) 關(guān)鍵詞部署。關(guān)鍵詞通常我們會(huì )將其設置為用戶(hù)要搜索的詞。設置了這樣一個(gè)詞后,我們將通過(guò)優(yōu)化行為來(lái)提高我們網(wǎng)頁(yè)的排名。通常,關(guān)鍵詞 應該收錄
在標題中。如果關(guān)鍵詞太多,就把核心的關(guān)鍵詞放在里面。
  3)描述。描述是對本網(wǎng)站最簡(jiǎn)潔的介紹。在這個(gè)介紹中,除了嵌入你的關(guān)鍵詞之外,你還應該添加盡可能多的服務(wù)信息,以及你的網(wǎng)站特征信息,足夠豐富的描述內容是合格的描述,而不是純粹的積累關(guān)鍵詞。
  一個(gè)網(wǎng)站更新的越頻繁,搜索引擎蜘蛛來(lái)的就越頻繁。因此,我們可以利用thinkcmf采集來(lái)實(shí)現偽原創(chuàng )發(fā)布的自動(dòng)采集,并主動(dòng)推送到搜索引擎,以增加搜索引擎的抓取頻率,從而提高網(wǎng)站收錄和關(guān)鍵詞排名。
  1.免費的thinkcmf采集插件
  免費的thinkcmf采集插件特點(diǎn):
  1.導入關(guān)鍵詞即可采集相關(guān)關(guān)鍵詞文章,同時(shí)創(chuàng )建幾十個(gè)或上百個(gè)采集任務(wù)(一個(gè)任務(wù)可支持上傳1000個(gè)關(guān)鍵詞),支持過(guò)濾關(guān)鍵詞。
  2.支持多種消息源:?jiǎn)?wèn)答和多種消息源(可設置多個(gè)采集源同時(shí)采集/后續會(huì )添加采集源)
  3.過(guò)濾其他促銷(xiāo)信息
  
  4. 圖片本地化/圖片水印/圖片第三方存儲
  5.文章轉換+翻譯(簡(jiǎn)繁體轉換+百度翻譯+有道翻譯+谷歌翻譯+翻譯)
  6、自動(dòng)批量掛機收款,與各大CMS發(fā)布商無(wú)縫對接,收款后自動(dòng)發(fā)布——實(shí)現掛機自動(dòng)收放。
  2. 發(fā)布全平臺插件
  全平臺 CMS 發(fā)布者功能:
  1、CMS發(fā)布:目前市場(chǎng)唯一同時(shí)支持帝王CMS、易游、ZBLOG、dedeCMS、WordPress、PBoot、Apple CMS、迅銳CMS、PHPCMS、Apple CMS、人人CMS、米拓CMS、云游CMS 、小旋風(fēng)站群、THINKCMF、建站ABC、凡客CMS、易奇CMS、海洋CMS、飛飛CMS、本地發(fā)布、外搜等各大CMS,以及可以同時(shí)管理和批量發(fā)布的工具
  2、全網(wǎng)推送(百度/360/搜狗/神馬)
  3.偽原創(chuàng )(標題+內容)
  4.更換圖片,防止侵權
  5、強大的SEO功能(自動(dòng)配圖/插入內外鏈/插入前后標題和文章內容/標題關(guān)鍵詞與內容一致關(guān)鍵詞/隨機插入圖片/隨機屬性增加頁(yè)面原創(chuàng )性)
  6.對應欄目:對應文章可發(fā)布在對應欄目/支持多欄目發(fā)布
  7、定時(shí)發(fā)布:可控發(fā)布間隔/每天發(fā)布總次數
  8、監控數據:軟件直接監控已發(fā)布、待發(fā)布、是否為假原創(chuàng )、發(fā)布狀態(tài)、URL、程序、發(fā)布時(shí)間等。
  
  2.代碼優(yōu)化
  在建站非常方便的今天,任何人都可以通過(guò)建站程序快速搭建一個(gè)屬于自己的網(wǎng)站。建好自己的網(wǎng)站后,我們需要對網(wǎng)站中的代碼進(jìn)行優(yōu)化。在建站的時(shí)候,我們應該盡量使用HTML+DIV格式來(lái)建網(wǎng)頁(yè)。寫(xiě)代碼的時(shí)候,盡量簡(jiǎn)化代碼的格式,避免使用多個(gè)應用,這樣會(huì )導致路徑層級過(guò)深,對搜索引擎抓取網(wǎng)頁(yè)很不友好。
  其實(shí)不懂代碼的企業(yè)朋友可以直接使用H5自助建站系統建站。無(wú)需編寫(xiě)編程和編碼,操作會(huì )更簡(jiǎn)單。
  3.路徑優(yōu)化
  搜索引擎抓取網(wǎng)站的最佳層數是3層路徑,即首頁(yè)-級別2欄目頁(yè)面-內容頁(yè),這是對優(yōu)化最友好的路徑層,因為如果你的內容頁(yè)路徑超過(guò)3層,達到4、5層甚至更深,搜索引擎的爬行機器人在爬取你的網(wǎng)站時(shí)會(huì )非常吃力,爬取的效果也會(huì )很不理想。
  4.站點(diǎn)地圖制作
  制作站點(diǎn)地圖可以讓搜索引擎每抓取一個(gè)頁(yè)面就對整個(gè)站點(diǎn)進(jìn)行一次深度爬取,從而增加文章內容產(chǎn)出的概率,但是不能過(guò)分依賴(lài)站點(diǎn)地圖。想要內容被收錄,質(zhì)量是第一位的。另外記得在網(wǎng)站底部加上site map標簽,記得把site map文件放在robots.
  我們可以認為站內優(yōu)化是一種刻意迎合搜索引擎的行為,但這種刻意迎合搜索引擎的行為實(shí)際上是在迎合真實(shí)用戶(hù)。它很友好。在搜索引擎強調用戶(hù)體驗的今天,我們優(yōu)化從業(yè)者必須明白,迎合搜索引擎就是迎合用戶(hù)。
  1.一些標簽的使用不能忽視。keywords標簽不要想太多,加3-4個(gè)關(guān)鍵詞就可以了,堆那么多反而適得其反。description標簽是描述標簽,不是讓你羅列XX,XXX關(guān)鍵詞,組織合理流暢的句子來(lái)介紹你的網(wǎng)站。隨意添加一些 關(guān)鍵詞 到它。標簽保證出現一次,可多次使用,但請打分強調重要內容。粗體和斜體都有強調的意思。強調主要的 關(guān)鍵詞,避免濫用。所有粗體或斜體都沒(méi)有意義。
  2、頁(yè)面標題一直被認為是最重要的優(yōu)化重點(diǎn)。事實(shí)也證明,寫(xiě)對標題確實(shí)有很大的好處。一個(gè)合理的標題應該注意以下問(wèn)題: 從網(wǎng)站的整體來(lái)看,網(wǎng)站的標題是否相似,很多CMS模板都是采用層次化的標題標簽來(lái)組合標題,如果一個(gè)標題標簽所占的比例比較大比例,容易造成標題混淆相似。
  3、頁(yè)面布局 頁(yè)面的位置很重要,上比下重要,右比右重要。目的是一個(gè),把最重要的內容放在重要的位置,吸引用戶(hù)和搜索引擎。
  4. 在內容中分發(fā)關(guān)鍵詞。也許你沒(méi)有注意到這個(gè)問(wèn)題。例如,合理的內容排版可以讓人一目了然,使用分級字體、加粗加強調關(guān)鍵詞、標題(粗體)、副標題(粗體或斜體)、正文。這樣,利用用戶(hù)來(lái)了解和查看重要的內容,也是用戶(hù)體驗的問(wèn)題。
  5.網(wǎng)站導航 導航應該放在重要的位置。必須注意的是,如果分類(lèi)很多,不要把網(wǎng)站的所有分類(lèi)都放在首頁(yè)導航位置。應該是重點(diǎn)。
  6、內鏈建設 網(wǎng)站內鏈循環(huán):首頁(yè)-分類(lèi)-小分類(lèi)-內容-小分類(lèi)-分類(lèi)-首頁(yè)。這樣就形成了一個(gè)循環(huán),目的是讓用戶(hù)在網(wǎng)站的某個(gè)頁(yè)面上找到去其他頁(yè)面的路。當然,這個(gè)“距離”不能太長(cháng),三擊以?xún)葹榧选? 查看全部

  采集內容插入詞庫 福利:【年度巨獻】@開(kāi)發(fā)者,你要的HarmonyOS精神大餐,來(lái)啦~(下)
  這個(gè)春節開(kāi)發(fā)者是不是過(guò)得很開(kāi)心,除了大魚(yú)大肉,是否也很想念下半場(chǎng)的鴻蒙精神盛宴?,F在就來(lái)滿(mǎn)足大家,HarmonyOS開(kāi)發(fā)“精神食糧”——開(kāi)發(fā)者最關(guān)心、最想得到答案的問(wèn)題又來(lái)了~
  開(kāi)年第一周,無(wú)論是獨自享受還是分享給各位開(kāi)發(fā)者,依舊是那么的干貨滿(mǎn)滿(mǎn)。新的一年,讓我們在HarmonyOS的發(fā)展征途上走得更遠。讓我們從這場(chǎng)“心靈盛宴”開(kāi)始吧。吃飽喝足,我們的“心靈盛宴”馬上就要開(kāi)始了!
  質(zhì)檢&
  安全
  Q1:如何保證多機通話(huà)的安全?
  A:HarmonyOS提供了分布式的安全機制來(lái)保障分布式終端場(chǎng)景下的安全。詳情請參考官網(wǎng)安全說(shuō)明文檔↓↓↓
  安全文檔:
  Q2:是不是只有消費者才能解密加密數據,而華為無(wú)法打開(kāi)加密數據?
  A:是的,除了消費者自己之外,任何人都無(wú)法讀取加密數據。
  Q3:如果我是安全級別最高的設備,無(wú)論我和誰(shuí)連接都不能傳輸數據,那么我的設備就相當于一座孤島?
  A:不是這個(gè)邏輯。雖然是最高安全等級S5,但是能否傳輸還是由數據決定的。接收端的安全級別是否與數據的安全級別相匹配,不是由設備決定的。數據是分級的,安全級別高的設備可以向安全級別低的設備傳輸安全級別低的數據。
  Q4:理論上,如果操作系統被破解,指紋驗證可以被屏蔽嗎?
  A:操作系統和安全系統是解耦的。理論上,如果屏蔽的是指紋驗證,這個(gè)功能是不可用的,這是正確的。而華為設備指紋芯片的采集和處理是在安全處理器中進(jìn)行的。即使操作系統在理論上被攻破,也無(wú)法獲取指紋和模板,指紋無(wú)法被偽造。
  Q5:分布式調度的安全性能如何?
  A:HarmonyOS的安全加密性能達到了業(yè)界最佳,遠超日常需求。目前數據加密性能已經(jīng)達到8Gbps,而目前WiFi和5G的通信性能遠低于8Gbps,不是瓶頸。
  原則
  Q1:不同的HarmonyOS設備使用同一個(gè)APP進(jìn)行跨設備遷移。被遷移的設備是否也需要安裝相應的APP?如果對端不需要安裝APP,遷移時(shí)會(huì )自動(dòng)下載。如何解決延遲和等待體驗問(wèn)題?
  A:所謂遷移,一定是運行狀態(tài)下的FA。因此,當FA運行時(shí),從設備A遷移到設備B有兩種場(chǎng)景:
  1、如果設備B上已經(jīng)安裝了FA,則直接拉起FA;
  2、如果B設備上沒(méi)有安裝FA,需要走免安裝流程;
  至于免費安裝的延遲,主要瓶頸在于網(wǎng)速。因此,我們現在對不安裝FA需要安裝的包的大小進(jìn)行了限制;盡量讓它盡可能小,否則延遲會(huì )很明顯。
  一次安裝多臺設備的能力,這個(gè)需要根據用戶(hù)自己的需求來(lái)選擇,不建議直接在多臺設備上同時(shí)安裝。目前,該功能還處于預研階段,尚未對外發(fā)布。
  Q2:什么是分布式配置文件?
  A:分布式Profile主要管理分布式場(chǎng)景下用戶(hù)設備信息的特性,描述設備之間的基本信息、能力信息、狀態(tài)信息等。
  Q3:LAN和BLE的發(fā)現是同時(shí)進(jìn)行的嗎?發(fā)現方法能區分嗎?
  A:根據業(yè)務(wù)需要,可以同時(shí)支持BLE發(fā)現和LAN發(fā)現。開(kāi)發(fā)人員可以在 BLE 或 LAN 發(fā)現之間自由選擇。
  Q4:軟總線(xiàn)無(wú)感自組網(wǎng)發(fā)展到什么程度?你現在的體驗如何?
  A:自組織網(wǎng)絡(luò )已經(jīng)初步形成??蓪?shí)現設備自動(dòng)上下線(xiàn)檢測,支持局域網(wǎng)和P2P組網(wǎng)方式。增強的聯(lián)網(wǎng)功能正在開(kāi)發(fā)中。請關(guān)注華為官方信息。
  Q5:軟總線(xiàn)有負載限制嗎?
  A:軟總線(xiàn)的負載取決于底層的無(wú)線(xiàn)承載技術(shù)。如果是WiFi連接,則負載上限為WiFi負載上限;如果是BR連接,則受BR負載上限限制。
  
  Q6:設備互聯(lián)是否需要用戶(hù)每次都觸發(fā)?是否可以在后臺調用其他設備?
  A:設備的發(fā)現連接不需要用戶(hù)主動(dòng)觸發(fā)。軟總線(xiàn)提供了自動(dòng)發(fā)現連接的能力,但是自動(dòng)連接會(huì )帶來(lái)額外的功耗。因此,對于業(yè)務(wù)來(lái)說(shuō),沒(méi)有必要主動(dòng)觸發(fā)發(fā)現,但建議業(yè)務(wù)觸發(fā)建立連接,按需傳輸數據??梢院笈_調用其他設備,但業(yè)務(wù)/應用需要申請權限。
  Q7:手表和電視可以直連嗎?就是不要用手機作為交通工具?
  A:是的,現在的智能手表已經(jīng)具備了直接連接電視的功能,不需要手機做中繼。
  Q8:廠(chǎng)商A的應用創(chuàng )建的KV數據能被廠(chǎng)商B的應用讀取嗎?如果不是,通過(guò)什么加密?
  A:內部嚴格執行數據訪(fǎng)問(wèn)控制,不同應用的數據在物理上和邏輯上都是隔離的。通過(guò)應用程序包名稱(chēng)和簽名來(lái)隔離不同應用程序的數據。
  Q9:設備A和設備B有文件名稱(chēng)相同但內容不同怎么辦?
  A: 1.本地和遠程沖突,遠程文件重命名??吹降耐募潜镜赝募?,遠程文件重命名;
  2.如果多個(gè)遠程設備之間存在沖突,則設備ID較小的同名文件將按訪(fǎng)問(wèn)設備ID的順序顯示,其他文件按順序重命名;
  3、如果聯(lián)網(wǎng)場(chǎng)景下目錄樹(shù)下有遠程文件,創(chuàng )建同名文件并提示文件已存在;
  4、沖突文件顯示_conflict_dev后,依次添加id;
  5、同名目錄不沖突,但文件與遠程目錄同名沖突,遠程目錄后綴加上_remote_directory。
  Q10:如果手機微信保存的圖片需要平板美圖編輯,如何分享文件?
  A:當前版本只支持同應用間的分布式共享,后續版本將支持公共文件,可以跨設備、跨應用訪(fǎng)問(wèn)。
  Q11:是否有圖片搜索和對象搜索?
  A:融合搜索只支持普通數據類(lèi)型的搜索,不支持其他二進(jìn)制形式的多模式搜索。
  Q12:Fusion Search有跨華為賬號跨設備搜索的功能嗎?
  A:聚合搜索支持索引分組管理。它可以將一個(gè)設備的數據作為一個(gè)組來(lái)管理,但是它不具備在設備之間同步數據的能力。設備間同步索引數據的通道需要APP搭建。
  1、設備1命名為group1(例子),設備2命名為group2(例子);
  2、改變索引時(shí),指定groupName為對應的組名;
  3.搜索時(shí),可以分組搜索。group1的結果是設備1的搜索結果,group2的結果是設備2的搜索結果。
  Q13:分布式文件系統和搜索,1+8+N可以應用在哪些設備上?
  A:手機、平板、智慧屏、車(chē)機等富設備不支持手表、音箱等輕量級設備。
  Q14:鴻蒙分布式數據庫和文件管理需要云服務(wù)器支持嗎?
  A:分布式數據庫和分布式文件系統目前都是基于局域網(wǎng)環(huán)境。沒(méi)有云服務(wù)器的幫助,所有的內容都不會(huì )上云。
  Q15:詞庫有多大?在手機上做還是在云端做?
  A:100w詞庫以?xún)龋?0M級別,手機端,不在云端。
  Q16:融合索引可以索引不同應用、不同設備的數據嗎?
  A:APP開(kāi)發(fā)者可以搜索自己管理的索引數據,不能搜索其他APP插入的索引數據。
  例如:短信索引插入短信App,郵件索引插入郵件App。在郵件應用程序上可以找到郵件,但找不到短信。
  
  但是,如果郵件應用有短信數據,并且自己插入了短信索引,那么郵件應用就可以在自己管理的索引中搜索郵件和短信。
  對于多設備、多應用的搜索,需要APP自己獲取數據,然后調用搜索框架接口對數據進(jìn)行分組管理,在對應的分組中進(jìn)行搜索。
  Q17:分布式會(huì )備份所有的設備文件嗎?那會(huì )占用很多存儲空間,對吧?
  A:分布式文件系統所有文件只有一份,沒(méi)有備份,所以不會(huì )占用多余的存儲空間。
  Q18:在文件同步過(guò)程中更改文件時(shí),設備更改到一半就關(guān)機了?會(huì )發(fā)生什么樣的同步?
  A:如果文件保存在遠程設備上,遠程設備斷電后,后續文件將無(wú)法保存;如果文件保存在本地設備,遠程設備斷電,不受影響,仍然可以保存成功。終端設備開(kāi)機后,訪(fǎng)問(wèn)文件時(shí),可以訪(fǎng)問(wèn)到最新的文件。
  Q19:分布式數據庫、設備與設備之間使用什么通信協(xié)議?
  A:通信協(xié)議主要由分布式軟總線(xiàn)封裝實(shí)現,分布式數據庫不感知。分布式數據庫定義了自己的一套應用層協(xié)議來(lái)發(fā)送和接收數據。
  Q20:這個(gè)技術(shù)和RPC/REST有什么區別?
  A:分布式調度包括RPC,REST是RPC的一種形式
  Q21:如果沒(méi)有DisConnect連接,會(huì )一直留在池中消耗資源嗎?
  A:當物理網(wǎng)絡(luò )連接斷開(kāi)或應用程序退出時(shí),系統會(huì )自動(dòng)斷開(kāi)連接。如果應用程序存活并且服務(wù)完成而沒(méi)有釋放連接,則會(huì )消耗資源
  Q22:軟總線(xiàn)的設備列表綁定了華為賬號。HarmonyOS支持多賬號切換嗎?
  A:軟總線(xiàn)設備列表不綁定華為賬號。軟總線(xiàn)設備列表是用戶(hù)信任的設備。同一個(gè)華為賬號代表同一個(gè)用戶(hù)的設備,默認為用戶(hù)信任。當前問(wèn)題中的賬號指的是華為賬號,即Huawei Mobile Services,是云服務(wù)與本地用戶(hù)的綁定關(guān)系;鴻蒙系統是設備上的系統。如果說(shuō)賬號切換,應該是設備本地用戶(hù)切換。如果是華為賬號切換其實(shí)就是本地和云服務(wù)賬號的解綁和重新綁定。
  Q23:這個(gè)和現在的電視投影有什么區別嗎?
  A:目前電視投屏有兩種,一種是DLNA,由應用程序控制,將應用程序的顯示界面復制到另一個(gè)屏幕上顯示,也就是將Surface Layer內存復制處理后傳輸到另一個(gè)屏幕顯示。另一種是mirror Cast,即系統將發(fā)送到屏幕的疊加內存內容進(jìn)行復制、處理和傳輸,以便在另一個(gè)屏幕上顯示。分布式調度不同于這兩種類(lèi)型。只傳輸應用控制指令和應用數據,不涉及顯示渲染。顯示渲染在兩個(gè)設備上本地執行。
  Q24:不同設備的軟總線(xiàn)列表是否一致?
  A:根據權限不同,在不同的用戶(hù)和設備上看到的信任設備列表是不同的。同一物理網(wǎng)絡(luò )中的指令集是相同的。
  Q25:一臺設備可以綁定多人嗎?比如一臺電視綁定一家3口的手機?
  A:只能綁定一個(gè)Owner,其他的由Owner授權。
  Q26:HarmonyOS 以后會(huì )采用微內核,還是三個(gè)內核統一?
  A:HarmonyOS支持多核。開(kāi)發(fā)者和合作伙伴可以根據不同的產(chǎn)品和場(chǎng)景使用不同的內核。
  Q27:設備傳輸可以語(yǔ)音控制嗎?
  A:HarmonyOS提供分布式能力,包括硬件虛擬化、數據協(xié)同、服務(wù)調用協(xié)同。業(yè)務(wù)應用可以基于這些能力實(shí)現交互設備的狀態(tài)同步和切換。后續計劃在HarmonyOS上逐步開(kāi)放三方業(yè)務(wù)融合的語(yǔ)音控制,用于實(shí)現“小藝小藝,幫我繼續播放智慧屏上的視頻”等語(yǔ)音控制功能。
  好了,以上就是我們?yōu)榇蠹規?lái)的鴻蒙精神盛宴的下半場(chǎng),和上半場(chǎng)一起吃效果會(huì )更好。新的一年,如果大家對HarmonyOS的開(kāi)發(fā)有什么疑問(wèn),歡迎在后臺留言,我們會(huì )一一采集
開(kāi)發(fā)者的問(wèn)題~
  新的一年,讓我們揚帆起航,共同邁進(jìn)萬(wàn)物互聯(lián)新時(shí)代!
  結尾
  掃描二維碼關(guān)注不迷路
  干貨教程:thinkcmf搭建教程?thinkcmf自動(dòng)生成采集文章插件
  為什么要用thinkcmf插件?如何使用thinkcmf插件對網(wǎng)站進(jìn)行收錄和關(guān)鍵詞排名。網(wǎng)站優(yōu)化前,網(wǎng)站的代碼、路徑、標簽、服務(wù)器狀態(tài)等必須處于有利于優(yōu)化的狀態(tài)。否則,我們在以后的網(wǎng)站優(yōu)化過(guò)程中可能會(huì )事倍功半,很難達到預期的效果。如果我們在上線(xiàn)前做好站內優(yōu)化,那么我們在優(yōu)化過(guò)程中可能會(huì )輕松很多,也更容易出結果。
  1.描述優(yōu)化
  1)標題標題優(yōu)化。通常,標題下方的描述中會(huì )收錄
一兩個(gè)關(guān)鍵詞,這是網(wǎng)頁(yè)與關(guān)鍵詞的相關(guān)性,而這個(gè)關(guān)鍵詞同時(shí)出現在標題和描述中網(wǎng)頁(yè)>,說(shuō)明這個(gè)網(wǎng)頁(yè)的內容是和這個(gè)關(guān)鍵詞相關(guān)的,加上這個(gè)網(wǎng)站的內外部?jì)?yōu)化,所以搜索引擎會(huì )給這個(gè)網(wǎng)站一個(gè)好的排名,展示在我們面前。
  2) 關(guān)鍵詞部署。關(guān)鍵詞通常我們會(huì )將其設置為用戶(hù)要搜索的詞。設置了這樣一個(gè)詞后,我們將通過(guò)優(yōu)化行為來(lái)提高我們網(wǎng)頁(yè)的排名。通常,關(guān)鍵詞 應該收錄
在標題中。如果關(guān)鍵詞太多,就把核心的關(guān)鍵詞放在里面。
  3)描述。描述是對本網(wǎng)站最簡(jiǎn)潔的介紹。在這個(gè)介紹中,除了嵌入你的關(guān)鍵詞之外,你還應該添加盡可能多的服務(wù)信息,以及你的網(wǎng)站特征信息,足夠豐富的描述內容是合格的描述,而不是純粹的積累關(guān)鍵詞。
  一個(gè)網(wǎng)站更新的越頻繁,搜索引擎蜘蛛來(lái)的就越頻繁。因此,我們可以利用thinkcmf采集來(lái)實(shí)現偽原創(chuàng )發(fā)布的自動(dòng)采集,并主動(dòng)推送到搜索引擎,以增加搜索引擎的抓取頻率,從而提高網(wǎng)站收錄和關(guān)鍵詞排名。
  1.免費的thinkcmf采集插件
  免費的thinkcmf采集插件特點(diǎn):
  1.導入關(guān)鍵詞即可采集相關(guān)關(guān)鍵詞文章,同時(shí)創(chuàng )建幾十個(gè)或上百個(gè)采集任務(wù)(一個(gè)任務(wù)可支持上傳1000個(gè)關(guān)鍵詞),支持過(guò)濾關(guān)鍵詞。
  2.支持多種消息源:?jiǎn)?wèn)答和多種消息源(可設置多個(gè)采集源同時(shí)采集/后續會(huì )添加采集源)
  3.過(guò)濾其他促銷(xiāo)信息
  
  4. 圖片本地化/圖片水印/圖片第三方存儲
  5.文章轉換+翻譯(簡(jiǎn)繁體轉換+百度翻譯+有道翻譯+谷歌翻譯+翻譯)
  6、自動(dòng)批量掛機收款,與各大CMS發(fā)布商無(wú)縫對接,收款后自動(dòng)發(fā)布——實(shí)現掛機自動(dòng)收放。
  2. 發(fā)布全平臺插件
  全平臺 CMS 發(fā)布者功能:
  1、CMS發(fā)布:目前市場(chǎng)唯一同時(shí)支持帝王CMS、易游、ZBLOG、dedeCMS、WordPress、PBoot、Apple CMS、迅銳CMS、PHPCMS、Apple CMS、人人CMS、米拓CMS、云游CMS 、小旋風(fēng)站群、THINKCMF、建站ABC、凡客CMS、易奇CMS、海洋CMS、飛飛CMS、本地發(fā)布、外搜等各大CMS,以及可以同時(shí)管理和批量發(fā)布的工具
  2、全網(wǎng)推送(百度/360/搜狗/神馬)
  3.偽原創(chuàng )(標題+內容)
  4.更換圖片,防止侵權
  5、強大的SEO功能(自動(dòng)配圖/插入內外鏈/插入前后標題和文章內容/標題關(guān)鍵詞與內容一致關(guān)鍵詞/隨機插入圖片/隨機屬性增加頁(yè)面原創(chuàng )性)
  6.對應欄目:對應文章可發(fā)布在對應欄目/支持多欄目發(fā)布
  7、定時(shí)發(fā)布:可控發(fā)布間隔/每天發(fā)布總次數
  8、監控數據:軟件直接監控已發(fā)布、待發(fā)布、是否為假原創(chuàng )、發(fā)布狀態(tài)、URL、程序、發(fā)布時(shí)間等。
  
  2.代碼優(yōu)化
  在建站非常方便的今天,任何人都可以通過(guò)建站程序快速搭建一個(gè)屬于自己的網(wǎng)站。建好自己的網(wǎng)站后,我們需要對網(wǎng)站中的代碼進(jìn)行優(yōu)化。在建站的時(shí)候,我們應該盡量使用HTML+DIV格式來(lái)建網(wǎng)頁(yè)。寫(xiě)代碼的時(shí)候,盡量簡(jiǎn)化代碼的格式,避免使用多個(gè)應用,這樣會(huì )導致路徑層級過(guò)深,對搜索引擎抓取網(wǎng)頁(yè)很不友好。
  其實(shí)不懂代碼的企業(yè)朋友可以直接使用H5自助建站系統建站。無(wú)需編寫(xiě)編程和編碼,操作會(huì )更簡(jiǎn)單。
  3.路徑優(yōu)化
  搜索引擎抓取網(wǎng)站的最佳層數是3層路徑,即首頁(yè)-級別2欄目頁(yè)面-內容頁(yè),這是對優(yōu)化最友好的路徑層,因為如果你的內容頁(yè)路徑超過(guò)3層,達到4、5層甚至更深,搜索引擎的爬行機器人在爬取你的網(wǎng)站時(shí)會(huì )非常吃力,爬取的效果也會(huì )很不理想。
  4.站點(diǎn)地圖制作
  制作站點(diǎn)地圖可以讓搜索引擎每抓取一個(gè)頁(yè)面就對整個(gè)站點(diǎn)進(jìn)行一次深度爬取,從而增加文章內容產(chǎn)出的概率,但是不能過(guò)分依賴(lài)站點(diǎn)地圖。想要內容被收錄,質(zhì)量是第一位的。另外記得在網(wǎng)站底部加上site map標簽,記得把site map文件放在robots.
  我們可以認為站內優(yōu)化是一種刻意迎合搜索引擎的行為,但這種刻意迎合搜索引擎的行為實(shí)際上是在迎合真實(shí)用戶(hù)。它很友好。在搜索引擎強調用戶(hù)體驗的今天,我們優(yōu)化從業(yè)者必須明白,迎合搜索引擎就是迎合用戶(hù)。
  1.一些標簽的使用不能忽視。keywords標簽不要想太多,加3-4個(gè)關(guān)鍵詞就可以了,堆那么多反而適得其反。description標簽是描述標簽,不是讓你羅列XX,XXX關(guān)鍵詞,組織合理流暢的句子來(lái)介紹你的網(wǎng)站。隨意添加一些 關(guān)鍵詞 到它。標簽保證出現一次,可多次使用,但請打分強調重要內容。粗體和斜體都有強調的意思。強調主要的 關(guān)鍵詞,避免濫用。所有粗體或斜體都沒(méi)有意義。
  2、頁(yè)面標題一直被認為是最重要的優(yōu)化重點(diǎn)。事實(shí)也證明,寫(xiě)對標題確實(shí)有很大的好處。一個(gè)合理的標題應該注意以下問(wèn)題: 從網(wǎng)站的整體來(lái)看,網(wǎng)站的標題是否相似,很多CMS模板都是采用層次化的標題標簽來(lái)組合標題,如果一個(gè)標題標簽所占的比例比較大比例,容易造成標題混淆相似。
  3、頁(yè)面布局 頁(yè)面的位置很重要,上比下重要,右比右重要。目的是一個(gè),把最重要的內容放在重要的位置,吸引用戶(hù)和搜索引擎。
  4. 在內容中分發(fā)關(guān)鍵詞。也許你沒(méi)有注意到這個(gè)問(wèn)題。例如,合理的內容排版可以讓人一目了然,使用分級字體、加粗加強調關(guān)鍵詞、標題(粗體)、副標題(粗體或斜體)、正文。這樣,利用用戶(hù)來(lái)了解和查看重要的內容,也是用戶(hù)體驗的問(wèn)題。
  5.網(wǎng)站導航 導航應該放在重要的位置。必須注意的是,如果分類(lèi)很多,不要把網(wǎng)站的所有分類(lèi)都放在首頁(yè)導航位置。應該是重點(diǎn)。
  6、內鏈建設 網(wǎng)站內鏈循環(huán):首頁(yè)-分類(lèi)-小分類(lèi)-內容-小分類(lèi)-分類(lèi)-首頁(yè)。這樣就形成了一個(gè)循環(huán),目的是讓用戶(hù)在網(wǎng)站的某個(gè)頁(yè)面上找到去其他頁(yè)面的路。當然,這個(gè)“距離”不能太長(cháng),三擊以?xún)葹榧选?

采集內容插入詞庫 解決方案:網(wǎng)站優(yōu)化想省心,得讓“站群優(yōu)化系統”來(lái)做!

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 84 次瀏覽 ? 2022-11-25 10:41 ? 來(lái)自相關(guān)話(huà)題

  采集內容插入詞庫 解決方案:網(wǎng)站優(yōu)化想省心,得讓“站群優(yōu)化系統”來(lái)做!
  做好的網(wǎng)站以后肯定要優(yōu)化,但是很多人對網(wǎng)站優(yōu)化不是很在行,不知道怎么優(yōu)化網(wǎng)站。其實(shí)網(wǎng)站優(yōu)化有兩種方式,一種是請專(zhuān)業(yè)的SEO優(yōu)化專(zhuān)家對其網(wǎng)站進(jìn)行優(yōu)化,另一種是利用站群優(yōu)化系統對其網(wǎng)站進(jìn)行智能優(yōu)化。其實(shí)后一種站群優(yōu)化系統更適合不懂網(wǎng)站優(yōu)化的人。把網(wǎng)站優(yōu)化的工作交給站群優(yōu)化系統,它也能為我們做更好的網(wǎng)站優(yōu)化!
  站群優(yōu)化系統“匯營(yíng)銷(xiāo)”優(yōu)化您的網(wǎng)站!
  站群優(yōu)化系統一直是很多企業(yè)選擇的網(wǎng)站優(yōu)化方案,因為不需要聘請專(zhuān)業(yè)的優(yōu)化人員來(lái)優(yōu)化自己的網(wǎng)站,站群優(yōu)化系統就可以?xún)?yōu)化自己的網(wǎng)站,完全可以做到智能優(yōu)化和自動(dòng)優(yōu)化。日常人工優(yōu)化網(wǎng)站的工作,站群優(yōu)化系統“慧營(yíng)銷(xiāo)”可以智能幫我們完成,省心省時(shí)。
  
  站群優(yōu)化系統“慧營(yíng)銷(xiāo)”的功能!
  1.智能采集+更新
  站群優(yōu)化系統“匯營(yíng)銷(xiāo)”可以自動(dòng)采集
內容,然后通過(guò)自帶的詞庫對內容進(jìn)行智能清洗和添加虛假原創(chuàng ),然后自動(dòng)為您更新網(wǎng)站。
  2.裂變變電站
  
  “慧營(yíng)銷(xiāo)”可以在短時(shí)間內為我們生成成百上千個(gè)城市分站。全程智能生成,無(wú)需任何人工設置,可為您獲取更多排名和流量入口。
  3. 智能快速排名
  站群優(yōu)化系統“慧營(yíng)銷(xiāo)”采用智能造詞、智能替換,系統智能生成大量行業(yè)相關(guān)“關(guān)鍵詞”,從而達到霸屏搜索的效果,幫助您展開(kāi) 關(guān)鍵詞 并獲得更多 關(guān)鍵詞 第一頁(yè)排名。
  解決方案:易佰淘寶買(mǎi)家采集工具 V2.0
  淘寶平臺作為一個(gè)開(kāi)放的購物平臺,流量大,用戶(hù)和會(huì )員數量多,每一位消費者都是潛在用戶(hù)。對于營(yíng)銷(xiāo)人員來(lái)說(shuō),是一個(gè)非常好的信息采集平臺;易白淘寶買(mǎi)家采集
工具是一款簡(jiǎn)單小巧的信息數據采集
工具,解壓幫助用戶(hù)快速采集
買(mǎi)家信息。
  特征
  1)按照關(guān)鍵詞、地區、店鋪類(lèi)型、銷(xiāo)量、寶貝數量等批量采集淘寶店鋪數據,并將店鋪數據導出為ex??cel文件。
  2)根據關(guān)鍵詞、地區、付款人數、評價(jià)數等過(guò)濾條件,批量采集淘寶/天貓寶貝數據,導出為ex??cel文件。
  3) 支持批量采集多個(gè)店鋪買(mǎi)家的旺旺、ID、信用、VIP等級。
  4)支持批量采集多個(gè)寶的買(mǎi)家數據,同上。
  
  5)支持指定一個(gè)或多個(gè)店鋪鏈接,直接根據鏈接批量采集買(mǎi)家數據。
  6)支持指定一個(gè)或多個(gè)淘寶或天貓寶貝鏈接,直接根據鏈接批量采集買(mǎi)家數據。
  7) 支持導出買(mǎi)家數據到excel文件
  8)支持在采集買(mǎi)家數據的同時(shí)采集店鋪或寶貝數據。
  9) 支持數據庫格式導出,導出的文件可以再次導入軟件,方便二次采集。
  10) 支持指定買(mǎi)家旺旺名,并采集
相關(guān)ID、信用、VIP等級。
  
  軟件使用方法:
  1、使用店鋪采集
方式:輸入店鋪名稱(chēng)關(guān)鍵詞等篩選條件,點(diǎn)擊開(kāi)始采集
,再點(diǎn)擊采集
買(mǎi)家按鈕。
  2.使用寶貝采集
方式:輸入寶貝名稱(chēng)關(guān)鍵詞等篩選條件,點(diǎn)擊開(kāi)始采集
,點(diǎn)擊按鈕采集
買(mǎi)家。
  3. 店鋪鏈接使用方法:輸入一個(gè)或多個(gè)店鋪鏈接(每行一個(gè)鏈接),點(diǎn)擊采集
買(mǎi)家按鈕。
  4. 寶貝鏈接使用方法: 輸入一個(gè)或多個(gè)寶貝鏈接(每行一個(gè)鏈接),點(diǎn)擊采集
買(mǎi)家按鈕。
  5、使用買(mǎi)家旺旺導入方式:輸入一個(gè)或多個(gè)買(mǎi)家旺旺(每行一個(gè)),點(diǎn)擊采集
買(mǎi)家按鈕。 查看全部

  采集內容插入詞庫 解決方案:網(wǎng)站優(yōu)化想省心,得讓“站群優(yōu)化系統”來(lái)做!
  做好的網(wǎng)站以后肯定要優(yōu)化,但是很多人對網(wǎng)站優(yōu)化不是很在行,不知道怎么優(yōu)化網(wǎng)站。其實(shí)網(wǎng)站優(yōu)化有兩種方式,一種是請專(zhuān)業(yè)的SEO優(yōu)化專(zhuān)家對其網(wǎng)站進(jìn)行優(yōu)化,另一種是利用站群優(yōu)化系統對其網(wǎng)站進(jìn)行智能優(yōu)化。其實(shí)后一種站群優(yōu)化系統更適合不懂網(wǎng)站優(yōu)化的人。把網(wǎng)站優(yōu)化的工作交給站群優(yōu)化系統,它也能為我們做更好的網(wǎng)站優(yōu)化!
  站群優(yōu)化系統“匯營(yíng)銷(xiāo)”優(yōu)化您的網(wǎng)站!
  站群優(yōu)化系統一直是很多企業(yè)選擇的網(wǎng)站優(yōu)化方案,因為不需要聘請專(zhuān)業(yè)的優(yōu)化人員來(lái)優(yōu)化自己的網(wǎng)站,站群優(yōu)化系統就可以?xún)?yōu)化自己的網(wǎng)站,完全可以做到智能優(yōu)化和自動(dòng)優(yōu)化。日常人工優(yōu)化網(wǎng)站的工作,站群優(yōu)化系統“慧營(yíng)銷(xiāo)”可以智能幫我們完成,省心省時(shí)。
  
  站群優(yōu)化系統“慧營(yíng)銷(xiāo)”的功能!
  1.智能采集+更新
  站群優(yōu)化系統“匯營(yíng)銷(xiāo)”可以自動(dòng)采集
內容,然后通過(guò)自帶的詞庫對內容進(jìn)行智能清洗和添加虛假原創(chuàng ),然后自動(dòng)為您更新網(wǎng)站。
  2.裂變變電站
  
  “慧營(yíng)銷(xiāo)”可以在短時(shí)間內為我們生成成百上千個(gè)城市分站。全程智能生成,無(wú)需任何人工設置,可為您獲取更多排名和流量入口。
  3. 智能快速排名
  站群優(yōu)化系統“慧營(yíng)銷(xiāo)”采用智能造詞、智能替換,系統智能生成大量行業(yè)相關(guān)“關(guān)鍵詞”,從而達到霸屏搜索的效果,幫助您展開(kāi) 關(guān)鍵詞 并獲得更多 關(guān)鍵詞 第一頁(yè)排名。
  解決方案:易佰淘寶買(mǎi)家采集工具 V2.0
  淘寶平臺作為一個(gè)開(kāi)放的購物平臺,流量大,用戶(hù)和會(huì )員數量多,每一位消費者都是潛在用戶(hù)。對于營(yíng)銷(xiāo)人員來(lái)說(shuō),是一個(gè)非常好的信息采集平臺;易白淘寶買(mǎi)家采集
工具是一款簡(jiǎn)單小巧的信息數據采集
工具,解壓幫助用戶(hù)快速采集
買(mǎi)家信息。
  特征
  1)按照關(guān)鍵詞、地區、店鋪類(lèi)型、銷(xiāo)量、寶貝數量等批量采集淘寶店鋪數據,并將店鋪數據導出為ex??cel文件。
  2)根據關(guān)鍵詞、地區、付款人數、評價(jià)數等過(guò)濾條件,批量采集淘寶/天貓寶貝數據,導出為ex??cel文件。
  3) 支持批量采集多個(gè)店鋪買(mǎi)家的旺旺、ID、信用、VIP等級。
  4)支持批量采集多個(gè)寶的買(mǎi)家數據,同上。
  
  5)支持指定一個(gè)或多個(gè)店鋪鏈接,直接根據鏈接批量采集買(mǎi)家數據。
  6)支持指定一個(gè)或多個(gè)淘寶或天貓寶貝鏈接,直接根據鏈接批量采集買(mǎi)家數據。
  7) 支持導出買(mǎi)家數據到excel文件
  8)支持在采集買(mǎi)家數據的同時(shí)采集店鋪或寶貝數據。
  9) 支持數據庫格式導出,導出的文件可以再次導入軟件,方便二次采集。
  10) 支持指定買(mǎi)家旺旺名,并采集
相關(guān)ID、信用、VIP等級。
  
  軟件使用方法:
  1、使用店鋪采集
方式:輸入店鋪名稱(chēng)關(guān)鍵詞等篩選條件,點(diǎn)擊開(kāi)始采集
,再點(diǎn)擊采集
買(mǎi)家按鈕。
  2.使用寶貝采集
方式:輸入寶貝名稱(chēng)關(guān)鍵詞等篩選條件,點(diǎn)擊開(kāi)始采集
,點(diǎn)擊按鈕采集
買(mǎi)家。
  3. 店鋪鏈接使用方法:輸入一個(gè)或多個(gè)店鋪鏈接(每行一個(gè)鏈接),點(diǎn)擊采集
買(mǎi)家按鈕。
  4. 寶貝鏈接使用方法: 輸入一個(gè)或多個(gè)寶貝鏈接(每行一個(gè)鏈接),點(diǎn)擊采集
買(mǎi)家按鈕。
  5、使用買(mǎi)家旺旺導入方式:輸入一個(gè)或多個(gè)買(mǎi)家旺旺(每行一個(gè)),點(diǎn)擊采集
買(mǎi)家按鈕。

解決方案:數智“新引擎” | 一站式社交媒體管理與統一運營(yíng)平臺

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 66 次瀏覽 ? 2022-11-25 03:16 ? 來(lái)自相關(guān)話(huà)題

  解決方案:數智“新引擎” | 一站式社交媒體管理與統一運營(yíng)平臺
  隨著(zhù)各種社交媒體的增多,新媒體的內容發(fā)布渠道不斷增加。為了讓媒體內容獲得更好的流量曝光,社交媒體運營(yíng)矩陣逐漸從單一平臺轉向多平臺。微信公眾號、今日頭條號、抖音等頭部平臺已經(jīng)成為當下媒體機構或自媒體創(chuàng )作者必選的入駐平臺。同時(shí),隨著(zhù)不同平臺托管賬號的增多,多平臺內容發(fā)布的時(shí)效性成為媒體創(chuàng )作者面臨的一大挑戰。
  方正電子推出的“一站式社交媒體管理及統一運營(yíng)平臺”,集高效智能一體化編輯、全渠道一體化發(fā)布于一體,為內容創(chuàng )作者提供高效便捷的一站式服務(wù)平臺——利用整合方正電子的優(yōu)勢流程,統一策劃、編輯、編輯和審閱,優(yōu)化工作流程,打通協(xié)同工作,用數據驅動(dòng)科學(xué)高效的決策,提供從賬號管理到內容分發(fā)、數據采集的高效解決方案。
  01 多賬號同步管理
  多主流平臺賬號管理,一站式添加賬號授權、解綁、設置審核流程,避免多平臺多次重復登錄??砂促~戶(hù)分配權限,不同運營(yíng)商可對不同賬戶(hù)授權不同的管理操作,滿(mǎn)足不同運營(yíng)場(chǎng)景的需求。
  02 一鍵分發(fā)到多平臺
  文章內容、視頻內容、圖集內容、動(dòng)態(tài)內容一鍵發(fā)布到多個(gè)平臺,秒級發(fā)布減少耗時(shí)。同時(shí),可以在這個(gè)平臺上留下操作記錄。您可以查看各平臺內容的發(fā)布結果。
  并且可以為每個(gè)平臺配置專(zhuān)屬的標題、標簽等獨特信息,不同的平臺展示不同的信息,靈活實(shí)現內容的多樣化。
  03 融合編輯器
  融合編輯器主要具備圖文音視頻混合功能,滿(mǎn)足從寫(xiě)作到出版多渠道融合的需求,可以實(shí)現稿件的基本編排,圖片、音視頻資源的調用,以及智能校對。
  核心亮點(diǎn)
  豐富的模板樣式應用
  
  在融合編輯器中,無(wú)需跳轉到其他網(wǎng)頁(yè)即可享受海量樣式模板,模板樣式每日更新,及時(shí)更新??梢愿鶕枰`活自由地選擇樣式模板,提高排版效率,同時(shí)給終端用戶(hù)帶來(lái)良好的閱讀體驗。
  靈活的自定義簽名
  提供豐富的稿件信息,根據不同的客戶(hù)場(chǎng)景,可以定制獨一無(wú)二的稿件屬性。例如,基于業(yè)務(wù)場(chǎng)景的獨特性,用戶(hù)希望增加“監管”字段。平臺可后臺配置,無(wú)需升級,編輯器會(huì )出現“監督”欄目,供稿件信息填寫(xiě)和流轉。
  大數據輔助創(chuàng )作
  提供本地及全網(wǎng)熱點(diǎn)新聞,為編輯開(kāi)拓創(chuàng )意思路;支持全網(wǎng)文章、重點(diǎn)媒體、重點(diǎn)人物的信息瀏覽和檢索服務(wù),一鍵選擇編輯,提高編輯效率。
  智能場(chǎng)景應用
  智能摘要:提供自動(dòng)摘要,實(shí)現文章的快速縮寫(xiě)。
  智能 關(guān)鍵詞:提供自動(dòng) 關(guān)鍵詞 快速提取文章 關(guān)鍵詞。
  圖片OCR識別:識別圖片中所有文字并自動(dòng)插入到編輯器中,免去編輯器再次手動(dòng)輸入文字的麻煩。
  人臉識別:提供人臉識別和搜索服務(wù),在創(chuàng )作稿件過(guò)程中,根據某個(gè)角色的圖片資源推薦相同角色的圖片,擴大可用圖片范圍。
  智能標題:用戶(hù)輸入文章內容,系統分析文章內容和AI生成的標題模型,一鍵生成多個(gè)文章標題,供作者參考或選擇,助力提質(zhì)增效文章標題的效率。
  智能改寫(xiě):基于深度學(xué)習和自然語(yǔ)言處理技術(shù),結合真實(shí)語(yǔ)料訓練,生成內容改寫(xiě)模型。用戶(hù)只需輸入文章內容,即可智能一鍵改寫(xiě),高效智能。
  內容創(chuàng )建安全
  智能校對:檢查稿件內容中的錯字、錯別字、敏感詞等內容,同時(shí)提供修改建議,支持快速定位修改;同時(shí),提供專(zhuān)業(yè)的詞庫管理服務(wù),可以自定義詞庫,有效避免內容錯誤。
  稿件標注:針對審稿、流程管理等需要標注稿件內容的場(chǎng)景,編輯可以實(shí)時(shí)對權限范圍內的稿件進(jìn)行文內標注操作。
  版本痕跡:平臺支持記錄任意編輯對某稿件的所有修改記錄。在修改軌跡查詢(xún)中,可以一鍵詳細瀏覽每個(gè)編輯修改的所有軌跡,為審核過(guò)程記錄和職責定位做準備。
  04 綜合統計
  支持一鍵查看多平臺賬號的內容閱讀、評論、轉發(fā)、點(diǎn)贊等運營(yíng)數據,無(wú)需登錄各個(gè)平臺瀏覽,方便快捷??蓪y計數據進(jìn)行內容、部門(mén)、平臺賬號等多維度篩選,以數據驅動(dòng)多視角輔助運營(yíng)。
  05 視頻資料采集
  
  涵蓋抖音、快手、秒拍、西瓜視頻、嗶哩嗶哩等國內中央、省級主流新聞媒體內容數據采集、賬號數據采集、互動(dòng)數據采集。
  核心亮點(diǎn)
  接口能力
  支持模板采集、接口授權等抓取方式,有效保障數據質(zhì)量。支持數據接口對接,數據接口遵循統一的數據標準協(xié)議,支持與第三方稿件提供商和用戶(hù)的數據對接。
  賬戶(hù)資料采集
  支持短視頻賬號數據的采集與分析,主要包括作品發(fā)表數、點(diǎn)贊數、關(guān)注數、粉絲數等;同時(shí)支持賬戶(hù)數據定時(shí)更新。
  短視頻作品集
  支持對短視頻賬號發(fā)布的視頻作品進(jìn)行采集分析,主要包括對應的視頻文字、發(fā)布時(shí)間、視頻鏈接、封面圖鏈接等。
  交互式數據采集
  支持對短視頻號發(fā)布的視頻的互動(dòng)數據進(jìn)行采集
和分析,主要包括評論數、點(diǎn)贊數、轉發(fā)數、閱讀數等;同時(shí)支持交互數據的定時(shí)更新。
  方正電子依托多年媒體業(yè)務(wù)經(jīng)驗、數據積累、技術(shù)積累,針對性滿(mǎn)足泛媒體用戶(hù)的業(yè)務(wù)場(chǎng)景需求,助力內容生產(chǎn)與媒體融合,打造數字智能新引擎,進(jìn)入數字智能新引擎。媒體融合新時(shí)代!
  下一期通知
  數字智能“新引擎” | 數據賦能科學(xué)決策,圍繞“四力”構建新型考核評價(jià)體系
  沙龍預覽
  12月8日,
  我們會(huì )再見(jiàn)的~
  最新消息:今日頭條自媒體運營(yíng)助手 v1.5免費版
  本軟件站網(wǎng)頁(yè)輔助分類(lèi)下的今日頭條自媒體運營(yíng)助手v1.5免費版文件大小為12.4M,適用系統為WinAll。以下是介紹或使用方法。
  本內容分為功能介紹和注意事項兩部分。
  
  目錄
  今日頭條自媒體運營(yíng)助手是一款高效的自媒體內容運營(yíng)工具。用于管理您的今日頭條號和發(fā)布文章。支持批量操作,方便實(shí)用!
  
  特征
  目前支持以下功能
  一鍵采集
一點(diǎn)號文章轉發(fā)今日頭條,支持賬號批量操作 查看全部

  解決方案:數智“新引擎” | 一站式社交媒體管理與統一運營(yíng)平臺
  隨著(zhù)各種社交媒體的增多,新媒體的內容發(fā)布渠道不斷增加。為了讓媒體內容獲得更好的流量曝光,社交媒體運營(yíng)矩陣逐漸從單一平臺轉向多平臺。微信公眾號、今日頭條號、抖音等頭部平臺已經(jīng)成為當下媒體機構或自媒體創(chuàng )作者必選的入駐平臺。同時(shí),隨著(zhù)不同平臺托管賬號的增多,多平臺內容發(fā)布的時(shí)效性成為媒體創(chuàng )作者面臨的一大挑戰。
  方正電子推出的“一站式社交媒體管理及統一運營(yíng)平臺”,集高效智能一體化編輯、全渠道一體化發(fā)布于一體,為內容創(chuàng )作者提供高效便捷的一站式服務(wù)平臺——利用整合方正電子的優(yōu)勢流程,統一策劃、編輯、編輯和審閱,優(yōu)化工作流程,打通協(xié)同工作,用數據驅動(dòng)科學(xué)高效的決策,提供從賬號管理到內容分發(fā)、數據采集的高效解決方案。
  01 多賬號同步管理
  多主流平臺賬號管理,一站式添加賬號授權、解綁、設置審核流程,避免多平臺多次重復登錄??砂促~戶(hù)分配權限,不同運營(yíng)商可對不同賬戶(hù)授權不同的管理操作,滿(mǎn)足不同運營(yíng)場(chǎng)景的需求。
  02 一鍵分發(fā)到多平臺
  文章內容、視頻內容、圖集內容、動(dòng)態(tài)內容一鍵發(fā)布到多個(gè)平臺,秒級發(fā)布減少耗時(shí)。同時(shí),可以在這個(gè)平臺上留下操作記錄。您可以查看各平臺內容的發(fā)布結果。
  并且可以為每個(gè)平臺配置專(zhuān)屬的標題、標簽等獨特信息,不同的平臺展示不同的信息,靈活實(shí)現內容的多樣化。
  03 融合編輯器
  融合編輯器主要具備圖文音視頻混合功能,滿(mǎn)足從寫(xiě)作到出版多渠道融合的需求,可以實(shí)現稿件的基本編排,圖片、音視頻資源的調用,以及智能校對。
  核心亮點(diǎn)
  豐富的模板樣式應用
  
  在融合編輯器中,無(wú)需跳轉到其他網(wǎng)頁(yè)即可享受海量樣式模板,模板樣式每日更新,及時(shí)更新??梢愿鶕枰`活自由地選擇樣式模板,提高排版效率,同時(shí)給終端用戶(hù)帶來(lái)良好的閱讀體驗。
  靈活的自定義簽名
  提供豐富的稿件信息,根據不同的客戶(hù)場(chǎng)景,可以定制獨一無(wú)二的稿件屬性。例如,基于業(yè)務(wù)場(chǎng)景的獨特性,用戶(hù)希望增加“監管”字段。平臺可后臺配置,無(wú)需升級,編輯器會(huì )出現“監督”欄目,供稿件信息填寫(xiě)和流轉。
  大數據輔助創(chuàng )作
  提供本地及全網(wǎng)熱點(diǎn)新聞,為編輯開(kāi)拓創(chuàng )意思路;支持全網(wǎng)文章、重點(diǎn)媒體、重點(diǎn)人物的信息瀏覽和檢索服務(wù),一鍵選擇編輯,提高編輯效率。
  智能場(chǎng)景應用
  智能摘要:提供自動(dòng)摘要,實(shí)現文章的快速縮寫(xiě)。
  智能 關(guān)鍵詞:提供自動(dòng) 關(guān)鍵詞 快速提取文章 關(guān)鍵詞。
  圖片OCR識別:識別圖片中所有文字并自動(dòng)插入到編輯器中,免去編輯器再次手動(dòng)輸入文字的麻煩。
  人臉識別:提供人臉識別和搜索服務(wù),在創(chuàng )作稿件過(guò)程中,根據某個(gè)角色的圖片資源推薦相同角色的圖片,擴大可用圖片范圍。
  智能標題:用戶(hù)輸入文章內容,系統分析文章內容和AI生成的標題模型,一鍵生成多個(gè)文章標題,供作者參考或選擇,助力提質(zhì)增效文章標題的效率。
  智能改寫(xiě):基于深度學(xué)習和自然語(yǔ)言處理技術(shù),結合真實(shí)語(yǔ)料訓練,生成內容改寫(xiě)模型。用戶(hù)只需輸入文章內容,即可智能一鍵改寫(xiě),高效智能。
  內容創(chuàng )建安全
  智能校對:檢查稿件內容中的錯字、錯別字、敏感詞等內容,同時(shí)提供修改建議,支持快速定位修改;同時(shí),提供專(zhuān)業(yè)的詞庫管理服務(wù),可以自定義詞庫,有效避免內容錯誤。
  稿件標注:針對審稿、流程管理等需要標注稿件內容的場(chǎng)景,編輯可以實(shí)時(shí)對權限范圍內的稿件進(jìn)行文內標注操作。
  版本痕跡:平臺支持記錄任意編輯對某稿件的所有修改記錄。在修改軌跡查詢(xún)中,可以一鍵詳細瀏覽每個(gè)編輯修改的所有軌跡,為審核過(guò)程記錄和職責定位做準備。
  04 綜合統計
  支持一鍵查看多平臺賬號的內容閱讀、評論、轉發(fā)、點(diǎn)贊等運營(yíng)數據,無(wú)需登錄各個(gè)平臺瀏覽,方便快捷??蓪y計數據進(jìn)行內容、部門(mén)、平臺賬號等多維度篩選,以數據驅動(dòng)多視角輔助運營(yíng)。
  05 視頻資料采集
  
  涵蓋抖音、快手、秒拍、西瓜視頻、嗶哩嗶哩等國內中央、省級主流新聞媒體內容數據采集、賬號數據采集、互動(dòng)數據采集。
  核心亮點(diǎn)
  接口能力
  支持模板采集、接口授權等抓取方式,有效保障數據質(zhì)量。支持數據接口對接,數據接口遵循統一的數據標準協(xié)議,支持與第三方稿件提供商和用戶(hù)的數據對接。
  賬戶(hù)資料采集
  支持短視頻賬號數據的采集與分析,主要包括作品發(fā)表數、點(diǎn)贊數、關(guān)注數、粉絲數等;同時(shí)支持賬戶(hù)數據定時(shí)更新。
  短視頻作品集
  支持對短視頻賬號發(fā)布的視頻作品進(jìn)行采集分析,主要包括對應的視頻文字、發(fā)布時(shí)間、視頻鏈接、封面圖鏈接等。
  交互式數據采集
  支持對短視頻號發(fā)布的視頻的互動(dòng)數據進(jìn)行采集
和分析,主要包括評論數、點(diǎn)贊數、轉發(fā)數、閱讀數等;同時(shí)支持交互數據的定時(shí)更新。
  方正電子依托多年媒體業(yè)務(wù)經(jīng)驗、數據積累、技術(shù)積累,針對性滿(mǎn)足泛媒體用戶(hù)的業(yè)務(wù)場(chǎng)景需求,助力內容生產(chǎn)與媒體融合,打造數字智能新引擎,進(jìn)入數字智能新引擎。媒體融合新時(shí)代!
  下一期通知
  數字智能“新引擎” | 數據賦能科學(xué)決策,圍繞“四力”構建新型考核評價(jià)體系
  沙龍預覽
  12月8日,
  我們會(huì )再見(jiàn)的~
  最新消息:今日頭條自媒體運營(yíng)助手 v1.5免費版
  本軟件站網(wǎng)頁(yè)輔助分類(lèi)下的今日頭條自媒體運營(yíng)助手v1.5免費版文件大小為12.4M,適用系統為WinAll。以下是介紹或使用方法。
  本內容分為功能介紹和注意事項兩部分。
  
  目錄
  今日頭條自媒體運營(yíng)助手是一款高效的自媒體內容運營(yíng)工具。用于管理您的今日頭條號和發(fā)布文章。支持批量操作,方便實(shí)用!
  
  特征
  目前支持以下功能
  一鍵采集
一點(diǎn)號文章轉發(fā)今日頭條,支持賬號批量操作

總結:分析一個(gè)10天上權6黑帽SEO優(yōu)化案例

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 66 次瀏覽 ? 2022-11-23 21:36 ? 來(lái)自相關(guān)話(huà)題

  總結:分析一個(gè)10天上權6黑帽SEO優(yōu)化案例
  10天top 6黑帽seo優(yōu)化案例分析觀(guān)察。
  外鏈很重要,足夠的外鏈是支撐關(guān)鍵詞排名的基礎
  詞庫很重要,大量使用低難度的長(cháng)尾詞提高權重
  頁(yè)面模板很重要,豐富的內容和功能騙過(guò)搜索引擎算法
  一、場(chǎng)地概況分析
  6月10日開(kāi)始排行,12天后6月22日到達愛(ài)站PC和WEB雙電6,總關(guān)鍵詞量3W+,預估流量43335~67997IP .
  本站有很多穩定的建站歷史,良好的外鏈資源,橙色外鏈評分14000,谷歌PR4,已有10年歷史。從2011年建站至今,擁有長(cháng)期穩定的建站記錄。公司網(wǎng)站有公司備案,并且喜歡這個(gè)有 20 多個(gè)反鏈接的網(wǎng)站。被黑后植入大量影視關(guān)鍵詞,內容均為搜集新聞內容。
  2. 黑帽運營(yíng)分析
  1、互聯(lián)互通
  被黑站點(diǎn)不止一兩個(gè),內容頁(yè)面會(huì )相互連接,如下圖
  互聯(lián)可以幫助所有站點(diǎn)被搜索引擎抓取,鏈接都指向內鏈,更自然。
  2. 詞庫建設
  想要獲得力量,就需要知道愛(ài)站、站長(cháng)工具、5118等平臺監控了哪些詞庫,并對這些關(guān)鍵詞進(jìn)行操作。畢竟高流量關(guān)鍵詞競爭激烈,選品平臺會(huì )被監控,但是難度低的長(cháng)尾關(guān)鍵詞很關(guān)鍵。
  5118詞庫下載后,可以提取一些有流量,排名不難的關(guān)鍵詞。你可以選擇一些不違反規則的關(guān)鍵詞在你自己的網(wǎng)站上操作。
  3、采集內容和分析內容的原創(chuàng )率不高
  本站所有內容均采集
新聞、小說(shuō)資料整理而成,原創(chuàng )率和可讀性極低。關(guān)鍵詞出現的位置主要在其他頁(yè)面模塊,內容中沒(méi)有關(guān)鍵詞植入。頁(yè)面總關(guān)鍵詞密度不高,頁(yè)面內容會(huì )在頭部、中部、底部各一次;在TDK的位置,出現了1~2個(gè)字。
  從內容和關(guān)鍵詞密度來(lái)看,關(guān)鍵詞的難度確實(shí)很低。如果你的網(wǎng)站有一定的基礎,通過(guò)這個(gè)詞庫來(lái)構建自己的內容,對于提高網(wǎng)站的權威性效果肯定會(huì )起到很好的作用。
  
 ?。▋热萁貓D)
 ?。▋热菰瓌?chuàng )分析)
  4.頁(yè)面布局URL結構布局
  雖然內容很水,但是黑帽seo必須關(guān)心每個(gè)內容模塊的布局和頁(yè)面的URL結構。
  整體 URL 也使用了多種 URL 結構。雖然模板是一樣的,但是要用不同的URL結構來(lái)欺騙算法,讓算法認為是不同欄目、不同功能的URL。
  /news/playo/244995-1.html(新聞)
  /應用程序/46822096(應用程序)
  /playo/94922-1.html(新聞)
  /tv/222927(視頻)
  頁(yè)面布局充分考慮了影視頁(yè)面的各個(gè)模塊
  在下圖的案例中:電影信息,詳情 | 選集、簡(jiǎn)介、主演名單、評論、猜你喜歡、熱度等影視常用模塊一應俱全。
  5、深入研究后可以發(fā)現的一些現象
  相同的詞庫和相同的內容相當于控制變量。讓我們看看詞庫內容之外的SEO重點(diǎn)應該放在哪里!
  首先根據鏈接找了10個(gè)站點(diǎn),選了幾個(gè)進(jìn)行分析(下),發(fā)現了一些現象,簡(jiǎn)單說(shuō)一下。
  1、站點(diǎn)本身的外鏈量很重要,外鏈多的站點(diǎn)可以通過(guò)這一套操作獲得更高的權限。
  2、即使外鏈不足,原有流量為0,也能得到一定的提升(應該是其他站點(diǎn)帶來(lái)的鏈接起到了作用)。
  3、建站歷史好像影響不大,至少加分不明顯。
  4、有些域名確實(shí)不能動(dòng)。
  很多收站的網(wǎng)站對域名要求不高,不到1類(lèi)權限的網(wǎng)站賣(mài)不出去。但是如果購買(mǎi)一批低權限的域名,然后安裝類(lèi)似的seo系統,得到的收益是相當可觀(guān)的。不幸的是我不明白。
  1.站點(diǎn)信息出現在站點(diǎn)上。網(wǎng)站剛建立時(shí),網(wǎng)站不會(huì )顯示個(gè)人網(wǎng)站信息。這是網(wǎng)站信息出來(lái)時(shí)最基本的標準。
  2.申請百度站點(diǎn)LOGO申請即可通過(guò)。
  
  3、百度收錄量正常增長(cháng),當天站點(diǎn)收錄率達到40%左右。
  4.外部鏈接不斷增長(cháng)
  三、維修站
  計劃先養30個(gè)站點(diǎn)3個(gè)月,30個(gè)站點(diǎn)都需要使用舊域名,因為舊域名在維護站點(diǎn)時(shí)更有優(yōu)勢。其實(shí)不需要30個(gè)站點(diǎn),一個(gè)站點(diǎn)就夠了,但是黑帽技術(shù)或多或少都有風(fēng)險,所以第一個(gè)掛第二個(gè),第二個(gè)掛第三個(gè)。嗯,30個(gè)站點(diǎn)基本上是備用的。前提是手頭必須有30個(gè)好地盤(pán)!
  為什么要養3個(gè)月?事實(shí)上,在一半的情況下,2 個(gè)月就足夠了。但是由于站多,很多站都顧不上了。時(shí)間可能會(huì )慢一些。如果老板有人手,可以多招幾個(gè)人來(lái)做。另一個(gè)是站點(diǎn)標準的問(wèn)題。這絕對不是以站長(cháng)工具查對類(lèi)型為標準的。如果您掃描索引,您將擁有正確的類(lèi)型。自然,正確的類(lèi)型不能代表什么。我是這樣評價(jià)網(wǎng)站的標準的!
  其實(shí)不維護網(wǎng)站也可以,除非你能黑別人的網(wǎng)站,但是目前來(lái)說(shuō),黑別人的網(wǎng)站基本沒(méi)用,2天之內別人就會(huì )發(fā)現,刪掉你的內容,黑也沒(méi)用!
  如果你想自己創(chuàng )建30個(gè)這樣的基本站點(diǎn),你必須一步一步來(lái)。選擇織夢(mèng)程序即可。使用純靜態(tài)頁(yè)面,做一個(gè)普通的企業(yè)站點(diǎn)。首頁(yè)主要是文章列表,首頁(yè)最好展示30-40篇文章。不行的話(huà)我的dede博客模板也可以,但是我的博客模板沒(méi)有那么多的文章列表可以顯示,只能顯示10篇。相對來(lái)說(shuō)沒(méi)有什么優(yōu)勢,所以選單是主要的選擇。企業(yè)網(wǎng)站比較好,如下圖的列表最好。
  三個(gè)月內更新的內容絕對不允許設計成非法灰色產(chǎn)業(yè),可以抄襲文章,因為抄襲的文章更容易被收錄。這里解釋了為什么剽竊的文章更容易被收錄。
  當一篇文章同時(shí)被多個(gè)地方轉載時(shí),搜索引擎會(huì )認為該內容是當前的熱點(diǎn)信息。自然,熱點(diǎn)信息比普通內容更有優(yōu)勢。如果一條新聞內容不能在同一天被收錄,那么第二天就沒(méi)有熱點(diǎn)信息。對站長(cháng)和百度自然沒(méi)有任何好處,抄襲的內容更容易被收錄!
  另外,要看你主頁(yè)的列表數量,更新多少。通常更新的數量是你主頁(yè)列表數量的10%。每欄更新,依次更新即可!至于網(wǎng)站的內容,就看你自己建站了。比如你的網(wǎng)站是裝修網(wǎng)站,那就更新裝修行業(yè)的知識。
  廢棄博客:另外,適當交換一些友情鏈接。當然,前提是你可以手動(dòng)管理它們。如果你不能管理這么多站點(diǎn)的友情鏈接,那么不交換的影響并不大。前期的交流是為了促進(jìn)包容!
  4.戴黑帽子
  網(wǎng)站維護了3個(gè)月,達到我定義的標準后,基本就可以黑帽上線(xiàn)了,也就是你要做的行業(yè)頁(yè)面上線(xiàn)。在站點(diǎn)根目錄新建一個(gè)文件夾,在Black hat files文件夾下新建一個(gè)html文件。
  文件也主要是一個(gè)列表,列表調用的文章和你的關(guān)鍵詞相關(guān),不能和行業(yè)相關(guān),但是標題可以,但是文章列表的標題不可以,并且內容不能針對行業(yè)進(jìn)行設計。
  比如你想做“**”這個(gè)詞,那么你就不能在這個(gè)文章頁(yè)面設計**什么的。最好有這樣的文章等,文章一定要有原創(chuàng )內容。
  文章更新的數量仍然是根據你的頁(yè)面調用的文章數量。比如一個(gè)頁(yè)面調用了30篇文章,那么一天可以更新10篇文章。將您的 關(guān)鍵詞 插入到文章中,粗體和超鏈接。
  網(wǎng)站頂部調用一個(gè)JS,JS中的內容使用框架接口調用第三方廣告,也就是我們一打開(kāi)網(wǎng)站就出現的廣告內容。之所以使用JS調用而不是直接使用框架調用,一是因為百度不喜歡框架結構,二來(lái)使用它是一個(gè)灰色行業(yè),百度無(wú)法識別JS內容,所以調用目前是安全的,你就知道了未來(lái)!
  5.做優(yōu)化
  上傳后,還需要進(jìn)行優(yōu)化。它只需要兩步,即內容和外部鏈接。內容按照上述方法不斷更新。這里的內容每天都需要更新,等到排名上去了才會(huì )更新。至于外鏈,買(mǎi)就好了。
  因為你的專(zhuān)欄沒(méi)有被首頁(yè)推薦,所以很難收錄。誘導蜘蛛收錄它的唯一方法是導入外部鏈接。最好的外部鏈接是新聞源外部鏈接。你不能買(mǎi)它們。您還可以購買(mǎi)門(mén)戶(hù)外部鏈接。是的,都是基于錨文本的,淘寶上有很多這樣的外鏈!
  6.排名穩定
  重點(diǎn)是黑帽基本上沒(méi)有辦法穩定排名。穩定排名的最好方法就是上面說(shuō)的。第一個(gè)站上線(xiàn)后,準備第二個(gè)站,然后循環(huán)養第二批新站,以此類(lèi)推。第二批新站出來(lái)后,繼續排名。建議不要將所有站點(diǎn)都放在一個(gè) IP 上。
  技巧:「黑帽SEO」如何從零開(kāi)始學(xué)習黑帽SEO?「第三篇」
  1.文章內容采集
  說(shuō)到內容采集,相信大家都是再熟悉不過(guò)了?;旧纤械腟EOer都“采集
”了一些內容。內容采集
可以利用CMS程序或軟件的采集
功能,填充大量低質(zhì)量的網(wǎng)站內容和垃圾信息。當然,我想所有的SEOer都應該知道在網(wǎng)上采集
大量重復內容的最終結果。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  網(wǎng)絡(luò )文章內容合集
  常見(jiàn)的應用方法有:使用采集
器軟件和偽原創(chuàng )工具制造垃圾。
  1.采集器
  一些采集器的內容采集和數據導入功能可以將您采集的任何網(wǎng)頁(yè)數據發(fā)布到遠程服務(wù)器上。業(yè)界鄙視內容采集,雖然大部分站長(cháng)抵制用采集的方式來(lái)更新網(wǎng)站內容,但還是有不少站長(cháng)時(shí)刻使用各種手段采集內容。
  通過(guò)采集程序獲取別人網(wǎng)站的內容,然后放到自己的網(wǎng)站上,是一種非常不公平的方式,因為這種方式的便利性已經(jīng)成為很多網(wǎng)站更新內容的手段和渠道,可見(jiàn)一斑做是行業(yè)內不正當競爭的一種方式。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  此外,人工采集內容的質(zhì)量難以控制,也是抵制采集的另一個(gè)重要原因?,F在很多站長(cháng)都是通過(guò)程序來(lái)采集
內容,現有的技術(shù)無(wú)法安全過(guò)濾文章中不利于網(wǎng)站發(fā)展的內容,比如不良內容。屏幕語(yǔ)句。即使您從權威網(wǎng)站采集
內容,其他網(wǎng)站的內容也未必適合更新您的網(wǎng)站內容,網(wǎng)站本身的發(fā)展也有不同的特點(diǎn)?,F在搜索引擎的人性化水平在逐漸提高,作弊的手段很容易對搜索引擎不友好,小到不被收錄,大到K站,而采集
對網(wǎng)站發(fā)展造成的后果完全是得不償失的。無(wú)論從哪個(gè)角度來(lái)說(shuō),采集
內容都不能讓網(wǎng)站長(cháng)久生存,也不利于網(wǎng)站的長(cháng)期運營(yíng),所以L(fǎng)ighthouse SEO不建議大家使用這種方式。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  
  2.偽原創(chuàng )工具
  所謂偽原創(chuàng ),就是對一篇文章進(jìn)行再加工,使其被搜索引擎認為是原創(chuàng )文章,從而增加網(wǎng)站的權重。隨著(zhù)SEO的發(fā)展,出現了“偽原創(chuàng )”的產(chǎn)物,為眾多SEOer所癡迷。到現在,還有很多站長(cháng)在運營(yíng)站群,少則幾百,多則上千。這么龐大的網(wǎng)站陣容如果用原創(chuàng )來(lái)更新兼職是個(gè)無(wú)底洞,采集
是最簡(jiǎn)潔方便的方法。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  可能有人會(huì )問(wèn):為什么要采集
呢?這很簡(jiǎn)單。當然是獲取大量的內容信息,然后整合優(yōu)質(zhì)的偽原創(chuàng )。對于不擅長(cháng)寫(xiě)作的人來(lái)說(shuō),這種方法比想一萬(wàn)遍要好上千倍。堅持原創(chuàng )固然好,但如果因為各種原因做不到,也不要亂填垃圾內容。
  我們知道搜索引擎喜歡原創(chuàng )內容,對于重復的內容,它會(huì )認為沒(méi)有收錄的價(jià)值。如果網(wǎng)站上的大量?jì)热荼晦D載,搜索引擎會(huì )覺(jué)得整個(gè)網(wǎng)站沒(méi)有什么價(jià)值,從而降低網(wǎng)站的權重。網(wǎng)站的排名自然不會(huì )很高。因為偽原創(chuàng )工具是機械的、死板的,這些工具無(wú)非就是替換單詞,比如同義詞,甚至用反義詞替換,與原文的意思完全相反。沒(méi)有觀(guān)點(diǎn)或錯誤的觀(guān)點(diǎn)。對發(fā)展沒(méi)有好處。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  同時(shí),這些偽原創(chuàng )工具還有一種“能力”,可以打亂文章的段落和句型,讓文章看起來(lái)語(yǔ)無(wú)倫次。說(shuō)白了,這類(lèi)文章是胡說(shuō)八道,只供搜索引擎閱讀。網(wǎng)站的最終目的是供用戶(hù)閱讀。一個(gè)網(wǎng)站上大量的文章看不懂,句子也說(shuō)不通。如果你看到別人的網(wǎng)站是這樣的,你肯定會(huì )立刻點(diǎn)擊屏幕右上角的紅叉。相信大家可以看出今年搜索引擎對內容的重視程度,所以L(fǎng)ighthouse SEO建議大家不要再使用這種方式了。
  2.買(mǎi)賣(mài)鏈接
  網(wǎng)站外部?jì)?yōu)質(zhì)單向鏈接的推薦效果不用Lighthouse SEO說(shuō),做SEO的都知道。這也是大家總是找各種平臺發(fā)布外鏈的原因之一。一個(gè)不錯的首頁(yè)單向鏈接,比那些平臺里的鏈接好太多了。很多人通過(guò)鏈接交易平臺買(mǎi)賣(mài)鏈接,即購買(mǎi)高pr的外鏈或友情鏈接。這種作弊方式現在也很流行。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  購買(mǎi)鏈接,雖然在其他網(wǎng)站購買(mǎi)廣告很正常,但有時(shí)如果購買(mǎi)的廣告鏈接純粹是為了操縱搜索引擎排名,一次性大量購買(mǎi),也會(huì )被用作作弊手段。
  
  雖然這種連接搜索引擎很少被搜索到,但是做這行的人心里很清楚。如果你的網(wǎng)站被認為是購買(mǎi)鏈接作弊,那是沒(méi)有辦法和搜索引擎爭辯的。因為搜索引擎的決定就是最終的決定。但是搜索引擎很難判斷哪些鏈接是正常的,哪些鏈接是購買(mǎi)的,這就是為什么你知道你的對手在購買(mǎi)鏈接,但他的排名總是比你高??梢哉f(shuō)現在很多排名靠前的網(wǎng)站都買(mǎi)鏈接了。只要我們從“正規”的地方購買(mǎi),合理使用,就根本不用擔心什么。唯一需要注意的是那些交易鏈接的,因為搜索引擎可以找到它們。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  十四:連桿廠(chǎng)(站組、鏈輪)
  鏈接工廠(chǎng),也稱(chēng)為大量鏈接機制、鏈接農場(chǎng)、鏈接農場(chǎng);指由大量網(wǎng)頁(yè)交叉鏈接組成的網(wǎng)絡(luò )系統。這些頁(yè)面可能來(lái)自同一個(gè)域,也可能來(lái)自多個(gè)不同的域,甚至可能來(lái)自不同的服務(wù)器。
  站群結構圖
  鏈接工廠(chǎng)簡(jiǎn)單理解可以是一組相互鏈接的網(wǎng)站。不管主題的相關(guān)性如何,每個(gè)人都聯(lián)系在一起。每個(gè)新添加的網(wǎng)站不僅可以鏈接到以前的網(wǎng)站,還可以鏈接到其他網(wǎng)站。而你之前加入的網(wǎng)站可以多一個(gè)鏈接。由于大量網(wǎng)頁(yè)相互交叉鏈接,形成了鏈接的網(wǎng)絡(luò )系統。例如,有 100 個(gè)網(wǎng)站。這些網(wǎng)站的內容可能不相關(guān),但它們相互鏈接,形成一個(gè)網(wǎng)絡(luò )結構。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  站點(diǎn)加入這樣的“鏈接工廠(chǎng)”后,一方面可以從系統中的所有網(wǎng)頁(yè)中獲取鏈接,同時(shí)需要“奉獻”自己的鏈接作為交換,從而提高鏈接分數,從而達到干預鏈接分數。其目的是通過(guò)搜索引擎獲得大量流量,或指向同一網(wǎng)站的鏈接,以提高搜索排名。一個(gè)站群通常由幾個(gè)到上百個(gè)網(wǎng)站組成,個(gè)人站長(cháng)幾乎不可能手動(dòng)更新一個(gè)站群。所以一般都是通過(guò)網(wǎng)站群軟件來(lái)完成。
  其中最突出的是博客 sprocket,也稱(chēng)為 BLOG-LinkWheeler,通常用于 SEO 以提高搜索引擎中的 關(guān)鍵詞 排名。當然,在龐大的外部導入鏈接的支持下,我們可以利用站內錨文本的合理分布來(lái)進(jìn)行適當的優(yōu)化。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  最后,燈塔seo博客要提醒各位站長(cháng),加入鏈接工廠(chǎng)是非常有害的。這是一種對搜索引擎非常不友好的方法。加入鏈接工廠(chǎng)很有可能會(huì )讓你的網(wǎng)站陷入泥潭,被搜索引擎降級或K掉。而谷歌的算法也明確提到,鏈接作弊的網(wǎng)站本身就是作弊。 查看全部

  總結:分析一個(gè)10天上權6黑帽SEO優(yōu)化案例
  10天top 6黑帽seo優(yōu)化案例分析觀(guān)察。
  外鏈很重要,足夠的外鏈是支撐關(guān)鍵詞排名的基礎
  詞庫很重要,大量使用低難度的長(cháng)尾詞提高權重
  頁(yè)面模板很重要,豐富的內容和功能騙過(guò)搜索引擎算法
  一、場(chǎng)地概況分析
  6月10日開(kāi)始排行,12天后6月22日到達愛(ài)站PC和WEB雙電6,總關(guān)鍵詞量3W+,預估流量43335~67997IP .
  本站有很多穩定的建站歷史,良好的外鏈資源,橙色外鏈評分14000,谷歌PR4,已有10年歷史。從2011年建站至今,擁有長(cháng)期穩定的建站記錄。公司網(wǎng)站有公司備案,并且喜歡這個(gè)有 20 多個(gè)反鏈接的網(wǎng)站。被黑后植入大量影視關(guān)鍵詞,內容均為搜集新聞內容。
  2. 黑帽運營(yíng)分析
  1、互聯(lián)互通
  被黑站點(diǎn)不止一兩個(gè),內容頁(yè)面會(huì )相互連接,如下圖
  互聯(lián)可以幫助所有站點(diǎn)被搜索引擎抓取,鏈接都指向內鏈,更自然。
  2. 詞庫建設
  想要獲得力量,就需要知道愛(ài)站、站長(cháng)工具、5118等平臺監控了哪些詞庫,并對這些關(guān)鍵詞進(jìn)行操作。畢竟高流量關(guān)鍵詞競爭激烈,選品平臺會(huì )被監控,但是難度低的長(cháng)尾關(guān)鍵詞很關(guān)鍵。
  5118詞庫下載后,可以提取一些有流量,排名不難的關(guān)鍵詞。你可以選擇一些不違反規則的關(guān)鍵詞在你自己的網(wǎng)站上操作。
  3、采集內容和分析內容的原創(chuàng )率不高
  本站所有內容均采集
新聞、小說(shuō)資料整理而成,原創(chuàng )率和可讀性極低。關(guān)鍵詞出現的位置主要在其他頁(yè)面模塊,內容中沒(méi)有關(guān)鍵詞植入。頁(yè)面總關(guān)鍵詞密度不高,頁(yè)面內容會(huì )在頭部、中部、底部各一次;在TDK的位置,出現了1~2個(gè)字。
  從內容和關(guān)鍵詞密度來(lái)看,關(guān)鍵詞的難度確實(shí)很低。如果你的網(wǎng)站有一定的基礎,通過(guò)這個(gè)詞庫來(lái)構建自己的內容,對于提高網(wǎng)站的權威性效果肯定會(huì )起到很好的作用。
  
 ?。▋热萁貓D)
 ?。▋热菰瓌?chuàng )分析)
  4.頁(yè)面布局URL結構布局
  雖然內容很水,但是黑帽seo必須關(guān)心每個(gè)內容模塊的布局和頁(yè)面的URL結構。
  整體 URL 也使用了多種 URL 結構。雖然模板是一樣的,但是要用不同的URL結構來(lái)欺騙算法,讓算法認為是不同欄目、不同功能的URL。
  /news/playo/244995-1.html(新聞)
  /應用程序/46822096(應用程序)
  /playo/94922-1.html(新聞)
  /tv/222927(視頻)
  頁(yè)面布局充分考慮了影視頁(yè)面的各個(gè)模塊
  在下圖的案例中:電影信息,詳情 | 選集、簡(jiǎn)介、主演名單、評論、猜你喜歡、熱度等影視常用模塊一應俱全。
  5、深入研究后可以發(fā)現的一些現象
  相同的詞庫和相同的內容相當于控制變量。讓我們看看詞庫內容之外的SEO重點(diǎn)應該放在哪里!
  首先根據鏈接找了10個(gè)站點(diǎn),選了幾個(gè)進(jìn)行分析(下),發(fā)現了一些現象,簡(jiǎn)單說(shuō)一下。
  1、站點(diǎn)本身的外鏈量很重要,外鏈多的站點(diǎn)可以通過(guò)這一套操作獲得更高的權限。
  2、即使外鏈不足,原有流量為0,也能得到一定的提升(應該是其他站點(diǎn)帶來(lái)的鏈接起到了作用)。
  3、建站歷史好像影響不大,至少加分不明顯。
  4、有些域名確實(shí)不能動(dòng)。
  很多收站的網(wǎng)站對域名要求不高,不到1類(lèi)權限的網(wǎng)站賣(mài)不出去。但是如果購買(mǎi)一批低權限的域名,然后安裝類(lèi)似的seo系統,得到的收益是相當可觀(guān)的。不幸的是我不明白。
  1.站點(diǎn)信息出現在站點(diǎn)上。網(wǎng)站剛建立時(shí),網(wǎng)站不會(huì )顯示個(gè)人網(wǎng)站信息。這是網(wǎng)站信息出來(lái)時(shí)最基本的標準。
  2.申請百度站點(diǎn)LOGO申請即可通過(guò)。
  
  3、百度收錄量正常增長(cháng),當天站點(diǎn)收錄率達到40%左右。
  4.外部鏈接不斷增長(cháng)
  三、維修站
  計劃先養30個(gè)站點(diǎn)3個(gè)月,30個(gè)站點(diǎn)都需要使用舊域名,因為舊域名在維護站點(diǎn)時(shí)更有優(yōu)勢。其實(shí)不需要30個(gè)站點(diǎn),一個(gè)站點(diǎn)就夠了,但是黑帽技術(shù)或多或少都有風(fēng)險,所以第一個(gè)掛第二個(gè),第二個(gè)掛第三個(gè)。嗯,30個(gè)站點(diǎn)基本上是備用的。前提是手頭必須有30個(gè)好地盤(pán)!
  為什么要養3個(gè)月?事實(shí)上,在一半的情況下,2 個(gè)月就足夠了。但是由于站多,很多站都顧不上了。時(shí)間可能會(huì )慢一些。如果老板有人手,可以多招幾個(gè)人來(lái)做。另一個(gè)是站點(diǎn)標準的問(wèn)題。這絕對不是以站長(cháng)工具查對類(lèi)型為標準的。如果您掃描索引,您將擁有正確的類(lèi)型。自然,正確的類(lèi)型不能代表什么。我是這樣評價(jià)網(wǎng)站的標準的!
  其實(shí)不維護網(wǎng)站也可以,除非你能黑別人的網(wǎng)站,但是目前來(lái)說(shuō),黑別人的網(wǎng)站基本沒(méi)用,2天之內別人就會(huì )發(fā)現,刪掉你的內容,黑也沒(méi)用!
  如果你想自己創(chuàng )建30個(gè)這樣的基本站點(diǎn),你必須一步一步來(lái)。選擇織夢(mèng)程序即可。使用純靜態(tài)頁(yè)面,做一個(gè)普通的企業(yè)站點(diǎn)。首頁(yè)主要是文章列表,首頁(yè)最好展示30-40篇文章。不行的話(huà)我的dede博客模板也可以,但是我的博客模板沒(méi)有那么多的文章列表可以顯示,只能顯示10篇。相對來(lái)說(shuō)沒(méi)有什么優(yōu)勢,所以選單是主要的選擇。企業(yè)網(wǎng)站比較好,如下圖的列表最好。
  三個(gè)月內更新的內容絕對不允許設計成非法灰色產(chǎn)業(yè),可以抄襲文章,因為抄襲的文章更容易被收錄。這里解釋了為什么剽竊的文章更容易被收錄。
  當一篇文章同時(shí)被多個(gè)地方轉載時(shí),搜索引擎會(huì )認為該內容是當前的熱點(diǎn)信息。自然,熱點(diǎn)信息比普通內容更有優(yōu)勢。如果一條新聞內容不能在同一天被收錄,那么第二天就沒(méi)有熱點(diǎn)信息。對站長(cháng)和百度自然沒(méi)有任何好處,抄襲的內容更容易被收錄!
  另外,要看你主頁(yè)的列表數量,更新多少。通常更新的數量是你主頁(yè)列表數量的10%。每欄更新,依次更新即可!至于網(wǎng)站的內容,就看你自己建站了。比如你的網(wǎng)站是裝修網(wǎng)站,那就更新裝修行業(yè)的知識。
  廢棄博客:另外,適當交換一些友情鏈接。當然,前提是你可以手動(dòng)管理它們。如果你不能管理這么多站點(diǎn)的友情鏈接,那么不交換的影響并不大。前期的交流是為了促進(jìn)包容!
  4.戴黑帽子
  網(wǎng)站維護了3個(gè)月,達到我定義的標準后,基本就可以黑帽上線(xiàn)了,也就是你要做的行業(yè)頁(yè)面上線(xiàn)。在站點(diǎn)根目錄新建一個(gè)文件夾,在Black hat files文件夾下新建一個(gè)html文件。
  文件也主要是一個(gè)列表,列表調用的文章和你的關(guān)鍵詞相關(guān),不能和行業(yè)相關(guān),但是標題可以,但是文章列表的標題不可以,并且內容不能針對行業(yè)進(jìn)行設計。
  比如你想做“**”這個(gè)詞,那么你就不能在這個(gè)文章頁(yè)面設計**什么的。最好有這樣的文章等,文章一定要有原創(chuàng )內容。
  文章更新的數量仍然是根據你的頁(yè)面調用的文章數量。比如一個(gè)頁(yè)面調用了30篇文章,那么一天可以更新10篇文章。將您的 關(guān)鍵詞 插入到文章中,粗體和超鏈接。
  網(wǎng)站頂部調用一個(gè)JS,JS中的內容使用框架接口調用第三方廣告,也就是我們一打開(kāi)網(wǎng)站就出現的廣告內容。之所以使用JS調用而不是直接使用框架調用,一是因為百度不喜歡框架結構,二來(lái)使用它是一個(gè)灰色行業(yè),百度無(wú)法識別JS內容,所以調用目前是安全的,你就知道了未來(lái)!
  5.做優(yōu)化
  上傳后,還需要進(jìn)行優(yōu)化。它只需要兩步,即內容和外部鏈接。內容按照上述方法不斷更新。這里的內容每天都需要更新,等到排名上去了才會(huì )更新。至于外鏈,買(mǎi)就好了。
  因為你的專(zhuān)欄沒(méi)有被首頁(yè)推薦,所以很難收錄。誘導蜘蛛收錄它的唯一方法是導入外部鏈接。最好的外部鏈接是新聞源外部鏈接。你不能買(mǎi)它們。您還可以購買(mǎi)門(mén)戶(hù)外部鏈接。是的,都是基于錨文本的,淘寶上有很多這樣的外鏈!
  6.排名穩定
  重點(diǎn)是黑帽基本上沒(méi)有辦法穩定排名。穩定排名的最好方法就是上面說(shuō)的。第一個(gè)站上線(xiàn)后,準備第二個(gè)站,然后循環(huán)養第二批新站,以此類(lèi)推。第二批新站出來(lái)后,繼續排名。建議不要將所有站點(diǎn)都放在一個(gè) IP 上。
  技巧:「黑帽SEO」如何從零開(kāi)始學(xué)習黑帽SEO?「第三篇」
  1.文章內容采集
  說(shuō)到內容采集,相信大家都是再熟悉不過(guò)了?;旧纤械腟EOer都“采集
”了一些內容。內容采集
可以利用CMS程序或軟件的采集
功能,填充大量低質(zhì)量的網(wǎng)站內容和垃圾信息。當然,我想所有的SEOer都應該知道在網(wǎng)上采集
大量重復內容的最終結果。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  網(wǎng)絡(luò )文章內容合集
  常見(jiàn)的應用方法有:使用采集
器軟件和偽原創(chuàng )工具制造垃圾。
  1.采集器
  一些采集器的內容采集和數據導入功能可以將您采集的任何網(wǎng)頁(yè)數據發(fā)布到遠程服務(wù)器上。業(yè)界鄙視內容采集,雖然大部分站長(cháng)抵制用采集的方式來(lái)更新網(wǎng)站內容,但還是有不少站長(cháng)時(shí)刻使用各種手段采集內容。
  通過(guò)采集程序獲取別人網(wǎng)站的內容,然后放到自己的網(wǎng)站上,是一種非常不公平的方式,因為這種方式的便利性已經(jīng)成為很多網(wǎng)站更新內容的手段和渠道,可見(jiàn)一斑做是行業(yè)內不正當競爭的一種方式。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  此外,人工采集內容的質(zhì)量難以控制,也是抵制采集的另一個(gè)重要原因?,F在很多站長(cháng)都是通過(guò)程序來(lái)采集
內容,現有的技術(shù)無(wú)法安全過(guò)濾文章中不利于網(wǎng)站發(fā)展的內容,比如不良內容。屏幕語(yǔ)句。即使您從權威網(wǎng)站采集
內容,其他網(wǎng)站的內容也未必適合更新您的網(wǎng)站內容,網(wǎng)站本身的發(fā)展也有不同的特點(diǎn)?,F在搜索引擎的人性化水平在逐漸提高,作弊的手段很容易對搜索引擎不友好,小到不被收錄,大到K站,而采集
對網(wǎng)站發(fā)展造成的后果完全是得不償失的。無(wú)論從哪個(gè)角度來(lái)說(shuō),采集
內容都不能讓網(wǎng)站長(cháng)久生存,也不利于網(wǎng)站的長(cháng)期運營(yíng),所以L(fǎng)ighthouse SEO不建議大家使用這種方式。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  
  2.偽原創(chuàng )工具
  所謂偽原創(chuàng ),就是對一篇文章進(jìn)行再加工,使其被搜索引擎認為是原創(chuàng )文章,從而增加網(wǎng)站的權重。隨著(zhù)SEO的發(fā)展,出現了“偽原創(chuàng )”的產(chǎn)物,為眾多SEOer所癡迷。到現在,還有很多站長(cháng)在運營(yíng)站群,少則幾百,多則上千。這么龐大的網(wǎng)站陣容如果用原創(chuàng )來(lái)更新兼職是個(gè)無(wú)底洞,采集
是最簡(jiǎn)潔方便的方法。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  可能有人會(huì )問(wèn):為什么要采集
呢?這很簡(jiǎn)單。當然是獲取大量的內容信息,然后整合優(yōu)質(zhì)的偽原創(chuàng )。對于不擅長(cháng)寫(xiě)作的人來(lái)說(shuō),這種方法比想一萬(wàn)遍要好上千倍。堅持原創(chuàng )固然好,但如果因為各種原因做不到,也不要亂填垃圾內容。
  我們知道搜索引擎喜歡原創(chuàng )內容,對于重復的內容,它會(huì )認為沒(méi)有收錄的價(jià)值。如果網(wǎng)站上的大量?jì)热荼晦D載,搜索引擎會(huì )覺(jué)得整個(gè)網(wǎng)站沒(méi)有什么價(jià)值,從而降低網(wǎng)站的權重。網(wǎng)站的排名自然不會(huì )很高。因為偽原創(chuàng )工具是機械的、死板的,這些工具無(wú)非就是替換單詞,比如同義詞,甚至用反義詞替換,與原文的意思完全相反。沒(méi)有觀(guān)點(diǎn)或錯誤的觀(guān)點(diǎn)。對發(fā)展沒(méi)有好處。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  同時(shí),這些偽原創(chuàng )工具還有一種“能力”,可以打亂文章的段落和句型,讓文章看起來(lái)語(yǔ)無(wú)倫次。說(shuō)白了,這類(lèi)文章是胡說(shuō)八道,只供搜索引擎閱讀。網(wǎng)站的最終目的是供用戶(hù)閱讀。一個(gè)網(wǎng)站上大量的文章看不懂,句子也說(shuō)不通。如果你看到別人的網(wǎng)站是這樣的,你肯定會(huì )立刻點(diǎn)擊屏幕右上角的紅叉。相信大家可以看出今年搜索引擎對內容的重視程度,所以L(fǎng)ighthouse SEO建議大家不要再使用這種方式了。
  2.買(mǎi)賣(mài)鏈接
  網(wǎng)站外部?jì)?yōu)質(zhì)單向鏈接的推薦效果不用Lighthouse SEO說(shuō),做SEO的都知道。這也是大家總是找各種平臺發(fā)布外鏈的原因之一。一個(gè)不錯的首頁(yè)單向鏈接,比那些平臺里的鏈接好太多了。很多人通過(guò)鏈接交易平臺買(mǎi)賣(mài)鏈接,即購買(mǎi)高pr的外鏈或友情鏈接。這種作弊方式現在也很流行。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  購買(mǎi)鏈接,雖然在其他網(wǎng)站購買(mǎi)廣告很正常,但有時(shí)如果購買(mǎi)的廣告鏈接純粹是為了操縱搜索引擎排名,一次性大量購買(mǎi),也會(huì )被用作作弊手段。
  
  雖然這種連接搜索引擎很少被搜索到,但是做這行的人心里很清楚。如果你的網(wǎng)站被認為是購買(mǎi)鏈接作弊,那是沒(méi)有辦法和搜索引擎爭辯的。因為搜索引擎的決定就是最終的決定。但是搜索引擎很難判斷哪些鏈接是正常的,哪些鏈接是購買(mǎi)的,這就是為什么你知道你的對手在購買(mǎi)鏈接,但他的排名總是比你高??梢哉f(shuō)現在很多排名靠前的網(wǎng)站都買(mǎi)鏈接了。只要我們從“正規”的地方購買(mǎi),合理使用,就根本不用擔心什么。唯一需要注意的是那些交易鏈接的,因為搜索引擎可以找到它們。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  十四:連桿廠(chǎng)(站組、鏈輪)
  鏈接工廠(chǎng),也稱(chēng)為大量鏈接機制、鏈接農場(chǎng)、鏈接農場(chǎng);指由大量網(wǎng)頁(yè)交叉鏈接組成的網(wǎng)絡(luò )系統。這些頁(yè)面可能來(lái)自同一個(gè)域,也可能來(lái)自多個(gè)不同的域,甚至可能來(lái)自不同的服務(wù)器。
  站群結構圖
  鏈接工廠(chǎng)簡(jiǎn)單理解可以是一組相互鏈接的網(wǎng)站。不管主題的相關(guān)性如何,每個(gè)人都聯(lián)系在一起。每個(gè)新添加的網(wǎng)站不僅可以鏈接到以前的網(wǎng)站,還可以鏈接到其他網(wǎng)站。而你之前加入的網(wǎng)站可以多一個(gè)鏈接。由于大量網(wǎng)頁(yè)相互交叉鏈接,形成了鏈接的網(wǎng)絡(luò )系統。例如,有 100 個(gè)網(wǎng)站。這些網(wǎng)站的內容可能不相關(guān),但它們相互鏈接,形成一個(gè)網(wǎng)絡(luò )結構。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  站點(diǎn)加入這樣的“鏈接工廠(chǎng)”后,一方面可以從系統中的所有網(wǎng)頁(yè)中獲取鏈接,同時(shí)需要“奉獻”自己的鏈接作為交換,從而提高鏈接分數,從而達到干預鏈接分數。其目的是通過(guò)搜索引擎獲得大量流量,或指向同一網(wǎng)站的鏈接,以提高搜索排名。一個(gè)站群通常由幾個(gè)到上百個(gè)網(wǎng)站組成,個(gè)人站長(cháng)幾乎不可能手動(dòng)更新一個(gè)站群。所以一般都是通過(guò)網(wǎng)站群軟件來(lái)完成。
  其中最突出的是博客 sprocket,也稱(chēng)為 BLOG-LinkWheeler,通常用于 SEO 以提高搜索引擎中的 關(guān)鍵詞 排名。當然,在龐大的外部導入鏈接的支持下,我們可以利用站內錨文本的合理分布來(lái)進(jìn)行適當的優(yōu)化。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  最后,燈塔seo博客要提醒各位站長(cháng),加入鏈接工廠(chǎng)是非常有害的。這是一種對搜索引擎非常不友好的方法。加入鏈接工廠(chǎng)很有可能會(huì )讓你的網(wǎng)站陷入泥潭,被搜索引擎降級或K掉。而谷歌的算法也明確提到,鏈接作弊的網(wǎng)站本身就是作弊。

采集內容插入詞庫 事實(shí):中小企業(yè)幾十人以?xún)鹊脑?huà)更不要!(圖)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2022-11-23 17:22 ? 來(lái)自相關(guān)話(huà)題

  采集內容插入詞庫 事實(shí):中小企業(yè)幾十人以?xún)鹊脑?huà)更不要!(圖)
  采集內容插入詞庫因為很多用戶(hù)采集的都是一些公共資源,或者不定向采集,只要涉及到資源都會(huì )插入。做個(gè)小栗子,網(wǎng)易大話(huà)采集內容可能是華南師范大學(xué),出版社,華南師范大學(xué)圖書(shū)館,華南師范大學(xué)讀者會(huì ),以及一些公共資源(在線(xiàn)文檔),
  你這個(gè)是不對的。要明確需求與業(yè)務(wù)之間的關(guān)系。
  這個(gè)叫做持續性采集,兩個(gè)人分別負責一個(gè)需求端與一個(gè)業(yè)務(wù)端,工作量如何肯定要分配好。
  
  post采集之后compress成json進(jìn)行csv編碼再采集,
  對,
  千萬(wàn)不要采集!非常危險!中小企業(yè)幾十人以?xún)鹊脑?huà)更不要!本人安全意識薄弱,
  
  appstore的app名稱(chēng)一般都會(huì )有后綴,比如京東,看一下京東的app名稱(chēng)就知道了。你的app采集后,就會(huì )變成一個(gè)json數據,然后進(jìn)行去重。
  基本都是持續性的。否則這個(gè)互聯(lián)網(wǎng)產(chǎn)品只是廣告平臺而已。
  相當于批量采集一樣,
  這個(gè)怎么說(shuō)呢,涉及到采集這塊主要是看業(yè)務(wù)模式。如果只是自己的推廣渠道只針對內部人員推廣,那么這個(gè)幾乎就是你原生的采集方式, 查看全部

  采集內容插入詞庫 事實(shí):中小企業(yè)幾十人以?xún)鹊脑?huà)更不要!(圖)
  采集內容插入詞庫因為很多用戶(hù)采集的都是一些公共資源,或者不定向采集,只要涉及到資源都會(huì )插入。做個(gè)小栗子,網(wǎng)易大話(huà)采集內容可能是華南師范大學(xué),出版社,華南師范大學(xué)圖書(shū)館,華南師范大學(xué)讀者會(huì ),以及一些公共資源(在線(xiàn)文檔),
  你這個(gè)是不對的。要明確需求與業(yè)務(wù)之間的關(guān)系。
  這個(gè)叫做持續性采集,兩個(gè)人分別負責一個(gè)需求端與一個(gè)業(yè)務(wù)端,工作量如何肯定要分配好。
  
  post采集之后compress成json進(jìn)行csv編碼再采集,
  對,
  千萬(wàn)不要采集!非常危險!中小企業(yè)幾十人以?xún)鹊脑?huà)更不要!本人安全意識薄弱,
  
  appstore的app名稱(chēng)一般都會(huì )有后綴,比如京東,看一下京東的app名稱(chēng)就知道了。你的app采集后,就會(huì )變成一個(gè)json數據,然后進(jìn)行去重。
  基本都是持續性的。否則這個(gè)互聯(lián)網(wǎng)產(chǎn)品只是廣告平臺而已。
  相當于批量采集一樣,
  這個(gè)怎么說(shuō)呢,涉及到采集這塊主要是看業(yè)務(wù)模式。如果只是自己的推廣渠道只針對內部人員推廣,那么這個(gè)幾乎就是你原生的采集方式,

事實(shí):網(wǎng)站收錄不穩、收錄周期變長(cháng),這是什么原因導致?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 68 次瀏覽 ? 2022-11-23 10:31 ? 來(lái)自相關(guān)話(huà)題

  事實(shí):網(wǎng)站收錄不穩、收錄周期變長(cháng),這是什么原因導致?
  網(wǎng)站采集不穩定,采集周期變長(cháng)。這是什么原因?具體站點(diǎn)具體分析,站點(diǎn)內外SEO分析,搜索引擎算法有沒(méi)有更新,是自身問(wèn)題還是整體搜索調整。
  最近很多網(wǎng)站的收錄速度都變慢了,部分索引量有所下降。這是什么原因?網(wǎng)站排名快與哪些因素有關(guān)?為什么有些網(wǎng)站速度變慢或不包括在內?到底是怎么回事?
  
  1、一個(gè)網(wǎng)站要想被搜索引擎收錄,就需要搜索引擎蜘蛛對其進(jìn)行抓取和抓取。搜索引擎蜘蛛抓取網(wǎng)頁(yè)后,會(huì )建立索引,站點(diǎn)頁(yè)面的內容會(huì )發(fā)布頁(yè)面進(jìn)行收錄。
  2、網(wǎng)站頁(yè)面集合分為有效索引和無(wú)效索引。對于有效收錄的網(wǎng)頁(yè),搜索頁(yè)的完整標題在首頁(yè)的第一個(gè)。對于無(wú)效收錄的頁(yè)面,搜索全稱(chēng)無(wú)法檢索到網(wǎng)頁(yè)的顯示,因此無(wú)法參與詞庫排名。
  3、以前網(wǎng)站秒收或者當天收,收的速度非???。最近,該網(wǎng)站不包括在內。對于站點(diǎn)的情況,我們可以通過(guò)分析站點(diǎn)內外的優(yōu)化操作以及搜索引擎是否有算法更新或者搜索本身的波動(dòng)來(lái)判斷具體的站點(diǎn)是否存在自身的問(wèn)題或者搜索引擎的問(wèn)題。
  
  4、完整收錄不穩定、未收錄或收錄慢的原因是網(wǎng)站服務(wù)器空間穩定性不好,頁(yè)面內容無(wú)法被蜘蛛抓??;網(wǎng)站是采集
的低質(zhì)量?jì)热?,被搜索引擎認可并被降權懲罰,不被收錄。; 重復和低質(zhì)量的網(wǎng)站內容將不被收錄;網(wǎng)站不收錄是因為網(wǎng)站是別人采集
或鏡像的,頁(yè)面不友好。
  SEOSEM 顧問(wèn)總結:網(wǎng)站索引不穩定。建議針對具體網(wǎng)站進(jìn)行站內站外SEO優(yōu)化診斷分析。通過(guò)分析可以判斷網(wǎng)站索引不穩定的原因是SEO的錯誤操作還是搜索引擎的調整。
  事實(shí):最被低估的十個(gè)惡意軟件分析資源
  對于惡意軟件分析和事件響應等安全分析人員來(lái)說(shuō),好的惡意軟件分析資源和工具可以大大提高惡意軟件分析的效率,縮短事件響應周期,有助于:
  下面,我們將介紹十個(gè)被忽視和低估的惡意軟件分析資源,包括一些高質(zhì)量的數據庫、工具、列表和搜索引擎。
  1.解除保護
  Unprotect Project 于 2015 年啟動(dòng),作為惡意軟件規避檢測技術(shù)的查詢(xún)數據庫。
  地址:unprotect.it
  2. 樂(lè )樂(lè )巴斯
  LolBas 項目(Living off the land)指的是使用“兩用工具”,這些工具要么已經(jīng)安裝在受害者的環(huán)境中,要么是可以被惡意使用的管理、取證或系統工具。
  地址:lolbas-project.github.io
  3. HijackLibs 動(dòng)態(tài)鏈接庫
  劫持是惡意軟件常用的一種技術(shù)。該項目提供了 DLL 劫持候選列表??梢酝ㄟ^(guò)該網(wǎng)站搜索 DLL 和易受攻擊的可執行文件之間的映射。
  地址:
  
  4. 馬拉皮
  惡意軟件依賴(lài) Windows API 在受感染的系統中執行操作。MalAPI 保留惡意軟件使用的 API 列表。
  地址:malapi.io
  5.地段
  受信任的站點(diǎn)是提高網(wǎng)絡(luò )釣魚(yú)成功率的關(guān)鍵,攻擊者在進(jìn)行網(wǎng)絡(luò )釣魚(yú)、C&C、滲透和下載工具時(shí)經(jīng)常使用流行的合法域來(lái)逃避檢測。Lots 項目整理了攻擊者常用的流行域名和設計風(fēng)格。
  地址:
  6. 卡內阿德
  該惡意軟件使用持久性機制來(lái)避免設備重啟。此列表跟蹤與惡意軟件持久性技術(shù)相關(guān)的資源。
  地址:
  7. 惡意軟件提權
  惡意軟件通常使用權限升級來(lái)獲得對受感染機器的更多訪(fǎng)問(wèn)權限。此列表跟蹤權限升級資源。
  
  地址:
  8. 惡意軟件事件 ID
  在執行期間,惡意軟件會(huì )在系統上留下痕跡,可以在 Windows 事件中檢索這些痕跡。此列表跟蹤與事件 ID 分析相關(guān)的資源。
  地址:
  9. 奧克蘭
  ORKL 這是一個(gè)專(zhuān)門(mén)采集
威脅情報報告的搜索引擎。您可以使用它來(lái)瀏覽有關(guān)攻擊者、工具和策略的知識。
  地址:orkl.eu
  10. Vx-Underground 惡意軟件技術(shù)論文
  按技術(shù)分類(lèi)的惡意軟件白皮書(shū)集。
  地址:
  /windows.html 查看全部

  事實(shí):網(wǎng)站收錄不穩、收錄周期變長(cháng),這是什么原因導致?
  網(wǎng)站采集不穩定,采集周期變長(cháng)。這是什么原因?具體站點(diǎn)具體分析,站點(diǎn)內外SEO分析,搜索引擎算法有沒(méi)有更新,是自身問(wèn)題還是整體搜索調整。
  最近很多網(wǎng)站的收錄速度都變慢了,部分索引量有所下降。這是什么原因?網(wǎng)站排名快與哪些因素有關(guān)?為什么有些網(wǎng)站速度變慢或不包括在內?到底是怎么回事?
  
  1、一個(gè)網(wǎng)站要想被搜索引擎收錄,就需要搜索引擎蜘蛛對其進(jìn)行抓取和抓取。搜索引擎蜘蛛抓取網(wǎng)頁(yè)后,會(huì )建立索引,站點(diǎn)頁(yè)面的內容會(huì )發(fā)布頁(yè)面進(jìn)行收錄。
  2、網(wǎng)站頁(yè)面集合分為有效索引和無(wú)效索引。對于有效收錄的網(wǎng)頁(yè),搜索頁(yè)的完整標題在首頁(yè)的第一個(gè)。對于無(wú)效收錄的頁(yè)面,搜索全稱(chēng)無(wú)法檢索到網(wǎng)頁(yè)的顯示,因此無(wú)法參與詞庫排名。
  3、以前網(wǎng)站秒收或者當天收,收的速度非???。最近,該網(wǎng)站不包括在內。對于站點(diǎn)的情況,我們可以通過(guò)分析站點(diǎn)內外的優(yōu)化操作以及搜索引擎是否有算法更新或者搜索本身的波動(dòng)來(lái)判斷具體的站點(diǎn)是否存在自身的問(wèn)題或者搜索引擎的問(wèn)題。
  
  4、完整收錄不穩定、未收錄或收錄慢的原因是網(wǎng)站服務(wù)器空間穩定性不好,頁(yè)面內容無(wú)法被蜘蛛抓??;網(wǎng)站是采集
的低質(zhì)量?jì)热?,被搜索引擎認可并被降權懲罰,不被收錄。; 重復和低質(zhì)量的網(wǎng)站內容將不被收錄;網(wǎng)站不收錄是因為網(wǎng)站是別人采集
或鏡像的,頁(yè)面不友好。
  SEOSEM 顧問(wèn)總結:網(wǎng)站索引不穩定。建議針對具體網(wǎng)站進(jìn)行站內站外SEO優(yōu)化診斷分析。通過(guò)分析可以判斷網(wǎng)站索引不穩定的原因是SEO的錯誤操作還是搜索引擎的調整。
  事實(shí):最被低估的十個(gè)惡意軟件分析資源
  對于惡意軟件分析和事件響應等安全分析人員來(lái)說(shuō),好的惡意軟件分析資源和工具可以大大提高惡意軟件分析的效率,縮短事件響應周期,有助于:
  下面,我們將介紹十個(gè)被忽視和低估的惡意軟件分析資源,包括一些高質(zhì)量的數據庫、工具、列表和搜索引擎。
  1.解除保護
  Unprotect Project 于 2015 年啟動(dòng),作為惡意軟件規避檢測技術(shù)的查詢(xún)數據庫。
  地址:unprotect.it
  2. 樂(lè )樂(lè )巴斯
  LolBas 項目(Living off the land)指的是使用“兩用工具”,這些工具要么已經(jīng)安裝在受害者的環(huán)境中,要么是可以被惡意使用的管理、取證或系統工具。
  地址:lolbas-project.github.io
  3. HijackLibs 動(dòng)態(tài)鏈接庫
  劫持是惡意軟件常用的一種技術(shù)。該項目提供了 DLL 劫持候選列表??梢酝ㄟ^(guò)該網(wǎng)站搜索 DLL 和易受攻擊的可執行文件之間的映射。
  地址:
  
  4. 馬拉皮
  惡意軟件依賴(lài) Windows API 在受感染的系統中執行操作。MalAPI 保留惡意軟件使用的 API 列表。
  地址:malapi.io
  5.地段
  受信任的站點(diǎn)是提高網(wǎng)絡(luò )釣魚(yú)成功率的關(guān)鍵,攻擊者在進(jìn)行網(wǎng)絡(luò )釣魚(yú)、C&C、滲透和下載工具時(shí)經(jīng)常使用流行的合法域來(lái)逃避檢測。Lots 項目整理了攻擊者常用的流行域名和設計風(fēng)格。
  地址:
  6. 卡內阿德
  該惡意軟件使用持久性機制來(lái)避免設備重啟。此列表跟蹤與惡意軟件持久性技術(shù)相關(guān)的資源。
  地址:
  7. 惡意軟件提權
  惡意軟件通常使用權限升級來(lái)獲得對受感染機器的更多訪(fǎng)問(wèn)權限。此列表跟蹤權限升級資源。
  
  地址:
  8. 惡意軟件事件 ID
  在執行期間,惡意軟件會(huì )在系統上留下痕跡,可以在 Windows 事件中檢索這些痕跡。此列表跟蹤與事件 ID 分析相關(guān)的資源。
  地址:
  9. 奧克蘭
  ORKL 這是一個(gè)專(zhuān)門(mén)采集
威脅情報報告的搜索引擎。您可以使用它來(lái)瀏覽有關(guān)攻擊者、工具和策略的知識。
  地址:orkl.eu
  10. Vx-Underground 惡意軟件技術(shù)論文
  按技術(shù)分類(lèi)的惡意軟件白皮書(shū)集。
  地址:
  /windows.html

技巧:采集內容插入詞庫,基本上可以先從百度搜索著(zhù)手了

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 76 次瀏覽 ? 2022-11-19 00:16 ? 來(lái)自相關(guān)話(huà)題

  技巧:采集內容插入詞庫,基本上可以先從百度搜索著(zhù)手了
  采集內容插入詞庫,基本上可以先從百度搜索著(zhù)手了。至于會(huì )不會(huì )消詞,這種問(wèn)題幾乎不可能出現,因為它們對權重有影響,原因很簡(jiǎn)單,很多站點(diǎn)權重不穩定,類(lèi)似的新站權重爆發(fā)更快。內容生產(chǎn)幾個(gè)月就要求你變更?這個(gè)不大可能。想降權,明確一點(diǎn):百度是不希望內容靠?jì)热萑Q定排名的。而百度喜歡一些可以影響排名的其他因素。
  
  1,生產(chǎn)內容肯定消詞2,哪些消詞可以一定程度降權,你所針對詞才消,這就沒(méi)那么簡(jiǎn)單了。
  生產(chǎn)內容的人和讀內容的人之間建立關(guān)系,比如誰(shuí)天天讀你的內容,就持續積累誰(shuí)的權重,權重多高,就有多少機會(huì )消權重。我見(jiàn)過(guò)一個(gè)牛逼的網(wǎng)站可以在一周內搞定15次回車(chē),絕大多數網(wǎng)站都不能,你這才生產(chǎn)5天就消權重太慢了。
  
  肯定會(huì ),
  百度權重跟你生產(chǎn)內容有什么關(guān)系??jì)热輽嘀睾艽蟪潭壬现皇前俣忍峁┑囊粋€(gè)服務(wù)而已。如果你要想為百度貢獻更多的權重就需要有更優(yōu)質(zhì)的內容創(chuàng )作,當然了,這里所說(shuō)的優(yōu)質(zhì)的內容不是指那些娛樂(lè )八卦;真正的好內容又要從標題,話(huà)題,網(wǎng)頁(yè)設計中體現出來(lái)。那么從標題開(kāi)始,為什么要從標題開(kāi)始?最簡(jiǎn)單的例子:自己打個(gè)廣告,放在三十個(gè)框子里你肯定是一眼就能找到的,同理,放在七十個(gè)框子里面誰(shuí)會(huì )去關(guān)注?抓住用戶(hù)大學(xué)習空間就這么明顯!。 查看全部

  技巧:采集內容插入詞庫,基本上可以先從百度搜索著(zhù)手了
  采集內容插入詞庫,基本上可以先從百度搜索著(zhù)手了。至于會(huì )不會(huì )消詞,這種問(wèn)題幾乎不可能出現,因為它們對權重有影響,原因很簡(jiǎn)單,很多站點(diǎn)權重不穩定,類(lèi)似的新站權重爆發(fā)更快。內容生產(chǎn)幾個(gè)月就要求你變更?這個(gè)不大可能。想降權,明確一點(diǎn):百度是不希望內容靠?jì)热萑Q定排名的。而百度喜歡一些可以影響排名的其他因素。
  
  1,生產(chǎn)內容肯定消詞2,哪些消詞可以一定程度降權,你所針對詞才消,這就沒(méi)那么簡(jiǎn)單了。
  生產(chǎn)內容的人和讀內容的人之間建立關(guān)系,比如誰(shuí)天天讀你的內容,就持續積累誰(shuí)的權重,權重多高,就有多少機會(huì )消權重。我見(jiàn)過(guò)一個(gè)牛逼的網(wǎng)站可以在一周內搞定15次回車(chē),絕大多數網(wǎng)站都不能,你這才生產(chǎn)5天就消權重太慢了。
  
  肯定會(huì ),
  百度權重跟你生產(chǎn)內容有什么關(guān)系??jì)热輽嘀睾艽蟪潭壬现皇前俣忍峁┑囊粋€(gè)服務(wù)而已。如果你要想為百度貢獻更多的權重就需要有更優(yōu)質(zhì)的內容創(chuàng )作,當然了,這里所說(shuō)的優(yōu)質(zhì)的內容不是指那些娛樂(lè )八卦;真正的好內容又要從標題,話(huà)題,網(wǎng)頁(yè)設計中體現出來(lái)。那么從標題開(kāi)始,為什么要從標題開(kāi)始?最簡(jiǎn)單的例子:自己打個(gè)廣告,放在三十個(gè)框子里你肯定是一眼就能找到的,同理,放在七十個(gè)框子里面誰(shuí)會(huì )去關(guān)注?抓住用戶(hù)大學(xué)習空間就這么明顯!。

事實(shí):內容采集機器人好,但沒(méi)有價(jià)值?。?!

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 86 次瀏覽 ? 2022-11-18 17:31 ? 來(lái)自相關(guān)話(huà)題

  事實(shí):內容采集機器人好,但沒(méi)有價(jià)值?。?!
  采集內容插入詞庫,只能更新信息,就算每個(gè)詞都已經(jīng)上傳了,也要打包下載一下,再循環(huán)往復推送。對推送來(lái)說(shuō),誰(shuí)已經(jīng)完成和什么時(shí)候完成意義不大。
  推薦個(gè)靠譜的網(wǎng)站。直接搜索“相互推”或者“相互推助手”之類(lèi)的名字。那里就是專(zhuān)門(mén)幫忙做信息采集,和計劃推送的。名字是叫相互推助手的。
  
  下載微信運營(yíng)助手這個(gè)軟件,
  本人一直做的做自媒體公司,目前有2萬(wàn)的粉絲,一個(gè)月有3000~4000收入,對于新手來(lái)說(shuō)還是很不錯的。
  其實(shí)能不能賺錢(qián)都不重要,重要的是堅持,我有qq群78884055,歡迎加我交流q。
  
  內容統計:“內容采集機器人”好,但沒(méi)有價(jià)值啊。該看數據的文章采集機器人會(huì )推送給你。
  現在各大公司都在引流,都渴望獲得粉絲,但是都忽略了粉絲數量不夠多,收入也不夠高,建議選擇重點(diǎn)方向,某一樣或者多方面做,而不要求聚焦,市場(chǎng)容量很大,
  現在做任何營(yíng)銷(xiāo)活動(dòng)推廣,都離不開(kāi)你所采集的信息,還有你采集到的信息中的文章,視頻,還有音頻等,這些不僅對你宣傳產(chǎn)品和品牌有幫助,還對你企業(yè)發(fā)展有幫助。做網(wǎng)站運營(yíng),賣(mài)產(chǎn)品或服務(wù),有些客戶(hù)一上網(wǎng)就搜索產(chǎn)品相關(guān)信息,都是通過(guò)網(wǎng)絡(luò )渠道去獲取。 查看全部

  事實(shí):內容采集機器人好,但沒(méi)有價(jià)值?。?!
  采集內容插入詞庫,只能更新信息,就算每個(gè)詞都已經(jīng)上傳了,也要打包下載一下,再循環(huán)往復推送。對推送來(lái)說(shuō),誰(shuí)已經(jīng)完成和什么時(shí)候完成意義不大。
  推薦個(gè)靠譜的網(wǎng)站。直接搜索“相互推”或者“相互推助手”之類(lèi)的名字。那里就是專(zhuān)門(mén)幫忙做信息采集,和計劃推送的。名字是叫相互推助手的。
  
  下載微信運營(yíng)助手這個(gè)軟件,
  本人一直做的做自媒體公司,目前有2萬(wàn)的粉絲,一個(gè)月有3000~4000收入,對于新手來(lái)說(shuō)還是很不錯的。
  其實(shí)能不能賺錢(qián)都不重要,重要的是堅持,我有qq群78884055,歡迎加我交流q。
  
  內容統計:“內容采集機器人”好,但沒(méi)有價(jià)值啊。該看數據的文章采集機器人會(huì )推送給你。
  現在各大公司都在引流,都渴望獲得粉絲,但是都忽略了粉絲數量不夠多,收入也不夠高,建議選擇重點(diǎn)方向,某一樣或者多方面做,而不要求聚焦,市場(chǎng)容量很大,
  現在做任何營(yíng)銷(xiāo)活動(dòng)推廣,都離不開(kāi)你所采集的信息,還有你采集到的信息中的文章,視頻,還有音頻等,這些不僅對你宣傳產(chǎn)品和品牌有幫助,還對你企業(yè)發(fā)展有幫助。做網(wǎng)站運營(yíng),賣(mài)產(chǎn)品或服務(wù),有些客戶(hù)一上網(wǎng)就搜索產(chǎn)品相關(guān)信息,都是通過(guò)網(wǎng)絡(luò )渠道去獲取。

采集內容插入詞庫 曝光:手機搜狐網(wǎng)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 104 次瀏覽 ? 2022-12-22 15:25 ? 來(lái)自相關(guān)話(huà)題

  采集內容插入詞庫 曝光:手機搜狐網(wǎng)
  流量站是網(wǎng)站的核心部分,但是對于很多SEO新手來(lái)說(shuō),卻不知道如何操作。 作為新手,我們如何通過(guò)搜索引擎建立一個(gè)高流量的網(wǎng)站呢?
  1、為每個(gè)品類(lèi)建立完整的關(guān)鍵詞庫
  
  比如通過(guò)關(guān)鍵詞“寵物”,我開(kāi)發(fā)了寵物分類(lèi)、寵物護理知識、寵物價(jià)格、寵物圖片等幾大類(lèi),我可以用這些類(lèi)單獨建一個(gè)詞庫,每一個(gè)下面可以展開(kāi)很多子項。 在這里我要告訴大家的是,建詞庫的方法有很多種,但是沒(méi)有一個(gè)核心是明確的。 為每個(gè)類(lèi)別建詞庫的好處是可以通過(guò)詞匯表分析每個(gè)類(lèi)別的優(yōu)化情況,從而為后續的優(yōu)化做充分的規劃。
  2.購買(mǎi)專(zhuān)業(yè)書(shū)籍,掃描文章上傳
  大家都知道百度現在很重視原創(chuàng )內容,對采集站的打擊也很?chē)馈?很多做流量站的朋友都遇到過(guò)一個(gè)問(wèn)題,就是很多流量站的關(guān)鍵詞文章在線(xiàn)。 太多了,每篇文章都自己原創(chuàng ),又費時(shí)又費力,所以很多人選擇采集,結果就是網(wǎng)站的權威性會(huì )降低。 在成為流量站之前,我們必須準備大量的文章。 沒(méi)有團隊能寫(xiě)文章的可以告訴大家一個(gè)方法,抽空去圖書(shū)館買(mǎi)基本相關(guān)的書(shū)回來(lái),然后買(mǎi)支漢王掃描筆掃描上傳。 雖然不能保證100%原創(chuàng ),但確實(shí)很省事,原創(chuàng )也不算太差。 . 在這里需要提醒大家的是,買(mǎi)書(shū)之前最好先百度一下,看看有沒(méi)有人已經(jīng)掃過(guò)書(shū)了。 如果有人已經(jīng)上傳到網(wǎng)上,最好再買(mǎi)一個(gè)。
  
  3.堅持
  其實(shí)無(wú)論做什么工作,堅持都是非常必要的,SEO也是。 一般來(lái)說(shuō),要想做一個(gè)比較客觀(guān)的流量站,關(guān)鍵詞詞庫至少要有1W以上。 我這里說(shuō)的詞庫需要有詞庫的前三頁(yè),那么優(yōu)化的力度可想而知。 如果沒(méi)有無(wú)法持久化的持久化知識。
  最新版本:優(yōu)采云采集器V9.20版自動(dòng)更新cookie功能如何使用
  有財優(yōu)采云采集器于2020年6月15日更新了V9.20版本,本次版本更新中新增了cookie自動(dòng)更新功能。 功能更實(shí)用。 當IP被封,或者特定網(wǎng)頁(yè)必須有cookie時(shí),頁(yè)面才能正常采集。 這時(shí)候可以先獲取cookie,再進(jìn)行頁(yè)面采集。 但是經(jīng)過(guò)測試,發(fā)現功能還是不夠完善。 以下示例用于測試和說(shuō)明過(guò)程中發(fā)現的問(wèn)題。
  1、建立的采集任務(wù)在其他設置的最后一行有一個(gè)update cookie function設置選項。 打開(kāi)頁(yè)面后如下圖所示。 可以參考下圖進(jìn)行設置。 不同的網(wǎng)站在被屏蔽時(shí)會(huì )有不同的返回碼。 需要設置它。 當然也可以根據返回數據的大小來(lái)設置。 設置完成后保存任務(wù),在任務(wù)列表中啟動(dòng)任務(wù)運行。 這里沒(méi)有測試。 在與官方客服溝通時(shí),客服表示當前功能無(wú)法單獨測試使用,整體運行才能生效。
  2.運行任務(wù)后,沒(méi)有采集數據,但是彈出錯誤信息:對象引用沒(méi)有設置到對象實(shí)例,下面是一堆錯誤的代碼,大部分用戶(hù)應該看不懂。 由于這個(gè)任務(wù)是從其他任務(wù)復制過(guò)來(lái)的,所以我又復制了一次任務(wù),運行后還是出現這個(gè)錯誤信息。 創(chuàng )建新任務(wù)后,使用任務(wù)批量編輯功能復制之前的任務(wù)設置,任務(wù)整體運行后錯誤信息消失,但仍然無(wú)法采集。
  
  3、運行后設置的自動(dòng)更新采集cookie沒(méi)有觸發(fā),設置的采集判斷字符串和請求內容長(cháng)度沒(méi)有用。 此時(shí)使用了http代理,但是無(wú)法正常請求數據。
  4、在編輯任務(wù)頁(yè)面采集并測試后,發(fā)現可以正常采集數據,如下圖。 最后重新構建了一個(gè)新的任務(wù),然后除了之前在采集字段中使用的任務(wù)設置外,其他所有任務(wù)都被重寫(xiě)了。 測試通過(guò),可以正常采集數據。 但是目前這個(gè)功能還存在很多問(wèn)題。
  
  總結發(fā)現的問(wèn)題:
  一種。 如果服務(wù)器沒(méi)有響應,此時(shí)設置的錯誤標志和內容返回大小沒(méi)有作用,設置不會(huì )生效。
  b. 最主要的問(wèn)題是這個(gè)功能的請求頁(yè)面在獲取cookie的時(shí)候不會(huì )經(jīng)過(guò)http代理。 如果需要使用代理,只能使用全局代理。 什么是全球代理,現在普遍購買(mǎi)的代理軟件(直接安裝在電腦上,有頁(yè)面的代理軟件,如:ET代理、芝麻代理軟件、熊貓代理等)。 此外,您還可以在互聯(lián)網(wǎng)設置和局域網(wǎng)設置中設置代理。 注意這里設置的代理瀏覽器不能使用火狐代理,可以使用谷歌內核代理。
  C。 總體來(lái)說(shuō)功能很好,但目前還不完善。 畢竟一般認為是IP被封禁后才使用cookies。 但是如何在獲取cookie的時(shí)候不經(jīng)過(guò)代理使用這個(gè)功能呢,希望官方以后能改進(jìn)一下。 查看全部

  采集內容插入詞庫 曝光:手機搜狐網(wǎng)
  流量站是網(wǎng)站的核心部分,但是對于很多SEO新手來(lái)說(shuō),卻不知道如何操作。 作為新手,我們如何通過(guò)搜索引擎建立一個(gè)高流量的網(wǎng)站呢?
  1、為每個(gè)品類(lèi)建立完整的關(guān)鍵詞
  
  比如通過(guò)關(guān)鍵詞“寵物”,我開(kāi)發(fā)了寵物分類(lèi)、寵物護理知識、寵物價(jià)格、寵物圖片等幾大類(lèi),我可以用這些類(lèi)單獨建一個(gè)詞庫,每一個(gè)下面可以展開(kāi)很多子項。 在這里我要告訴大家的是,建詞庫的方法有很多種,但是沒(méi)有一個(gè)核心是明確的。 為每個(gè)類(lèi)別建詞庫的好處是可以通過(guò)詞匯表分析每個(gè)類(lèi)別的優(yōu)化情況,從而為后續的優(yōu)化做充分的規劃。
  2.購買(mǎi)專(zhuān)業(yè)書(shū)籍,掃描文章上傳
  大家都知道百度現在很重視原創(chuàng )內容,對采集站的打擊也很?chē)馈?很多做流量站的朋友都遇到過(guò)一個(gè)問(wèn)題,就是很多流量站的關(guān)鍵詞文章在線(xiàn)。 太多了,每篇文章都自己原創(chuàng ),又費時(shí)又費力,所以很多人選擇采集,結果就是網(wǎng)站的權威性會(huì )降低。 在成為流量站之前,我們必須準備大量的文章。 沒(méi)有團隊能寫(xiě)文章的可以告訴大家一個(gè)方法,抽空去圖書(shū)館買(mǎi)基本相關(guān)的書(shū)回來(lái),然后買(mǎi)支漢王掃描筆掃描上傳。 雖然不能保證100%原創(chuàng ),但確實(shí)很省事,原創(chuàng )也不算太差。 . 在這里需要提醒大家的是,買(mǎi)書(shū)之前最好先百度一下,看看有沒(méi)有人已經(jīng)掃過(guò)書(shū)了。 如果有人已經(jīng)上傳到網(wǎng)上,最好再買(mǎi)一個(gè)。
  
  3.堅持
  其實(shí)無(wú)論做什么工作,堅持都是非常必要的,SEO也是。 一般來(lái)說(shuō),要想做一個(gè)比較客觀(guān)的流量站,關(guān)鍵詞詞庫至少要有1W以上。 我這里說(shuō)的詞庫需要有詞庫的前三頁(yè),那么優(yōu)化的力度可想而知。 如果沒(méi)有無(wú)法持久化的持久化知識。
  最新版本:優(yōu)采云采集器V9.20版自動(dòng)更新cookie功能如何使用
  有財優(yōu)采云采集器于2020年6月15日更新了V9.20版本,本次版本更新中新增了cookie自動(dòng)更新功能。 功能更實(shí)用。 當IP被封,或者特定網(wǎng)頁(yè)必須有cookie時(shí),頁(yè)面才能正常采集。 這時(shí)候可以先獲取cookie,再進(jìn)行頁(yè)面采集。 但是經(jīng)過(guò)測試,發(fā)現功能還是不夠完善。 以下示例用于測試和說(shuō)明過(guò)程中發(fā)現的問(wèn)題。
  1、建立的采集任務(wù)在其他設置的最后一行有一個(gè)update cookie function設置選項。 打開(kāi)頁(yè)面后如下圖所示。 可以參考下圖進(jìn)行設置。 不同的網(wǎng)站在被屏蔽時(shí)會(huì )有不同的返回碼。 需要設置它。 當然也可以根據返回數據的大小來(lái)設置。 設置完成后保存任務(wù),在任務(wù)列表中啟動(dòng)任務(wù)運行。 這里沒(méi)有測試。 在與官方客服溝通時(shí),客服表示當前功能無(wú)法單獨測試使用,整體運行才能生效。
  2.運行任務(wù)后,沒(méi)有采集數據,但是彈出錯誤信息:對象引用沒(méi)有設置到對象實(shí)例,下面是一堆錯誤的代碼,大部分用戶(hù)應該看不懂。 由于這個(gè)任務(wù)是從其他任務(wù)復制過(guò)來(lái)的,所以我又復制了一次任務(wù),運行后還是出現這個(gè)錯誤信息。 創(chuàng )建新任務(wù)后,使用任務(wù)批量編輯功能復制之前的任務(wù)設置,任務(wù)整體運行后錯誤信息消失,但仍然無(wú)法采集。
  
  3、運行后設置的自動(dòng)更新采集cookie沒(méi)有觸發(fā),設置的采集判斷字符串和請求內容長(cháng)度沒(méi)有用。 此時(shí)使用了http代理,但是無(wú)法正常請求數據。
  4、在編輯任務(wù)頁(yè)面采集并測試后,發(fā)現可以正常采集數據,如下圖。 最后重新構建了一個(gè)新的任務(wù),然后除了之前在采集字段中使用的任務(wù)設置外,其他所有任務(wù)都被重寫(xiě)了。 測試通過(guò),可以正常采集數據。 但是目前這個(gè)功能還存在很多問(wèn)題。
  
  總結發(fā)現的問(wèn)題:
  一種。 如果服務(wù)器沒(méi)有響應,此時(shí)設置的錯誤標志和內容返回大小沒(méi)有作用,設置不會(huì )生效。
  b. 最主要的問(wèn)題是這個(gè)功能的請求頁(yè)面在獲取cookie的時(shí)候不會(huì )經(jīng)過(guò)http代理。 如果需要使用代理,只能使用全局代理。 什么是全球代理,現在普遍購買(mǎi)的代理軟件(直接安裝在電腦上,有頁(yè)面的代理軟件,如:ET代理、芝麻代理軟件、熊貓代理等)。 此外,您還可以在互聯(lián)網(wǎng)設置和局域網(wǎng)設置中設置代理。 注意這里設置的代理瀏覽器不能使用火狐代理,可以使用谷歌內核代理。
  C。 總體來(lái)說(shuō)功能很好,但目前還不完善。 畢竟一般認為是IP被封禁后才使用cookies。 但是如何在獲取cookie的時(shí)候不經(jīng)過(guò)代理使用這個(gè)功能呢,希望官方以后能改進(jìn)一下。

最新版本:敏感詞庫下載 2017 最新版收集2017年最新最全敏感詞

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 282 次瀏覽 ? 2022-12-22 13:22 ? 來(lái)自相關(guān)話(huà)題

  最新版本:敏感詞庫下載 2017 最新版收集2017年最新最全敏感詞
  敏感詞庫收錄2017年最新最全的敏感詞庫,收錄2萬(wàn)余條。 它根據不同的行業(yè)進(jìn)行分類(lèi)。 提供txt和xlsx兩種文本格式供用戶(hù)直接導入使用python、php、Java、數據庫。 很方便。
  軟件說(shuō)明
  
  集成多個(gè)敏感詞庫,并添加java實(shí)現敏感詞過(guò)濾的工具類(lèi),需要根據具體業(yè)務(wù)適當調整詞庫內容
  敏感詞合集,共2W+個(gè)敏感詞,已通過(guò)程序算法去除重復項。
  最新在線(xiàn)詞庫
  
  使用說(shuō)明
  考慮到各個(gè)行業(yè)需要的分詞規則不同,這里沒(méi)有合并
  文件為txt、xlsx文本,用于敏感詞過(guò)濾
  相關(guān)搜索:敏感
  教程:流氓SEO優(yōu)質(zhì)外鏈發(fā)布工具綠色版(SEO自動(dòng)發(fā)外鏈推廣軟件)1.2最新版
  Rogue SEO高質(zhì)量外鏈發(fā)布工具免費下載。 大家都知道現在建網(wǎng)站需要外鏈建設。 今天為大家帶來(lái)Rogue SEO優(yōu)質(zhì)外鏈發(fā)布工具。 是維維小編整理的一款綠色實(shí)用的外鏈SEO自動(dòng)推廣軟件,可以免費為您的網(wǎng)站在線(xiàn)添加大量外鏈,本軟件適用于無(wú)法建立大量外鏈的新站短時(shí)間內鏈接,可以幫助站長(cháng)提高對外可以說(shuō)是草根站長(cháng)必備的站長(cháng)工具,喜歡就用吧。
  特征
  
  外鏈工具只是一個(gè)輔助工具。 一般適用于短時(shí)間內無(wú)法建立大量外鏈的新站。 新站一天做一到兩次,一周左右就能看到效果。
  有了這個(gè)工具,您可以在網(wǎng)站添加外鏈,大大提高了發(fā)布外鏈的效率。 是草根網(wǎng)站必備的網(wǎng)站工具。
  超級SEO外鏈工具采集了上千個(gè)網(wǎng)站網(wǎng)址,包括IP查詢(xún)、SEO綜合信息查詢(xún)、SEO外鏈數量查詢(xún)、Alexa排名查詢(xún)、PR值查詢(xún)。
  由于這些網(wǎng)址大部分都有查詢(xún)記錄,而百度、谷歌等搜索引擎會(huì )抓取這些網(wǎng)址,所以在使用SEO外鏈工具在線(xiàn)增加SEO外鏈時(shí),SEO外鏈工具會(huì )自動(dòng)查詢(xún)這幾千個(gè)URL。 以達到留下無(wú)數記錄供搜索引擎抓取的目的。 =
  
  當搜索引擎抓取它時(shí),它會(huì )將反向鏈接添加到刷鏈接的 URL 中。 通常,您在刷牙后的幾天內就能看到明顯的改善。
  上一篇:盟都電子發(fā)票核銷(xiāo)軟件綠色版(盟多發(fā)票管理軟件)1.2免費版
  下一篇:深藍密碼本地存儲綠色版(本地密碼管理軟件)v3.0最新版 查看全部

  最新版本:敏感詞庫下載 2017 最新版收集2017年最新最全敏感詞
  敏感詞庫收錄2017年最新最全的敏感詞庫,收錄2萬(wàn)余條。 它根據不同的行業(yè)進(jìn)行分類(lèi)。 提供txt和xlsx兩種文本格式供用戶(hù)直接導入使用python、php、Java、數據庫。 很方便。
  軟件說(shuō)明
  
  集成多個(gè)敏感詞庫,并添加java實(shí)現敏感詞過(guò)濾的工具類(lèi),需要根據具體業(yè)務(wù)適當調整詞庫內容
  敏感詞合集,共2W+個(gè)敏感詞,已通過(guò)程序算法去除重復項。
  最新在線(xiàn)詞庫
  
  使用說(shuō)明
  考慮到各個(gè)行業(yè)需要的分詞規則不同,這里沒(méi)有合并
  文件為txt、xlsx文本,用于敏感詞過(guò)濾
  相關(guān)搜索:敏感
  教程:流氓SEO優(yōu)質(zhì)外鏈發(fā)布工具綠色版(SEO自動(dòng)發(fā)外鏈推廣軟件)1.2最新版
  Rogue SEO高質(zhì)量外鏈發(fā)布工具免費下載。 大家都知道現在建網(wǎng)站需要外鏈建設。 今天為大家帶來(lái)Rogue SEO優(yōu)質(zhì)外鏈發(fā)布工具。 是維維小編整理的一款綠色實(shí)用的外鏈SEO自動(dòng)推廣軟件,可以免費為您的網(wǎng)站在線(xiàn)添加大量外鏈,本軟件適用于無(wú)法建立大量外鏈的新站短時(shí)間內鏈接,可以幫助站長(cháng)提高對外可以說(shuō)是草根站長(cháng)必備的站長(cháng)工具,喜歡就用吧。
  特征
  
  外鏈工具只是一個(gè)輔助工具。 一般適用于短時(shí)間內無(wú)法建立大量外鏈的新站。 新站一天做一到兩次,一周左右就能看到效果。
  有了這個(gè)工具,您可以在網(wǎng)站添加外鏈,大大提高了發(fā)布外鏈的效率。 是草根網(wǎng)站必備的網(wǎng)站工具。
  超級SEO外鏈工具采集了上千個(gè)網(wǎng)站網(wǎng)址,包括IP查詢(xún)、SEO綜合信息查詢(xún)、SEO外鏈數量查詢(xún)、Alexa排名查詢(xún)、PR值查詢(xún)。
  由于這些網(wǎng)址大部分都有查詢(xún)記錄,而百度、谷歌等搜索引擎會(huì )抓取這些網(wǎng)址,所以在使用SEO外鏈工具在線(xiàn)增加SEO外鏈時(shí),SEO外鏈工具會(huì )自動(dòng)查詢(xún)這幾千個(gè)URL。 以達到留下無(wú)數記錄供搜索引擎抓取的目的。 =
  
  當搜索引擎抓取它時(shí),它會(huì )將反向鏈接添加到刷鏈接的 URL 中。 通常,您在刷牙后的幾天內就能看到明顯的改善。
  上一篇:盟都電子發(fā)票核銷(xiāo)軟件綠色版(盟多發(fā)票管理軟件)1.2免費版
  下一篇:深藍密碼本地存儲綠色版(本地密碼管理軟件)v3.0最新版

技巧:詞庫網(wǎng)關(guān)鍵詞挖掘工具

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 113 次瀏覽 ? 2022-12-11 07:45 ? 來(lái)自相關(guān)話(huà)題

  技巧:詞庫網(wǎng)關(guān)鍵詞挖掘工具
  關(guān)鍵詞 挖掘工具
  本文介紹優(yōu)采云采集詞庫網(wǎng)絡(luò )長(cháng)尾關(guān)鍵詞的使用方法。長(cháng)尾關(guān)鍵詞挖掘對于站長(cháng)來(lái)說(shuō)是一項非常重要的技能,尾巴在長(cháng)尾理論中的作用不容忽視。使用長(cháng)尾理論制定關(guān)鍵詞搜索引擎營(yíng)銷(xiāo)策略非常有效。
  雖然核心關(guān)鍵詞或者比較流行的關(guān)鍵詞帶來(lái)的流量會(huì )超過(guò)總流量的一半,但是那些關(guān)鍵詞(長(cháng)尾關(guān)鍵詞)的整合也能帶來(lái)很多網(wǎng)站 的流量,但正是這些長(cháng)尾 關(guān)鍵詞 帶來(lái)了更高的客戶(hù)轉化率。
  采集網(wǎng)站:
  本文以一組(關(guān)鍵詞 100個(gè)B2B行業(yè)有索引)為例,對采集所有與該組關(guān)鍵詞相關(guān)的長(cháng)尾關(guān)鍵詞。
  采集內容包括:搜索后的長(cháng)尾關(guān)鍵詞、360索引、該長(cháng)尾關(guān)鍵詞的搜索量和搜索
  四個(gè)有效字段是搜索量的第一個(gè)網(wǎng)站(頁(yè)面)。
  使用功能點(diǎn):
  ●循環(huán)文字輸入
  ● XPath
  XPath 入門(mén)教程 1
  xpath 2簡(jiǎn)介
  相對 XPATH 教程 - 版本 7.0
  ●數字翻頁(yè)
  第 1 步:創(chuàng )建 采集 任務(wù)
  1)進(jìn)入主界面,選擇“自定義采集”
  2) 將采集的網(wǎng)址復制粘貼到網(wǎng)站輸入框,點(diǎn)擊“保存網(wǎng)址”
  第 2 步:創(chuàng )建循環(huán)以輸入文本
  1)打開(kāi)網(wǎng)頁(yè)后,點(diǎn)擊右上角的進(jìn)程,然后從左邊拖一個(gè)循環(huán)進(jìn)入
  
  2)點(diǎn)擊循環(huán)步驟,在其高級選項中選擇文本列表,然后點(diǎn)擊下面的A,將復制的關(guān)鍵詞全部粘貼進(jìn)去,注意換行,然后點(diǎn)擊確定保存。
  3)創(chuàng )建循環(huán)文字輸入后,點(diǎn)擊頁(yè)面搜索框創(chuàng )建輸入文字的步驟,
  注意,
  您無(wú)需輸入任何文本。如果自動(dòng)生成的在循環(huán)外,就把它拖進(jìn)去,然后檢查循環(huán)。
  4)右鍵選擇頁(yè)面上的搜索按鈕,設置點(diǎn)擊元素。這樣就設置了循環(huán)文本輸入,搜索到的長(cháng)尾關(guān)鍵詞在流程的底部。
  第 3 步:創(chuàng )建數字翻轉
  1)由于搜索結果頁(yè)沒(méi)有下一頁(yè)按鈕,只有頁(yè)數,所以我們需要利用xpath的一些相關(guān)知識來(lái)設置特殊頁(yè)數。先到火狐瀏覽器打開(kāi)網(wǎng)頁(yè)搜索對應的關(guān)鍵詞,打開(kāi)瀏覽器右上角
  firebug工具——小瓢蟲(chóng)(不懂的同學(xué)可以去官網(wǎng)教程看對應的xpath教程)
  2)翻到頁(yè)面底部,找到數字位置的源代碼。您可以看到當前頁(yè)面上的數字與其他數字不同。源碼中節點(diǎn)的屬性類(lèi)不一樣
  3) 收入我們首先定位到此頁(yè)面的人數
  單詞位置,手寫(xiě)xpath://div[@id="page"]/a[contains(@class,'current')]
  4)復用固定函數
  繼兄弟
  定位到本節點(diǎn)之后的第一個(gè)相似節點(diǎn),注意這個(gè)函數后面的::是固定格式,a[1]指的是本節點(diǎn)之后的第一個(gè)相似節點(diǎn)
  5)翻頁(yè)后可以查看到下一頁(yè)的數字正常定位,說(shuō)明xpath沒(méi)有問(wèn)題
  6)回到優(yōu)采云,在左邊的流程頁(yè)面拖一個(gè)循環(huán),在高級選項中選擇單個(gè)元素,將xpath放入其中,點(diǎn)擊確定保存
  
  7)然后從左邊拖一個(gè)點(diǎn)擊元素,在高級選項里勾選循環(huán),就創(chuàng )建了特殊的數字翻頁(yè)循環(huán)
  步
  4:創(chuàng )建循環(huán)列表
  1)我們安裝了常規的創(chuàng )建循環(huán)列表的方法,發(fā)現在搜索結果后的表格中出現了這一整行無(wú)用的信息。
  2)因此,在優(yōu)采云中無(wú)法正常創(chuàng )建循環(huán)列表,因為這個(gè)無(wú)用的信息導致優(yōu)采云自動(dòng)生成的列表定位不準確
  3)所以我們還是要用到xpath的知識,去火狐瀏覽器手動(dòng)創(chuàng )建一個(gè)循環(huán)列表的xpath。首先定位到第一行第一列的源代碼位置
  4)找到每一行的源碼位置,發(fā)現都是tbody父節點(diǎn)下的同一個(gè)tr標簽
  5)觀(guān)察每行真正的tr節點(diǎn)有一個(gè)共同的屬性“id”,id屬性有一個(gè)共同的tr值,所以我們以此為共同點(diǎn),手寫(xiě)xpath:.//tbody/tr [收錄(@id,'tr')]
  , 定位到所有tr節點(diǎn),并過(guò)濾掉所有無(wú)用的tr,這樣循環(huán)鏈表的xpath就創(chuàng )建好了
  6)然后從左邊拖出一個(gè)循環(huán),選擇不固定的元素作為循環(huán)模式,拖動(dòng)
  將xpath放入優(yōu)采云,以第一個(gè)循環(huán)為例,設置對應的采集字段(因為有些字段在源碼中沒(méi)有,所以采集無(wú)法訪(fǎng)問(wèn)),
  第 5 步:開(kāi)始 采集
  1)點(diǎn)擊保存任務(wù)后,運行采集,以本地采集為例
  2) 采集完成后,會(huì )彈出提示,選擇“導出數據”。選擇“適當的導出方法”導出采集好的數據。
  心得:技巧:哪個(gè)偽原創(chuàng )工具最好用?最受大家喜歡?
  簡(jiǎn)單的 采集器
  提示:哪種 偽原創(chuàng ) 工具最適合使用?最喜歡的?
  哪個(gè) 偽原創(chuàng ) 工具最好用?最喜歡的?每個(gè) 偽原創(chuàng ) 都會(huì )問(wèn)這個(gè)問(wèn)題。比如今天我就詳細講解一下各個(gè)偽原創(chuàng )工具的優(yōu)缺點(diǎn),以及各個(gè)偽原創(chuàng )工具的使用方法。事實(shí)上,偽原創(chuàng )工具是最常用于排版和編輯的工具。為什么有些人說(shuō) 偽原創(chuàng ) 工具不好?因為那些垃圾偽原創(chuàng )工具往往是多個(gè)偽原創(chuàng )工具的集合,同時(shí)又起到降低原創(chuàng )度的作用,所以會(huì )被認為是垃圾工具。
  
  但是今天,我想對偽原創(chuàng )進(jìn)行分類(lèi),然后告訴大家各個(gè)工具的優(yōu)缺點(diǎn)。第一點(diǎn):快狗偽原創(chuàng ):快狗偽原創(chuàng )是一款兼容PC端和移動(dòng)端的偽原創(chuàng )小插件,支持27種主流偽原創(chuàng )工具,例如:模板、主題, platform first release, github utility, hexo utility, bootstrap utility, picture偽原創(chuàng )tool, boil偽原創(chuàng )tool, resume偽原創(chuàng )tool, redirect偽原創(chuàng )tool , Blog Auto 偽原創(chuàng ) 工具,知乎偽原創(chuàng ) 工具,紅包 偽原創(chuàng ) 工具,關(guān)鍵詞 自動(dòng) 偽原創(chuàng ) 工具,自定義 偽原創(chuàng ) 工具,偽原創(chuàng )bulk偽原創(chuàng )工具,解鎖偽原創(chuàng )工具,sublimetextbulk偽原創(chuàng )工具,blogger偽原創(chuàng )工具,wordpress偽原創(chuàng )工具,powerbi偽原創(chuàng )工具, imageoptima偽原創(chuàng )工具,
  第二點(diǎn):vue偽原創(chuàng )這是一個(gè)網(wǎng)頁(yè)偽原創(chuàng )工具,可以制作長(cháng)圖網(wǎng)頁(yè)。優(yōu)點(diǎn)是可以通過(guò)切換圖片來(lái)驅動(dòng)文章的內容。最能帶動(dòng)閱讀的圖片放在首頁(yè)。插件方法很簡(jiǎn)單,上傳你需要的圖片,然后一鍵生成長(cháng)圖標。第三點(diǎn):soda偽原創(chuàng )這是一個(gè)可以發(fā)工資的軟件偽原創(chuàng )。適用于工資卡數據透明的excel格式的文件和表格。
  今天,小編提醒大家注意微信中的這些取消推送功能。這個(gè)取消推送功能會(huì )直接在微信公眾號里屏蔽,所以遇到這些現象一定要及時(shí)關(guān)注,千萬(wàn)別生了病。第四點(diǎn):Fisheye Express偽原創(chuàng )這是一個(gè)偽原創(chuàng )選品工具,每天推薦不同類(lèi)型的文章偽原創(chuàng ),但實(shí)際上推薦的是一些長(cháng)尾的,不用多花時(shí)間寫(xiě),大家可以點(diǎn)個(gè)文章,網(wǎng)賺黨抓熱點(diǎn)。
  
  第五點(diǎn):500元相冊本工具特別適合直接在500元相冊中搜索關(guān)鍵詞,或者通過(guò)百度指數、谷歌趨勢、360趨勢中的熱門(mén)詞搜索。的所有字都是在相冊里找到編輯的。然后,我們之前說(shuō)過(guò),你一定要說(shuō)你不會(huì )寫(xiě)!小編想說(shuō)的是,不要怕,復制文章,去百度指數看看點(diǎn)擊率。事實(shí)上,百度指數現在也有各種偽原創(chuàng )工具。比如我們看圖中5點(diǎn)的百度指數,這就是百度。
  偽原創(chuàng ) 沒(méi)有工具(電子商務(wù) 采集器 是免費的 關(guān)鍵詞 排名相關(guān)工具)
  優(yōu)采云采集器是用戶(hù)提供的網(wǎng)站關(guān)鍵詞,自動(dòng)在云端采集相關(guān)文章并發(fā)布給用戶(hù)網(wǎng)站 采集器??梢宰詣?dòng)識別各種網(wǎng)頁(yè)的標題、正文等信息,無(wú)需用戶(hù)編寫(xiě)任何采集規則,即可實(shí)現全網(wǎng)采集。采集收到內容后,會(huì )自動(dòng)計算內容與集合關(guān)鍵詞的相關(guān)性,只推送相關(guān)的文章給用戶(hù)。支持標題前綴、關(guān)鍵詞自動(dòng)加粗、插入固定鏈接、自動(dòng)提取Tag標簽、自動(dòng)內鏈、自動(dòng)圖片匹配、自動(dòng)偽原創(chuàng )、內容過(guò)濾和替換、電話(huà)號碼和URL清理、定時(shí)采集、百度主動(dòng)提交等一系列SEO功能,用戶(hù)只需設置關(guān)鍵詞及相關(guān)需求,即可實(shí)現網(wǎng)站全托管零內容更新維護。網(wǎng)站的數量沒(méi)有限制,無(wú)論是單個(gè)網(wǎng)站還是大批量的站群,都可以非常方便的管理。 查看全部

  技巧:詞庫網(wǎng)關(guān)鍵詞挖掘工具
  關(guān)鍵詞 挖掘工具
  本文介紹優(yōu)采云采集詞庫網(wǎng)絡(luò )長(cháng)尾關(guān)鍵詞的使用方法。長(cháng)尾關(guān)鍵詞挖掘對于站長(cháng)來(lái)說(shuō)是一項非常重要的技能,尾巴在長(cháng)尾理論中的作用不容忽視。使用長(cháng)尾理論制定關(guān)鍵詞搜索引擎營(yíng)銷(xiāo)策略非常有效。
  雖然核心關(guān)鍵詞或者比較流行的關(guān)鍵詞帶來(lái)的流量會(huì )超過(guò)總流量的一半,但是那些關(guān)鍵詞(長(cháng)尾關(guān)鍵詞)的整合也能帶來(lái)很多網(wǎng)站 的流量,但正是這些長(cháng)尾 關(guān)鍵詞 帶來(lái)了更高的客戶(hù)轉化率。
  采集網(wǎng)站:
  本文以一組(關(guān)鍵詞 100個(gè)B2B行業(yè)有索引)為例,對采集所有與該組關(guān)鍵詞相關(guān)的長(cháng)尾關(guān)鍵詞。
  采集內容包括:搜索后的長(cháng)尾關(guān)鍵詞、360索引、該長(cháng)尾關(guān)鍵詞的搜索量和搜索
  四個(gè)有效字段是搜索量的第一個(gè)網(wǎng)站(頁(yè)面)。
  使用功能點(diǎn):
  ●循環(huán)文字輸入
  ● XPath
  XPath 入門(mén)教程 1
  xpath 2簡(jiǎn)介
  相對 XPATH 教程 - 版本 7.0
  ●數字翻頁(yè)
  第 1 步:創(chuàng )建 采集 任務(wù)
  1)進(jìn)入主界面,選擇“自定義采集”
  2) 將采集的網(wǎng)址復制粘貼到網(wǎng)站輸入框,點(diǎn)擊“保存網(wǎng)址”
  第 2 步:創(chuàng )建循環(huán)以輸入文本
  1)打開(kāi)網(wǎng)頁(yè)后,點(diǎn)擊右上角的進(jìn)程,然后從左邊拖一個(gè)循環(huán)進(jìn)入
  
  2)點(diǎn)擊循環(huán)步驟,在其高級選項中選擇文本列表,然后點(diǎn)擊下面的A,將復制的關(guān)鍵詞全部粘貼進(jìn)去,注意換行,然后點(diǎn)擊確定保存。
  3)創(chuàng )建循環(huán)文字輸入后,點(diǎn)擊頁(yè)面搜索框創(chuàng )建輸入文字的步驟,
  注意,
  您無(wú)需輸入任何文本。如果自動(dòng)生成的在循環(huán)外,就把它拖進(jìn)去,然后檢查循環(huán)。
  4)右鍵選擇頁(yè)面上的搜索按鈕,設置點(diǎn)擊元素。這樣就設置了循環(huán)文本輸入,搜索到的長(cháng)尾關(guān)鍵詞在流程的底部。
  第 3 步:創(chuàng )建數字翻轉
  1)由于搜索結果頁(yè)沒(méi)有下一頁(yè)按鈕,只有頁(yè)數,所以我們需要利用xpath的一些相關(guān)知識來(lái)設置特殊頁(yè)數。先到火狐瀏覽器打開(kāi)網(wǎng)頁(yè)搜索對應的關(guān)鍵詞,打開(kāi)瀏覽器右上角
  firebug工具——小瓢蟲(chóng)(不懂的同學(xué)可以去官網(wǎng)教程看對應的xpath教程)
  2)翻到頁(yè)面底部,找到數字位置的源代碼。您可以看到當前頁(yè)面上的數字與其他數字不同。源碼中節點(diǎn)的屬性類(lèi)不一樣
  3) 收入我們首先定位到此頁(yè)面的人數
  單詞位置,手寫(xiě)xpath://div[@id="page"]/a[contains(@class,'current')]
  4)復用固定函數
  繼兄弟
  定位到本節點(diǎn)之后的第一個(gè)相似節點(diǎn),注意這個(gè)函數后面的::是固定格式,a[1]指的是本節點(diǎn)之后的第一個(gè)相似節點(diǎn)
  5)翻頁(yè)后可以查看到下一頁(yè)的數字正常定位,說(shuō)明xpath沒(méi)有問(wèn)題
  6)回到優(yōu)采云,在左邊的流程頁(yè)面拖一個(gè)循環(huán),在高級選項中選擇單個(gè)元素,將xpath放入其中,點(diǎn)擊確定保存
  
  7)然后從左邊拖一個(gè)點(diǎn)擊元素,在高級選項里勾選循環(huán),就創(chuàng )建了特殊的數字翻頁(yè)循環(huán)
  步
  4:創(chuàng )建循環(huán)列表
  1)我們安裝了常規的創(chuàng )建循環(huán)列表的方法,發(fā)現在搜索結果后的表格中出現了這一整行無(wú)用的信息。
  2)因此,在優(yōu)采云中無(wú)法正常創(chuàng )建循環(huán)列表,因為這個(gè)無(wú)用的信息導致優(yōu)采云自動(dòng)生成的列表定位不準確
  3)所以我們還是要用到xpath的知識,去火狐瀏覽器手動(dòng)創(chuàng )建一個(gè)循環(huán)列表的xpath。首先定位到第一行第一列的源代碼位置
  4)找到每一行的源碼位置,發(fā)現都是tbody父節點(diǎn)下的同一個(gè)tr標簽
  5)觀(guān)察每行真正的tr節點(diǎn)有一個(gè)共同的屬性“id”,id屬性有一個(gè)共同的tr值,所以我們以此為共同點(diǎn),手寫(xiě)xpath:.//tbody/tr [收錄(@id,'tr')]
  , 定位到所有tr節點(diǎn),并過(guò)濾掉所有無(wú)用的tr,這樣循環(huán)鏈表的xpath就創(chuàng )建好了
  6)然后從左邊拖出一個(gè)循環(huán),選擇不固定的元素作為循環(huán)模式,拖動(dòng)
  將xpath放入優(yōu)采云,以第一個(gè)循環(huán)為例,設置對應的采集字段(因為有些字段在源碼中沒(méi)有,所以采集無(wú)法訪(fǎng)問(wèn)),
  第 5 步:開(kāi)始 采集
  1)點(diǎn)擊保存任務(wù)后,運行采集,以本地采集為例
  2) 采集完成后,會(huì )彈出提示,選擇“導出數據”。選擇“適當的導出方法”導出采集好的數據。
  心得:技巧:哪個(gè)偽原創(chuàng )工具最好用?最受大家喜歡?
  簡(jiǎn)單的 采集
  提示:哪種 偽原創(chuàng ) 工具最適合使用?最喜歡的?
  哪個(gè) 偽原創(chuàng ) 工具最好用?最喜歡的?每個(gè) 偽原創(chuàng ) 都會(huì )問(wèn)這個(gè)問(wèn)題。比如今天我就詳細講解一下各個(gè)偽原創(chuàng )工具的優(yōu)缺點(diǎn),以及各個(gè)偽原創(chuàng )工具的使用方法。事實(shí)上,偽原創(chuàng )工具是最常用于排版和編輯的工具。為什么有些人說(shuō) 偽原創(chuàng ) 工具不好?因為那些垃圾偽原創(chuàng )工具往往是多個(gè)偽原創(chuàng )工具的集合,同時(shí)又起到降低原創(chuàng )度的作用,所以會(huì )被認為是垃圾工具。
  
  但是今天,我想對偽原創(chuàng )進(jìn)行分類(lèi),然后告訴大家各個(gè)工具的優(yōu)缺點(diǎn)。第一點(diǎn):快狗偽原創(chuàng ):快狗偽原創(chuàng )是一款兼容PC端和移動(dòng)端的偽原創(chuàng )小插件,支持27種主流偽原創(chuàng )工具,例如:模板、主題, platform first release, github utility, hexo utility, bootstrap utility, picture偽原創(chuàng )tool, boil偽原創(chuàng )tool, resume偽原創(chuàng )tool, redirect偽原創(chuàng )tool , Blog Auto 偽原創(chuàng ) 工具,知乎偽原創(chuàng ) 工具,紅包 偽原創(chuàng ) 工具,關(guān)鍵詞 自動(dòng) 偽原創(chuàng ) 工具,自定義 偽原創(chuàng ) 工具,偽原創(chuàng )bulk偽原創(chuàng )工具,解鎖偽原創(chuàng )工具,sublimetextbulk偽原創(chuàng )工具,blogger偽原創(chuàng )工具,wordpress偽原創(chuàng )工具,powerbi偽原創(chuàng )工具, imageoptima偽原創(chuàng )工具,
  第二點(diǎn):vue偽原創(chuàng )這是一個(gè)網(wǎng)頁(yè)偽原創(chuàng )工具,可以制作長(cháng)圖網(wǎng)頁(yè)。優(yōu)點(diǎn)是可以通過(guò)切換圖片來(lái)驅動(dòng)文章的內容。最能帶動(dòng)閱讀的圖片放在首頁(yè)。插件方法很簡(jiǎn)單,上傳你需要的圖片,然后一鍵生成長(cháng)圖標。第三點(diǎn):soda偽原創(chuàng )這是一個(gè)可以發(fā)工資的軟件偽原創(chuàng )。適用于工資卡數據透明的excel格式的文件和表格。
  今天,小編提醒大家注意微信中的這些取消推送功能。這個(gè)取消推送功能會(huì )直接在微信公眾號里屏蔽,所以遇到這些現象一定要及時(shí)關(guān)注,千萬(wàn)別生了病。第四點(diǎn):Fisheye Express偽原創(chuàng )這是一個(gè)偽原創(chuàng )選品工具,每天推薦不同類(lèi)型的文章偽原創(chuàng ),但實(shí)際上推薦的是一些長(cháng)尾的,不用多花時(shí)間寫(xiě),大家可以點(diǎn)個(gè)文章,網(wǎng)賺黨抓熱點(diǎn)。
  
  第五點(diǎn):500元相冊本工具特別適合直接在500元相冊中搜索關(guān)鍵詞,或者通過(guò)百度指數、谷歌趨勢、360趨勢中的熱門(mén)詞搜索。的所有字都是在相冊里找到編輯的。然后,我們之前說(shuō)過(guò),你一定要說(shuō)你不會(huì )寫(xiě)!小編想說(shuō)的是,不要怕,復制文章,去百度指數看看點(diǎn)擊率。事實(shí)上,百度指數現在也有各種偽原創(chuàng )工具。比如我們看圖中5點(diǎn)的百度指數,這就是百度。
  偽原創(chuàng ) 沒(méi)有工具(電子商務(wù) 采集器 是免費的 關(guān)鍵詞 排名相關(guān)工具)
  優(yōu)采云采集器是用戶(hù)提供的網(wǎng)站關(guān)鍵詞,自動(dòng)在云端采集相關(guān)文章并發(fā)布給用戶(hù)網(wǎng)站 采集器??梢宰詣?dòng)識別各種網(wǎng)頁(yè)的標題、正文等信息,無(wú)需用戶(hù)編寫(xiě)任何采集規則,即可實(shí)現全網(wǎng)采集。采集收到內容后,會(huì )自動(dòng)計算內容與集合關(guān)鍵詞的相關(guān)性,只推送相關(guān)的文章給用戶(hù)。支持標題前綴、關(guān)鍵詞自動(dòng)加粗、插入固定鏈接、自動(dòng)提取Tag標簽、自動(dòng)內鏈、自動(dòng)圖片匹配、自動(dòng)偽原創(chuàng )、內容過(guò)濾和替換、電話(huà)號碼和URL清理、定時(shí)采集、百度主動(dòng)提交等一系列SEO功能,用戶(hù)只需設置關(guān)鍵詞及相關(guān)需求,即可實(shí)現網(wǎng)站全托管零內容更新維護。網(wǎng)站的數量沒(méi)有限制,無(wú)論是單個(gè)網(wǎng)站還是大批量的站群,都可以非常方便的管理。

教程:采集內容插入詞庫,參照如何通過(guò)百度學(xué)會(huì )編程?(圖)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 65 次瀏覽 ? 2022-12-10 01:12 ? 來(lái)自相關(guān)話(huà)題

  教程:采集內容插入詞庫,參照如何通過(guò)百度學(xué)會(huì )編程?(圖)
  采集內容插入詞庫,
  詞庫導入是指把搜索引擎認可的網(wǎng)站的pv與流量單價(jià)進(jìn)行合理的乘積,再從搜索引擎中提取詞匯并組合成單獨的詞匯出現在搜索結果中,通過(guò)某種方式(網(wǎng)頁(yè)鏈接,js等)使用戶(hù)自主選擇出現搜索結果中的詞匯(通常就是我們??吹降摹爸?-軟文--第一位網(wǎng)頁(yè)”),另外還有一種基于企業(yè)自身要求來(lái)選擇詞匯,但必須以真實(shí)有效詞匯出現。
  全站pv/uv及流量相對高的網(wǎng)站標定,匹配相應的標準詞,然后展示給用戶(hù)。
  參照如何通過(guò)百度學(xué)會(huì )編程?這個(gè)回答
  
  百度詞庫,
  feed流標準詞庫的表示方法。目前還沒(méi)有人提到這個(gè)問(wèn)題,不過(guò)這是seo的一部分,大家應該都一樣。
  那就是根據網(wǎng)站訪(fǎng)問(wèn)原始url中,詞條包含詞,通過(guò)抓取網(wǎng)站內容,并根據關(guān)鍵詞和網(wǎng)站內容組合出新的一個(gè)關(guān)鍵詞出來(lái)。
  前端一般都是sitemap注入,使用蜘蛛抓取蜘蛛將搜索結果中url發(fā)送給前端來(lái)源。詞庫一般都是通過(guò)百度爬蟲(chóng)自身爬取的網(wǎng)站,一般情況下如果根據url里面不出現字的話(huà),
  有標定之后,利用sprite、spring等構建,直接把url發(fā)送給前端去爬,
  
  解析url發(fā)送詞庫詞
  1、搜索、解析url中的標題、描述、關(guān)鍵詞;
  2、根據解析結果在serp中,
  3、通過(guò)serp相關(guān)性匹配出這些詞,
  4、完成展示; 查看全部

  教程:采集內容插入詞庫,參照如何通過(guò)百度學(xué)會(huì )編程?(圖)
  采集內容插入詞庫,
  詞庫導入是指把搜索引擎認可的網(wǎng)站的pv與流量單價(jià)進(jìn)行合理的乘積,再從搜索引擎中提取詞匯并組合成單獨的詞匯出現在搜索結果中,通過(guò)某種方式(網(wǎng)頁(yè)鏈接,js等)使用戶(hù)自主選擇出現搜索結果中的詞匯(通常就是我們??吹降摹爸?-軟文--第一位網(wǎng)頁(yè)”),另外還有一種基于企業(yè)自身要求來(lái)選擇詞匯,但必須以真實(shí)有效詞匯出現。
  全站pv/uv及流量相對高的網(wǎng)站標定,匹配相應的標準詞,然后展示給用戶(hù)。
  參照如何通過(guò)百度學(xué)會(huì )編程?這個(gè)回答
  
  百度詞庫,
  feed流標準詞庫的表示方法。目前還沒(méi)有人提到這個(gè)問(wèn)題,不過(guò)這是seo的一部分,大家應該都一樣。
  那就是根據網(wǎng)站訪(fǎng)問(wèn)原始url中,詞條包含詞,通過(guò)抓取網(wǎng)站內容,并根據關(guān)鍵詞和網(wǎng)站內容組合出新的一個(gè)關(guān)鍵詞出來(lái)。
  前端一般都是sitemap注入,使用蜘蛛抓取蜘蛛將搜索結果中url發(fā)送給前端來(lái)源。詞庫一般都是通過(guò)百度爬蟲(chóng)自身爬取的網(wǎng)站,一般情況下如果根據url里面不出現字的話(huà),
  有標定之后,利用sprite、spring等構建,直接把url發(fā)送給前端去爬,
  
  解析url發(fā)送詞庫詞
  1、搜索、解析url中的標題、描述、關(guān)鍵詞;
  2、根據解析結果在serp中,
  3、通過(guò)serp相關(guān)性匹配出這些詞,
  4、完成展示;

采集內容插入詞庫 行業(yè)解決方案:SaaS 投手,玩轉 SEO 生態(tài)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 104 次瀏覽 ? 2022-12-05 01:56 ? 來(lái)自相關(guān)話(huà)題

  采集內容插入詞庫 行業(yè)解決方案:SaaS 投手,玩轉 SEO 生態(tài)
  SaaS投手,玩轉SEO生態(tài)
  通訊社
  2022-07-13 11:41 北京
  打開(kāi)網(wǎng)易新聞查看精彩圖片
  文字 | 顧海松搜索營(yíng)銷(xiāo)專(zhuān)家
  整理 | 易圈
  盡管新的營(yíng)銷(xiāo)方式層出不窮,但搜索營(yíng)銷(xiāo)仍然是SaaS企業(yè)重要的營(yíng)銷(xiāo)渠道。搜索引擎掌握了巨大的流量,是用戶(hù)了解信息的首選渠道。SEM(Search Engine Marketing)和SEO(Search Engine Optimization)都是SaaS公司需要努力去玩的策略。
  本次分享整理自崔牛時(shí)代,由搜索營(yíng)銷(xiāo)專(zhuān)家、Martech王國經(jīng)理顧海松帶來(lái)的主題分享《SaaS企業(yè)如何玩轉搜索生態(tài)》,主要拆解了搜索的趨勢與本質(zhì),而站內優(yōu)化扮演著(zhù)重要角色在診斷評估方面,關(guān)鍵詞研究、創(chuàng )建友好站點(diǎn)、發(fā)布站點(diǎn)鏈接、五個(gè)節點(diǎn)的效果評估,以及避免常見(jiàn)作弊手段的建議。牛頭CMO頻道整理提取主要資料,供學(xué)習參考。
  全文核心內容:
  1. 搜索的趨勢和性質(zhì)
  2.站點(diǎn)優(yōu)化的核心邏輯
  三、內容生態(tài)的基本解決方案
  4.如何避免常見(jiàn)的作弊手段
  搜索的趨勢和本質(zhì)
  搜索的本質(zhì)是由意圖觸發(fā)的,其特點(diǎn)是用戶(hù)想要查詢(xún)特定的信息,而不是像原生廣告那樣被人群無(wú)意中瀏覽或大量營(yíng)銷(xiāo)。這是搜索點(diǎn)擊與意外瀏覽點(diǎn)擊觸發(fā)的先決條件的根本區別。由于這種特殊性,搜索流量對營(yíng)銷(xiāo)人員來(lái)說(shuō)比其他網(wǎng)絡(luò )流量更有價(jià)值。
  根據StatCounte提供的2022年5月全球搜索市場(chǎng)份額數據,谷歌市場(chǎng)份額占比92.48%;Bing的市場(chǎng)份額占3.08%;雅虎市場(chǎng)份額占1.30%;百度市場(chǎng)份額占比0.79%;YANDEX的市場(chǎng)份額為1.05%;其他搜索引擎的市場(chǎng)份額也在1%以下。
  根據Stat Counte 2022年5月提供的大陸搜索市場(chǎng)數據:百度市場(chǎng)份額占比73.86%;搜狗市場(chǎng)份額占比5.88%;Bing的市場(chǎng)份額占11.03%;谷歌市場(chǎng)份額占3.88% 好搜市場(chǎng)份額為2.48%;神馬市場(chǎng)份額為2.31%;其他搜索引擎的市場(chǎng)份額不到1%。
  搜索引擎的價(jià)值是不言而喻的。
  搜索引擎是一個(gè)巨大的流量入口。就目前的趨勢來(lái)看,搜索引擎仍然擁有巨大的流量,無(wú)論是SEM還是SEO都是我們需要努力去玩的策略。同時(shí),搜索引擎也是品牌的口碑陣地,是用戶(hù)了解信息的首選渠道。搜索結果對品牌形象非常重要。另外,搜索引擎也是品牌的公關(guān)陣地。偶爾,企業(yè)經(jīng)營(yíng)中難免會(huì )出現產(chǎn)品質(zhì)量、服務(wù)不當等問(wèn)題,不良信息很可能在搜索中出現并被放大,吸引更多用戶(hù)的關(guān)注,因此如何對搜索引擎進(jìn)行宣傳就顯得尤為重要。
  用戶(hù)在搜索引擎中的行為主要包括:搜索、瀏覽和比較。首先,當用戶(hù)選擇產(chǎn)生需求時(shí),就會(huì )在搜索引擎上產(chǎn)生一個(gè)搜索動(dòng)作。在品牌選擇階段,企業(yè)應通過(guò)綜合曝光、品牌引導、口碑傳播、新聞曝光等方式,增加品牌被瀏覽的概率;在獲取產(chǎn)品信息階段,企業(yè)應在搜索過(guò)程中增加品牌曝光度,提升品牌知名度;在產(chǎn)品對比階段,企業(yè)要挖掘產(chǎn)品的差異性、優(yōu)勢性、創(chuàng )新性,提煉賣(mài)點(diǎn),吸引用戶(hù)購買(mǎi)。
  在布局搜索生態(tài)時(shí),有哪些搜索優(yōu)化組策略?
  網(wǎng)站優(yōu)化。通過(guò)內容重構、外鏈優(yōu)化等策略,提升品牌官網(wǎng)排名,增加曝光度,完成內部轉型。
  品牌保護。降低虛假信息的權重,在品牌詞搜索結果頁(yè)展示正面的品牌信息。
  信息疊加。通過(guò)內容輸出策略,用戶(hù)在搜索行業(yè)詞、口碑詞時(shí),可以看到我們的站點(diǎn),達到曝光的效果。
  平臺維護。優(yōu)化特定熱門(mén)平臺,如百度百科、知乎、小紅書(shū)等,提升平臺品牌表現,限制敏感內容曝光,增加正面曝光。
  如果我們遍歷整個(gè)搜索優(yōu)化組的策略,我們可能會(huì )得到 3 個(gè)有效結果。
  增加品牌曝光度:優(yōu)化宣傳內容,增加品牌空間,為用戶(hù)提供正面引導,更好地引導潛在消費者的購買(mǎi)意向,促進(jìn)銷(xiāo)售增長(cháng)。
  凈化搜索環(huán)境:控制品牌詞在搜索引擎中暴露的敏感信息,減少非正面口碑信息的暴露和排名概率,防御競品惡意流量攔截,優(yōu)化品牌展示形式和內容,提升品牌美譽(yù)度。
  維護優(yōu)質(zhì)形象:增加優(yōu)質(zhì)品牌信息量,增加正面口碑信息占用,持續增加品牌曝光度,增強用戶(hù)對產(chǎn)品的信任度,確保搜索的自然結果正確和積極的。
  網(wǎng)站優(yōu)化的核心邏輯
  在A(yíng)I和大數據時(shí)代,現階段SEO最本質(zhì)的工作內容就是考慮應該用什么樣的技術(shù)手段來(lái)獲取大量用戶(hù)需要的優(yōu)質(zhì)內容,讓掌握了這些技能的SEOer可以更快地提高他們的能力和體驗。
  SEO 一直是在搜索生態(tài)系統中推廣內容的營(yíng)銷(xiāo)工具。如何讓自己(公司)站點(diǎn)有價(jià)值的內容被搜索引擎發(fā)現?如何讓它獲得更好的排名?如何更快地擊敗你的“競品”?既然搜索的本質(zhì)是滿(mǎn)足用戶(hù)的搜索意圖,那么搜索引擎的第一個(gè)核心重點(diǎn)就是生成滿(mǎn)足用戶(hù)搜索習慣的內容頁(yè)面。無(wú)論是首頁(yè)、產(chǎn)品介紹頁(yè)、SaaS解決方案頁(yè),甚至是白皮書(shū)、視頻講解頁(yè),都能承載用戶(hù)的搜索意圖。
  SEO一直是搜索引擎端推廣內容的戰略手段。只要搜索引擎存在,SEO 就存在。搜索引擎的每一次算法維護更新,都是為了展示更真實(shí)的內容算法結果,為用戶(hù)提供更完美的體驗。算法的變革推動(dòng)了SEO相關(guān)技術(shù)和策略的變革。
  SEO一直是搜索引擎端推廣內容的一種技術(shù)手段。這種技術(shù)手段是指我們?yōu)榱俗屗阉饕娓宄亓私庹军c(diǎn)策略,在人工智能和大數據技術(shù)的支持下,快速產(chǎn)出海量?jì)热莸牟呗浴?br />   以下是該站工作的流程節點(diǎn)。通過(guò)“診斷評估、關(guān)鍵詞研究、創(chuàng )建友情站點(diǎn)、發(fā)布站點(diǎn)鏈接、效果評估方法”五個(gè)節點(diǎn)的不斷循環(huán),使流量達到新的高峰。
  一、場(chǎng)地診斷與評估
  診斷評估的主要目的是了解場(chǎng)地和比賽情況。
  首先,定義海拔緯度。梳理SEO渠道的效果預期,讓團隊、部門(mén)、個(gè)人有明確的OKR或KPI。
  二是采集賽道品牌站點(diǎn)信息,評估競爭對手。
  第三,通過(guò)內網(wǎng)能力在網(wǎng)站站點(diǎn)采集和定義問(wèn)題,診斷存在的問(wèn)題。是框架的問(wèn)題還是連接的問(wèn)題,還是我們自己對用戶(hù)的搜索意圖,即關(guān)鍵詞研究的不夠透徹。
  四、了解網(wǎng)站開(kāi)發(fā)框架,是cms還是JS框架?很多框架不適合搜索引擎,阻礙了搜索引擎對網(wǎng)站內容的理解和區分。
  2.關(guān)鍵詞的研究
  在研究關(guān)鍵詞的過(guò)程中,可以了解用戶(hù)的搜索意圖,感知用戶(hù)的想法。能夠預測需求的變化方向,并在工作中積極響應,讓用戶(hù)在行業(yè)相關(guān)熱搜中不斷發(fā)現品牌內容。
  (1) 關(guān)鍵詞采集技術(shù)
  首先,關(guān)鍵詞通過(guò)公司內部傳播或GAKP/SEM推薦的行業(yè)熱詞確認。
  二是競爭對手熱詞實(shí)時(shí)分析。找出你的競爭對手正在做什么來(lái)彌補缺失的 關(guān)鍵詞 部分。
  第三,搜索引擎在推薦位置推薦的搜索詞。
  第四,行業(yè)工具推薦的詞包,比如5118、關(guān)鍵詞 planner等工具。
  (2) 關(guān)鍵詞趨勢跟蹤
  了解關(guān)鍵詞的動(dòng)向,最初的目的是確認相關(guān)的關(guān)鍵詞是否值得我們持續跟進(jìn),是否可以分配更高優(yōu)先級的資源。跟蹤關(guān)鍵詞的趨勢的另一個(gè)目的是了解相對后續的價(jià)值和變化趨勢。
  有朋友在社區問(wèn)我們,這個(gè)行業(yè)有成百上千的詞袋,我們應該如何分配精力?如果站點(diǎn)體量足夠大,可以通過(guò)資源分配策略將所有關(guān)鍵詞贖回。如果頁(yè)面體量有限,需要關(guān)注關(guān)鍵詞的動(dòng)向和自身價(jià)值,完成量化推廣動(dòng)作。
  (3)關(guān)鍵詞的應用技巧
  首先,屏幕行業(yè)屬性關(guān)鍵詞可以改善UV和轉換效果并建立層次詞典。
  二、規劃重構各種可重復匹配關(guān)鍵詞對應的landing page邏輯。
  
  第三,在內鏈框架及相關(guān)模塊的構建中,將核心關(guān)鍵詞作為核心位置管理層次。
  四、推送訪(fǎng)問(wèn)、抓取、索引、獲取優(yōu)質(zhì)展示位置。
  3.友好的網(wǎng)站
  (1)友好站點(diǎn)的必要元素
  我們如何做一個(gè)友好的網(wǎng)站,有哪些要素?
  有一個(gè)合理的、易于訪(fǎng)問(wèn)的開(kāi)發(fā)框架,可以被搜索引擎訪(fǎng)問(wèn)和抓取。一些JS類(lèi)的前端框架,雖然在前端展示時(shí)給用戶(hù)展示的是文字和圖片,但是當搜索引擎訪(fǎng)問(wèn)時(shí),只是一組組的JS代碼,以及被搜索引擎抓取后的相關(guān)解析模塊無(wú)法理解要解析理解的真實(shí)內容內容。
  創(chuàng )建連貫的雙端結構,無(wú)論是自適應站點(diǎn)還是雙端站點(diǎn),都要明確定義結構。
  只有URL合理,搜索引擎才能更有效地發(fā)布站點(diǎn),而不會(huì )給搜索引擎造成障礙。比如我們在開(kāi)發(fā)前端頁(yè)面的時(shí)候,為了保持技術(shù)的相關(guān)性,跟上潮流,我們可能會(huì )用到一些類(lèi)似JS的前端框架。一些框架涉及路由設置。通常會(huì )有哈希模式。這種模式下,“#”,搜索引擎在抓取機制上有特殊點(diǎn)。對于#字符下的頁(yè)面,蜘蛛會(huì )將其定義為頁(yè)面的子內容,一般不會(huì )抓取。這個(gè)是開(kāi)發(fā)框架上的障礙。
  關(guān)鍵詞優(yōu)化后,我們整個(gè)站點(diǎn)結構都可以匹配到完整版??紤]關(guān)鍵詞匹配整體結構下的內容優(yōu)化,可讀性等細節。
  Meta標簽基本上涵蓋了搜索標簽和社交標簽,比如圖片描述,H1標簽,這些都是我們需要注意的細微環(huán)節。
 ?。ǘ┙Y構化內容策劃建議
  進(jìn)行結構化內容規劃的建議。如果您只有少數主頁(yè)或產(chǎn)品頁(yè)面,那么需要什么策略來(lái)創(chuàng )建搜索引擎喜愛(ài)的 SEO 型網(wǎng)站?除了我們通??梢岳斫獾氖醉?yè)、產(chǎn)品介紹頁(yè)、解決方案頁(yè)、基礎文檔頁(yè)之外,還需要考慮哪些策略呢?
  經(jīng)常和我交流攻略的應該知道,我一般都會(huì )推薦大家做一些特殊的頁(yè)面和聚合頁(yè)面。制作此類(lèi)頁(yè)面與如何構建關(guān)鍵詞 庫之間存在一定的邏輯關(guān)系。我們需要為每一個(gè)關(guān)鍵詞匹配一個(gè)對應的能夠產(chǎn)生高效轉化的頁(yè)面,然后在相關(guān)頁(yè)面植入關(guān)鍵詞轉化邏輯,可以包括但不限于banner位置、JS特效和客戶(hù)服務(wù)彈出窗口等。
  還有與平臺機會(huì )相關(guān)的其他細節。比如百度平臺推廣提供了很多基于內容的優(yōu)質(zhì)攻略,比如小程序、專(zhuān)業(yè)問(wèn)答,這些都是流量?jì)A斜支持的機會(huì )。市場(chǎng)部無(wú)論多少人,都可以有針對性地嘗試一兩個(gè)人,在一定的周期內試用平臺提供的潛在機會(huì )。
  比如專(zhuān)業(yè)問(wèn)答阿拉丁,只要進(jìn)入專(zhuān)業(yè)問(wèn)答文字群,基本上在搜索結果中排在第一位,所以也叫top 0。盡量利用大的資源搜索平臺,完成阿拉丁相關(guān)模塊的應用,梳理相關(guān)功能的開(kāi)發(fā)流程,可以為我們帶來(lái)新的流量升級。
  4.發(fā)布附加鏈接
  有幾種創(chuàng )建鏈接的方法:
  首先,在我們自己的系統中創(chuàng )建一個(gè)內部鏈結構。很多采集站點(diǎn)都會(huì )瘋狂抓取各個(gè)平臺的優(yōu)質(zhì)內容。我們在做日常內鏈管理和反作弊策略的時(shí)候,可以在優(yōu)質(zhì)頁(yè)面上適當購買(mǎi)一些內鏈點(diǎn),引導正常轉發(fā)或異常轉發(fā),創(chuàng )造新的外部機會(huì )。
  其次,要注意站內合理的鏈接結構,我們稱(chēng)之為“內鏈模塊”。
  三是梳理行業(yè)內優(yōu)質(zhì)內容進(jìn)行自我傳播。早年大家喜歡在新浪博客等平臺發(fā)布自己寫(xiě)的優(yōu)質(zhì)內容,然后傳播相關(guān)內容。
  第四,與同行和優(yōu)質(zhì)行業(yè)站點(diǎn)交換鏈接。眾所周知,搜索引擎給予的集中權重是基于整個(gè)站點(diǎn)的真實(shí)價(jià)值頁(yè)面,即“首頁(yè)”。我們可以針對行業(yè)上下游機構替換首頁(yè)鏈接。這是我們日常運營(yíng)的核心動(dòng)作。
  此外,鏈接管理在有序和無(wú)序呈現模式下均有效。
  manager模塊有序管理。根據我們前面分析的關(guān)鍵詞趨勢、重要性和匹配頁(yè)面的重要度,可以分配管理者給的權重,讓內容機制優(yōu)先判斷和展示權重高的內容。讓我們整個(gè)站點(diǎn)的內部鏈接顯示在首頁(yè)或者產(chǎn)品頁(yè)上?;靵y也是一種常見(jiàn)的策略。
  五、效果評價(jià)方法
 ?。ㄒ唬┬Чu價(jià)方法
  我們如何評估我們的有效性?需要注意兩點(diǎn):
  一方面,我們需要了解SEO渠道數據的表現。我們能否量化搜索渠道增益的影響,進(jìn)而探究相關(guān)增益的真正來(lái)源?是通過(guò)某個(gè)詞或者某個(gè)推薦頁(yè)面來(lái)實(shí)現有效的改變?調查一些增益比較小的頁(yè)面,有哪些細節沒(méi)注意,是權重分配不夠,還是用戶(hù)的搜索意圖沒(méi)有得到滿(mǎn)足。使用這些策略使其成為整個(gè)站點(diǎn)的初始循環(huán)。
  另一方面,我們不得不考慮外部競爭分析。公司在做內審的同時(shí),需要借助第三方工具了解公司的競爭對手在同一時(shí)期的工作中是否有新的變化。比如本季度公司通過(guò)搜索渠道達到了一個(gè)新的30字位置,公司的競爭是否發(fā)生了明顯的變化。它發(fā)生了什么樣的變化,變化發(fā)生在哪些頁(yè)面上,哪些關(guān)鍵詞對我們的影響與這些新頁(yè)面相關(guān)聯(lián),這些都是我們需要了解和關(guān)注的點(diǎn)。
  值得注意的是,我們需要通過(guò)性能評估的結果來(lái)回顧頁(yè)面詞和轉化路徑。當相關(guān)效果呈現出來(lái)后,我們就可以進(jìn)行新一輪的站點(diǎn)結構審核和優(yōu)化。由于我們在第一遍中已經(jīng)植入了很多新的邏輯和新的模塊,所以后面的工作會(huì )相對容易一些。這樣,通過(guò)每個(gè)季度的循環(huán),整個(gè)網(wǎng)站都會(huì )有一個(gè)質(zhì)的提升。
  (2)工作成就維度
  SEO項目初期,需要考慮項目的業(yè)務(wù)發(fā)展和布局策略。提前了解并參與此計劃或變更,可以快速有效地制定SEO項目計劃和相關(guān)管理計劃。
  以下是需要注意的成就維度:
  品牌知名度。提高品牌關(guān)鍵詞/行業(yè)詞的排名,增加相關(guān)詞組的搜索曝光率。
  捕獲相關(guān)流量。SEO 可以在 網(wǎng)站 網(wǎng)站建設中啟動(dòng),以考慮處于最原創(chuàng )狀態(tài)的頁(yè)面流量的屬性。
  渠道營(yíng)銷(xiāo)模式。甲方SEO團隊的工作不僅要考慮SEO策略的制定,還要考慮這部分精準流量轉化的路徑。
  6.其他提示
  (1) 賬本追蹤系統
  賬本追蹤系統偏向于管理經(jīng)驗,包括需要存儲原型文件;網(wǎng)站迭代記錄和跟蹤效果的維度是否一致;維護團隊中的哪個(gè)人正在執行哪個(gè)模塊,等等。
  (2) 獲得內部支持
  如何獲得內部支持?
  確定適當的漏斗階段目標。雖然SEO是一項長(cháng)期的工作,但團隊需要從這個(gè)渠道的成長(cháng)中獲得相關(guān)的信心和支持。重要的是要有正確的目標來(lái)有效地實(shí)現并激勵團隊。
  需要具有適當周期長(cháng)度的獲勝方法。將高頻關(guān)鍵詞和低頻關(guān)鍵詞納入同一個(gè)執行周期,讓有效呈現與長(cháng)期目標形成粘性互動(dòng)。
  為團隊提供可衡量的數據。定期提供渠道變化數據,如關(guān)鍵詞排名效果、流量增長(cháng)趨勢、引流量、渠道轉化效果等。
  設置里程碑以引導團隊的注意力。我們可以將里程碑式的渠道收益轉化為一種可交流的類(lèi)業(yè)務(wù)語(yǔ)言,以指導團隊內部的支持。
  (3) 搜索渠道意圖整理
  搜索漏斗意圖的整理是對 關(guān)鍵詞 狀態(tài)的補充。
  做個(gè)表格,注意單詞的變化趨勢,統計觀(guān)察可以挖潛。品牌站可以通過(guò)優(yōu)質(zhì)行業(yè)詞的跟蹤篩選形式,來(lái)評估跟蹤相關(guān)詞組的上升趨勢和流量天花板。
  評估意圖 關(guān)鍵詞 的排名和流量。通過(guò)國際第三方工具跟蹤相關(guān)排名,根據Google Trends或Google Bidding Tool中的搜索模塊了解相關(guān)搜索詞的單價(jià)、搜索量和檢索趨勢。
  拆分潛在品牌詞、商業(yè)詞、競品詞,匯集到優(yōu)化方案中。
  七、新網(wǎng)案例解讀
  以新網(wǎng)為例。我的任期是2017年到2019年,我離開(kāi)的時(shí)候,新網(wǎng)的日流量是10萬(wàn)多,剛加入的時(shí)候才1萬(wàn)多。當時(shí)我們整個(gè)站點(diǎn)的字量在PC加移動(dòng)端不到4000。在接下來(lái)的15個(gè)月的周期里,我們制定了不下四個(gè)新的內容增量項目,其中包括早年百度比較執著(zhù)推進(jìn)的MIP項目。以及我們正在做的一些聚合頁(yè)面。
  我們在內容生產(chǎn)方面也做了很多事情,比如通過(guò)算法聚合進(jìn)行迭代改寫(xiě),開(kāi)發(fā)行業(yè)需要的主題頁(yè)面。下圖中,我截取了今年6月份的數據??梢钥吹?,目前第三方評估的新網(wǎng)日均流量在30萬(wàn)左右,PC加移動(dòng)的存量為20萬(wàn)。
  打開(kāi)網(wǎng)易新聞查看精彩圖片
  內容生態(tài)的基本解決方案
  搜索通信有三種基本策略:
  挖掘用戶(hù)關(guān)注點(diǎn)與內容的匹配度,輸出內容。比如近兩年備受關(guān)注的私域運營(yíng)SOP和營(yíng)銷(xiāo)技術(shù),可以出相關(guān)營(yíng)銷(xiāo)技術(shù)白皮書(shū)和SOP合集。
  
  選擇優(yōu)質(zhì)媒體展示位置。根據搜索模式和所需空間類(lèi)型,選擇媒體類(lèi)型,分析媒體數據,選擇收錄空間好、空間穩定的平臺進(jìn)行內容投放。
  SEO技術(shù)支持,提升曝光率。通過(guò)關(guān)鍵詞布局策略、外鏈手段、模擬數據等,提升鏈接權重和排名能力,延長(cháng)排名周期。最起碼,我們要創(chuàng )造滿(mǎn)足用戶(hù)搜索習慣的內容,比如滿(mǎn)足用戶(hù)搜索習慣的標題。
  搜索傳播會(huì )有什么樣的差異?比如B端傳播,要傳播社會(huì )公益、機構認證、戰略合作、事件營(yíng)銷(xiāo)等場(chǎng)景。對于C端,要傳播平臺信息、差異化標簽、品牌價(jià)值。
  此外,還推薦了一些傳播方向。在國家層面,跟隨政策,做公益,在海外打造品牌,標桿行業(yè);在監管層面,是否合規,個(gè)人保護法和數據法對營(yíng)銷(xiāo)技術(shù)的影響;在行業(yè)影響層面,是否有一些可以直觀(guān)對外公布的新數據;在用戶(hù)層面,能否產(chǎn)生服務(wù)體驗、品牌信任、平臺差異化。
  最后,我們整理了一些關(guān)于搜索傳播范圍的建議,其中有一些是可以自己實(shí)現的。如果自媒體平臺有足夠的人力來(lái)維護,那么搜索生態(tài)傳播的工作就已經(jīng)完成了一半。目前,自媒體生態(tài)中的一些平臺仍然受到搜索引擎的高度關(guān)注,例如百度百家號和知乎。同時(shí),我們可以選擇一些優(yōu)質(zhì)的科技門(mén)戶(hù)網(wǎng)站。如果是大型的產(chǎn)品推廣活動(dòng),我們可以選擇當地的媒體。如果是重行業(yè)屬性,可以關(guān)注相對垂直的媒體。
  如何避免常見(jiàn)的作弊手段
  常規作弊手段有哪些,如何避免?這是很多朋友頭疼的問(wèn)題。這幾年在幫朋友關(guān)注搜索質(zhì)量的時(shí)候,大家對黑馬的東西還是比較敏感的,所以我簡(jiǎn)單跟大家說(shuō)說(shuō)需要避免的坑。
  在常見(jiàn)的作弊方式中,有兩點(diǎn)是不被搜索引擎喜歡的。首先是模擬點(diǎn)擊,它可以影響整個(gè)網(wǎng)站的真實(shí)統計。二是模擬發(fā)包,基于搜索引擎的定向數據接收池,通過(guò)批量IP發(fā)送定向數據包,不影響真實(shí)統計。
  也就是說(shuō),模擬點(diǎn)擊效果不僅會(huì )影響搜索引擎的數據,還會(huì )影響自己站點(diǎn)的數據。模擬合同影響了資源中心的統計數據,但真實(shí)的代表統計數據幾乎沒(méi)有變化。因為模擬點(diǎn)擊創(chuàng )建真實(shí)訪(fǎng)問(wèn),它會(huì )導致企業(yè)誤判網(wǎng)站本身的質(zhì)量。模擬承包影響搜索引擎自身平臺的數據,但不影響策略本身。這兩個(gè)特征就是判斷是否遇到過(guò)相關(guān)的過(guò)去狀態(tài)。
  模擬點(diǎn)擊是目前正在全國推廣的快速排序策略之一。早在2017年,我們就在小范圍內測試了真實(shí)IP。我們通過(guò)一個(gè)具體的過(guò)程,測試了純手動(dòng)點(diǎn)擊的真實(shí)IP,在200 index關(guān)鍵詞以下測試,短時(shí)間內效果很好,但是一個(gè)多月的老IP就不行了對重訪(fǎng)時(shí)的搜索排名起到更好的作用。在這個(gè)策略中,真正生效有兩個(gè)關(guān)鍵,一個(gè)是穩定正常的IP,一個(gè)是符合正常檢索意圖的行為。
  2021年,百度平臺連續兩次升級模擬點(diǎn)擊的黑帽相關(guān)算法“百度驚雷算法”,期間無(wú)數站點(diǎn)掉線(xiàn)。之所以下跌,是因為他們使用了海量的IP數據庫和類(lèi)似的模擬行為特征,讓百度官方可以更清楚地了解相關(guān)流量是否為真實(shí)流量,是否為真實(shí)動(dòng)作。
  模擬合約投放技術(shù)可以簡(jiǎn)單理解為將之前模擬點(diǎn)擊的參數和動(dòng)作寫(xiě)入數據腳本,通過(guò)特定接口或漏洞發(fā)送給搜索引擎的分析平臺。第一次真正理解這個(gè)攻略是在某搜索平臺和一位大牛聊起他之前工作經(jīng)歷時(shí)會(huì )遇到的正常事件。
  當然,這種開(kāi)口,有可能被守著(zhù)偷走,也有可能被無(wú)限分析。但也取決于具體的IP庫和具體的參數特性。這些固定地址和行為特征很容易在特定范圍內觸發(fā)百度的識別機制。
  常問(wèn)問(wèn)題
  問(wèn):鏈接農場(chǎng)/蜘蛛池在百度或其他搜索引擎中是否仍然有效?與直接購買(mǎi)外鏈相比有哪些優(yōu)勢和劣勢?
  A:鏈接農場(chǎng)/蜘蛛池的核心功能是引導搜索引擎的爬行模塊(蜘蛛)訪(fǎng)問(wèn)新的地址或站點(diǎn)。只要站點(diǎn)的訪(fǎng)問(wèn)IP不是負IP或者沒(méi)有觸發(fā)相關(guān)站點(diǎn),基本沒(méi)有危害。與外部鏈接的作用相比,外部鏈接的定期投放準確定義了錨文本,增加了錨文本與頁(yè)面之間鏈接的信任度。另外,常規的外鏈一般都是尋找權重比較高的頁(yè)面,這也是一個(gè)明顯的區別。
  Q:如何控制關(guān)鍵詞優(yōu)化的節奏,所有關(guān)鍵詞都要沖量,但在精力有限的情況下如何安排工作節奏?
  A:在了解了本次直播的第二部分后,其實(shí)這個(gè)問(wèn)題自己回答起來(lái)還是比較容易的。首先,SEO部分的關(guān)鍵詞優(yōu)化不是短期的事情,所以我們需要在初期規劃的時(shí)候,根據整個(gè)站點(diǎn)頁(yè)面的大小和結構,嘗試一次性完成布局。其次,我們?yōu)楝F場(chǎng)和非現場(chǎng)鏈接分配相對的 關(guān)鍵詞 重要性權重。
  Q:網(wǎng)站關(guān)閉站點(diǎn)多久會(huì )影響排名,站點(diǎn)迭代改版需要注意什么?
  A:目前站點(diǎn)的快照周期一般維持一周左右。如果周二/周三服務(wù)器恰好宕機或下線(xiàn),預計周末快照會(huì )發(fā)生變化或消失。在網(wǎng)站遷移/改版過(guò)程中需要注意以下細節:第一,盡量保持網(wǎng)站的URL結構不變,以便搜索引擎按照通常的結構進(jìn)行訪(fǎng)問(wèn)和抓??;第二,盡量不要對TDK架構進(jìn)行頻繁的調整和變更;三是改版使用的框架需要盡可能對搜索引擎友好。
  Q:SEO在企業(yè)中的作用,如何與企業(yè)負責人溝通網(wǎng)站優(yōu)化的重要性?
  A:搜索引擎一直是網(wǎng)站來(lái)源的核心渠道。SEO工作的價(jià)值與SEM相當,只是兩種渠道的轉化路徑不同,流量的精準度也不同。但在有效SEO的情況下,應該是當前渠道中ROI效果最好的渠道。因為它只需要自己的一部分人工成本和資源成本,不需要外包,所以這部分投入遠低于競價(jià)廣告和原生廣告。
  問(wèn):如何衡量 SEO 工作的有效性?如何評估效果?
  A:落在甲方市場(chǎng)部的KPI永遠是有效的線(xiàn)索和營(yíng)業(yè)額。如果是甲方市場(chǎng)部,可以參考的工作效果指標可以是以下幾個(gè)層次:收錄數量、有效關(guān)鍵詞數量、核心關(guān)鍵詞排名效果(無(wú)需要強調的核心)、流量、轉化率或成為的線(xiàn)索數量。
  乙方服務(wù)項目組的KPI主要以流量來(lái)衡量。乙方項目組在項目需求溝通中的定期核心考核包括:有效流量增長(cháng)、核心關(guān)鍵詞優(yōu)質(zhì)排名等。
  Q:我們公司的SEO優(yōu)化是外包給第三方公司的。關(guān)鍵詞 基本上在主頁(yè)上。不過(guò),與去年相比,今年的線(xiàn)上線(xiàn)索少了很多。不知道怎么提高?
  A:1、需要判斷相關(guān)關(guān)鍵詞是否有效關(guān)鍵詞,相關(guān)關(guān)鍵詞是否有流量接入,以及接入的相關(guān)參數詳情。
  2、線(xiàn)索量要與市場(chǎng)行業(yè)、用戶(hù)搜索習慣相關(guān)。受疫情影響,投放和購買(mǎi)方向的支出及相關(guān)行為明顯縮水。
  3、可以跟蹤相關(guān)行業(yè)關(guān)鍵詞近期指數走勢,判斷是否為相關(guān)關(guān)鍵詞的真實(shí)訪(fǎng)問(wèn)趨勢。
  Q:如何平衡官網(wǎng)營(yíng)銷(xiāo)功能和網(wǎng)站健康指標?
  答:網(wǎng)站 優(yōu)化的健康指標是協(xié)助網(wǎng)站 營(yíng)銷(xiāo)的有力武器。兩者相輔相成。如果是基于開(kāi)發(fā)框架,再考慮相關(guān)的營(yíng)銷(xiāo)和運營(yíng)能力,我想應該是對SEO沒(méi)有全面的了解。政策和規范產(chǎn)生了一些認知偏差。即使我們使用有利于運營(yíng)的前后端分離模式的開(kāi)發(fā)框架。我們仍然有策略使網(wǎng)站有利于搜索引擎索引和排名。
  Q:不懂搜索引擎規則,如何快速增加收錄?簡(jiǎn)單的爬行收錄高效的方式?
  A:收錄沒(méi)有簡(jiǎn)單的搶法,但是有標準化的策略來(lái)提高搶的基數和效率。一個(gè)好的 收錄 粉底有兩個(gè)基本支撐。我們不僅要保證我們的網(wǎng)站有合理的開(kāi)發(fā)框架和流暢的URL結構,還要保證在官網(wǎng)有固定的內容輸出和展示頻率。網(wǎng)站在to B營(yíng)銷(xiāo)類(lèi)中的一個(gè)收錄細節依據是網(wǎng)站內容質(zhì)量,這一點(diǎn)在之前的群分享中被很多朋友強調過(guò)。
  Q:在哪里可以查看比賽的變化?有什么工具嗎?
  A:我們可以重點(diǎn)關(guān)注三個(gè)站點(diǎn)的變化:Chinaz、愛(ài)站、5118。
  問(wèn):從全球范圍來(lái)看,谷歌的市場(chǎng)份額占90%以上。那么對于目標受眾在國內市場(chǎng)的企業(yè)來(lái)說(shuō),在谷歌上投放是否合適呢?
  A:從搜索生態(tài)的角度,我們可以根據用戶(hù)畫(huà)像或者市場(chǎng)比例來(lái)分配廣告費用,通過(guò)前期的預算來(lái)測試真實(shí)的廣告投放效果,考慮渠道是否適合產(chǎn)品和平臺。
  SEO是一個(gè)通用規范,在各種搜索引擎上都可以呈現,但有些搜索引擎抓取時(shí)間長(cháng),更新頻率慢,能看到的效果不夠直觀(guān)。比如百度的更新周期可能是按周計算的,但是搜狗、360、神馬,他們的快照更新,收錄,他們的周期比較長(cháng),需要比較扎實(shí)的內容基礎來(lái)吸引他們. 三個(gè)感興趣的平臺。Google 和 Bing 等平臺對爬取相對開(kāi)放。我測試過(guò),谷歌可以維持一個(gè)站點(diǎn)日均50萬(wàn)左右的抓取量,但是360、搜狗、百度達不到這個(gè)水平。
  從純SEO的角度來(lái)看,我們可以采用更適用、更規范的內容策略,使網(wǎng)站更適合所有搜索引擎。
  Q:您如何看待目前搜索流量的下滑?企業(yè)該如何應對?
  A:搜索流量下降并不是一個(gè)特別準確的描述。目前整個(gè)搜索池處于穩定狀態(tài),搜索用戶(hù)市場(chǎng)在8.5億到8.8億之間。有些行業(yè)確實(shí)會(huì )受到用戶(hù)日常碎片化時(shí)間的影響,比如轉向知乎、抖音等生態(tài)。
  針對這種情況,我能給的建議是關(guān)注行業(yè)的關(guān)鍵詞,這兩年的趨勢是什么。如果確實(shí)是下降趨勢,我們可以關(guān)注用戶(hù)使用不同APP的時(shí)長(cháng),找到相關(guān)的行業(yè)趨勢來(lái)比較各個(gè)APP的增長(cháng)情況。如果確實(shí)有增長(cháng),則考慮適當分配預算以轉化營(yíng)銷(xiāo)行為。
  然后,根據行業(yè)詞的分析確定以下?tīng)I銷(xiāo)行為??梢钥纯搓P(guān)鍵詞的研究。
  Q:百度收錄有一萬(wàn)多冊,但幾乎沒(méi)有百度搜索流量。問(wèn)題是什么?
  A:核心問(wèn)題出在自己創(chuàng )建的頁(yè)面上。一是可能不滿(mǎn)足用戶(hù)的搜索習慣;另一種是這些頁(yè)面可能只滿(mǎn)足了基本的展示需求,但質(zhì)量和結構都達不到要求,需要重新對頁(yè)面進(jìn)行重構和優(yōu)化。
  Q:如何看待短視頻關(guān)鍵詞搜索覆蓋率?
  A:確實(shí)有圈內朋友在做短視頻關(guān)鍵詞搜索覆蓋。通過(guò)量產(chǎn)視頻、覆蓋特殊場(chǎng)景文案關(guān)鍵詞,這是對抖音生態(tài)的有效舉措。目前我能觀(guān)察到的關(guān)鍵詞覆蓋范圍主要是應用于消費品、化工、貿易等產(chǎn)品,目前SaaS公司很少。
  問(wèn):公司的關(guān)鍵詞是由競爭對手推出的。當我搜索我的公司名稱(chēng)時(shí),另一家公司顯示在我面前。如何解決這個(gè)問(wèn)題呢。
  A:根據我之前在代理機構的工作經(jīng)驗,我建議你先建立一個(gè)比較完善的權益機制,優(yōu)先取得商標權,把公司名稱(chēng)變成正式的品牌商標。如果您有已獲批的商標,您可以利用該商標的權益向SEM專(zhuān)屬客服及顧問(wèn)反映情況。如果沒(méi)有效果,可以直接去業(yè)務(wù)投訴,或者投訴到百度法務(wù)。
  另外判斷對方的關(guān)鍵詞是否受歡迎,如果受歡迎,可以通過(guò)網(wǎng)絡(luò )進(jìn)行投訴。如果沒(méi)有飄飄紅,一般情況下客服是不會(huì )有好的解決辦法的。目前,這是商戰中的一種非常規行為。SaaS圈內大家對這種行為還是很鄙視的,但是很多人確實(shí)是為了KPI在執行相關(guān)動(dòng)作。
  Q:網(wǎng)站公司權重低,無(wú)法排在前列。搜索業(yè)務(wù)關(guān)鍵詞前十頁(yè)看不到我公司的網(wǎng)站。請問(wèn)老師,除了花錢(qián),還有什么方法可以快速提高排名?
  A:快速提升排名的方法在第四部分已經(jīng)介紹過(guò)了,但是本身并不是白帽策略,是變態(tài)的。如果搜索引擎通過(guò)算法對比發(fā)現你確實(shí)使用了不正常的策略,你可能就完蛋了。如果你提醒三次,基本上這個(gè)網(wǎng)站就會(huì )被永久沙盒化,不會(huì )再出來(lái)了。
  因此,我的建議是,您應該清楚地了解站點(diǎn)是否存在問(wèn)題,并解決站點(diǎn)的問(wèn)題。這是第一步。第二步是要有一個(gè)詳細的內容計劃,讓網(wǎng)站更具周期性,這樣搜索引擎就會(huì )清楚地識別出你網(wǎng)站的變化。當引擎清楚地看到網(wǎng)站本身的行為趨于良好時(shí),就會(huì )給你更多的關(guān)注,這會(huì )讓你的網(wǎng)站成為搜索引擎喜歡的網(wǎng)站。
  關(guān)于作者:
  顧海松:原博雅魔方SEO業(yè)務(wù)總監,Martech王國社區/公眾號負責人,ABM成長(cháng)研究院名譽(yù)顧問(wèn),直播研究院名譽(yù)顧問(wèn),第十三屆虎嘯獎評委會(huì )委員,鳥(niǎo)筆記作者柱子。
  近11年to B服務(wù)經(jīng)驗,致力于搜索生態(tài)優(yōu)化,專(zhuān)注于企業(yè)服務(wù)、教育培訓、汽車(chē)租賃、電商經(jīng)濟、云生態(tài)、行業(yè)等領(lǐng)域的流量提升策略。曾為阿里巴巴、螞蟻集團、新網(wǎng)科技、權大師、人人貸、長(cháng)城汽車(chē)等眾多品牌和平臺提供服務(wù)。
  解決方案:php74 騎士 優(yōu)采云采集簡(jiǎn)歷 接口及采集規則
  
  Knightcms人才系統是一套基于PHP+MYSQL開(kāi)發(fā)的免費+開(kāi)源的專(zhuān)業(yè)人才招聘系統。軟件具有執行效率高、模板自由切換、便捷的后臺管理功能等諸多優(yōu)良特性。所有代碼均來(lái)自Knight Network原創(chuàng ),擁有完整的知識產(chǎn)權。騎士人才系統依靠騎士網(wǎng)絡(luò )不斷創(chuàng )新的精神和認真的工作態(tài)度,已成為國內同類(lèi)軟件中最優(yōu)秀的人才系統。騎士cms人才系統v5.0.1 更新內容: 新增:后臺增加跳轉頁(yè)面 增加:短信預警提醒,方便客戶(hù)及時(shí)充值 單獨呈現,方便跟蹤客戶(hù)新增:后臺統計增加列表頁(yè)面。
   查看全部

  采集內容插入詞庫 行業(yè)解決方案:SaaS 投手,玩轉 SEO 生態(tài)
  SaaS投手,玩轉SEO生態(tài)
  通訊社
  2022-07-13 11:41 北京
  打開(kāi)網(wǎng)易新聞查看精彩圖片
  文字 | 顧海松搜索營(yíng)銷(xiāo)專(zhuān)家
  整理 | 易圈
  盡管新的營(yíng)銷(xiāo)方式層出不窮,但搜索營(yíng)銷(xiāo)仍然是SaaS企業(yè)重要的營(yíng)銷(xiāo)渠道。搜索引擎掌握了巨大的流量,是用戶(hù)了解信息的首選渠道。SEM(Search Engine Marketing)和SEO(Search Engine Optimization)都是SaaS公司需要努力去玩的策略。
  本次分享整理自崔牛時(shí)代,由搜索營(yíng)銷(xiāo)專(zhuān)家、Martech王國經(jīng)理顧海松帶來(lái)的主題分享《SaaS企業(yè)如何玩轉搜索生態(tài)》,主要拆解了搜索的趨勢與本質(zhì),而站內優(yōu)化扮演著(zhù)重要角色在診斷評估方面,關(guān)鍵詞研究、創(chuàng )建友好站點(diǎn)、發(fā)布站點(diǎn)鏈接、五個(gè)節點(diǎn)的效果評估,以及避免常見(jiàn)作弊手段的建議。牛頭CMO頻道整理提取主要資料,供學(xué)習參考。
  全文核心內容:
  1. 搜索的趨勢和性質(zhì)
  2.站點(diǎn)優(yōu)化的核心邏輯
  三、內容生態(tài)的基本解決方案
  4.如何避免常見(jiàn)的作弊手段
  搜索的趨勢和本質(zhì)
  搜索的本質(zhì)是由意圖觸發(fā)的,其特點(diǎn)是用戶(hù)想要查詢(xún)特定的信息,而不是像原生廣告那樣被人群無(wú)意中瀏覽或大量營(yíng)銷(xiāo)。這是搜索點(diǎn)擊與意外瀏覽點(diǎn)擊觸發(fā)的先決條件的根本區別。由于這種特殊性,搜索流量對營(yíng)銷(xiāo)人員來(lái)說(shuō)比其他網(wǎng)絡(luò )流量更有價(jià)值。
  根據StatCounte提供的2022年5月全球搜索市場(chǎng)份額數據,谷歌市場(chǎng)份額占比92.48%;Bing的市場(chǎng)份額占3.08%;雅虎市場(chǎng)份額占1.30%;百度市場(chǎng)份額占比0.79%;YANDEX的市場(chǎng)份額為1.05%;其他搜索引擎的市場(chǎng)份額也在1%以下。
  根據Stat Counte 2022年5月提供的大陸搜索市場(chǎng)數據:百度市場(chǎng)份額占比73.86%;搜狗市場(chǎng)份額占比5.88%;Bing的市場(chǎng)份額占11.03%;谷歌市場(chǎng)份額占3.88% 好搜市場(chǎng)份額為2.48%;神馬市場(chǎng)份額為2.31%;其他搜索引擎的市場(chǎng)份額不到1%。
  搜索引擎的價(jià)值是不言而喻的。
  搜索引擎是一個(gè)巨大的流量入口。就目前的趨勢來(lái)看,搜索引擎仍然擁有巨大的流量,無(wú)論是SEM還是SEO都是我們需要努力去玩的策略。同時(shí),搜索引擎也是品牌的口碑陣地,是用戶(hù)了解信息的首選渠道。搜索結果對品牌形象非常重要。另外,搜索引擎也是品牌的公關(guān)陣地。偶爾,企業(yè)經(jīng)營(yíng)中難免會(huì )出現產(chǎn)品質(zhì)量、服務(wù)不當等問(wèn)題,不良信息很可能在搜索中出現并被放大,吸引更多用戶(hù)的關(guān)注,因此如何對搜索引擎進(jìn)行宣傳就顯得尤為重要。
  用戶(hù)在搜索引擎中的行為主要包括:搜索、瀏覽和比較。首先,當用戶(hù)選擇產(chǎn)生需求時(shí),就會(huì )在搜索引擎上產(chǎn)生一個(gè)搜索動(dòng)作。在品牌選擇階段,企業(yè)應通過(guò)綜合曝光、品牌引導、口碑傳播、新聞曝光等方式,增加品牌被瀏覽的概率;在獲取產(chǎn)品信息階段,企業(yè)應在搜索過(guò)程中增加品牌曝光度,提升品牌知名度;在產(chǎn)品對比階段,企業(yè)要挖掘產(chǎn)品的差異性、優(yōu)勢性、創(chuàng )新性,提煉賣(mài)點(diǎn),吸引用戶(hù)購買(mǎi)。
  在布局搜索生態(tài)時(shí),有哪些搜索優(yōu)化組策略?
  網(wǎng)站優(yōu)化。通過(guò)內容重構、外鏈優(yōu)化等策略,提升品牌官網(wǎng)排名,增加曝光度,完成內部轉型。
  品牌保護。降低虛假信息的權重,在品牌詞搜索結果頁(yè)展示正面的品牌信息。
  信息疊加。通過(guò)內容輸出策略,用戶(hù)在搜索行業(yè)詞、口碑詞時(shí),可以看到我們的站點(diǎn),達到曝光的效果。
  平臺維護。優(yōu)化特定熱門(mén)平臺,如百度百科、知乎、小紅書(shū)等,提升平臺品牌表現,限制敏感內容曝光,增加正面曝光。
  如果我們遍歷整個(gè)搜索優(yōu)化組的策略,我們可能會(huì )得到 3 個(gè)有效結果。
  增加品牌曝光度:優(yōu)化宣傳內容,增加品牌空間,為用戶(hù)提供正面引導,更好地引導潛在消費者的購買(mǎi)意向,促進(jìn)銷(xiāo)售增長(cháng)。
  凈化搜索環(huán)境:控制品牌詞在搜索引擎中暴露的敏感信息,減少非正面口碑信息的暴露和排名概率,防御競品惡意流量攔截,優(yōu)化品牌展示形式和內容,提升品牌美譽(yù)度。
  維護優(yōu)質(zhì)形象:增加優(yōu)質(zhì)品牌信息量,增加正面口碑信息占用,持續增加品牌曝光度,增強用戶(hù)對產(chǎn)品的信任度,確保搜索的自然結果正確和積極的。
  網(wǎng)站優(yōu)化的核心邏輯
  在A(yíng)I和大數據時(shí)代,現階段SEO最本質(zhì)的工作內容就是考慮應該用什么樣的技術(shù)手段來(lái)獲取大量用戶(hù)需要的優(yōu)質(zhì)內容,讓掌握了這些技能的SEOer可以更快地提高他們的能力和體驗。
  SEO 一直是在搜索生態(tài)系統中推廣內容的營(yíng)銷(xiāo)工具。如何讓自己(公司)站點(diǎn)有價(jià)值的內容被搜索引擎發(fā)現?如何讓它獲得更好的排名?如何更快地擊敗你的“競品”?既然搜索的本質(zhì)是滿(mǎn)足用戶(hù)的搜索意圖,那么搜索引擎的第一個(gè)核心重點(diǎn)就是生成滿(mǎn)足用戶(hù)搜索習慣的內容頁(yè)面。無(wú)論是首頁(yè)、產(chǎn)品介紹頁(yè)、SaaS解決方案頁(yè),甚至是白皮書(shū)、視頻講解頁(yè),都能承載用戶(hù)的搜索意圖。
  SEO一直是搜索引擎端推廣內容的戰略手段。只要搜索引擎存在,SEO 就存在。搜索引擎的每一次算法維護更新,都是為了展示更真實(shí)的內容算法結果,為用戶(hù)提供更完美的體驗。算法的變革推動(dòng)了SEO相關(guān)技術(shù)和策略的變革。
  SEO一直是搜索引擎端推廣內容的一種技術(shù)手段。這種技術(shù)手段是指我們?yōu)榱俗屗阉饕娓宄亓私庹军c(diǎn)策略,在人工智能和大數據技術(shù)的支持下,快速產(chǎn)出海量?jì)热莸牟呗浴?br />   以下是該站工作的流程節點(diǎn)。通過(guò)“診斷評估、關(guān)鍵詞研究、創(chuàng )建友情站點(diǎn)、發(fā)布站點(diǎn)鏈接、效果評估方法”五個(gè)節點(diǎn)的不斷循環(huán),使流量達到新的高峰。
  一、場(chǎng)地診斷與評估
  診斷評估的主要目的是了解場(chǎng)地和比賽情況。
  首先,定義海拔緯度。梳理SEO渠道的效果預期,讓團隊、部門(mén)、個(gè)人有明確的OKR或KPI。
  二是采集賽道品牌站點(diǎn)信息,評估競爭對手。
  第三,通過(guò)內網(wǎng)能力在網(wǎng)站站點(diǎn)采集和定義問(wèn)題,診斷存在的問(wèn)題。是框架的問(wèn)題還是連接的問(wèn)題,還是我們自己對用戶(hù)的搜索意圖,即關(guān)鍵詞研究的不夠透徹。
  四、了解網(wǎng)站開(kāi)發(fā)框架,是cms還是JS框架?很多框架不適合搜索引擎,阻礙了搜索引擎對網(wǎng)站內容的理解和區分。
  2.關(guān)鍵詞的研究
  在研究關(guān)鍵詞的過(guò)程中,可以了解用戶(hù)的搜索意圖,感知用戶(hù)的想法。能夠預測需求的變化方向,并在工作中積極響應,讓用戶(hù)在行業(yè)相關(guān)熱搜中不斷發(fā)現品牌內容。
  (1) 關(guān)鍵詞采集技術(shù)
  首先,關(guān)鍵詞通過(guò)公司內部傳播或GAKP/SEM推薦的行業(yè)熱詞確認。
  二是競爭對手熱詞實(shí)時(shí)分析。找出你的競爭對手正在做什么來(lái)彌補缺失的 關(guān)鍵詞 部分。
  第三,搜索引擎在推薦位置推薦的搜索詞。
  第四,行業(yè)工具推薦的詞包,比如5118、關(guān)鍵詞 planner等工具。
  (2) 關(guān)鍵詞趨勢跟蹤
  了解關(guān)鍵詞的動(dòng)向,最初的目的是確認相關(guān)的關(guān)鍵詞是否值得我們持續跟進(jìn),是否可以分配更高優(yōu)先級的資源。跟蹤關(guān)鍵詞的趨勢的另一個(gè)目的是了解相對后續的價(jià)值和變化趨勢。
  有朋友在社區問(wèn)我們,這個(gè)行業(yè)有成百上千的詞袋,我們應該如何分配精力?如果站點(diǎn)體量足夠大,可以通過(guò)資源分配策略將所有關(guān)鍵詞贖回。如果頁(yè)面體量有限,需要關(guān)注關(guān)鍵詞的動(dòng)向和自身價(jià)值,完成量化推廣動(dòng)作。
  (3)關(guān)鍵詞的應用技巧
  首先,屏幕行業(yè)屬性關(guān)鍵詞可以改善UV和轉換效果并建立層次詞典。
  二、規劃重構各種可重復匹配關(guān)鍵詞對應的landing page邏輯。
  
  第三,在內鏈框架及相關(guān)模塊的構建中,將核心關(guān)鍵詞作為核心位置管理層次。
  四、推送訪(fǎng)問(wèn)、抓取、索引、獲取優(yōu)質(zhì)展示位置。
  3.友好的網(wǎng)站
  (1)友好站點(diǎn)的必要元素
  我們如何做一個(gè)友好的網(wǎng)站,有哪些要素?
  有一個(gè)合理的、易于訪(fǎng)問(wèn)的開(kāi)發(fā)框架,可以被搜索引擎訪(fǎng)問(wèn)和抓取。一些JS類(lèi)的前端框架,雖然在前端展示時(shí)給用戶(hù)展示的是文字和圖片,但是當搜索引擎訪(fǎng)問(wèn)時(shí),只是一組組的JS代碼,以及被搜索引擎抓取后的相關(guān)解析模塊無(wú)法理解要解析理解的真實(shí)內容內容。
  創(chuàng )建連貫的雙端結構,無(wú)論是自適應站點(diǎn)還是雙端站點(diǎn),都要明確定義結構。
  只有URL合理,搜索引擎才能更有效地發(fā)布站點(diǎn),而不會(huì )給搜索引擎造成障礙。比如我們在開(kāi)發(fā)前端頁(yè)面的時(shí)候,為了保持技術(shù)的相關(guān)性,跟上潮流,我們可能會(huì )用到一些類(lèi)似JS的前端框架。一些框架涉及路由設置。通常會(huì )有哈希模式。這種模式下,“#”,搜索引擎在抓取機制上有特殊點(diǎn)。對于#字符下的頁(yè)面,蜘蛛會(huì )將其定義為頁(yè)面的子內容,一般不會(huì )抓取。這個(gè)是開(kāi)發(fā)框架上的障礙。
  關(guān)鍵詞優(yōu)化后,我們整個(gè)站點(diǎn)結構都可以匹配到完整版??紤]關(guān)鍵詞匹配整體結構下的內容優(yōu)化,可讀性等細節。
  Meta標簽基本上涵蓋了搜索標簽和社交標簽,比如圖片描述,H1標簽,這些都是我們需要注意的細微環(huán)節。
 ?。ǘ┙Y構化內容策劃建議
  進(jìn)行結構化內容規劃的建議。如果您只有少數主頁(yè)或產(chǎn)品頁(yè)面,那么需要什么策略來(lái)創(chuàng )建搜索引擎喜愛(ài)的 SEO 型網(wǎng)站?除了我們通??梢岳斫獾氖醉?yè)、產(chǎn)品介紹頁(yè)、解決方案頁(yè)、基礎文檔頁(yè)之外,還需要考慮哪些策略呢?
  經(jīng)常和我交流攻略的應該知道,我一般都會(huì )推薦大家做一些特殊的頁(yè)面和聚合頁(yè)面。制作此類(lèi)頁(yè)面與如何構建關(guān)鍵詞 庫之間存在一定的邏輯關(guān)系。我們需要為每一個(gè)關(guān)鍵詞匹配一個(gè)對應的能夠產(chǎn)生高效轉化的頁(yè)面,然后在相關(guān)頁(yè)面植入關(guān)鍵詞轉化邏輯,可以包括但不限于banner位置、JS特效和客戶(hù)服務(wù)彈出窗口等。
  還有與平臺機會(huì )相關(guān)的其他細節。比如百度平臺推廣提供了很多基于內容的優(yōu)質(zhì)攻略,比如小程序、專(zhuān)業(yè)問(wèn)答,這些都是流量?jì)A斜支持的機會(huì )。市場(chǎng)部無(wú)論多少人,都可以有針對性地嘗試一兩個(gè)人,在一定的周期內試用平臺提供的潛在機會(huì )。
  比如專(zhuān)業(yè)問(wèn)答阿拉丁,只要進(jìn)入專(zhuān)業(yè)問(wèn)答文字群,基本上在搜索結果中排在第一位,所以也叫top 0。盡量利用大的資源搜索平臺,完成阿拉丁相關(guān)模塊的應用,梳理相關(guān)功能的開(kāi)發(fā)流程,可以為我們帶來(lái)新的流量升級。
  4.發(fā)布附加鏈接
  有幾種創(chuàng )建鏈接的方法:
  首先,在我們自己的系統中創(chuàng )建一個(gè)內部鏈結構。很多采集站點(diǎn)都會(huì )瘋狂抓取各個(gè)平臺的優(yōu)質(zhì)內容。我們在做日常內鏈管理和反作弊策略的時(shí)候,可以在優(yōu)質(zhì)頁(yè)面上適當購買(mǎi)一些內鏈點(diǎn),引導正常轉發(fā)或異常轉發(fā),創(chuàng )造新的外部機會(huì )。
  其次,要注意站內合理的鏈接結構,我們稱(chēng)之為“內鏈模塊”。
  三是梳理行業(yè)內優(yōu)質(zhì)內容進(jìn)行自我傳播。早年大家喜歡在新浪博客等平臺發(fā)布自己寫(xiě)的優(yōu)質(zhì)內容,然后傳播相關(guān)內容。
  第四,與同行和優(yōu)質(zhì)行業(yè)站點(diǎn)交換鏈接。眾所周知,搜索引擎給予的集中權重是基于整個(gè)站點(diǎn)的真實(shí)價(jià)值頁(yè)面,即“首頁(yè)”。我們可以針對行業(yè)上下游機構替換首頁(yè)鏈接。這是我們日常運營(yíng)的核心動(dòng)作。
  此外,鏈接管理在有序和無(wú)序呈現模式下均有效。
  manager模塊有序管理。根據我們前面分析的關(guān)鍵詞趨勢、重要性和匹配頁(yè)面的重要度,可以分配管理者給的權重,讓內容機制優(yōu)先判斷和展示權重高的內容。讓我們整個(gè)站點(diǎn)的內部鏈接顯示在首頁(yè)或者產(chǎn)品頁(yè)上?;靵y也是一種常見(jiàn)的策略。
  五、效果評價(jià)方法
 ?。ㄒ唬┬Чu價(jià)方法
  我們如何評估我們的有效性?需要注意兩點(diǎn):
  一方面,我們需要了解SEO渠道數據的表現。我們能否量化搜索渠道增益的影響,進(jìn)而探究相關(guān)增益的真正來(lái)源?是通過(guò)某個(gè)詞或者某個(gè)推薦頁(yè)面來(lái)實(shí)現有效的改變?調查一些增益比較小的頁(yè)面,有哪些細節沒(méi)注意,是權重分配不夠,還是用戶(hù)的搜索意圖沒(méi)有得到滿(mǎn)足。使用這些策略使其成為整個(gè)站點(diǎn)的初始循環(huán)。
  另一方面,我們不得不考慮外部競爭分析。公司在做內審的同時(shí),需要借助第三方工具了解公司的競爭對手在同一時(shí)期的工作中是否有新的變化。比如本季度公司通過(guò)搜索渠道達到了一個(gè)新的30字位置,公司的競爭是否發(fā)生了明顯的變化。它發(fā)生了什么樣的變化,變化發(fā)生在哪些頁(yè)面上,哪些關(guān)鍵詞對我們的影響與這些新頁(yè)面相關(guān)聯(lián),這些都是我們需要了解和關(guān)注的點(diǎn)。
  值得注意的是,我們需要通過(guò)性能評估的結果來(lái)回顧頁(yè)面詞和轉化路徑。當相關(guān)效果呈現出來(lái)后,我們就可以進(jìn)行新一輪的站點(diǎn)結構審核和優(yōu)化。由于我們在第一遍中已經(jīng)植入了很多新的邏輯和新的模塊,所以后面的工作會(huì )相對容易一些。這樣,通過(guò)每個(gè)季度的循環(huán),整個(gè)網(wǎng)站都會(huì )有一個(gè)質(zhì)的提升。
  (2)工作成就維度
  SEO項目初期,需要考慮項目的業(yè)務(wù)發(fā)展和布局策略。提前了解并參與此計劃或變更,可以快速有效地制定SEO項目計劃和相關(guān)管理計劃。
  以下是需要注意的成就維度:
  品牌知名度。提高品牌關(guān)鍵詞/行業(yè)詞的排名,增加相關(guān)詞組的搜索曝光率。
  捕獲相關(guān)流量。SEO 可以在 網(wǎng)站 網(wǎng)站建設中啟動(dòng),以考慮處于最原創(chuàng )狀態(tài)的頁(yè)面流量的屬性。
  渠道營(yíng)銷(xiāo)模式。甲方SEO團隊的工作不僅要考慮SEO策略的制定,還要考慮這部分精準流量轉化的路徑。
  6.其他提示
  (1) 賬本追蹤系統
  賬本追蹤系統偏向于管理經(jīng)驗,包括需要存儲原型文件;網(wǎng)站迭代記錄和跟蹤效果的維度是否一致;維護團隊中的哪個(gè)人正在執行哪個(gè)模塊,等等。
  (2) 獲得內部支持
  如何獲得內部支持?
  確定適當的漏斗階段目標。雖然SEO是一項長(cháng)期的工作,但團隊需要從這個(gè)渠道的成長(cháng)中獲得相關(guān)的信心和支持。重要的是要有正確的目標來(lái)有效地實(shí)現并激勵團隊。
  需要具有適當周期長(cháng)度的獲勝方法。將高頻關(guān)鍵詞和低頻關(guān)鍵詞納入同一個(gè)執行周期,讓有效呈現與長(cháng)期目標形成粘性互動(dòng)。
  為團隊提供可衡量的數據。定期提供渠道變化數據,如關(guān)鍵詞排名效果、流量增長(cháng)趨勢、引流量、渠道轉化效果等。
  設置里程碑以引導團隊的注意力。我們可以將里程碑式的渠道收益轉化為一種可交流的類(lèi)業(yè)務(wù)語(yǔ)言,以指導團隊內部的支持。
  (3) 搜索渠道意圖整理
  搜索漏斗意圖的整理是對 關(guān)鍵詞 狀態(tài)的補充。
  做個(gè)表格,注意單詞的變化趨勢,統計觀(guān)察可以挖潛。品牌站可以通過(guò)優(yōu)質(zhì)行業(yè)詞的跟蹤篩選形式,來(lái)評估跟蹤相關(guān)詞組的上升趨勢和流量天花板。
  評估意圖 關(guān)鍵詞 的排名和流量。通過(guò)國際第三方工具跟蹤相關(guān)排名,根據Google Trends或Google Bidding Tool中的搜索模塊了解相關(guān)搜索詞的單價(jià)、搜索量和檢索趨勢。
  拆分潛在品牌詞、商業(yè)詞、競品詞,匯集到優(yōu)化方案中。
  七、新網(wǎng)案例解讀
  以新網(wǎng)為例。我的任期是2017年到2019年,我離開(kāi)的時(shí)候,新網(wǎng)的日流量是10萬(wàn)多,剛加入的時(shí)候才1萬(wàn)多。當時(shí)我們整個(gè)站點(diǎn)的字量在PC加移動(dòng)端不到4000。在接下來(lái)的15個(gè)月的周期里,我們制定了不下四個(gè)新的內容增量項目,其中包括早年百度比較執著(zhù)推進(jìn)的MIP項目。以及我們正在做的一些聚合頁(yè)面。
  我們在內容生產(chǎn)方面也做了很多事情,比如通過(guò)算法聚合進(jìn)行迭代改寫(xiě),開(kāi)發(fā)行業(yè)需要的主題頁(yè)面。下圖中,我截取了今年6月份的數據??梢钥吹?,目前第三方評估的新網(wǎng)日均流量在30萬(wàn)左右,PC加移動(dòng)的存量為20萬(wàn)。
  打開(kāi)網(wǎng)易新聞查看精彩圖片
  內容生態(tài)的基本解決方案
  搜索通信有三種基本策略:
  挖掘用戶(hù)關(guān)注點(diǎn)與內容的匹配度,輸出內容。比如近兩年備受關(guān)注的私域運營(yíng)SOP和營(yíng)銷(xiāo)技術(shù),可以出相關(guān)營(yíng)銷(xiāo)技術(shù)白皮書(shū)和SOP合集。
  
  選擇優(yōu)質(zhì)媒體展示位置。根據搜索模式和所需空間類(lèi)型,選擇媒體類(lèi)型,分析媒體數據,選擇收錄空間好、空間穩定的平臺進(jìn)行內容投放。
  SEO技術(shù)支持,提升曝光率。通過(guò)關(guān)鍵詞布局策略、外鏈手段、模擬數據等,提升鏈接權重和排名能力,延長(cháng)排名周期。最起碼,我們要創(chuàng )造滿(mǎn)足用戶(hù)搜索習慣的內容,比如滿(mǎn)足用戶(hù)搜索習慣的標題。
  搜索傳播會(huì )有什么樣的差異?比如B端傳播,要傳播社會(huì )公益、機構認證、戰略合作、事件營(yíng)銷(xiāo)等場(chǎng)景。對于C端,要傳播平臺信息、差異化標簽、品牌價(jià)值。
  此外,還推薦了一些傳播方向。在國家層面,跟隨政策,做公益,在海外打造品牌,標桿行業(yè);在監管層面,是否合規,個(gè)人保護法和數據法對營(yíng)銷(xiāo)技術(shù)的影響;在行業(yè)影響層面,是否有一些可以直觀(guān)對外公布的新數據;在用戶(hù)層面,能否產(chǎn)生服務(wù)體驗、品牌信任、平臺差異化。
  最后,我們整理了一些關(guān)于搜索傳播范圍的建議,其中有一些是可以自己實(shí)現的。如果自媒體平臺有足夠的人力來(lái)維護,那么搜索生態(tài)傳播的工作就已經(jīng)完成了一半。目前,自媒體生態(tài)中的一些平臺仍然受到搜索引擎的高度關(guān)注,例如百度百家號和知乎。同時(shí),我們可以選擇一些優(yōu)質(zhì)的科技門(mén)戶(hù)網(wǎng)站。如果是大型的產(chǎn)品推廣活動(dòng),我們可以選擇當地的媒體。如果是重行業(yè)屬性,可以關(guān)注相對垂直的媒體。
  如何避免常見(jiàn)的作弊手段
  常規作弊手段有哪些,如何避免?這是很多朋友頭疼的問(wèn)題。這幾年在幫朋友關(guān)注搜索質(zhì)量的時(shí)候,大家對黑馬的東西還是比較敏感的,所以我簡(jiǎn)單跟大家說(shuō)說(shuō)需要避免的坑。
  在常見(jiàn)的作弊方式中,有兩點(diǎn)是不被搜索引擎喜歡的。首先是模擬點(diǎn)擊,它可以影響整個(gè)網(wǎng)站的真實(shí)統計。二是模擬發(fā)包,基于搜索引擎的定向數據接收池,通過(guò)批量IP發(fā)送定向數據包,不影響真實(shí)統計。
  也就是說(shuō),模擬點(diǎn)擊效果不僅會(huì )影響搜索引擎的數據,還會(huì )影響自己站點(diǎn)的數據。模擬合同影響了資源中心的統計數據,但真實(shí)的代表統計數據幾乎沒(méi)有變化。因為模擬點(diǎn)擊創(chuàng )建真實(shí)訪(fǎng)問(wèn),它會(huì )導致企業(yè)誤判網(wǎng)站本身的質(zhì)量。模擬承包影響搜索引擎自身平臺的數據,但不影響策略本身。這兩個(gè)特征就是判斷是否遇到過(guò)相關(guān)的過(guò)去狀態(tài)。
  模擬點(diǎn)擊是目前正在全國推廣的快速排序策略之一。早在2017年,我們就在小范圍內測試了真實(shí)IP。我們通過(guò)一個(gè)具體的過(guò)程,測試了純手動(dòng)點(diǎn)擊的真實(shí)IP,在200 index關(guān)鍵詞以下測試,短時(shí)間內效果很好,但是一個(gè)多月的老IP就不行了對重訪(fǎng)時(shí)的搜索排名起到更好的作用。在這個(gè)策略中,真正生效有兩個(gè)關(guān)鍵,一個(gè)是穩定正常的IP,一個(gè)是符合正常檢索意圖的行為。
  2021年,百度平臺連續兩次升級模擬點(diǎn)擊的黑帽相關(guān)算法“百度驚雷算法”,期間無(wú)數站點(diǎn)掉線(xiàn)。之所以下跌,是因為他們使用了海量的IP數據庫和類(lèi)似的模擬行為特征,讓百度官方可以更清楚地了解相關(guān)流量是否為真實(shí)流量,是否為真實(shí)動(dòng)作。
  模擬合約投放技術(shù)可以簡(jiǎn)單理解為將之前模擬點(diǎn)擊的參數和動(dòng)作寫(xiě)入數據腳本,通過(guò)特定接口或漏洞發(fā)送給搜索引擎的分析平臺。第一次真正理解這個(gè)攻略是在某搜索平臺和一位大牛聊起他之前工作經(jīng)歷時(shí)會(huì )遇到的正常事件。
  當然,這種開(kāi)口,有可能被守著(zhù)偷走,也有可能被無(wú)限分析。但也取決于具體的IP庫和具體的參數特性。這些固定地址和行為特征很容易在特定范圍內觸發(fā)百度的識別機制。
  常問(wèn)問(wèn)題
  問(wèn):鏈接農場(chǎng)/蜘蛛池在百度或其他搜索引擎中是否仍然有效?與直接購買(mǎi)外鏈相比有哪些優(yōu)勢和劣勢?
  A:鏈接農場(chǎng)/蜘蛛池的核心功能是引導搜索引擎的爬行模塊(蜘蛛)訪(fǎng)問(wèn)新的地址或站點(diǎn)。只要站點(diǎn)的訪(fǎng)問(wèn)IP不是負IP或者沒(méi)有觸發(fā)相關(guān)站點(diǎn),基本沒(méi)有危害。與外部鏈接的作用相比,外部鏈接的定期投放準確定義了錨文本,增加了錨文本與頁(yè)面之間鏈接的信任度。另外,常規的外鏈一般都是尋找權重比較高的頁(yè)面,這也是一個(gè)明顯的區別。
  Q:如何控制關(guān)鍵詞優(yōu)化的節奏,所有關(guān)鍵詞都要沖量,但在精力有限的情況下如何安排工作節奏?
  A:在了解了本次直播的第二部分后,其實(shí)這個(gè)問(wèn)題自己回答起來(lái)還是比較容易的。首先,SEO部分的關(guān)鍵詞優(yōu)化不是短期的事情,所以我們需要在初期規劃的時(shí)候,根據整個(gè)站點(diǎn)頁(yè)面的大小和結構,嘗試一次性完成布局。其次,我們?yōu)楝F場(chǎng)和非現場(chǎng)鏈接分配相對的 關(guān)鍵詞 重要性權重。
  Q:網(wǎng)站關(guān)閉站點(diǎn)多久會(huì )影響排名,站點(diǎn)迭代改版需要注意什么?
  A:目前站點(diǎn)的快照周期一般維持一周左右。如果周二/周三服務(wù)器恰好宕機或下線(xiàn),預計周末快照會(huì )發(fā)生變化或消失。在網(wǎng)站遷移/改版過(guò)程中需要注意以下細節:第一,盡量保持網(wǎng)站的URL結構不變,以便搜索引擎按照通常的結構進(jìn)行訪(fǎng)問(wèn)和抓??;第二,盡量不要對TDK架構進(jìn)行頻繁的調整和變更;三是改版使用的框架需要盡可能對搜索引擎友好。
  Q:SEO在企業(yè)中的作用,如何與企業(yè)負責人溝通網(wǎng)站優(yōu)化的重要性?
  A:搜索引擎一直是網(wǎng)站來(lái)源的核心渠道。SEO工作的價(jià)值與SEM相當,只是兩種渠道的轉化路徑不同,流量的精準度也不同。但在有效SEO的情況下,應該是當前渠道中ROI效果最好的渠道。因為它只需要自己的一部分人工成本和資源成本,不需要外包,所以這部分投入遠低于競價(jià)廣告和原生廣告。
  問(wèn):如何衡量 SEO 工作的有效性?如何評估效果?
  A:落在甲方市場(chǎng)部的KPI永遠是有效的線(xiàn)索和營(yíng)業(yè)額。如果是甲方市場(chǎng)部,可以參考的工作效果指標可以是以下幾個(gè)層次:收錄數量、有效關(guān)鍵詞數量、核心關(guān)鍵詞排名效果(無(wú)需要強調的核心)、流量、轉化率或成為的線(xiàn)索數量。
  乙方服務(wù)項目組的KPI主要以流量來(lái)衡量。乙方項目組在項目需求溝通中的定期核心考核包括:有效流量增長(cháng)、核心關(guān)鍵詞優(yōu)質(zhì)排名等。
  Q:我們公司的SEO優(yōu)化是外包給第三方公司的。關(guān)鍵詞 基本上在主頁(yè)上。不過(guò),與去年相比,今年的線(xiàn)上線(xiàn)索少了很多。不知道怎么提高?
  A:1、需要判斷相關(guān)關(guān)鍵詞是否有效關(guān)鍵詞,相關(guān)關(guān)鍵詞是否有流量接入,以及接入的相關(guān)參數詳情。
  2、線(xiàn)索量要與市場(chǎng)行業(yè)、用戶(hù)搜索習慣相關(guān)。受疫情影響,投放和購買(mǎi)方向的支出及相關(guān)行為明顯縮水。
  3、可以跟蹤相關(guān)行業(yè)關(guān)鍵詞近期指數走勢,判斷是否為相關(guān)關(guān)鍵詞的真實(shí)訪(fǎng)問(wèn)趨勢。
  Q:如何平衡官網(wǎng)營(yíng)銷(xiāo)功能和網(wǎng)站健康指標?
  答:網(wǎng)站 優(yōu)化的健康指標是協(xié)助網(wǎng)站 營(yíng)銷(xiāo)的有力武器。兩者相輔相成。如果是基于開(kāi)發(fā)框架,再考慮相關(guān)的營(yíng)銷(xiāo)和運營(yíng)能力,我想應該是對SEO沒(méi)有全面的了解。政策和規范產(chǎn)生了一些認知偏差。即使我們使用有利于運營(yíng)的前后端分離模式的開(kāi)發(fā)框架。我們仍然有策略使網(wǎng)站有利于搜索引擎索引和排名。
  Q:不懂搜索引擎規則,如何快速增加收錄?簡(jiǎn)單的爬行收錄高效的方式?
  A:收錄沒(méi)有簡(jiǎn)單的搶法,但是有標準化的策略來(lái)提高搶的基數和效率。一個(gè)好的 收錄 粉底有兩個(gè)基本支撐。我們不僅要保證我們的網(wǎng)站有合理的開(kāi)發(fā)框架和流暢的URL結構,還要保證在官網(wǎng)有固定的內容輸出和展示頻率。網(wǎng)站在to B營(yíng)銷(xiāo)類(lèi)中的一個(gè)收錄細節依據是網(wǎng)站內容質(zhì)量,這一點(diǎn)在之前的群分享中被很多朋友強調過(guò)。
  Q:在哪里可以查看比賽的變化?有什么工具嗎?
  A:我們可以重點(diǎn)關(guān)注三個(gè)站點(diǎn)的變化:Chinaz、愛(ài)站、5118。
  問(wèn):從全球范圍來(lái)看,谷歌的市場(chǎng)份額占90%以上。那么對于目標受眾在國內市場(chǎng)的企業(yè)來(lái)說(shuō),在谷歌上投放是否合適呢?
  A:從搜索生態(tài)的角度,我們可以根據用戶(hù)畫(huà)像或者市場(chǎng)比例來(lái)分配廣告費用,通過(guò)前期的預算來(lái)測試真實(shí)的廣告投放效果,考慮渠道是否適合產(chǎn)品和平臺。
  SEO是一個(gè)通用規范,在各種搜索引擎上都可以呈現,但有些搜索引擎抓取時(shí)間長(cháng),更新頻率慢,能看到的效果不夠直觀(guān)。比如百度的更新周期可能是按周計算的,但是搜狗、360、神馬,他們的快照更新,收錄,他們的周期比較長(cháng),需要比較扎實(shí)的內容基礎來(lái)吸引他們. 三個(gè)感興趣的平臺。Google 和 Bing 等平臺對爬取相對開(kāi)放。我測試過(guò),谷歌可以維持一個(gè)站點(diǎn)日均50萬(wàn)左右的抓取量,但是360、搜狗、百度達不到這個(gè)水平。
  從純SEO的角度來(lái)看,我們可以采用更適用、更規范的內容策略,使網(wǎng)站更適合所有搜索引擎。
  Q:您如何看待目前搜索流量的下滑?企業(yè)該如何應對?
  A:搜索流量下降并不是一個(gè)特別準確的描述。目前整個(gè)搜索池處于穩定狀態(tài),搜索用戶(hù)市場(chǎng)在8.5億到8.8億之間。有些行業(yè)確實(shí)會(huì )受到用戶(hù)日常碎片化時(shí)間的影響,比如轉向知乎、抖音等生態(tài)。
  針對這種情況,我能給的建議是關(guān)注行業(yè)的關(guān)鍵詞,這兩年的趨勢是什么。如果確實(shí)是下降趨勢,我們可以關(guān)注用戶(hù)使用不同APP的時(shí)長(cháng),找到相關(guān)的行業(yè)趨勢來(lái)比較各個(gè)APP的增長(cháng)情況。如果確實(shí)有增長(cháng),則考慮適當分配預算以轉化營(yíng)銷(xiāo)行為。
  然后,根據行業(yè)詞的分析確定以下?tīng)I銷(xiāo)行為??梢钥纯搓P(guān)鍵詞的研究。
  Q:百度收錄有一萬(wàn)多冊,但幾乎沒(méi)有百度搜索流量。問(wèn)題是什么?
  A:核心問(wèn)題出在自己創(chuàng )建的頁(yè)面上。一是可能不滿(mǎn)足用戶(hù)的搜索習慣;另一種是這些頁(yè)面可能只滿(mǎn)足了基本的展示需求,但質(zhì)量和結構都達不到要求,需要重新對頁(yè)面進(jìn)行重構和優(yōu)化。
  Q:如何看待短視頻關(guān)鍵詞搜索覆蓋率?
  A:確實(shí)有圈內朋友在做短視頻關(guān)鍵詞搜索覆蓋。通過(guò)量產(chǎn)視頻、覆蓋特殊場(chǎng)景文案關(guān)鍵詞,這是對抖音生態(tài)的有效舉措。目前我能觀(guān)察到的關(guān)鍵詞覆蓋范圍主要是應用于消費品、化工、貿易等產(chǎn)品,目前SaaS公司很少。
  問(wèn):公司的關(guān)鍵詞是由競爭對手推出的。當我搜索我的公司名稱(chēng)時(shí),另一家公司顯示在我面前。如何解決這個(gè)問(wèn)題呢。
  A:根據我之前在代理機構的工作經(jīng)驗,我建議你先建立一個(gè)比較完善的權益機制,優(yōu)先取得商標權,把公司名稱(chēng)變成正式的品牌商標。如果您有已獲批的商標,您可以利用該商標的權益向SEM專(zhuān)屬客服及顧問(wèn)反映情況。如果沒(méi)有效果,可以直接去業(yè)務(wù)投訴,或者投訴到百度法務(wù)。
  另外判斷對方的關(guān)鍵詞是否受歡迎,如果受歡迎,可以通過(guò)網(wǎng)絡(luò )進(jìn)行投訴。如果沒(méi)有飄飄紅,一般情況下客服是不會(huì )有好的解決辦法的。目前,這是商戰中的一種非常規行為。SaaS圈內大家對這種行為還是很鄙視的,但是很多人確實(shí)是為了KPI在執行相關(guān)動(dòng)作。
  Q:網(wǎng)站公司權重低,無(wú)法排在前列。搜索業(yè)務(wù)關(guān)鍵詞前十頁(yè)看不到我公司的網(wǎng)站。請問(wèn)老師,除了花錢(qián),還有什么方法可以快速提高排名?
  A:快速提升排名的方法在第四部分已經(jīng)介紹過(guò)了,但是本身并不是白帽策略,是變態(tài)的。如果搜索引擎通過(guò)算法對比發(fā)現你確實(shí)使用了不正常的策略,你可能就完蛋了。如果你提醒三次,基本上這個(gè)網(wǎng)站就會(huì )被永久沙盒化,不會(huì )再出來(lái)了。
  因此,我的建議是,您應該清楚地了解站點(diǎn)是否存在問(wèn)題,并解決站點(diǎn)的問(wèn)題。這是第一步。第二步是要有一個(gè)詳細的內容計劃,讓網(wǎng)站更具周期性,這樣搜索引擎就會(huì )清楚地識別出你網(wǎng)站的變化。當引擎清楚地看到網(wǎng)站本身的行為趨于良好時(shí),就會(huì )給你更多的關(guān)注,這會(huì )讓你的網(wǎng)站成為搜索引擎喜歡的網(wǎng)站。
  關(guān)于作者:
  顧海松:原博雅魔方SEO業(yè)務(wù)總監,Martech王國社區/公眾號負責人,ABM成長(cháng)研究院名譽(yù)顧問(wèn),直播研究院名譽(yù)顧問(wèn),第十三屆虎嘯獎評委會(huì )委員,鳥(niǎo)筆記作者柱子。
  近11年to B服務(wù)經(jīng)驗,致力于搜索生態(tài)優(yōu)化,專(zhuān)注于企業(yè)服務(wù)、教育培訓、汽車(chē)租賃、電商經(jīng)濟、云生態(tài)、行業(yè)等領(lǐng)域的流量提升策略。曾為阿里巴巴、螞蟻集團、新網(wǎng)科技、權大師、人人貸、長(cháng)城汽車(chē)等眾多品牌和平臺提供服務(wù)。
  解決方案:php74 騎士 優(yōu)采云采集簡(jiǎn)歷 接口及采集規則
  
  Knightcms人才系統是一套基于PHP+MYSQL開(kāi)發(fā)的免費+開(kāi)源的專(zhuān)業(yè)人才招聘系統。軟件具有執行效率高、模板自由切換、便捷的后臺管理功能等諸多優(yōu)良特性。所有代碼均來(lái)自Knight Network原創(chuàng ),擁有完整的知識產(chǎn)權。騎士人才系統依靠騎士網(wǎng)絡(luò )不斷創(chuàng )新的精神和認真的工作態(tài)度,已成為國內同類(lèi)軟件中最優(yōu)秀的人才系統。騎士cms人才系統v5.0.1 更新內容: 新增:后臺增加跳轉頁(yè)面 增加:短信預警提醒,方便客戶(hù)及時(shí)充值 單獨呈現,方便跟蹤客戶(hù)新增:后臺統計增加列表頁(yè)面。
  

解讀:案例 | R語(yǔ)言數據挖掘實(shí)戰:電商評論情感分析

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 169 次瀏覽 ? 2022-12-04 20:56 ? 來(lái)自相關(guān)話(huà)題

  解讀:案例 | R語(yǔ)言數據挖掘實(shí)戰:電商評論情感分析
  微信加CDA為好友(ID:joinlearn),拉你進(jìn)500人數據分析師交流群。點(diǎn)擊閱讀原文查看CDA數據分析師交流群規范及收益。期待您的光臨~
  隨著(zhù)網(wǎng)絡(luò )購物的普及,各大電子商務(wù)公司之間的競爭也非常激烈。為了提高客戶(hù)服務(wù)質(zhì)量,除了打價(jià)格戰,了解客戶(hù)的需求,傾聽(tīng)客戶(hù)的聲音也越來(lái)越重要。最重要的方法是對文本評論進(jìn)行數據挖掘。今天通過(guò)學(xué)習《R語(yǔ)言數據挖掘實(shí)戰》案例:電商點(diǎn)評與數據分析,從目標到操作內容與大家分享。
  本文結構如下
  1.要達到的目標
  通過(guò)對客戶(hù)評論的分析,進(jìn)行一系列的方法來(lái)獲取客戶(hù)對某產(chǎn)品的態(tài)度和情感傾向,以及客戶(hù)關(guān)注產(chǎn)品的哪些屬性,產(chǎn)品的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及產(chǎn)品的賣(mài)點(diǎn)是什么,等等...
  2.文本挖掘的主要思想。
  由于語(yǔ)言數據的特殊性,我們主要提取句子中的關(guān)鍵詞,提取評論的關(guān)鍵詞,然后根據關(guān)鍵詞的權重,這里我們使用空間向量模型將每個(gè)特征關(guān)鍵詞轉化為數字向量,然后計算其距離,然后聚類(lèi)得到三類(lèi)情緒,分別是積極的、消極的和中性的。用 來(lái)代表顧客對產(chǎn)品的情感傾向。
  3、文本挖掘的主要流程:
  請輸入標題 4.案例流程簡(jiǎn)介及原理介紹及軟件操作
  4.1 數據爬取
  首先下載優(yōu)采云軟件。鏈接是 。下載安裝后,注冊賬號并登錄,界面如上:
  點(diǎn)擊快速開(kāi)始-新建任務(wù),輸入任務(wù)名稱(chēng),點(diǎn)擊下一步,打開(kāi)京東熱水器頁(yè)面
  將頁(yè)面地址復制到優(yōu)采云,如下圖:
  觀(guān)察網(wǎng)頁(yè)類(lèi)型,由于收錄美的熱水器的頁(yè)面不止一個(gè),下面有一個(gè)翻頁(yè)按鈕,所以我們需要創(chuàng )建一個(gè)點(diǎn)擊下一頁(yè)的循環(huán),然后在京東上點(diǎn)擊下一頁(yè)優(yōu)采云中的頁(yè)面,點(diǎn)擊彈出的對話(huà)框列表中,點(diǎn)擊循環(huán),點(diǎn)擊下一頁(yè),如圖:
  然后點(diǎn)擊一個(gè)產(chǎn)品,在彈出的頁(yè)面點(diǎn)擊Add an element list處理祖先元素--點(diǎn)擊Add to list--繼續編輯列表,接下來(lái)我們點(diǎn)擊另一個(gè)產(chǎn)品的名稱(chēng),點(diǎn)擊Add to在彈出的頁(yè)面列表上,讓軟件自動(dòng)識別頁(yè)面上的其他產(chǎn)品,然后點(diǎn)擊創(chuàng )建列表完成,再點(diǎn)擊循環(huán)創(chuàng )建頁(yè)面中的產(chǎn)品列表,循環(huán)抓取。
  然后軟件自動(dòng)跳轉到第一個(gè)產(chǎn)品的特定頁(yè)面。我們點(diǎn)擊評論,在彈出的頁(yè)面中點(diǎn)擊這個(gè)元素,看到有很多頁(yè)的評論。這時(shí)候我們就需要創(chuàng )建一個(gè)循環(huán)列表。同上,點(diǎn)擊下一頁(yè)—循環(huán)點(diǎn)擊。然后點(diǎn)擊我們需要抓取的評論文字,點(diǎn)擊彈出頁(yè)面創(chuàng )建元素列表處理一組元素——點(diǎn)擊添加到列表——繼續編輯列表,然后點(diǎn)擊第二條評論點(diǎn)擊在彈出的頁(yè)面上Add to the list—cycle,然后點(diǎn)擊評論的文字,選擇該元素的文字。好了,軟件會(huì )循環(huán)抓取這個(gè)頁(yè)面的文字,如圖:
  全部點(diǎn)擊完成后,我們查看設計器,發(fā)現有4個(gè)循環(huán),第一個(gè)是翻頁(yè),第二個(gè)是循環(huán)點(diǎn)擊每個(gè)商品,第三個(gè)是翻評論頁(yè),然后第四是抓取循環(huán)評論文本,所以我們需要把第四個(gè)循環(huán)嵌入到第三個(gè)循環(huán)中,然后整體嵌入到第二個(gè)循環(huán)中,然后再整體嵌入到第一個(gè)循環(huán)中,也就是說(shuō),先點(diǎn)擊下一頁(yè),然后點(diǎn)擊產(chǎn)品,再點(diǎn)擊下一個(gè)功能,然后抓取評論,這一套action loops。那么我們只需要在設計器中將第4個(gè)循環(huán)拖到第3個(gè)循環(huán)中,這樣拖下去即可。就是這樣:拖動(dòng)結果如下: ,然后點(diǎn)擊Next—Next—點(diǎn)擊采集就OK了。
  4.2 文本去重
  本例以京東平臺下美的熱水器的顧客評論為分析對象。按照流程,我們先用優(yōu)采云爬取了京東網(wǎng)站上客戶(hù)對美的熱水器的評論,部分數據如下!
  通過(guò)簡(jiǎn)單的觀(guān)察,我們可以發(fā)現評論的一些特征,
  因此,我們需要對這些數據進(jìn)行數據預處理,首先進(jìn)行數據清洗,而編輯距離去重實(shí)際上是一種計算字符串之間相似度的方法。給定兩個(gè)字符串,將字符串A變換為字符串B所需的刪除、插入、替換等操作的次數稱(chēng)為從A到B的編輯路徑。最短的編輯路徑稱(chēng)為字符串A和B的編輯距離。對于例如,“還沒(méi)用過(guò),不知道怎么樣,但是安裝材料費有點(diǎn)高,380”和“還沒(méi)用過(guò),不知道質(zhì)量如何,但是”的編輯距離安裝材料費確實(shí)貴,380寸是9。
  首先,我們需要對重復的評論進(jìn)行重復,也就是刪除重復的評論。
  重復詞出現在另一個(gè)句子中,會(huì )影響關(guān)鍵詞在整個(gè)評論中出現的頻率過(guò)高,影響分析結果。我們想壓縮它。
  還有一些無(wú)意義的評論,比如自動(dòng)點(diǎn)贊的評論,我們需要識別并刪除。
  4.3 壓縮語(yǔ)句規則:
  1.如果讀的和上面的list一樣,但是下面是空的,就放下。2.如果讀取的和上面的表一樣,但是有底,則判斷重復,清空底表。3.如果read和top list相同,bottom是,則判斷不是Heavy,上下清零 4.如果read和上面list不同,字符>=2,判斷為重復,上下清零 5.如果讀的和上面的表不一樣,底是空的,判斷不重,繼續放 6.如果讀的和上面的表不一樣,有底,判斷是不重,放下 7. 看完后,判斷上下,重則壓緊。
  4.4 然后我們進(jìn)行中文分詞。分詞的一般原則是:
  中文分詞是指將一系列漢字分割成獨立的詞。分詞結果的準確性對文本挖掘的效果非常重要。目前分詞算法主要有四種:字符串匹配算法、基于理解的算法、基于統計的方法和基于機器學(xué)習的算法。
  1、字符串匹配算法是將待分詞的文本字符串與字典中的詞進(jìn)行精確匹配。如果字典中的字符串出現在當前待分詞的文本中,則匹配成功。常用的匹配算法主要有正向最大匹配、反向最大匹配、雙向最大匹配和最小分割。
  2、基于理解的算法通過(guò)模擬人們在現實(shí)中對一句話(huà)的理解效果進(jìn)行分詞。這種方法需要分析句法結構,同時(shí)需要用到大量的語(yǔ)言知識和信息,比較復雜。
  3、基于統計的方法就是利用統計的思想進(jìn)行分詞。單詞由單個(gè)字符組成。在文本中,相鄰字符同時(shí)出現的次數越多,它們組成單詞的概率就越大;因此,可以用字符間的共現概率來(lái)反映詞的概率,統計相鄰字符的共現情況。出現次數并計算它們的共現概率。當共現概率高于設定的閾值時(shí),可以認為它們可能構成該詞
  4. 最后是基于機器學(xué)習的方法:利用機器學(xué)習進(jìn)行模型構建。構建大量的分割文本作為訓練數據,使用機器學(xué)習算法進(jìn)行模型訓練,利用模型對未知文本進(jìn)行分割。
  4.5 得到分詞結果后
  我們知道這些句子中經(jīng)常會(huì )有一些“了”、“啊”、“但是”,語(yǔ)氣詞、關(guān)聯(lián)詞、介詞等,這些詞對句子的特征沒(méi)有貢獻,我們可以去掉它們,還有一些專(zhuān)有名詞,對于這個(gè)分析案例,“熱水器”和“中國”經(jīng)常出現在評論中,這是我們已經(jīng)知道的,因為我們最初分析的是關(guān)于熱水器的評論,所以這些都是無(wú)用的信息。我們也可以刪除它們。那么這里必須刪除這些詞。一般通過(guò)建立的自定義詞庫刪除。
  4.6 分詞結果處理后
  那么我們就可以進(jìn)行統計,畫(huà)出詞頻云圖,大致了解那些關(guān)鍵詞的情況,為我們接下來(lái)的分析提供思路素材。操作如下:
  4.7 得到分詞結果后
  我們開(kāi)始建模和分析。模型選擇的方法有很多,但歸納起來(lái),只有兩種,即向量空間模型和概率模型。在這里我們介紹一個(gè)具有代表性的模型
  模型一:TF-IDF方法:
  方法A:對每個(gè)詞的出現頻率進(jìn)行加權后,作為其維度的坐標來(lái)確定一個(gè)特征的空間位置。
  方法B:將所有出現的詞所收錄的屬性作為維度,然后將詞與各個(gè)屬性之間的關(guān)系作為坐標,進(jìn)而定位一篇文檔在向量空間中的位置。
  但實(shí)際上,如果一個(gè)詞條在一類(lèi)文檔中頻繁出現,說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征。此類(lèi)詞條應該被賦予更高的權重,并被選為此類(lèi)文本的特征詞,用于將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。
  
  模型二:.LDA模型
  傳統的判斷兩篇文檔相似度的方法是查看兩篇文檔中出現的詞的數量,比如TF-IDF。幾乎沒(méi)有,但是這兩個(gè)文件很相似。
  例如,有如下兩個(gè)句子:
  “喬布斯走了?!?“蘋(píng)果會(huì )降價(jià)嗎?”
  可以看出,上面兩句話(huà)沒(méi)有共同詞,但是兩句話(huà)很相似。如果按照傳統的方法判斷兩個(gè)句子,肯定是不相似的,所以在判斷文檔的相關(guān)性時(shí),需要考慮文檔。語(yǔ)義學(xué),語(yǔ)義挖掘的武器是主題模型,LDA是比較有效的模型之一。
  LDA模型是一種無(wú)監督的主題生成模型,它假設文檔集中的文檔按照一定的概率共享一組隱藏主題,隱藏主題集由相關(guān)詞組成。這里一共有三個(gè)集合,分別是文檔集合、主題集合和單詞集合。文檔集到主題集服從概率分布,詞集到主題集也服從概率分布。既然我們知道了文檔集和詞集,那么根據貝葉斯定理就可以找到主題集了。具體算法很復雜,這里就不多解釋了。有興趣的同學(xué)可以參考以下資料
   37616
  4.8 項目概要
  1、數據復雜度較高,文本挖掘面臨的非結構化語(yǔ)言,文本非常復雜。
  2.過(guò)程不同,文本挖掘更注重預處理階段
  3、整體流程如下:
  五、應用領(lǐng)域:
  一、輿情分析
  2.搜索引擎優(yōu)化
  3、其他行業(yè)的輔助應用
  6、分析工具:
  ROST CM 6 是目前國內唯一由武漢大學(xué)沉陽(yáng)教授開(kāi)發(fā)編碼,助力人文社會(huì )科學(xué)研究的大型免費社交計算平臺。本軟件可以實(shí)現微博分析、聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類(lèi)分析等一系列文本分析.,擁有超過(guò)7000名用戶(hù),覆蓋國內外100多所大學(xué),包括劍橋大學(xué)、北海道大學(xué)、北京大學(xué)、清華大學(xué)、香港城市大學(xué)、澳門(mén)大學(xué)等多所高校。下載地址:
  RStudio是R語(yǔ)言的集成開(kāi)發(fā)環(huán)境(IDE),其亮點(diǎn)在于出色的界面設計和編程輔助。它可以運行在多種平臺上,包括windows、Mac、Ubuntu和網(wǎng)頁(yè)版。另外,本軟件是免費開(kāi)源的,可以在官網(wǎng)下載:
  7.1 Rostcm6實(shí)現:
  打開(kāi)軟件ROSTCM6
  這是處理前的文本內容。我們會(huì )從爬取的數據中只去除評論字段,然后將其保存為T(mén)XT格式。打開(kāi)它如下。按照流程,我們會(huì )先去除重復和字符、英文、數字等項。
  2、點(diǎn)擊文本處理-一般處理-處理條件選擇“retain only one for all repeated lines”和“delete all English characters contained in all lines”,去掉英文和數字等字符
  這是處理后的文件內容,可以看到數字和英文都??被刪除了。
  3、接下來(lái)進(jìn)行分詞。點(diǎn)擊功能分析——分詞(這里可以選擇自定義詞庫,如搜狗詞庫等)
  分詞處理后的結果。簡(jiǎn)單觀(guān)察一下,分詞之后,出現了很多無(wú)意義的停用詞,比如“in”、“under”、“one”等等
  4. 接下來(lái),我們過(guò)濾專(zhuān)有名詞,停用詞,統計詞頻。點(diǎn)函數分析——詞頻分析(中文)
  在功能分析下,單擊情緒分析以執行情緒分析。
  并且可以實(shí)現云圖的可視化。
  7.2 R的實(shí)現
  這里需要安裝幾個(gè)必要的包,因為幾個(gè)包的安裝比較復雜,這里是鏈接
  可以參考這篇博客安裝包。安裝完成后,就可以開(kāi)始R文本挖掘了。下面代碼的說(shuō)明文字較少,各個(gè)函數的作用初學(xué)者比較陌生。讀者可以先閱讀這些文章文章,了解各個(gè)函數的作用后,使用R進(jìn)行文本挖掘。鏈接如下:
  博客/檔案/29060
  直接
  讀完之后,進(jìn)行下去就會(huì )清楚很多。
  加載工作區庫 (rJava)
  圖書(shū)館(tmcn)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(TM)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  頭(數據1)
  數據
  —————————————————————— #Rwordseg分詞
  data1_cut=segmentCN(data1, nosymbol=T, returnType="tm")
  刪除\n、英文字母、數字 data1_cut=gsub("\n", "", data1_cut)
  data1_cut=gsub("[az]*", "", data1_cut)
  
  data1_cut=gsub("\d+", "", data1_cut)
  write.table(data1_cut, 'data1_cut.txt', row.names = FALSE)
  Data1=readLines('data1_cut.txt')
  Data1=gsub('\"', '', data1_cut)
  長(cháng)度(數據1)
  頭(數據1)
  ———————————————————————————— #Load workspace
  圖書(shū)館(自然語(yǔ)言處理)
  圖書(shū)館(TM)
  圖書(shū)館(大滿(mǎn)貫)
  圖書(shū)館(主題模型)
  R語(yǔ)言環(huán)境下的文本可視化與主題分析 setwd("F:/data and program/chapter15/computer experiment")
  data1=readLines("./data/meidi_jd_pos_cut.txt", encoding = "UTF-8")
  頭(數據1)
  停用詞
  停用詞=停用詞[611:長(cháng)度(停用詞)]
  去掉空格、字母 Data1=gsub("\n", "", Data1)
  Data1=gsub("[a~z]*", "", Data1)
  Data1=gsub("\d+", "", Data1)
  構建語(yǔ)料庫 corpus1 = Corpus(VectorSource(Data1))
  corpus1 = tm_map(corpus1, FUN=removeWords, stopwordsCN(stopwords))
  創(chuàng )建文檔術(shù)語(yǔ)矩陣 sample.dtm1
  colnames(as.matrix(sample.dtm1))
  tm::findFreqTerms(sample.dtm1, 2)
  unlist(tm::findAssocs(sample.dtm1, '安裝', 0.2))
  ——————————————————————–
  # 主題模型分析
  Gibbs = LDA(sample.dtm1, k = 3, method = "Gibbs", control = list(seed = 2015, burnin = 1000, thin = 100, iter = 1000))
  最有可能的主題文檔 Topic1
  表(主題1)
  每個(gè)主題的前 10 個(gè) TermTerms1
  條款1
  —————————————————————————— #使用vec方法分詞
  圖書(shū)館(tmcn)
  圖書(shū)館(TM)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(文字云)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  d.vec1
  wc1=getWordFreq(unlist(d.vec1), onlyCN = TRUE)
  wordcloud(wc1$Word,wc1$Freq,col=rainbow(長(cháng)度(wc1$Freq)),min.freq = 1000)
  #
  八、結果展示及說(shuō)明
  這是分析的部分結果??梢钥吹?,大部分客戶(hù)的評論都帶有正面的情緒,說(shuō)明客戶(hù)對美的熱水器的滿(mǎn)意度是比較高的。哪些方面滿(mǎn)意,哪些方面不滿(mǎn)意,哪些方面可以保持,哪些方面需要改進(jìn),這就需要我們另一種結果展示了。
  點(diǎn)擊可視化工具,得到詞頻云圖。根據云圖,我們可以看到客戶(hù)最關(guān)心的點(diǎn),也就是評論中提到較多的點(diǎn)。從圖中可以看到“安裝”、“師傅”、“配件”、“暖氣”、“快”、“便宜”、“速度”、“品牌”、“京東”、“送貨”、“服務(wù)” 、“價(jià)格”、“供暖”等關(guān)鍵詞出現頻率很高,我們可以大致猜到26
  另外,值得注意的是,云圖中還有一些“好”、“大”、“滿(mǎn)意”等字眼。我們還不知道這些詞背后的語(yǔ)義,所以我們需要找到相應的注釋。,提取這些詞對應的主題點(diǎn),然后對分析結果進(jìn)行優(yōu)化
  文|@白加黑治療病
  來(lái)源 | PPV類(lèi)
  原來(lái)的:
  點(diǎn)擊閱讀原文查看CDA數據分析師交流群規范及收益
  解讀:文章圖片提取工具(圖片提取文本的工具有哪些)
  目錄:
  1. 一個(gè)圖片提取文字的工具
  批量提取網(wǎng)站圖片。使用圖片提取工具從我們的網(wǎng)頁(yè)中提取圖片。圖片批量提取工具具有圖片過(guò)濾功能。通過(guò)設置圖片大小范圍,可以提取目標網(wǎng)站抓取的所有圖片,而采集為文章采集,提取文章中的插圖。
  2.從圖片中提取文章
  批量提取網(wǎng)站圖片工具,可以通過(guò)批量鏈接下載圖片,導入我們的圖片鏈接批量下載保存到本地,其次可以使用批量關(guān)鍵詞采集,通過(guò)圖片采集、文章采集、文章導出插圖生成本地圖片素材庫,最后即可提取下載全站圖片,輸入目標鏈接地址即可,可以批量導出整站圖片。
  3. 文章 內容提取工具
  4.圖片提取文本文件
  
  在我們的 網(wǎng)站 上重做視覺(jué)內容,包括信息圖表、視頻、圖像和視覺(jué)元素 我們甚至可以決定更改 網(wǎng)站 的設計作為內容更新的一部分,只要我們認為它是好的當決定(例如,我們的 網(wǎng)站 設計看起來(lái)過(guò)時(shí)了)執行 文章 圖像優(yōu)化時(shí),我們需要做的第一件事實(shí)際上是分析所有內容并選擇要刷新的部分。
  5.文檔圖像提取
  為了更新和重新制作我們的內容,我們可以從最好的論文中聘請專(zhuān)業(yè)的作家并撰寫(xiě)網(wǎng)站,或者我們可以自己完成所有工作但是,在開(kāi)始選擇內容時(shí),我們應該自己完成
  6、圖文提取工具有哪些?
  為了幫助我們選擇最好的內容來(lái)刷新,我們可以使用我們在 文章 圖像優(yōu)化過(guò)程中使用的優(yōu)先級排序的基本原則: 檢查 SEO 排名 - 檢查不同內容的搜索引擎排名 它們是否在第一頁(yè)?如果他們曾經(jīng)在第一頁(yè)上但掉到第二頁(yè)或第三頁(yè),請關(guān)注這些部分。
  7.圖片提取文件軟件
  我們可能只需要進(jìn)行一些更改即可使這些部分再次排在第一頁(yè)上
  
  8.圖片文字提取
  考慮我們的品牌——我們最近是否改變了我們的品牌?我們的聽(tīng)眾與以前的聽(tīng)眾有什么不同嗎?如果是這種情況,請為我們的老觀(guān)眾找到內容,然后找到一種方法來(lái)更新或重新制作這些內容以與我們當前的觀(guān)眾相關(guān) 查看指標 - 我們可能正在跟蹤很多指標,所以只需檢查它們,我們就可以決定需要刷新的內容。
  9.從文檔中提取圖片
  瀏覽量、點(diǎn)贊數、評論數、分享數等都是需要更改哪些部分的良好指標。比如標題稍微改一下,就可以提高點(diǎn)擊率
  10、有什么工具可以從圖片中提取文字
  讓自己成為領(lǐng)導者——如果我們想在自己周?chē)⒛撤N品牌形象,讓我們被視為我們領(lǐng)域的權威和思想領(lǐng)袖,那么我們絕對應該用新發(fā)現更新舊內容。自從我們發(fā)布這些文章文章 關(guān)于自以來(lái)新發(fā)現或開(kāi)發(fā)的主題。
  然后,向這些添加新信息
  圖片 查看全部

  解讀:案例 | R語(yǔ)言數據挖掘實(shí)戰:電商評論情感分析
  微信加CDA為好友(ID:joinlearn),拉你進(jìn)500人數據分析師交流群。點(diǎn)擊閱讀原文查看CDA數據分析師交流群規范及收益。期待您的光臨~
  隨著(zhù)網(wǎng)絡(luò )購物的普及,各大電子商務(wù)公司之間的競爭也非常激烈。為了提高客戶(hù)服務(wù)質(zhì)量,除了打價(jià)格戰,了解客戶(hù)的需求,傾聽(tīng)客戶(hù)的聲音也越來(lái)越重要。最重要的方法是對文本評論進(jìn)行數據挖掘。今天通過(guò)學(xué)習《R語(yǔ)言數據挖掘實(shí)戰》案例:電商點(diǎn)評與數據分析,從目標到操作內容與大家分享。
  本文結構如下
  1.要達到的目標
  通過(guò)對客戶(hù)評論的分析,進(jìn)行一系列的方法來(lái)獲取客戶(hù)對某產(chǎn)品的態(tài)度和情感傾向,以及客戶(hù)關(guān)注產(chǎn)品的哪些屬性,產(chǎn)品的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及產(chǎn)品的賣(mài)點(diǎn)是什么,等等...
  2.文本挖掘的主要思想。
  由于語(yǔ)言數據的特殊性,我們主要提取句子中的關(guān)鍵詞,提取評論的關(guān)鍵詞,然后根據關(guān)鍵詞的權重,這里我們使用空間向量模型將每個(gè)特征關(guān)鍵詞轉化為數字向量,然后計算其距離,然后聚類(lèi)得到三類(lèi)情緒,分別是積極的、消極的和中性的。用 來(lái)代表顧客對產(chǎn)品的情感傾向。
  3、文本挖掘的主要流程:
  請輸入標題 4.案例流程簡(jiǎn)介及原理介紹及軟件操作
  4.1 數據爬取
  首先下載優(yōu)采云軟件。鏈接是 。下載安裝后,注冊賬號并登錄,界面如上:
  點(diǎn)擊快速開(kāi)始-新建任務(wù),輸入任務(wù)名稱(chēng),點(diǎn)擊下一步,打開(kāi)京東熱水器頁(yè)面
  將頁(yè)面地址復制到優(yōu)采云,如下圖:
  觀(guān)察網(wǎng)頁(yè)類(lèi)型,由于收錄美的熱水器的頁(yè)面不止一個(gè),下面有一個(gè)翻頁(yè)按鈕,所以我們需要創(chuàng )建一個(gè)點(diǎn)擊下一頁(yè)的循環(huán),然后在京東上點(diǎn)擊下一頁(yè)優(yōu)采云中的頁(yè)面,點(diǎn)擊彈出的對話(huà)框列表中,點(diǎn)擊循環(huán),點(diǎn)擊下一頁(yè),如圖:
  然后點(diǎn)擊一個(gè)產(chǎn)品,在彈出的頁(yè)面點(diǎn)擊Add an element list處理祖先元素--點(diǎn)擊Add to list--繼續編輯列表,接下來(lái)我們點(diǎn)擊另一個(gè)產(chǎn)品的名稱(chēng),點(diǎn)擊Add to在彈出的頁(yè)面列表上,讓軟件自動(dòng)識別頁(yè)面上的其他產(chǎn)品,然后點(diǎn)擊創(chuàng )建列表完成,再點(diǎn)擊循環(huán)創(chuàng )建頁(yè)面中的產(chǎn)品列表,循環(huán)抓取。
  然后軟件自動(dòng)跳轉到第一個(gè)產(chǎn)品的特定頁(yè)面。我們點(diǎn)擊評論,在彈出的頁(yè)面中點(diǎn)擊這個(gè)元素,看到有很多頁(yè)的評論。這時(shí)候我們就需要創(chuàng )建一個(gè)循環(huán)列表。同上,點(diǎn)擊下一頁(yè)—循環(huán)點(diǎn)擊。然后點(diǎn)擊我們需要抓取的評論文字,點(diǎn)擊彈出頁(yè)面創(chuàng )建元素列表處理一組元素——點(diǎn)擊添加到列表——繼續編輯列表,然后點(diǎn)擊第二條評論點(diǎn)擊在彈出的頁(yè)面上Add to the list—cycle,然后點(diǎn)擊評論的文字,選擇該元素的文字。好了,軟件會(huì )循環(huán)抓取這個(gè)頁(yè)面的文字,如圖:
  全部點(diǎn)擊完成后,我們查看設計器,發(fā)現有4個(gè)循環(huán),第一個(gè)是翻頁(yè),第二個(gè)是循環(huán)點(diǎn)擊每個(gè)商品,第三個(gè)是翻評論頁(yè),然后第四是抓取循環(huán)評論文本,所以我們需要把第四個(gè)循環(huán)嵌入到第三個(gè)循環(huán)中,然后整體嵌入到第二個(gè)循環(huán)中,然后再整體嵌入到第一個(gè)循環(huán)中,也就是說(shuō),先點(diǎn)擊下一頁(yè),然后點(diǎn)擊產(chǎn)品,再點(diǎn)擊下一個(gè)功能,然后抓取評論,這一套action loops。那么我們只需要在設計器中將第4個(gè)循環(huán)拖到第3個(gè)循環(huán)中,這樣拖下去即可。就是這樣:拖動(dòng)結果如下: ,然后點(diǎn)擊Next—Next—點(diǎn)擊采集就OK了。
  4.2 文本去重
  本例以京東平臺下美的熱水器的顧客評論為分析對象。按照流程,我們先用優(yōu)采云爬取了京東網(wǎng)站上客戶(hù)對美的熱水器的評論,部分數據如下!
  通過(guò)簡(jiǎn)單的觀(guān)察,我們可以發(fā)現評論的一些特征,
  因此,我們需要對這些數據進(jìn)行數據預處理,首先進(jìn)行數據清洗,而編輯距離去重實(shí)際上是一種計算字符串之間相似度的方法。給定兩個(gè)字符串,將字符串A變換為字符串B所需的刪除、插入、替換等操作的次數稱(chēng)為從A到B的編輯路徑。最短的編輯路徑稱(chēng)為字符串A和B的編輯距離。對于例如,“還沒(méi)用過(guò),不知道怎么樣,但是安裝材料費有點(diǎn)高,380”和“還沒(méi)用過(guò),不知道質(zhì)量如何,但是”的編輯距離安裝材料費確實(shí)貴,380寸是9。
  首先,我們需要對重復的評論進(jìn)行重復,也就是刪除重復的評論。
  重復詞出現在另一個(gè)句子中,會(huì )影響關(guān)鍵詞在整個(gè)評論中出現的頻率過(guò)高,影響分析結果。我們想壓縮它。
  還有一些無(wú)意義的評論,比如自動(dòng)點(diǎn)贊的評論,我們需要識別并刪除。
  4.3 壓縮語(yǔ)句規則:
  1.如果讀的和上面的list一樣,但是下面是空的,就放下。2.如果讀取的和上面的表一樣,但是有底,則判斷重復,清空底表。3.如果read和top list相同,bottom是,則判斷不是Heavy,上下清零 4.如果read和上面list不同,字符>=2,判斷為重復,上下清零 5.如果讀的和上面的表不一樣,底是空的,判斷不重,繼續放 6.如果讀的和上面的表不一樣,有底,判斷是不重,放下 7. 看完后,判斷上下,重則壓緊。
  4.4 然后我們進(jìn)行中文分詞。分詞的一般原則是:
  中文分詞是指將一系列漢字分割成獨立的詞。分詞結果的準確性對文本挖掘的效果非常重要。目前分詞算法主要有四種:字符串匹配算法、基于理解的算法、基于統計的方法和基于機器學(xué)習的算法。
  1、字符串匹配算法是將待分詞的文本字符串與字典中的詞進(jìn)行精確匹配。如果字典中的字符串出現在當前待分詞的文本中,則匹配成功。常用的匹配算法主要有正向最大匹配、反向最大匹配、雙向最大匹配和最小分割。
  2、基于理解的算法通過(guò)模擬人們在現實(shí)中對一句話(huà)的理解效果進(jìn)行分詞。這種方法需要分析句法結構,同時(shí)需要用到大量的語(yǔ)言知識和信息,比較復雜。
  3、基于統計的方法就是利用統計的思想進(jìn)行分詞。單詞由單個(gè)字符組成。在文本中,相鄰字符同時(shí)出現的次數越多,它們組成單詞的概率就越大;因此,可以用字符間的共現概率來(lái)反映詞的概率,統計相鄰字符的共現情況。出現次數并計算它們的共現概率。當共現概率高于設定的閾值時(shí),可以認為它們可能構成該詞
  4. 最后是基于機器學(xué)習的方法:利用機器學(xué)習進(jìn)行模型構建。構建大量的分割文本作為訓練數據,使用機器學(xué)習算法進(jìn)行模型訓練,利用模型對未知文本進(jìn)行分割。
  4.5 得到分詞結果后
  我們知道這些句子中經(jīng)常會(huì )有一些“了”、“啊”、“但是”,語(yǔ)氣詞、關(guān)聯(lián)詞、介詞等,這些詞對句子的特征沒(méi)有貢獻,我們可以去掉它們,還有一些專(zhuān)有名詞,對于這個(gè)分析案例,“熱水器”和“中國”經(jīng)常出現在評論中,這是我們已經(jīng)知道的,因為我們最初分析的是關(guān)于熱水器的評論,所以這些都是無(wú)用的信息。我們也可以刪除它們。那么這里必須刪除這些詞。一般通過(guò)建立的自定義詞庫刪除。
  4.6 分詞結果處理后
  那么我們就可以進(jìn)行統計,畫(huà)出詞頻云圖,大致了解那些關(guān)鍵詞的情況,為我們接下來(lái)的分析提供思路素材。操作如下:
  4.7 得到分詞結果后
  我們開(kāi)始建模和分析。模型選擇的方法有很多,但歸納起來(lái),只有兩種,即向量空間模型和概率模型。在這里我們介紹一個(gè)具有代表性的模型
  模型一:TF-IDF方法:
  方法A:對每個(gè)詞的出現頻率進(jìn)行加權后,作為其維度的坐標來(lái)確定一個(gè)特征的空間位置。
  方法B:將所有出現的詞所收錄的屬性作為維度,然后將詞與各個(gè)屬性之間的關(guān)系作為坐標,進(jìn)而定位一篇文檔在向量空間中的位置。
  但實(shí)際上,如果一個(gè)詞條在一類(lèi)文檔中頻繁出現,說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征。此類(lèi)詞條應該被賦予更高的權重,并被選為此類(lèi)文本的特征詞,用于將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。
  
  模型二:.LDA模型
  傳統的判斷兩篇文檔相似度的方法是查看兩篇文檔中出現的詞的數量,比如TF-IDF。幾乎沒(méi)有,但是這兩個(gè)文件很相似。
  例如,有如下兩個(gè)句子:
  “喬布斯走了?!?“蘋(píng)果會(huì )降價(jià)嗎?”
  可以看出,上面兩句話(huà)沒(méi)有共同詞,但是兩句話(huà)很相似。如果按照傳統的方法判斷兩個(gè)句子,肯定是不相似的,所以在判斷文檔的相關(guān)性時(shí),需要考慮文檔。語(yǔ)義學(xué),語(yǔ)義挖掘的武器是主題模型,LDA是比較有效的模型之一。
  LDA模型是一種無(wú)監督的主題生成模型,它假設文檔集中的文檔按照一定的概率共享一組隱藏主題,隱藏主題集由相關(guān)詞組成。這里一共有三個(gè)集合,分別是文檔集合、主題集合和單詞集合。文檔集到主題集服從概率分布,詞集到主題集也服從概率分布。既然我們知道了文檔集和詞集,那么根據貝葉斯定理就可以找到主題集了。具體算法很復雜,這里就不多解釋了。有興趣的同學(xué)可以參考以下資料
   37616
  4.8 項目概要
  1、數據復雜度較高,文本挖掘面臨的非結構化語(yǔ)言,文本非常復雜。
  2.過(guò)程不同,文本挖掘更注重預處理階段
  3、整體流程如下:
  五、應用領(lǐng)域:
  一、輿情分析
  2.搜索引擎優(yōu)化
  3、其他行業(yè)的輔助應用
  6、分析工具:
  ROST CM 6 是目前國內唯一由武漢大學(xué)沉陽(yáng)教授開(kāi)發(fā)編碼,助力人文社會(huì )科學(xué)研究的大型免費社交計算平臺。本軟件可以實(shí)現微博分析、聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類(lèi)分析等一系列文本分析.,擁有超過(guò)7000名用戶(hù),覆蓋國內外100多所大學(xué),包括劍橋大學(xué)、北海道大學(xué)、北京大學(xué)、清華大學(xué)、香港城市大學(xué)、澳門(mén)大學(xué)等多所高校。下載地址:
  RStudio是R語(yǔ)言的集成開(kāi)發(fā)環(huán)境(IDE),其亮點(diǎn)在于出色的界面設計和編程輔助。它可以運行在多種平臺上,包括windows、Mac、Ubuntu和網(wǎng)頁(yè)版。另外,本軟件是免費開(kāi)源的,可以在官網(wǎng)下載:
  7.1 Rostcm6實(shí)現:
  打開(kāi)軟件ROSTCM6
  這是處理前的文本內容。我們會(huì )從爬取的數據中只去除評論字段,然后將其保存為T(mén)XT格式。打開(kāi)它如下。按照流程,我們會(huì )先去除重復和字符、英文、數字等項。
  2、點(diǎn)擊文本處理-一般處理-處理條件選擇“retain only one for all repeated lines”和“delete all English characters contained in all lines”,去掉英文和數字等字符
  這是處理后的文件內容,可以看到數字和英文都??被刪除了。
  3、接下來(lái)進(jìn)行分詞。點(diǎn)擊功能分析——分詞(這里可以選擇自定義詞庫,如搜狗詞庫等)
  分詞處理后的結果。簡(jiǎn)單觀(guān)察一下,分詞之后,出現了很多無(wú)意義的停用詞,比如“in”、“under”、“one”等等
  4. 接下來(lái),我們過(guò)濾專(zhuān)有名詞,停用詞,統計詞頻。點(diǎn)函數分析——詞頻分析(中文)
  在功能分析下,單擊情緒分析以執行情緒分析。
  并且可以實(shí)現云圖的可視化。
  7.2 R的實(shí)現
  這里需要安裝幾個(gè)必要的包,因為幾個(gè)包的安裝比較復雜,這里是鏈接
  可以參考這篇博客安裝包。安裝完成后,就可以開(kāi)始R文本挖掘了。下面代碼的說(shuō)明文字較少,各個(gè)函數的作用初學(xué)者比較陌生。讀者可以先閱讀這些文章文章,了解各個(gè)函數的作用后,使用R進(jìn)行文本挖掘。鏈接如下:
  博客/檔案/29060
  直接
  讀完之后,進(jìn)行下去就會(huì )清楚很多。
  加載工作區庫 (rJava)
  圖書(shū)館(tmcn)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(TM)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  頭(數據1)
  數據
  —————————————————————— #Rwordseg分詞
  data1_cut=segmentCN(data1, nosymbol=T, returnType="tm")
  刪除\n、英文字母、數字 data1_cut=gsub("\n", "", data1_cut)
  data1_cut=gsub("[az]*", "", data1_cut)
  
  data1_cut=gsub("\d+", "", data1_cut)
  write.table(data1_cut, 'data1_cut.txt', row.names = FALSE)
  Data1=readLines('data1_cut.txt')
  Data1=gsub('\"', '', data1_cut)
  長(cháng)度(數據1)
  頭(數據1)
  ———————————————————————————— #Load workspace
  圖書(shū)館(自然語(yǔ)言處理)
  圖書(shū)館(TM)
  圖書(shū)館(大滿(mǎn)貫)
  圖書(shū)館(主題模型)
  R語(yǔ)言環(huán)境下的文本可視化與主題分析 setwd("F:/data and program/chapter15/computer experiment")
  data1=readLines("./data/meidi_jd_pos_cut.txt", encoding = "UTF-8")
  頭(數據1)
  停用詞
  停用詞=停用詞[611:長(cháng)度(停用詞)]
  去掉空格、字母 Data1=gsub("\n", "", Data1)
  Data1=gsub("[a~z]*", "", Data1)
  Data1=gsub("\d+", "", Data1)
  構建語(yǔ)料庫 corpus1 = Corpus(VectorSource(Data1))
  corpus1 = tm_map(corpus1, FUN=removeWords, stopwordsCN(stopwords))
  創(chuàng )建文檔術(shù)語(yǔ)矩陣 sample.dtm1
  colnames(as.matrix(sample.dtm1))
  tm::findFreqTerms(sample.dtm1, 2)
  unlist(tm::findAssocs(sample.dtm1, '安裝', 0.2))
  ——————————————————————–
  # 主題模型分析
  Gibbs = LDA(sample.dtm1, k = 3, method = "Gibbs", control = list(seed = 2015, burnin = 1000, thin = 100, iter = 1000))
  最有可能的主題文檔 Topic1
  表(主題1)
  每個(gè)主題的前 10 個(gè) TermTerms1
  條款1
  —————————————————————————— #使用vec方法分詞
  圖書(shū)館(tmcn)
  圖書(shū)館(TM)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(文字云)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  d.vec1
  wc1=getWordFreq(unlist(d.vec1), onlyCN = TRUE)
  wordcloud(wc1$Word,wc1$Freq,col=rainbow(長(cháng)度(wc1$Freq)),min.freq = 1000)
  #
  八、結果展示及說(shuō)明
  這是分析的部分結果??梢钥吹?,大部分客戶(hù)的評論都帶有正面的情緒,說(shuō)明客戶(hù)對美的熱水器的滿(mǎn)意度是比較高的。哪些方面滿(mǎn)意,哪些方面不滿(mǎn)意,哪些方面可以保持,哪些方面需要改進(jìn),這就需要我們另一種結果展示了。
  點(diǎn)擊可視化工具,得到詞頻云圖。根據云圖,我們可以看到客戶(hù)最關(guān)心的點(diǎn),也就是評論中提到較多的點(diǎn)。從圖中可以看到“安裝”、“師傅”、“配件”、“暖氣”、“快”、“便宜”、“速度”、“品牌”、“京東”、“送貨”、“服務(wù)” 、“價(jià)格”、“供暖”等關(guān)鍵詞出現頻率很高,我們可以大致猜到26
  另外,值得注意的是,云圖中還有一些“好”、“大”、“滿(mǎn)意”等字眼。我們還不知道這些詞背后的語(yǔ)義,所以我們需要找到相應的注釋。,提取這些詞對應的主題點(diǎn),然后對分析結果進(jìn)行優(yōu)化
  文|@白加黑治療病
  來(lái)源 | PPV類(lèi)
  原來(lái)的:
  點(diǎn)擊閱讀原文查看CDA數據分析師交流群規范及收益
  解讀:文章圖片提取工具(圖片提取文本的工具有哪些)
  目錄:
  1. 一個(gè)圖片提取文字的工具
  批量提取網(wǎng)站圖片。使用圖片提取工具從我們的網(wǎng)頁(yè)中提取圖片。圖片批量提取工具具有圖片過(guò)濾功能。通過(guò)設置圖片大小范圍,可以提取目標網(wǎng)站抓取的所有圖片,而采集文章采集,提取文章中的插圖。
  2.從圖片中提取文章
  批量提取網(wǎng)站圖片工具,可以通過(guò)批量鏈接下載圖片,導入我們的圖片鏈接批量下載保存到本地,其次可以使用批量關(guān)鍵詞采集,通過(guò)圖片采集、文章采集、文章導出插圖生成本地圖片素材庫,最后即可提取下載全站圖片,輸入目標鏈接地址即可,可以批量導出整站圖片。
  3. 文章 內容提取工具
  4.圖片提取文本文件
  
  在我們的 網(wǎng)站 上重做視覺(jué)內容,包括信息圖表、視頻、圖像和視覺(jué)元素 我們甚至可以決定更改 網(wǎng)站 的設計作為內容更新的一部分,只要我們認為它是好的當決定(例如,我們的 網(wǎng)站 設計看起來(lái)過(guò)時(shí)了)執行 文章 圖像優(yōu)化時(shí),我們需要做的第一件事實(shí)際上是分析所有內容并選擇要刷新的部分。
  5.文檔圖像提取
  為了更新和重新制作我們的內容,我們可以從最好的論文中聘請專(zhuān)業(yè)的作家并撰寫(xiě)網(wǎng)站,或者我們可以自己完成所有工作但是,在開(kāi)始選擇內容時(shí),我們應該自己完成
  6、圖文提取工具有哪些?
  為了幫助我們選擇最好的內容來(lái)刷新,我們可以使用我們在 文章 圖像優(yōu)化過(guò)程中使用的優(yōu)先級排序的基本原則: 檢查 SEO 排名 - 檢查不同內容的搜索引擎排名 它們是否在第一頁(yè)?如果他們曾經(jīng)在第一頁(yè)上但掉到第二頁(yè)或第三頁(yè),請關(guān)注這些部分。
  7.圖片提取文件軟件
  我們可能只需要進(jìn)行一些更改即可使這些部分再次排在第一頁(yè)上
  
  8.圖片文字提取
  考慮我們的品牌——我們最近是否改變了我們的品牌?我們的聽(tīng)眾與以前的聽(tīng)眾有什么不同嗎?如果是這種情況,請為我們的老觀(guān)眾找到內容,然后找到一種方法來(lái)更新或重新制作這些內容以與我們當前的觀(guān)眾相關(guān) 查看指標 - 我們可能正在跟蹤很多指標,所以只需檢查它們,我們就可以決定需要刷新的內容。
  9.從文檔中提取圖片
  瀏覽量、點(diǎn)贊數、評論數、分享數等都是需要更改哪些部分的良好指標。比如標題稍微改一下,就可以提高點(diǎn)擊率
  10、有什么工具可以從圖片中提取文字
  讓自己成為領(lǐng)導者——如果我們想在自己周?chē)⒛撤N品牌形象,讓我們被視為我們領(lǐng)域的權威和思想領(lǐng)袖,那么我們絕對應該用新發(fā)現更新舊內容。自從我們發(fā)布這些文章文章 關(guān)于自以來(lái)新發(fā)現或開(kāi)發(fā)的主題。
  然后,向這些添加新信息
  圖片

解讀:學(xué)術(shù)觀(guān)點(diǎn)| 拿“雙十一”開(kāi)涮的文本挖掘:電商評論情感分析

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 143 次瀏覽 ? 2022-12-04 20:56 ? 來(lái)自相關(guān)話(huà)題

  解讀:學(xué)術(shù)觀(guān)點(diǎn)| 拿“雙十一”開(kāi)涮的文本挖掘:電商評論情感分析
  隨著(zhù)網(wǎng)絡(luò )購物的普及,各大電子商務(wù)公司之間的競爭也非常激烈。為了提高客戶(hù)服務(wù)質(zhì)量,除了打價(jià)格戰,了解客戶(hù)的需求,傾聽(tīng)客戶(hù)的聲音也越來(lái)越重要。最重要的方法是對文本評論進(jìn)行數據挖掘。今天通過(guò)學(xué)習《R語(yǔ)言數據挖掘實(shí)戰》案例:電商點(diǎn)評與數據分析,從目標到操作內容與大家分享。
  本文結構如下
  1.要達到的目標
  通過(guò)對客戶(hù)評論的分析,進(jìn)行一系列的方法來(lái)獲取客戶(hù)對某產(chǎn)品的態(tài)度和情感傾向,以及客戶(hù)關(guān)注產(chǎn)品的哪些屬性,產(chǎn)品的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及產(chǎn)品的賣(mài)點(diǎn)是什么,等等...
  2.文本挖掘的主要思想。
  由于語(yǔ)言數據的特殊性,我們主要提取句子中的關(guān)鍵詞,提取評論的關(guān)鍵詞,然后根據關(guān)鍵詞的權重,這里我們使用空間向量模型將每個(gè)特征關(guān)鍵詞轉化為數字向量,然后計算其距離,然后聚類(lèi)得到三類(lèi)情緒,分別是積極的、消極的和中性的。用 來(lái)代表顧客對產(chǎn)品的情感傾向。
  3、文本挖掘的主要流程:
  請輸入標題 4.案例流程簡(jiǎn)介及原理介紹及軟件操作
  4.1 數據爬取
  首先下載優(yōu)采云軟件。鏈接是 。下載安裝后,注冊賬號并登錄,界面如上:
  點(diǎn)擊快速開(kāi)始-新建任務(wù),輸入任務(wù)名稱(chēng),點(diǎn)擊下一步,打開(kāi)京東熱水器頁(yè)面
  將頁(yè)面地址復制到優(yōu)采云,如下圖:
  觀(guān)察網(wǎng)頁(yè)類(lèi)型,由于收錄美的熱水器的頁(yè)面不止一個(gè),下面有一個(gè)翻頁(yè)按鈕,所以我們需要創(chuàng )建一個(gè)點(diǎn)擊下一頁(yè)的循環(huán),然后在京東上點(diǎn)擊下一頁(yè)優(yōu)采云中的頁(yè)面,點(diǎn)擊彈出的對話(huà)框列表中,點(diǎn)擊循環(huán),點(diǎn)擊下一頁(yè),如圖:
  然后點(diǎn)擊一個(gè)產(chǎn)品,在彈出的頁(yè)面點(diǎn)擊Add an element list處理祖先元素--點(diǎn)擊Add to list--繼續編輯列表,接下來(lái)我們點(diǎn)擊另一個(gè)產(chǎn)品的名稱(chēng),點(diǎn)擊Add to在彈出的頁(yè)面列表上,讓軟件自動(dòng)識別頁(yè)面上的其他產(chǎn)品,然后點(diǎn)擊創(chuàng )建列表完成,再點(diǎn)擊循環(huán)創(chuàng )建頁(yè)面中的產(chǎn)品列表,循環(huán)抓取。
  然后軟件自動(dòng)跳轉到第一個(gè)產(chǎn)品的特定頁(yè)面。我們點(diǎn)擊評論,在彈出的頁(yè)面中點(diǎn)擊這個(gè)元素,看到有很多頁(yè)的評論。這時(shí)候我們就需要創(chuàng )建一個(gè)循環(huán)列表。同上,點(diǎn)擊下一頁(yè)—循環(huán)點(diǎn)擊。然后點(diǎn)擊我們需要抓取的評論文字,點(diǎn)擊彈出頁(yè)面創(chuàng )建元素列表處理一組元素——點(diǎn)擊添加到列表——繼續編輯列表,然后點(diǎn)擊第二條評論點(diǎn)擊在彈出的頁(yè)面上Add to the list—cycle,然后點(diǎn)擊評論的文字,選擇該元素的文字。好了,軟件會(huì )循環(huán)抓取這個(gè)頁(yè)面的文字,如圖:
  全部點(diǎn)擊完成后,我們查看設計器,發(fā)現有4個(gè)循環(huán),第一個(gè)是翻頁(yè),第二個(gè)是循環(huán)點(diǎn)擊每個(gè)商品,第三個(gè)是翻評論頁(yè),然后第四是抓取循環(huán)評論文本,所以我們需要把第四個(gè)循環(huán)嵌入到第三個(gè)循環(huán)中,然后整體嵌入到第二個(gè)循環(huán)中,然后再整體嵌入到第一個(gè)循環(huán)中,也就是說(shuō),先點(diǎn)擊下一頁(yè),然后點(diǎn)擊產(chǎn)品,再點(diǎn)擊下一個(gè)功能,然后抓取評論,這一套action loops。那么我們只需要在設計器中將第4個(gè)循環(huán)拖到第3個(gè)循環(huán)中,這樣拖下去即可。就是這樣:拖動(dòng)結果如下: ,然后點(diǎn)擊Next—Next—點(diǎn)擊采集就OK了。
  4.2 文本去重
  本例以京東平臺下美的熱水器的顧客評論為分析對象。按照流程,我們先用優(yōu)采云爬取了京東網(wǎng)站上客戶(hù)對美的熱水器的評論,部分數據如下!
  通過(guò)簡(jiǎn)單的觀(guān)察,我們可以發(fā)現評論的一些特征,
  因此,我們需要對這些數據進(jìn)行數據預處理,首先進(jìn)行數據清洗,而編輯距離去重實(shí)際上是一種計算字符串之間相似度的方法。給定兩個(gè)字符串,將字符串A變換為字符串B所需的刪除、插入、替換等操作的次數稱(chēng)為從A到B的編輯路徑。最短的編輯路徑稱(chēng)為字符串A和B的編輯距離。對于例如,“還沒(méi)用過(guò),不知道怎么樣,但是安裝材料費有點(diǎn)高,380”和“還沒(méi)用過(guò),不知道質(zhì)量如何,但是”的編輯距離安裝材料費確實(shí)貴,380寸是9。
  首先,我們需要對重復的評論進(jìn)行重復,也就是刪除重復的評論。
  重復詞出現在另一個(gè)句子中,會(huì )影響關(guān)鍵詞在整個(gè)評論中出現的頻率過(guò)高,影響分析結果。我們想壓縮它。
  還有一些無(wú)意義的評論,比如自動(dòng)點(diǎn)贊的評論,我們需要識別并刪除。
  4.3 壓縮語(yǔ)句規則:
  1.如果讀的和上面的list一樣,但是下面是空的,就放下。2.如果讀取的和上面的表一樣,但是有底,則判斷重復,清空底表。3.如果read和top list相同,bottom是,則判斷不是Heavy,上下清零 4.如果read和上面list不同,字符>=2,判斷為重復,上下清零 5.如果讀的和上面的表不一樣,底是空的,判斷不重,繼續放 6.如果讀的和上面的表不一樣,有底,判斷是不重,放下 7. 看完后,判斷上下,重則壓緊。
  4.4 然后我們進(jìn)行中文分詞。分詞的一般原則是:
  中文分詞是指將一系列漢字分割成獨立的詞。分詞結果的準確性對文本挖掘的效果非常重要。目前分詞算法主要有四種:字符串匹配算法、基于理解的算法、基于統計的方法和基于機器學(xué)習的算法。
  1、字符串匹配算法是將待分詞的文本字符串與字典中的詞進(jìn)行精確匹配。如果字典中的字符串出現在當前待分詞的文本中,則匹配成功。常用的匹配算法主要有正向最大匹配、反向最大匹配、雙向最大匹配和最小分割。
  2、基于理解的算法通過(guò)模擬人們在現實(shí)中對一句話(huà)的理解效果進(jìn)行分詞。這種方法需要分析句法結構,同時(shí)需要用到大量的語(yǔ)言知識和信息,比較復雜。
  3、基于統計的方法就是利用統計的思想進(jìn)行分詞。單詞由單個(gè)字符組成。在文本中,相鄰字符同時(shí)出現的次數越多,它們組成單詞的概率就越大;因此,可以用字符間的共現概率來(lái)反映詞的概率,統計相鄰字符的共現情況。出現次數并計算它們的共現概率。當共現概率高于設定的閾值時(shí),可以認為它們可能構成該詞
  4. 最后是基于機器學(xué)習的方法:利用機器學(xué)習進(jìn)行模型構建。構建大量的分割文本作為訓練數據,使用機器學(xué)習算法進(jìn)行模型訓練,利用模型對未知文本進(jìn)行分割。
  4.5 得到分詞結果后
  我們知道這些句子中經(jīng)常會(huì )有一些“了”、“啊”、“但是”,語(yǔ)氣詞、關(guān)聯(lián)詞、介詞等,這些詞對句子的特征沒(méi)有貢獻,我們可以去掉它們,還有一些專(zhuān)有名詞,對于這個(gè)分析案例,“熱水器”和“中國”經(jīng)常出現在評論中,這是我們已經(jīng)知道的,因為我們最初分析的是關(guān)于熱水器的評論,所以這些都是無(wú)用的信息。我們也可以刪除它們。那么這里必須刪除這些詞。一般通過(guò)建立的自定義詞庫刪除。
  4.6 分詞結果處理后
  那么我們就可以進(jìn)行統計,畫(huà)出詞頻云圖,大致了解那些關(guān)鍵詞的情況,為我們接下來(lái)的分析提供思路素材。操作如下:
  4.7 得到分詞結果后
  我們開(kāi)始建模和分析。模型選擇的方法有很多,但歸納起來(lái),只有兩種,即向量空間模型和概率模型。在這里我們介紹一個(gè)具有代表性的模型
  模型一:TF-IDF方法:
  方法A:對每個(gè)詞的出現頻率進(jìn)行加權后,作為其維度的坐標來(lái)確定一個(gè)特征的空間位置。
  方法B:將所有出現的詞所收錄的屬性作為維度,然后將詞與各個(gè)屬性之間的關(guān)系作為坐標,進(jìn)而定位一篇文檔在向量空間中的位置。
  但實(shí)際上,如果一個(gè)詞條在一類(lèi)文檔中頻繁出現,說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征。此類(lèi)詞條應該被賦予更高的權重,并被選為此類(lèi)文本的特征詞,用于將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。
  模型二:.LDA模型
  
  傳統的判斷兩篇文檔相似度的方法是查看兩篇文檔中出現的詞的數量,比如TF-IDF。幾乎沒(méi)有,但是這兩個(gè)文件很相似。
  例如,有如下兩個(gè)句子:
  “喬布斯走了?!?“蘋(píng)果會(huì )降價(jià)嗎?”
  可以看出,上面兩句話(huà)沒(méi)有共同詞,但是兩句話(huà)很相似。如果按照傳統的方法判斷兩個(gè)句子,肯定是不相似的,所以在判斷文檔的相關(guān)性時(shí),需要考慮文檔。語(yǔ)義學(xué),語(yǔ)義挖掘的武器是主題模型,LDA是比較有效的模型之一。
  LDA模型是一種無(wú)監督的主題生成模型,它假設文檔集中的文檔按照一定的概率共享一組隱藏主題,隱藏主題集由相關(guān)詞組成。這里一共有三個(gè)集合,分別是文檔集合、主題集合和單詞集合。文檔集到主題集服從概率分布,詞集到主題集也服從概率分布。既然我們知道了文檔集和詞集,那么根據貝葉斯定理就可以找到主題集了。具體算法很復雜,這里就不多解釋了。有興趣的同學(xué)可以參考以下資料
   37616
  4.8 項目概要
  1、數據復雜度較高,文本挖掘面臨的非結構化語(yǔ)言,文本非常復雜。
  2.過(guò)程不同,文本挖掘更注重預處理階段
  3、整體流程如下:
  五、應用領(lǐng)域:
  一、輿情分析
  2.搜索引擎優(yōu)化
  3、其他行業(yè)的輔助應用
  6、分析工具:
  ROST CM 6 是目前國內唯一由武漢大學(xué)沉陽(yáng)教授開(kāi)發(fā)編碼,助力人文社會(huì )科學(xué)研究的大型免費社交計算平臺。本軟件可以實(shí)現微博分析、聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類(lèi)分析等一系列文本分析.,擁有超過(guò)7000名用戶(hù),覆蓋國內外100多所大學(xué),包括劍橋大學(xué)、北海道大學(xué)、北京大學(xué)、清華大學(xué)、香港城市大學(xué)、澳門(mén)大學(xué)等多所高校。下載地址:
  RStudio是R語(yǔ)言的集成開(kāi)發(fā)環(huán)境(IDE),其亮點(diǎn)在于出色的界面設計和編程輔助。它可以運行在多種平臺上,包括windows、Mac、Ubuntu和網(wǎng)頁(yè)版。另外,本軟件是免費開(kāi)源的,可以在官網(wǎng)下載:
  7.1 Rostcm6實(shí)現:
  打開(kāi)軟件ROSTCM6
  這是處理前的文本內容。我們會(huì )從爬取的數據中只去除評論字段,然后將其保存為T(mén)XT格式。打開(kāi)它如下。按照流程,我們會(huì )先去除重復和字符、英文、數字等項。
  2、點(diǎn)擊文本處理-一般處理-處理條件選擇“retain only one for all repeated lines”和“delete all English characters contained in all lines”,去掉英文和數字等字符
  這是處理后的文件內容,可以看到數字和英文都??被刪除了。
  3、接下來(lái)進(jìn)行分詞。點(diǎn)擊功能分析——分詞(這里可以選擇自定義詞庫,如搜狗詞庫等)
  分詞處理后的結果。簡(jiǎn)單觀(guān)察一下,分詞之后,出現了很多無(wú)意義的停用詞,比如“in”、“under”、“one”等等
  4. 接下來(lái),我們過(guò)濾專(zhuān)有名詞,停用詞,統計詞頻。點(diǎn)函數分析——詞頻分析(中文)
  在功能分析下,單擊情緒分析以執行情緒分析。
  并且可以實(shí)現云圖的可視化。
  7.2 R的實(shí)現
  這里需要安裝幾個(gè)必要的包,因為幾個(gè)包的安裝比較復雜,這里是鏈接
  可以參考這篇博客安裝包。安裝完成后,就可以開(kāi)始R文本挖掘了。下面代碼的說(shuō)明文字較少,各個(gè)函數的作用初學(xué)者比較陌生。讀者可以先閱讀這些文章文章,了解各個(gè)函數的作用后,使用R進(jìn)行文本挖掘。鏈接如下:
  博客/檔案/29060
  直接
  讀完之后,進(jìn)行下去就會(huì )清楚很多。
  加載工作區庫 (rJava)
  圖書(shū)館(tmcn)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(TM)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  頭(數據1)
  數據
  —————————————————————— #Rwordseg分詞
  data1_cut=segmentCN(data1, nosymbol=T, returnType="tm")
  刪除\n、英文字母、數字 data1_cut=gsub("\n", "", data1_cut)
  data1_cut=gsub("[az]*", "", data1_cut)
  data1_cut=gsub("\d+", "", data1_cut)
  write.table(data1_cut, 'data1_cut.txt', row.names = FALSE)
  
  Data1=readLines('data1_cut.txt')
  Data1=gsub('\"', '', data1_cut)
  長(cháng)度(數據1)
  頭(數據1)
  ———————————————————————————— #Load workspace
  圖書(shū)館(自然語(yǔ)言處理)
  圖書(shū)館(TM)
  圖書(shū)館(大滿(mǎn)貫)
  圖書(shū)館(主題模型)
  R語(yǔ)言環(huán)境下的文本可視化與主題分析 setwd("F:/data and program/chapter15/computer experiment")
  data1=readLines("./data/meidi_jd_pos_cut.txt", encoding = "UTF-8")
  頭(數據1)
  停用詞
  停用詞=停用詞[611:長(cháng)度(停用詞)]
  去掉空格、字母 Data1=gsub("\n", "", Data1)
  Data1=gsub("[a~z]*", "", Data1)
  Data1=gsub("\d+", "", Data1)
  構建語(yǔ)料庫 corpus1 = Corpus(VectorSource(Data1))
  corpus1 = tm_map(corpus1, FUN=removeWords, stopwordsCN(stopwords))
  創(chuàng )建文檔術(shù)語(yǔ)矩陣 sample.dtm1
  colnames(as.matrix(sample.dtm1))
  tm::findFreqTerms(sample.dtm1, 2)
  unlist(tm::findAssocs(sample.dtm1, '安裝', 0.2))
  ——————————————————————–
  # 主題模型分析
  Gibbs = LDA(sample.dtm1, k = 3, method = "Gibbs", control = list(seed = 2015, burnin = 1000, thin = 100, iter = 1000))
  最有可能的主題文檔 Topic1
  表(主題1)
  每個(gè)主題的前 10 個(gè) TermTerms1
  條款1
  —————————————————————————— #使用vec方法分詞
  圖書(shū)館(tmcn)
  圖書(shū)館(TM)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(文字云)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  d.vec1
  wc1=getWordFreq(unlist(d.vec1), onlyCN = TRUE)
  wordcloud(wc1$Word,wc1$Freq,col=rainbow(長(cháng)度(wc1$Freq)),min.freq = 1000)
  #
  八、結果展示及說(shuō)明
  這是分析的部分結果??梢钥吹?,大部分客戶(hù)的評論都帶有正面的情緒,說(shuō)明客戶(hù)對美的熱水器的滿(mǎn)意度是比較高的。哪些方面滿(mǎn)意,哪些方面不滿(mǎn)意,哪些方面可以保持,哪些方面需要改進(jìn),這就需要我們另一種結果展示了。
  點(diǎn)擊可視化工具,得到詞頻云圖。根據云圖,我們可以看到客戶(hù)最關(guān)心的點(diǎn),也就是評論中提到較多的點(diǎn)。從圖中可以看到“安裝”、“師傅”、“配件”、“暖氣”、“快”、“便宜”、“速度”、“品牌”、“京東”、“送貨”、“服務(wù)” 、“價(jià)格”、“供暖”等關(guān)鍵詞出現頻率很高,我們可以大致猜到26
  另外,值得注意的是,云圖中還有一些“好”、“大”、“滿(mǎn)意”等字眼。我們還不知道這些詞背后的語(yǔ)義,所以我們需要找到相應的注釋。,提取這些詞對應的主題點(diǎn),然后對分析結果進(jìn)行優(yōu)化
  文|@白加黑治療病
  來(lái)源 | PPV類(lèi)
  原來(lái)的:
  1個(gè)
  出版與投稿
  2個(gè)
  編輯部招募新讀者
  現在我們的專(zhuān)欄“讀書(shū)筆記”編輯部正在招募青年教師和研究生加入我們的讀書(shū)寫(xiě)作活動(dòng)。入選閱讀對象包括SSCI、CSSCI優(yōu)秀論文和國內外學(xué)術(shù)專(zhuān)著(zhù)。每個(gè)成員都參與編輯小組討論、文章寫(xiě)作、校對和編輯(其中許多是自愿的)。我們有一個(gè)8人的穩定團隊,現在我們正在繼續招募語(yǔ)言學(xué)、翻譯學(xué)和文學(xué)領(lǐng)域的新人。由于讀寫(xiě)任務(wù)壓力大,圍觀(guān)者很快被淘汰。誠意歡迎有學(xué)術(shù)奉獻精神的新人加盟。加入方式:微信添加公眾號負責人:wonderdesire(請添加真實(shí)姓名,或實(shí)名入群:姓名-單位-研究方向)。對于其他業(yè)務(wù)聯(lián)系人,請發(fā)送電子郵件至:
  解讀:文章圖片提取工具(圖片提取文本的工具有哪些)
  目錄:
  1. 一個(gè)圖片提取文字的工具
  批量提取網(wǎng)站圖片。使用圖片提取工具從我們的網(wǎng)頁(yè)中提取圖片。圖片批量提取工具具有圖片過(guò)濾功能。通過(guò)設置圖片大小范圍,可以提取目標網(wǎng)站抓取的所有圖片,而采集為文章采集,提取文章中的插圖。
  2.從圖片中提取文章
  批量提取網(wǎng)站圖片工具,可以通過(guò)批量鏈接下載圖片,導入我們的圖片鏈接批量下載保存到本地,其次可以使用批量關(guān)鍵詞采集,通過(guò)圖片采集、文章采集、文章導出插圖生成本地圖片素材庫,最后即可提取下載全站圖片,輸入目標鏈接地址即可,可以批量導出整站圖片。
  3. 文章 內容提取工具
  4.圖片提取文本文件
  
  在我們的 網(wǎng)站 上重做視覺(jué)內容,包括信息圖表、視頻、圖像和視覺(jué)元素 我們甚至可以決定更改 網(wǎng)站 的設計作為內容更新的一部分,只要我們認為它是好的當決定(例如,我們的 網(wǎng)站 設計看起來(lái)過(guò)時(shí)了)執行 文章 圖像優(yōu)化時(shí),我們需要做的第一件事實(shí)際上是分析所有內容并選擇要刷新的部分。
  5.文檔圖像提取
  為了更新和重新制作我們的內容,我們可以從最好的論文中聘請專(zhuān)業(yè)的作家并撰寫(xiě)網(wǎng)站,或者我們可以自己完成所有工作但是,在開(kāi)始選擇內容時(shí),我們應該自己完成
  6、圖文提取工具有哪些?
  為了幫助我們選擇最好的內容來(lái)刷新,我們可以使用我們在 文章 圖像優(yōu)化過(guò)程中使用的優(yōu)先級排序的基本原則: 檢查 SEO 排名 - 檢查不同內容的搜索引擎排名 它們是否在第一頁(yè)?如果他們曾經(jīng)在第一頁(yè)上但掉到第二頁(yè)或第三頁(yè),請關(guān)注這些部分。
  7.圖片提取文件軟件
  我們可能只需要進(jìn)行一些更改即可使這些部分再次排在第一頁(yè)上
  
  8.圖片文字提取
  考慮我們的品牌——我們最近是否改變了我們的品牌?我們的聽(tīng)眾與以前的聽(tīng)眾有什么不同嗎?如果是這種情況,請為我們的老觀(guān)眾找到內容,然后找到一種方法來(lái)更新或重新制作這些內容以與我們當前的觀(guān)眾相關(guān) 查看指標 - 我們可能正在跟蹤很多指標,所以只需檢查它們,我們就可以決定需要刷新的內容。
  9.從文檔中提取圖片
  瀏覽量、點(diǎn)贊數、評論數、分享數等都是需要更改哪些部分的良好指標。比如標題稍微改一下,就可以提高點(diǎn)擊率
  10、有什么工具可以從圖片中提取文字
  讓自己成為領(lǐng)導者——如果我們想在自己周?chē)⒛撤N品牌形象,讓我們被視為我們領(lǐng)域的權威和思想領(lǐng)袖,那么我們絕對應該用新發(fā)現更新舊內容。自從我們發(fā)布這些文章文章 關(guān)于自以來(lái)新發(fā)現或開(kāi)發(fā)的主題。
  然后,向這些添加新信息
  圖片 查看全部

  解讀:學(xué)術(shù)觀(guān)點(diǎn)| 拿“雙十一”開(kāi)涮的文本挖掘:電商評論情感分析
  隨著(zhù)網(wǎng)絡(luò )購物的普及,各大電子商務(wù)公司之間的競爭也非常激烈。為了提高客戶(hù)服務(wù)質(zhì)量,除了打價(jià)格戰,了解客戶(hù)的需求,傾聽(tīng)客戶(hù)的聲音也越來(lái)越重要。最重要的方法是對文本評論進(jìn)行數據挖掘。今天通過(guò)學(xué)習《R語(yǔ)言數據挖掘實(shí)戰》案例:電商點(diǎn)評與數據分析,從目標到操作內容與大家分享。
  本文結構如下
  1.要達到的目標
  通過(guò)對客戶(hù)評論的分析,進(jìn)行一系列的方法來(lái)獲取客戶(hù)對某產(chǎn)品的態(tài)度和情感傾向,以及客戶(hù)關(guān)注產(chǎn)品的哪些屬性,產(chǎn)品的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及產(chǎn)品的賣(mài)點(diǎn)是什么,等等...
  2.文本挖掘的主要思想。
  由于語(yǔ)言數據的特殊性,我們主要提取句子中的關(guān)鍵詞,提取評論的關(guān)鍵詞,然后根據關(guān)鍵詞的權重,這里我們使用空間向量模型將每個(gè)特征關(guān)鍵詞轉化為數字向量,然后計算其距離,然后聚類(lèi)得到三類(lèi)情緒,分別是積極的、消極的和中性的。用 來(lái)代表顧客對產(chǎn)品的情感傾向。
  3、文本挖掘的主要流程:
  請輸入標題 4.案例流程簡(jiǎn)介及原理介紹及軟件操作
  4.1 數據爬取
  首先下載優(yōu)采云軟件。鏈接是 。下載安裝后,注冊賬號并登錄,界面如上:
  點(diǎn)擊快速開(kāi)始-新建任務(wù),輸入任務(wù)名稱(chēng),點(diǎn)擊下一步,打開(kāi)京東熱水器頁(yè)面
  將頁(yè)面地址復制到優(yōu)采云,如下圖:
  觀(guān)察網(wǎng)頁(yè)類(lèi)型,由于收錄美的熱水器的頁(yè)面不止一個(gè),下面有一個(gè)翻頁(yè)按鈕,所以我們需要創(chuàng )建一個(gè)點(diǎn)擊下一頁(yè)的循環(huán),然后在京東上點(diǎn)擊下一頁(yè)優(yōu)采云中的頁(yè)面,點(diǎn)擊彈出的對話(huà)框列表中,點(diǎn)擊循環(huán),點(diǎn)擊下一頁(yè),如圖:
  然后點(diǎn)擊一個(gè)產(chǎn)品,在彈出的頁(yè)面點(diǎn)擊Add an element list處理祖先元素--點(diǎn)擊Add to list--繼續編輯列表,接下來(lái)我們點(diǎn)擊另一個(gè)產(chǎn)品的名稱(chēng),點(diǎn)擊Add to在彈出的頁(yè)面列表上,讓軟件自動(dòng)識別頁(yè)面上的其他產(chǎn)品,然后點(diǎn)擊創(chuàng )建列表完成,再點(diǎn)擊循環(huán)創(chuàng )建頁(yè)面中的產(chǎn)品列表,循環(huán)抓取。
  然后軟件自動(dòng)跳轉到第一個(gè)產(chǎn)品的特定頁(yè)面。我們點(diǎn)擊評論,在彈出的頁(yè)面中點(diǎn)擊這個(gè)元素,看到有很多頁(yè)的評論。這時(shí)候我們就需要創(chuàng )建一個(gè)循環(huán)列表。同上,點(diǎn)擊下一頁(yè)—循環(huán)點(diǎn)擊。然后點(diǎn)擊我們需要抓取的評論文字,點(diǎn)擊彈出頁(yè)面創(chuàng )建元素列表處理一組元素——點(diǎn)擊添加到列表——繼續編輯列表,然后點(diǎn)擊第二條評論點(diǎn)擊在彈出的頁(yè)面上Add to the list—cycle,然后點(diǎn)擊評論的文字,選擇該元素的文字。好了,軟件會(huì )循環(huán)抓取這個(gè)頁(yè)面的文字,如圖:
  全部點(diǎn)擊完成后,我們查看設計器,發(fā)現有4個(gè)循環(huán),第一個(gè)是翻頁(yè),第二個(gè)是循環(huán)點(diǎn)擊每個(gè)商品,第三個(gè)是翻評論頁(yè),然后第四是抓取循環(huán)評論文本,所以我們需要把第四個(gè)循環(huán)嵌入到第三個(gè)循環(huán)中,然后整體嵌入到第二個(gè)循環(huán)中,然后再整體嵌入到第一個(gè)循環(huán)中,也就是說(shuō),先點(diǎn)擊下一頁(yè),然后點(diǎn)擊產(chǎn)品,再點(diǎn)擊下一個(gè)功能,然后抓取評論,這一套action loops。那么我們只需要在設計器中將第4個(gè)循環(huán)拖到第3個(gè)循環(huán)中,這樣拖下去即可。就是這樣:拖動(dòng)結果如下: ,然后點(diǎn)擊Next—Next—點(diǎn)擊采集就OK了。
  4.2 文本去重
  本例以京東平臺下美的熱水器的顧客評論為分析對象。按照流程,我們先用優(yōu)采云爬取了京東網(wǎng)站上客戶(hù)對美的熱水器的評論,部分數據如下!
  通過(guò)簡(jiǎn)單的觀(guān)察,我們可以發(fā)現評論的一些特征,
  因此,我們需要對這些數據進(jìn)行數據預處理,首先進(jìn)行數據清洗,而編輯距離去重實(shí)際上是一種計算字符串之間相似度的方法。給定兩個(gè)字符串,將字符串A變換為字符串B所需的刪除、插入、替換等操作的次數稱(chēng)為從A到B的編輯路徑。最短的編輯路徑稱(chēng)為字符串A和B的編輯距離。對于例如,“還沒(méi)用過(guò),不知道怎么樣,但是安裝材料費有點(diǎn)高,380”和“還沒(méi)用過(guò),不知道質(zhì)量如何,但是”的編輯距離安裝材料費確實(shí)貴,380寸是9。
  首先,我們需要對重復的評論進(jìn)行重復,也就是刪除重復的評論。
  重復詞出現在另一個(gè)句子中,會(huì )影響關(guān)鍵詞在整個(gè)評論中出現的頻率過(guò)高,影響分析結果。我們想壓縮它。
  還有一些無(wú)意義的評論,比如自動(dòng)點(diǎn)贊的評論,我們需要識別并刪除。
  4.3 壓縮語(yǔ)句規則:
  1.如果讀的和上面的list一樣,但是下面是空的,就放下。2.如果讀取的和上面的表一樣,但是有底,則判斷重復,清空底表。3.如果read和top list相同,bottom是,則判斷不是Heavy,上下清零 4.如果read和上面list不同,字符>=2,判斷為重復,上下清零 5.如果讀的和上面的表不一樣,底是空的,判斷不重,繼續放 6.如果讀的和上面的表不一樣,有底,判斷是不重,放下 7. 看完后,判斷上下,重則壓緊。
  4.4 然后我們進(jìn)行中文分詞。分詞的一般原則是:
  中文分詞是指將一系列漢字分割成獨立的詞。分詞結果的準確性對文本挖掘的效果非常重要。目前分詞算法主要有四種:字符串匹配算法、基于理解的算法、基于統計的方法和基于機器學(xué)習的算法。
  1、字符串匹配算法是將待分詞的文本字符串與字典中的詞進(jìn)行精確匹配。如果字典中的字符串出現在當前待分詞的文本中,則匹配成功。常用的匹配算法主要有正向最大匹配、反向最大匹配、雙向最大匹配和最小分割。
  2、基于理解的算法通過(guò)模擬人們在現實(shí)中對一句話(huà)的理解效果進(jìn)行分詞。這種方法需要分析句法結構,同時(shí)需要用到大量的語(yǔ)言知識和信息,比較復雜。
  3、基于統計的方法就是利用統計的思想進(jìn)行分詞。單詞由單個(gè)字符組成。在文本中,相鄰字符同時(shí)出現的次數越多,它們組成單詞的概率就越大;因此,可以用字符間的共現概率來(lái)反映詞的概率,統計相鄰字符的共現情況。出現次數并計算它們的共現概率。當共現概率高于設定的閾值時(shí),可以認為它們可能構成該詞
  4. 最后是基于機器學(xué)習的方法:利用機器學(xué)習進(jìn)行模型構建。構建大量的分割文本作為訓練數據,使用機器學(xué)習算法進(jìn)行模型訓練,利用模型對未知文本進(jìn)行分割。
  4.5 得到分詞結果后
  我們知道這些句子中經(jīng)常會(huì )有一些“了”、“啊”、“但是”,語(yǔ)氣詞、關(guān)聯(lián)詞、介詞等,這些詞對句子的特征沒(méi)有貢獻,我們可以去掉它們,還有一些專(zhuān)有名詞,對于這個(gè)分析案例,“熱水器”和“中國”經(jīng)常出現在評論中,這是我們已經(jīng)知道的,因為我們最初分析的是關(guān)于熱水器的評論,所以這些都是無(wú)用的信息。我們也可以刪除它們。那么這里必須刪除這些詞。一般通過(guò)建立的自定義詞庫刪除。
  4.6 分詞結果處理后
  那么我們就可以進(jìn)行統計,畫(huà)出詞頻云圖,大致了解那些關(guān)鍵詞的情況,為我們接下來(lái)的分析提供思路素材。操作如下:
  4.7 得到分詞結果后
  我們開(kāi)始建模和分析。模型選擇的方法有很多,但歸納起來(lái),只有兩種,即向量空間模型和概率模型。在這里我們介紹一個(gè)具有代表性的模型
  模型一:TF-IDF方法:
  方法A:對每個(gè)詞的出現頻率進(jìn)行加權后,作為其維度的坐標來(lái)確定一個(gè)特征的空間位置。
  方法B:將所有出現的詞所收錄的屬性作為維度,然后將詞與各個(gè)屬性之間的關(guān)系作為坐標,進(jìn)而定位一篇文檔在向量空間中的位置。
  但實(shí)際上,如果一個(gè)詞條在一類(lèi)文檔中頻繁出現,說(shuō)明該詞條能夠很好地代表該類(lèi)文本的特征。此類(lèi)詞條應該被賦予更高的權重,并被選為此類(lèi)文本的特征詞,用于將其與其他類(lèi)型的文檔區分開(kāi)來(lái)。這就是 IDF 的不足之處。
  模型二:.LDA模型
  
  傳統的判斷兩篇文檔相似度的方法是查看兩篇文檔中出現的詞的數量,比如TF-IDF。幾乎沒(méi)有,但是這兩個(gè)文件很相似。
  例如,有如下兩個(gè)句子:
  “喬布斯走了?!?“蘋(píng)果會(huì )降價(jià)嗎?”
  可以看出,上面兩句話(huà)沒(méi)有共同詞,但是兩句話(huà)很相似。如果按照傳統的方法判斷兩個(gè)句子,肯定是不相似的,所以在判斷文檔的相關(guān)性時(shí),需要考慮文檔。語(yǔ)義學(xué),語(yǔ)義挖掘的武器是主題模型,LDA是比較有效的模型之一。
  LDA模型是一種無(wú)監督的主題生成模型,它假設文檔集中的文檔按照一定的概率共享一組隱藏主題,隱藏主題集由相關(guān)詞組成。這里一共有三個(gè)集合,分別是文檔集合、主題集合和單詞集合。文檔集到主題集服從概率分布,詞集到主題集也服從概率分布。既然我們知道了文檔集和詞集,那么根據貝葉斯定理就可以找到主題集了。具體算法很復雜,這里就不多解釋了。有興趣的同學(xué)可以參考以下資料
   37616
  4.8 項目概要
  1、數據復雜度較高,文本挖掘面臨的非結構化語(yǔ)言,文本非常復雜。
  2.過(guò)程不同,文本挖掘更注重預處理階段
  3、整體流程如下:
  五、應用領(lǐng)域:
  一、輿情分析
  2.搜索引擎優(yōu)化
  3、其他行業(yè)的輔助應用
  6、分析工具:
  ROST CM 6 是目前國內唯一由武漢大學(xué)沉陽(yáng)教授開(kāi)發(fā)編碼,助力人文社會(huì )科學(xué)研究的大型免費社交計算平臺。本軟件可以實(shí)現微博分析、聊天分析、全網(wǎng)分析、網(wǎng)站分析、瀏覽分析、分詞、詞頻統計、英文詞頻統計、流量分析、聚類(lèi)分析等一系列文本分析.,擁有超過(guò)7000名用戶(hù),覆蓋國內外100多所大學(xué),包括劍橋大學(xué)、北海道大學(xué)、北京大學(xué)、清華大學(xué)、香港城市大學(xué)、澳門(mén)大學(xué)等多所高校。下載地址:
  RStudio是R語(yǔ)言的集成開(kāi)發(fā)環(huán)境(IDE),其亮點(diǎn)在于出色的界面設計和編程輔助。它可以運行在多種平臺上,包括windows、Mac、Ubuntu和網(wǎng)頁(yè)版。另外,本軟件是免費開(kāi)源的,可以在官網(wǎng)下載:
  7.1 Rostcm6實(shí)現:
  打開(kāi)軟件ROSTCM6
  這是處理前的文本內容。我們會(huì )從爬取的數據中只去除評論字段,然后將其保存為T(mén)XT格式。打開(kāi)它如下。按照流程,我們會(huì )先去除重復和字符、英文、數字等項。
  2、點(diǎn)擊文本處理-一般處理-處理條件選擇“retain only one for all repeated lines”和“delete all English characters contained in all lines”,去掉英文和數字等字符
  這是處理后的文件內容,可以看到數字和英文都??被刪除了。
  3、接下來(lái)進(jìn)行分詞。點(diǎn)擊功能分析——分詞(這里可以選擇自定義詞庫,如搜狗詞庫等)
  分詞處理后的結果。簡(jiǎn)單觀(guān)察一下,分詞之后,出現了很多無(wú)意義的停用詞,比如“in”、“under”、“one”等等
  4. 接下來(lái),我們過(guò)濾專(zhuān)有名詞,停用詞,統計詞頻。點(diǎn)函數分析——詞頻分析(中文)
  在功能分析下,單擊情緒分析以執行情緒分析。
  并且可以實(shí)現云圖的可視化。
  7.2 R的實(shí)現
  這里需要安裝幾個(gè)必要的包,因為幾個(gè)包的安裝比較復雜,這里是鏈接
  可以參考這篇博客安裝包。安裝完成后,就可以開(kāi)始R文本挖掘了。下面代碼的說(shuō)明文字較少,各個(gè)函數的作用初學(xué)者比較陌生。讀者可以先閱讀這些文章文章,了解各個(gè)函數的作用后,使用R進(jìn)行文本挖掘。鏈接如下:
  博客/檔案/29060
  直接
  讀完之后,進(jìn)行下去就會(huì )清楚很多。
  加載工作區庫 (rJava)
  圖書(shū)館(tmcn)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(TM)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  頭(數據1)
  數據
  —————————————————————— #Rwordseg分詞
  data1_cut=segmentCN(data1, nosymbol=T, returnType="tm")
  刪除\n、英文字母、數字 data1_cut=gsub("\n", "", data1_cut)
  data1_cut=gsub("[az]*", "", data1_cut)
  data1_cut=gsub("\d+", "", data1_cut)
  write.table(data1_cut, 'data1_cut.txt', row.names = FALSE)
  
  Data1=readLines('data1_cut.txt')
  Data1=gsub('\"', '', data1_cut)
  長(cháng)度(數據1)
  頭(數據1)
  ———————————————————————————— #Load workspace
  圖書(shū)館(自然語(yǔ)言處理)
  圖書(shū)館(TM)
  圖書(shū)館(大滿(mǎn)貫)
  圖書(shū)館(主題模型)
  R語(yǔ)言環(huán)境下的文本可視化與主題分析 setwd("F:/data and program/chapter15/computer experiment")
  data1=readLines("./data/meidi_jd_pos_cut.txt", encoding = "UTF-8")
  頭(數據1)
  停用詞
  停用詞=停用詞[611:長(cháng)度(停用詞)]
  去掉空格、字母 Data1=gsub("\n", "", Data1)
  Data1=gsub("[a~z]*", "", Data1)
  Data1=gsub("\d+", "", Data1)
  構建語(yǔ)料庫 corpus1 = Corpus(VectorSource(Data1))
  corpus1 = tm_map(corpus1, FUN=removeWords, stopwordsCN(stopwords))
  創(chuàng )建文檔術(shù)語(yǔ)矩陣 sample.dtm1
  colnames(as.matrix(sample.dtm1))
  tm::findFreqTerms(sample.dtm1, 2)
  unlist(tm::findAssocs(sample.dtm1, '安裝', 0.2))
  ——————————————————————–
  # 主題模型分析
  Gibbs = LDA(sample.dtm1, k = 3, method = "Gibbs", control = list(seed = 2015, burnin = 1000, thin = 100, iter = 1000))
  最有可能的主題文檔 Topic1
  表(主題1)
  每個(gè)主題的前 10 個(gè) TermTerms1
  條款1
  —————————————————————————— #使用vec方法分詞
  圖書(shū)館(tmcn)
  圖書(shū)館(TM)
  圖書(shū)館(Rwordseg)
  圖書(shū)館(文字云)
  setwd("F:/數據和程序/chapter15/計算機實(shí)驗")
  data1=readLines("./data/meidi_jd_pos.txt", encoding = "UTF-8")
  d.vec1
  wc1=getWordFreq(unlist(d.vec1), onlyCN = TRUE)
  wordcloud(wc1$Word,wc1$Freq,col=rainbow(長(cháng)度(wc1$Freq)),min.freq = 1000)
  #
  八、結果展示及說(shuō)明
  這是分析的部分結果??梢钥吹?,大部分客戶(hù)的評論都帶有正面的情緒,說(shuō)明客戶(hù)對美的熱水器的滿(mǎn)意度是比較高的。哪些方面滿(mǎn)意,哪些方面不滿(mǎn)意,哪些方面可以保持,哪些方面需要改進(jìn),這就需要我們另一種結果展示了。
  點(diǎn)擊可視化工具,得到詞頻云圖。根據云圖,我們可以看到客戶(hù)最關(guān)心的點(diǎn),也就是評論中提到較多的點(diǎn)。從圖中可以看到“安裝”、“師傅”、“配件”、“暖氣”、“快”、“便宜”、“速度”、“品牌”、“京東”、“送貨”、“服務(wù)” 、“價(jià)格”、“供暖”等關(guān)鍵詞出現頻率很高,我們可以大致猜到26
  另外,值得注意的是,云圖中還有一些“好”、“大”、“滿(mǎn)意”等字眼。我們還不知道這些詞背后的語(yǔ)義,所以我們需要找到相應的注釋。,提取這些詞對應的主題點(diǎn),然后對分析結果進(jìn)行優(yōu)化
  文|@白加黑治療病
  來(lái)源 | PPV類(lèi)
  原來(lái)的:
  1個(gè)
  出版與投稿
  2個(gè)
  編輯部招募新讀者
  現在我們的專(zhuān)欄“讀書(shū)筆記”編輯部正在招募青年教師和研究生加入我們的讀書(shū)寫(xiě)作活動(dòng)。入選閱讀對象包括SSCI、CSSCI優(yōu)秀論文和國內外學(xué)術(shù)專(zhuān)著(zhù)。每個(gè)成員都參與編輯小組討論、文章寫(xiě)作、校對和編輯(其中許多是自愿的)。我們有一個(gè)8人的穩定團隊,現在我們正在繼續招募語(yǔ)言學(xué)、翻譯學(xué)和文學(xué)領(lǐng)域的新人。由于讀寫(xiě)任務(wù)壓力大,圍觀(guān)者很快被淘汰。誠意歡迎有學(xué)術(shù)奉獻精神的新人加盟。加入方式:微信添加公眾號負責人:wonderdesire(請添加真實(shí)姓名,或實(shí)名入群:姓名-單位-研究方向)。對于其他業(yè)務(wù)聯(lián)系人,請發(fā)送電子郵件至:
  解讀:文章圖片提取工具(圖片提取文本的工具有哪些)
  目錄:
  1. 一個(gè)圖片提取文字的工具
  批量提取網(wǎng)站圖片。使用圖片提取工具從我們的網(wǎng)頁(yè)中提取圖片。圖片批量提取工具具有圖片過(guò)濾功能。通過(guò)設置圖片大小范圍,可以提取目標網(wǎng)站抓取的所有圖片,而采集文章采集,提取文章中的插圖。
  2.從圖片中提取文章
  批量提取網(wǎng)站圖片工具,可以通過(guò)批量鏈接下載圖片,導入我們的圖片鏈接批量下載保存到本地,其次可以使用批量關(guān)鍵詞采集,通過(guò)圖片采集、文章采集、文章導出插圖生成本地圖片素材庫,最后即可提取下載全站圖片,輸入目標鏈接地址即可,可以批量導出整站圖片。
  3. 文章 內容提取工具
  4.圖片提取文本文件
  
  在我們的 網(wǎng)站 上重做視覺(jué)內容,包括信息圖表、視頻、圖像和視覺(jué)元素 我們甚至可以決定更改 網(wǎng)站 的設計作為內容更新的一部分,只要我們認為它是好的當決定(例如,我們的 網(wǎng)站 設計看起來(lái)過(guò)時(shí)了)執行 文章 圖像優(yōu)化時(shí),我們需要做的第一件事實(shí)際上是分析所有內容并選擇要刷新的部分。
  5.文檔圖像提取
  為了更新和重新制作我們的內容,我們可以從最好的論文中聘請專(zhuān)業(yè)的作家并撰寫(xiě)網(wǎng)站,或者我們可以自己完成所有工作但是,在開(kāi)始選擇內容時(shí),我們應該自己完成
  6、圖文提取工具有哪些?
  為了幫助我們選擇最好的內容來(lái)刷新,我們可以使用我們在 文章 圖像優(yōu)化過(guò)程中使用的優(yōu)先級排序的基本原則: 檢查 SEO 排名 - 檢查不同內容的搜索引擎排名 它們是否在第一頁(yè)?如果他們曾經(jīng)在第一頁(yè)上但掉到第二頁(yè)或第三頁(yè),請關(guān)注這些部分。
  7.圖片提取文件軟件
  我們可能只需要進(jìn)行一些更改即可使這些部分再次排在第一頁(yè)上
  
  8.圖片文字提取
  考慮我們的品牌——我們最近是否改變了我們的品牌?我們的聽(tīng)眾與以前的聽(tīng)眾有什么不同嗎?如果是這種情況,請為我們的老觀(guān)眾找到內容,然后找到一種方法來(lái)更新或重新制作這些內容以與我們當前的觀(guān)眾相關(guān) 查看指標 - 我們可能正在跟蹤很多指標,所以只需檢查它們,我們就可以決定需要刷新的內容。
  9.從文檔中提取圖片
  瀏覽量、點(diǎn)贊數、評論數、分享數等都是需要更改哪些部分的良好指標。比如標題稍微改一下,就可以提高點(diǎn)擊率
  10、有什么工具可以從圖片中提取文字
  讓自己成為領(lǐng)導者——如果我們想在自己周?chē)⒛撤N品牌形象,讓我們被視為我們領(lǐng)域的權威和思想領(lǐng)袖,那么我們絕對應該用新發(fā)現更新舊內容。自從我們發(fā)布這些文章文章 關(guān)于自以來(lái)新發(fā)現或開(kāi)發(fā)的主題。
  然后,向這些添加新信息
  圖片

解決方案:百分點(diǎn)蘇海波:深度遷移學(xué)習在NLP中的應用及實(shí)踐

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 64 次瀏覽 ? 2022-12-02 19:32 ? 來(lái)自相關(guān)話(huà)題

  解決方案:百分點(diǎn)蘇海波:深度遷移學(xué)習在NLP中的應用及實(shí)踐
  深度遷移學(xué)習無(wú)疑是當前NLP領(lǐng)域的主流技術(shù),在越來(lái)越多的實(shí)際應用場(chǎng)景中取得了驕人的成績(jì)。那么,如何更好地應用這項技術(shù)來(lái)解決樣本小、算力不足的問(wèn)題呢?如何在各種技術(shù)流派的碰撞中找到最優(yōu)解?
  事實(shí)上,Percent在NLP方面擁有多年的技術(shù)和業(yè)務(wù)實(shí)踐經(jīng)驗,服務(wù)過(guò)上百家企業(yè)和政府客戶(hù),成功采用深度遷移學(xué)習技術(shù)解決各行業(yè)客戶(hù)的NLP現實(shí)業(yè)務(wù)問(wèn)題。
  11月21日,AICon全球人工智能與機器學(xué)習大會(huì )首日在北京國際會(huì )議中心開(kāi)幕,百分比首席算法科學(xué)家蘇海波受邀參會(huì ),與大家分享AI最佳實(shí)踐國內外名人,深入剖析模型。技術(shù)原理、谷歌TPU使用經(jīng)驗、模型調參和數據增強等優(yōu)化技巧,同時(shí)分享深度遷移學(xué)習模型在智能問(wèn)答、增強分析、情感等各類(lèi)NLP任務(wù)中的應用實(shí)踐和價(jià)值分析。
  以下為演講實(shí)錄:
  突破深度學(xué)習困境
  大家都知道Algphago在圍棋上打敗了人類(lèi),但它還是有明顯的缺陷,不能像人類(lèi)一樣舉一反三。它針對的是 19*19 的板子。如果換成21*21的棋盤(pán),Alphago馬上就失敗了,不過(guò)人類(lèi)可以舉一反三。
  以騎自行車(chē)為例。如果你學(xué)騎自行車(chē),你會(huì )在學(xué)摩托車(chē)時(shí)借鑒騎自行車(chē)的經(jīng)驗,大大加快摩托車(chē)的學(xué)習速度。這種遷移學(xué)習的能力對人類(lèi)學(xué)習新事物起著(zhù)非常重要的作用。關(guān)鍵作用。
  AI界大神吳恩達曾說(shuō)過(guò):遷移學(xué)習將是繼監督學(xué)習之后未來(lái)五年內最有可能實(shí)現商業(yè)化的AI技術(shù)。那么,什么是遷移學(xué)習?遷移學(xué)習是指利用數據、任務(wù)或模型之間的相似性,將在舊領(lǐng)域學(xué)習的模型應用到新領(lǐng)域的學(xué)習過(guò)程。
  之所以需要遷移學(xué)習是為了解決以下四個(gè)問(wèn)題:
  1、深度學(xué)習與標注少的矛盾:目前深度學(xué)習只能在標注數據充足的場(chǎng)景下發(fā)揮威力。但是在很多實(shí)際問(wèn)題中,我們沒(méi)有足夠的標注數據,這時(shí)候就需要遷移學(xué)習;
  2、算力強與資源弱的矛盾:某些海量數據模型訓練任務(wù)需要非常大的算力,只有大公司才能負擔得起,而普通人的機器資源非常有限。使他們也能夠利用數據和模型;
  3、通用模型與個(gè)體需求的矛盾:通用模型可以解決大部分公共問(wèn)題,但具體的個(gè)體需求有其獨特性,通用模型根本無(wú)法滿(mǎn)足。因此,有必要對這種通用模型進(jìn)行改造和適配,以更好地服務(wù)于各種個(gè)性化需求;
  4. 對特定應用的要求:現實(shí)世界中的一些特定應用,比如個(gè)性化推薦,存在用戶(hù)數據冷啟動(dòng)的問(wèn)題,因此可以通過(guò)遷移學(xué)習來(lái)遷移相似領(lǐng)域的知識。
  遷移學(xué)習方法可以分為四類(lèi),包括基于樣本的遷移學(xué)習方法、基于特征的遷移學(xué)習方法、基于模型的遷移學(xué)習方法和基于關(guān)系的遷移學(xué)習方法。
  今天給大家分享的是基于模型的遷移方法,就是構建一個(gè)源域和目標域參數共享的模型,比如圖中的Chihuahua判別模型和shepherd判別模型,在模型中有沒(méi)有腳有沒(méi)有眼睛的部分可以分享。
  基于模型的遷移學(xué)習方法:從圖像到 NLP
  基于模型的遷移方法特別適用于深度神經(jīng)網(wǎng)絡(luò ),因為神經(jīng)網(wǎng)絡(luò )的結構可以直接遷移,我們稱(chēng)之為深度遷移學(xué)習。早期,這種方法被應用于計算機視覺(jué)中的圖像識別。源域中學(xué)習到的低級特征具有普適性,包括邊緣特征、形狀特征等,從而可以在源域中預訓練整個(gè)模型,并將低級通用特征遷移到目標域可以顯著(zhù)提高相應模型的學(xué)習效果。
  2018年,隨著(zhù)Google BERT的出現,這種預訓練模型方法開(kāi)始應用于NLP領(lǐng)域,對NLP領(lǐng)域產(chǎn)生了革命性的影響。如果學(xué)習詞向量就像學(xué)習計算機視覺(jué)中的圖像邊緣,那么 NLP 中的預訓練模型就像學(xué)習圖像特征的完整層次結構,從邊緣到形狀再到高級語(yǔ)義概念。
  上圖展示了深度遷移學(xué)習在NLP中的技術(shù)思路。首先,通過(guò)源域中已有的海量語(yǔ)料庫,以無(wú)監督的方式訓練一個(gè)語(yǔ)言模型,即預訓練模型。然后在具體目標任務(wù)中,遷移預訓練模型,在其上連接一層全連接網(wǎng)絡(luò )或深度網(wǎng)絡(luò )(如CNN、LSTM、DenseNet、HighWayLSTM等),結合標注樣本訓練當前任務(wù)的模型 這種方法與深度學(xué)習模型相比,所需的樣本數量可以大大減少。
  百分比最佳實(shí)踐:底層效率提升+三大場(chǎng)景應用
  Percent在各種NLP任務(wù)中廣泛使用BERT技術(shù),并不斷優(yōu)化改進(jìn),包括使用谷歌TPU解決算力瓶頸,使用BERT與上層神經(jīng)網(wǎng)絡(luò )聯(lián)合調參,使用各種擴展模型等BERT在效果提升和數據增強方面進(jìn)行探索和實(shí)踐。
  Percent Cognitive Intelligence 業(yè)務(wù)技術(shù)框架圖
  Percent Cognitive Intelligence業(yè)務(wù)的技術(shù)框架。除了CPU和GPU,底層硬件資源也會(huì )租用谷歌的TPU。機器學(xué)習平臺從傳統的機器學(xué)習和深度學(xué)習逐漸轉向目前主流的深度遷移學(xué)習;核心認知 智能技術(shù)層包括自然語(yǔ)言處理、知識圖譜和智能交互。智能交互分為問(wèn)答式問(wèn)答、任務(wù)式問(wèn)答、閱讀理解和NL2SQL;行業(yè)內典型的認知智能應用包括公安法智能檢察問(wèn)答系統、快速零售智能業(yè)務(wù)態(tài)勢分析系統、公安智能翻譯系統、
  接下來(lái)圍繞架構圖中紅色標注的技術(shù)點(diǎn)和應用進(jìn)行展開(kāi)。
  首先是谷歌TPU的做法
  在預訓練語(yǔ)言模型的時(shí)候,我們會(huì )采集
大量的語(yǔ)料(包括維基百科、百度百科、微博、微信等,大約幾十G),訓練一個(gè)通用的預訓練模型,但是base版本的BERT 模型有 1.5 億個(gè)參數,而大版本超過(guò) 3 億,微調和重新預訓練所需的計算能力太高。
  另外,我們在基于預訓練模型進(jìn)行實(shí)際的NLP開(kāi)發(fā)時(shí),會(huì )同時(shí)有多個(gè)任務(wù)。如果我們串行執行,則需要等待很多時(shí)間;如果并行的話(huà),會(huì )消耗太多的算力,硬件成本負擔不起。. 因此,如何探索出一種高效、低成本的研發(fā)模式,將是NLP算法研究人員和工程師共同面臨的問(wèn)題。結合我們的實(shí)踐經(jīng)驗,使用谷歌的TPU資源是解決方案之一。TPU的運算速度是GPU的80多倍。
  下面以租用一個(gè)TPU V2 八核為例,系統的講解一下如何創(chuàng )建虛擬機實(shí)例和TPU實(shí)例。首先進(jìn)入谷歌云的首頁(yè):
  然后需要創(chuàng )建一個(gè)VM實(shí)例,在options中配置顯存、內存量、系統鏡像等。
  
  接下來(lái),創(chuàng )建一個(gè) TPU。有幾個(gè)選項值得注意。在TPUtype項中,會(huì )有v2-8、v3-8、v3-32等選項的說(shuō)明,其中v2或v3是tpu的型號,-8或-32是核心數,最小核心數為8個(gè)核心。
  我們使用TPU V2-8進(jìn)行計算,并在計算時(shí)間和成本上與主流GPU進(jìn)行對比,使用TPU和GPU對BERT模型進(jìn)行500K步的訓練。如圖所示,使用GPU訓練大約需要7天,而使用TPU訓練完成只需要1.2天。同時(shí),總成本也大大降低??梢钥闯?,TPU在BERT預訓練模型的計算時(shí)間和總成本上已經(jīng)完全超越了目前主流的GPU。
  然后我們使用 TPU 作為硬件加速方式,在 BERT 模型上進(jìn)行十輪小時(shí)。這項技術(shù)極大地提高了NLP領(lǐng)域的fine-tune。通過(guò)與目前主流GPU Tesla V100*8對比發(fā)現,TPU完成fine-tune只需要10分鐘左右,而GPU完成同樣的fine-tune需要不止一個(gè)神經(jīng)網(wǎng)絡(luò )計算效率,并且從總成本來(lái)看,使用TPU的成本僅為GPU的3.5%左右。
  因此,TPU超高的效率和低廉的價(jià)格讓神經(jīng)網(wǎng)絡(luò )計算更加“親民”。TPU可以從根本上解決對算力要求高但資金不足的中小企業(yè)的顧慮。過(guò)去幾天需要幾十個(gè) GPU。BERT的預訓練現在一個(gè)TPU一天就可以輕松搞定,讓所有的中小企業(yè)都擁有了之前所缺乏的強大算力。盡管 TPU 在很多方面都打敗了 GPU,但我們認為 TPU 仍有很大的改進(jìn)空間:
  1、TPU的代碼示例和文檔很少,使用門(mén)檻很高;
  2. TPU是圍繞Tensorflow框架設計的硬件。使用其他人工智能框架的項目很難高效低成本地使用TPU進(jìn)行計算;
  3、TPU在checkpoint讀寫(xiě)上效率低下,導致在計算小模型時(shí)效率上沒(méi)有明顯優(yōu)勢。
  情感分類(lèi)實(shí)踐
  情感分類(lèi)是Percent智能消費者洞察分析系統的核心功能?;陔娚?、微信、微博、論壇等數據,系統進(jìn)行各種文本語(yǔ)義分析(包括情感分析、熱點(diǎn)分析等),最終支持口碑分析、趨勢分析、用戶(hù)體驗分析和其他申請決定。目前,該產(chǎn)品已服務(wù)于眾多快消行業(yè)的標桿客戶(hù)。
  需要注意的是,情感分類(lèi)分為短文本和長(cháng)文本,因為BERT模型對輸入文本有長(cháng)度限制,不能超過(guò)512個(gè)詞。
  對于短文本情感分類(lèi),在BERT預訓練模型出現之前,我們使用的是卷積神經(jīng)網(wǎng)絡(luò )(CNN)模型,先應用于圖像,后應用于文本情感分析。CNN主要由輸入層、卷積層、池化層和全連接層組成。卷積的計算方式是對相鄰區域的元素進(jìn)行加權求和,與位置無(wú)關(guān)。實(shí)現了權重參數的共享,池化層實(shí)現了空間采樣,這些方法大大減少了神經(jīng)網(wǎng)絡(luò )的參數,避免了模型過(guò)擬合。
  對于短文本的情感分類(lèi)任務(wù),BERT模型在文本前面插入了一個(gè)[CLS]符號,將該符號對應的輸出向量作為該文本的語(yǔ)義表示進(jìn)行情感分類(lèi),因為它不同于其他文字中已有的詞。相比之下,這種沒(méi)有語(yǔ)義信息的符號會(huì )更“公平”地融合文本中每個(gè)詞的語(yǔ)義信息。
  以上分別是BERT和CNN的實(shí)驗結果??梢钥闯?,隨著(zhù)訓練數據的增加,兩種模型的情感分類(lèi)準確率都在不斷提高。不過(guò),兩者的反差也很明顯。當BERT模型只有1000個(gè)訓練集時(shí),預測準確率達到90%。當CNN模型有10萬(wàn)個(gè)訓練集樣本時(shí),預測準確率僅為88.2%。這表明深度遷移學(xué)習模型所需的標記樣本數量遠小于以往的深度學(xué)習模型,能夠取得更好的效果。
  由于BERT模型的輸入文本有512個(gè)字符的限制,短文本分類(lèi)比較簡(jiǎn)單,直接輸入BERT模型即可。但是對于長(cháng)文本,如何使用BERT模型呢?如果直接截取前面的512個(gè)字符,會(huì )有信息丟失。我們的解決方案是對長(cháng)文本進(jìn)行平均截斷,比如按照平均6段截斷,分成幾段短文本,然后輸入對應的BERT模型或者各種變體,比如RoBERT、Xlnet等,然后將輸出的增強語(yǔ)義向量進(jìn)行拼接,然后連接到GRU模型。
  我們對標記數據集執行 5 折分割,并交叉驗證平均截斷策略的效果。上圖實(shí)驗結果表明,RoBERTa+平均截斷訓練生成的模型F1值高于RoBERTa版本模型,說(shuō)明在長(cháng)文本情感分類(lèi)中,平均截斷策略可以有效提升效果預訓練模型。
  此外,我們還采用了post train的方式來(lái)提升模型的效果。實(shí)驗結果表明,在每條數據上,RoBERTa+ Post train 組合的 F1 和 Acc 均高于 RoBERTa 版本的模型。因此,在長(cháng)文本情感分類(lèi)中,Post train策略可以有效提升預訓練模型的效果。
  智能問(wèn)答實(shí)踐
  下面是百分位數預訓練模型在智能問(wèn)答中的實(shí)踐。
  我們開(kāi)發(fā)了智能檢察問(wèn)答系統,解決了老百姓的普法難題。為廣大群眾日常生活中遇到的法律問(wèn)題提供智能解答,改善民生體驗。該系統榮獲“2019年度全國政法智能建設優(yōu)秀創(chuàng )新產(chǎn)品”獎。系統的核心是問(wèn)題的等價(jià)語(yǔ)義識別,因為同一個(gè)問(wèn)題可以有多種表達方式,例如“18歲以下?lián)尳偈欠穹缸铩?、?8歲以下?lián)尳偈欠穹缸铩?18”表示相同的意思。
  那么如何找到語(yǔ)義等價(jià)問(wèn)題呢?傳統的相似度搜索算法(包括余弦相似度、編輯距離、關(guān)鍵詞巧合、BM25)可以發(fā)揮作用,但仍然不夠,比如“什么是公益訴訟?” 和“什么是行政訴訟?” 編輯距離為2,不等價(jià)于“什么是公益訴訟?”的編輯距離 和“解釋公益訴訟的定義?” 為7,但它們是等價(jià)的,所以需要增加等價(jià)模塊的判斷。
  等價(jià)判斷中存在兩個(gè)典型問(wèn)題:字面相似的句子語(yǔ)義不等價(jià),字面不同的句子語(yǔ)義等價(jià)。我們只是舉了兩個(gè)例子。為了在這兩個(gè)問(wèn)題上取得好的效果,我們的經(jīng)驗是一方面優(yōu)化模型,將深度學(xué)習改為深度遷移學(xué)習模型,通過(guò)人工標注+數據增強的方式增加訓練。數據。
  在具體模型方面,我們基于BERT和BIMPM開(kāi)發(fā)了一種新的語(yǔ)義等價(jià)模型。在BIMPM模型的基礎上,我們進(jìn)行了兩方面的改造。一方面,我們去掉了原來(lái)BIMPM模型中連接詞向量層的Bi-LSTM模型。原因是LSTM沒(méi)有設計機制保證梯度反向傳導到深度模型。. 另一方面,將 BIMPM 頂部的 Bi-LSTM 模型替換為 Transformer 模型。主要原因是Bi-LSTM可以捕捉到數據中的序列特征。但是由于BIMPM采用了多重匹配,序列性不強,所以Transformer更適合這個(gè)模型。
  Percent 提出的問(wèn)句級匹配模型在公開(kāi)的 Quora 數據集中達到了當前最先進(jìn)的水平。該數據集包括超過(guò)400,000個(gè)問(wèn)題組,專(zhuān)門(mén)用于研究?jì)蓚€(gè)句子在語(yǔ)義上是否等價(jià)的二元問(wèn)題。. 由于該數據集的標注質(zhì)量很高,常被用來(lái)測試語(yǔ)義理解的模型效果。我們按照7:2:1的比例分配訓練集、驗證集和測試集。在測試集上的具體實(shí)驗結果如下:
  作為對比,我們第一個(gè)結果是BERT單模型的結果,第二個(gè)和第三個(gè)分別是BERT和ABCNN、BERT和BIMPM的結果。在特征提取的深度方面,我們選擇了BERT預訓練模型的表面層一、表面二層和表面三層。
  如上表結果所示,BERT和BIMPM的結合已經(jīng)超越了BERT單一模型。在我們的新模型中增加 BERT 的特征層數可以提高幾個(gè)點(diǎn)的性能。隨著(zhù)層數的增加,可以獲得更高的F1值和準確率。當層數為3時(shí),準確率為90.52%,F1值為89.68%,達到state-of-the-art效果。
  為了保證實(shí)驗結論的有效性,除了Quora數據集外,我們還使用了SLNI數據集中收錄
句子對等的子數據集,該子數據集收錄
550,000個(gè)訓練集和10,000個(gè)測試集。許多論文使用這些數據來(lái)測試他們的模型包的效果。與這些模型相比,我們的準確率提高了近兩個(gè)點(diǎn),達到了當前最先進(jìn)的水平。具體實(shí)驗結果如上圖所示。.
  我們比較了基于 BERT 的新模型和傳統 CNN 模型在問(wèn)題等價(jià)性上的識別效果。隨著(zhù)訓練數據集的增加,兩者的效果都在逐漸提升。BERT模型在訓練集為5000時(shí),可以識別出CNN模型的準確率達到77%,而CNN模型在訓練集為50000時(shí),識別準確率約為75.5%。好結果。
  
  除了模型的改進(jìn),我們結合數據增強技術(shù),進(jìn)一步提高問(wèn)題語(yǔ)義對等的識別效果。什么是數據增強?
  數據擴充可以簡(jiǎn)單理解為從少量數據生成大量數據的過(guò)程。一般來(lái)說(shuō),一個(gè)比較成功的神經(jīng)網(wǎng)絡(luò )都有大量的參數。要使這些參數正確工作,需要大量數據進(jìn)行訓練,但在實(shí)際情況下,并沒(méi)有那么多數據,因此需要進(jìn)行數據增強,可以提高模型的泛化能力和魯棒性。性別。圖像識別中的數據增強方法包括翻轉、旋轉、縮放等。文本中的數據增強包括切分句子、增刪詞、構造新句子,或者用同義詞替換句子,或者根據模板替換句子等等。
  優(yōu)化相當于問(wèn)句的模型后,可以通過(guò)加入標注數據來(lái)提升效果。那么,需要添加什么樣的標簽數據才能達到好的效果呢?
  我們把整個(gè)大問(wèn)題分解成幾個(gè)子問(wèn)題,表中列出了一些主要的子問(wèn)題。在規律不改變意義的前提下是等價(jià)的;對于庫里的問(wèn)題,有很多詞與問(wèn)的問(wèn)題重疊,但語(yǔ)義并不等同。
  第一種數據增強方法是無(wú)意義詞和關(guān)鍵詞的添加和修改,包括添加無(wú)意義詞進(jìn)行等價(jià),將關(guān)鍵詞替換為同義詞,將關(guān)鍵詞替換為非同義詞后不等價(jià)。
  第二種數據增強方法是改變問(wèn)法后的語(yǔ)義對等,通過(guò)構造一個(gè)等值的問(wèn)句模板,比如名詞短語(yǔ)+有效的各種說(shuō)法,動(dòng)詞短語(yǔ)+各種非法的說(shuō)法等,將相同或等價(jià)的句子元素組合起來(lái)使用不同的模板,例如“請問(wèn),殺死兒童是否構成犯罪?” 和“請問(wèn),殺孩子犯法嗎?” 這兩個(gè)問(wèn)題是模板和同義詞增強生成的等價(jià)問(wèn)題。
  第三種數據增強,加修飾語(yǔ)后語(yǔ)義不等,刪掉修飾語(yǔ)后的句子依然流暢。這里我們使用依存語(yǔ)法的技術(shù)來(lái)分析句子中所有單詞的主從關(guān)系。
  通過(guò)依存句法分析,分析句子的核心關(guān)系、主謂關(guān)系、謂賓關(guān)系、陳述關(guān)系、決定關(guān)系等?!癱ourt”與“made”的關(guān)系是主謂關(guān)系,“made”與“judgment”的關(guān)系是謂賓關(guān)系,“those”與“situation”的關(guān)系是決心。
  根據依存句法的分析結果,我們可以刪除句子中的修飾語(yǔ),以保證刪除后的句子依然順暢,如刪除“those”或“those situations”。
  此外,在很多重疊詞的情況下,我們替換依賴(lài)句法樹(shù)的子樹(shù)。替換后語(yǔ)義不等價(jià),但依然流暢。如何處理請求”。
  通過(guò)這些方法,我們生成了大量的增廣樣本并重新訓練模型,效果得到了顯著(zhù)提升。例如,在用非同義詞替換庫里問(wèn)題關(guān)鍵詞的情況下,準確率從65%提高到91%;在 Curry question 添加不等語(yǔ)義修飾語(yǔ)的情況下,準確率從 63% 提高到 91% 。
  增強分析實(shí)踐
  接下來(lái)介紹深度遷移學(xué)習在增強分析中的實(shí)踐。
  首先,什么是增強分析?增強分析是指基于機器學(xué)習的數據分析和BI功能,包括智能數據發(fā)現、增強數據準備、增強數據分析等模塊。目前,增強分析在BI中得到了廣泛的應用。Gartner認為,到2020年,增強分析將成為新用戶(hù)購買(mǎi)BI產(chǎn)品和數據分析平臺的主要驅動(dòng)力。Percent開(kāi)發(fā)了一套增強型分析產(chǎn)品——智能業(yè)務(wù)分析系統,簡(jiǎn)稱(chēng)Clever BI。
  智能問(wèn)答功能是Clever BI中一個(gè)非常重要的子任務(wù)。其目的是讓用戶(hù)通過(guò)一句自然語(yǔ)言自動(dòng)生成相應的圖表。比如你問(wèn)“我知道這些省份的投訴比較多,是哪個(gè)渠道影響了客戶(hù)體驗?” 系統會(huì )自動(dòng)顯示相應的圖表結果。在學(xué)術(shù)界,這個(gè)任務(wù)被稱(chēng)為NL2SQL,并且已經(jīng)有很多關(guān)于它的研究。
  Clever BI的系統架構包括數據管理層、算法支撐層、功能模塊層和API層。核心功能是智能推薦、智能問(wèn)答和智能挖掘。接下來(lái)重點(diǎn)介紹智能問(wèn)答,這是NL2SQL的實(shí)現原理。
  首先對輸入的問(wèn)句進(jìn)行分詞和依存句法分析,然后需要填充語(yǔ)義槽,通過(guò)模型分析查詢(xún)字段、聚合函數、過(guò)濾條件、分組字段,最后得到對應的生成 SQL 語(yǔ)句。
  將自然語(yǔ)言轉換成 SQL 本身可以看作是一個(gè) Seq2seq 任務(wù)。目前主流的方法是預先寫(xiě)好SQL的模板槽,然后用多個(gè)模型一個(gè)一個(gè)預測槽。X-SQL模型是其中的代表方法之一。,其過(guò)程是通過(guò)MT-DNN對原創(chuàng )
問(wèn)題和字段名稱(chēng)進(jìn)行編碼。MT-DNN是微軟推出的針對多任務(wù)聯(lián)合學(xué)習的BERT優(yōu)化方案。輸出層包括6個(gè)子模型:S-COL和S-AGG。預測select字段,W-NUM用于預測where條件的個(gè)數,W-COL、W-OP、W-VAL用于預測過(guò)濾條件的具體內容。這個(gè)架構已經(jīng)很完善了,但是由于數據限制,模型無(wú)法預測多選多組的內容。
  百分點(diǎn)提出了一種結合X-SQL和依賴(lài)語(yǔ)法樹(shù)的方法來(lái)解決這個(gè)問(wèn)題。X-SQL從深層語(yǔ)義的角度抽取元素,而句法分析則從問(wèn)題的語(yǔ)法結構抽取。舉一個(gè)實(shí)際的例子,分析“每個(gè)區域的新訂單總數”,第一步是分詞,第二步是依存句法分析,可以得到一棵樹(shù),包括詞性、實(shí)體類(lèi)別、結果標簽和依賴(lài)關(guān)系。第三步,通過(guò)詞庫和后序遍歷分析依賴(lài)樹(shù),分析查詢(xún)字段、聚合函數和分組字段。例如“新訂單數量”通過(guò)X-SQL被識別為查詢(xún)詞,“地區” 通過(guò)依賴(lài)關(guān)系識別出來(lái)是一個(gè)分組字段,最后生成對應的SQL語(yǔ)句。另外,在具體使用過(guò)程中,經(jīng)常會(huì )出現比較復雜的時(shí)間題。比如“上個(gè)月”、“將近7天”等等,這些問(wèn)題比較固定,但是解析的時(shí)候需要很多知識。我們使用模板來(lái)處理它們。模板由普通字符和正則語(yǔ)法組成。
  實(shí)際測試中,由于中文NL2SQL領(lǐng)域沒(méi)有統一的數據集,通過(guò)采集
用戶(hù)在Clever BI產(chǎn)品中的實(shí)際使用數據,選取了250條中文測試數據(題目可能包括分組、過(guò)濾條件、復雜時(shí)間等)表達式、查詢(xún)內容和排序等),并在此基礎上進(jìn)行測試,得到的結果如上圖所示。與X-SQL模型相比,改進(jìn)的百分點(diǎn)算法有明顯的效果提升。在實(shí)際測試中,準確率達到了90.45%,并且在實(shí)際使用中,已經(jīng)達到了商用效果。
  綜上所述,在過(guò)去的一年里,隨著(zhù)谷歌BERT模型的出現,給自然語(yǔ)言處理帶來(lái)了長(cháng)足的進(jìn)步。深度遷移學(xué)習已經(jīng)成為未來(lái)NLP的主流技術(shù)。在現有研發(fā)成果的基礎上,TPU、數據增強、BERT模型改進(jìn)、上層網(wǎng)絡(luò )設計等技術(shù)將進(jìn)一步提升深度遷移學(xué)習方法的效率和有效性。
  與深度學(xué)習給計算機視覺(jué)帶來(lái)的技術(shù)突破類(lèi)似,在NLP模型的效果突破之后,零售快消、公共安全、媒體出版等各行業(yè)也將出現越來(lái)越多的認知智能應用。未來(lái)是認知智能發(fā)展的黃金十年。我希望更多的人加入這個(gè)令人興奮的行業(yè)。
  相關(guān)文章
  1個(gè)
  2個(gè)
  3個(gè)
  4個(gè)
  解決方案:篇五:數字化轉型行動(dòng)指南
  優(yōu)化您的組織:
  1、建立業(yè)務(wù)與技術(shù)一體化的組織,就是在業(yè)務(wù)中建設技術(shù)能力,為業(yè)務(wù)部門(mén)配備技術(shù)人員,使其成為具體業(yè)務(wù)部門(mén)的一部分,形成長(cháng)期固定的組織形式。
  絕大多數公司采用職能部門(mén)制組織,看似分工明確,流程順暢,但效率低,速度慢,時(shí)間成本、人力成本、溝通成本特別高,而簡(jiǎn)單的問(wèn)題復雜化,表現為慢、費、難的問(wèn)題
  有些公司采用的是項目制組織,這自然是一種臨時(shí)組織,只對項目目標負責,不對長(cháng)期結果負責。在這個(gè)過(guò)程中,不可能將項目中獲得的數字化經(jīng)驗積累成公司的能力。一旦項目組解散,任何組織都無(wú)法承擔企業(yè)數字化轉型的長(cháng)期任務(wù)。解決慢、貴、難的問(wèn)題,但工藝能力無(wú)法固化,容易流失
  許多公司沒(méi)有意識到人才在哪里,能力就在哪里。職能部門(mén)組織和項目型組織之所以不能在數字化轉型中發(fā)揮作用,是因為他們忽略了這一點(diǎn):能力是人與生俱來(lái)的。業(yè)務(wù)技術(shù)集成的組織方式是目前華為經(jīng)過(guò)10多年探索形成的最好的組織方式。在這種組織模式中,能力不是封閉固化的,而是不斷增長(cháng)的
  2、成立公司級數據管理部門(mén),由各領(lǐng)域專(zhuān)家組成,發(fā)布企業(yè)數據管理總體綱要,編制數據質(zhì)量管理政策和數據源頭管理政策,定期審核數據結構,確定數據歸屬,確定數據互操作性規范等
  數據是資產(chǎn),數據是資產(chǎn)。如果沒(méi)有這樣的組織,那么資產(chǎn)連管理部門(mén)都沒(méi)有。您是否羞于說(shuō)數據是一種資產(chǎn)?
  這個(gè)組織最大的職責是建立一個(gè)結構和組織數據以進(jìn)行有效的溝通。未考慮之前,切不可急于各種系統。你寧愿慢一點(diǎn),否則你將需要花費數倍的精力來(lái)清理數據。
  管理數據質(zhì)量:
  1、元數據管理:元數據是用來(lái)描述數據的數據。這個(gè)非常重要。例如生產(chǎn)班次數據定義為B、C、A,分別代表白班、夜班、三班。這使 BCA 變得有意義。而一旦定義好,存C就是夜班,不能隨便改,C班和二班都不是。這個(gè)必須要由相應的業(yè)務(wù)部門(mén)來(lái)管理,大部分公司不重視這個(gè)。同樣,這非常非常重要!
  2、“一數一源,用而不存”:標準化數據是不同業(yè)務(wù)流程之間相互溝通的業(yè)務(wù)語(yǔ)言。一個(gè)數據定義完成后,其他系統調用只能從這個(gè)數據的源頭調用。這是非常非常重要的。事實(shí)上,在大多數公司,數據源表面上是單一部門(mén)管理,但存儲時(shí)轉手的部門(mén)太多,實(shí)際調用時(shí)數據的真實(shí)性和準確性根本無(wú)法保證. 比如我司產(chǎn)品二維碼編碼規則末尾兩位代表產(chǎn)品模具號(元數據概念),開(kāi)發(fā)部數據庫中存有對照表,其中45代表編號. 12 產(chǎn)品B模具 生產(chǎn)部門(mén)調用時(shí),數字45被解釋為產(chǎn)品B的12號模具,存入生產(chǎn)數據庫。這樣45可能會(huì )被誤解為12,中間dump的進(jìn)程越多,丟失和更改的數據就越多,最終會(huì )導致不同業(yè)務(wù)部門(mén)對同一個(gè)對象的描述不一致。
  3、數據類(lèi)型:主要是文本、數字、日期等類(lèi)型,根據業(yè)務(wù)類(lèi)型設置,該選什么類(lèi)型,很多公司不注重數據類(lèi)型的管理,基本都是文本類(lèi)型,比如date Stored作為文本類(lèi)型,導致數據庫中存儲了大量非日期的日期(如2021-01-35),后期數據匯總分析時(shí)經(jīng)常會(huì )報錯。
  4. ER模型:又稱(chēng)雪花模型、實(shí)體-關(guān)系模型,它提供了一種表示實(shí)體、屬性和聯(lián)系的方法,是一種描述現實(shí)世界概念結構模型的方法。實(shí)體對象之間的關(guān)系通常是一對一、一對多、多對多等,這些概念非常重要和基礎,嚴格按照這種方式設計信息系統會(huì )避免很多冗余. 而且,ER模型是數據建模和分析的基礎,是數據分析各個(gè)環(huán)節不可或缺的理論基礎。
  5、主數據編碼:公司核心實(shí)體對象必須編碼,編碼規則可由公司自行設計。只有編碼對象才能成為數字世界中真實(shí)對象的孿生對象。不難理解,一個(gè)人的身份證號碼就是一個(gè)人的實(shí)體對象代碼。在數字世界中,身份證號碼代表一個(gè)人的唯一實(shí)體,參與數字世界的商業(yè)運作,而不是人的姓名。
  很多公司努力開(kāi)發(fā)了系統,卻在業(yè)務(wù)中途崩盤(pán),這一般是由于對上述對象的管理不到位造成的。這也是我在工作中經(jīng)常遇到的事情,需要花很多時(shí)間去處理。其實(shí)都是臟活累活。如果在系統設計中考慮到以上問(wèn)題,將為后期更多進(jìn)程的不斷擴展和介入提供更多的支持。方便的。
  數據治理能力不是一個(gè)崇高的概念。企業(yè)只要數據質(zhì)量好,就可以不斷打磨出適合企業(yè)的數據標準。您可以開(kāi)發(fā)適合您的數字系統。換句話(huà)說(shuō),數據治理是一個(gè)標準的管理問(wèn)題。
  學(xué)習數據工具:
  以下內容主要是為了提高企業(yè)的業(yè)務(wù)效率。掌握它的人越多,對企業(yè)越有利
  數據采集
  
  1、設備數據采集OPC、組態(tài)軟件InTouch、組態(tài)王等(略),這些我都不會(huì ),下次找高手專(zhuān)門(mén)寫(xiě)篇文章。
  2.網(wǎng)絡(luò )爬蟲(chóng)
  互聯(lián)網(wǎng)是當今世界上最大的數據庫。如果你學(xué)習了爬蟲(chóng)技術(shù),你可以在網(wǎng)絡(luò )中采集
你需要的數據,及時(shí)將數據保存到本地,參與到你公司的業(yè)務(wù)流程中。
  常見(jiàn)的非編程爬蟲(chóng)軟件有:優(yōu)采云
collector、優(yōu)采云
collector、優(yōu)采云
collector、優(yōu)采云
collector等,基本上就是拖拽數據采集規則就形成了,非常友好,可以滿(mǎn)足80%的使用場(chǎng)景。高級用戶(hù)需要學(xué)習一些HTML標簽和XPath定位技術(shù)。接下來(lái)的升級是用編程語(yǔ)言寫(xiě)爬蟲(chóng),推薦Python。
  3、正則表達式:
  Regular Expression,縮寫(xiě)為RE,是字符串運算的邏輯公式。就是先定義一個(gè)特定字符的組合,然后使用這個(gè)組合所代表的規則來(lái)過(guò)濾字符串的邏輯。主要用于檢查文本輸入的合規性,檢查數據入庫前,使存儲的數據干凈整潔,符合要求。例如,“^\d{n}$”用于限制只能輸入n位的數字。
  數據存儲
  1.主要是關(guān)系型數據庫,Access一般個(gè)人用,免費MySQL一般中小企業(yè)用,大一點(diǎn)的企業(yè)可以用微軟的SQLserver,不缺錢(qián)的用Oracle的Oracle。每個(gè)數據庫都有自己的管理工具,可以借鑒貴公司使用的數據庫。通用的數據庫管理工具Navicat比較流行。
  2.非關(guān)系型數據庫,代表產(chǎn)品MongoDB,基于鍵值對存儲,聽(tīng)說(shuō)性能比較好,沒(méi)用過(guò)。
  3.文件存儲、FTP
  這里主要學(xué)習的是SQL語(yǔ)言,99%的語(yǔ)法是所有數據庫通用的。業(yè)務(wù)人員如果掌握了簡(jiǎn)單的SQL,后面進(jìn)行自助分析時(shí)就會(huì )游刃有余。
  數據清洗
  為了獲得可供分析系統使用的優(yōu)質(zhì)源數據,必須進(jìn)行數據清洗(ETCL,Extract-Transform-Clean-Load)。這個(gè)過(guò)程是對業(yè)務(wù)系統的數據進(jìn)行抽取、轉換、清洗,加載到數據倉庫的過(guò)程。ETCL是數據集成的第一步,也是構建數據倉庫最重要的一步。其目的是整合企業(yè)中分散、雜亂、不統一的數據,為下一步的建模和分析做準備。
  大多數 ETCL 工具都集成到分析工具中。我理解ETCL其實(shí)是一種將不規則數據轉化為規則數據的方法,而不僅僅是一個(gè)清洗工具。
  比如數據庫中的視圖函數,你可以通過(guò)各種函數把表中的數據處理成可以分析的數據形式。
  在清理過(guò)程中,如果能了解一些基本的統計數據就好了,比如均值、標準差、中位數等,這些功能都收錄
在工具中。有一次成都政府在調查我們公司員工的收入時(shí),要求他們按類(lèi)別填寫(xiě)中位數,這讓我們HR很為難。
  ETCL工具,個(gè)人使用推薦Excel的powerquery,2016版本后直接集成到Excel中,不需要單獨安裝。重要性不言而喻??梢詮母鞣N數據庫和文件中提取數據,可視化的操作流程讓數據清洗變得非常簡(jiǎn)單
  報表系統
  對于個(gè)人使用,推薦使用 Excel power pivot。2013之后的Excel直接集成了這個(gè)插件,使用DAX表達式(幾乎和Excel函數一樣)進(jìn)行簡(jiǎn)單的數據清洗,拖拽完成數據建模,最后以數據透視表的形式進(jìn)行OLAP多維分析。Excel基礎好的同學(xué),學(xué)起來(lái)毫無(wú)壓力。
  團隊使用,推薦Finereport,低代碼編程,可定制設計一整套企業(yè)解決方案。設計界面類(lèi)似Excel(功能與Excel功能基本一致)。如果你的Excel功底還不錯,SQL功底很厲害的話(huà),學(xué)這個(gè)也沒(méi)什么壓力。
  
  自助分析系統(BI)
  又稱(chēng)敏捷商業(yè)智能系統,是讓業(yè)務(wù)人員在數據中自由探索的系統。
  例如,當業(yè)務(wù)人員需要分析哪些因素與報廢率有關(guān)時(shí),傳統的方法是先根據經(jīng)驗或專(zhuān)業(yè)理論猜測可能的原因,比如溫度、濕度等,然后采集一段時(shí)間的數據,最后做個(gè)散點(diǎn)圖,求相關(guān)系數。BI 是如何做到的?可以打開(kāi)BI軟件,用SQL調取溫濕度數據,然后調取報廢率數據,做散點(diǎn)圖,自動(dòng)計算相關(guān)系數。聽(tīng)起來(lái)差不多,但是如果你好奇的話(huà),你可以把企業(yè)里面的數據都跑一遍。數據用于與廢品率相關(guān)聯(lián),例如材料的化學(xué)成分,機械性能數據,甚至員工出勤率,食堂就餐人數,拖拽看與報廢率的相關(guān)性。以此尋找可能的突破點(diǎn)。只需幾分鐘,這在傳統分析中是不可想象的??赡苡信笥崖?tīng)過(guò),我說(shuō)的是探索性分析。我認為BI是為業(yè)務(wù)人員的探索性分析而生的。
  BI常用工具
  1. Tableau,目前世界上最好的商業(yè)智能軟件,市場(chǎng)占有率最高,但去年它也頂著(zhù)漂亮的國民名片跟著(zhù)國人的脖子,讓中國高校論文發(fā)表受挫2020年,愛(ài)國者果斷放棄(主要是收費太高)
  2.powerBI,微軟出品,免費個(gè)人版,直接與Excel冪查詢(xún)集成,不斷更新各種圖表插件,是探索性分析的神器,會(huì )Excel學(xué)習成本很低
  3、永紅BI國內市場(chǎng)占有率第一,僅次于Tableau。沒(méi)用過(guò),不做評價(jià)
  4.FineBI,帆軟出品,雖然功能不如這兩個(gè)國外的,但是最懂中國人,操作起來(lái)也很方便。比如計算同比,需要在power BI中寫(xiě)公式,但在Fine BI中只需要點(diǎn)OK就可以了,而且對中文地圖的支持還是比較友好的。
  BI是未來(lái)的趨勢,相信會(huì )越來(lái)越受到管理層的重視。
  通用工具Excel
  Excel在上述工具中多次提到,Excel是學(xué)習上述工具的基礎,因為:
  1、Excel表格可以作為數據庫,每張表格都可以作為數據庫源表
  2、在Excel中獲取外部數據的選項中,點(diǎn)擊從Microsoft Query,就可以直接使用SQL來(lái)操作數據,就像一個(gè)數據庫管理工具
  3.Excel冪查詢(xún)是一款專(zhuān)業(yè)的數據清理工具
  4.Excel power pivot是一款專(zhuān)業(yè)的數據建模工具
  5.power BI 專(zhuān)業(yè)的敏捷自助分析工具
  6、VBA是Excel的加分項。如果你學(xué)會(huì )了,你可以用Excel設計一套完整的商務(wù)軟件
  學(xué)習Excel再學(xué)習其他工具,可以事半功倍。
  最后推薦一本書(shū)《華為數據之道》,這是一本從技術(shù)、流程、管理等多個(gè)維度系統解讀華為數據治理和數字化轉型的書(shū)。書(shū)中濃縮了大量寶貴的經(jīng)驗、方法論、規范、模型、解決方案和案例,不僅可以即學(xué)即用,還可以了解華為數字化建設的全過(guò)程。 查看全部

  解決方案:百分點(diǎn)蘇海波:深度遷移學(xué)習在NLP中的應用及實(shí)踐
  深度遷移學(xué)習無(wú)疑是當前NLP領(lǐng)域的主流技術(shù),在越來(lái)越多的實(shí)際應用場(chǎng)景中取得了驕人的成績(jì)。那么,如何更好地應用這項技術(shù)來(lái)解決樣本小、算力不足的問(wèn)題呢?如何在各種技術(shù)流派的碰撞中找到最優(yōu)解?
  事實(shí)上,Percent在NLP方面擁有多年的技術(shù)和業(yè)務(wù)實(shí)踐經(jīng)驗,服務(wù)過(guò)上百家企業(yè)和政府客戶(hù),成功采用深度遷移學(xué)習技術(shù)解決各行業(yè)客戶(hù)的NLP現實(shí)業(yè)務(wù)問(wèn)題。
  11月21日,AICon全球人工智能與機器學(xué)習大會(huì )首日在北京國際會(huì )議中心開(kāi)幕,百分比首席算法科學(xué)家蘇海波受邀參會(huì ),與大家分享AI最佳實(shí)踐國內外名人,深入剖析模型。技術(shù)原理、谷歌TPU使用經(jīng)驗、模型調參和數據增強等優(yōu)化技巧,同時(shí)分享深度遷移學(xué)習模型在智能問(wèn)答、增強分析、情感等各類(lèi)NLP任務(wù)中的應用實(shí)踐和價(jià)值分析。
  以下為演講實(shí)錄:
  突破深度學(xué)習困境
  大家都知道Algphago在圍棋上打敗了人類(lèi),但它還是有明顯的缺陷,不能像人類(lèi)一樣舉一反三。它針對的是 19*19 的板子。如果換成21*21的棋盤(pán),Alphago馬上就失敗了,不過(guò)人類(lèi)可以舉一反三。
  以騎自行車(chē)為例。如果你學(xué)騎自行車(chē),你會(huì )在學(xué)摩托車(chē)時(shí)借鑒騎自行車(chē)的經(jīng)驗,大大加快摩托車(chē)的學(xué)習速度。這種遷移學(xué)習的能力對人類(lèi)學(xué)習新事物起著(zhù)非常重要的作用。關(guān)鍵作用。
  AI界大神吳恩達曾說(shuō)過(guò):遷移學(xué)習將是繼監督學(xué)習之后未來(lái)五年內最有可能實(shí)現商業(yè)化的AI技術(shù)。那么,什么是遷移學(xué)習?遷移學(xué)習是指利用數據、任務(wù)或模型之間的相似性,將在舊領(lǐng)域學(xué)習的模型應用到新領(lǐng)域的學(xué)習過(guò)程。
  之所以需要遷移學(xué)習是為了解決以下四個(gè)問(wèn)題:
  1、深度學(xué)習與標注少的矛盾:目前深度學(xué)習只能在標注數據充足的場(chǎng)景下發(fā)揮威力。但是在很多實(shí)際問(wèn)題中,我們沒(méi)有足夠的標注數據,這時(shí)候就需要遷移學(xué)習;
  2、算力強與資源弱的矛盾:某些海量數據模型訓練任務(wù)需要非常大的算力,只有大公司才能負擔得起,而普通人的機器資源非常有限。使他們也能夠利用數據和模型;
  3、通用模型與個(gè)體需求的矛盾:通用模型可以解決大部分公共問(wèn)題,但具體的個(gè)體需求有其獨特性,通用模型根本無(wú)法滿(mǎn)足。因此,有必要對這種通用模型進(jìn)行改造和適配,以更好地服務(wù)于各種個(gè)性化需求;
  4. 對特定應用的要求:現實(shí)世界中的一些特定應用,比如個(gè)性化推薦,存在用戶(hù)數據冷啟動(dòng)的問(wèn)題,因此可以通過(guò)遷移學(xué)習來(lái)遷移相似領(lǐng)域的知識。
  遷移學(xué)習方法可以分為四類(lèi),包括基于樣本的遷移學(xué)習方法、基于特征的遷移學(xué)習方法、基于模型的遷移學(xué)習方法和基于關(guān)系的遷移學(xué)習方法。
  今天給大家分享的是基于模型的遷移方法,就是構建一個(gè)源域和目標域參數共享的模型,比如圖中的Chihuahua判別模型和shepherd判別模型,在模型中有沒(méi)有腳有沒(méi)有眼睛的部分可以分享。
  基于模型的遷移學(xué)習方法:從圖像到 NLP
  基于模型的遷移方法特別適用于深度神經(jīng)網(wǎng)絡(luò ),因為神經(jīng)網(wǎng)絡(luò )的結構可以直接遷移,我們稱(chēng)之為深度遷移學(xué)習。早期,這種方法被應用于計算機視覺(jué)中的圖像識別。源域中學(xué)習到的低級特征具有普適性,包括邊緣特征、形狀特征等,從而可以在源域中預訓練整個(gè)模型,并將低級通用特征遷移到目標域可以顯著(zhù)提高相應模型的學(xué)習效果。
  2018年,隨著(zhù)Google BERT的出現,這種預訓練模型方法開(kāi)始應用于NLP領(lǐng)域,對NLP領(lǐng)域產(chǎn)生了革命性的影響。如果學(xué)習詞向量就像學(xué)習計算機視覺(jué)中的圖像邊緣,那么 NLP 中的預訓練模型就像學(xué)習圖像特征的完整層次結構,從邊緣到形狀再到高級語(yǔ)義概念。
  上圖展示了深度遷移學(xué)習在NLP中的技術(shù)思路。首先,通過(guò)源域中已有的海量語(yǔ)料庫,以無(wú)監督的方式訓練一個(gè)語(yǔ)言模型,即預訓練模型。然后在具體目標任務(wù)中,遷移預訓練模型,在其上連接一層全連接網(wǎng)絡(luò )或深度網(wǎng)絡(luò )(如CNN、LSTM、DenseNet、HighWayLSTM等),結合標注樣本訓練當前任務(wù)的模型 這種方法與深度學(xué)習模型相比,所需的樣本數量可以大大減少。
  百分比最佳實(shí)踐:底層效率提升+三大場(chǎng)景應用
  Percent在各種NLP任務(wù)中廣泛使用BERT技術(shù),并不斷優(yōu)化改進(jìn),包括使用谷歌TPU解決算力瓶頸,使用BERT與上層神經(jīng)網(wǎng)絡(luò )聯(lián)合調參,使用各種擴展模型等BERT在效果提升和數據增強方面進(jìn)行探索和實(shí)踐。
  Percent Cognitive Intelligence 業(yè)務(wù)技術(shù)框架圖
  Percent Cognitive Intelligence業(yè)務(wù)的技術(shù)框架。除了CPU和GPU,底層硬件資源也會(huì )租用谷歌的TPU。機器學(xué)習平臺從傳統的機器學(xué)習和深度學(xué)習逐漸轉向目前主流的深度遷移學(xué)習;核心認知 智能技術(shù)層包括自然語(yǔ)言處理、知識圖譜和智能交互。智能交互分為問(wèn)答式問(wèn)答、任務(wù)式問(wèn)答、閱讀理解和NL2SQL;行業(yè)內典型的認知智能應用包括公安法智能檢察問(wèn)答系統、快速零售智能業(yè)務(wù)態(tài)勢分析系統、公安智能翻譯系統、
  接下來(lái)圍繞架構圖中紅色標注的技術(shù)點(diǎn)和應用進(jìn)行展開(kāi)。
  首先是谷歌TPU的做法
  在預訓練語(yǔ)言模型的時(shí)候,我們會(huì )采集
大量的語(yǔ)料(包括維基百科、百度百科、微博、微信等,大約幾十G),訓練一個(gè)通用的預訓練模型,但是base版本的BERT 模型有 1.5 億個(gè)參數,而大版本超過(guò) 3 億,微調和重新預訓練所需的計算能力太高。
  另外,我們在基于預訓練模型進(jìn)行實(shí)際的NLP開(kāi)發(fā)時(shí),會(huì )同時(shí)有多個(gè)任務(wù)。如果我們串行執行,則需要等待很多時(shí)間;如果并行的話(huà),會(huì )消耗太多的算力,硬件成本負擔不起。. 因此,如何探索出一種高效、低成本的研發(fā)模式,將是NLP算法研究人員和工程師共同面臨的問(wèn)題。結合我們的實(shí)踐經(jīng)驗,使用谷歌的TPU資源是解決方案之一。TPU的運算速度是GPU的80多倍。
  下面以租用一個(gè)TPU V2 八核為例,系統的講解一下如何創(chuàng )建虛擬機實(shí)例和TPU實(shí)例。首先進(jìn)入谷歌云的首頁(yè):
  然后需要創(chuàng )建一個(gè)VM實(shí)例,在options中配置顯存、內存量、系統鏡像等。
  
  接下來(lái),創(chuàng )建一個(gè) TPU。有幾個(gè)選項值得注意。在TPUtype項中,會(huì )有v2-8、v3-8、v3-32等選項的說(shuō)明,其中v2或v3是tpu的型號,-8或-32是核心數,最小核心數為8個(gè)核心。
  我們使用TPU V2-8進(jìn)行計算,并在計算時(shí)間和成本上與主流GPU進(jìn)行對比,使用TPU和GPU對BERT模型進(jìn)行500K步的訓練。如圖所示,使用GPU訓練大約需要7天,而使用TPU訓練完成只需要1.2天。同時(shí),總成本也大大降低??梢钥闯?,TPU在BERT預訓練模型的計算時(shí)間和總成本上已經(jīng)完全超越了目前主流的GPU。
  然后我們使用 TPU 作為硬件加速方式,在 BERT 模型上進(jìn)行十輪小時(shí)。這項技術(shù)極大地提高了NLP領(lǐng)域的fine-tune。通過(guò)與目前主流GPU Tesla V100*8對比發(fā)現,TPU完成fine-tune只需要10分鐘左右,而GPU完成同樣的fine-tune需要不止一個(gè)神經(jīng)網(wǎng)絡(luò )計算效率,并且從總成本來(lái)看,使用TPU的成本僅為GPU的3.5%左右。
  因此,TPU超高的效率和低廉的價(jià)格讓神經(jīng)網(wǎng)絡(luò )計算更加“親民”。TPU可以從根本上解決對算力要求高但資金不足的中小企業(yè)的顧慮。過(guò)去幾天需要幾十個(gè) GPU。BERT的預訓練現在一個(gè)TPU一天就可以輕松搞定,讓所有的中小企業(yè)都擁有了之前所缺乏的強大算力。盡管 TPU 在很多方面都打敗了 GPU,但我們認為 TPU 仍有很大的改進(jìn)空間:
  1、TPU的代碼示例和文檔很少,使用門(mén)檻很高;
  2. TPU是圍繞Tensorflow框架設計的硬件。使用其他人工智能框架的項目很難高效低成本地使用TPU進(jìn)行計算;
  3、TPU在checkpoint讀寫(xiě)上效率低下,導致在計算小模型時(shí)效率上沒(méi)有明顯優(yōu)勢。
  情感分類(lèi)實(shí)踐
  情感分類(lèi)是Percent智能消費者洞察分析系統的核心功能?;陔娚?、微信、微博、論壇等數據,系統進(jìn)行各種文本語(yǔ)義分析(包括情感分析、熱點(diǎn)分析等),最終支持口碑分析、趨勢分析、用戶(hù)體驗分析和其他申請決定。目前,該產(chǎn)品已服務(wù)于眾多快消行業(yè)的標桿客戶(hù)。
  需要注意的是,情感分類(lèi)分為短文本和長(cháng)文本,因為BERT模型對輸入文本有長(cháng)度限制,不能超過(guò)512個(gè)詞。
  對于短文本情感分類(lèi),在BERT預訓練模型出現之前,我們使用的是卷積神經(jīng)網(wǎng)絡(luò )(CNN)模型,先應用于圖像,后應用于文本情感分析。CNN主要由輸入層、卷積層、池化層和全連接層組成。卷積的計算方式是對相鄰區域的元素進(jìn)行加權求和,與位置無(wú)關(guān)。實(shí)現了權重參數的共享,池化層實(shí)現了空間采樣,這些方法大大減少了神經(jīng)網(wǎng)絡(luò )的參數,避免了模型過(guò)擬合。
  對于短文本的情感分類(lèi)任務(wù),BERT模型在文本前面插入了一個(gè)[CLS]符號,將該符號對應的輸出向量作為該文本的語(yǔ)義表示進(jìn)行情感分類(lèi),因為它不同于其他文字中已有的詞。相比之下,這種沒(méi)有語(yǔ)義信息的符號會(huì )更“公平”地融合文本中每個(gè)詞的語(yǔ)義信息。
  以上分別是BERT和CNN的實(shí)驗結果??梢钥闯?,隨著(zhù)訓練數據的增加,兩種模型的情感分類(lèi)準確率都在不斷提高。不過(guò),兩者的反差也很明顯。當BERT模型只有1000個(gè)訓練集時(shí),預測準確率達到90%。當CNN模型有10萬(wàn)個(gè)訓練集樣本時(shí),預測準確率僅為88.2%。這表明深度遷移學(xué)習模型所需的標記樣本數量遠小于以往的深度學(xué)習模型,能夠取得更好的效果。
  由于BERT模型的輸入文本有512個(gè)字符的限制,短文本分類(lèi)比較簡(jiǎn)單,直接輸入BERT模型即可。但是對于長(cháng)文本,如何使用BERT模型呢?如果直接截取前面的512個(gè)字符,會(huì )有信息丟失。我們的解決方案是對長(cháng)文本進(jìn)行平均截斷,比如按照平均6段截斷,分成幾段短文本,然后輸入對應的BERT模型或者各種變體,比如RoBERT、Xlnet等,然后將輸出的增強語(yǔ)義向量進(jìn)行拼接,然后連接到GRU模型。
  我們對標記數據集執行 5 折分割,并交叉驗證平均截斷策略的效果。上圖實(shí)驗結果表明,RoBERTa+平均截斷訓練生成的模型F1值高于RoBERTa版本模型,說(shuō)明在長(cháng)文本情感分類(lèi)中,平均截斷策略可以有效提升效果預訓練模型。
  此外,我們還采用了post train的方式來(lái)提升模型的效果。實(shí)驗結果表明,在每條數據上,RoBERTa+ Post train 組合的 F1 和 Acc 均高于 RoBERTa 版本的模型。因此,在長(cháng)文本情感分類(lèi)中,Post train策略可以有效提升預訓練模型的效果。
  智能問(wèn)答實(shí)踐
  下面是百分位數預訓練模型在智能問(wèn)答中的實(shí)踐。
  我們開(kāi)發(fā)了智能檢察問(wèn)答系統,解決了老百姓的普法難題。為廣大群眾日常生活中遇到的法律問(wèn)題提供智能解答,改善民生體驗。該系統榮獲“2019年度全國政法智能建設優(yōu)秀創(chuàng )新產(chǎn)品”獎。系統的核心是問(wèn)題的等價(jià)語(yǔ)義識別,因為同一個(gè)問(wèn)題可以有多種表達方式,例如“18歲以下?lián)尳偈欠穹缸铩?、?8歲以下?lián)尳偈欠穹缸铩?18”表示相同的意思。
  那么如何找到語(yǔ)義等價(jià)問(wèn)題呢?傳統的相似度搜索算法(包括余弦相似度、編輯距離、關(guān)鍵詞巧合、BM25)可以發(fā)揮作用,但仍然不夠,比如“什么是公益訴訟?” 和“什么是行政訴訟?” 編輯距離為2,不等價(jià)于“什么是公益訴訟?”的編輯距離 和“解釋公益訴訟的定義?” 為7,但它們是等價(jià)的,所以需要增加等價(jià)模塊的判斷。
  等價(jià)判斷中存在兩個(gè)典型問(wèn)題:字面相似的句子語(yǔ)義不等價(jià),字面不同的句子語(yǔ)義等價(jià)。我們只是舉了兩個(gè)例子。為了在這兩個(gè)問(wèn)題上取得好的效果,我們的經(jīng)驗是一方面優(yōu)化模型,將深度學(xué)習改為深度遷移學(xué)習模型,通過(guò)人工標注+數據增強的方式增加訓練。數據。
  在具體模型方面,我們基于BERT和BIMPM開(kāi)發(fā)了一種新的語(yǔ)義等價(jià)模型。在BIMPM模型的基礎上,我們進(jìn)行了兩方面的改造。一方面,我們去掉了原來(lái)BIMPM模型中連接詞向量層的Bi-LSTM模型。原因是LSTM沒(méi)有設計機制保證梯度反向傳導到深度模型。. 另一方面,將 BIMPM 頂部的 Bi-LSTM 模型替換為 Transformer 模型。主要原因是Bi-LSTM可以捕捉到數據中的序列特征。但是由于BIMPM采用了多重匹配,序列性不強,所以Transformer更適合這個(gè)模型。
  Percent 提出的問(wèn)句級匹配模型在公開(kāi)的 Quora 數據集中達到了當前最先進(jìn)的水平。該數據集包括超過(guò)400,000個(gè)問(wèn)題組,專(zhuān)門(mén)用于研究?jì)蓚€(gè)句子在語(yǔ)義上是否等價(jià)的二元問(wèn)題。. 由于該數據集的標注質(zhì)量很高,常被用來(lái)測試語(yǔ)義理解的模型效果。我們按照7:2:1的比例分配訓練集、驗證集和測試集。在測試集上的具體實(shí)驗結果如下:
  作為對比,我們第一個(gè)結果是BERT單模型的結果,第二個(gè)和第三個(gè)分別是BERT和ABCNN、BERT和BIMPM的結果。在特征提取的深度方面,我們選擇了BERT預訓練模型的表面層一、表面二層和表面三層。
  如上表結果所示,BERT和BIMPM的結合已經(jīng)超越了BERT單一模型。在我們的新模型中增加 BERT 的特征層數可以提高幾個(gè)點(diǎn)的性能。隨著(zhù)層數的增加,可以獲得更高的F1值和準確率。當層數為3時(shí),準確率為90.52%,F1值為89.68%,達到state-of-the-art效果。
  為了保證實(shí)驗結論的有效性,除了Quora數據集外,我們還使用了SLNI數據集中收錄
句子對等的子數據集,該子數據集收錄
550,000個(gè)訓練集和10,000個(gè)測試集。許多論文使用這些數據來(lái)測試他們的模型包的效果。與這些模型相比,我們的準確率提高了近兩個(gè)點(diǎn),達到了當前最先進(jìn)的水平。具體實(shí)驗結果如上圖所示。.
  我們比較了基于 BERT 的新模型和傳統 CNN 模型在問(wèn)題等價(jià)性上的識別效果。隨著(zhù)訓練數據集的增加,兩者的效果都在逐漸提升。BERT模型在訓練集為5000時(shí),可以識別出CNN模型的準確率達到77%,而CNN模型在訓練集為50000時(shí),識別準確率約為75.5%。好結果。
  
  除了模型的改進(jìn),我們結合數據增強技術(shù),進(jìn)一步提高問(wèn)題語(yǔ)義對等的識別效果。什么是數據增強?
  數據擴充可以簡(jiǎn)單理解為從少量數據生成大量數據的過(guò)程。一般來(lái)說(shuō),一個(gè)比較成功的神經(jīng)網(wǎng)絡(luò )都有大量的參數。要使這些參數正確工作,需要大量數據進(jìn)行訓練,但在實(shí)際情況下,并沒(méi)有那么多數據,因此需要進(jìn)行數據增強,可以提高模型的泛化能力和魯棒性。性別。圖像識別中的數據增強方法包括翻轉、旋轉、縮放等。文本中的數據增強包括切分句子、增刪詞、構造新句子,或者用同義詞替換句子,或者根據模板替換句子等等。
  優(yōu)化相當于問(wèn)句的模型后,可以通過(guò)加入標注數據來(lái)提升效果。那么,需要添加什么樣的標簽數據才能達到好的效果呢?
  我們把整個(gè)大問(wèn)題分解成幾個(gè)子問(wèn)題,表中列出了一些主要的子問(wèn)題。在規律不改變意義的前提下是等價(jià)的;對于庫里的問(wèn)題,有很多詞與問(wèn)的問(wèn)題重疊,但語(yǔ)義并不等同。
  第一種數據增強方法是無(wú)意義詞和關(guān)鍵詞的添加和修改,包括添加無(wú)意義詞進(jìn)行等價(jià),將關(guān)鍵詞替換為同義詞,將關(guān)鍵詞替換為非同義詞后不等價(jià)。
  第二種數據增強方法是改變問(wèn)法后的語(yǔ)義對等,通過(guò)構造一個(gè)等值的問(wèn)句模板,比如名詞短語(yǔ)+有效的各種說(shuō)法,動(dòng)詞短語(yǔ)+各種非法的說(shuō)法等,將相同或等價(jià)的句子元素組合起來(lái)使用不同的模板,例如“請問(wèn),殺死兒童是否構成犯罪?” 和“請問(wèn),殺孩子犯法嗎?” 這兩個(gè)問(wèn)題是模板和同義詞增強生成的等價(jià)問(wèn)題。
  第三種數據增強,加修飾語(yǔ)后語(yǔ)義不等,刪掉修飾語(yǔ)后的句子依然流暢。這里我們使用依存語(yǔ)法的技術(shù)來(lái)分析句子中所有單詞的主從關(guān)系。
  通過(guò)依存句法分析,分析句子的核心關(guān)系、主謂關(guān)系、謂賓關(guān)系、陳述關(guān)系、決定關(guān)系等?!癱ourt”與“made”的關(guān)系是主謂關(guān)系,“made”與“judgment”的關(guān)系是謂賓關(guān)系,“those”與“situation”的關(guān)系是決心。
  根據依存句法的分析結果,我們可以刪除句子中的修飾語(yǔ),以保證刪除后的句子依然順暢,如刪除“those”或“those situations”。
  此外,在很多重疊詞的情況下,我們替換依賴(lài)句法樹(shù)的子樹(shù)。替換后語(yǔ)義不等價(jià),但依然流暢。如何處理請求”。
  通過(guò)這些方法,我們生成了大量的增廣樣本并重新訓練模型,效果得到了顯著(zhù)提升。例如,在用非同義詞替換庫里問(wèn)題關(guān)鍵詞的情況下,準確率從65%提高到91%;在 Curry question 添加不等語(yǔ)義修飾語(yǔ)的情況下,準確率從 63% 提高到 91% 。
  增強分析實(shí)踐
  接下來(lái)介紹深度遷移學(xué)習在增強分析中的實(shí)踐。
  首先,什么是增強分析?增強分析是指基于機器學(xué)習的數據分析和BI功能,包括智能數據發(fā)現、增強數據準備、增強數據分析等模塊。目前,增強分析在BI中得到了廣泛的應用。Gartner認為,到2020年,增強分析將成為新用戶(hù)購買(mǎi)BI產(chǎn)品和數據分析平臺的主要驅動(dòng)力。Percent開(kāi)發(fā)了一套增強型分析產(chǎn)品——智能業(yè)務(wù)分析系統,簡(jiǎn)稱(chēng)Clever BI。
  智能問(wèn)答功能是Clever BI中一個(gè)非常重要的子任務(wù)。其目的是讓用戶(hù)通過(guò)一句自然語(yǔ)言自動(dòng)生成相應的圖表。比如你問(wèn)“我知道這些省份的投訴比較多,是哪個(gè)渠道影響了客戶(hù)體驗?” 系統會(huì )自動(dòng)顯示相應的圖表結果。在學(xué)術(shù)界,這個(gè)任務(wù)被稱(chēng)為NL2SQL,并且已經(jīng)有很多關(guān)于它的研究。
  Clever BI的系統架構包括數據管理層、算法支撐層、功能模塊層和API層。核心功能是智能推薦、智能問(wèn)答和智能挖掘。接下來(lái)重點(diǎn)介紹智能問(wèn)答,這是NL2SQL的實(shí)現原理。
  首先對輸入的問(wèn)句進(jìn)行分詞和依存句法分析,然后需要填充語(yǔ)義槽,通過(guò)模型分析查詢(xún)字段、聚合函數、過(guò)濾條件、分組字段,最后得到對應的生成 SQL 語(yǔ)句。
  將自然語(yǔ)言轉換成 SQL 本身可以看作是一個(gè) Seq2seq 任務(wù)。目前主流的方法是預先寫(xiě)好SQL的模板槽,然后用多個(gè)模型一個(gè)一個(gè)預測槽。X-SQL模型是其中的代表方法之一。,其過(guò)程是通過(guò)MT-DNN對原創(chuàng )
問(wèn)題和字段名稱(chēng)進(jìn)行編碼。MT-DNN是微軟推出的針對多任務(wù)聯(lián)合學(xué)習的BERT優(yōu)化方案。輸出層包括6個(gè)子模型:S-COL和S-AGG。預測select字段,W-NUM用于預測where條件的個(gè)數,W-COL、W-OP、W-VAL用于預測過(guò)濾條件的具體內容。這個(gè)架構已經(jīng)很完善了,但是由于數據限制,模型無(wú)法預測多選多組的內容。
  百分點(diǎn)提出了一種結合X-SQL和依賴(lài)語(yǔ)法樹(shù)的方法來(lái)解決這個(gè)問(wèn)題。X-SQL從深層語(yǔ)義的角度抽取元素,而句法分析則從問(wèn)題的語(yǔ)法結構抽取。舉一個(gè)實(shí)際的例子,分析“每個(gè)區域的新訂單總數”,第一步是分詞,第二步是依存句法分析,可以得到一棵樹(shù),包括詞性、實(shí)體類(lèi)別、結果標簽和依賴(lài)關(guān)系。第三步,通過(guò)詞庫和后序遍歷分析依賴(lài)樹(shù),分析查詢(xún)字段、聚合函數和分組字段。例如“新訂單數量”通過(guò)X-SQL被識別為查詢(xún)詞,“地區” 通過(guò)依賴(lài)關(guān)系識別出來(lái)是一個(gè)分組字段,最后生成對應的SQL語(yǔ)句。另外,在具體使用過(guò)程中,經(jīng)常會(huì )出現比較復雜的時(shí)間題。比如“上個(gè)月”、“將近7天”等等,這些問(wèn)題比較固定,但是解析的時(shí)候需要很多知識。我們使用模板來(lái)處理它們。模板由普通字符和正則語(yǔ)法組成。
  實(shí)際測試中,由于中文NL2SQL領(lǐng)域沒(méi)有統一的數據集,通過(guò)采集
用戶(hù)在Clever BI產(chǎn)品中的實(shí)際使用數據,選取了250條中文測試數據(題目可能包括分組、過(guò)濾條件、復雜時(shí)間等)表達式、查詢(xún)內容和排序等),并在此基礎上進(jìn)行測試,得到的結果如上圖所示。與X-SQL模型相比,改進(jìn)的百分點(diǎn)算法有明顯的效果提升。在實(shí)際測試中,準確率達到了90.45%,并且在實(shí)際使用中,已經(jīng)達到了商用效果。
  綜上所述,在過(guò)去的一年里,隨著(zhù)谷歌BERT模型的出現,給自然語(yǔ)言處理帶來(lái)了長(cháng)足的進(jìn)步。深度遷移學(xué)習已經(jīng)成為未來(lái)NLP的主流技術(shù)。在現有研發(fā)成果的基礎上,TPU、數據增強、BERT模型改進(jìn)、上層網(wǎng)絡(luò )設計等技術(shù)將進(jìn)一步提升深度遷移學(xué)習方法的效率和有效性。
  與深度學(xué)習給計算機視覺(jué)帶來(lái)的技術(shù)突破類(lèi)似,在NLP模型的效果突破之后,零售快消、公共安全、媒體出版等各行業(yè)也將出現越來(lái)越多的認知智能應用。未來(lái)是認知智能發(fā)展的黃金十年。我希望更多的人加入這個(gè)令人興奮的行業(yè)。
  相關(guān)文章
  1個(gè)
  2個(gè)
  3個(gè)
  4個(gè)
  解決方案:篇五:數字化轉型行動(dòng)指南
  優(yōu)化您的組織:
  1、建立業(yè)務(wù)與技術(shù)一體化的組織,就是在業(yè)務(wù)中建設技術(shù)能力,為業(yè)務(wù)部門(mén)配備技術(shù)人員,使其成為具體業(yè)務(wù)部門(mén)的一部分,形成長(cháng)期固定的組織形式。
  絕大多數公司采用職能部門(mén)制組織,看似分工明確,流程順暢,但效率低,速度慢,時(shí)間成本、人力成本、溝通成本特別高,而簡(jiǎn)單的問(wèn)題復雜化,表現為慢、費、難的問(wèn)題
  有些公司采用的是項目制組織,這自然是一種臨時(shí)組織,只對項目目標負責,不對長(cháng)期結果負責。在這個(gè)過(guò)程中,不可能將項目中獲得的數字化經(jīng)驗積累成公司的能力。一旦項目組解散,任何組織都無(wú)法承擔企業(yè)數字化轉型的長(cháng)期任務(wù)。解決慢、貴、難的問(wèn)題,但工藝能力無(wú)法固化,容易流失
  許多公司沒(méi)有意識到人才在哪里,能力就在哪里。職能部門(mén)組織和項目型組織之所以不能在數字化轉型中發(fā)揮作用,是因為他們忽略了這一點(diǎn):能力是人與生俱來(lái)的。業(yè)務(wù)技術(shù)集成的組織方式是目前華為經(jīng)過(guò)10多年探索形成的最好的組織方式。在這種組織模式中,能力不是封閉固化的,而是不斷增長(cháng)的
  2、成立公司級數據管理部門(mén),由各領(lǐng)域專(zhuān)家組成,發(fā)布企業(yè)數據管理總體綱要,編制數據質(zhì)量管理政策和數據源頭管理政策,定期審核數據結構,確定數據歸屬,確定數據互操作性規范等
  數據是資產(chǎn),數據是資產(chǎn)。如果沒(méi)有這樣的組織,那么資產(chǎn)連管理部門(mén)都沒(méi)有。您是否羞于說(shuō)數據是一種資產(chǎn)?
  這個(gè)組織最大的職責是建立一個(gè)結構和組織數據以進(jìn)行有效的溝通。未考慮之前,切不可急于各種系統。你寧愿慢一點(diǎn),否則你將需要花費數倍的精力來(lái)清理數據。
  管理數據質(zhì)量:
  1、元數據管理:元數據是用來(lái)描述數據的數據。這個(gè)非常重要。例如生產(chǎn)班次數據定義為B、C、A,分別代表白班、夜班、三班。這使 BCA 變得有意義。而一旦定義好,存C就是夜班,不能隨便改,C班和二班都不是。這個(gè)必須要由相應的業(yè)務(wù)部門(mén)來(lái)管理,大部分公司不重視這個(gè)。同樣,這非常非常重要!
  2、“一數一源,用而不存”:標準化數據是不同業(yè)務(wù)流程之間相互溝通的業(yè)務(wù)語(yǔ)言。一個(gè)數據定義完成后,其他系統調用只能從這個(gè)數據的源頭調用。這是非常非常重要的。事實(shí)上,在大多數公司,數據源表面上是單一部門(mén)管理,但存儲時(shí)轉手的部門(mén)太多,實(shí)際調用時(shí)數據的真實(shí)性和準確性根本無(wú)法保證. 比如我司產(chǎn)品二維碼編碼規則末尾兩位代表產(chǎn)品模具號(元數據概念),開(kāi)發(fā)部數據庫中存有對照表,其中45代表編號. 12 產(chǎn)品B模具 生產(chǎn)部門(mén)調用時(shí),數字45被解釋為產(chǎn)品B的12號模具,存入生產(chǎn)數據庫。這樣45可能會(huì )被誤解為12,中間dump的進(jìn)程越多,丟失和更改的數據就越多,最終會(huì )導致不同業(yè)務(wù)部門(mén)對同一個(gè)對象的描述不一致。
  3、數據類(lèi)型:主要是文本、數字、日期等類(lèi)型,根據業(yè)務(wù)類(lèi)型設置,該選什么類(lèi)型,很多公司不注重數據類(lèi)型的管理,基本都是文本類(lèi)型,比如date Stored作為文本類(lèi)型,導致數據庫中存儲了大量非日期的日期(如2021-01-35),后期數據匯總分析時(shí)經(jīng)常會(huì )報錯。
  4. ER模型:又稱(chēng)雪花模型、實(shí)體-關(guān)系模型,它提供了一種表示實(shí)體、屬性和聯(lián)系的方法,是一種描述現實(shí)世界概念結構模型的方法。實(shí)體對象之間的關(guān)系通常是一對一、一對多、多對多等,這些概念非常重要和基礎,嚴格按照這種方式設計信息系統會(huì )避免很多冗余. 而且,ER模型是數據建模和分析的基礎,是數據分析各個(gè)環(huán)節不可或缺的理論基礎。
  5、主數據編碼:公司核心實(shí)體對象必須編碼,編碼規則可由公司自行設計。只有編碼對象才能成為數字世界中真實(shí)對象的孿生對象。不難理解,一個(gè)人的身份證號碼就是一個(gè)人的實(shí)體對象代碼。在數字世界中,身份證號碼代表一個(gè)人的唯一實(shí)體,參與數字世界的商業(yè)運作,而不是人的姓名。
  很多公司努力開(kāi)發(fā)了系統,卻在業(yè)務(wù)中途崩盤(pán),這一般是由于對上述對象的管理不到位造成的。這也是我在工作中經(jīng)常遇到的事情,需要花很多時(shí)間去處理。其實(shí)都是臟活累活。如果在系統設計中考慮到以上問(wèn)題,將為后期更多進(jìn)程的不斷擴展和介入提供更多的支持。方便的。
  數據治理能力不是一個(gè)崇高的概念。企業(yè)只要數據質(zhì)量好,就可以不斷打磨出適合企業(yè)的數據標準。您可以開(kāi)發(fā)適合您的數字系統。換句話(huà)說(shuō),數據治理是一個(gè)標準的管理問(wèn)題。
  學(xué)習數據工具:
  以下內容主要是為了提高企業(yè)的業(yè)務(wù)效率。掌握它的人越多,對企業(yè)越有利
  數據采集
  
  1、設備數據采集OPC、組態(tài)軟件InTouch、組態(tài)王等(略),這些我都不會(huì ),下次找高手專(zhuān)門(mén)寫(xiě)篇文章。
  2.網(wǎng)絡(luò )爬蟲(chóng)
  互聯(lián)網(wǎng)是當今世界上最大的數據庫。如果你學(xué)習了爬蟲(chóng)技術(shù),你可以在網(wǎng)絡(luò )中采集
你需要的數據,及時(shí)將數據保存到本地,參與到你公司的業(yè)務(wù)流程中。
  常見(jiàn)的非編程爬蟲(chóng)軟件有:優(yōu)采云
collector、優(yōu)采云
collector、優(yōu)采云
collector、優(yōu)采云
collector等,基本上就是拖拽數據采集規則就形成了,非常友好,可以滿(mǎn)足80%的使用場(chǎng)景。高級用戶(hù)需要學(xué)習一些HTML標簽和XPath定位技術(shù)。接下來(lái)的升級是用編程語(yǔ)言寫(xiě)爬蟲(chóng),推薦Python。
  3、正則表達式:
  Regular Expression,縮寫(xiě)為RE,是字符串運算的邏輯公式。就是先定義一個(gè)特定字符的組合,然后使用這個(gè)組合所代表的規則來(lái)過(guò)濾字符串的邏輯。主要用于檢查文本輸入的合規性,檢查數據入庫前,使存儲的數據干凈整潔,符合要求。例如,“^\d{n}$”用于限制只能輸入n位的數字。
  數據存儲
  1.主要是關(guān)系型數據庫,Access一般個(gè)人用,免費MySQL一般中小企業(yè)用,大一點(diǎn)的企業(yè)可以用微軟的SQLserver,不缺錢(qián)的用Oracle的Oracle。每個(gè)數據庫都有自己的管理工具,可以借鑒貴公司使用的數據庫。通用的數據庫管理工具Navicat比較流行。
  2.非關(guān)系型數據庫,代表產(chǎn)品MongoDB,基于鍵值對存儲,聽(tīng)說(shuō)性能比較好,沒(méi)用過(guò)。
  3.文件存儲、FTP
  這里主要學(xué)習的是SQL語(yǔ)言,99%的語(yǔ)法是所有數據庫通用的。業(yè)務(wù)人員如果掌握了簡(jiǎn)單的SQL,后面進(jìn)行自助分析時(shí)就會(huì )游刃有余。
  數據清洗
  為了獲得可供分析系統使用的優(yōu)質(zhì)源數據,必須進(jìn)行數據清洗(ETCL,Extract-Transform-Clean-Load)。這個(gè)過(guò)程是對業(yè)務(wù)系統的數據進(jìn)行抽取、轉換、清洗,加載到數據倉庫的過(guò)程。ETCL是數據集成的第一步,也是構建數據倉庫最重要的一步。其目的是整合企業(yè)中分散、雜亂、不統一的數據,為下一步的建模和分析做準備。
  大多數 ETCL 工具都集成到分析工具中。我理解ETCL其實(shí)是一種將不規則數據轉化為規則數據的方法,而不僅僅是一個(gè)清洗工具。
  比如數據庫中的視圖函數,你可以通過(guò)各種函數把表中的數據處理成可以分析的數據形式。
  在清理過(guò)程中,如果能了解一些基本的統計數據就好了,比如均值、標準差、中位數等,這些功能都收錄
在工具中。有一次成都政府在調查我們公司員工的收入時(shí),要求他們按類(lèi)別填寫(xiě)中位數,這讓我們HR很為難。
  ETCL工具,個(gè)人使用推薦Excel的powerquery,2016版本后直接集成到Excel中,不需要單獨安裝。重要性不言而喻??梢詮母鞣N數據庫和文件中提取數據,可視化的操作流程讓數據清洗變得非常簡(jiǎn)單
  報表系統
  對于個(gè)人使用,推薦使用 Excel power pivot。2013之后的Excel直接集成了這個(gè)插件,使用DAX表達式(幾乎和Excel函數一樣)進(jìn)行簡(jiǎn)單的數據清洗,拖拽完成數據建模,最后以數據透視表的形式進(jìn)行OLAP多維分析。Excel基礎好的同學(xué),學(xué)起來(lái)毫無(wú)壓力。
  團隊使用,推薦Finereport,低代碼編程,可定制設計一整套企業(yè)解決方案。設計界面類(lèi)似Excel(功能與Excel功能基本一致)。如果你的Excel功底還不錯,SQL功底很厲害的話(huà),學(xué)這個(gè)也沒(méi)什么壓力。
  
  自助分析系統(BI)
  又稱(chēng)敏捷商業(yè)智能系統,是讓業(yè)務(wù)人員在數據中自由探索的系統。
  例如,當業(yè)務(wù)人員需要分析哪些因素與報廢率有關(guān)時(shí),傳統的方法是先根據經(jīng)驗或專(zhuān)業(yè)理論猜測可能的原因,比如溫度、濕度等,然后采集一段時(shí)間的數據,最后做個(gè)散點(diǎn)圖,求相關(guān)系數。BI 是如何做到的?可以打開(kāi)BI軟件,用SQL調取溫濕度數據,然后調取報廢率數據,做散點(diǎn)圖,自動(dòng)計算相關(guān)系數。聽(tīng)起來(lái)差不多,但是如果你好奇的話(huà),你可以把企業(yè)里面的數據都跑一遍。數據用于與廢品率相關(guān)聯(lián),例如材料的化學(xué)成分,機械性能數據,甚至員工出勤率,食堂就餐人數,拖拽看與報廢率的相關(guān)性。以此尋找可能的突破點(diǎn)。只需幾分鐘,這在傳統分析中是不可想象的??赡苡信笥崖?tīng)過(guò),我說(shuō)的是探索性分析。我認為BI是為業(yè)務(wù)人員的探索性分析而生的。
  BI常用工具
  1. Tableau,目前世界上最好的商業(yè)智能軟件,市場(chǎng)占有率最高,但去年它也頂著(zhù)漂亮的國民名片跟著(zhù)國人的脖子,讓中國高校論文發(fā)表受挫2020年,愛(ài)國者果斷放棄(主要是收費太高)
  2.powerBI,微軟出品,免費個(gè)人版,直接與Excel冪查詢(xún)集成,不斷更新各種圖表插件,是探索性分析的神器,會(huì )Excel學(xué)習成本很低
  3、永紅BI國內市場(chǎng)占有率第一,僅次于Tableau。沒(méi)用過(guò),不做評價(jià)
  4.FineBI,帆軟出品,雖然功能不如這兩個(gè)國外的,但是最懂中國人,操作起來(lái)也很方便。比如計算同比,需要在power BI中寫(xiě)公式,但在Fine BI中只需要點(diǎn)OK就可以了,而且對中文地圖的支持還是比較友好的。
  BI是未來(lái)的趨勢,相信會(huì )越來(lái)越受到管理層的重視。
  通用工具Excel
  Excel在上述工具中多次提到,Excel是學(xué)習上述工具的基礎,因為:
  1、Excel表格可以作為數據庫,每張表格都可以作為數據庫源表
  2、在Excel中獲取外部數據的選項中,點(diǎn)擊從Microsoft Query,就可以直接使用SQL來(lái)操作數據,就像一個(gè)數據庫管理工具
  3.Excel冪查詢(xún)是一款專(zhuān)業(yè)的數據清理工具
  4.Excel power pivot是一款專(zhuān)業(yè)的數據建模工具
  5.power BI 專(zhuān)業(yè)的敏捷自助分析工具
  6、VBA是Excel的加分項。如果你學(xué)會(huì )了,你可以用Excel設計一套完整的商務(wù)軟件
  學(xué)習Excel再學(xué)習其他工具,可以事半功倍。
  最后推薦一本書(shū)《華為數據之道》,這是一本從技術(shù)、流程、管理等多個(gè)維度系統解讀華為數據治理和數字化轉型的書(shū)。書(shū)中濃縮了大量寶貴的經(jīng)驗、方法論、規范、模型、解決方案和案例,不僅可以即學(xué)即用,還可以了解華為數字化建設的全過(guò)程。

最新版:需要在前端頁(yè)面開(kāi)啟插入url功能(圖)期

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 158 次瀏覽 ? 2022-12-02 14:21 ? 來(lái)自相關(guān)話(huà)題

  最新版:需要在前端頁(yè)面開(kāi)啟插入url功能(圖)期
  采集內容插入詞庫,需要有一個(gè)可以對應的網(wǎng)頁(yè)庫?,F在一般都是用百度網(wǎng)頁(yè)搜索的方式,你要有一個(gè)可以直接采集的網(wǎng)頁(yè),提供源碼讓大家下載,這個(gè)網(wǎng)頁(yè)就可以直接插入文本信息,而不用自己寫(xiě)什么網(wǎng)址。
  同求!搜索“我的”“我的主頁(yè)”都不能對接網(wǎng)頁(yè)版搜索
  我們正準備實(shí)現這一項目,
  我的也需要這樣的服務(wù)。
  我也一直在搜索這樣的問(wèn)題。
  已經(jīng)有中國百度網(wǎng)站增強服務(wù)了。
  
  需要在前端頁(yè)面開(kāi)啟插入url功能
  我的現在這么問(wèn)題也搜不到,第一次遇到這個(gè)情況,
  我想知道沒(méi)有插入自己網(wǎng)站首頁(yè)能不能插入前端頁(yè)面。
  我的就想問(wèn)下,當你要搜索“我的工作”這個(gè)詞時(shí),搜索結果怎么顯示給你,但是很少搜到相關(guān)的信息。
  已經(jīng)找到方法了,百度“我的主頁(yè)”就可以插入相關(guān)的數據了。
  我的也是這樣的問(wèn)題,看了一下各位的解答后想到:有可能是沒(méi)有出現搜索“我的工作”這樣的關(guān)鍵詞時(shí)候的話(huà)會(huì )失效。
  
  同求
  我的也是這樣的問(wèn)題!
  我的現在就要碰到這個(gè)問(wèn)題!
  我的現在也遇到這個(gè)問(wèn)題
  搜我名字
  同求??!
  我也要如何把url填進(jìn)去還要可以和其他網(wǎng)站合作,不過(guò)像我這樣搜索自己的名字搜不到哎。搜公司名字也搜不到,如果是電腦也要按理說(shuō)搜索自己公司名稱(chēng)搜不到??梢赃@樣?如果使用手機號搜索,搜索我的就還好,但是搜我沒(méi)有關(guān)鍵詞我就搜不到,又不可以使用其他搜索方式,這樣數據怎么查找, 查看全部

  最新版:需要在前端頁(yè)面開(kāi)啟插入url功能(圖)期
  采集內容插入詞庫,需要有一個(gè)可以對應的網(wǎng)頁(yè)庫?,F在一般都是用百度網(wǎng)頁(yè)搜索的方式,你要有一個(gè)可以直接采集的網(wǎng)頁(yè),提供源碼讓大家下載,這個(gè)網(wǎng)頁(yè)就可以直接插入文本信息,而不用自己寫(xiě)什么網(wǎng)址。
  同求!搜索“我的”“我的主頁(yè)”都不能對接網(wǎng)頁(yè)版搜索
  我們正準備實(shí)現這一項目,
  我的也需要這樣的服務(wù)。
  我也一直在搜索這樣的問(wèn)題。
  已經(jīng)有中國百度網(wǎng)站增強服務(wù)了。
  
  需要在前端頁(yè)面開(kāi)啟插入url功能
  我的現在這么問(wèn)題也搜不到,第一次遇到這個(gè)情況,
  我想知道沒(méi)有插入自己網(wǎng)站首頁(yè)能不能插入前端頁(yè)面。
  我的就想問(wèn)下,當你要搜索“我的工作”這個(gè)詞時(shí),搜索結果怎么顯示給你,但是很少搜到相關(guān)的信息。
  已經(jīng)找到方法了,百度“我的主頁(yè)”就可以插入相關(guān)的數據了。
  我的也是這樣的問(wèn)題,看了一下各位的解答后想到:有可能是沒(méi)有出現搜索“我的工作”這樣的關(guān)鍵詞時(shí)候的話(huà)會(huì )失效。
  
  同求
  我的也是這樣的問(wèn)題!
  我的現在就要碰到這個(gè)問(wèn)題!
  我的現在也遇到這個(gè)問(wèn)題
  搜我名字
  同求??!
  我也要如何把url填進(jìn)去還要可以和其他網(wǎng)站合作,不過(guò)像我這樣搜索自己的名字搜不到哎。搜公司名字也搜不到,如果是電腦也要按理說(shuō)搜索自己公司名稱(chēng)搜不到??梢赃@樣?如果使用手機號搜索,搜索我的就還好,但是搜我沒(méi)有關(guān)鍵詞我就搜不到,又不可以使用其他搜索方式,這樣數據怎么查找,

解決方案:有可以按照指定關(guān)鍵詞采集新聞并自己更新數據的軟件嗎,網(wǎng)站文章采集器

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 117 次瀏覽 ? 2022-12-02 07:27 ? 來(lái)自相關(guān)話(huà)題

  解決方案:有可以按照指定關(guān)鍵詞采集新聞并自己更新數據的軟件嗎,網(wǎng)站文章采集器
  淘寶達人喜歡用的關(guān)鍵詞數據采集工具有哪些?
  20萬(wàn)熱門(mén)搜索詞、同行店鋪ID數據、同行熱銷(xiāo)商品數據(年卡用戶(hù)開(kāi)通)??梢渣c(diǎn)擊關(guān)鍵詞加入分類(lèi),軟件會(huì )自動(dòng)跳轉過(guò)去,熱門(mén)商品采集
,愛(ài)淘寶采集
,同行采集
,采集
鏈接第一時(shí)間搜索熱門(mén)商品、數據凈化、淘寶賬號管理。
  如何使用免費文章采集器讓網(wǎng)站快速收錄和關(guān)鍵詞排名,為什么我的網(wǎng)站頁(yè)面沒(méi)有收錄,明明是原創(chuàng )內容。那么為什么網(wǎng)站頁(yè)面不被搜索引擎收錄呢?一個(gè)網(wǎng)站要想有穩定的排名和源源不斷的流量,就需要收錄,收錄的越多越好。如果網(wǎng)站頁(yè)面不收錄,不能怪文章質(zhì)量差。收不收與網(wǎng)站的關(guān)鍵詞、鏈接、robots.txt等內容都有關(guān)系。網(wǎng)站經(jīng)過(guò)前期的優(yōu)化,現在最快的收錄網(wǎng)站頁(yè)面是在發(fā)布之后,即使再慢,也會(huì )在當天收錄。如何使用文章采集器實(shí)現快速采集?
  本文章采集器實(shí)現自動(dòng)采集偽原創(chuàng )刊物并主動(dòng)推送至搜索引擎,讓網(wǎng)站實(shí)現全自動(dòng)優(yōu)化。操作簡(jiǎn)單,無(wú)需學(xué)習更多專(zhuān)業(yè)技術(shù),簡(jiǎn)單幾步即可輕松采集內容數據。用戶(hù)只需對文章采集器進(jìn)行簡(jiǎn)單的設置即可。采集
文章,以便您可以確保與行業(yè)文章的一致性。采集的文章可以保存在本地,也可以偽原創(chuàng )后自動(dòng)發(fā)布,方便快捷的內容采集和偽原創(chuàng )內容的快速制作。
  這個(gè)文章采集器和其他文章采集器相比,基本沒(méi)有任何規則,更不用說(shuō)花很多時(shí)間學(xué)習正則表達式或者html標簽了,一分鐘就能上手。只需要輸入關(guān)鍵詞即可實(shí)現采集(文章 采集器也自帶關(guān)鍵詞采集功能)。全自動(dòng)掛機!設置任務(wù),自動(dòng)執行采集偽原創(chuàng )發(fā)布并主動(dòng)推送至搜索引擎。
  
  無(wú)論您有成百上千個(gè)不同的CMS網(wǎng)站,都可以實(shí)現統一管理。一個(gè)人維護成百上千篇網(wǎng)站文章更新不是問(wèn)題。本文章采集器還搭載了很多SEO功能,可以在通過(guò)軟件采集偽原創(chuàng )刊物的同時(shí)提高很多SEO優(yōu)化。
  1、網(wǎng)站主動(dòng)推送(讓搜索引擎更快的發(fā)現我們的網(wǎng)站)
  2.自動(dòng)匹配圖片(如果文章內容中沒(méi)有圖片,會(huì )自動(dòng)配置相關(guān)圖片)設置為自動(dòng)下載圖片并保存在本地或第三方(這樣內容就不再有對方的外鏈)派對)。
  3、自動(dòng)內鏈(讓搜索引擎更深入地抓取你的鏈接)
  4.在內容或標題前后插入段落或關(guān)鍵詞(標題和標題可以選擇插入相同的關(guān)鍵詞)
  5. 網(wǎng)站內容插入或隨機作者、隨機閱讀等均視為“高度原創(chuàng )”。
  6、定時(shí)發(fā)布(定時(shí)發(fā)布文章,讓搜索引擎按時(shí)抓取你的網(wǎng)站內容)
  利用這些SEO功能可以提高網(wǎng)站頁(yè)面的原創(chuàng )性,提高網(wǎng)站的排名。通過(guò)工具上的監控管理,可以查看文章的收錄發(fā)布情況并主動(dòng)推送(百度/360/搜狗神馬/谷歌等),無(wú)需每天登錄網(wǎng)站后臺查看。直接在工具上自動(dòng)完成SEO內容優(yōu)化。目前博主親測軟件免費,可直接下載使用!
  
  1.增加網(wǎng)站采集
的SEO技巧
  1、主動(dòng)推送鏈接
  作為seo站長(cháng)朋友,我們每天不斷更新sitemap地圖,然后在百度資源上驗證網(wǎng)站,安裝自動(dòng)推送代碼。這種優(yōu)化對搜索引擎非常友好,可以加快網(wǎng)站頁(yè)面內容的抓取和收錄。(可通過(guò)文章采集
器獲得)
  2、提高網(wǎng)站內容的豐富度
  內容是網(wǎng)站的靈魂,網(wǎng)站需要新的內容。站在用戶(hù)的角度,我們可以提取重要的關(guān)鍵詞,做更多他們會(huì )搜索的內容,或者回答問(wèn)題或者解決實(shí)際需求。當然,圖文并茂的內容更受歡迎。文章內容一般不少于500字,配圖不少于3張。另外,別忘了給圖片加上ALT屬性。(通過(guò)采集
新聞源文章實(shí)現)
  3.引導百度蜘蛛爬行
  每天,每個(gè)人都喜歡和更好的人靠攏,百度蜘蛛也不例外。蜘蛛喜歡高權重的網(wǎng)站。網(wǎng)站的權重越高,蜘蛛的訪(fǎng)問(wèn)量就越大。一些優(yōu)質(zhì)的友情鏈接可以引導百度蜘蛛進(jìn)行爬取,加快網(wǎng)站內容的爬取和收錄。
  解決方案:網(wǎng)站怎么優(yōu)化? 全面優(yōu)化網(wǎng)站的四個(gè)大方向分析
  每天都有新的朋友進(jìn)入這個(gè)行業(yè)做網(wǎng)站,這也意味著(zhù)每天都會(huì )產(chǎn)生大量的新網(wǎng)站。但是很多朋友,甚至很多是SEO的朋友,不知道如何讓網(wǎng)站快速收錄,快速排名。那么,應該怎么做才能讓網(wǎng)站快速收錄和排名呢?從三個(gè)方面來(lái)分析。
  一、建站程序
  一、節目選擇
  建網(wǎng)站首先要考慮選擇什么樣的程序,是ASP程序、PHP程序、JSP程序還是程序。確定之后還要考慮是使用開(kāi)源程序還是找建站公司完全開(kāi)發(fā)新的程序。根據自己的需要,如果自己制作網(wǎng)站、論壇、博客、展示站等,一般可以選擇開(kāi)源程序。
  2.代碼簡(jiǎn)化
  如果選擇了開(kāi)源程序,那么在選擇開(kāi)源程序之后就可以選擇對應程序的模板了。網(wǎng)上流行的模板成千上萬(wàn),但我們需要選擇一個(gè)非常精簡(jiǎn)的,符合SEO的。為網(wǎng)站選擇這樣的模板,不僅一目了然,而且打開(kāi)速度非???,給訪(fǎng)問(wèn)者最好的速度體驗。
  而且精簡(jiǎn)的代碼非常有利于搜索引擎的抓取。如果選擇建站公司,需要選擇懂SEO的網(wǎng)站,設計出來(lái)的網(wǎng)站符合SEO的要求,否則優(yōu)化起來(lái)相當困難,也不利于排名。
  三、網(wǎng)站結構
  不同的網(wǎng)站需要根據網(wǎng)站的用途和網(wǎng)站的內容設置不同的欄目,但網(wǎng)站上盡量少用framework和flash。如果要使用它,必須清楚地寫(xiě)出它的屬性。網(wǎng)站一定要有一目了然的導航,這樣用戶(hù)才不會(huì )不知道自己在網(wǎng)站的什么位置就進(jìn)入了網(wǎng)站。
  二、零基礎初學(xué)者如何學(xué)習SEO技術(shù)
  1.我一直認為,如果你從某物中學(xué)習SEO,你就會(huì )成為某物。
  
  古語(yǔ)有名師出良徒。向弱者學(xué)習,自己就會(huì )變得弱??;向強者學(xué)習,自己就會(huì )變得強大。學(xué)習和在社會(huì )上一樣。向聰明的商人學(xué)習,你就會(huì )成為商業(yè)高手;向擺地攤學(xué)習,就會(huì )成為擺地攤;學(xué)習SEO也是如此。
  現在很多朋友喜歡在網(wǎng)上找視頻資料自學(xué)SEO,但是光看視頻是不可能學(xué)好SEO技術(shù)的,沒(méi)有人指導。絕大多數自學(xué)SEO的人還停留在發(fā)外鏈的水平。通過(guò)自學(xué)所學(xué)到的東西只是觸及表面。
  3、想學(xué)習真正的SEO干貨,成為SEO技術(shù)高手,可以加入這條裙子:前面192,然后中間5 8 6,最后加795。有免費直播教學(xué)每天由SEO專(zhuān)家,分享SEO技術(shù)經(jīng)驗。并且還有很多一起學(xué)習SEO技術(shù)的小伙伴與大家交流技術(shù),共同學(xué)習進(jìn)步。你不需要付出任何代價(jià),只要你真的想學(xué)好這門(mén)技術(shù),就可以加入,不想學(xué)就不要加入。
  3. 搜索引擎
  一、文章的原創(chuàng )性
  原創(chuàng )這個(gè)詞,我覺(jué)得說(shuō)多了會(huì )變成渣。之所以在這里提倡原創(chuàng ),只是為了方便搜索引擎收錄。事實(shí)上,即使是機器偽原創(chuàng ),搜索引擎往往也會(huì )樂(lè )此不疲地收錄。當然,搜索引擎是越來(lái)越聰明了,所以搜索引擎會(huì )逐漸識別什么是偽原創(chuàng ),什么是原創(chuàng )。所以,想要前期有好的排名,最好不要轉載,最好選擇純原創(chuàng )或者重度修改的偽原創(chuàng )。
  當然,這并不意味著(zhù)將一篇文章改得面目全非就是偽原創(chuàng )文章。我們在修改文章的同時(shí),也要保證這篇文章對用戶(hù)還是有幫助的,即滿(mǎn)足用戶(hù)的需求,這樣才是合格的偽原創(chuàng )文章。
  2.文章質(zhì)量
  說(shuō)到質(zhì)量,如上所述,假冒原創(chuàng )也可以被搜索引擎收錄,但這并不意味著(zhù)它們可以獲得良好的 關(guān)鍵詞 排名。用戶(hù)無(wú)法忍受低質(zhì)量的假冒原件。所以要寫(xiě)偽原創(chuàng ),一定要是對用戶(hù)有幫助的文章。這樣,蜘蛛就很容易被收錄,用戶(hù)就會(huì )喜歡。對我們之前網(wǎng)站的快速排名很有幫助。當然,如果你有本事,高質(zhì)量的原版肯定更合適。
  3.外鏈。外部鏈接為王。但是現在很多朋友已經(jīng)不再相信“外鏈為王”的傳聞了。
  為什么是這樣?因為在幾年前,建站和排名是非常簡(jiǎn)單的。只要有很多外部鏈接,排名就很容易做到。但是現在垃圾外鏈已經(jīng)失效了,一些垃圾外鏈直接導致網(wǎng)站或者K站降級。但我認為“外鏈為王”貫穿于整個(gè)SEO行業(yè)從過(guò)去到未來(lái)。
  
  4、目前的外鏈不求多,只求精。一個(gè)高質(zhì)量的外鏈可以直接把你的冷門(mén)關(guān)鍵詞推到第一位。因此,在前期發(fā)出高質(zhì)量的外鏈是非常有必要的。它可以輕松地將您的網(wǎng)站提升到最前面。能做好外鏈的絕對高手,比站內優(yōu)化的技術(shù)還要強。光聽(tīng)人家胡說(shuō)八道是行不通的。
  4. 用戶(hù)
  1.直接訪(fǎng)問(wèn)用戶(hù)
  顯然,看這個(gè)的時(shí)候,可以通過(guò)通訊工具等行為直接獲取訪(fǎng)問(wèn)流量。這種前期的流量當然是有效果的,但是效果很小,因為你的網(wǎng)站沒(méi)有被搜索引擎收錄,直接訪(fǎng)問(wèn)必須是你自己推廣的,所以這樣的用戶(hù)對排名是有影響的關(guān)鍵詞 在您網(wǎng)站的早期階段非常小。
  2.從外部鏈接獲得的用戶(hù)
  其實(shí)在前期排名的時(shí)候,通過(guò)外鏈獲取流量是非常重要的。通過(guò)優(yōu)質(zhì)的外鏈,可以將用戶(hù)引導到你的網(wǎng)站,從而形成訪(fǎng)問(wèn)量,你的網(wǎng)站就會(huì )開(kāi)始參與排名。在參與排名的情況下,如果流量足夠好,它會(huì )把我們的主要關(guān)鍵詞推到一個(gè)很高的位置。
  3、搜索引擎獲取的用戶(hù)
  早期排名,很少有用戶(hù)會(huì )通過(guò)搜索直接進(jìn)入你的站點(diǎn),除非你站外有軟文強行讓別人用關(guān)鍵詞搜索,或者你的搜索結果進(jìn)入前兩頁(yè)。此時(shí),您的站點(diǎn)顯示在搜索結果中。如果你的標題足夠好,用戶(hù)很容易選擇點(diǎn)擊你的網(wǎng)站,從而獲得相應的關(guān)鍵詞搜索流量,將關(guān)鍵詞排名提升到靠前的位置。
  4、滿(mǎn)足用戶(hù)需求(核心)。還是忘不了最最最最最重要的:滿(mǎn)足用戶(hù)需求。
  如果我們做的網(wǎng)站不能滿(mǎn)足用戶(hù)的需求,那么即使用戶(hù)通過(guò)一些渠道來(lái)了,也很快就會(huì )離開(kāi)。如果用戶(hù)來(lái)了就喜歡你的網(wǎng)站,并點(diǎn)擊了其他頁(yè)面,那么,恭喜你,你的網(wǎng)站離第一名又近了一點(diǎn)。所以,我們要讓所有進(jìn)來(lái)的訪(fǎng)問(wèn)者盡可能多地瀏覽你的網(wǎng)站,讓它有效地為你的網(wǎng)站投票,這樣你的網(wǎng)站才有更大的機會(huì )排在前列。 查看全部

  解決方案:有可以按照指定關(guān)鍵詞采集新聞并自己更新數據的軟件嗎,網(wǎng)站文章采集器
  淘寶達人喜歡用的關(guān)鍵詞數據采集工具有哪些?
  20萬(wàn)熱門(mén)搜索詞、同行店鋪ID數據、同行熱銷(xiāo)商品數據(年卡用戶(hù)開(kāi)通)??梢渣c(diǎn)擊關(guān)鍵詞加入分類(lèi),軟件會(huì )自動(dòng)跳轉過(guò)去,熱門(mén)商品采集
,愛(ài)淘寶采集
,同行采集
,采集
鏈接第一時(shí)間搜索熱門(mén)商品、數據凈化、淘寶賬號管理。
  如何使用免費文章采集器讓網(wǎng)站快速收錄和關(guān)鍵詞排名,為什么我的網(wǎng)站頁(yè)面沒(méi)有收錄,明明是原創(chuàng )內容。那么為什么網(wǎng)站頁(yè)面不被搜索引擎收錄呢?一個(gè)網(wǎng)站要想有穩定的排名和源源不斷的流量,就需要收錄,收錄的越多越好。如果網(wǎng)站頁(yè)面不收錄,不能怪文章質(zhì)量差。收不收與網(wǎng)站的關(guān)鍵詞、鏈接、robots.txt等內容都有關(guān)系。網(wǎng)站經(jīng)過(guò)前期的優(yōu)化,現在最快的收錄網(wǎng)站頁(yè)面是在發(fā)布之后,即使再慢,也會(huì )在當天收錄。如何使用文章采集器實(shí)現快速采集?
  本文章采集器實(shí)現自動(dòng)采集偽原創(chuàng )刊物并主動(dòng)推送至搜索引擎,讓網(wǎng)站實(shí)現全自動(dòng)優(yōu)化。操作簡(jiǎn)單,無(wú)需學(xué)習更多專(zhuān)業(yè)技術(shù),簡(jiǎn)單幾步即可輕松采集內容數據。用戶(hù)只需對文章采集器進(jìn)行簡(jiǎn)單的設置即可。采集
文章,以便您可以確保與行業(yè)文章的一致性。采集的文章可以保存在本地,也可以偽原創(chuàng )后自動(dòng)發(fā)布,方便快捷的內容采集和偽原創(chuàng )內容的快速制作。
  這個(gè)文章采集器和其他文章采集器相比,基本沒(méi)有任何規則,更不用說(shuō)花很多時(shí)間學(xué)習正則表達式或者html標簽了,一分鐘就能上手。只需要輸入關(guān)鍵詞即可實(shí)現采集(文章 采集器也自帶關(guān)鍵詞采集功能)。全自動(dòng)掛機!設置任務(wù),自動(dòng)執行采集偽原創(chuàng )發(fā)布并主動(dòng)推送至搜索引擎。
  
  無(wú)論您有成百上千個(gè)不同的CMS網(wǎng)站,都可以實(shí)現統一管理。一個(gè)人維護成百上千篇網(wǎng)站文章更新不是問(wèn)題。本文章采集器還搭載了很多SEO功能,可以在通過(guò)軟件采集偽原創(chuàng )刊物的同時(shí)提高很多SEO優(yōu)化。
  1、網(wǎng)站主動(dòng)推送(讓搜索引擎更快的發(fā)現我們的網(wǎng)站)
  2.自動(dòng)匹配圖片(如果文章內容中沒(méi)有圖片,會(huì )自動(dòng)配置相關(guān)圖片)設置為自動(dòng)下載圖片并保存在本地或第三方(這樣內容就不再有對方的外鏈)派對)。
  3、自動(dòng)內鏈(讓搜索引擎更深入地抓取你的鏈接)
  4.在內容或標題前后插入段落或關(guān)鍵詞(標題和標題可以選擇插入相同的關(guān)鍵詞)
  5. 網(wǎng)站內容插入或隨機作者、隨機閱讀等均視為“高度原創(chuàng )”。
  6、定時(shí)發(fā)布(定時(shí)發(fā)布文章,讓搜索引擎按時(shí)抓取你的網(wǎng)站內容)
  利用這些SEO功能可以提高網(wǎng)站頁(yè)面的原創(chuàng )性,提高網(wǎng)站的排名。通過(guò)工具上的監控管理,可以查看文章的收錄發(fā)布情況并主動(dòng)推送(百度/360/搜狗神馬/谷歌等),無(wú)需每天登錄網(wǎng)站后臺查看。直接在工具上自動(dòng)完成SEO內容優(yōu)化。目前博主親測軟件免費,可直接下載使用!
  
  1.增加網(wǎng)站采集
的SEO技巧
  1、主動(dòng)推送鏈接
  作為seo站長(cháng)朋友,我們每天不斷更新sitemap地圖,然后在百度資源上驗證網(wǎng)站,安裝自動(dòng)推送代碼。這種優(yōu)化對搜索引擎非常友好,可以加快網(wǎng)站頁(yè)面內容的抓取和收錄。(可通過(guò)文章采集
器獲得)
  2、提高網(wǎng)站內容的豐富度
  內容是網(wǎng)站的靈魂,網(wǎng)站需要新的內容。站在用戶(hù)的角度,我們可以提取重要的關(guān)鍵詞,做更多他們會(huì )搜索的內容,或者回答問(wèn)題或者解決實(shí)際需求。當然,圖文并茂的內容更受歡迎。文章內容一般不少于500字,配圖不少于3張。另外,別忘了給圖片加上ALT屬性。(通過(guò)采集
新聞源文章實(shí)現)
  3.引導百度蜘蛛爬行
  每天,每個(gè)人都喜歡和更好的人靠攏,百度蜘蛛也不例外。蜘蛛喜歡高權重的網(wǎng)站。網(wǎng)站的權重越高,蜘蛛的訪(fǎng)問(wèn)量就越大。一些優(yōu)質(zhì)的友情鏈接可以引導百度蜘蛛進(jìn)行爬取,加快網(wǎng)站內容的爬取和收錄。
  解決方案:網(wǎng)站怎么優(yōu)化? 全面優(yōu)化網(wǎng)站的四個(gè)大方向分析
  每天都有新的朋友進(jìn)入這個(gè)行業(yè)做網(wǎng)站,這也意味著(zhù)每天都會(huì )產(chǎn)生大量的新網(wǎng)站。但是很多朋友,甚至很多是SEO的朋友,不知道如何讓網(wǎng)站快速收錄,快速排名。那么,應該怎么做才能讓網(wǎng)站快速收錄和排名呢?從三個(gè)方面來(lái)分析。
  一、建站程序
  一、節目選擇
  建網(wǎng)站首先要考慮選擇什么樣的程序,是ASP程序、PHP程序、JSP程序還是程序。確定之后還要考慮是使用開(kāi)源程序還是找建站公司完全開(kāi)發(fā)新的程序。根據自己的需要,如果自己制作網(wǎng)站、論壇、博客、展示站等,一般可以選擇開(kāi)源程序。
  2.代碼簡(jiǎn)化
  如果選擇了開(kāi)源程序,那么在選擇開(kāi)源程序之后就可以選擇對應程序的模板了。網(wǎng)上流行的模板成千上萬(wàn),但我們需要選擇一個(gè)非常精簡(jiǎn)的,符合SEO的。為網(wǎng)站選擇這樣的模板,不僅一目了然,而且打開(kāi)速度非???,給訪(fǎng)問(wèn)者最好的速度體驗。
  而且精簡(jiǎn)的代碼非常有利于搜索引擎的抓取。如果選擇建站公司,需要選擇懂SEO的網(wǎng)站,設計出來(lái)的網(wǎng)站符合SEO的要求,否則優(yōu)化起來(lái)相當困難,也不利于排名。
  三、網(wǎng)站結構
  不同的網(wǎng)站需要根據網(wǎng)站的用途和網(wǎng)站的內容設置不同的欄目,但網(wǎng)站上盡量少用framework和flash。如果要使用它,必須清楚地寫(xiě)出它的屬性。網(wǎng)站一定要有一目了然的導航,這樣用戶(hù)才不會(huì )不知道自己在網(wǎng)站的什么位置就進(jìn)入了網(wǎng)站。
  二、零基礎初學(xué)者如何學(xué)習SEO技術(shù)
  1.我一直認為,如果你從某物中學(xué)習SEO,你就會(huì )成為某物。
  
  古語(yǔ)有名師出良徒。向弱者學(xué)習,自己就會(huì )變得弱??;向強者學(xué)習,自己就會(huì )變得強大。學(xué)習和在社會(huì )上一樣。向聰明的商人學(xué)習,你就會(huì )成為商業(yè)高手;向擺地攤學(xué)習,就會(huì )成為擺地攤;學(xué)習SEO也是如此。
  現在很多朋友喜歡在網(wǎng)上找視頻資料自學(xué)SEO,但是光看視頻是不可能學(xué)好SEO技術(shù)的,沒(méi)有人指導。絕大多數自學(xué)SEO的人還停留在發(fā)外鏈的水平。通過(guò)自學(xué)所學(xué)到的東西只是觸及表面。
  3、想學(xué)習真正的SEO干貨,成為SEO技術(shù)高手,可以加入這條裙子:前面192,然后中間5 8 6,最后加795。有免費直播教學(xué)每天由SEO專(zhuān)家,分享SEO技術(shù)經(jīng)驗。并且還有很多一起學(xué)習SEO技術(shù)的小伙伴與大家交流技術(shù),共同學(xué)習進(jìn)步。你不需要付出任何代價(jià),只要你真的想學(xué)好這門(mén)技術(shù),就可以加入,不想學(xué)就不要加入。
  3. 搜索引擎
  一、文章的原創(chuàng )性
  原創(chuàng )這個(gè)詞,我覺(jué)得說(shuō)多了會(huì )變成渣。之所以在這里提倡原創(chuàng ),只是為了方便搜索引擎收錄。事實(shí)上,即使是機器偽原創(chuàng ),搜索引擎往往也會(huì )樂(lè )此不疲地收錄。當然,搜索引擎是越來(lái)越聰明了,所以搜索引擎會(huì )逐漸識別什么是偽原創(chuàng ),什么是原創(chuàng )。所以,想要前期有好的排名,最好不要轉載,最好選擇純原創(chuàng )或者重度修改的偽原創(chuàng )。
  當然,這并不意味著(zhù)將一篇文章改得面目全非就是偽原創(chuàng )文章。我們在修改文章的同時(shí),也要保證這篇文章對用戶(hù)還是有幫助的,即滿(mǎn)足用戶(hù)的需求,這樣才是合格的偽原創(chuàng )文章。
  2.文章質(zhì)量
  說(shuō)到質(zhì)量,如上所述,假冒原創(chuàng )也可以被搜索引擎收錄,但這并不意味著(zhù)它們可以獲得良好的 關(guān)鍵詞 排名。用戶(hù)無(wú)法忍受低質(zhì)量的假冒原件。所以要寫(xiě)偽原創(chuàng ),一定要是對用戶(hù)有幫助的文章。這樣,蜘蛛就很容易被收錄,用戶(hù)就會(huì )喜歡。對我們之前網(wǎng)站的快速排名很有幫助。當然,如果你有本事,高質(zhì)量的原版肯定更合適。
  3.外鏈。外部鏈接為王。但是現在很多朋友已經(jīng)不再相信“外鏈為王”的傳聞了。
  為什么是這樣?因為在幾年前,建站和排名是非常簡(jiǎn)單的。只要有很多外部鏈接,排名就很容易做到。但是現在垃圾外鏈已經(jīng)失效了,一些垃圾外鏈直接導致網(wǎng)站或者K站降級。但我認為“外鏈為王”貫穿于整個(gè)SEO行業(yè)從過(guò)去到未來(lái)。
  
  4、目前的外鏈不求多,只求精。一個(gè)高質(zhì)量的外鏈可以直接把你的冷門(mén)關(guān)鍵詞推到第一位。因此,在前期發(fā)出高質(zhì)量的外鏈是非常有必要的。它可以輕松地將您的網(wǎng)站提升到最前面。能做好外鏈的絕對高手,比站內優(yōu)化的技術(shù)還要強。光聽(tīng)人家胡說(shuō)八道是行不通的。
  4. 用戶(hù)
  1.直接訪(fǎng)問(wèn)用戶(hù)
  顯然,看這個(gè)的時(shí)候,可以通過(guò)通訊工具等行為直接獲取訪(fǎng)問(wèn)流量。這種前期的流量當然是有效果的,但是效果很小,因為你的網(wǎng)站沒(méi)有被搜索引擎收錄,直接訪(fǎng)問(wèn)必須是你自己推廣的,所以這樣的用戶(hù)對排名是有影響的關(guān)鍵詞 在您網(wǎng)站的早期階段非常小。
  2.從外部鏈接獲得的用戶(hù)
  其實(shí)在前期排名的時(shí)候,通過(guò)外鏈獲取流量是非常重要的。通過(guò)優(yōu)質(zhì)的外鏈,可以將用戶(hù)引導到你的網(wǎng)站,從而形成訪(fǎng)問(wèn)量,你的網(wǎng)站就會(huì )開(kāi)始參與排名。在參與排名的情況下,如果流量足夠好,它會(huì )把我們的主要關(guān)鍵詞推到一個(gè)很高的位置。
  3、搜索引擎獲取的用戶(hù)
  早期排名,很少有用戶(hù)會(huì )通過(guò)搜索直接進(jìn)入你的站點(diǎn),除非你站外有軟文強行讓別人用關(guān)鍵詞搜索,或者你的搜索結果進(jìn)入前兩頁(yè)。此時(shí),您的站點(diǎn)顯示在搜索結果中。如果你的標題足夠好,用戶(hù)很容易選擇點(diǎn)擊你的網(wǎng)站,從而獲得相應的關(guān)鍵詞搜索流量,將關(guān)鍵詞排名提升到靠前的位置。
  4、滿(mǎn)足用戶(hù)需求(核心)。還是忘不了最最最最最重要的:滿(mǎn)足用戶(hù)需求。
  如果我們做的網(wǎng)站不能滿(mǎn)足用戶(hù)的需求,那么即使用戶(hù)通過(guò)一些渠道來(lái)了,也很快就會(huì )離開(kāi)。如果用戶(hù)來(lái)了就喜歡你的網(wǎng)站,并點(diǎn)擊了其他頁(yè)面,那么,恭喜你,你的網(wǎng)站離第一名又近了一點(diǎn)。所以,我們要讓所有進(jìn)來(lái)的訪(fǎng)問(wèn)者盡可能多地瀏覽你的網(wǎng)站,讓它有效地為你的網(wǎng)站投票,這樣你的網(wǎng)站才有更大的機會(huì )排在前列。

匯總:采集內容插入詞庫程序的特點(diǎn)及特點(diǎn)分析-樂(lè )題庫

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 103 次瀏覽 ? 2022-12-01 12:36 ? 來(lái)自相關(guān)話(huà)題

  匯總:采集內容插入詞庫程序的特點(diǎn)及特點(diǎn)分析-樂(lè )題庫
  采集內容插入詞庫,首先要做的就是要有內容的數據。爬蟲(chóng)工具我目前了解到有“全詞抓取”這個(gè)工具,可以先抓取很多網(wǎng)站里的詞語(yǔ),爬蟲(chóng)能不能爬到,不能返回給java工程師這個(gè)可能就有問(wèn)題。你可以自己配一個(gè)庫,自己寫(xiě)一個(gè)庫實(shí)現。爬蟲(chóng)程序應該是自己寫(xiě)的。
  個(gè)人覺(jué)得搜狗的話(huà)可以用網(wǎng)頁(yè)抓?。╯pider.baidu)。建議你抓網(wǎng)頁(yè)的時(shí)候帶上詞庫的url。
  
  你可以搜索一下網(wǎng)頁(yè)的內容,有些詞可能放在某些網(wǎng)站里,要不然你到搜狗搜索這個(gè)詞,可能是其他的站收錄的內容。我用的是sogou網(wǎng)頁(yè)搜索,
  個(gè)人感覺(jué)搜狗網(wǎng)頁(yè)抓取比較好用。
  搜狗搜索很方便
  
  有個(gè)工具很好用,將網(wǎng)頁(yè)內容提取出來(lái),可以上傳詞庫,也可以分詞抓取,是一種很好的方式,和插入網(wǎng)頁(yè)詞庫不同,這種方式可以和java程序分享網(wǎng)頁(yè)內容,segmentfault也有人有成功的案例。
  搜狗搜索打開(kāi)站內搜索網(wǎng)頁(yè)才能搜索,是個(gè)很好的嘗試。
  從爬蟲(chóng)技術(shù)角度來(lái)說(shuō),一個(gè)好的爬蟲(chóng)程序應該具備如下特點(diǎn):能夠自動(dòng)提取網(wǎng)頁(yè)中提供給java程序爬取的詞語(yǔ)或者短語(yǔ);爬蟲(chóng)程序讀取、提取網(wǎng)頁(yè)的地址過(guò)程應該簡(jiǎn)單無(wú)腦;爬蟲(chóng)程序應該具有良好的個(gè)性化設置,要有完善的設計規范,方便以后更好地管理、使用。從java程序角度來(lái)說(shuō),一個(gè)好的java爬蟲(chóng)程序應該具備如下特點(diǎn):能夠自動(dòng)提取網(wǎng)頁(yè)中提供給java程序爬取的詞語(yǔ)或者短語(yǔ);爬蟲(chóng)程序讀取、提取網(wǎng)頁(yè)的地址過(guò)程應該簡(jiǎn)單無(wú)腦;爬蟲(chóng)程序應該具有良好的個(gè)性化設置,要有完善的設計規范,方便以后更好地管理、使用。 查看全部

  匯總:采集內容插入詞庫程序的特點(diǎn)及特點(diǎn)分析-樂(lè )題庫
  采集內容插入詞庫,首先要做的就是要有內容的數據。爬蟲(chóng)工具我目前了解到有“全詞抓取”這個(gè)工具,可以先抓取很多網(wǎng)站里的詞語(yǔ),爬蟲(chóng)能不能爬到,不能返回給java工程師這個(gè)可能就有問(wèn)題。你可以自己配一個(gè)庫,自己寫(xiě)一個(gè)庫實(shí)現。爬蟲(chóng)程序應該是自己寫(xiě)的。
  個(gè)人覺(jué)得搜狗的話(huà)可以用網(wǎng)頁(yè)抓?。╯pider.baidu)。建議你抓網(wǎng)頁(yè)的時(shí)候帶上詞庫的url。
  
  你可以搜索一下網(wǎng)頁(yè)的內容,有些詞可能放在某些網(wǎng)站里,要不然你到搜狗搜索這個(gè)詞,可能是其他的站收錄的內容。我用的是sogou網(wǎng)頁(yè)搜索,
  個(gè)人感覺(jué)搜狗網(wǎng)頁(yè)抓取比較好用。
  搜狗搜索很方便
  
  有個(gè)工具很好用,將網(wǎng)頁(yè)內容提取出來(lái),可以上傳詞庫,也可以分詞抓取,是一種很好的方式,和插入網(wǎng)頁(yè)詞庫不同,這種方式可以和java程序分享網(wǎng)頁(yè)內容,segmentfault也有人有成功的案例。
  搜狗搜索打開(kāi)站內搜索網(wǎng)頁(yè)才能搜索,是個(gè)很好的嘗試。
  從爬蟲(chóng)技術(shù)角度來(lái)說(shuō),一個(gè)好的爬蟲(chóng)程序應該具備如下特點(diǎn):能夠自動(dòng)提取網(wǎng)頁(yè)中提供給java程序爬取的詞語(yǔ)或者短語(yǔ);爬蟲(chóng)程序讀取、提取網(wǎng)頁(yè)的地址過(guò)程應該簡(jiǎn)單無(wú)腦;爬蟲(chóng)程序應該具有良好的個(gè)性化設置,要有完善的設計規范,方便以后更好地管理、使用。從java程序角度來(lái)說(shuō),一個(gè)好的java爬蟲(chóng)程序應該具備如下特點(diǎn):能夠自動(dòng)提取網(wǎng)頁(yè)中提供給java程序爬取的詞語(yǔ)或者短語(yǔ);爬蟲(chóng)程序讀取、提取網(wǎng)頁(yè)的地址過(guò)程應該簡(jiǎn)單無(wú)腦;爬蟲(chóng)程序應該具有良好的個(gè)性化設置,要有完善的設計規范,方便以后更好地管理、使用。

干貨內容:seo清洗百萬(wàn)長(cháng)尾詞數據的策略

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 66 次瀏覽 ? 2022-11-29 13:45 ? 來(lái)自相關(guān)話(huà)題

  干貨內容:seo清洗百萬(wàn)長(cháng)尾詞數據的策略
  前言
  要不是有CEO主動(dòng)找了高薪SEO的人坐飛機過(guò)來(lái),說(shuō)實(shí)話(huà),很多SEO人員在公司都是“弱勢群體”。
  絕大多數普通seo人員在公司和跨部門(mén)溝通中沒(méi)有多少相應的話(huà)語(yǔ)權,有很多細節無(wú)法協(xié)調。
  在這樣的環(huán)境下,seoer要想做好,就必須充分發(fā)揮自己的主觀(guān)能動(dòng)性,千方百計去完成那些表面上不值一提,暗地里卻又不可避免的事情。
  問(wèn)題
  seo和sem需要在全網(wǎng)大量挖掘長(cháng)尾詞,但是大規模的長(cháng)尾詞注定會(huì )帶來(lái)一些數據清洗工作。在大多數情況下,清理工作可以在 Excel 中完成,但也有很多情況。Excel很難處理,比如:
  這是從第三方關(guān)鍵詞工具下載的詞根“drainage”的長(cháng)尾詞數據,但是遇到了一個(gè)尷尬的問(wèn)題。詞根“drainage”有同義詞但場(chǎng)景不同,所以會(huì )導致挖掘出很多不相關(guān)的長(cháng)尾詞:
  事實(shí)上,這種情況很常見(jiàn)。單個(gè)詞往往不可避免地與其他場(chǎng)景混淆,例如:
  水果中的“蘋(píng)果”、手機中的“蘋(píng)果”和電影中的“蘋(píng)果”,是一個(gè)形同字義卻截然不同的詞。單純的用詞根挖詞,自然會(huì )挖出很多非目標的長(cháng)尾詞。
  類(lèi)似的情況還有很多,那么問(wèn)題來(lái)了:剔除非目標長(cháng)尾詞是必須的。這樣的細枝末節在seo工作中做好是理所當然的事情。老板一來(lái)不會(huì )幫我們做,二來(lái)也不會(huì )指派我們去做。如果這是一個(gè)百萬(wàn)級別的長(cháng)尾詞數據,在Excel中全部篩選淘汰,這個(gè)項目可能已經(jīng)過(guò)時(shí)了。
  面對如此雜亂的長(cháng)尾詞數據,如何進(jìn)行高效的過(guò)濾篩選?
  今天的文章是一篇完全基于技術(shù)的內容,但是對于不懂技術(shù)的朋友,強烈推薦完整閱讀。有兩點(diǎn):
  技術(shù)是另一種思維方式。不是技術(shù)的朋友,可以看看技術(shù)人員遇到問(wèn)題是怎么處理的。
  在“網(wǎng)絡(luò )營(yíng)銷(xiāo)”工作中,有很多工作超出了我們的能力范圍,但是充分發(fā)揮我們的主觀(guān)能動(dòng)性,做出超出這個(gè)崗位應有的能力水平,往往會(huì )帶來(lái)額外的收獲。
  開(kāi)始
  前段時(shí)間接手了一個(gè)采集
項目(只是熟人之間的合法生意)。隨著(zhù)收錄量的增加,“敏感詞過(guò)濾”的工作在所難免,比如政治、色情、暴力、廣告等,這些相關(guān)的詞都要被識別出來(lái)。
  目前市面上能搜集到的敏感詞庫,如果只是整合幾份的話(huà),可以達到幾萬(wàn)甚至更多,因為隨著(zhù)時(shí)間的推移,會(huì )產(chǎn)生各種新的詞匯。
  使用程序識別一篇文章是否收錄
目標敏感詞,以Python為例:
  refusalWord = '敏感詞'
targetText = '內容正文'
if refusalWord in target_text:print(True)
  讓程序在目標文本中搜索這個(gè)敏感詞。如果找到,則說(shuō)明存在敏感詞。這是只有一個(gè)敏感詞的情況。如果有多個(gè)敏感詞,也簡(jiǎn)單。添加一個(gè)循環(huán):
  refusalWord = ['敏感詞1','敏感詞2','敏感詞3']
targetText = '內容正文'
for word in refusalWord:
if word in target_text:print(True)
  該程序在目標文本中逐一搜索敏感詞。如果有幾百個(gè)敏感詞,一個(gè)一個(gè)重復處理,效率很低,感覺(jué)不是很優(yōu)雅。正則表達式可以做得很簡(jiǎn)潔:
  import re
refusalWord = ['敏感詞1','敏感詞2','敏感詞3']
targetText = '內容正文'
if re.search('|'.join(refusalWord),targetText):print(True)
  所有敏感詞用“|”連接 組成一個(gè)正則表達式:“敏感詞1|敏感詞2|敏感詞3”,用這個(gè)表達式匹配目標文本,找出所有出現的敏感詞。
  但是如果有幾萬(wàn)個(gè)甚至更多的敏感詞怎么辦?了解正則表達式的朋友都知道,這樣寫(xiě)的表達式極不合理,可能會(huì )出現各種各樣的問(wèn)題。
  而且,當敏感詞數以萬(wàn)計或更多時(shí),效率會(huì )線(xiàn)性下降。加上后期更換等其他工作,時(shí)間成本會(huì )更高。
  而且,我們之前的演示只是針對只有一個(gè)目標文本的情況。如果敏感詞個(gè)數為N,目標文本為M怎么辦?在簡(jiǎn)單的雙循環(huán)的情況下,時(shí)間復雜度至少是N*M。
  這時(shí)候就需要用到我們今天的主角了:“交流自動(dòng)機”算法。
  PS:不懂技術(shù)的朋友不用糾結代碼,只需要明白這是一個(gè)方案優(yōu)化的問(wèn)題。我們在面對敏感詞從1到N到N++的過(guò)程中不斷優(yōu)化技術(shù)方案,提高效率。
  AC自動(dòng)機算法是一種多模匹配算法。算法的高明和深奧,不是我們這種非科學(xué)的人可以去探究的,但是算法的意義和不同,我們還是可以理解的。
  在上面的例子中,即使是非技術(shù)的朋友也會(huì )明白,隨著(zhù)敏感詞庫數量的不斷增加,程序會(huì )判斷一篇文章是否收錄
某個(gè)詞或敏感詞庫中的某些詞,時(shí)間成本會(huì )逐漸增加。是的,因為無(wú)意義的判斷越來(lái)越多,所以這是一個(gè)單一的模式。
  AC自動(dòng)機通過(guò)使用多模匹配算法來(lái)解決這個(gè)問(wèn)題,也就是說(shuō):隨著(zhù)敏感詞庫的增加,時(shí)間成本保持不變(至少在一定數量級內)。
  那么這與我們正在談?wù)摰?關(guān)鍵詞 清理有什么關(guān)系呢?下面我們一步一步來(lái)演示。
  第一步:選擇一個(gè)有代表性的詞根
  這是一個(gè)擁有數十萬(wàn)詞的“引流”長(cháng)尾詞庫。里面有兩種長(cháng)尾詞,網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞和醫療技術(shù)相關(guān)的長(cháng)尾詞。我們的目的是將這兩類(lèi)長(cháng)尾詞分開(kāi)。
  在Excel中,面對這樣一條數據,需要將兩邊分開(kāi),即過(guò)濾掉目標或者過(guò)濾掉非目標再剔除。我們先來(lái)考慮一下一般的操作方法是怎樣的:
  逐行讀取,標記非目標數據,然后過(guò)濾掉全部刪除,但是對象有幾十萬(wàn),甚至更多。這效率可想而知。能一行一行念下去,是個(gè)兇人。
  選擇一些高頻的非目標詞或詞,然后過(guò)濾掉,反復重復這個(gè)操作。這種方法看起來(lái)很快,一次可以消除一大片區域。
  但是如果你充分理解了關(guān)鍵詞的長(cháng)尾效應,你就會(huì )明白這個(gè)方法在后期會(huì )比較痛苦,因為很多選中的詞在后期不會(huì )刪除很多詞,反復篩選和刪除會(huì )讓人崩潰。
  另外,在Excel上似乎沒(méi)有更好的方法來(lái)處理這樣的問(wèn)題,現在我們用另一種方法來(lái)解決這個(gè)問(wèn)題。
  和往常一樣,先把所有的長(cháng)尾詞切分,統計詞頻:
  接下來(lái),需要根據“常識”人工選擇具有代表性的“類(lèi)別種子根”?!芭c醫療技術(shù)相關(guān)的詞被選擇并放在另一個(gè)文件中。
  所謂“明明而已”,比如:“腳本”,也就是腳本工具,這樣的詞基本不可能和醫療技術(shù)的長(cháng)尾詞有任何關(guān)系,而“傷口”基本不可能與互聯(lián)網(wǎng)推廣有任何關(guān)系。什么關(guān)系。
  所謂“常識”,比如:經(jīng)常有一些與網(wǎng)絡(luò )推廣相關(guān)的平臺名稱(chēng),比如知乎、微信、淘寶等,這些想都沒(méi)想就直接寫(xiě)了。
  所以在選擇的時(shí)候一定要確定這個(gè)詞的歸屬是否明確。如果它是模糊的,我寧愿不要!
  前者被視為“正”,后者被視為“負”?!罢笔俏覀兡繕碎L(cháng)尾詞的代表詞根。選擇多少?同樣,關(guān)鍵詞 符合 28 原則。
  我們可以看到,top root 詞出現的頻率非常高,一個(gè)詞根可以牽連到很多長(cháng)尾詞。我只從幾十萬(wàn)個(gè)長(cháng)尾詞中選出了一百八十個(gè)這樣的長(cháng)尾詞。
  即使長(cháng)尾詞的數量增加了 10 倍,也不會(huì )有更多的代表詞根可供選擇。
  第 2 步:擴展代表根
  我們選擇這些種子詞的目的很簡(jiǎn)單:在將“正面”種子詞納入詞庫時(shí),可以從肯定是目標類(lèi)別的長(cháng)尾詞中篩選出“正面”種子詞。上面我們選擇了“WeChat”作為種子詞,我們認為它只可能出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中,所以可以通過(guò)取“WeChat”過(guò)濾掉所有收錄
“WeChat”的長(cháng)尾詞進(jìn)入詞庫。這些與網(wǎng)絡(luò )推廣有關(guān):
  長(cháng)尾詞一般具有以下特點(diǎn):
  微信引流腳本開(kāi)發(fā)
  對于這樣的長(cháng)尾詞,我們通過(guò)“微信”進(jìn)行提取。除了詞根“drainage”,因為這個(gè)長(cháng)尾詞與網(wǎng)絡(luò )推廣有關(guān),其他詞根很可能與網(wǎng)絡(luò )推廣有關(guān)。比如這里的“Scripts”和“development”是絕對不可能和醫療技術(shù)相關(guān)的,反之亦然:
  膿腫切開(kāi)引流
  我們從種子詞“surgery”中得到,分詞“abscess”和“incision”與網(wǎng)絡(luò )推廣的可能性不大,可以作為新的種子詞加入“anti”的范疇。
  這時(shí)候思路就清晰了。我們首先選取一些有代表性的種子詞,用這些種子詞過(guò)濾出所有相關(guān)的長(cháng)尾詞,然后將這些選取的長(cháng)尾詞進(jìn)行分割,利用關(guān)鍵詞的關(guān)聯(lián),得到更多我們沒(méi)有得到的種子詞在上一步中選擇目標分類(lèi)。
  所有這些種子詞都是我們后續分類(lèi)的基石。
  
  用這個(gè)思路其實(shí)解決了關(guān)鍵詞的長(cháng)尾效應問(wèn)題。我們不能一個(gè)一個(gè)地手動(dòng)選擇種子詞,通過(guò)關(guān)聯(lián)自動(dòng)采集
更多我們沒(méi)有手動(dòng)選擇的種子詞。
  這些種子詞可以幫助我們覆蓋更多的長(cháng)尾詞。
  PS:這是一個(gè)示范思路。篩選必須由程序批量處理,不能在 Excel 上進(jìn)行。
  這一步需要對提取出來(lái)的種子詞計算各自的詞頻,并對應保存,后面會(huì )有用。
  比如我們用“positive”種子詞來(lái)過(guò)濾所有的長(cháng)尾詞,所有這些長(cháng)尾詞在分詞后得到所有的根。這段長(cháng)尾詞(這些被選中的)中每個(gè)詞根的總詞頻是多少。
  第三步:篩選代表詞根
  至此,我們其實(shí)就可以開(kāi)始區分了,不過(guò)還有一些細節需要優(yōu)化:
  1:通過(guò)第二步的自動(dòng)擴容,某個(gè)種子詞會(huì )同時(shí)出現在“正面”和“負面”中,比如“video”。
  這個(gè)詞出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中并不奇怪,但實(shí)際上它也會(huì )出現在醫療技術(shù)“引流”的長(cháng)尾詞中:
  對于這種情況,我們其實(shí)可以考慮一個(gè)問(wèn)題,是偶然的還是正常的。比如“視頻”這個(gè)詞,兩邊經(jīng)常出現,所以干脆不用,也就是完全沒(méi)有代表。性別。
  如果是偶然的,比如“艾滋病”,那也是奇跡??吹皆~庫里的一個(gè)長(cháng)尾詞:
  賣(mài)艾滋病試紙促進(jìn)引流
  除了這個(gè),其他都是醫學(xué)的,所以這是偶然的。對比我們第二步保留的詞頻,哪一邊顯得壓倒性的大,保留那一邊的種子詞,另一邊直接去掉。
  如果數據相差不大,那么雙方都會(huì )直接去掉這個(gè)無(wú)偏種子詞。
  根據我的經(jīng)驗,對于這些事故中的大多數,它們之間的詞頻比較相差很大。
  2:詞匯無(wú)偏好,數字,字符,這些都是無(wú)偏好的,不應該用作種子詞。
  其次,類(lèi)似于:應該、如何、可能、可以、的、是、和?這些副詞、助詞、連詞、語(yǔ)氣助詞、疑問(wèn)句等,沒(méi)有傾向性。分詞時(shí),直接按照jieba的詞性進(jìn)行剔除:
  經(jīng)過(guò)這一步過(guò)濾后,詞頻數據就可以省略了。當然,每一個(gè)“引”字,都要有主根,都要去掉!
  第 4 步:快速分類(lèi)
  現在我們將上面計算出的種子詞作為關(guān)鍵詞。其實(shí)這個(gè)和我們上面說(shuō)的集合例子是一樣的。這些種子詞相當于敏感詞,每個(gè)待分類(lèi)的長(cháng)尾詞相當于目標文本內容。
  傳統的Python使用方式是這樣的:
  # 正
seed_word_r = []
# 反
seed_word_e = []
# 詞庫
keyword = []
for word in keyword:
for r in seed_word_r:
if r in word:
pass
for e in seed_word_e:
if e in word:
pass
  把每個(gè)長(cháng)尾詞拿出來(lái),每個(gè)種子詞和它比對一次,看是否收錄
,然后確定分類(lèi)。
  如果有N個(gè)長(cháng)尾詞,則外層循環(huán)會(huì )執行N次,如果有M個(gè)詞,則N中每個(gè)詞收錄
M次,執行成本可想而知。
  另外,幾萬(wàn)個(gè)甚至更多的詞根與一個(gè)只有10個(gè)字左右的長(cháng)尾詞進(jìn)行比較,勢必會(huì )有太多無(wú)意義的比較。
  這時(shí)可以使用AC自動(dòng)機算法:
  import ahocorasick
# 正
seed_word_r = ['種子詞1','種子詞2','種子詞3','種子詞4']
tree = ahocorasick.AhoCorasick(*seed_word_r)
print(tree.search('長(cháng)尾詞'))
  如上面代碼,我們將種子詞(敏感詞)傳給AC自動(dòng)機建立一個(gè)模型,然后這個(gè)模型可以計算出當前長(cháng)尾詞(目標文本內容)是否收錄
模型中的一些詞,以及display 所有出現的詞都出來(lái)了。
  這種計算并不是像上面的方法那樣,內外循環(huán)一對一的比較。
  因此,在做了上面的長(cháng)尾詞分類(lèi)工作之后,你可以:
  import ahocorasick
# 正
seed_word_r = ['種子詞1','種子詞2','種子詞3','種子詞4']
# 反
seed_word_e = ['種子詞1','種子詞2','種子詞3','種子詞4']
# 詞庫
keyword = []
# 構建
tree_r = ahocorasick.AhoCorasick(*seed_word_r)
tree_e = ahocorasick.AhoCorasick(*seed_word_e)
# 遍歷
for word in keyword:
r = tree_r.search(word)
e = tree_e.search(word)
pass
  每次都把長(cháng)尾詞傳給兩邊,瞬間得到兩邊長(cháng)尾詞的收錄
,pass部分用于針對性判斷。
  可預見(jiàn)的結果如下:
  1:長(cháng)尾詞只屬于“positive”或者只屬于“negative”,那就很簡(jiǎn)單,就屬于對應的類(lèi)別。
  2:如果一個(gè)長(cháng)尾詞不屬于“positive”或“negative”,則先將這種情況歸為一類(lèi)保存。
  3:某個(gè)長(cháng)尾詞既屬于“正面”又屬于“負面”,需要進(jìn)一步判斷。我們把這種詞歸為一類(lèi)保存起來(lái)。
  r和e都是集合數據結構,根據交集和并集組合的長(cháng)度判斷歸屬。
  
  w1不賦值,w2同時(shí)賦值,w3是“positive”類(lèi)別,也就是我們要的與網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞,w4是“reverse”,與網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞到我們不想要的醫療技術(shù)。
  3、4的內容不會(huì )有問(wèn)題,如果偶爾分類(lèi)不準確,找出不準確的詞匯,追溯其種子詞。這一定是種子詞的錯誤選擇。
  刪掉重新運行代碼即可,所以在開(kāi)始手動(dòng)選擇的時(shí)候,一定要選擇明確的歸屬地,不能含糊其辭。
  但是我們看到w2,也就是同時(shí)還有1.9M屬于它,打開(kāi)看看:
  還有6W多的記錄無(wú)法確定分類(lèi)(截圖沒(méi)有完整展示,懶得再截了)。雖然按比例來(lái)說(shuō),我們已經(jīng)分類(lèi)了80%,但是超過(guò)6W還是很多的。
  既然都是同時(shí)判斷屬于的,也就是兩邊都能匹配到,那我們就隨機取一個(gè)詞到原程序中,再跑一遍,看兩邊匹配的是什么。
  闌尾炎引流管每日引流
  這是一個(gè)與醫療技術(shù)相關(guān)的長(cháng)尾詞。程序運行后,這個(gè)長(cháng)尾詞的結果是:
  正面:交通
  逆位:闌尾,闌尾炎,引流,引流管,引流
  這是長(cháng)尾詞在種子詞中命中的詞,所以顯然程序沒(méi)有問(wèn)題,因為詞流量出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中是正常的。
  但是這個(gè)詞跟醫療有關(guān),我們還是希望它能被判“反”,怎么辦呢?
  還是要用到概率的思維,結合我們上面說(shuō)的相關(guān)性,一個(gè)長(cháng)尾詞屬于哪個(gè)領(lǐng)域,分詞后的詞屬于這個(gè)領(lǐng)域的可能性很大。
  所以我們從上面可以看出,這個(gè)長(cháng)尾詞中命中“anti”的種子詞數量遠遠超過(guò)命中“positive”的種子詞。,我們可以直接獎勵人數最多的一方。
  優(yōu)化程序判斷后,結果為:
  可以看到w2從1.9M下降到300+kb,w3和w4都有明顯的增加,因為更多的詞被分類(lèi)了。
  可以看到w2中有10000多個(gè)詞條。對于專(zhuān)門(mén)和Excel打交道的seo或者sem人員來(lái)說(shuō),這樣的數據量,反復操作幾次就可以很快整理出來(lái)。
  但其實(shí)如果你愿意,這個(gè)還是可以?xún)?yōu)化的。w2會(huì )有這么多,很大一部分原因是準確分詞的問(wèn)題。有興趣的可以自行研究?jì)?yōu)化方案。
  對于未提及的 w1:
  我故意把它截短了一點(diǎn)。為什么這些詞不屬于任何一方?看完之后我就明白了。事實(shí)上,這類(lèi)詞已經(jīng)超出了長(cháng)尾詞的范疇。去掉“引流”,去掉不傾斜的詞后,基本就沒(méi)有詞了。是時(shí)候做出判斷了。
  這種詞結構非常簡(jiǎn)單。如果確實(shí)需要,可以在Excel中快速整理。
  最后放上w3和w4的數據:
  總共有15W+的長(cháng)尾詞,這就是我們需要的數據!
  總共有30W+的長(cháng)尾詞,這是我們不需要的數據!
  交流自動(dòng)機
  # pip install ahocorasick-python
import ahocorasick
t1 = time.time()
ac = ahocorasick.AhoCorasick(*seed_word)
t2 = time.time()
rw = []
print(t2-t1)
for word in keyword:
sw = ac.search(word)
for i in sw:
word = word.replace(i,'***')
rw.append(word)
t3 = time.time()
print(t3-t2)
rw = []
t1 = time.time()
for word in keyword:
for i in seed_word:
if i in word:
word = word.replace(i,'***')
rw.append(word)
t2 = time.time()
print(t2-t1)
  我用的是AC Automata的第三方模塊,算法效率還是不錯的,一共5W詞匯和50W目標文本,傳統方式共耗時(shí)1450秒,使用AC Automata,構建耗時(shí)20秒,但這是一次性的 具體來(lái)說(shuō),判斷加替換是100秒。
  其實(shí)無(wú)論是種子詞聯(lián)想的思想還是AC自動(dòng)機算法,一個(gè)不恰當的類(lèi)比類(lèi)似于將線(xiàn)性問(wèn)題轉化為指數問(wèn)題(這個(gè)表達式可能有問(wèn)題),時(shí)間成本不會(huì )機械地增加隨著(zhù)數據量的增加。上升。
  敏感詞過(guò)濾等問(wèn)題還有其他解決方案,比如DFA,解決方案沒(méi)有標準,只有適合自己的。
  結語(yǔ)
  如何大量剔除不相似的長(cháng)尾詞,我在之前的公眾號付費文章中也給出了解決方案,但是需要網(wǎng)絡(luò )數據做支撐判斷,而且這個(gè)是完全本地化的,相對來(lái)說(shuō)更經(jīng)濟。
  這個(gè)工作一般不會(huì )超過(guò)半個(gè)小時(shí),得益于“用種子詞帶出更多種子詞”的思路,“根據概率判斷歸屬”的邏輯,以及“AC自動(dòng)機算法”的高效,會(huì )有幾十萬(wàn)和幾百萬(wàn)的處理時(shí)間相差不大,程序真正的計算時(shí)間不到10分鐘。
  雖然我們絞盡腦汁,用了很多策略來(lái)完成這樣的工作,但當我們第一次完成它時(shí),我們可能會(huì )感到有些自豪。
  但實(shí)際上就價(jià)值而言,這是一個(gè)甚至不值得對外談?wù)摰墓ぷ黜椖?,因為它不是具體的結果指標。
  在外人看來(lái),這就是你立足的基礎,也確實(shí)如此。
  另外,可能有朋友覺(jué)得用AC自動(dòng)機算法和普通方法相比,幾十萬(wàn)字的時(shí)間差相差不大,不亞于程序計算的幾十分鐘。
  沒(méi)錯,整個(gè)過(guò)程沒(méi)有標準的步驟或解決方案。我只是想傳達一個(gè)工作方法。遇到很多難題時(shí),發(fā)散思路,換個(gè)角度。其實(shí)有很多思路可以解決。.
  同時(shí),對于懂技術(shù)的朋友來(lái)說(shuō),與傳統方法相比,使用AC自動(dòng)機只是寫(xiě)幾行代碼而已,但好處不僅限于這些。多學(xué)一門(mén)技術(shù)可以解決很多同類(lèi)問(wèn)題。
  對于上面提到的采集項目,我可以使用AC自動(dòng)機來(lái)處理敏感詞和文章的不斷增加。下一階段我會(huì )在這個(gè)采集項目上做另外一個(gè)工作:篩選目標領(lǐng)域的內容。
  在目標集合源中,并不是所有的內容都一定是我們目標字段的內容??赡軙?huì )有很多無(wú)關(guān)緊要的內容。對于不相關(guān)的內容,當然是選擇丟棄,不存儲。
  因此需要設計一個(gè)簡(jiǎn)單的判斷邏輯,類(lèi)似推薦算法給文章打標簽,判斷當前內容是否屬于目標領(lǐng)域,如果不屬于則不采集,減少人工審核的工作量。是最高的。
  所以:我覺(jué)得默默地啃這些棘手的問(wèn)題,目前看來(lái)是吃虧的,但在以后的工作中,肯定會(huì )帶來(lái)更多的“復利”。
  PS:很多做長(cháng)尾詞數據處理的朋友跟我說(shuō)不知道怎么清洗。過(guò)段時(shí)間會(huì )寫(xiě)類(lèi)似的工具,放到公眾號上。
  推薦文章:刷百度關(guān)鍵詞排名 網(wǎng)站排名
  平頂山新廣網(wǎng)絡(luò )科技有限公司
  優(yōu)化原則:
  整站優(yōu)化的原則是將高質(zhì)量的數據反饋給百度,從而提高網(wǎng)站排名、字數和流量。比如增加蜘蛛的爬行量,增加外鏈數量,站點(diǎn)等級,優(yōu)化蜘蛛的爬行速度等,進(jìn)而提升關(guān)鍵詞排名,首頁(yè)排名字數和交通。
  效果特點(diǎn):
  1、整體提升百度排名效果顯著(zhù);
  2、完全符合百度排名規則,沒(méi)有;與常規SEO相比,提升更快,排名效果直接,大部分直接上**,一批一批排名,不是一個(gè)一個(gè)排名;
  3、與常規SEO相比,成本非常低。
  全站自動(dòng)提取百度排名,手機端也可以同時(shí)上傳單詞,但不計入單詞數!換句話(huà)說(shuō),手機上的排名是一個(gè)禮物!
  收費規則:真正的按效果付費
  以愛(ài)站網(wǎng)基礎查詢(xún)數據為基礎,根據當前總字數確定首頁(yè)單價(jià)和低增長(cháng)數量。
  費用達到上限后,將支付任何額外的字數。
  1、整站優(yōu)化的原則是什么?
  答:整站優(yōu)化的原則是將優(yōu)質(zhì)數據反饋給百度,從而提高網(wǎng)站排名、字數和流量。比如增加蜘蛛的爬行量,增加外鏈數量,站點(diǎn)等級,優(yōu)化蜘蛛的爬行速度等,進(jìn)而提升關(guān)鍵詞排名,首頁(yè)排名字數和交通。
  2、首頁(yè)添加的關(guān)鍵詞從何而來(lái)?是長(cháng)尾詞嗎?有索引還是沒(méi)有索引?
  A:首頁(yè)添加到當前*知名頁(yè)面的關(guān)鍵詞和頁(yè)面SEO布局的關(guān)鍵詞相關(guān)性高但沒(méi)有排名;批量?jì)?yōu)化,提升到首頁(yè),結算標準是參考愛(ài)站數據,這些詞都是索引至少50以上的詞,否則愛(ài)站詞庫不收錄。
  3、我可以指定關(guān)鍵詞被提升到首頁(yè)嗎?
  答:第一步是生成詞,對沒(méi)有排名的詞進(jìn)行排名;第二步,將已經(jīng)排名的詞推廣到首頁(yè)??蛻?hù)可以提交一些詞給我們,但需要排名,在優(yōu)化范圍內。正常流程是前期增加總字數,后期再增加到首頁(yè)**的字數。
  4.我可以?xún)?yōu)化字數嗎?
  答:整站優(yōu)化是真正的按效果付費,你加多少字就收多少。我們在優(yōu)化上是認真的,毫無(wú)保留的。我們始終為客戶(hù)著(zhù)想,幫助他們改善,以達到最佳效果。字數越多,效果越好,平均成本越低。
  5、整站優(yōu)化需要多長(cháng)時(shí)間才能見(jiàn)效?
  答:基礎數據好的時(shí)候,優(yōu)化10-20天后會(huì )有明顯的數據增長(cháng)。如果三個(gè)月沒(méi)有明顯效果,會(huì )全額支付(這個(gè)概率是最低的)。
  
  如何優(yōu)化文章關(guān)鍵詞的排名?
  有的排在首頁(yè),有的排在欄目頁(yè),有的排在大量的文章內容。一個(gè)經(jīng)過(guò)適當優(yōu)化的結果,在正常情況下,應該有大量的文章內容頁(yè)面排名。大量的文章頁(yè)面排名意味著(zhù)大量的精準點(diǎn)擊,意味著(zhù)收錄頁(yè)面將權重傳遞給欄目頁(yè)面和內容頁(yè)面。
  在某些情況下,文章的排名會(huì )很低。在這種情況下,盡可能對收錄的文章進(jìn)行排名就顯得非常重要,這幾乎是優(yōu)化的必經(jīng)之路。針對文章關(guān)鍵詞排名偏低,百萬(wàn)數系統建議從以下幾個(gè)方面入手。
  增加了主站的重量。
  如何快速增加成品重量?理想很美好,現實(shí)卻很骨氣。主站權重的增加可以直接提升內容文章頁(yè)或專(zhuān)欄頁(yè)的排名。這個(gè)道理誰(shuí)都懂,但是實(shí)現起來(lái)卻相當困難。
  當前文章頁(yè)面優(yōu)化設置。
  這個(gè)優(yōu)化點(diǎn)是可以實(shí)現的。具體操作包括但不限于:設置文章頁(yè)面自身新聞源格式、調用相關(guān)內容、設置豐富元素、圖文結合展示內容、設置面包屑導航、通過(guò)ugc增加頁(yè)面價(jià)值、添加內容詞、更高的關(guān)鍵詞密度(精確匹配和分詞匹配)、重要的關(guān)鍵詞出現在重要的位置等。
  外鏈方式提高了文章頁(yè)的關(guān)鍵詞排名。
  鏈接可以提高所有頁(yè)面的關(guān)鍵詞排名,包括首頁(yè)、專(zhuān)欄頁(yè)、內容頁(yè)。知道了這個(gè)原理之后,就可以通過(guò)錨文本等方式來(lái)推進(jìn)遲發(fā)文章的排名。
  在網(wǎng)上看到一篇關(guān)于文章優(yōu)化技巧的文章,可以參考如下:
  1.文章標題優(yōu)化技巧
  文章是吸引用戶(hù)點(diǎn)擊的因素。文章的點(diǎn)擊率高不高取決于文章的標題是否吸引人。很多站長(cháng)在寫(xiě)標題的時(shí)候很隨意,沒(méi)有對標題進(jìn)行優(yōu)化,也沒(méi)有加入營(yíng)銷(xiāo)詞。這樣一來(lái),再精彩的內容,也沒(méi)有多少用戶(hù)會(huì )看。大家可以看看新聞的頭條,為什么點(diǎn)擊率這么高,頭條的吸引力有很大的作用。
  那么如何做好文章標題優(yōu)化技巧呢?
  1、題目主題要結合企業(yè)需要,不能脫離事實(shí);
  2.在標題中添加用戶(hù)關(guān)注的熱門(mén)話(huà)題;
  3、在標題中加入利誘等詞,就像商城活躍的詞一樣;
  4、使用關(guān)鍵詞選詞工具,選擇長(cháng)尾關(guān)鍵詞和問(wèn)題關(guān)鍵詞作為標題;這些方法對于吸引用戶(hù)點(diǎn)擊非常實(shí)用,具體操作需要結合企業(yè)的實(shí)際情況,才能吸引到自己企業(yè)的潛在客戶(hù)。
  2.文章關(guān)鍵詞出現的頻率
  很多新手站長(cháng)為了增加關(guān)鍵詞的密度,告訴搜索引擎優(yōu)化文章中的關(guān)鍵詞,惡意堆砌人為干預關(guān)鍵詞的頻率,導致句子不連貫而且嚴重影響用戶(hù)閱讀時(shí),跳出率高,嚴重影響文章質(zhì)量。這種搜索引擎也不喜歡。站長(cháng)一定要注意不要把關(guān)鍵詞堆起來(lái),就讓流量增加關(guān)鍵詞,記住關(guān)鍵詞應該出現在標題里,這樣自然就形成了關(guān)鍵詞的密度,會(huì )被搜索引擎識別,搜索引擎會(huì )很容易判斷出需要優(yōu)化的關(guān)鍵詞。
  3. 關(guān)鍵詞應該出現在哪里
  說(shuō)到這一點(diǎn),主要是考慮文章關(guān)鍵詞的排版,以免形成惡意堆砌,同時(shí)也像搜索引擎一樣清晰表達文章關(guān)鍵詞的內部?jì)?yōu)化。
  
  1、標題收錄
關(guān)鍵詞;
  2、關(guān)鍵詞出現在段落的句中;
  3、最后必須有關(guān)鍵詞;
  4. 中間內部出現3-5次;
  5、關(guān)鍵詞必須收錄
在文章圖片的ALT標簽中;只要做好這幾點(diǎn),關(guān)鍵詞的密度自然會(huì )增加,切記不要堆起來(lái)。
  4. 關(guān)鍵詞大膽的處理
  關(guān)鍵詞加粗是提醒搜索引擎這是重點(diǎn)關(guān)鍵詞,沒(méi)必要每次出現關(guān)鍵詞都加粗,這個(gè)沒(méi)有必要,但是會(huì )導致懷疑過(guò)度優(yōu)化,記住 關(guān)鍵詞 出現時(shí)可以加粗。
  5.文章標簽
  TAG標簽是改善內鏈的重要優(yōu)化技術(shù),便于引導蜘蛛深度爬取,也便于用戶(hù)深度瀏覽,提高關(guān)鍵詞的權重和排名。TAG關(guān)鍵詞標簽就是把內容相同的文章整合到一個(gè)頁(yè)面里,怎么整合呢?對于每個(gè)優(yōu)化過(guò)的關(guān)鍵詞,設置一個(gè)TAG關(guān)鍵詞標簽,使用程序使用TAG關(guān)鍵詞標簽放在一起。
  6. 關(guān)鍵詞 錨文本鏈接
  關(guān)鍵詞 添加鏈接,這個(gè)也叫關(guān)鍵詞錨文本,也是優(yōu)化內鏈的方式。做一個(gè)錨文本鏈接,引導蜘蛛抓取內容,引導用戶(hù)瀏覽企業(yè)要給用戶(hù)瀏覽的內容。只需在第一次出現的 關(guān)鍵詞 處添加一個(gè)錨文本鏈接。一旦出現就沒(méi)有必要添加錨文本鏈接。這是典型的方式,不利于優(yōu)化。同一個(gè)關(guān)鍵詞可以添加一次鏈接,不同的關(guān)鍵詞不能超過(guò)3個(gè)鏈接。
  7.關(guān)鍵詞的出現次數
  一篇文章可以?xún)?yōu)化1-3個(gè)關(guān)鍵詞,要求三個(gè)關(guān)鍵詞都是同一類(lèi)型。如果不是同一類(lèi)型,那么文章就很難寫(xiě)了。寫(xiě)在一篇文章里,有點(diǎn)舍不得,*去中心化,搜索引擎不知道你要優(yōu)化哪個(gè)關(guān)鍵詞。
  8.圖文顯示
  文章考慮了搜索引擎,也需要考慮用戶(hù)和用戶(hù)的瀏覽環(huán)境。簡(jiǎn)單的一堆文字很容易造成視覺(jué)疲勞,降低宣傳效果。有了圖片,更好地排版文章,優(yōu)化文章結構。直觀(guān)地向用戶(hù)表達文章的主題。注意圖片不要超過(guò)200KB,以免影響頁(yè)面加載速度。
  文章優(yōu)化技巧很重要。這是幫助企業(yè)獲得更好的權重和關(guān)鍵詞排名必須要做的工作。很多公司天天更新,有一些原創(chuàng )文章,但是沒(méi)有考慮使用文章優(yōu)化技巧。降低了文章的優(yōu)化值。通過(guò)做文章優(yōu)化,可以為公司帶來(lái)更多的長(cháng)尾關(guān)鍵詞排名,尤其是新站**詞,短時(shí)間內很難有很好的排名,所以多用文章來(lái)提升排名是非常重要的。使長(cháng)尾 關(guān)鍵詞 需要。
  文章排名不僅與內容質(zhì)量本身有關(guān),還與頁(yè)面質(zhì)量和網(wǎng)站質(zhì)量有關(guān)。文章排名偏低,按照上面的方法,基本可以做到**。注意:在很多情況下,理想與現實(shí)是有差距的。從SEO的角度來(lái)看,理論點(diǎn)并不復雜,但具體優(yōu)化要素的實(shí)現卻很復雜。
  關(guān)鍵詞排名優(yōu)化問(wèn)題,0375互聯(lián)網(wǎng)媒體一站式解決方案,快速穩定
  關(guān)鍵詞優(yōu)化排名,平均2-4周上傳詞,進(jìn)入搜索引擎首頁(yè),持續穩定
  -/gjicie/- 查看全部

  干貨內容:seo清洗百萬(wàn)長(cháng)尾詞數據的策略
  前言
  要不是有CEO主動(dòng)找了高薪SEO的人坐飛機過(guò)來(lái),說(shuō)實(shí)話(huà),很多SEO人員在公司都是“弱勢群體”。
  絕大多數普通seo人員在公司和跨部門(mén)溝通中沒(méi)有多少相應的話(huà)語(yǔ)權,有很多細節無(wú)法協(xié)調。
  在這樣的環(huán)境下,seoer要想做好,就必須充分發(fā)揮自己的主觀(guān)能動(dòng)性,千方百計去完成那些表面上不值一提,暗地里卻又不可避免的事情。
  問(wèn)題
  seo和sem需要在全網(wǎng)大量挖掘長(cháng)尾詞,但是大規模的長(cháng)尾詞注定會(huì )帶來(lái)一些數據清洗工作。在大多數情況下,清理工作可以在 Excel 中完成,但也有很多情況。Excel很難處理,比如:
  這是從第三方關(guān)鍵詞工具下載的詞根“drainage”的長(cháng)尾詞數據,但是遇到了一個(gè)尷尬的問(wèn)題。詞根“drainage”有同義詞但場(chǎng)景不同,所以會(huì )導致挖掘出很多不相關(guān)的長(cháng)尾詞:
  事實(shí)上,這種情況很常見(jiàn)。單個(gè)詞往往不可避免地與其他場(chǎng)景混淆,例如:
  水果中的“蘋(píng)果”、手機中的“蘋(píng)果”和電影中的“蘋(píng)果”,是一個(gè)形同字義卻截然不同的詞。單純的用詞根挖詞,自然會(huì )挖出很多非目標的長(cháng)尾詞。
  類(lèi)似的情況還有很多,那么問(wèn)題來(lái)了:剔除非目標長(cháng)尾詞是必須的。這樣的細枝末節在seo工作中做好是理所當然的事情。老板一來(lái)不會(huì )幫我們做,二來(lái)也不會(huì )指派我們去做。如果這是一個(gè)百萬(wàn)級別的長(cháng)尾詞數據,在Excel中全部篩選淘汰,這個(gè)項目可能已經(jīng)過(guò)時(shí)了。
  面對如此雜亂的長(cháng)尾詞數據,如何進(jìn)行高效的過(guò)濾篩選?
  今天的文章是一篇完全基于技術(shù)的內容,但是對于不懂技術(shù)的朋友,強烈推薦完整閱讀。有兩點(diǎn):
  技術(shù)是另一種思維方式。不是技術(shù)的朋友,可以看看技術(shù)人員遇到問(wèn)題是怎么處理的。
  在“網(wǎng)絡(luò )營(yíng)銷(xiāo)”工作中,有很多工作超出了我們的能力范圍,但是充分發(fā)揮我們的主觀(guān)能動(dòng)性,做出超出這個(gè)崗位應有的能力水平,往往會(huì )帶來(lái)額外的收獲。
  開(kāi)始
  前段時(shí)間接手了一個(gè)采集
項目(只是熟人之間的合法生意)。隨著(zhù)收錄量的增加,“敏感詞過(guò)濾”的工作在所難免,比如政治、色情、暴力、廣告等,這些相關(guān)的詞都要被識別出來(lái)。
  目前市面上能搜集到的敏感詞庫,如果只是整合幾份的話(huà),可以達到幾萬(wàn)甚至更多,因為隨著(zhù)時(shí)間的推移,會(huì )產(chǎn)生各種新的詞匯。
  使用程序識別一篇文章是否收錄
目標敏感詞,以Python為例:
  refusalWord = '敏感詞'
targetText = '內容正文'
if refusalWord in target_text:print(True)
  讓程序在目標文本中搜索這個(gè)敏感詞。如果找到,則說(shuō)明存在敏感詞。這是只有一個(gè)敏感詞的情況。如果有多個(gè)敏感詞,也簡(jiǎn)單。添加一個(gè)循環(huán):
  refusalWord = ['敏感詞1','敏感詞2','敏感詞3']
targetText = '內容正文'
for word in refusalWord:
if word in target_text:print(True)
  該程序在目標文本中逐一搜索敏感詞。如果有幾百個(gè)敏感詞,一個(gè)一個(gè)重復處理,效率很低,感覺(jué)不是很優(yōu)雅。正則表達式可以做得很簡(jiǎn)潔:
  import re
refusalWord = ['敏感詞1','敏感詞2','敏感詞3']
targetText = '內容正文'
if re.search('|'.join(refusalWord),targetText):print(True)
  所有敏感詞用“|”連接 組成一個(gè)正則表達式:“敏感詞1|敏感詞2|敏感詞3”,用這個(gè)表達式匹配目標文本,找出所有出現的敏感詞。
  但是如果有幾萬(wàn)個(gè)甚至更多的敏感詞怎么辦?了解正則表達式的朋友都知道,這樣寫(xiě)的表達式極不合理,可能會(huì )出現各種各樣的問(wèn)題。
  而且,當敏感詞數以萬(wàn)計或更多時(shí),效率會(huì )線(xiàn)性下降。加上后期更換等其他工作,時(shí)間成本會(huì )更高。
  而且,我們之前的演示只是針對只有一個(gè)目標文本的情況。如果敏感詞個(gè)數為N,目標文本為M怎么辦?在簡(jiǎn)單的雙循環(huán)的情況下,時(shí)間復雜度至少是N*M。
  這時(shí)候就需要用到我們今天的主角了:“交流自動(dòng)機”算法。
  PS:不懂技術(shù)的朋友不用糾結代碼,只需要明白這是一個(gè)方案優(yōu)化的問(wèn)題。我們在面對敏感詞從1到N到N++的過(guò)程中不斷優(yōu)化技術(shù)方案,提高效率。
  AC自動(dòng)機算法是一種多模匹配算法。算法的高明和深奧,不是我們這種非科學(xué)的人可以去探究的,但是算法的意義和不同,我們還是可以理解的。
  在上面的例子中,即使是非技術(shù)的朋友也會(huì )明白,隨著(zhù)敏感詞庫數量的不斷增加,程序會(huì )判斷一篇文章是否收錄
某個(gè)詞或敏感詞庫中的某些詞,時(shí)間成本會(huì )逐漸增加。是的,因為無(wú)意義的判斷越來(lái)越多,所以這是一個(gè)單一的模式。
  AC自動(dòng)機通過(guò)使用多模匹配算法來(lái)解決這個(gè)問(wèn)題,也就是說(shuō):隨著(zhù)敏感詞庫的增加,時(shí)間成本保持不變(至少在一定數量級內)。
  那么這與我們正在談?wù)摰?關(guān)鍵詞 清理有什么關(guān)系呢?下面我們一步一步來(lái)演示。
  第一步:選擇一個(gè)有代表性的詞根
  這是一個(gè)擁有數十萬(wàn)詞的“引流”長(cháng)尾詞庫。里面有兩種長(cháng)尾詞,網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞和醫療技術(shù)相關(guān)的長(cháng)尾詞。我們的目的是將這兩類(lèi)長(cháng)尾詞分開(kāi)。
  在Excel中,面對這樣一條數據,需要將兩邊分開(kāi),即過(guò)濾掉目標或者過(guò)濾掉非目標再剔除。我們先來(lái)考慮一下一般的操作方法是怎樣的:
  逐行讀取,標記非目標數據,然后過(guò)濾掉全部刪除,但是對象有幾十萬(wàn),甚至更多。這效率可想而知。能一行一行念下去,是個(gè)兇人。
  選擇一些高頻的非目標詞或詞,然后過(guò)濾掉,反復重復這個(gè)操作。這種方法看起來(lái)很快,一次可以消除一大片區域。
  但是如果你充分理解了關(guān)鍵詞的長(cháng)尾效應,你就會(huì )明白這個(gè)方法在后期會(huì )比較痛苦,因為很多選中的詞在后期不會(huì )刪除很多詞,反復篩選和刪除會(huì )讓人崩潰。
  另外,在Excel上似乎沒(méi)有更好的方法來(lái)處理這樣的問(wèn)題,現在我們用另一種方法來(lái)解決這個(gè)問(wèn)題。
  和往常一樣,先把所有的長(cháng)尾詞切分,統計詞頻:
  接下來(lái),需要根據“常識”人工選擇具有代表性的“類(lèi)別種子根”?!芭c醫療技術(shù)相關(guān)的詞被選擇并放在另一個(gè)文件中。
  所謂“明明而已”,比如:“腳本”,也就是腳本工具,這樣的詞基本不可能和醫療技術(shù)的長(cháng)尾詞有任何關(guān)系,而“傷口”基本不可能與互聯(lián)網(wǎng)推廣有任何關(guān)系。什么關(guān)系。
  所謂“常識”,比如:經(jīng)常有一些與網(wǎng)絡(luò )推廣相關(guān)的平臺名稱(chēng),比如知乎、微信、淘寶等,這些想都沒(méi)想就直接寫(xiě)了。
  所以在選擇的時(shí)候一定要確定這個(gè)詞的歸屬是否明確。如果它是模糊的,我寧愿不要!
  前者被視為“正”,后者被視為“負”?!罢笔俏覀兡繕碎L(cháng)尾詞的代表詞根。選擇多少?同樣,關(guān)鍵詞 符合 28 原則。
  我們可以看到,top root 詞出現的頻率非常高,一個(gè)詞根可以牽連到很多長(cháng)尾詞。我只從幾十萬(wàn)個(gè)長(cháng)尾詞中選出了一百八十個(gè)這樣的長(cháng)尾詞。
  即使長(cháng)尾詞的數量增加了 10 倍,也不會(huì )有更多的代表詞根可供選擇。
  第 2 步:擴展代表根
  我們選擇這些種子詞的目的很簡(jiǎn)單:在將“正面”種子詞納入詞庫時(shí),可以從肯定是目標類(lèi)別的長(cháng)尾詞中篩選出“正面”種子詞。上面我們選擇了“WeChat”作為種子詞,我們認為它只可能出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中,所以可以通過(guò)取“WeChat”過(guò)濾掉所有收錄
“WeChat”的長(cháng)尾詞進(jìn)入詞庫。這些與網(wǎng)絡(luò )推廣有關(guān):
  長(cháng)尾詞一般具有以下特點(diǎn):
  微信引流腳本開(kāi)發(fā)
  對于這樣的長(cháng)尾詞,我們通過(guò)“微信”進(jìn)行提取。除了詞根“drainage”,因為這個(gè)長(cháng)尾詞與網(wǎng)絡(luò )推廣有關(guān),其他詞根很可能與網(wǎng)絡(luò )推廣有關(guān)。比如這里的“Scripts”和“development”是絕對不可能和醫療技術(shù)相關(guān)的,反之亦然:
  膿腫切開(kāi)引流
  我們從種子詞“surgery”中得到,分詞“abscess”和“incision”與網(wǎng)絡(luò )推廣的可能性不大,可以作為新的種子詞加入“anti”的范疇。
  這時(shí)候思路就清晰了。我們首先選取一些有代表性的種子詞,用這些種子詞過(guò)濾出所有相關(guān)的長(cháng)尾詞,然后將這些選取的長(cháng)尾詞進(jìn)行分割,利用關(guān)鍵詞的關(guān)聯(lián),得到更多我們沒(méi)有得到的種子詞在上一步中選擇目標分類(lèi)。
  所有這些種子詞都是我們后續分類(lèi)的基石。
  
  用這個(gè)思路其實(shí)解決了關(guān)鍵詞的長(cháng)尾效應問(wèn)題。我們不能一個(gè)一個(gè)地手動(dòng)選擇種子詞,通過(guò)關(guān)聯(lián)自動(dòng)采集
更多我們沒(méi)有手動(dòng)選擇的種子詞。
  這些種子詞可以幫助我們覆蓋更多的長(cháng)尾詞。
  PS:這是一個(gè)示范思路。篩選必須由程序批量處理,不能在 Excel 上進(jìn)行。
  這一步需要對提取出來(lái)的種子詞計算各自的詞頻,并對應保存,后面會(huì )有用。
  比如我們用“positive”種子詞來(lái)過(guò)濾所有的長(cháng)尾詞,所有這些長(cháng)尾詞在分詞后得到所有的根。這段長(cháng)尾詞(這些被選中的)中每個(gè)詞根的總詞頻是多少。
  第三步:篩選代表詞根
  至此,我們其實(shí)就可以開(kāi)始區分了,不過(guò)還有一些細節需要優(yōu)化:
  1:通過(guò)第二步的自動(dòng)擴容,某個(gè)種子詞會(huì )同時(shí)出現在“正面”和“負面”中,比如“video”。
  這個(gè)詞出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中并不奇怪,但實(shí)際上它也會(huì )出現在醫療技術(shù)“引流”的長(cháng)尾詞中:
  對于這種情況,我們其實(shí)可以考慮一個(gè)問(wèn)題,是偶然的還是正常的。比如“視頻”這個(gè)詞,兩邊經(jīng)常出現,所以干脆不用,也就是完全沒(méi)有代表。性別。
  如果是偶然的,比如“艾滋病”,那也是奇跡??吹皆~庫里的一個(gè)長(cháng)尾詞:
  賣(mài)艾滋病試紙促進(jìn)引流
  除了這個(gè),其他都是醫學(xué)的,所以這是偶然的。對比我們第二步保留的詞頻,哪一邊顯得壓倒性的大,保留那一邊的種子詞,另一邊直接去掉。
  如果數據相差不大,那么雙方都會(huì )直接去掉這個(gè)無(wú)偏種子詞。
  根據我的經(jīng)驗,對于這些事故中的大多數,它們之間的詞頻比較相差很大。
  2:詞匯無(wú)偏好,數字,字符,這些都是無(wú)偏好的,不應該用作種子詞。
  其次,類(lèi)似于:應該、如何、可能、可以、的、是、和?這些副詞、助詞、連詞、語(yǔ)氣助詞、疑問(wèn)句等,沒(méi)有傾向性。分詞時(shí),直接按照jieba的詞性進(jìn)行剔除:
  經(jīng)過(guò)這一步過(guò)濾后,詞頻數據就可以省略了。當然,每一個(gè)“引”字,都要有主根,都要去掉!
  第 4 步:快速分類(lèi)
  現在我們將上面計算出的種子詞作為關(guān)鍵詞。其實(shí)這個(gè)和我們上面說(shuō)的集合例子是一樣的。這些種子詞相當于敏感詞,每個(gè)待分類(lèi)的長(cháng)尾詞相當于目標文本內容。
  傳統的Python使用方式是這樣的:
  # 正
seed_word_r = []
# 反
seed_word_e = []
# 詞庫
keyword = []
for word in keyword:
for r in seed_word_r:
if r in word:
pass
for e in seed_word_e:
if e in word:
pass
  把每個(gè)長(cháng)尾詞拿出來(lái),每個(gè)種子詞和它比對一次,看是否收錄
,然后確定分類(lèi)。
  如果有N個(gè)長(cháng)尾詞,則外層循環(huán)會(huì )執行N次,如果有M個(gè)詞,則N中每個(gè)詞收錄
M次,執行成本可想而知。
  另外,幾萬(wàn)個(gè)甚至更多的詞根與一個(gè)只有10個(gè)字左右的長(cháng)尾詞進(jìn)行比較,勢必會(huì )有太多無(wú)意義的比較。
  這時(shí)可以使用AC自動(dòng)機算法:
  import ahocorasick
# 正
seed_word_r = ['種子詞1','種子詞2','種子詞3','種子詞4']
tree = ahocorasick.AhoCorasick(*seed_word_r)
print(tree.search('長(cháng)尾詞'))
  如上面代碼,我們將種子詞(敏感詞)傳給AC自動(dòng)機建立一個(gè)模型,然后這個(gè)模型可以計算出當前長(cháng)尾詞(目標文本內容)是否收錄
模型中的一些詞,以及display 所有出現的詞都出來(lái)了。
  這種計算并不是像上面的方法那樣,內外循環(huán)一對一的比較。
  因此,在做了上面的長(cháng)尾詞分類(lèi)工作之后,你可以:
  import ahocorasick
# 正
seed_word_r = ['種子詞1','種子詞2','種子詞3','種子詞4']
# 反
seed_word_e = ['種子詞1','種子詞2','種子詞3','種子詞4']
# 詞庫
keyword = []
# 構建
tree_r = ahocorasick.AhoCorasick(*seed_word_r)
tree_e = ahocorasick.AhoCorasick(*seed_word_e)
# 遍歷
for word in keyword:
r = tree_r.search(word)
e = tree_e.search(word)
pass
  每次都把長(cháng)尾詞傳給兩邊,瞬間得到兩邊長(cháng)尾詞的收錄
,pass部分用于針對性判斷。
  可預見(jiàn)的結果如下:
  1:長(cháng)尾詞只屬于“positive”或者只屬于“negative”,那就很簡(jiǎn)單,就屬于對應的類(lèi)別。
  2:如果一個(gè)長(cháng)尾詞不屬于“positive”或“negative”,則先將這種情況歸為一類(lèi)保存。
  3:某個(gè)長(cháng)尾詞既屬于“正面”又屬于“負面”,需要進(jìn)一步判斷。我們把這種詞歸為一類(lèi)保存起來(lái)。
  r和e都是集合數據結構,根據交集和并集組合的長(cháng)度判斷歸屬。
  
  w1不賦值,w2同時(shí)賦值,w3是“positive”類(lèi)別,也就是我們要的與網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞,w4是“reverse”,與網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞到我們不想要的醫療技術(shù)。
  3、4的內容不會(huì )有問(wèn)題,如果偶爾分類(lèi)不準確,找出不準確的詞匯,追溯其種子詞。這一定是種子詞的錯誤選擇。
  刪掉重新運行代碼即可,所以在開(kāi)始手動(dòng)選擇的時(shí)候,一定要選擇明確的歸屬地,不能含糊其辭。
  但是我們看到w2,也就是同時(shí)還有1.9M屬于它,打開(kāi)看看:
  還有6W多的記錄無(wú)法確定分類(lèi)(截圖沒(méi)有完整展示,懶得再截了)。雖然按比例來(lái)說(shuō),我們已經(jīng)分類(lèi)了80%,但是超過(guò)6W還是很多的。
  既然都是同時(shí)判斷屬于的,也就是兩邊都能匹配到,那我們就隨機取一個(gè)詞到原程序中,再跑一遍,看兩邊匹配的是什么。
  闌尾炎引流管每日引流
  這是一個(gè)與醫療技術(shù)相關(guān)的長(cháng)尾詞。程序運行后,這個(gè)長(cháng)尾詞的結果是:
  正面:交通
  逆位:闌尾,闌尾炎,引流,引流管,引流
  這是長(cháng)尾詞在種子詞中命中的詞,所以顯然程序沒(méi)有問(wèn)題,因為詞流量出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中是正常的。
  但是這個(gè)詞跟醫療有關(guān),我們還是希望它能被判“反”,怎么辦呢?
  還是要用到概率的思維,結合我們上面說(shuō)的相關(guān)性,一個(gè)長(cháng)尾詞屬于哪個(gè)領(lǐng)域,分詞后的詞屬于這個(gè)領(lǐng)域的可能性很大。
  所以我們從上面可以看出,這個(gè)長(cháng)尾詞中命中“anti”的種子詞數量遠遠超過(guò)命中“positive”的種子詞。,我們可以直接獎勵人數最多的一方。
  優(yōu)化程序判斷后,結果為:
  可以看到w2從1.9M下降到300+kb,w3和w4都有明顯的增加,因為更多的詞被分類(lèi)了。
  可以看到w2中有10000多個(gè)詞條。對于專(zhuān)門(mén)和Excel打交道的seo或者sem人員來(lái)說(shuō),這樣的數據量,反復操作幾次就可以很快整理出來(lái)。
  但其實(shí)如果你愿意,這個(gè)還是可以?xún)?yōu)化的。w2會(huì )有這么多,很大一部分原因是準確分詞的問(wèn)題。有興趣的可以自行研究?jì)?yōu)化方案。
  對于未提及的 w1:
  我故意把它截短了一點(diǎn)。為什么這些詞不屬于任何一方?看完之后我就明白了。事實(shí)上,這類(lèi)詞已經(jīng)超出了長(cháng)尾詞的范疇。去掉“引流”,去掉不傾斜的詞后,基本就沒(méi)有詞了。是時(shí)候做出判斷了。
  這種詞結構非常簡(jiǎn)單。如果確實(shí)需要,可以在Excel中快速整理。
  最后放上w3和w4的數據:
  總共有15W+的長(cháng)尾詞,這就是我們需要的數據!
  總共有30W+的長(cháng)尾詞,這是我們不需要的數據!
  交流自動(dòng)機
  # pip install ahocorasick-python
import ahocorasick
t1 = time.time()
ac = ahocorasick.AhoCorasick(*seed_word)
t2 = time.time()
rw = []
print(t2-t1)
for word in keyword:
sw = ac.search(word)
for i in sw:
word = word.replace(i,'***')
rw.append(word)
t3 = time.time()
print(t3-t2)
rw = []
t1 = time.time()
for word in keyword:
for i in seed_word:
if i in word:
word = word.replace(i,'***')
rw.append(word)
t2 = time.time()
print(t2-t1)
  我用的是AC Automata的第三方模塊,算法效率還是不錯的,一共5W詞匯和50W目標文本,傳統方式共耗時(shí)1450秒,使用AC Automata,構建耗時(shí)20秒,但這是一次性的 具體來(lái)說(shuō),判斷加替換是100秒。
  其實(shí)無(wú)論是種子詞聯(lián)想的思想還是AC自動(dòng)機算法,一個(gè)不恰當的類(lèi)比類(lèi)似于將線(xiàn)性問(wèn)題轉化為指數問(wèn)題(這個(gè)表達式可能有問(wèn)題),時(shí)間成本不會(huì )機械地增加隨著(zhù)數據量的增加。上升。
  敏感詞過(guò)濾等問(wèn)題還有其他解決方案,比如DFA,解決方案沒(méi)有標準,只有適合自己的。
  結語(yǔ)
  如何大量剔除不相似的長(cháng)尾詞,我在之前的公眾號付費文章中也給出了解決方案,但是需要網(wǎng)絡(luò )數據做支撐判斷,而且這個(gè)是完全本地化的,相對來(lái)說(shuō)更經(jīng)濟。
  這個(gè)工作一般不會(huì )超過(guò)半個(gè)小時(shí),得益于“用種子詞帶出更多種子詞”的思路,“根據概率判斷歸屬”的邏輯,以及“AC自動(dòng)機算法”的高效,會(huì )有幾十萬(wàn)和幾百萬(wàn)的處理時(shí)間相差不大,程序真正的計算時(shí)間不到10分鐘。
  雖然我們絞盡腦汁,用了很多策略來(lái)完成這樣的工作,但當我們第一次完成它時(shí),我們可能會(huì )感到有些自豪。
  但實(shí)際上就價(jià)值而言,這是一個(gè)甚至不值得對外談?wù)摰墓ぷ黜椖?,因為它不是具體的結果指標。
  在外人看來(lái),這就是你立足的基礎,也確實(shí)如此。
  另外,可能有朋友覺(jué)得用AC自動(dòng)機算法和普通方法相比,幾十萬(wàn)字的時(shí)間差相差不大,不亞于程序計算的幾十分鐘。
  沒(méi)錯,整個(gè)過(guò)程沒(méi)有標準的步驟或解決方案。我只是想傳達一個(gè)工作方法。遇到很多難題時(shí),發(fā)散思路,換個(gè)角度。其實(shí)有很多思路可以解決。.
  同時(shí),對于懂技術(shù)的朋友來(lái)說(shuō),與傳統方法相比,使用AC自動(dòng)機只是寫(xiě)幾行代碼而已,但好處不僅限于這些。多學(xué)一門(mén)技術(shù)可以解決很多同類(lèi)問(wèn)題。
  對于上面提到的采集項目,我可以使用AC自動(dòng)機來(lái)處理敏感詞和文章的不斷增加。下一階段我會(huì )在這個(gè)采集項目上做另外一個(gè)工作:篩選目標領(lǐng)域的內容。
  在目標集合源中,并不是所有的內容都一定是我們目標字段的內容??赡軙?huì )有很多無(wú)關(guān)緊要的內容。對于不相關(guān)的內容,當然是選擇丟棄,不存儲。
  因此需要設計一個(gè)簡(jiǎn)單的判斷邏輯,類(lèi)似推薦算法給文章打標簽,判斷當前內容是否屬于目標領(lǐng)域,如果不屬于則不采集,減少人工審核的工作量。是最高的。
  所以:我覺(jué)得默默地啃這些棘手的問(wèn)題,目前看來(lái)是吃虧的,但在以后的工作中,肯定會(huì )帶來(lái)更多的“復利”。
  PS:很多做長(cháng)尾詞數據處理的朋友跟我說(shuō)不知道怎么清洗。過(guò)段時(shí)間會(huì )寫(xiě)類(lèi)似的工具,放到公眾號上。
  推薦文章:刷百度關(guān)鍵詞排名 網(wǎng)站排名
  平頂山新廣網(wǎng)絡(luò )科技有限公司
  優(yōu)化原則:
  整站優(yōu)化的原則是將高質(zhì)量的數據反饋給百度,從而提高網(wǎng)站排名、字數和流量。比如增加蜘蛛的爬行量,增加外鏈數量,站點(diǎn)等級,優(yōu)化蜘蛛的爬行速度等,進(jìn)而提升關(guān)鍵詞排名,首頁(yè)排名字數和交通。
  效果特點(diǎn):
  1、整體提升百度排名效果顯著(zhù);
  2、完全符合百度排名規則,沒(méi)有;與常規SEO相比,提升更快,排名效果直接,大部分直接上**,一批一批排名,不是一個(gè)一個(gè)排名;
  3、與常規SEO相比,成本非常低。
  全站自動(dòng)提取百度排名,手機端也可以同時(shí)上傳單詞,但不計入單詞數!換句話(huà)說(shuō),手機上的排名是一個(gè)禮物!
  收費規則:真正的按效果付費
  以愛(ài)站網(wǎng)基礎查詢(xún)數據為基礎,根據當前總字數確定首頁(yè)單價(jià)和低增長(cháng)數量。
  費用達到上限后,將支付任何額外的字數。
  1、整站優(yōu)化的原則是什么?
  答:整站優(yōu)化的原則是將優(yōu)質(zhì)數據反饋給百度,從而提高網(wǎng)站排名、字數和流量。比如增加蜘蛛的爬行量,增加外鏈數量,站點(diǎn)等級,優(yōu)化蜘蛛的爬行速度等,進(jìn)而提升關(guān)鍵詞排名,首頁(yè)排名字數和交通。
  2、首頁(yè)添加的關(guān)鍵詞從何而來(lái)?是長(cháng)尾詞嗎?有索引還是沒(méi)有索引?
  A:首頁(yè)添加到當前*知名頁(yè)面的關(guān)鍵詞和頁(yè)面SEO布局的關(guān)鍵詞相關(guān)性高但沒(méi)有排名;批量?jì)?yōu)化,提升到首頁(yè),結算標準是參考愛(ài)站數據,這些詞都是索引至少50以上的詞,否則愛(ài)站詞庫不收錄。
  3、我可以指定關(guān)鍵詞被提升到首頁(yè)嗎?
  答:第一步是生成詞,對沒(méi)有排名的詞進(jìn)行排名;第二步,將已經(jīng)排名的詞推廣到首頁(yè)??蛻?hù)可以提交一些詞給我們,但需要排名,在優(yōu)化范圍內。正常流程是前期增加總字數,后期再增加到首頁(yè)**的字數。
  4.我可以?xún)?yōu)化字數嗎?
  答:整站優(yōu)化是真正的按效果付費,你加多少字就收多少。我們在優(yōu)化上是認真的,毫無(wú)保留的。我們始終為客戶(hù)著(zhù)想,幫助他們改善,以達到最佳效果。字數越多,效果越好,平均成本越低。
  5、整站優(yōu)化需要多長(cháng)時(shí)間才能見(jiàn)效?
  答:基礎數據好的時(shí)候,優(yōu)化10-20天后會(huì )有明顯的數據增長(cháng)。如果三個(gè)月沒(méi)有明顯效果,會(huì )全額支付(這個(gè)概率是最低的)。
  
  如何優(yōu)化文章關(guān)鍵詞的排名?
  有的排在首頁(yè),有的排在欄目頁(yè),有的排在大量的文章內容。一個(gè)經(jīng)過(guò)適當優(yōu)化的結果,在正常情況下,應該有大量的文章內容頁(yè)面排名。大量的文章頁(yè)面排名意味著(zhù)大量的精準點(diǎn)擊,意味著(zhù)收錄頁(yè)面將權重傳遞給欄目頁(yè)面和內容頁(yè)面。
  在某些情況下,文章的排名會(huì )很低。在這種情況下,盡可能對收錄的文章進(jìn)行排名就顯得非常重要,這幾乎是優(yōu)化的必經(jīng)之路。針對文章關(guān)鍵詞排名偏低,百萬(wàn)數系統建議從以下幾個(gè)方面入手。
  增加了主站的重量。
  如何快速增加成品重量?理想很美好,現實(shí)卻很骨氣。主站權重的增加可以直接提升內容文章頁(yè)或專(zhuān)欄頁(yè)的排名。這個(gè)道理誰(shuí)都懂,但是實(shí)現起來(lái)卻相當困難。
  當前文章頁(yè)面優(yōu)化設置。
  這個(gè)優(yōu)化點(diǎn)是可以實(shí)現的。具體操作包括但不限于:設置文章頁(yè)面自身新聞源格式、調用相關(guān)內容、設置豐富元素、圖文結合展示內容、設置面包屑導航、通過(guò)ugc增加頁(yè)面價(jià)值、添加內容詞、更高的關(guān)鍵詞密度(精確匹配和分詞匹配)、重要的關(guān)鍵詞出現在重要的位置等。
  外鏈方式提高了文章頁(yè)的關(guān)鍵詞排名。
  鏈接可以提高所有頁(yè)面的關(guān)鍵詞排名,包括首頁(yè)、專(zhuān)欄頁(yè)、內容頁(yè)。知道了這個(gè)原理之后,就可以通過(guò)錨文本等方式來(lái)推進(jìn)遲發(fā)文章的排名。
  在網(wǎng)上看到一篇關(guān)于文章優(yōu)化技巧的文章,可以參考如下:
  1.文章標題優(yōu)化技巧
  文章是吸引用戶(hù)點(diǎn)擊的因素。文章的點(diǎn)擊率高不高取決于文章的標題是否吸引人。很多站長(cháng)在寫(xiě)標題的時(shí)候很隨意,沒(méi)有對標題進(jìn)行優(yōu)化,也沒(méi)有加入營(yíng)銷(xiāo)詞。這樣一來(lái),再精彩的內容,也沒(méi)有多少用戶(hù)會(huì )看。大家可以看看新聞的頭條,為什么點(diǎn)擊率這么高,頭條的吸引力有很大的作用。
  那么如何做好文章標題優(yōu)化技巧呢?
  1、題目主題要結合企業(yè)需要,不能脫離事實(shí);
  2.在標題中添加用戶(hù)關(guān)注的熱門(mén)話(huà)題;
  3、在標題中加入利誘等詞,就像商城活躍的詞一樣;
  4、使用關(guān)鍵詞選詞工具,選擇長(cháng)尾關(guān)鍵詞和問(wèn)題關(guān)鍵詞作為標題;這些方法對于吸引用戶(hù)點(diǎn)擊非常實(shí)用,具體操作需要結合企業(yè)的實(shí)際情況,才能吸引到自己企業(yè)的潛在客戶(hù)。
  2.文章關(guān)鍵詞出現的頻率
  很多新手站長(cháng)為了增加關(guān)鍵詞的密度,告訴搜索引擎優(yōu)化文章中的關(guān)鍵詞,惡意堆砌人為干預關(guān)鍵詞的頻率,導致句子不連貫而且嚴重影響用戶(hù)閱讀時(shí),跳出率高,嚴重影響文章質(zhì)量。這種搜索引擎也不喜歡。站長(cháng)一定要注意不要把關(guān)鍵詞堆起來(lái),就讓流量增加關(guān)鍵詞,記住關(guān)鍵詞應該出現在標題里,這樣自然就形成了關(guān)鍵詞的密度,會(huì )被搜索引擎識別,搜索引擎會(huì )很容易判斷出需要優(yōu)化的關(guān)鍵詞。
  3. 關(guān)鍵詞應該出現在哪里
  說(shuō)到這一點(diǎn),主要是考慮文章關(guān)鍵詞的排版,以免形成惡意堆砌,同時(shí)也像搜索引擎一樣清晰表達文章關(guān)鍵詞的內部?jì)?yōu)化。
  
  1、標題收錄
關(guān)鍵詞;
  2、關(guān)鍵詞出現在段落的句中;
  3、最后必須有關(guān)鍵詞;
  4. 中間內部出現3-5次;
  5、關(guān)鍵詞必須收錄
在文章圖片的ALT標簽中;只要做好這幾點(diǎn),關(guān)鍵詞的密度自然會(huì )增加,切記不要堆起來(lái)。
  4. 關(guān)鍵詞大膽的處理
  關(guān)鍵詞加粗是提醒搜索引擎這是重點(diǎn)關(guān)鍵詞,沒(méi)必要每次出現關(guān)鍵詞都加粗,這個(gè)沒(méi)有必要,但是會(huì )導致懷疑過(guò)度優(yōu)化,記住 關(guān)鍵詞 出現時(shí)可以加粗。
  5.文章標簽
  TAG標簽是改善內鏈的重要優(yōu)化技術(shù),便于引導蜘蛛深度爬取,也便于用戶(hù)深度瀏覽,提高關(guān)鍵詞的權重和排名。TAG關(guān)鍵詞標簽就是把內容相同的文章整合到一個(gè)頁(yè)面里,怎么整合呢?對于每個(gè)優(yōu)化過(guò)的關(guān)鍵詞,設置一個(gè)TAG關(guān)鍵詞標簽,使用程序使用TAG關(guān)鍵詞標簽放在一起。
  6. 關(guān)鍵詞 錨文本鏈接
  關(guān)鍵詞 添加鏈接,這個(gè)也叫關(guān)鍵詞錨文本,也是優(yōu)化內鏈的方式。做一個(gè)錨文本鏈接,引導蜘蛛抓取內容,引導用戶(hù)瀏覽企業(yè)要給用戶(hù)瀏覽的內容。只需在第一次出現的 關(guān)鍵詞 處添加一個(gè)錨文本鏈接。一旦出現就沒(méi)有必要添加錨文本鏈接。這是典型的方式,不利于優(yōu)化。同一個(gè)關(guān)鍵詞可以添加一次鏈接,不同的關(guān)鍵詞不能超過(guò)3個(gè)鏈接。
  7.關(guān)鍵詞的出現次數
  一篇文章可以?xún)?yōu)化1-3個(gè)關(guān)鍵詞,要求三個(gè)關(guān)鍵詞都是同一類(lèi)型。如果不是同一類(lèi)型,那么文章就很難寫(xiě)了。寫(xiě)在一篇文章里,有點(diǎn)舍不得,*去中心化,搜索引擎不知道你要優(yōu)化哪個(gè)關(guān)鍵詞。
  8.圖文顯示
  文章考慮了搜索引擎,也需要考慮用戶(hù)和用戶(hù)的瀏覽環(huán)境。簡(jiǎn)單的一堆文字很容易造成視覺(jué)疲勞,降低宣傳效果。有了圖片,更好地排版文章,優(yōu)化文章結構。直觀(guān)地向用戶(hù)表達文章的主題。注意圖片不要超過(guò)200KB,以免影響頁(yè)面加載速度。
  文章優(yōu)化技巧很重要。這是幫助企業(yè)獲得更好的權重和關(guān)鍵詞排名必須要做的工作。很多公司天天更新,有一些原創(chuàng )文章,但是沒(méi)有考慮使用文章優(yōu)化技巧。降低了文章的優(yōu)化值。通過(guò)做文章優(yōu)化,可以為公司帶來(lái)更多的長(cháng)尾關(guān)鍵詞排名,尤其是新站**詞,短時(shí)間內很難有很好的排名,所以多用文章來(lái)提升排名是非常重要的。使長(cháng)尾 關(guān)鍵詞 需要。
  文章排名不僅與內容質(zhì)量本身有關(guān),還與頁(yè)面質(zhì)量和網(wǎng)站質(zhì)量有關(guān)。文章排名偏低,按照上面的方法,基本可以做到**。注意:在很多情況下,理想與現實(shí)是有差距的。從SEO的角度來(lái)看,理論點(diǎn)并不復雜,但具體優(yōu)化要素的實(shí)現卻很復雜。
  關(guān)鍵詞排名優(yōu)化問(wèn)題,0375互聯(lián)網(wǎng)媒體一站式解決方案,快速穩定
  關(guān)鍵詞優(yōu)化排名,平均2-4周上傳詞,進(jìn)入搜索引擎首頁(yè),持續穩定
  -/gjicie/-

采集內容插入詞庫 福利:【年度巨獻】@開(kāi)發(fā)者,你要的HarmonyOS精神大餐,來(lái)啦~(下)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2022-11-26 21:33 ? 來(lái)自相關(guān)話(huà)題

  采集內容插入詞庫 福利:【年度巨獻】@開(kāi)發(fā)者,你要的HarmonyOS精神大餐,來(lái)啦~(下)
  這個(gè)春節開(kāi)發(fā)者是不是過(guò)得很開(kāi)心,除了大魚(yú)大肉,是否也很想念下半場(chǎng)的鴻蒙精神盛宴?,F在就來(lái)滿(mǎn)足大家,HarmonyOS開(kāi)發(fā)“精神食糧”——開(kāi)發(fā)者最關(guān)心、最想得到答案的問(wèn)題又來(lái)了~
  開(kāi)年第一周,無(wú)論是獨自享受還是分享給各位開(kāi)發(fā)者,依舊是那么的干貨滿(mǎn)滿(mǎn)。新的一年,讓我們在HarmonyOS的發(fā)展征途上走得更遠。讓我們從這場(chǎng)“心靈盛宴”開(kāi)始吧。吃飽喝足,我們的“心靈盛宴”馬上就要開(kāi)始了!
  質(zhì)檢&
  安全
  Q1:如何保證多機通話(huà)的安全?
  A:HarmonyOS提供了分布式的安全機制來(lái)保障分布式終端場(chǎng)景下的安全。詳情請參考官網(wǎng)安全說(shuō)明文檔↓↓↓
  安全文檔:
  Q2:是不是只有消費者才能解密加密數據,而華為無(wú)法打開(kāi)加密數據?
  A:是的,除了消費者自己之外,任何人都無(wú)法讀取加密數據。
  Q3:如果我是安全級別最高的設備,無(wú)論我和誰(shuí)連接都不能傳輸數據,那么我的設備就相當于一座孤島?
  A:不是這個(gè)邏輯。雖然是最高安全等級S5,但是能否傳輸還是由數據決定的。接收端的安全級別是否與數據的安全級別相匹配,不是由設備決定的。數據是分級的,安全級別高的設備可以向安全級別低的設備傳輸安全級別低的數據。
  Q4:理論上,如果操作系統被破解,指紋驗證可以被屏蔽嗎?
  A:操作系統和安全系統是解耦的。理論上,如果屏蔽的是指紋驗證,這個(gè)功能是不可用的,這是正確的。而華為設備指紋芯片的采集和處理是在安全處理器中進(jìn)行的。即使操作系統在理論上被攻破,也無(wú)法獲取指紋和模板,指紋無(wú)法被偽造。
  Q5:分布式調度的安全性能如何?
  A:HarmonyOS的安全加密性能達到了業(yè)界最佳,遠超日常需求。目前數據加密性能已經(jīng)達到8Gbps,而目前WiFi和5G的通信性能遠低于8Gbps,不是瓶頸。
  原則
  Q1:不同的HarmonyOS設備使用同一個(gè)APP進(jìn)行跨設備遷移。被遷移的設備是否也需要安裝相應的APP?如果對端不需要安裝APP,遷移時(shí)會(huì )自動(dòng)下載。如何解決延遲和等待體驗問(wèn)題?
  A:所謂遷移,一定是運行狀態(tài)下的FA。因此,當FA運行時(shí),從設備A遷移到設備B有兩種場(chǎng)景:
  1、如果設備B上已經(jīng)安裝了FA,則直接拉起FA;
  2、如果B設備上沒(méi)有安裝FA,需要走免安裝流程;
  至于免費安裝的延遲,主要瓶頸在于網(wǎng)速。因此,我們現在對不安裝FA需要安裝的包的大小進(jìn)行了限制;盡量讓它盡可能小,否則延遲會(huì )很明顯。
  一次安裝多臺設備的能力,這個(gè)需要根據用戶(hù)自己的需求來(lái)選擇,不建議直接在多臺設備上同時(shí)安裝。目前,該功能還處于預研階段,尚未對外發(fā)布。
  Q2:什么是分布式配置文件?
  A:分布式Profile主要管理分布式場(chǎng)景下用戶(hù)設備信息的特性,描述設備之間的基本信息、能力信息、狀態(tài)信息等。
  Q3:LAN和BLE的發(fā)現是同時(shí)進(jìn)行的嗎?發(fā)現方法能區分嗎?
  A:根據業(yè)務(wù)需要,可以同時(shí)支持BLE發(fā)現和LAN發(fā)現。開(kāi)發(fā)人員可以在 BLE 或 LAN 發(fā)現之間自由選擇。
  Q4:軟總線(xiàn)無(wú)感自組網(wǎng)發(fā)展到什么程度?你現在的體驗如何?
  A:自組織網(wǎng)絡(luò )已經(jīng)初步形成??蓪?shí)現設備自動(dòng)上下線(xiàn)檢測,支持局域網(wǎng)和P2P組網(wǎng)方式。增強的聯(lián)網(wǎng)功能正在開(kāi)發(fā)中。請關(guān)注華為官方信息。
  Q5:軟總線(xiàn)有負載限制嗎?
  A:軟總線(xiàn)的負載取決于底層的無(wú)線(xiàn)承載技術(shù)。如果是WiFi連接,則負載上限為WiFi負載上限;如果是BR連接,則受BR負載上限限制。
  
  Q6:設備互聯(lián)是否需要用戶(hù)每次都觸發(fā)?是否可以在后臺調用其他設備?
  A:設備的發(fā)現連接不需要用戶(hù)主動(dòng)觸發(fā)。軟總線(xiàn)提供了自動(dòng)發(fā)現連接的能力,但是自動(dòng)連接會(huì )帶來(lái)額外的功耗。因此,對于業(yè)務(wù)來(lái)說(shuō),沒(méi)有必要主動(dòng)觸發(fā)發(fā)現,但建議業(yè)務(wù)觸發(fā)建立連接,按需傳輸數據??梢院笈_調用其他設備,但業(yè)務(wù)/應用需要申請權限。
  Q7:手表和電視可以直連嗎?就是不要用手機作為交通工具?
  A:是的,現在的智能手表已經(jīng)具備了直接連接電視的功能,不需要手機做中繼。
  Q8:廠(chǎng)商A的應用創(chuàng )建的KV數據能被廠(chǎng)商B的應用讀取嗎?如果不是,通過(guò)什么加密?
  A:內部嚴格執行數據訪(fǎng)問(wèn)控制,不同應用的數據在物理上和邏輯上都是隔離的。通過(guò)應用程序包名稱(chēng)和簽名來(lái)隔離不同應用程序的數據。
  Q9:設備A和設備B有文件名稱(chēng)相同但內容不同怎么辦?
  A: 1.本地和遠程沖突,遠程文件重命名??吹降耐募潜镜赝募?,遠程文件重命名;
  2.如果多個(gè)遠程設備之間存在沖突,則設備ID較小的同名文件將按訪(fǎng)問(wèn)設備ID的順序顯示,其他文件按順序重命名;
  3、如果聯(lián)網(wǎng)場(chǎng)景下目錄樹(shù)下有遠程文件,創(chuàng )建同名文件并提示文件已存在;
  4、沖突文件顯示_conflict_dev后,依次添加id;
  5、同名目錄不沖突,但文件與遠程目錄同名沖突,遠程目錄后綴加上_remote_directory。
  Q10:如果手機微信保存的圖片需要平板美圖編輯,如何分享文件?
  A:當前版本只支持同應用間的分布式共享,后續版本將支持公共文件,可以跨設備、跨應用訪(fǎng)問(wèn)。
  Q11:是否有圖片搜索和對象搜索?
  A:融合搜索只支持普通數據類(lèi)型的搜索,不支持其他二進(jìn)制形式的多模式搜索。
  Q12:Fusion Search有跨華為賬號跨設備搜索的功能嗎?
  A:聚合搜索支持索引分組管理。它可以將一個(gè)設備的數據作為一個(gè)組來(lái)管理,但是它不具備在設備之間同步數據的能力。設備間同步索引數據的通道需要APP搭建。
  1、設備1命名為group1(例子),設備2命名為group2(例子);
  2、改變索引時(shí),指定groupName為對應的組名;
  3.搜索時(shí),可以分組搜索。group1的結果是設備1的搜索結果,group2的結果是設備2的搜索結果。
  Q13:分布式文件系統和搜索,1+8+N可以應用在哪些設備上?
  A:手機、平板、智慧屏、車(chē)機等富設備不支持手表、音箱等輕量級設備。
  Q14:鴻蒙分布式數據庫和文件管理需要云服務(wù)器支持嗎?
  A:分布式數據庫和分布式文件系統目前都是基于局域網(wǎng)環(huán)境。沒(méi)有云服務(wù)器的幫助,所有的內容都不會(huì )上云。
  Q15:詞庫有多大?在手機上做還是在云端做?
  A:100w詞庫以?xún)龋?0M級別,手機端,不在云端。
  Q16:融合索引可以索引不同應用、不同設備的數據嗎?
  A:APP開(kāi)發(fā)者可以搜索自己管理的索引數據,不能搜索其他APP插入的索引數據。
  例如:短信索引插入短信App,郵件索引插入郵件App。在郵件應用程序上可以找到郵件,但找不到短信。
  
  但是,如果郵件應用有短信數據,并且自己插入了短信索引,那么郵件應用就可以在自己管理的索引中搜索郵件和短信。
  對于多設備、多應用的搜索,需要APP自己獲取數據,然后調用搜索框架接口對數據進(jìn)行分組管理,在對應的分組中進(jìn)行搜索。
  Q17:分布式會(huì )備份所有的設備文件嗎?那會(huì )占用很多存儲空間,對吧?
  A:分布式文件系統所有文件只有一份,沒(méi)有備份,所以不會(huì )占用多余的存儲空間。
  Q18:在文件同步過(guò)程中更改文件時(shí),設備更改到一半就關(guān)機了?會(huì )發(fā)生什么樣的同步?
  A:如果文件保存在遠程設備上,遠程設備斷電后,后續文件將無(wú)法保存;如果文件保存在本地設備,遠程設備斷電,不受影響,仍然可以保存成功。終端設備開(kāi)機后,訪(fǎng)問(wèn)文件時(shí),可以訪(fǎng)問(wèn)到最新的文件。
  Q19:分布式數據庫、設備與設備之間使用什么通信協(xié)議?
  A:通信協(xié)議主要由分布式軟總線(xiàn)封裝實(shí)現,分布式數據庫不感知。分布式數據庫定義了自己的一套應用層協(xié)議來(lái)發(fā)送和接收數據。
  Q20:這個(gè)技術(shù)和RPC/REST有什么區別?
  A:分布式調度包括RPC,REST是RPC的一種形式
  Q21:如果沒(méi)有DisConnect連接,會(huì )一直留在池中消耗資源嗎?
  A:當物理網(wǎng)絡(luò )連接斷開(kāi)或應用程序退出時(shí),系統會(huì )自動(dòng)斷開(kāi)連接。如果應用程序存活并且服務(wù)完成而沒(méi)有釋放連接,則會(huì )消耗資源
  Q22:軟總線(xiàn)的設備列表綁定了華為賬號。HarmonyOS支持多賬號切換嗎?
  A:軟總線(xiàn)設備列表不綁定華為賬號。軟總線(xiàn)設備列表是用戶(hù)信任的設備。同一個(gè)華為賬號代表同一個(gè)用戶(hù)的設備,默認為用戶(hù)信任。當前問(wèn)題中的賬號指的是華為賬號,即Huawei Mobile Services,是云服務(wù)與本地用戶(hù)的綁定關(guān)系;鴻蒙系統是設備上的系統。如果說(shuō)賬號切換,應該是設備本地用戶(hù)切換。如果是華為賬號切換其實(shí)就是本地和云服務(wù)賬號的解綁和重新綁定。
  Q23:這個(gè)和現在的電視投影有什么區別嗎?
  A:目前電視投屏有兩種,一種是DLNA,由應用程序控制,將應用程序的顯示界面復制到另一個(gè)屏幕上顯示,也就是將Surface Layer內存復制處理后傳輸到另一個(gè)屏幕顯示。另一種是mirror Cast,即系統將發(fā)送到屏幕的疊加內存內容進(jìn)行復制、處理和傳輸,以便在另一個(gè)屏幕上顯示。分布式調度不同于這兩種類(lèi)型。只傳輸應用控制指令和應用數據,不涉及顯示渲染。顯示渲染在兩個(gè)設備上本地執行。
  Q24:不同設備的軟總線(xiàn)列表是否一致?
  A:根據權限不同,在不同的用戶(hù)和設備上看到的信任設備列表是不同的。同一物理網(wǎng)絡(luò )中的指令集是相同的。
  Q25:一臺設備可以綁定多人嗎?比如一臺電視綁定一家3口的手機?
  A:只能綁定一個(gè)Owner,其他的由Owner授權。
  Q26:HarmonyOS 以后會(huì )采用微內核,還是三個(gè)內核統一?
  A:HarmonyOS支持多核。開(kāi)發(fā)者和合作伙伴可以根據不同的產(chǎn)品和場(chǎng)景使用不同的內核。
  Q27:設備傳輸可以語(yǔ)音控制嗎?
  A:HarmonyOS提供分布式能力,包括硬件虛擬化、數據協(xié)同、服務(wù)調用協(xié)同。業(yè)務(wù)應用可以基于這些能力實(shí)現交互設備的狀態(tài)同步和切換。后續計劃在HarmonyOS上逐步開(kāi)放三方業(yè)務(wù)融合的語(yǔ)音控制,用于實(shí)現“小藝小藝,幫我繼續播放智慧屏上的視頻”等語(yǔ)音控制功能。
  好了,以上就是我們?yōu)榇蠹規?lái)的鴻蒙精神盛宴的下半場(chǎng),和上半場(chǎng)一起吃效果會(huì )更好。新的一年,如果大家對HarmonyOS的開(kāi)發(fā)有什么疑問(wèn),歡迎在后臺留言,我們會(huì )一一采集
開(kāi)發(fā)者的問(wèn)題~
  新的一年,讓我們揚帆起航,共同邁進(jìn)萬(wàn)物互聯(lián)新時(shí)代!
  結尾
  掃描二維碼關(guān)注不迷路
  干貨教程:thinkcmf搭建教程?thinkcmf自動(dòng)生成采集文章插件
  為什么要用thinkcmf插件?如何使用thinkcmf插件對網(wǎng)站進(jìn)行收錄和關(guān)鍵詞排名。網(wǎng)站優(yōu)化前,網(wǎng)站的代碼、路徑、標簽、服務(wù)器狀態(tài)等必須處于有利于優(yōu)化的狀態(tài)。否則,我們在以后的網(wǎng)站優(yōu)化過(guò)程中可能會(huì )事倍功半,很難達到預期的效果。如果我們在上線(xiàn)前做好站內優(yōu)化,那么我們在優(yōu)化過(guò)程中可能會(huì )輕松很多,也更容易出結果。
  1.描述優(yōu)化
  1)標題標題優(yōu)化。通常,標題下方的描述中會(huì )收錄
一兩個(gè)關(guān)鍵詞,這是網(wǎng)頁(yè)與關(guān)鍵詞的相關(guān)性,而這個(gè)關(guān)鍵詞同時(shí)出現在標題和描述中網(wǎng)頁(yè)>,說(shuō)明這個(gè)網(wǎng)頁(yè)的內容是和這個(gè)關(guān)鍵詞相關(guān)的,加上這個(gè)網(wǎng)站的內外部?jì)?yōu)化,所以搜索引擎會(huì )給這個(gè)網(wǎng)站一個(gè)好的排名,展示在我們面前。
  2) 關(guān)鍵詞部署。關(guān)鍵詞通常我們會(huì )將其設置為用戶(hù)要搜索的詞。設置了這樣一個(gè)詞后,我們將通過(guò)優(yōu)化行為來(lái)提高我們網(wǎng)頁(yè)的排名。通常,關(guān)鍵詞 應該收錄
在標題中。如果關(guān)鍵詞太多,就把核心的關(guān)鍵詞放在里面。
  3)描述。描述是對本網(wǎng)站最簡(jiǎn)潔的介紹。在這個(gè)介紹中,除了嵌入你的關(guān)鍵詞之外,你還應該添加盡可能多的服務(wù)信息,以及你的網(wǎng)站特征信息,足夠豐富的描述內容是合格的描述,而不是純粹的積累關(guān)鍵詞。
  一個(gè)網(wǎng)站更新的越頻繁,搜索引擎蜘蛛來(lái)的就越頻繁。因此,我們可以利用thinkcmf采集來(lái)實(shí)現偽原創(chuàng )發(fā)布的自動(dòng)采集,并主動(dòng)推送到搜索引擎,以增加搜索引擎的抓取頻率,從而提高網(wǎng)站收錄和關(guān)鍵詞排名。
  1.免費的thinkcmf采集插件
  免費的thinkcmf采集插件特點(diǎn):
  1.導入關(guān)鍵詞即可采集相關(guān)關(guān)鍵詞文章,同時(shí)創(chuàng )建幾十個(gè)或上百個(gè)采集任務(wù)(一個(gè)任務(wù)可支持上傳1000個(gè)關(guān)鍵詞),支持過(guò)濾關(guān)鍵詞。
  2.支持多種消息源:?jiǎn)?wèn)答和多種消息源(可設置多個(gè)采集源同時(shí)采集/后續會(huì )添加采集源)
  3.過(guò)濾其他促銷(xiāo)信息
  
  4. 圖片本地化/圖片水印/圖片第三方存儲
  5.文章轉換+翻譯(簡(jiǎn)繁體轉換+百度翻譯+有道翻譯+谷歌翻譯+翻譯)
  6、自動(dòng)批量掛機收款,與各大CMS發(fā)布商無(wú)縫對接,收款后自動(dòng)發(fā)布——實(shí)現掛機自動(dòng)收放。
  2. 發(fā)布全平臺插件
  全平臺 CMS 發(fā)布者功能:
  1、CMS發(fā)布:目前市場(chǎng)唯一同時(shí)支持帝王CMS、易游、ZBLOG、dedeCMS、WordPress、PBoot、Apple CMS、迅銳CMS、PHPCMS、Apple CMS、人人CMS、米拓CMS、云游CMS 、小旋風(fēng)站群、THINKCMF、建站ABC、凡客CMS、易奇CMS、海洋CMS、飛飛CMS、本地發(fā)布、外搜等各大CMS,以及可以同時(shí)管理和批量發(fā)布的工具
  2、全網(wǎng)推送(百度/360/搜狗/神馬)
  3.偽原創(chuàng )(標題+內容)
  4.更換圖片,防止侵權
  5、強大的SEO功能(自動(dòng)配圖/插入內外鏈/插入前后標題和文章內容/標題關(guān)鍵詞與內容一致關(guān)鍵詞/隨機插入圖片/隨機屬性增加頁(yè)面原創(chuàng )性)
  6.對應欄目:對應文章可發(fā)布在對應欄目/支持多欄目發(fā)布
  7、定時(shí)發(fā)布:可控發(fā)布間隔/每天發(fā)布總次數
  8、監控數據:軟件直接監控已發(fā)布、待發(fā)布、是否為假原創(chuàng )、發(fā)布狀態(tài)、URL、程序、發(fā)布時(shí)間等。
  
  2.代碼優(yōu)化
  在建站非常方便的今天,任何人都可以通過(guò)建站程序快速搭建一個(gè)屬于自己的網(wǎng)站。建好自己的網(wǎng)站后,我們需要對網(wǎng)站中的代碼進(jìn)行優(yōu)化。在建站的時(shí)候,我們應該盡量使用HTML+DIV格式來(lái)建網(wǎng)頁(yè)。寫(xiě)代碼的時(shí)候,盡量簡(jiǎn)化代碼的格式,避免使用多個(gè)應用,這樣會(huì )導致路徑層級過(guò)深,對搜索引擎抓取網(wǎng)頁(yè)很不友好。
  其實(shí)不懂代碼的企業(yè)朋友可以直接使用H5自助建站系統建站。無(wú)需編寫(xiě)編程和編碼,操作會(huì )更簡(jiǎn)單。
  3.路徑優(yōu)化
  搜索引擎抓取網(wǎng)站的最佳層數是3層路徑,即首頁(yè)-級別2欄目頁(yè)面-內容頁(yè),這是對優(yōu)化最友好的路徑層,因為如果你的內容頁(yè)路徑超過(guò)3層,達到4、5層甚至更深,搜索引擎的爬行機器人在爬取你的網(wǎng)站時(shí)會(huì )非常吃力,爬取的效果也會(huì )很不理想。
  4.站點(diǎn)地圖制作
  制作站點(diǎn)地圖可以讓搜索引擎每抓取一個(gè)頁(yè)面就對整個(gè)站點(diǎn)進(jìn)行一次深度爬取,從而增加文章內容產(chǎn)出的概率,但是不能過(guò)分依賴(lài)站點(diǎn)地圖。想要內容被收錄,質(zhì)量是第一位的。另外記得在網(wǎng)站底部加上site map標簽,記得把site map文件放在robots.
  我們可以認為站內優(yōu)化是一種刻意迎合搜索引擎的行為,但這種刻意迎合搜索引擎的行為實(shí)際上是在迎合真實(shí)用戶(hù)。它很友好。在搜索引擎強調用戶(hù)體驗的今天,我們優(yōu)化從業(yè)者必須明白,迎合搜索引擎就是迎合用戶(hù)。
  1.一些標簽的使用不能忽視。keywords標簽不要想太多,加3-4個(gè)關(guān)鍵詞就可以了,堆那么多反而適得其反。description標簽是描述標簽,不是讓你羅列XX,XXX關(guān)鍵詞,組織合理流暢的句子來(lái)介紹你的網(wǎng)站。隨意添加一些 關(guān)鍵詞 到它。標簽保證出現一次,可多次使用,但請打分強調重要內容。粗體和斜體都有強調的意思。強調主要的 關(guān)鍵詞,避免濫用。所有粗體或斜體都沒(méi)有意義。
  2、頁(yè)面標題一直被認為是最重要的優(yōu)化重點(diǎn)。事實(shí)也證明,寫(xiě)對標題確實(shí)有很大的好處。一個(gè)合理的標題應該注意以下問(wèn)題: 從網(wǎng)站的整體來(lái)看,網(wǎng)站的標題是否相似,很多CMS模板都是采用層次化的標題標簽來(lái)組合標題,如果一個(gè)標題標簽所占的比例比較大比例,容易造成標題混淆相似。
  3、頁(yè)面布局 頁(yè)面的位置很重要,上比下重要,右比右重要。目的是一個(gè),把最重要的內容放在重要的位置,吸引用戶(hù)和搜索引擎。
  4. 在內容中分發(fā)關(guān)鍵詞。也許你沒(méi)有注意到這個(gè)問(wèn)題。例如,合理的內容排版可以讓人一目了然,使用分級字體、加粗加強調關(guān)鍵詞、標題(粗體)、副標題(粗體或斜體)、正文。這樣,利用用戶(hù)來(lái)了解和查看重要的內容,也是用戶(hù)體驗的問(wèn)題。
  5.網(wǎng)站導航 導航應該放在重要的位置。必須注意的是,如果分類(lèi)很多,不要把網(wǎng)站的所有分類(lèi)都放在首頁(yè)導航位置。應該是重點(diǎn)。
  6、內鏈建設 網(wǎng)站內鏈循環(huán):首頁(yè)-分類(lèi)-小分類(lèi)-內容-小分類(lèi)-分類(lèi)-首頁(yè)。這樣就形成了一個(gè)循環(huán),目的是讓用戶(hù)在網(wǎng)站的某個(gè)頁(yè)面上找到去其他頁(yè)面的路。當然,這個(gè)“距離”不能太長(cháng),三擊以?xún)葹榧选? 查看全部

  采集內容插入詞庫 福利:【年度巨獻】@開(kāi)發(fā)者,你要的HarmonyOS精神大餐,來(lái)啦~(下)
  這個(gè)春節開(kāi)發(fā)者是不是過(guò)得很開(kāi)心,除了大魚(yú)大肉,是否也很想念下半場(chǎng)的鴻蒙精神盛宴?,F在就來(lái)滿(mǎn)足大家,HarmonyOS開(kāi)發(fā)“精神食糧”——開(kāi)發(fā)者最關(guān)心、最想得到答案的問(wèn)題又來(lái)了~
  開(kāi)年第一周,無(wú)論是獨自享受還是分享給各位開(kāi)發(fā)者,依舊是那么的干貨滿(mǎn)滿(mǎn)。新的一年,讓我們在HarmonyOS的發(fā)展征途上走得更遠。讓我們從這場(chǎng)“心靈盛宴”開(kāi)始吧。吃飽喝足,我們的“心靈盛宴”馬上就要開(kāi)始了!
  質(zhì)檢&
  安全
  Q1:如何保證多機通話(huà)的安全?
  A:HarmonyOS提供了分布式的安全機制來(lái)保障分布式終端場(chǎng)景下的安全。詳情請參考官網(wǎng)安全說(shuō)明文檔↓↓↓
  安全文檔:
  Q2:是不是只有消費者才能解密加密數據,而華為無(wú)法打開(kāi)加密數據?
  A:是的,除了消費者自己之外,任何人都無(wú)法讀取加密數據。
  Q3:如果我是安全級別最高的設備,無(wú)論我和誰(shuí)連接都不能傳輸數據,那么我的設備就相當于一座孤島?
  A:不是這個(gè)邏輯。雖然是最高安全等級S5,但是能否傳輸還是由數據決定的。接收端的安全級別是否與數據的安全級別相匹配,不是由設備決定的。數據是分級的,安全級別高的設備可以向安全級別低的設備傳輸安全級別低的數據。
  Q4:理論上,如果操作系統被破解,指紋驗證可以被屏蔽嗎?
  A:操作系統和安全系統是解耦的。理論上,如果屏蔽的是指紋驗證,這個(gè)功能是不可用的,這是正確的。而華為設備指紋芯片的采集和處理是在安全處理器中進(jìn)行的。即使操作系統在理論上被攻破,也無(wú)法獲取指紋和模板,指紋無(wú)法被偽造。
  Q5:分布式調度的安全性能如何?
  A:HarmonyOS的安全加密性能達到了業(yè)界最佳,遠超日常需求。目前數據加密性能已經(jīng)達到8Gbps,而目前WiFi和5G的通信性能遠低于8Gbps,不是瓶頸。
  原則
  Q1:不同的HarmonyOS設備使用同一個(gè)APP進(jìn)行跨設備遷移。被遷移的設備是否也需要安裝相應的APP?如果對端不需要安裝APP,遷移時(shí)會(huì )自動(dòng)下載。如何解決延遲和等待體驗問(wèn)題?
  A:所謂遷移,一定是運行狀態(tài)下的FA。因此,當FA運行時(shí),從設備A遷移到設備B有兩種場(chǎng)景:
  1、如果設備B上已經(jīng)安裝了FA,則直接拉起FA;
  2、如果B設備上沒(méi)有安裝FA,需要走免安裝流程;
  至于免費安裝的延遲,主要瓶頸在于網(wǎng)速。因此,我們現在對不安裝FA需要安裝的包的大小進(jìn)行了限制;盡量讓它盡可能小,否則延遲會(huì )很明顯。
  一次安裝多臺設備的能力,這個(gè)需要根據用戶(hù)自己的需求來(lái)選擇,不建議直接在多臺設備上同時(shí)安裝。目前,該功能還處于預研階段,尚未對外發(fā)布。
  Q2:什么是分布式配置文件?
  A:分布式Profile主要管理分布式場(chǎng)景下用戶(hù)設備信息的特性,描述設備之間的基本信息、能力信息、狀態(tài)信息等。
  Q3:LAN和BLE的發(fā)現是同時(shí)進(jìn)行的嗎?發(fā)現方法能區分嗎?
  A:根據業(yè)務(wù)需要,可以同時(shí)支持BLE發(fā)現和LAN發(fā)現。開(kāi)發(fā)人員可以在 BLE 或 LAN 發(fā)現之間自由選擇。
  Q4:軟總線(xiàn)無(wú)感自組網(wǎng)發(fā)展到什么程度?你現在的體驗如何?
  A:自組織網(wǎng)絡(luò )已經(jīng)初步形成??蓪?shí)現設備自動(dòng)上下線(xiàn)檢測,支持局域網(wǎng)和P2P組網(wǎng)方式。增強的聯(lián)網(wǎng)功能正在開(kāi)發(fā)中。請關(guān)注華為官方信息。
  Q5:軟總線(xiàn)有負載限制嗎?
  A:軟總線(xiàn)的負載取決于底層的無(wú)線(xiàn)承載技術(shù)。如果是WiFi連接,則負載上限為WiFi負載上限;如果是BR連接,則受BR負載上限限制。
  
  Q6:設備互聯(lián)是否需要用戶(hù)每次都觸發(fā)?是否可以在后臺調用其他設備?
  A:設備的發(fā)現連接不需要用戶(hù)主動(dòng)觸發(fā)。軟總線(xiàn)提供了自動(dòng)發(fā)現連接的能力,但是自動(dòng)連接會(huì )帶來(lái)額外的功耗。因此,對于業(yè)務(wù)來(lái)說(shuō),沒(méi)有必要主動(dòng)觸發(fā)發(fā)現,但建議業(yè)務(wù)觸發(fā)建立連接,按需傳輸數據??梢院笈_調用其他設備,但業(yè)務(wù)/應用需要申請權限。
  Q7:手表和電視可以直連嗎?就是不要用手機作為交通工具?
  A:是的,現在的智能手表已經(jīng)具備了直接連接電視的功能,不需要手機做中繼。
  Q8:廠(chǎng)商A的應用創(chuàng )建的KV數據能被廠(chǎng)商B的應用讀取嗎?如果不是,通過(guò)什么加密?
  A:內部嚴格執行數據訪(fǎng)問(wèn)控制,不同應用的數據在物理上和邏輯上都是隔離的。通過(guò)應用程序包名稱(chēng)和簽名來(lái)隔離不同應用程序的數據。
  Q9:設備A和設備B有文件名稱(chēng)相同但內容不同怎么辦?
  A: 1.本地和遠程沖突,遠程文件重命名??吹降耐募潜镜赝募?,遠程文件重命名;
  2.如果多個(gè)遠程設備之間存在沖突,則設備ID較小的同名文件將按訪(fǎng)問(wèn)設備ID的順序顯示,其他文件按順序重命名;
  3、如果聯(lián)網(wǎng)場(chǎng)景下目錄樹(shù)下有遠程文件,創(chuàng )建同名文件并提示文件已存在;
  4、沖突文件顯示_conflict_dev后,依次添加id;
  5、同名目錄不沖突,但文件與遠程目錄同名沖突,遠程目錄后綴加上_remote_directory。
  Q10:如果手機微信保存的圖片需要平板美圖編輯,如何分享文件?
  A:當前版本只支持同應用間的分布式共享,后續版本將支持公共文件,可以跨設備、跨應用訪(fǎng)問(wèn)。
  Q11:是否有圖片搜索和對象搜索?
  A:融合搜索只支持普通數據類(lèi)型的搜索,不支持其他二進(jìn)制形式的多模式搜索。
  Q12:Fusion Search有跨華為賬號跨設備搜索的功能嗎?
  A:聚合搜索支持索引分組管理。它可以將一個(gè)設備的數據作為一個(gè)組來(lái)管理,但是它不具備在設備之間同步數據的能力。設備間同步索引數據的通道需要APP搭建。
  1、設備1命名為group1(例子),設備2命名為group2(例子);
  2、改變索引時(shí),指定groupName為對應的組名;
  3.搜索時(shí),可以分組搜索。group1的結果是設備1的搜索結果,group2的結果是設備2的搜索結果。
  Q13:分布式文件系統和搜索,1+8+N可以應用在哪些設備上?
  A:手機、平板、智慧屏、車(chē)機等富設備不支持手表、音箱等輕量級設備。
  Q14:鴻蒙分布式數據庫和文件管理需要云服務(wù)器支持嗎?
  A:分布式數據庫和分布式文件系統目前都是基于局域網(wǎng)環(huán)境。沒(méi)有云服務(wù)器的幫助,所有的內容都不會(huì )上云。
  Q15:詞庫有多大?在手機上做還是在云端做?
  A:100w詞庫以?xún)龋?0M級別,手機端,不在云端。
  Q16:融合索引可以索引不同應用、不同設備的數據嗎?
  A:APP開(kāi)發(fā)者可以搜索自己管理的索引數據,不能搜索其他APP插入的索引數據。
  例如:短信索引插入短信App,郵件索引插入郵件App。在郵件應用程序上可以找到郵件,但找不到短信。
  
  但是,如果郵件應用有短信數據,并且自己插入了短信索引,那么郵件應用就可以在自己管理的索引中搜索郵件和短信。
  對于多設備、多應用的搜索,需要APP自己獲取數據,然后調用搜索框架接口對數據進(jìn)行分組管理,在對應的分組中進(jìn)行搜索。
  Q17:分布式會(huì )備份所有的設備文件嗎?那會(huì )占用很多存儲空間,對吧?
  A:分布式文件系統所有文件只有一份,沒(méi)有備份,所以不會(huì )占用多余的存儲空間。
  Q18:在文件同步過(guò)程中更改文件時(shí),設備更改到一半就關(guān)機了?會(huì )發(fā)生什么樣的同步?
  A:如果文件保存在遠程設備上,遠程設備斷電后,后續文件將無(wú)法保存;如果文件保存在本地設備,遠程設備斷電,不受影響,仍然可以保存成功。終端設備開(kāi)機后,訪(fǎng)問(wèn)文件時(shí),可以訪(fǎng)問(wèn)到最新的文件。
  Q19:分布式數據庫、設備與設備之間使用什么通信協(xié)議?
  A:通信協(xié)議主要由分布式軟總線(xiàn)封裝實(shí)現,分布式數據庫不感知。分布式數據庫定義了自己的一套應用層協(xié)議來(lái)發(fā)送和接收數據。
  Q20:這個(gè)技術(shù)和RPC/REST有什么區別?
  A:分布式調度包括RPC,REST是RPC的一種形式
  Q21:如果沒(méi)有DisConnect連接,會(huì )一直留在池中消耗資源嗎?
  A:當物理網(wǎng)絡(luò )連接斷開(kāi)或應用程序退出時(shí),系統會(huì )自動(dòng)斷開(kāi)連接。如果應用程序存活并且服務(wù)完成而沒(méi)有釋放連接,則會(huì )消耗資源
  Q22:軟總線(xiàn)的設備列表綁定了華為賬號。HarmonyOS支持多賬號切換嗎?
  A:軟總線(xiàn)設備列表不綁定華為賬號。軟總線(xiàn)設備列表是用戶(hù)信任的設備。同一個(gè)華為賬號代表同一個(gè)用戶(hù)的設備,默認為用戶(hù)信任。當前問(wèn)題中的賬號指的是華為賬號,即Huawei Mobile Services,是云服務(wù)與本地用戶(hù)的綁定關(guān)系;鴻蒙系統是設備上的系統。如果說(shuō)賬號切換,應該是設備本地用戶(hù)切換。如果是華為賬號切換其實(shí)就是本地和云服務(wù)賬號的解綁和重新綁定。
  Q23:這個(gè)和現在的電視投影有什么區別嗎?
  A:目前電視投屏有兩種,一種是DLNA,由應用程序控制,將應用程序的顯示界面復制到另一個(gè)屏幕上顯示,也就是將Surface Layer內存復制處理后傳輸到另一個(gè)屏幕顯示。另一種是mirror Cast,即系統將發(fā)送到屏幕的疊加內存內容進(jìn)行復制、處理和傳輸,以便在另一個(gè)屏幕上顯示。分布式調度不同于這兩種類(lèi)型。只傳輸應用控制指令和應用數據,不涉及顯示渲染。顯示渲染在兩個(gè)設備上本地執行。
  Q24:不同設備的軟總線(xiàn)列表是否一致?
  A:根據權限不同,在不同的用戶(hù)和設備上看到的信任設備列表是不同的。同一物理網(wǎng)絡(luò )中的指令集是相同的。
  Q25:一臺設備可以綁定多人嗎?比如一臺電視綁定一家3口的手機?
  A:只能綁定一個(gè)Owner,其他的由Owner授權。
  Q26:HarmonyOS 以后會(huì )采用微內核,還是三個(gè)內核統一?
  A:HarmonyOS支持多核。開(kāi)發(fā)者和合作伙伴可以根據不同的產(chǎn)品和場(chǎng)景使用不同的內核。
  Q27:設備傳輸可以語(yǔ)音控制嗎?
  A:HarmonyOS提供分布式能力,包括硬件虛擬化、數據協(xié)同、服務(wù)調用協(xié)同。業(yè)務(wù)應用可以基于這些能力實(shí)現交互設備的狀態(tài)同步和切換。后續計劃在HarmonyOS上逐步開(kāi)放三方業(yè)務(wù)融合的語(yǔ)音控制,用于實(shí)現“小藝小藝,幫我繼續播放智慧屏上的視頻”等語(yǔ)音控制功能。
  好了,以上就是我們?yōu)榇蠹規?lái)的鴻蒙精神盛宴的下半場(chǎng),和上半場(chǎng)一起吃效果會(huì )更好。新的一年,如果大家對HarmonyOS的開(kāi)發(fā)有什么疑問(wèn),歡迎在后臺留言,我們會(huì )一一采集
開(kāi)發(fā)者的問(wèn)題~
  新的一年,讓我們揚帆起航,共同邁進(jìn)萬(wàn)物互聯(lián)新時(shí)代!
  結尾
  掃描二維碼關(guān)注不迷路
  干貨教程:thinkcmf搭建教程?thinkcmf自動(dòng)生成采集文章插件
  為什么要用thinkcmf插件?如何使用thinkcmf插件對網(wǎng)站進(jìn)行收錄和關(guān)鍵詞排名。網(wǎng)站優(yōu)化前,網(wǎng)站的代碼、路徑、標簽、服務(wù)器狀態(tài)等必須處于有利于優(yōu)化的狀態(tài)。否則,我們在以后的網(wǎng)站優(yōu)化過(guò)程中可能會(huì )事倍功半,很難達到預期的效果。如果我們在上線(xiàn)前做好站內優(yōu)化,那么我們在優(yōu)化過(guò)程中可能會(huì )輕松很多,也更容易出結果。
  1.描述優(yōu)化
  1)標題標題優(yōu)化。通常,標題下方的描述中會(huì )收錄
一兩個(gè)關(guān)鍵詞,這是網(wǎng)頁(yè)與關(guān)鍵詞的相關(guān)性,而這個(gè)關(guān)鍵詞同時(shí)出現在標題和描述中網(wǎng)頁(yè)>,說(shuō)明這個(gè)網(wǎng)頁(yè)的內容是和這個(gè)關(guān)鍵詞相關(guān)的,加上這個(gè)網(wǎng)站的內外部?jì)?yōu)化,所以搜索引擎會(huì )給這個(gè)網(wǎng)站一個(gè)好的排名,展示在我們面前。
  2) 關(guān)鍵詞部署。關(guān)鍵詞通常我們會(huì )將其設置為用戶(hù)要搜索的詞。設置了這樣一個(gè)詞后,我們將通過(guò)優(yōu)化行為來(lái)提高我們網(wǎng)頁(yè)的排名。通常,關(guān)鍵詞 應該收錄
在標題中。如果關(guān)鍵詞太多,就把核心的關(guān)鍵詞放在里面。
  3)描述。描述是對本網(wǎng)站最簡(jiǎn)潔的介紹。在這個(gè)介紹中,除了嵌入你的關(guān)鍵詞之外,你還應該添加盡可能多的服務(wù)信息,以及你的網(wǎng)站特征信息,足夠豐富的描述內容是合格的描述,而不是純粹的積累關(guān)鍵詞。
  一個(gè)網(wǎng)站更新的越頻繁,搜索引擎蜘蛛來(lái)的就越頻繁。因此,我們可以利用thinkcmf采集來(lái)實(shí)現偽原創(chuàng )發(fā)布的自動(dòng)采集,并主動(dòng)推送到搜索引擎,以增加搜索引擎的抓取頻率,從而提高網(wǎng)站收錄和關(guān)鍵詞排名。
  1.免費的thinkcmf采集插件
  免費的thinkcmf采集插件特點(diǎn):
  1.導入關(guān)鍵詞即可采集相關(guān)關(guān)鍵詞文章,同時(shí)創(chuàng )建幾十個(gè)或上百個(gè)采集任務(wù)(一個(gè)任務(wù)可支持上傳1000個(gè)關(guān)鍵詞),支持過(guò)濾關(guān)鍵詞。
  2.支持多種消息源:?jiǎn)?wèn)答和多種消息源(可設置多個(gè)采集源同時(shí)采集/后續會(huì )添加采集源)
  3.過(guò)濾其他促銷(xiāo)信息
  
  4. 圖片本地化/圖片水印/圖片第三方存儲
  5.文章轉換+翻譯(簡(jiǎn)繁體轉換+百度翻譯+有道翻譯+谷歌翻譯+翻譯)
  6、自動(dòng)批量掛機收款,與各大CMS發(fā)布商無(wú)縫對接,收款后自動(dòng)發(fā)布——實(shí)現掛機自動(dòng)收放。
  2. 發(fā)布全平臺插件
  全平臺 CMS 發(fā)布者功能:
  1、CMS發(fā)布:目前市場(chǎng)唯一同時(shí)支持帝王CMS、易游、ZBLOG、dedeCMS、WordPress、PBoot、Apple CMS、迅銳CMS、PHPCMS、Apple CMS、人人CMS、米拓CMS、云游CMS 、小旋風(fēng)站群、THINKCMF、建站ABC、凡客CMS、易奇CMS、海洋CMS、飛飛CMS、本地發(fā)布、外搜等各大CMS,以及可以同時(shí)管理和批量發(fā)布的工具
  2、全網(wǎng)推送(百度/360/搜狗/神馬)
  3.偽原創(chuàng )(標題+內容)
  4.更換圖片,防止侵權
  5、強大的SEO功能(自動(dòng)配圖/插入內外鏈/插入前后標題和文章內容/標題關(guān)鍵詞與內容一致關(guān)鍵詞/隨機插入圖片/隨機屬性增加頁(yè)面原創(chuàng )性)
  6.對應欄目:對應文章可發(fā)布在對應欄目/支持多欄目發(fā)布
  7、定時(shí)發(fā)布:可控發(fā)布間隔/每天發(fā)布總次數
  8、監控數據:軟件直接監控已發(fā)布、待發(fā)布、是否為假原創(chuàng )、發(fā)布狀態(tài)、URL、程序、發(fā)布時(shí)間等。
  
  2.代碼優(yōu)化
  在建站非常方便的今天,任何人都可以通過(guò)建站程序快速搭建一個(gè)屬于自己的網(wǎng)站。建好自己的網(wǎng)站后,我們需要對網(wǎng)站中的代碼進(jìn)行優(yōu)化。在建站的時(shí)候,我們應該盡量使用HTML+DIV格式來(lái)建網(wǎng)頁(yè)。寫(xiě)代碼的時(shí)候,盡量簡(jiǎn)化代碼的格式,避免使用多個(gè)應用,這樣會(huì )導致路徑層級過(guò)深,對搜索引擎抓取網(wǎng)頁(yè)很不友好。
  其實(shí)不懂代碼的企業(yè)朋友可以直接使用H5自助建站系統建站。無(wú)需編寫(xiě)編程和編碼,操作會(huì )更簡(jiǎn)單。
  3.路徑優(yōu)化
  搜索引擎抓取網(wǎng)站的最佳層數是3層路徑,即首頁(yè)-級別2欄目頁(yè)面-內容頁(yè),這是對優(yōu)化最友好的路徑層,因為如果你的內容頁(yè)路徑超過(guò)3層,達到4、5層甚至更深,搜索引擎的爬行機器人在爬取你的網(wǎng)站時(shí)會(huì )非常吃力,爬取的效果也會(huì )很不理想。
  4.站點(diǎn)地圖制作
  制作站點(diǎn)地圖可以讓搜索引擎每抓取一個(gè)頁(yè)面就對整個(gè)站點(diǎn)進(jìn)行一次深度爬取,從而增加文章內容產(chǎn)出的概率,但是不能過(guò)分依賴(lài)站點(diǎn)地圖。想要內容被收錄,質(zhì)量是第一位的。另外記得在網(wǎng)站底部加上site map標簽,記得把site map文件放在robots.
  我們可以認為站內優(yōu)化是一種刻意迎合搜索引擎的行為,但這種刻意迎合搜索引擎的行為實(shí)際上是在迎合真實(shí)用戶(hù)。它很友好。在搜索引擎強調用戶(hù)體驗的今天,我們優(yōu)化從業(yè)者必須明白,迎合搜索引擎就是迎合用戶(hù)。
  1.一些標簽的使用不能忽視。keywords標簽不要想太多,加3-4個(gè)關(guān)鍵詞就可以了,堆那么多反而適得其反。description標簽是描述標簽,不是讓你羅列XX,XXX關(guān)鍵詞,組織合理流暢的句子來(lái)介紹你的網(wǎng)站。隨意添加一些 關(guān)鍵詞 到它。標簽保證出現一次,可多次使用,但請打分強調重要內容。粗體和斜體都有強調的意思。強調主要的 關(guān)鍵詞,避免濫用。所有粗體或斜體都沒(méi)有意義。
  2、頁(yè)面標題一直被認為是最重要的優(yōu)化重點(diǎn)。事實(shí)也證明,寫(xiě)對標題確實(shí)有很大的好處。一個(gè)合理的標題應該注意以下問(wèn)題: 從網(wǎng)站的整體來(lái)看,網(wǎng)站的標題是否相似,很多CMS模板都是采用層次化的標題標簽來(lái)組合標題,如果一個(gè)標題標簽所占的比例比較大比例,容易造成標題混淆相似。
  3、頁(yè)面布局 頁(yè)面的位置很重要,上比下重要,右比右重要。目的是一個(gè),把最重要的內容放在重要的位置,吸引用戶(hù)和搜索引擎。
  4. 在內容中分發(fā)關(guān)鍵詞。也許你沒(méi)有注意到這個(gè)問(wèn)題。例如,合理的內容排版可以讓人一目了然,使用分級字體、加粗加強調關(guān)鍵詞、標題(粗體)、副標題(粗體或斜體)、正文。這樣,利用用戶(hù)來(lái)了解和查看重要的內容,也是用戶(hù)體驗的問(wèn)題。
  5.網(wǎng)站導航 導航應該放在重要的位置。必須注意的是,如果分類(lèi)很多,不要把網(wǎng)站的所有分類(lèi)都放在首頁(yè)導航位置。應該是重點(diǎn)。
  6、內鏈建設 網(wǎng)站內鏈循環(huán):首頁(yè)-分類(lèi)-小分類(lèi)-內容-小分類(lèi)-分類(lèi)-首頁(yè)。這樣就形成了一個(gè)循環(huán),目的是讓用戶(hù)在網(wǎng)站的某個(gè)頁(yè)面上找到去其他頁(yè)面的路。當然,這個(gè)“距離”不能太長(cháng),三擊以?xún)葹榧选?

采集內容插入詞庫 解決方案:網(wǎng)站優(yōu)化想省心,得讓“站群優(yōu)化系統”來(lái)做!

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 84 次瀏覽 ? 2022-11-25 10:41 ? 來(lái)自相關(guān)話(huà)題

  采集內容插入詞庫 解決方案:網(wǎng)站優(yōu)化想省心,得讓“站群優(yōu)化系統”來(lái)做!
  做好的網(wǎng)站以后肯定要優(yōu)化,但是很多人對網(wǎng)站優(yōu)化不是很在行,不知道怎么優(yōu)化網(wǎng)站。其實(shí)網(wǎng)站優(yōu)化有兩種方式,一種是請專(zhuān)業(yè)的SEO優(yōu)化專(zhuān)家對其網(wǎng)站進(jìn)行優(yōu)化,另一種是利用站群優(yōu)化系統對其網(wǎng)站進(jìn)行智能優(yōu)化。其實(shí)后一種站群優(yōu)化系統更適合不懂網(wǎng)站優(yōu)化的人。把網(wǎng)站優(yōu)化的工作交給站群優(yōu)化系統,它也能為我們做更好的網(wǎng)站優(yōu)化!
  站群優(yōu)化系統“匯營(yíng)銷(xiāo)”優(yōu)化您的網(wǎng)站!
  站群優(yōu)化系統一直是很多企業(yè)選擇的網(wǎng)站優(yōu)化方案,因為不需要聘請專(zhuān)業(yè)的優(yōu)化人員來(lái)優(yōu)化自己的網(wǎng)站,站群優(yōu)化系統就可以?xún)?yōu)化自己的網(wǎng)站,完全可以做到智能優(yōu)化和自動(dòng)優(yōu)化。日常人工優(yōu)化網(wǎng)站的工作,站群優(yōu)化系統“慧營(yíng)銷(xiāo)”可以智能幫我們完成,省心省時(shí)。
  
  站群優(yōu)化系統“慧營(yíng)銷(xiāo)”的功能!
  1.智能采集+更新
  站群優(yōu)化系統“匯營(yíng)銷(xiāo)”可以自動(dòng)采集
內容,然后通過(guò)自帶的詞庫對內容進(jìn)行智能清洗和添加虛假原創(chuàng ),然后自動(dòng)為您更新網(wǎng)站。
  2.裂變變電站
  
  “慧營(yíng)銷(xiāo)”可以在短時(shí)間內為我們生成成百上千個(gè)城市分站。全程智能生成,無(wú)需任何人工設置,可為您獲取更多排名和流量入口。
  3. 智能快速排名
  站群優(yōu)化系統“慧營(yíng)銷(xiāo)”采用智能造詞、智能替換,系統智能生成大量行業(yè)相關(guān)“關(guān)鍵詞”,從而達到霸屏搜索的效果,幫助您展開(kāi) 關(guān)鍵詞 并獲得更多 關(guān)鍵詞 第一頁(yè)排名。
  解決方案:易佰淘寶買(mǎi)家采集工具 V2.0
  淘寶平臺作為一個(gè)開(kāi)放的購物平臺,流量大,用戶(hù)和會(huì )員數量多,每一位消費者都是潛在用戶(hù)。對于營(yíng)銷(xiāo)人員來(lái)說(shuō),是一個(gè)非常好的信息采集平臺;易白淘寶買(mǎi)家采集
工具是一款簡(jiǎn)單小巧的信息數據采集
工具,解壓幫助用戶(hù)快速采集
買(mǎi)家信息。
  特征
  1)按照關(guān)鍵詞、地區、店鋪類(lèi)型、銷(xiāo)量、寶貝數量等批量采集淘寶店鋪數據,并將店鋪數據導出為ex??cel文件。
  2)根據關(guān)鍵詞、地區、付款人數、評價(jià)數等過(guò)濾條件,批量采集淘寶/天貓寶貝數據,導出為ex??cel文件。
  3) 支持批量采集多個(gè)店鋪買(mǎi)家的旺旺、ID、信用、VIP等級。
  4)支持批量采集多個(gè)寶的買(mǎi)家數據,同上。
  
  5)支持指定一個(gè)或多個(gè)店鋪鏈接,直接根據鏈接批量采集買(mǎi)家數據。
  6)支持指定一個(gè)或多個(gè)淘寶或天貓寶貝鏈接,直接根據鏈接批量采集買(mǎi)家數據。
  7) 支持導出買(mǎi)家數據到excel文件
  8)支持在采集買(mǎi)家數據的同時(shí)采集店鋪或寶貝數據。
  9) 支持數據庫格式導出,導出的文件可以再次導入軟件,方便二次采集。
  10) 支持指定買(mǎi)家旺旺名,并采集
相關(guān)ID、信用、VIP等級。
  
  軟件使用方法:
  1、使用店鋪采集
方式:輸入店鋪名稱(chēng)關(guān)鍵詞等篩選條件,點(diǎn)擊開(kāi)始采集
,再點(diǎn)擊采集
買(mǎi)家按鈕。
  2.使用寶貝采集
方式:輸入寶貝名稱(chēng)關(guān)鍵詞等篩選條件,點(diǎn)擊開(kāi)始采集
,點(diǎn)擊按鈕采集
買(mǎi)家。
  3. 店鋪鏈接使用方法:輸入一個(gè)或多個(gè)店鋪鏈接(每行一個(gè)鏈接),點(diǎn)擊采集
買(mǎi)家按鈕。
  4. 寶貝鏈接使用方法: 輸入一個(gè)或多個(gè)寶貝鏈接(每行一個(gè)鏈接),點(diǎn)擊采集
買(mǎi)家按鈕。
  5、使用買(mǎi)家旺旺導入方式:輸入一個(gè)或多個(gè)買(mǎi)家旺旺(每行一個(gè)),點(diǎn)擊采集
買(mǎi)家按鈕。 查看全部

  采集內容插入詞庫 解決方案:網(wǎng)站優(yōu)化想省心,得讓“站群優(yōu)化系統”來(lái)做!
  做好的網(wǎng)站以后肯定要優(yōu)化,但是很多人對網(wǎng)站優(yōu)化不是很在行,不知道怎么優(yōu)化網(wǎng)站。其實(shí)網(wǎng)站優(yōu)化有兩種方式,一種是請專(zhuān)業(yè)的SEO優(yōu)化專(zhuān)家對其網(wǎng)站進(jìn)行優(yōu)化,另一種是利用站群優(yōu)化系統對其網(wǎng)站進(jìn)行智能優(yōu)化。其實(shí)后一種站群優(yōu)化系統更適合不懂網(wǎng)站優(yōu)化的人。把網(wǎng)站優(yōu)化的工作交給站群優(yōu)化系統,它也能為我們做更好的網(wǎng)站優(yōu)化!
  站群優(yōu)化系統“匯營(yíng)銷(xiāo)”優(yōu)化您的網(wǎng)站!
  站群優(yōu)化系統一直是很多企業(yè)選擇的網(wǎng)站優(yōu)化方案,因為不需要聘請專(zhuān)業(yè)的優(yōu)化人員來(lái)優(yōu)化自己的網(wǎng)站,站群優(yōu)化系統就可以?xún)?yōu)化自己的網(wǎng)站,完全可以做到智能優(yōu)化和自動(dòng)優(yōu)化。日常人工優(yōu)化網(wǎng)站的工作,站群優(yōu)化系統“慧營(yíng)銷(xiāo)”可以智能幫我們完成,省心省時(shí)。
  
  站群優(yōu)化系統“慧營(yíng)銷(xiāo)”的功能!
  1.智能采集+更新
  站群優(yōu)化系統“匯營(yíng)銷(xiāo)”可以自動(dòng)采集
內容,然后通過(guò)自帶的詞庫對內容進(jìn)行智能清洗和添加虛假原創(chuàng ),然后自動(dòng)為您更新網(wǎng)站。
  2.裂變變電站
  
  “慧營(yíng)銷(xiāo)”可以在短時(shí)間內為我們生成成百上千個(gè)城市分站。全程智能生成,無(wú)需任何人工設置,可為您獲取更多排名和流量入口。
  3. 智能快速排名
  站群優(yōu)化系統“慧營(yíng)銷(xiāo)”采用智能造詞、智能替換,系統智能生成大量行業(yè)相關(guān)“關(guān)鍵詞”,從而達到霸屏搜索的效果,幫助您展開(kāi) 關(guān)鍵詞 并獲得更多 關(guān)鍵詞 第一頁(yè)排名。
  解決方案:易佰淘寶買(mǎi)家采集工具 V2.0
  淘寶平臺作為一個(gè)開(kāi)放的購物平臺,流量大,用戶(hù)和會(huì )員數量多,每一位消費者都是潛在用戶(hù)。對于營(yíng)銷(xiāo)人員來(lái)說(shuō),是一個(gè)非常好的信息采集平臺;易白淘寶買(mǎi)家采集
工具是一款簡(jiǎn)單小巧的信息數據采集
工具,解壓幫助用戶(hù)快速采集
買(mǎi)家信息。
  特征
  1)按照關(guān)鍵詞、地區、店鋪類(lèi)型、銷(xiāo)量、寶貝數量等批量采集淘寶店鋪數據,并將店鋪數據導出為ex??cel文件。
  2)根據關(guān)鍵詞、地區、付款人數、評價(jià)數等過(guò)濾條件,批量采集淘寶/天貓寶貝數據,導出為ex??cel文件。
  3) 支持批量采集多個(gè)店鋪買(mǎi)家的旺旺、ID、信用、VIP等級。
  4)支持批量采集多個(gè)寶的買(mǎi)家數據,同上。
  
  5)支持指定一個(gè)或多個(gè)店鋪鏈接,直接根據鏈接批量采集買(mǎi)家數據。
  6)支持指定一個(gè)或多個(gè)淘寶或天貓寶貝鏈接,直接根據鏈接批量采集買(mǎi)家數據。
  7) 支持導出買(mǎi)家數據到excel文件
  8)支持在采集買(mǎi)家數據的同時(shí)采集店鋪或寶貝數據。
  9) 支持數據庫格式導出,導出的文件可以再次導入軟件,方便二次采集。
  10) 支持指定買(mǎi)家旺旺名,并采集
相關(guān)ID、信用、VIP等級。
  
  軟件使用方法:
  1、使用店鋪采集
方式:輸入店鋪名稱(chēng)關(guān)鍵詞等篩選條件,點(diǎn)擊開(kāi)始采集
,再點(diǎn)擊采集
買(mǎi)家按鈕。
  2.使用寶貝采集
方式:輸入寶貝名稱(chēng)關(guān)鍵詞等篩選條件,點(diǎn)擊開(kāi)始采集
,點(diǎn)擊按鈕采集
買(mǎi)家。
  3. 店鋪鏈接使用方法:輸入一個(gè)或多個(gè)店鋪鏈接(每行一個(gè)鏈接),點(diǎn)擊采集
買(mǎi)家按鈕。
  4. 寶貝鏈接使用方法: 輸入一個(gè)或多個(gè)寶貝鏈接(每行一個(gè)鏈接),點(diǎn)擊采集
買(mǎi)家按鈕。
  5、使用買(mǎi)家旺旺導入方式:輸入一個(gè)或多個(gè)買(mǎi)家旺旺(每行一個(gè)),點(diǎn)擊采集
買(mǎi)家按鈕。

解決方案:數智“新引擎” | 一站式社交媒體管理與統一運營(yíng)平臺

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 66 次瀏覽 ? 2022-11-25 03:16 ? 來(lái)自相關(guān)話(huà)題

  解決方案:數智“新引擎” | 一站式社交媒體管理與統一運營(yíng)平臺
  隨著(zhù)各種社交媒體的增多,新媒體的內容發(fā)布渠道不斷增加。為了讓媒體內容獲得更好的流量曝光,社交媒體運營(yíng)矩陣逐漸從單一平臺轉向多平臺。微信公眾號、今日頭條號、抖音等頭部平臺已經(jīng)成為當下媒體機構或自媒體創(chuàng )作者必選的入駐平臺。同時(shí),隨著(zhù)不同平臺托管賬號的增多,多平臺內容發(fā)布的時(shí)效性成為媒體創(chuàng )作者面臨的一大挑戰。
  方正電子推出的“一站式社交媒體管理及統一運營(yíng)平臺”,集高效智能一體化編輯、全渠道一體化發(fā)布于一體,為內容創(chuàng )作者提供高效便捷的一站式服務(wù)平臺——利用整合方正電子的優(yōu)勢流程,統一策劃、編輯、編輯和審閱,優(yōu)化工作流程,打通協(xié)同工作,用數據驅動(dòng)科學(xué)高效的決策,提供從賬號管理到內容分發(fā)、數據采集的高效解決方案。
  01 多賬號同步管理
  多主流平臺賬號管理,一站式添加賬號授權、解綁、設置審核流程,避免多平臺多次重復登錄??砂促~戶(hù)分配權限,不同運營(yíng)商可對不同賬戶(hù)授權不同的管理操作,滿(mǎn)足不同運營(yíng)場(chǎng)景的需求。
  02 一鍵分發(fā)到多平臺
  文章內容、視頻內容、圖集內容、動(dòng)態(tài)內容一鍵發(fā)布到多個(gè)平臺,秒級發(fā)布減少耗時(shí)。同時(shí),可以在這個(gè)平臺上留下操作記錄。您可以查看各平臺內容的發(fā)布結果。
  并且可以為每個(gè)平臺配置專(zhuān)屬的標題、標簽等獨特信息,不同的平臺展示不同的信息,靈活實(shí)現內容的多樣化。
  03 融合編輯器
  融合編輯器主要具備圖文音視頻混合功能,滿(mǎn)足從寫(xiě)作到出版多渠道融合的需求,可以實(shí)現稿件的基本編排,圖片、音視頻資源的調用,以及智能校對。
  核心亮點(diǎn)
  豐富的模板樣式應用
  
  在融合編輯器中,無(wú)需跳轉到其他網(wǎng)頁(yè)即可享受海量樣式模板,模板樣式每日更新,及時(shí)更新??梢愿鶕枰`活自由地選擇樣式模板,提高排版效率,同時(shí)給終端用戶(hù)帶來(lái)良好的閱讀體驗。
  靈活的自定義簽名
  提供豐富的稿件信息,根據不同的客戶(hù)場(chǎng)景,可以定制獨一無(wú)二的稿件屬性。例如,基于業(yè)務(wù)場(chǎng)景的獨特性,用戶(hù)希望增加“監管”字段。平臺可后臺配置,無(wú)需升級,編輯器會(huì )出現“監督”欄目,供稿件信息填寫(xiě)和流轉。
  大數據輔助創(chuàng )作
  提供本地及全網(wǎng)熱點(diǎn)新聞,為編輯開(kāi)拓創(chuàng )意思路;支持全網(wǎng)文章、重點(diǎn)媒體、重點(diǎn)人物的信息瀏覽和檢索服務(wù),一鍵選擇編輯,提高編輯效率。
  智能場(chǎng)景應用
  智能摘要:提供自動(dòng)摘要,實(shí)現文章的快速縮寫(xiě)。
  智能 關(guān)鍵詞:提供自動(dòng) 關(guān)鍵詞 快速提取文章 關(guān)鍵詞。
  圖片OCR識別:識別圖片中所有文字并自動(dòng)插入到編輯器中,免去編輯器再次手動(dòng)輸入文字的麻煩。
  人臉識別:提供人臉識別和搜索服務(wù),在創(chuàng )作稿件過(guò)程中,根據某個(gè)角色的圖片資源推薦相同角色的圖片,擴大可用圖片范圍。
  智能標題:用戶(hù)輸入文章內容,系統分析文章內容和AI生成的標題模型,一鍵生成多個(gè)文章標題,供作者參考或選擇,助力提質(zhì)增效文章標題的效率。
  智能改寫(xiě):基于深度學(xué)習和自然語(yǔ)言處理技術(shù),結合真實(shí)語(yǔ)料訓練,生成內容改寫(xiě)模型。用戶(hù)只需輸入文章內容,即可智能一鍵改寫(xiě),高效智能。
  內容創(chuàng )建安全
  智能校對:檢查稿件內容中的錯字、錯別字、敏感詞等內容,同時(shí)提供修改建議,支持快速定位修改;同時(shí),提供專(zhuān)業(yè)的詞庫管理服務(wù),可以自定義詞庫,有效避免內容錯誤。
  稿件標注:針對審稿、流程管理等需要標注稿件內容的場(chǎng)景,編輯可以實(shí)時(shí)對權限范圍內的稿件進(jìn)行文內標注操作。
  版本痕跡:平臺支持記錄任意編輯對某稿件的所有修改記錄。在修改軌跡查詢(xún)中,可以一鍵詳細瀏覽每個(gè)編輯修改的所有軌跡,為審核過(guò)程記錄和職責定位做準備。
  04 綜合統計
  支持一鍵查看多平臺賬號的內容閱讀、評論、轉發(fā)、點(diǎn)贊等運營(yíng)數據,無(wú)需登錄各個(gè)平臺瀏覽,方便快捷??蓪y計數據進(jìn)行內容、部門(mén)、平臺賬號等多維度篩選,以數據驅動(dòng)多視角輔助運營(yíng)。
  05 視頻資料采集
  
  涵蓋抖音、快手、秒拍、西瓜視頻、嗶哩嗶哩等國內中央、省級主流新聞媒體內容數據采集、賬號數據采集、互動(dòng)數據采集。
  核心亮點(diǎn)
  接口能力
  支持模板采集、接口授權等抓取方式,有效保障數據質(zhì)量。支持數據接口對接,數據接口遵循統一的數據標準協(xié)議,支持與第三方稿件提供商和用戶(hù)的數據對接。
  賬戶(hù)資料采集
  支持短視頻賬號數據的采集與分析,主要包括作品發(fā)表數、點(diǎn)贊數、關(guān)注數、粉絲數等;同時(shí)支持賬戶(hù)數據定時(shí)更新。
  短視頻作品集
  支持對短視頻賬號發(fā)布的視頻作品進(jìn)行采集分析,主要包括對應的視頻文字、發(fā)布時(shí)間、視頻鏈接、封面圖鏈接等。
  交互式數據采集
  支持對短視頻號發(fā)布的視頻的互動(dòng)數據進(jìn)行采集
和分析,主要包括評論數、點(diǎn)贊數、轉發(fā)數、閱讀數等;同時(shí)支持交互數據的定時(shí)更新。
  方正電子依托多年媒體業(yè)務(wù)經(jīng)驗、數據積累、技術(shù)積累,針對性滿(mǎn)足泛媒體用戶(hù)的業(yè)務(wù)場(chǎng)景需求,助力內容生產(chǎn)與媒體融合,打造數字智能新引擎,進(jìn)入數字智能新引擎。媒體融合新時(shí)代!
  下一期通知
  數字智能“新引擎” | 數據賦能科學(xué)決策,圍繞“四力”構建新型考核評價(jià)體系
  沙龍預覽
  12月8日,
  我們會(huì )再見(jiàn)的~
  最新消息:今日頭條自媒體運營(yíng)助手 v1.5免費版
  本軟件站網(wǎng)頁(yè)輔助分類(lèi)下的今日頭條自媒體運營(yíng)助手v1.5免費版文件大小為12.4M,適用系統為WinAll。以下是介紹或使用方法。
  本內容分為功能介紹和注意事項兩部分。
  
  目錄
  今日頭條自媒體運營(yíng)助手是一款高效的自媒體內容運營(yíng)工具。用于管理您的今日頭條號和發(fā)布文章。支持批量操作,方便實(shí)用!
  
  特征
  目前支持以下功能
  一鍵采集
一點(diǎn)號文章轉發(fā)今日頭條,支持賬號批量操作 查看全部

  解決方案:數智“新引擎” | 一站式社交媒體管理與統一運營(yíng)平臺
  隨著(zhù)各種社交媒體的增多,新媒體的內容發(fā)布渠道不斷增加。為了讓媒體內容獲得更好的流量曝光,社交媒體運營(yíng)矩陣逐漸從單一平臺轉向多平臺。微信公眾號、今日頭條號、抖音等頭部平臺已經(jīng)成為當下媒體機構或自媒體創(chuàng )作者必選的入駐平臺。同時(shí),隨著(zhù)不同平臺托管賬號的增多,多平臺內容發(fā)布的時(shí)效性成為媒體創(chuàng )作者面臨的一大挑戰。
  方正電子推出的“一站式社交媒體管理及統一運營(yíng)平臺”,集高效智能一體化編輯、全渠道一體化發(fā)布于一體,為內容創(chuàng )作者提供高效便捷的一站式服務(wù)平臺——利用整合方正電子的優(yōu)勢流程,統一策劃、編輯、編輯和審閱,優(yōu)化工作流程,打通協(xié)同工作,用數據驅動(dòng)科學(xué)高效的決策,提供從賬號管理到內容分發(fā)、數據采集的高效解決方案。
  01 多賬號同步管理
  多主流平臺賬號管理,一站式添加賬號授權、解綁、設置審核流程,避免多平臺多次重復登錄??砂促~戶(hù)分配權限,不同運營(yíng)商可對不同賬戶(hù)授權不同的管理操作,滿(mǎn)足不同運營(yíng)場(chǎng)景的需求。
  02 一鍵分發(fā)到多平臺
  文章內容、視頻內容、圖集內容、動(dòng)態(tài)內容一鍵發(fā)布到多個(gè)平臺,秒級發(fā)布減少耗時(shí)。同時(shí),可以在這個(gè)平臺上留下操作記錄。您可以查看各平臺內容的發(fā)布結果。
  并且可以為每個(gè)平臺配置專(zhuān)屬的標題、標簽等獨特信息,不同的平臺展示不同的信息,靈活實(shí)現內容的多樣化。
  03 融合編輯器
  融合編輯器主要具備圖文音視頻混合功能,滿(mǎn)足從寫(xiě)作到出版多渠道融合的需求,可以實(shí)現稿件的基本編排,圖片、音視頻資源的調用,以及智能校對。
  核心亮點(diǎn)
  豐富的模板樣式應用
  
  在融合編輯器中,無(wú)需跳轉到其他網(wǎng)頁(yè)即可享受海量樣式模板,模板樣式每日更新,及時(shí)更新??梢愿鶕枰`活自由地選擇樣式模板,提高排版效率,同時(shí)給終端用戶(hù)帶來(lái)良好的閱讀體驗。
  靈活的自定義簽名
  提供豐富的稿件信息,根據不同的客戶(hù)場(chǎng)景,可以定制獨一無(wú)二的稿件屬性。例如,基于業(yè)務(wù)場(chǎng)景的獨特性,用戶(hù)希望增加“監管”字段。平臺可后臺配置,無(wú)需升級,編輯器會(huì )出現“監督”欄目,供稿件信息填寫(xiě)和流轉。
  大數據輔助創(chuàng )作
  提供本地及全網(wǎng)熱點(diǎn)新聞,為編輯開(kāi)拓創(chuàng )意思路;支持全網(wǎng)文章、重點(diǎn)媒體、重點(diǎn)人物的信息瀏覽和檢索服務(wù),一鍵選擇編輯,提高編輯效率。
  智能場(chǎng)景應用
  智能摘要:提供自動(dòng)摘要,實(shí)現文章的快速縮寫(xiě)。
  智能 關(guān)鍵詞:提供自動(dòng) 關(guān)鍵詞 快速提取文章 關(guān)鍵詞。
  圖片OCR識別:識別圖片中所有文字并自動(dòng)插入到編輯器中,免去編輯器再次手動(dòng)輸入文字的麻煩。
  人臉識別:提供人臉識別和搜索服務(wù),在創(chuàng )作稿件過(guò)程中,根據某個(gè)角色的圖片資源推薦相同角色的圖片,擴大可用圖片范圍。
  智能標題:用戶(hù)輸入文章內容,系統分析文章內容和AI生成的標題模型,一鍵生成多個(gè)文章標題,供作者參考或選擇,助力提質(zhì)增效文章標題的效率。
  智能改寫(xiě):基于深度學(xué)習和自然語(yǔ)言處理技術(shù),結合真實(shí)語(yǔ)料訓練,生成內容改寫(xiě)模型。用戶(hù)只需輸入文章內容,即可智能一鍵改寫(xiě),高效智能。
  內容創(chuàng )建安全
  智能校對:檢查稿件內容中的錯字、錯別字、敏感詞等內容,同時(shí)提供修改建議,支持快速定位修改;同時(shí),提供專(zhuān)業(yè)的詞庫管理服務(wù),可以自定義詞庫,有效避免內容錯誤。
  稿件標注:針對審稿、流程管理等需要標注稿件內容的場(chǎng)景,編輯可以實(shí)時(shí)對權限范圍內的稿件進(jìn)行文內標注操作。
  版本痕跡:平臺支持記錄任意編輯對某稿件的所有修改記錄。在修改軌跡查詢(xún)中,可以一鍵詳細瀏覽每個(gè)編輯修改的所有軌跡,為審核過(guò)程記錄和職責定位做準備。
  04 綜合統計
  支持一鍵查看多平臺賬號的內容閱讀、評論、轉發(fā)、點(diǎn)贊等運營(yíng)數據,無(wú)需登錄各個(gè)平臺瀏覽,方便快捷??蓪y計數據進(jìn)行內容、部門(mén)、平臺賬號等多維度篩選,以數據驅動(dòng)多視角輔助運營(yíng)。
  05 視頻資料采集
  
  涵蓋抖音、快手、秒拍、西瓜視頻、嗶哩嗶哩等國內中央、省級主流新聞媒體內容數據采集、賬號數據采集、互動(dòng)數據采集。
  核心亮點(diǎn)
  接口能力
  支持模板采集、接口授權等抓取方式,有效保障數據質(zhì)量。支持數據接口對接,數據接口遵循統一的數據標準協(xié)議,支持與第三方稿件提供商和用戶(hù)的數據對接。
  賬戶(hù)資料采集
  支持短視頻賬號數據的采集與分析,主要包括作品發(fā)表數、點(diǎn)贊數、關(guān)注數、粉絲數等;同時(shí)支持賬戶(hù)數據定時(shí)更新。
  短視頻作品集
  支持對短視頻賬號發(fā)布的視頻作品進(jìn)行采集分析,主要包括對應的視頻文字、發(fā)布時(shí)間、視頻鏈接、封面圖鏈接等。
  交互式數據采集
  支持對短視頻號發(fā)布的視頻的互動(dòng)數據進(jìn)行采集
和分析,主要包括評論數、點(diǎn)贊數、轉發(fā)數、閱讀數等;同時(shí)支持交互數據的定時(shí)更新。
  方正電子依托多年媒體業(yè)務(wù)經(jīng)驗、數據積累、技術(shù)積累,針對性滿(mǎn)足泛媒體用戶(hù)的業(yè)務(wù)場(chǎng)景需求,助力內容生產(chǎn)與媒體融合,打造數字智能新引擎,進(jìn)入數字智能新引擎。媒體融合新時(shí)代!
  下一期通知
  數字智能“新引擎” | 數據賦能科學(xué)決策,圍繞“四力”構建新型考核評價(jià)體系
  沙龍預覽
  12月8日,
  我們會(huì )再見(jiàn)的~
  最新消息:今日頭條自媒體運營(yíng)助手 v1.5免費版
  本軟件站網(wǎng)頁(yè)輔助分類(lèi)下的今日頭條自媒體運營(yíng)助手v1.5免費版文件大小為12.4M,適用系統為WinAll。以下是介紹或使用方法。
  本內容分為功能介紹和注意事項兩部分。
  
  目錄
  今日頭條自媒體運營(yíng)助手是一款高效的自媒體內容運營(yíng)工具。用于管理您的今日頭條號和發(fā)布文章。支持批量操作,方便實(shí)用!
  
  特征
  目前支持以下功能
  一鍵采集
一點(diǎn)號文章轉發(fā)今日頭條,支持賬號批量操作

總結:分析一個(gè)10天上權6黑帽SEO優(yōu)化案例

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 66 次瀏覽 ? 2022-11-23 21:36 ? 來(lái)自相關(guān)話(huà)題

  總結:分析一個(gè)10天上權6黑帽SEO優(yōu)化案例
  10天top 6黑帽seo優(yōu)化案例分析觀(guān)察。
  外鏈很重要,足夠的外鏈是支撐關(guān)鍵詞排名的基礎
  詞庫很重要,大量使用低難度的長(cháng)尾詞提高權重
  頁(yè)面模板很重要,豐富的內容和功能騙過(guò)搜索引擎算法
  一、場(chǎng)地概況分析
  6月10日開(kāi)始排行,12天后6月22日到達愛(ài)站PC和WEB雙電6,總關(guān)鍵詞量3W+,預估流量43335~67997IP .
  本站有很多穩定的建站歷史,良好的外鏈資源,橙色外鏈評分14000,谷歌PR4,已有10年歷史。從2011年建站至今,擁有長(cháng)期穩定的建站記錄。公司網(wǎng)站有公司備案,并且喜歡這個(gè)有 20 多個(gè)反鏈接的網(wǎng)站。被黑后植入大量影視關(guān)鍵詞,內容均為搜集新聞內容。
  2. 黑帽運營(yíng)分析
  1、互聯(lián)互通
  被黑站點(diǎn)不止一兩個(gè),內容頁(yè)面會(huì )相互連接,如下圖
  互聯(lián)可以幫助所有站點(diǎn)被搜索引擎抓取,鏈接都指向內鏈,更自然。
  2. 詞庫建設
  想要獲得力量,就需要知道愛(ài)站、站長(cháng)工具、5118等平臺監控了哪些詞庫,并對這些關(guān)鍵詞進(jìn)行操作。畢竟高流量關(guān)鍵詞競爭激烈,選品平臺會(huì )被監控,但是難度低的長(cháng)尾關(guān)鍵詞很關(guān)鍵。
  5118詞庫下載后,可以提取一些有流量,排名不難的關(guān)鍵詞。你可以選擇一些不違反規則的關(guān)鍵詞在你自己的網(wǎng)站上操作。
  3、采集內容和分析內容的原創(chuàng )率不高
  本站所有內容均采集
新聞、小說(shuō)資料整理而成,原創(chuàng )率和可讀性極低。關(guān)鍵詞出現的位置主要在其他頁(yè)面模塊,內容中沒(méi)有關(guān)鍵詞植入。頁(yè)面總關(guān)鍵詞密度不高,頁(yè)面內容會(huì )在頭部、中部、底部各一次;在TDK的位置,出現了1~2個(gè)字。
  從內容和關(guān)鍵詞密度來(lái)看,關(guān)鍵詞的難度確實(shí)很低。如果你的網(wǎng)站有一定的基礎,通過(guò)這個(gè)詞庫來(lái)構建自己的內容,對于提高網(wǎng)站的權威性效果肯定會(huì )起到很好的作用。
  
 ?。▋热萁貓D)
 ?。▋热菰瓌?chuàng )分析)
  4.頁(yè)面布局URL結構布局
  雖然內容很水,但是黑帽seo必須關(guān)心每個(gè)內容模塊的布局和頁(yè)面的URL結構。
  整體 URL 也使用了多種 URL 結構。雖然模板是一樣的,但是要用不同的URL結構來(lái)欺騙算法,讓算法認為是不同欄目、不同功能的URL。
  /news/playo/244995-1.html(新聞)
  /應用程序/46822096(應用程序)
  /playo/94922-1.html(新聞)
  /tv/222927(視頻)
  頁(yè)面布局充分考慮了影視頁(yè)面的各個(gè)模塊
  在下圖的案例中:電影信息,詳情 | 選集、簡(jiǎn)介、主演名單、評論、猜你喜歡、熱度等影視常用模塊一應俱全。
  5、深入研究后可以發(fā)現的一些現象
  相同的詞庫和相同的內容相當于控制變量。讓我們看看詞庫內容之外的SEO重點(diǎn)應該放在哪里!
  首先根據鏈接找了10個(gè)站點(diǎn),選了幾個(gè)進(jìn)行分析(下),發(fā)現了一些現象,簡(jiǎn)單說(shuō)一下。
  1、站點(diǎn)本身的外鏈量很重要,外鏈多的站點(diǎn)可以通過(guò)這一套操作獲得更高的權限。
  2、即使外鏈不足,原有流量為0,也能得到一定的提升(應該是其他站點(diǎn)帶來(lái)的鏈接起到了作用)。
  3、建站歷史好像影響不大,至少加分不明顯。
  4、有些域名確實(shí)不能動(dòng)。
  很多收站的網(wǎng)站對域名要求不高,不到1類(lèi)權限的網(wǎng)站賣(mài)不出去。但是如果購買(mǎi)一批低權限的域名,然后安裝類(lèi)似的seo系統,得到的收益是相當可觀(guān)的。不幸的是我不明白。
  1.站點(diǎn)信息出現在站點(diǎn)上。網(wǎng)站剛建立時(shí),網(wǎng)站不會(huì )顯示個(gè)人網(wǎng)站信息。這是網(wǎng)站信息出來(lái)時(shí)最基本的標準。
  2.申請百度站點(diǎn)LOGO申請即可通過(guò)。
  
  3、百度收錄量正常增長(cháng),當天站點(diǎn)收錄率達到40%左右。
  4.外部鏈接不斷增長(cháng)
  三、維修站
  計劃先養30個(gè)站點(diǎn)3個(gè)月,30個(gè)站點(diǎn)都需要使用舊域名,因為舊域名在維護站點(diǎn)時(shí)更有優(yōu)勢。其實(shí)不需要30個(gè)站點(diǎn),一個(gè)站點(diǎn)就夠了,但是黑帽技術(shù)或多或少都有風(fēng)險,所以第一個(gè)掛第二個(gè),第二個(gè)掛第三個(gè)。嗯,30個(gè)站點(diǎn)基本上是備用的。前提是手頭必須有30個(gè)好地盤(pán)!
  為什么要養3個(gè)月?事實(shí)上,在一半的情況下,2 個(gè)月就足夠了。但是由于站多,很多站都顧不上了。時(shí)間可能會(huì )慢一些。如果老板有人手,可以多招幾個(gè)人來(lái)做。另一個(gè)是站點(diǎn)標準的問(wèn)題。這絕對不是以站長(cháng)工具查對類(lèi)型為標準的。如果您掃描索引,您將擁有正確的類(lèi)型。自然,正確的類(lèi)型不能代表什么。我是這樣評價(jià)網(wǎng)站的標準的!
  其實(shí)不維護網(wǎng)站也可以,除非你能黑別人的網(wǎng)站,但是目前來(lái)說(shuō),黑別人的網(wǎng)站基本沒(méi)用,2天之內別人就會(huì )發(fā)現,刪掉你的內容,黑也沒(méi)用!
  如果你想自己創(chuàng )建30個(gè)這樣的基本站點(diǎn),你必須一步一步來(lái)。選擇織夢(mèng)程序即可。使用純靜態(tài)頁(yè)面,做一個(gè)普通的企業(yè)站點(diǎn)。首頁(yè)主要是文章列表,首頁(yè)最好展示30-40篇文章。不行的話(huà)我的dede博客模板也可以,但是我的博客模板沒(méi)有那么多的文章列表可以顯示,只能顯示10篇。相對來(lái)說(shuō)沒(méi)有什么優(yōu)勢,所以選單是主要的選擇。企業(yè)網(wǎng)站比較好,如下圖的列表最好。
  三個(gè)月內更新的內容絕對不允許設計成非法灰色產(chǎn)業(yè),可以抄襲文章,因為抄襲的文章更容易被收錄。這里解釋了為什么剽竊的文章更容易被收錄。
  當一篇文章同時(shí)被多個(gè)地方轉載時(shí),搜索引擎會(huì )認為該內容是當前的熱點(diǎn)信息。自然,熱點(diǎn)信息比普通內容更有優(yōu)勢。如果一條新聞內容不能在同一天被收錄,那么第二天就沒(méi)有熱點(diǎn)信息。對站長(cháng)和百度自然沒(méi)有任何好處,抄襲的內容更容易被收錄!
  另外,要看你主頁(yè)的列表數量,更新多少。通常更新的數量是你主頁(yè)列表數量的10%。每欄更新,依次更新即可!至于網(wǎng)站的內容,就看你自己建站了。比如你的網(wǎng)站是裝修網(wǎng)站,那就更新裝修行業(yè)的知識。
  廢棄博客:另外,適當交換一些友情鏈接。當然,前提是你可以手動(dòng)管理它們。如果你不能管理這么多站點(diǎn)的友情鏈接,那么不交換的影響并不大。前期的交流是為了促進(jìn)包容!
  4.戴黑帽子
  網(wǎng)站維護了3個(gè)月,達到我定義的標準后,基本就可以黑帽上線(xiàn)了,也就是你要做的行業(yè)頁(yè)面上線(xiàn)。在站點(diǎn)根目錄新建一個(gè)文件夾,在Black hat files文件夾下新建一個(gè)html文件。
  文件也主要是一個(gè)列表,列表調用的文章和你的關(guān)鍵詞相關(guān),不能和行業(yè)相關(guān),但是標題可以,但是文章列表的標題不可以,并且內容不能針對行業(yè)進(jìn)行設計。
  比如你想做“**”這個(gè)詞,那么你就不能在這個(gè)文章頁(yè)面設計**什么的。最好有這樣的文章等,文章一定要有原創(chuàng )內容。
  文章更新的數量仍然是根據你的頁(yè)面調用的文章數量。比如一個(gè)頁(yè)面調用了30篇文章,那么一天可以更新10篇文章。將您的 關(guān)鍵詞 插入到文章中,粗體和超鏈接。
  網(wǎng)站頂部調用一個(gè)JS,JS中的內容使用框架接口調用第三方廣告,也就是我們一打開(kāi)網(wǎng)站就出現的廣告內容。之所以使用JS調用而不是直接使用框架調用,一是因為百度不喜歡框架結構,二來(lái)使用它是一個(gè)灰色行業(yè),百度無(wú)法識別JS內容,所以調用目前是安全的,你就知道了未來(lái)!
  5.做優(yōu)化
  上傳后,還需要進(jìn)行優(yōu)化。它只需要兩步,即內容和外部鏈接。內容按照上述方法不斷更新。這里的內容每天都需要更新,等到排名上去了才會(huì )更新。至于外鏈,買(mǎi)就好了。
  因為你的專(zhuān)欄沒(méi)有被首頁(yè)推薦,所以很難收錄。誘導蜘蛛收錄它的唯一方法是導入外部鏈接。最好的外部鏈接是新聞源外部鏈接。你不能買(mǎi)它們。您還可以購買(mǎi)門(mén)戶(hù)外部鏈接。是的,都是基于錨文本的,淘寶上有很多這樣的外鏈!
  6.排名穩定
  重點(diǎn)是黑帽基本上沒(méi)有辦法穩定排名。穩定排名的最好方法就是上面說(shuō)的。第一個(gè)站上線(xiàn)后,準備第二個(gè)站,然后循環(huán)養第二批新站,以此類(lèi)推。第二批新站出來(lái)后,繼續排名。建議不要將所有站點(diǎn)都放在一個(gè) IP 上。
  技巧:「黑帽SEO」如何從零開(kāi)始學(xué)習黑帽SEO?「第三篇」
  1.文章內容采集
  說(shuō)到內容采集,相信大家都是再熟悉不過(guò)了?;旧纤械腟EOer都“采集
”了一些內容。內容采集
可以利用CMS程序或軟件的采集
功能,填充大量低質(zhì)量的網(wǎng)站內容和垃圾信息。當然,我想所有的SEOer都應該知道在網(wǎng)上采集
大量重復內容的最終結果。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  網(wǎng)絡(luò )文章內容合集
  常見(jiàn)的應用方法有:使用采集
器軟件和偽原創(chuàng )工具制造垃圾。
  1.采集器
  一些采集器的內容采集和數據導入功能可以將您采集的任何網(wǎng)頁(yè)數據發(fā)布到遠程服務(wù)器上。業(yè)界鄙視內容采集,雖然大部分站長(cháng)抵制用采集的方式來(lái)更新網(wǎng)站內容,但還是有不少站長(cháng)時(shí)刻使用各種手段采集內容。
  通過(guò)采集程序獲取別人網(wǎng)站的內容,然后放到自己的網(wǎng)站上,是一種非常不公平的方式,因為這種方式的便利性已經(jīng)成為很多網(wǎng)站更新內容的手段和渠道,可見(jiàn)一斑做是行業(yè)內不正當競爭的一種方式。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  此外,人工采集內容的質(zhì)量難以控制,也是抵制采集的另一個(gè)重要原因?,F在很多站長(cháng)都是通過(guò)程序來(lái)采集
內容,現有的技術(shù)無(wú)法安全過(guò)濾文章中不利于網(wǎng)站發(fā)展的內容,比如不良內容。屏幕語(yǔ)句。即使您從權威網(wǎng)站采集
內容,其他網(wǎng)站的內容也未必適合更新您的網(wǎng)站內容,網(wǎng)站本身的發(fā)展也有不同的特點(diǎn)?,F在搜索引擎的人性化水平在逐漸提高,作弊的手段很容易對搜索引擎不友好,小到不被收錄,大到K站,而采集
對網(wǎng)站發(fā)展造成的后果完全是得不償失的。無(wú)論從哪個(gè)角度來(lái)說(shuō),采集
內容都不能讓網(wǎng)站長(cháng)久生存,也不利于網(wǎng)站的長(cháng)期運營(yíng),所以L(fǎng)ighthouse SEO不建議大家使用這種方式。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  
  2.偽原創(chuàng )工具
  所謂偽原創(chuàng ),就是對一篇文章進(jìn)行再加工,使其被搜索引擎認為是原創(chuàng )文章,從而增加網(wǎng)站的權重。隨著(zhù)SEO的發(fā)展,出現了“偽原創(chuàng )”的產(chǎn)物,為眾多SEOer所癡迷。到現在,還有很多站長(cháng)在運營(yíng)站群,少則幾百,多則上千。這么龐大的網(wǎng)站陣容如果用原創(chuàng )來(lái)更新兼職是個(gè)無(wú)底洞,采集
是最簡(jiǎn)潔方便的方法。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  可能有人會(huì )問(wèn):為什么要采集
呢?這很簡(jiǎn)單。當然是獲取大量的內容信息,然后整合優(yōu)質(zhì)的偽原創(chuàng )。對于不擅長(cháng)寫(xiě)作的人來(lái)說(shuō),這種方法比想一萬(wàn)遍要好上千倍。堅持原創(chuàng )固然好,但如果因為各種原因做不到,也不要亂填垃圾內容。
  我們知道搜索引擎喜歡原創(chuàng )內容,對于重復的內容,它會(huì )認為沒(méi)有收錄的價(jià)值。如果網(wǎng)站上的大量?jì)热荼晦D載,搜索引擎會(huì )覺(jué)得整個(gè)網(wǎng)站沒(méi)有什么價(jià)值,從而降低網(wǎng)站的權重。網(wǎng)站的排名自然不會(huì )很高。因為偽原創(chuàng )工具是機械的、死板的,這些工具無(wú)非就是替換單詞,比如同義詞,甚至用反義詞替換,與原文的意思完全相反。沒(méi)有觀(guān)點(diǎn)或錯誤的觀(guān)點(diǎn)。對發(fā)展沒(méi)有好處。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  同時(shí),這些偽原創(chuàng )工具還有一種“能力”,可以打亂文章的段落和句型,讓文章看起來(lái)語(yǔ)無(wú)倫次。說(shuō)白了,這類(lèi)文章是胡說(shuō)八道,只供搜索引擎閱讀。網(wǎng)站的最終目的是供用戶(hù)閱讀。一個(gè)網(wǎng)站上大量的文章看不懂,句子也說(shuō)不通。如果你看到別人的網(wǎng)站是這樣的,你肯定會(huì )立刻點(diǎn)擊屏幕右上角的紅叉。相信大家可以看出今年搜索引擎對內容的重視程度,所以L(fǎng)ighthouse SEO建議大家不要再使用這種方式了。
  2.買(mǎi)賣(mài)鏈接
  網(wǎng)站外部?jì)?yōu)質(zhì)單向鏈接的推薦效果不用Lighthouse SEO說(shuō),做SEO的都知道。這也是大家總是找各種平臺發(fā)布外鏈的原因之一。一個(gè)不錯的首頁(yè)單向鏈接,比那些平臺里的鏈接好太多了。很多人通過(guò)鏈接交易平臺買(mǎi)賣(mài)鏈接,即購買(mǎi)高pr的外鏈或友情鏈接。這種作弊方式現在也很流行。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  購買(mǎi)鏈接,雖然在其他網(wǎng)站購買(mǎi)廣告很正常,但有時(shí)如果購買(mǎi)的廣告鏈接純粹是為了操縱搜索引擎排名,一次性大量購買(mǎi),也會(huì )被用作作弊手段。
  
  雖然這種連接搜索引擎很少被搜索到,但是做這行的人心里很清楚。如果你的網(wǎng)站被認為是購買(mǎi)鏈接作弊,那是沒(méi)有辦法和搜索引擎爭辯的。因為搜索引擎的決定就是最終的決定。但是搜索引擎很難判斷哪些鏈接是正常的,哪些鏈接是購買(mǎi)的,這就是為什么你知道你的對手在購買(mǎi)鏈接,但他的排名總是比你高??梢哉f(shuō)現在很多排名靠前的網(wǎng)站都買(mǎi)鏈接了。只要我們從“正規”的地方購買(mǎi),合理使用,就根本不用擔心什么。唯一需要注意的是那些交易鏈接的,因為搜索引擎可以找到它們。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  十四:連桿廠(chǎng)(站組、鏈輪)
  鏈接工廠(chǎng),也稱(chēng)為大量鏈接機制、鏈接農場(chǎng)、鏈接農場(chǎng);指由大量網(wǎng)頁(yè)交叉鏈接組成的網(wǎng)絡(luò )系統。這些頁(yè)面可能來(lái)自同一個(gè)域,也可能來(lái)自多個(gè)不同的域,甚至可能來(lái)自不同的服務(wù)器。
  站群結構圖
  鏈接工廠(chǎng)簡(jiǎn)單理解可以是一組相互鏈接的網(wǎng)站。不管主題的相關(guān)性如何,每個(gè)人都聯(lián)系在一起。每個(gè)新添加的網(wǎng)站不僅可以鏈接到以前的網(wǎng)站,還可以鏈接到其他網(wǎng)站。而你之前加入的網(wǎng)站可以多一個(gè)鏈接。由于大量網(wǎng)頁(yè)相互交叉鏈接,形成了鏈接的網(wǎng)絡(luò )系統。例如,有 100 個(gè)網(wǎng)站。這些網(wǎng)站的內容可能不相關(guān),但它們相互鏈接,形成一個(gè)網(wǎng)絡(luò )結構。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  站點(diǎn)加入這樣的“鏈接工廠(chǎng)”后,一方面可以從系統中的所有網(wǎng)頁(yè)中獲取鏈接,同時(shí)需要“奉獻”自己的鏈接作為交換,從而提高鏈接分數,從而達到干預鏈接分數。其目的是通過(guò)搜索引擎獲得大量流量,或指向同一網(wǎng)站的鏈接,以提高搜索排名。一個(gè)站群通常由幾個(gè)到上百個(gè)網(wǎng)站組成,個(gè)人站長(cháng)幾乎不可能手動(dòng)更新一個(gè)站群。所以一般都是通過(guò)網(wǎng)站群軟件來(lái)完成。
  其中最突出的是博客 sprocket,也稱(chēng)為 BLOG-LinkWheeler,通常用于 SEO 以提高搜索引擎中的 關(guān)鍵詞 排名。當然,在龐大的外部導入鏈接的支持下,我們可以利用站內錨文本的合理分布來(lái)進(jìn)行適當的優(yōu)化。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  最后,燈塔seo博客要提醒各位站長(cháng),加入鏈接工廠(chǎng)是非常有害的。這是一種對搜索引擎非常不友好的方法。加入鏈接工廠(chǎng)很有可能會(huì )讓你的網(wǎng)站陷入泥潭,被搜索引擎降級或K掉。而谷歌的算法也明確提到,鏈接作弊的網(wǎng)站本身就是作弊。 查看全部

  總結:分析一個(gè)10天上權6黑帽SEO優(yōu)化案例
  10天top 6黑帽seo優(yōu)化案例分析觀(guān)察。
  外鏈很重要,足夠的外鏈是支撐關(guān)鍵詞排名的基礎
  詞庫很重要,大量使用低難度的長(cháng)尾詞提高權重
  頁(yè)面模板很重要,豐富的內容和功能騙過(guò)搜索引擎算法
  一、場(chǎng)地概況分析
  6月10日開(kāi)始排行,12天后6月22日到達愛(ài)站PC和WEB雙電6,總關(guān)鍵詞量3W+,預估流量43335~67997IP .
  本站有很多穩定的建站歷史,良好的外鏈資源,橙色外鏈評分14000,谷歌PR4,已有10年歷史。從2011年建站至今,擁有長(cháng)期穩定的建站記錄。公司網(wǎng)站有公司備案,并且喜歡這個(gè)有 20 多個(gè)反鏈接的網(wǎng)站。被黑后植入大量影視關(guān)鍵詞,內容均為搜集新聞內容。
  2. 黑帽運營(yíng)分析
  1、互聯(lián)互通
  被黑站點(diǎn)不止一兩個(gè),內容頁(yè)面會(huì )相互連接,如下圖
  互聯(lián)可以幫助所有站點(diǎn)被搜索引擎抓取,鏈接都指向內鏈,更自然。
  2. 詞庫建設
  想要獲得力量,就需要知道愛(ài)站、站長(cháng)工具、5118等平臺監控了哪些詞庫,并對這些關(guān)鍵詞進(jìn)行操作。畢竟高流量關(guān)鍵詞競爭激烈,選品平臺會(huì )被監控,但是難度低的長(cháng)尾關(guān)鍵詞很關(guān)鍵。
  5118詞庫下載后,可以提取一些有流量,排名不難的關(guān)鍵詞。你可以選擇一些不違反規則的關(guān)鍵詞在你自己的網(wǎng)站上操作。
  3、采集內容和分析內容的原創(chuàng )率不高
  本站所有內容均采集
新聞、小說(shuō)資料整理而成,原創(chuàng )率和可讀性極低。關(guān)鍵詞出現的位置主要在其他頁(yè)面模塊,內容中沒(méi)有關(guān)鍵詞植入。頁(yè)面總關(guān)鍵詞密度不高,頁(yè)面內容會(huì )在頭部、中部、底部各一次;在TDK的位置,出現了1~2個(gè)字。
  從內容和關(guān)鍵詞密度來(lái)看,關(guān)鍵詞的難度確實(shí)很低。如果你的網(wǎng)站有一定的基礎,通過(guò)這個(gè)詞庫來(lái)構建自己的內容,對于提高網(wǎng)站的權威性效果肯定會(huì )起到很好的作用。
  
 ?。▋热萁貓D)
 ?。▋热菰瓌?chuàng )分析)
  4.頁(yè)面布局URL結構布局
  雖然內容很水,但是黑帽seo必須關(guān)心每個(gè)內容模塊的布局和頁(yè)面的URL結構。
  整體 URL 也使用了多種 URL 結構。雖然模板是一樣的,但是要用不同的URL結構來(lái)欺騙算法,讓算法認為是不同欄目、不同功能的URL。
  /news/playo/244995-1.html(新聞)
  /應用程序/46822096(應用程序)
  /playo/94922-1.html(新聞)
  /tv/222927(視頻)
  頁(yè)面布局充分考慮了影視頁(yè)面的各個(gè)模塊
  在下圖的案例中:電影信息,詳情 | 選集、簡(jiǎn)介、主演名單、評論、猜你喜歡、熱度等影視常用模塊一應俱全。
  5、深入研究后可以發(fā)現的一些現象
  相同的詞庫和相同的內容相當于控制變量。讓我們看看詞庫內容之外的SEO重點(diǎn)應該放在哪里!
  首先根據鏈接找了10個(gè)站點(diǎn),選了幾個(gè)進(jìn)行分析(下),發(fā)現了一些現象,簡(jiǎn)單說(shuō)一下。
  1、站點(diǎn)本身的外鏈量很重要,外鏈多的站點(diǎn)可以通過(guò)這一套操作獲得更高的權限。
  2、即使外鏈不足,原有流量為0,也能得到一定的提升(應該是其他站點(diǎn)帶來(lái)的鏈接起到了作用)。
  3、建站歷史好像影響不大,至少加分不明顯。
  4、有些域名確實(shí)不能動(dòng)。
  很多收站的網(wǎng)站對域名要求不高,不到1類(lèi)權限的網(wǎng)站賣(mài)不出去。但是如果購買(mǎi)一批低權限的域名,然后安裝類(lèi)似的seo系統,得到的收益是相當可觀(guān)的。不幸的是我不明白。
  1.站點(diǎn)信息出現在站點(diǎn)上。網(wǎng)站剛建立時(shí),網(wǎng)站不會(huì )顯示個(gè)人網(wǎng)站信息。這是網(wǎng)站信息出來(lái)時(shí)最基本的標準。
  2.申請百度站點(diǎn)LOGO申請即可通過(guò)。
  
  3、百度收錄量正常增長(cháng),當天站點(diǎn)收錄率達到40%左右。
  4.外部鏈接不斷增長(cháng)
  三、維修站
  計劃先養30個(gè)站點(diǎn)3個(gè)月,30個(gè)站點(diǎn)都需要使用舊域名,因為舊域名在維護站點(diǎn)時(shí)更有優(yōu)勢。其實(shí)不需要30個(gè)站點(diǎn),一個(gè)站點(diǎn)就夠了,但是黑帽技術(shù)或多或少都有風(fēng)險,所以第一個(gè)掛第二個(gè),第二個(gè)掛第三個(gè)。嗯,30個(gè)站點(diǎn)基本上是備用的。前提是手頭必須有30個(gè)好地盤(pán)!
  為什么要養3個(gè)月?事實(shí)上,在一半的情況下,2 個(gè)月就足夠了。但是由于站多,很多站都顧不上了。時(shí)間可能會(huì )慢一些。如果老板有人手,可以多招幾個(gè)人來(lái)做。另一個(gè)是站點(diǎn)標準的問(wèn)題。這絕對不是以站長(cháng)工具查對類(lèi)型為標準的。如果您掃描索引,您將擁有正確的類(lèi)型。自然,正確的類(lèi)型不能代表什么。我是這樣評價(jià)網(wǎng)站的標準的!
  其實(shí)不維護網(wǎng)站也可以,除非你能黑別人的網(wǎng)站,但是目前來(lái)說(shuō),黑別人的網(wǎng)站基本沒(méi)用,2天之內別人就會(huì )發(fā)現,刪掉你的內容,黑也沒(méi)用!
  如果你想自己創(chuàng )建30個(gè)這樣的基本站點(diǎn),你必須一步一步來(lái)。選擇織夢(mèng)程序即可。使用純靜態(tài)頁(yè)面,做一個(gè)普通的企業(yè)站點(diǎn)。首頁(yè)主要是文章列表,首頁(yè)最好展示30-40篇文章。不行的話(huà)我的dede博客模板也可以,但是我的博客模板沒(méi)有那么多的文章列表可以顯示,只能顯示10篇。相對來(lái)說(shuō)沒(méi)有什么優(yōu)勢,所以選單是主要的選擇。企業(yè)網(wǎng)站比較好,如下圖的列表最好。
  三個(gè)月內更新的內容絕對不允許設計成非法灰色產(chǎn)業(yè),可以抄襲文章,因為抄襲的文章更容易被收錄。這里解釋了為什么剽竊的文章更容易被收錄。
  當一篇文章同時(shí)被多個(gè)地方轉載時(shí),搜索引擎會(huì )認為該內容是當前的熱點(diǎn)信息。自然,熱點(diǎn)信息比普通內容更有優(yōu)勢。如果一條新聞內容不能在同一天被收錄,那么第二天就沒(méi)有熱點(diǎn)信息。對站長(cháng)和百度自然沒(méi)有任何好處,抄襲的內容更容易被收錄!
  另外,要看你主頁(yè)的列表數量,更新多少。通常更新的數量是你主頁(yè)列表數量的10%。每欄更新,依次更新即可!至于網(wǎng)站的內容,就看你自己建站了。比如你的網(wǎng)站是裝修網(wǎng)站,那就更新裝修行業(yè)的知識。
  廢棄博客:另外,適當交換一些友情鏈接。當然,前提是你可以手動(dòng)管理它們。如果你不能管理這么多站點(diǎn)的友情鏈接,那么不交換的影響并不大。前期的交流是為了促進(jìn)包容!
  4.戴黑帽子
  網(wǎng)站維護了3個(gè)月,達到我定義的標準后,基本就可以黑帽上線(xiàn)了,也就是你要做的行業(yè)頁(yè)面上線(xiàn)。在站點(diǎn)根目錄新建一個(gè)文件夾,在Black hat files文件夾下新建一個(gè)html文件。
  文件也主要是一個(gè)列表,列表調用的文章和你的關(guān)鍵詞相關(guān),不能和行業(yè)相關(guān),但是標題可以,但是文章列表的標題不可以,并且內容不能針對行業(yè)進(jìn)行設計。
  比如你想做“**”這個(gè)詞,那么你就不能在這個(gè)文章頁(yè)面設計**什么的。最好有這樣的文章等,文章一定要有原創(chuàng )內容。
  文章更新的數量仍然是根據你的頁(yè)面調用的文章數量。比如一個(gè)頁(yè)面調用了30篇文章,那么一天可以更新10篇文章。將您的 關(guān)鍵詞 插入到文章中,粗體和超鏈接。
  網(wǎng)站頂部調用一個(gè)JS,JS中的內容使用框架接口調用第三方廣告,也就是我們一打開(kāi)網(wǎng)站就出現的廣告內容。之所以使用JS調用而不是直接使用框架調用,一是因為百度不喜歡框架結構,二來(lái)使用它是一個(gè)灰色行業(yè),百度無(wú)法識別JS內容,所以調用目前是安全的,你就知道了未來(lái)!
  5.做優(yōu)化
  上傳后,還需要進(jìn)行優(yōu)化。它只需要兩步,即內容和外部鏈接。內容按照上述方法不斷更新。這里的內容每天都需要更新,等到排名上去了才會(huì )更新。至于外鏈,買(mǎi)就好了。
  因為你的專(zhuān)欄沒(méi)有被首頁(yè)推薦,所以很難收錄。誘導蜘蛛收錄它的唯一方法是導入外部鏈接。最好的外部鏈接是新聞源外部鏈接。你不能買(mǎi)它們。您還可以購買(mǎi)門(mén)戶(hù)外部鏈接。是的,都是基于錨文本的,淘寶上有很多這樣的外鏈!
  6.排名穩定
  重點(diǎn)是黑帽基本上沒(méi)有辦法穩定排名。穩定排名的最好方法就是上面說(shuō)的。第一個(gè)站上線(xiàn)后,準備第二個(gè)站,然后循環(huán)養第二批新站,以此類(lèi)推。第二批新站出來(lái)后,繼續排名。建議不要將所有站點(diǎn)都放在一個(gè) IP 上。
  技巧:「黑帽SEO」如何從零開(kāi)始學(xué)習黑帽SEO?「第三篇」
  1.文章內容采集
  說(shuō)到內容采集,相信大家都是再熟悉不過(guò)了?;旧纤械腟EOer都“采集
”了一些內容。內容采集
可以利用CMS程序或軟件的采集
功能,填充大量低質(zhì)量的網(wǎng)站內容和垃圾信息。當然,我想所有的SEOer都應該知道在網(wǎng)上采集
大量重復內容的最終結果。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  網(wǎng)絡(luò )文章內容合集
  常見(jiàn)的應用方法有:使用采集
器軟件和偽原創(chuàng )工具制造垃圾。
  1.采集器
  一些采集器的內容采集和數據導入功能可以將您采集的任何網(wǎng)頁(yè)數據發(fā)布到遠程服務(wù)器上。業(yè)界鄙視內容采集,雖然大部分站長(cháng)抵制用采集的方式來(lái)更新網(wǎng)站內容,但還是有不少站長(cháng)時(shí)刻使用各種手段采集內容。
  通過(guò)采集程序獲取別人網(wǎng)站的內容,然后放到自己的網(wǎng)站上,是一種非常不公平的方式,因為這種方式的便利性已經(jīng)成為很多網(wǎng)站更新內容的手段和渠道,可見(jiàn)一斑做是行業(yè)內不正當競爭的一種方式。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  此外,人工采集內容的質(zhì)量難以控制,也是抵制采集的另一個(gè)重要原因?,F在很多站長(cháng)都是通過(guò)程序來(lái)采集
內容,現有的技術(shù)無(wú)法安全過(guò)濾文章中不利于網(wǎng)站發(fā)展的內容,比如不良內容。屏幕語(yǔ)句。即使您從權威網(wǎng)站采集
內容,其他網(wǎng)站的內容也未必適合更新您的網(wǎng)站內容,網(wǎng)站本身的發(fā)展也有不同的特點(diǎn)?,F在搜索引擎的人性化水平在逐漸提高,作弊的手段很容易對搜索引擎不友好,小到不被收錄,大到K站,而采集
對網(wǎng)站發(fā)展造成的后果完全是得不償失的。無(wú)論從哪個(gè)角度來(lái)說(shuō),采集
內容都不能讓網(wǎng)站長(cháng)久生存,也不利于網(wǎng)站的長(cháng)期運營(yíng),所以L(fǎng)ighthouse SEO不建議大家使用這種方式。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  
  2.偽原創(chuàng )工具
  所謂偽原創(chuàng ),就是對一篇文章進(jìn)行再加工,使其被搜索引擎認為是原創(chuàng )文章,從而增加網(wǎng)站的權重。隨著(zhù)SEO的發(fā)展,出現了“偽原創(chuàng )”的產(chǎn)物,為眾多SEOer所癡迷。到現在,還有很多站長(cháng)在運營(yíng)站群,少則幾百,多則上千。這么龐大的網(wǎng)站陣容如果用原創(chuàng )來(lái)更新兼職是個(gè)無(wú)底洞,采集
是最簡(jiǎn)潔方便的方法。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  可能有人會(huì )問(wèn):為什么要采集
呢?這很簡(jiǎn)單。當然是獲取大量的內容信息,然后整合優(yōu)質(zhì)的偽原創(chuàng )。對于不擅長(cháng)寫(xiě)作的人來(lái)說(shuō),這種方法比想一萬(wàn)遍要好上千倍。堅持原創(chuàng )固然好,但如果因為各種原因做不到,也不要亂填垃圾內容。
  我們知道搜索引擎喜歡原創(chuàng )內容,對于重復的內容,它會(huì )認為沒(méi)有收錄的價(jià)值。如果網(wǎng)站上的大量?jì)热荼晦D載,搜索引擎會(huì )覺(jué)得整個(gè)網(wǎng)站沒(méi)有什么價(jià)值,從而降低網(wǎng)站的權重。網(wǎng)站的排名自然不會(huì )很高。因為偽原創(chuàng )工具是機械的、死板的,這些工具無(wú)非就是替換單詞,比如同義詞,甚至用反義詞替換,與原文的意思完全相反。沒(méi)有觀(guān)點(diǎn)或錯誤的觀(guān)點(diǎn)。對發(fā)展沒(méi)有好處。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  同時(shí),這些偽原創(chuàng )工具還有一種“能力”,可以打亂文章的段落和句型,讓文章看起來(lái)語(yǔ)無(wú)倫次。說(shuō)白了,這類(lèi)文章是胡說(shuō)八道,只供搜索引擎閱讀。網(wǎng)站的最終目的是供用戶(hù)閱讀。一個(gè)網(wǎng)站上大量的文章看不懂,句子也說(shuō)不通。如果你看到別人的網(wǎng)站是這樣的,你肯定會(huì )立刻點(diǎn)擊屏幕右上角的紅叉。相信大家可以看出今年搜索引擎對內容的重視程度,所以L(fǎng)ighthouse SEO建議大家不要再使用這種方式了。
  2.買(mǎi)賣(mài)鏈接
  網(wǎng)站外部?jì)?yōu)質(zhì)單向鏈接的推薦效果不用Lighthouse SEO說(shuō),做SEO的都知道。這也是大家總是找各種平臺發(fā)布外鏈的原因之一。一個(gè)不錯的首頁(yè)單向鏈接,比那些平臺里的鏈接好太多了。很多人通過(guò)鏈接交易平臺買(mǎi)賣(mài)鏈接,即購買(mǎi)高pr的外鏈或友情鏈接。這種作弊方式現在也很流行。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  購買(mǎi)鏈接,雖然在其他網(wǎng)站購買(mǎi)廣告很正常,但有時(shí)如果購買(mǎi)的廣告鏈接純粹是為了操縱搜索引擎排名,一次性大量購買(mǎi),也會(huì )被用作作弊手段。
  
  雖然這種連接搜索引擎很少被搜索到,但是做這行的人心里很清楚。如果你的網(wǎng)站被認為是購買(mǎi)鏈接作弊,那是沒(méi)有辦法和搜索引擎爭辯的。因為搜索引擎的決定就是最終的決定。但是搜索引擎很難判斷哪些鏈接是正常的,哪些鏈接是購買(mǎi)的,這就是為什么你知道你的對手在購買(mǎi)鏈接,但他的排名總是比你高??梢哉f(shuō)現在很多排名靠前的網(wǎng)站都買(mǎi)鏈接了。只要我們從“正規”的地方購買(mǎi),合理使用,就根本不用擔心什么。唯一需要注意的是那些交易鏈接的,因為搜索引擎可以找到它們。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  十四:連桿廠(chǎng)(站組、鏈輪)
  鏈接工廠(chǎng),也稱(chēng)為大量鏈接機制、鏈接農場(chǎng)、鏈接農場(chǎng);指由大量網(wǎng)頁(yè)交叉鏈接組成的網(wǎng)絡(luò )系統。這些頁(yè)面可能來(lái)自同一個(gè)域,也可能來(lái)自多個(gè)不同的域,甚至可能來(lái)自不同的服務(wù)器。
  站群結構圖
  鏈接工廠(chǎng)簡(jiǎn)單理解可以是一組相互鏈接的網(wǎng)站。不管主題的相關(guān)性如何,每個(gè)人都聯(lián)系在一起。每個(gè)新添加的網(wǎng)站不僅可以鏈接到以前的網(wǎng)站,還可以鏈接到其他網(wǎng)站。而你之前加入的網(wǎng)站可以多一個(gè)鏈接。由于大量網(wǎng)頁(yè)相互交叉鏈接,形成了鏈接的網(wǎng)絡(luò )系統。例如,有 100 個(gè)網(wǎng)站。這些網(wǎng)站的內容可能不相關(guān),但它們相互鏈接,形成一個(gè)網(wǎng)絡(luò )結構。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  站點(diǎn)加入這樣的“鏈接工廠(chǎng)”后,一方面可以從系統中的所有網(wǎng)頁(yè)中獲取鏈接,同時(shí)需要“奉獻”自己的鏈接作為交換,從而提高鏈接分數,從而達到干預鏈接分數。其目的是通過(guò)搜索引擎獲得大量流量,或指向同一網(wǎng)站的鏈接,以提高搜索排名。一個(gè)站群通常由幾個(gè)到上百個(gè)網(wǎng)站組成,個(gè)人站長(cháng)幾乎不可能手動(dòng)更新一個(gè)站群。所以一般都是通過(guò)網(wǎng)站群軟件來(lái)完成。
  其中最突出的是博客 sprocket,也稱(chēng)為 BLOG-LinkWheeler,通常用于 SEO 以提高搜索引擎中的 關(guān)鍵詞 排名。當然,在龐大的外部導入鏈接的支持下,我們可以利用站內錨文本的合理分布來(lái)進(jìn)行適當的優(yōu)化。
  《黑帽SEO》如何從零開(kāi)始學(xué)習黑帽SEO?“第三部分”
  最后,燈塔seo博客要提醒各位站長(cháng),加入鏈接工廠(chǎng)是非常有害的。這是一種對搜索引擎非常不友好的方法。加入鏈接工廠(chǎng)很有可能會(huì )讓你的網(wǎng)站陷入泥潭,被搜索引擎降級或K掉。而谷歌的算法也明確提到,鏈接作弊的網(wǎng)站本身就是作弊。

采集內容插入詞庫 事實(shí):中小企業(yè)幾十人以?xún)鹊脑?huà)更不要!(圖)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2022-11-23 17:22 ? 來(lái)自相關(guān)話(huà)題

  采集內容插入詞庫 事實(shí):中小企業(yè)幾十人以?xún)鹊脑?huà)更不要!(圖)
  采集內容插入詞庫因為很多用戶(hù)采集的都是一些公共資源,或者不定向采集,只要涉及到資源都會(huì )插入。做個(gè)小栗子,網(wǎng)易大話(huà)采集內容可能是華南師范大學(xué),出版社,華南師范大學(xué)圖書(shū)館,華南師范大學(xué)讀者會(huì ),以及一些公共資源(在線(xiàn)文檔),
  你這個(gè)是不對的。要明確需求與業(yè)務(wù)之間的關(guān)系。
  這個(gè)叫做持續性采集,兩個(gè)人分別負責一個(gè)需求端與一個(gè)業(yè)務(wù)端,工作量如何肯定要分配好。
  
  post采集之后compress成json進(jìn)行csv編碼再采集,
  對,
  千萬(wàn)不要采集!非常危險!中小企業(yè)幾十人以?xún)鹊脑?huà)更不要!本人安全意識薄弱,
  
  appstore的app名稱(chēng)一般都會(huì )有后綴,比如京東,看一下京東的app名稱(chēng)就知道了。你的app采集后,就會(huì )變成一個(gè)json數據,然后進(jìn)行去重。
  基本都是持續性的。否則這個(gè)互聯(lián)網(wǎng)產(chǎn)品只是廣告平臺而已。
  相當于批量采集一樣,
  這個(gè)怎么說(shuō)呢,涉及到采集這塊主要是看業(yè)務(wù)模式。如果只是自己的推廣渠道只針對內部人員推廣,那么這個(gè)幾乎就是你原生的采集方式, 查看全部

  采集內容插入詞庫 事實(shí):中小企業(yè)幾十人以?xún)鹊脑?huà)更不要!(圖)
  采集內容插入詞庫因為很多用戶(hù)采集的都是一些公共資源,或者不定向采集,只要涉及到資源都會(huì )插入。做個(gè)小栗子,網(wǎng)易大話(huà)采集內容可能是華南師范大學(xué),出版社,華南師范大學(xué)圖書(shū)館,華南師范大學(xué)讀者會(huì ),以及一些公共資源(在線(xiàn)文檔),
  你這個(gè)是不對的。要明確需求與業(yè)務(wù)之間的關(guān)系。
  這個(gè)叫做持續性采集,兩個(gè)人分別負責一個(gè)需求端與一個(gè)業(yè)務(wù)端,工作量如何肯定要分配好。
  
  post采集之后compress成json進(jìn)行csv編碼再采集,
  對,
  千萬(wàn)不要采集!非常危險!中小企業(yè)幾十人以?xún)鹊脑?huà)更不要!本人安全意識薄弱,
  
  appstore的app名稱(chēng)一般都會(huì )有后綴,比如京東,看一下京東的app名稱(chēng)就知道了。你的app采集后,就會(huì )變成一個(gè)json數據,然后進(jìn)行去重。
  基本都是持續性的。否則這個(gè)互聯(lián)網(wǎng)產(chǎn)品只是廣告平臺而已。
  相當于批量采集一樣,
  這個(gè)怎么說(shuō)呢,涉及到采集這塊主要是看業(yè)務(wù)模式。如果只是自己的推廣渠道只針對內部人員推廣,那么這個(gè)幾乎就是你原生的采集方式,

事實(shí):網(wǎng)站收錄不穩、收錄周期變長(cháng),這是什么原因導致?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 68 次瀏覽 ? 2022-11-23 10:31 ? 來(lái)自相關(guān)話(huà)題

  事實(shí):網(wǎng)站收錄不穩、收錄周期變長(cháng),這是什么原因導致?
  網(wǎng)站采集不穩定,采集周期變長(cháng)。這是什么原因?具體站點(diǎn)具體分析,站點(diǎn)內外SEO分析,搜索引擎算法有沒(méi)有更新,是自身問(wèn)題還是整體搜索調整。
  最近很多網(wǎng)站的收錄速度都變慢了,部分索引量有所下降。這是什么原因?網(wǎng)站排名快與哪些因素有關(guān)?為什么有些網(wǎng)站速度變慢或不包括在內?到底是怎么回事?
  
  1、一個(gè)網(wǎng)站要想被搜索引擎收錄,就需要搜索引擎蜘蛛對其進(jìn)行抓取和抓取。搜索引擎蜘蛛抓取網(wǎng)頁(yè)后,會(huì )建立索引,站點(diǎn)頁(yè)面的內容會(huì )發(fā)布頁(yè)面進(jìn)行收錄。
  2、網(wǎng)站頁(yè)面集合分為有效索引和無(wú)效索引。對于有效收錄的網(wǎng)頁(yè),搜索頁(yè)的完整標題在首頁(yè)的第一個(gè)。對于無(wú)效收錄的頁(yè)面,搜索全稱(chēng)無(wú)法檢索到網(wǎng)頁(yè)的顯示,因此無(wú)法參與詞庫排名。
  3、以前網(wǎng)站秒收或者當天收,收的速度非???。最近,該網(wǎng)站不包括在內。對于站點(diǎn)的情況,我們可以通過(guò)分析站點(diǎn)內外的優(yōu)化操作以及搜索引擎是否有算法更新或者搜索本身的波動(dòng)來(lái)判斷具體的站點(diǎn)是否存在自身的問(wèn)題或者搜索引擎的問(wèn)題。
  
  4、完整收錄不穩定、未收錄或收錄慢的原因是網(wǎng)站服務(wù)器空間穩定性不好,頁(yè)面內容無(wú)法被蜘蛛抓??;網(wǎng)站是采集
的低質(zhì)量?jì)热?,被搜索引擎認可并被降權懲罰,不被收錄。; 重復和低質(zhì)量的網(wǎng)站內容將不被收錄;網(wǎng)站不收錄是因為網(wǎng)站是別人采集
或鏡像的,頁(yè)面不友好。
  SEOSEM 顧問(wèn)總結:網(wǎng)站索引不穩定。建議針對具體網(wǎng)站進(jìn)行站內站外SEO優(yōu)化診斷分析。通過(guò)分析可以判斷網(wǎng)站索引不穩定的原因是SEO的錯誤操作還是搜索引擎的調整。
  事實(shí):最被低估的十個(gè)惡意軟件分析資源
  對于惡意軟件分析和事件響應等安全分析人員來(lái)說(shuō),好的惡意軟件分析資源和工具可以大大提高惡意軟件分析的效率,縮短事件響應周期,有助于:
  下面,我們將介紹十個(gè)被忽視和低估的惡意軟件分析資源,包括一些高質(zhì)量的數據庫、工具、列表和搜索引擎。
  1.解除保護
  Unprotect Project 于 2015 年啟動(dòng),作為惡意軟件規避檢測技術(shù)的查詢(xún)數據庫。
  地址:unprotect.it
  2. 樂(lè )樂(lè )巴斯
  LolBas 項目(Living off the land)指的是使用“兩用工具”,這些工具要么已經(jīng)安裝在受害者的環(huán)境中,要么是可以被惡意使用的管理、取證或系統工具。
  地址:lolbas-project.github.io
  3. HijackLibs 動(dòng)態(tài)鏈接庫
  劫持是惡意軟件常用的一種技術(shù)。該項目提供了 DLL 劫持候選列表??梢酝ㄟ^(guò)該網(wǎng)站搜索 DLL 和易受攻擊的可執行文件之間的映射。
  地址:
  
  4. 馬拉皮
  惡意軟件依賴(lài) Windows API 在受感染的系統中執行操作。MalAPI 保留惡意軟件使用的 API 列表。
  地址:malapi.io
  5.地段
  受信任的站點(diǎn)是提高網(wǎng)絡(luò )釣魚(yú)成功率的關(guān)鍵,攻擊者在進(jìn)行網(wǎng)絡(luò )釣魚(yú)、C&C、滲透和下載工具時(shí)經(jīng)常使用流行的合法域來(lái)逃避檢測。Lots 項目整理了攻擊者常用的流行域名和設計風(fēng)格。
  地址:
  6. 卡內阿德
  該惡意軟件使用持久性機制來(lái)避免設備重啟。此列表跟蹤與惡意軟件持久性技術(shù)相關(guān)的資源。
  地址:
  7. 惡意軟件提權
  惡意軟件通常使用權限升級來(lái)獲得對受感染機器的更多訪(fǎng)問(wèn)權限。此列表跟蹤權限升級資源。
  
  地址:
  8. 惡意軟件事件 ID
  在執行期間,惡意軟件會(huì )在系統上留下痕跡,可以在 Windows 事件中檢索這些痕跡。此列表跟蹤與事件 ID 分析相關(guān)的資源。
  地址:
  9. 奧克蘭
  ORKL 這是一個(gè)專(zhuān)門(mén)采集
威脅情報報告的搜索引擎。您可以使用它來(lái)瀏覽有關(guān)攻擊者、工具和策略的知識。
  地址:orkl.eu
  10. Vx-Underground 惡意軟件技術(shù)論文
  按技術(shù)分類(lèi)的惡意軟件白皮書(shū)集。
  地址:
  /windows.html 查看全部

  事實(shí):網(wǎng)站收錄不穩、收錄周期變長(cháng),這是什么原因導致?
  網(wǎng)站采集不穩定,采集周期變長(cháng)。這是什么原因?具體站點(diǎn)具體分析,站點(diǎn)內外SEO分析,搜索引擎算法有沒(méi)有更新,是自身問(wèn)題還是整體搜索調整。
  最近很多網(wǎng)站的收錄速度都變慢了,部分索引量有所下降。這是什么原因?網(wǎng)站排名快與哪些因素有關(guān)?為什么有些網(wǎng)站速度變慢或不包括在內?到底是怎么回事?
  
  1、一個(gè)網(wǎng)站要想被搜索引擎收錄,就需要搜索引擎蜘蛛對其進(jìn)行抓取和抓取。搜索引擎蜘蛛抓取網(wǎng)頁(yè)后,會(huì )建立索引,站點(diǎn)頁(yè)面的內容會(huì )發(fā)布頁(yè)面進(jìn)行收錄。
  2、網(wǎng)站頁(yè)面集合分為有效索引和無(wú)效索引。對于有效收錄的網(wǎng)頁(yè),搜索頁(yè)的完整標題在首頁(yè)的第一個(gè)。對于無(wú)效收錄的頁(yè)面,搜索全稱(chēng)無(wú)法檢索到網(wǎng)頁(yè)的顯示,因此無(wú)法參與詞庫排名。
  3、以前網(wǎng)站秒收或者當天收,收的速度非???。最近,該網(wǎng)站不包括在內。對于站點(diǎn)的情況,我們可以通過(guò)分析站點(diǎn)內外的優(yōu)化操作以及搜索引擎是否有算法更新或者搜索本身的波動(dòng)來(lái)判斷具體的站點(diǎn)是否存在自身的問(wèn)題或者搜索引擎的問(wèn)題。
  
  4、完整收錄不穩定、未收錄或收錄慢的原因是網(wǎng)站服務(wù)器空間穩定性不好,頁(yè)面內容無(wú)法被蜘蛛抓??;網(wǎng)站是采集
的低質(zhì)量?jì)热?,被搜索引擎認可并被降權懲罰,不被收錄。; 重復和低質(zhì)量的網(wǎng)站內容將不被收錄;網(wǎng)站不收錄是因為網(wǎng)站是別人采集
或鏡像的,頁(yè)面不友好。
  SEOSEM 顧問(wèn)總結:網(wǎng)站索引不穩定。建議針對具體網(wǎng)站進(jìn)行站內站外SEO優(yōu)化診斷分析。通過(guò)分析可以判斷網(wǎng)站索引不穩定的原因是SEO的錯誤操作還是搜索引擎的調整。
  事實(shí):最被低估的十個(gè)惡意軟件分析資源
  對于惡意軟件分析和事件響應等安全分析人員來(lái)說(shuō),好的惡意軟件分析資源和工具可以大大提高惡意軟件分析的效率,縮短事件響應周期,有助于:
  下面,我們將介紹十個(gè)被忽視和低估的惡意軟件分析資源,包括一些高質(zhì)量的數據庫、工具、列表和搜索引擎。
  1.解除保護
  Unprotect Project 于 2015 年啟動(dòng),作為惡意軟件規避檢測技術(shù)的查詢(xún)數據庫。
  地址:unprotect.it
  2. 樂(lè )樂(lè )巴斯
  LolBas 項目(Living off the land)指的是使用“兩用工具”,這些工具要么已經(jīng)安裝在受害者的環(huán)境中,要么是可以被惡意使用的管理、取證或系統工具。
  地址:lolbas-project.github.io
  3. HijackLibs 動(dòng)態(tài)鏈接庫
  劫持是惡意軟件常用的一種技術(shù)。該項目提供了 DLL 劫持候選列表??梢酝ㄟ^(guò)該網(wǎng)站搜索 DLL 和易受攻擊的可執行文件之間的映射。
  地址:
  
  4. 馬拉皮
  惡意軟件依賴(lài) Windows API 在受感染的系統中執行操作。MalAPI 保留惡意軟件使用的 API 列表。
  地址:malapi.io
  5.地段
  受信任的站點(diǎn)是提高網(wǎng)絡(luò )釣魚(yú)成功率的關(guān)鍵,攻擊者在進(jìn)行網(wǎng)絡(luò )釣魚(yú)、C&C、滲透和下載工具時(shí)經(jīng)常使用流行的合法域來(lái)逃避檢測。Lots 項目整理了攻擊者常用的流行域名和設計風(fēng)格。
  地址:
  6. 卡內阿德
  該惡意軟件使用持久性機制來(lái)避免設備重啟。此列表跟蹤與惡意軟件持久性技術(shù)相關(guān)的資源。
  地址:
  7. 惡意軟件提權
  惡意軟件通常使用權限升級來(lái)獲得對受感染機器的更多訪(fǎng)問(wèn)權限。此列表跟蹤權限升級資源。
  
  地址:
  8. 惡意軟件事件 ID
  在執行期間,惡意軟件會(huì )在系統上留下痕跡,可以在 Windows 事件中檢索這些痕跡。此列表跟蹤與事件 ID 分析相關(guān)的資源。
  地址:
  9. 奧克蘭
  ORKL 這是一個(gè)專(zhuān)門(mén)采集
威脅情報報告的搜索引擎。您可以使用它來(lái)瀏覽有關(guān)攻擊者、工具和策略的知識。
  地址:orkl.eu
  10. Vx-Underground 惡意軟件技術(shù)論文
  按技術(shù)分類(lèi)的惡意軟件白皮書(shū)集。
  地址:
  /windows.html

技巧:采集內容插入詞庫,基本上可以先從百度搜索著(zhù)手了

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 76 次瀏覽 ? 2022-11-19 00:16 ? 來(lái)自相關(guān)話(huà)題

  技巧:采集內容插入詞庫,基本上可以先從百度搜索著(zhù)手了
  采集內容插入詞庫,基本上可以先從百度搜索著(zhù)手了。至于會(huì )不會(huì )消詞,這種問(wèn)題幾乎不可能出現,因為它們對權重有影響,原因很簡(jiǎn)單,很多站點(diǎn)權重不穩定,類(lèi)似的新站權重爆發(fā)更快。內容生產(chǎn)幾個(gè)月就要求你變更?這個(gè)不大可能。想降權,明確一點(diǎn):百度是不希望內容靠?jì)热萑Q定排名的。而百度喜歡一些可以影響排名的其他因素。
  
  1,生產(chǎn)內容肯定消詞2,哪些消詞可以一定程度降權,你所針對詞才消,這就沒(méi)那么簡(jiǎn)單了。
  生產(chǎn)內容的人和讀內容的人之間建立關(guān)系,比如誰(shuí)天天讀你的內容,就持續積累誰(shuí)的權重,權重多高,就有多少機會(huì )消權重。我見(jiàn)過(guò)一個(gè)牛逼的網(wǎng)站可以在一周內搞定15次回車(chē),絕大多數網(wǎng)站都不能,你這才生產(chǎn)5天就消權重太慢了。
  
  肯定會(huì ),
  百度權重跟你生產(chǎn)內容有什么關(guān)系??jì)热輽嘀睾艽蟪潭壬现皇前俣忍峁┑囊粋€(gè)服務(wù)而已。如果你要想為百度貢獻更多的權重就需要有更優(yōu)質(zhì)的內容創(chuàng )作,當然了,這里所說(shuō)的優(yōu)質(zhì)的內容不是指那些娛樂(lè )八卦;真正的好內容又要從標題,話(huà)題,網(wǎng)頁(yè)設計中體現出來(lái)。那么從標題開(kāi)始,為什么要從標題開(kāi)始?最簡(jiǎn)單的例子:自己打個(gè)廣告,放在三十個(gè)框子里你肯定是一眼就能找到的,同理,放在七十個(gè)框子里面誰(shuí)會(huì )去關(guān)注?抓住用戶(hù)大學(xué)習空間就這么明顯!。 查看全部

  技巧:采集內容插入詞庫,基本上可以先從百度搜索著(zhù)手了
  采集內容插入詞庫,基本上可以先從百度搜索著(zhù)手了。至于會(huì )不會(huì )消詞,這種問(wèn)題幾乎不可能出現,因為它們對權重有影響,原因很簡(jiǎn)單,很多站點(diǎn)權重不穩定,類(lèi)似的新站權重爆發(fā)更快。內容生產(chǎn)幾個(gè)月就要求你變更?這個(gè)不大可能。想降權,明確一點(diǎn):百度是不希望內容靠?jì)热萑Q定排名的。而百度喜歡一些可以影響排名的其他因素。
  
  1,生產(chǎn)內容肯定消詞2,哪些消詞可以一定程度降權,你所針對詞才消,這就沒(méi)那么簡(jiǎn)單了。
  生產(chǎn)內容的人和讀內容的人之間建立關(guān)系,比如誰(shuí)天天讀你的內容,就持續積累誰(shuí)的權重,權重多高,就有多少機會(huì )消權重。我見(jiàn)過(guò)一個(gè)牛逼的網(wǎng)站可以在一周內搞定15次回車(chē),絕大多數網(wǎng)站都不能,你這才生產(chǎn)5天就消權重太慢了。
  
  肯定會(huì ),
  百度權重跟你生產(chǎn)內容有什么關(guān)系??jì)热輽嘀睾艽蟪潭壬现皇前俣忍峁┑囊粋€(gè)服務(wù)而已。如果你要想為百度貢獻更多的權重就需要有更優(yōu)質(zhì)的內容創(chuàng )作,當然了,這里所說(shuō)的優(yōu)質(zhì)的內容不是指那些娛樂(lè )八卦;真正的好內容又要從標題,話(huà)題,網(wǎng)頁(yè)設計中體現出來(lái)。那么從標題開(kāi)始,為什么要從標題開(kāi)始?最簡(jiǎn)單的例子:自己打個(gè)廣告,放在三十個(gè)框子里你肯定是一眼就能找到的,同理,放在七十個(gè)框子里面誰(shuí)會(huì )去關(guān)注?抓住用戶(hù)大學(xué)習空間就這么明顯!。

事實(shí):內容采集機器人好,但沒(méi)有價(jià)值?。?!

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 86 次瀏覽 ? 2022-11-18 17:31 ? 來(lái)自相關(guān)話(huà)題

  事實(shí):內容采集機器人好,但沒(méi)有價(jià)值?。?!
  采集內容插入詞庫,只能更新信息,就算每個(gè)詞都已經(jīng)上傳了,也要打包下載一下,再循環(huán)往復推送。對推送來(lái)說(shuō),誰(shuí)已經(jīng)完成和什么時(shí)候完成意義不大。
  推薦個(gè)靠譜的網(wǎng)站。直接搜索“相互推”或者“相互推助手”之類(lèi)的名字。那里就是專(zhuān)門(mén)幫忙做信息采集,和計劃推送的。名字是叫相互推助手的。
  
  下載微信運營(yíng)助手這個(gè)軟件,
  本人一直做的做自媒體公司,目前有2萬(wàn)的粉絲,一個(gè)月有3000~4000收入,對于新手來(lái)說(shuō)還是很不錯的。
  其實(shí)能不能賺錢(qián)都不重要,重要的是堅持,我有qq群78884055,歡迎加我交流q。
  
  內容統計:“內容采集機器人”好,但沒(méi)有價(jià)值啊。該看數據的文章采集機器人會(huì )推送給你。
  現在各大公司都在引流,都渴望獲得粉絲,但是都忽略了粉絲數量不夠多,收入也不夠高,建議選擇重點(diǎn)方向,某一樣或者多方面做,而不要求聚焦,市場(chǎng)容量很大,
  現在做任何營(yíng)銷(xiāo)活動(dòng)推廣,都離不開(kāi)你所采集的信息,還有你采集到的信息中的文章,視頻,還有音頻等,這些不僅對你宣傳產(chǎn)品和品牌有幫助,還對你企業(yè)發(fā)展有幫助。做網(wǎng)站運營(yíng),賣(mài)產(chǎn)品或服務(wù),有些客戶(hù)一上網(wǎng)就搜索產(chǎn)品相關(guān)信息,都是通過(guò)網(wǎng)絡(luò )渠道去獲取。 查看全部

  事實(shí):內容采集機器人好,但沒(méi)有價(jià)值?。?!
  采集內容插入詞庫,只能更新信息,就算每個(gè)詞都已經(jīng)上傳了,也要打包下載一下,再循環(huán)往復推送。對推送來(lái)說(shuō),誰(shuí)已經(jīng)完成和什么時(shí)候完成意義不大。
  推薦個(gè)靠譜的網(wǎng)站。直接搜索“相互推”或者“相互推助手”之類(lèi)的名字。那里就是專(zhuān)門(mén)幫忙做信息采集,和計劃推送的。名字是叫相互推助手的。
  
  下載微信運營(yíng)助手這個(gè)軟件,
  本人一直做的做自媒體公司,目前有2萬(wàn)的粉絲,一個(gè)月有3000~4000收入,對于新手來(lái)說(shuō)還是很不錯的。
  其實(shí)能不能賺錢(qián)都不重要,重要的是堅持,我有qq群78884055,歡迎加我交流q。
  
  內容統計:“內容采集機器人”好,但沒(méi)有價(jià)值啊。該看數據的文章采集機器人會(huì )推送給你。
  現在各大公司都在引流,都渴望獲得粉絲,但是都忽略了粉絲數量不夠多,收入也不夠高,建議選擇重點(diǎn)方向,某一樣或者多方面做,而不要求聚焦,市場(chǎng)容量很大,
  現在做任何營(yíng)銷(xiāo)活動(dòng)推廣,都離不開(kāi)你所采集的信息,還有你采集到的信息中的文章,視頻,還有音頻等,這些不僅對你宣傳產(chǎn)品和品牌有幫助,還對你企業(yè)發(fā)展有幫助。做網(wǎng)站運營(yíng),賣(mài)產(chǎn)品或服務(wù),有些客戶(hù)一上網(wǎng)就搜索產(chǎn)品相關(guān)信息,都是通過(guò)網(wǎng)絡(luò )渠道去獲取。

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区