干貨內容:seo清洗百萬(wàn)長(cháng)尾詞數據的策略
優(yōu)采云 發(fā)布時(shí)間: 2022-11-29 13:45干貨內容:seo清洗百萬(wàn)長(cháng)尾詞數據的策略
前言
要不是有CEO主動(dòng)找了高薪SEO的人坐飛機過(guò)來(lái),說(shuō)實(shí)話(huà),很多SEO人員在公司都是“弱勢群體”。
絕大多數普通seo人員在公司和跨部門(mén)溝通中沒(méi)有多少相應的話(huà)語(yǔ)權,有很多細節無(wú)法協(xié)調。
在這樣的環(huán)境下,seoer要想做好,就必須充分發(fā)揮自己的主觀(guān)能動(dòng)性,千方百計去完成那些表面上不值一提,暗地里卻又不可避免的事情。
問(wèn)題
seo和sem需要在全網(wǎng)大量挖掘長(cháng)尾詞,但是*敏*感*詞*的長(cháng)尾詞注定會(huì )帶來(lái)一些數據清洗工作。在大多數情況下,清理工作可以在 Excel 中完成,但也有很多情況。Excel很難處理,比如:
這是從第三方關(guān)鍵詞工具下載的詞根“drainage”的長(cháng)尾詞數據,但是遇到了一個(gè)尷尬的問(wèn)題。詞根“drainage”有同義詞但場(chǎng)景不同,所以會(huì )導致挖掘出很多不相關(guān)的長(cháng)尾詞:
事實(shí)上,這種情況很常見(jiàn)。單個(gè)詞往往不可避免地與其他場(chǎng)景混淆,例如:
水果中的“蘋(píng)果”、手機中的“蘋(píng)果”和電影中的“蘋(píng)果”,是一個(gè)形同字義卻截然不同的詞。單純的用詞根挖詞,自然會(huì )挖出很多非目標的長(cháng)尾詞。
類(lèi)似的情況還有很多,那么問(wèn)題來(lái)了:剔除非目標長(cháng)尾詞是必須的。這樣的細枝末節在seo工作中做好是理所當然的事情。老板一來(lái)不會(huì )幫我們做,二來(lái)也不會(huì )指派我們去做。如果這是一個(gè)百萬(wàn)級別的長(cháng)尾詞數據,在Excel中全部篩選淘汰,這個(gè)項目可能已經(jīng)過(guò)時(shí)了。
面對如此雜亂的長(cháng)尾詞數據,如何進(jìn)行高效的過(guò)濾篩選?
今天的文章是一篇完全基于技術(shù)的內容,但是對于不懂技術(shù)的朋友,強烈推薦完整閱讀。有兩點(diǎn):
技術(shù)是另一種思維方式。不是技術(shù)的朋友,可以看看技術(shù)人員遇到問(wèn)題是怎么處理的。
在“網(wǎng)絡(luò )營(yíng)銷(xiāo)”工作中,有很多工作超出了我們的能力范圍,但是充分發(fā)揮我們的主觀(guān)能動(dòng)性,做出超出這個(gè)崗位應有的能力水平,往往會(huì )帶來(lái)額外的收獲。
開(kāi)始
前段時(shí)間接手了一個(gè)采集
項目(只是熟人之間的合法生意)。隨著(zhù)收錄量的增加,“敏感詞過(guò)濾”的工作在所難免,比如政治、*敏*感*詞*、暴力、廣告等,這些相關(guān)的詞都要被識別出來(lái)。
目前市面上能搜集到的敏感詞庫,如果只是整合幾份的話(huà),可以達到幾萬(wàn)甚至更多,因為隨著(zhù)時(shí)間的推移,會(huì )產(chǎn)生各種新的詞匯。
使用程序識別一篇文章是否收錄
目標敏感詞,以Python為例:
refusalWord = '敏感詞'
targetText = '內容正文'
if refusalWord in target_text:print(True)
讓程序在目標文本中搜索這個(gè)敏感詞。如果找到,則說(shuō)明存在敏感詞。這是只有一個(gè)敏感詞的情況。如果有多個(gè)敏感詞,也簡(jiǎn)單。添加一個(gè)循環(huán):
refusalWord = ['敏感詞1','敏感詞2','敏感詞3']
targetText = '內容正文'
for word in refusalWord:
if word in target_text:print(True)
該程序在目標文本中逐一搜索敏感詞。如果有幾百個(gè)敏感詞,一個(gè)一個(gè)重復處理,效率很低,感覺(jué)不是很優(yōu)雅。正則表達式可以做得很簡(jiǎn)潔:
import re
refusalWord = ['敏感詞1','敏感詞2','敏感詞3']
targetText = '內容正文'
if re.search('|'.join(refusalWord),targetText):print(True)
所有敏感詞用“|”連接 組成一個(gè)正則表達式:“敏感詞1|敏感詞2|敏感詞3”,用這個(gè)表達式匹配目標文本,找出所有出現的敏感詞。
但是如果有幾萬(wàn)個(gè)甚至更多的敏感詞怎么辦?了解正則表達式的朋友都知道,這樣寫(xiě)的表達式極不合理,可能會(huì )出現各種各樣的問(wèn)題。
而且,當敏感詞數以萬(wàn)計或更多時(shí),效率會(huì )線(xiàn)性下降。加上后期更換等其他工作,時(shí)間成本會(huì )更高。
而且,我們之前的演示只是針對只有一個(gè)目標文本的情況。如果敏感詞個(gè)數為N,目標文本為M怎么辦?在簡(jiǎn)單的雙循環(huán)的情況下,時(shí)間復雜度至少是N*M。
這時(shí)候就需要用到我們今天的主角了:“交流自動(dòng)機”算法。
PS:不懂技術(shù)的朋友不用糾結代碼,只需要明白這是一個(gè)方案優(yōu)化的問(wèn)題。我們在面對敏感詞從1到N到N++的過(guò)程中不斷優(yōu)化技術(shù)方案,提高效率。
AC自動(dòng)機算法是一種多模匹配算法。算法的高明和深奧,不是我們這種非科學(xué)的人可以去探究的,但是算法的意義和不同,我們還是可以理解的。
在上面的例子中,即使是非技術(shù)的朋友也會(huì )明白,隨著(zhù)敏感詞庫數量的不斷增加,程序會(huì )判斷一篇文章是否收錄
某個(gè)詞或敏感詞庫中的某些詞,時(shí)間成本會(huì )逐漸增加。是的,因為無(wú)意義的判斷越來(lái)越多,所以這是一個(gè)單一的模式。
AC自動(dòng)機通過(guò)使用多模匹配算法來(lái)解決這個(gè)問(wèn)題,也就是說(shuō):隨著(zhù)敏感詞庫的增加,時(shí)間成本保持不變(至少在一定數量級內)。
那么這與我們正在談?wù)摰?關(guān)鍵詞 清理有什么關(guān)系呢?下面我們一步一步來(lái)演示。
第一步:選擇一個(gè)有代表性的詞根
這是一個(gè)擁有數十萬(wàn)詞的“引流”長(cháng)尾詞庫。里面有兩種長(cháng)尾詞,網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞和醫療技術(shù)相關(guān)的長(cháng)尾詞。我們的目的是將這兩類(lèi)長(cháng)尾詞分開(kāi)。
在Excel中,面對這樣一條數據,需要將兩邊分開(kāi),即過(guò)濾掉目標或者過(guò)濾掉非目標再剔除。我們先來(lái)考慮一下一般的操作方法是怎樣的:
逐行讀取,標記非目標數據,然后過(guò)濾掉全部刪除,但是對象有幾十萬(wàn),甚至更多。這效率可想而知。能一行一行念下去,是個(gè)兇人。
選擇一些高頻的非目標詞或詞,然后過(guò)濾掉,反復重復這個(gè)操作。這種方法看起來(lái)很快,一次可以消除一大片區域。
但是如果你充分理解了關(guān)鍵詞的長(cháng)尾效應,你就會(huì )明白這個(gè)方法在后期會(huì )比較痛苦,因為很多選中的詞在后期不會(huì )刪除很多詞,反復篩選和刪除會(huì )讓人崩潰。
另外,在Excel上似乎沒(méi)有更好的方法來(lái)處理這樣的問(wèn)題,現在我們用另一種方法來(lái)解決這個(gè)問(wèn)題。
和往常一樣,先把所有的長(cháng)尾詞切分,統計詞頻:
接下來(lái),需要根據“常識”人工選擇具有代表性的“類(lèi)別*敏*感*詞*根”?!芭c醫療技術(shù)相關(guān)的詞被選擇并放在另一個(gè)文件中。
所謂“明明而已”,比如:“腳本”,也就是腳本工具,這樣的詞基本不可能和醫療技術(shù)的長(cháng)尾詞有任何關(guān)系,而“傷口”基本不可能與互聯(lián)網(wǎng)推廣有任何關(guān)系。什么關(guān)系。
所謂“常識”,比如:經(jīng)常有一些與網(wǎng)絡(luò )推廣相關(guān)的平臺名稱(chēng),比如知乎、微信、淘寶等,這些想都沒(méi)想就直接寫(xiě)了。
所以在選擇的時(shí)候一定要確定這個(gè)詞的歸屬是否明確。如果它是模糊的,我寧愿不要!
前者被視為“正”,后者被視為“負”?!罢笔俏覀兡繕碎L(cháng)尾詞的代表詞根。選擇多少?同樣,關(guān)鍵詞 符合 28 原則。
我們可以看到,top root 詞出現的頻率非常高,一個(gè)詞根可以牽連到很多長(cháng)尾詞。我只從幾十萬(wàn)個(gè)長(cháng)尾詞中選出了一百八十個(gè)這樣的長(cháng)尾詞。
即使長(cháng)尾詞的數量增加了 10 倍,也不會(huì )有更多的代表詞根可供選擇。
第 2 步:擴展代表根
我們選擇這些*敏*感*詞*詞的目的很簡(jiǎn)單:在將“正面”*敏*感*詞*詞納入詞庫時(shí),可以從肯定是目標類(lèi)別的長(cháng)尾詞中篩選出“正面”*敏*感*詞*詞。上面我們選擇了“WeChat”作為*敏*感*詞*詞,我們認為它只可能出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中,所以可以通過(guò)取“WeChat”過(guò)濾掉所有收錄
“WeChat”的長(cháng)尾詞進(jìn)入詞庫。這些與網(wǎng)絡(luò )推廣有關(guān):
長(cháng)尾詞一般具有以下特點(diǎn):
微信引流腳本開(kāi)發(fā)
對于這樣的長(cháng)尾詞,我們通過(guò)“微信”進(jìn)行提取。除了詞根“drainage”,因為這個(gè)長(cháng)尾詞與網(wǎng)絡(luò )推廣有關(guān),其他詞根很可能與網(wǎng)絡(luò )推廣有關(guān)。比如這里的“Scripts”和“development”是絕對不可能和醫療技術(shù)相關(guān)的,反之亦然:
膿腫切開(kāi)引流
我們從*敏*感*詞*詞“surgery”中得到,分詞“abscess”和“incision”與網(wǎng)絡(luò )推廣的可能性不大,可以作為新的*敏*感*詞*詞加入“anti”的范疇。
這時(shí)候思路就清晰了。我們首先選取一些有代表性的*敏*感*詞*詞,用這些*敏*感*詞*詞過(guò)濾出所有相關(guān)的長(cháng)尾詞,然后將這些選取的長(cháng)尾詞進(jìn)行分割,利用關(guān)鍵詞的關(guān)聯(lián),得到更多我們沒(méi)有得到的*敏*感*詞*詞在上一步中選擇目標分類(lèi)。
所有這些*敏*感*詞*詞都是我們后續分類(lèi)的基石。
" />
用這個(gè)思路其實(shí)解決了關(guān)鍵詞的長(cháng)尾效應問(wèn)題。我們不能一個(gè)一個(gè)地手動(dòng)選擇*敏*感*詞*詞,通過(guò)關(guān)聯(lián)自動(dòng)采集
更多我們沒(méi)有手動(dòng)選擇的*敏*感*詞*詞。
這些*敏*感*詞*詞可以幫助我們覆蓋更多的長(cháng)尾詞。
PS:這是一個(gè)示范思路。篩選必須由程序批量處理,不能在 Excel 上進(jìn)行。
這一步需要對提取出來(lái)的*敏*感*詞*詞計算各自的詞頻,并對應保存,后面會(huì )有用。
比如我們用“positive”*敏*感*詞*詞來(lái)過(guò)濾所有的長(cháng)尾詞,所有這些長(cháng)尾詞在分詞后得到所有的根。這段長(cháng)尾詞(這些被選中的)中每個(gè)詞根的總詞頻是多少。
第三步:篩選代表詞根
至此,我們其實(shí)就可以開(kāi)始區分了,不過(guò)還有一些細節需要優(yōu)化:
1:通過(guò)第二步的自動(dòng)擴容,某個(gè)*敏*感*詞*詞會(huì )同時(shí)出現在“正面”和“負面”中,比如“video”。
這個(gè)詞出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中并不奇怪,但實(shí)際上它也會(huì )出現在醫療技術(shù)“引流”的長(cháng)尾詞中:
對于這種情況,我們其實(shí)可以考慮一個(gè)問(wèn)題,是偶然的還是正常的。比如“視頻”這個(gè)詞,兩邊經(jīng)常出現,所以干脆不用,也就是完全沒(méi)有代表。性別。
如果是偶然的,比如“艾滋病”,那也是奇跡??吹皆~庫里的一個(gè)長(cháng)尾詞:
賣(mài)艾滋病試紙促進(jìn)引流
除了這個(gè),其他都是醫學(xué)的,所以這是偶然的。對比我們第二步保留的詞頻,哪一邊顯得壓倒性的大,保留那一邊的*敏*感*詞*詞,另一邊直接去掉。
如果數據相差不大,那么雙方都會(huì )直接去掉這個(gè)無(wú)偏*敏*感*詞*詞。
根據我的經(jīng)驗,對于這些事故中的大多數,它們之間的詞頻比較相差很大。
2:詞匯無(wú)偏好,數字,字符,這些都是無(wú)偏好的,不應該用作*敏*感*詞*詞。
其次,類(lèi)似于:應該、如何、可能、可以、的、是、和?這些副詞、助詞、連詞、語(yǔ)氣助詞、疑問(wèn)句等,沒(méi)有傾向性。分詞時(shí),直接按照jieba的詞性進(jìn)行剔除:
經(jīng)過(guò)這一步過(guò)濾后,詞頻數據就可以省略了。當然,每一個(gè)“引”字,都要有主根,都要去掉!
第 4 步:快速分類(lèi)
現在我們將上面計算出的*敏*感*詞*詞作為關(guān)鍵詞。其實(shí)這個(gè)和我們上面說(shuō)的集合例子是一樣的。這些*敏*感*詞*詞相當于敏感詞,每個(gè)待分類(lèi)的長(cháng)尾詞相當于目標文本內容。
傳統的Python使用方式是這樣的:
# 正
seed_word_r = []
# 反
seed_word_e = []
# 詞庫
keyword = []
for word in keyword:
for r in seed_word_r:
if r in word:
pass
for e in seed_word_e:
if e in word:
pass
把每個(gè)長(cháng)尾詞拿出來(lái),每個(gè)*敏*感*詞*詞和它比對一次,看是否收錄
,然后確定分類(lèi)。
如果有N個(gè)長(cháng)尾詞,則外層循環(huán)會(huì )執行N次,如果有M個(gè)詞,則N中每個(gè)詞收錄
M次,執行成本可想而知。
另外,幾萬(wàn)個(gè)甚至更多的詞根與一個(gè)只有10個(gè)字左右的長(cháng)尾詞進(jìn)行比較,勢必會(huì )有太多無(wú)意義的比較。
這時(shí)可以使用AC自動(dòng)機算法:
import ahocorasick
# 正
seed_word_r = ['*敏*感*詞*詞1','*敏*感*詞*詞2','*敏*感*詞*詞3','*敏*感*詞*詞4']
tree = ahocorasick.AhoCorasick(*seed_word_r)
print(tree.search('長(cháng)尾詞'))
如上面代碼,我們將*敏*感*詞*詞(敏感詞)傳給AC自動(dòng)機建立一個(gè)模型,然后這個(gè)模型可以計算出當前長(cháng)尾詞(目標文本內容)是否收錄
模型中的一些詞,以及display 所有出現的詞都出來(lái)了。
這種計算并不是像上面的方法那樣,內外循環(huán)*敏*感*詞*的比較。
因此,在做了上面的長(cháng)尾詞分類(lèi)工作之后,你可以:
import ahocorasick
# 正
seed_word_r = ['*敏*感*詞*詞1','*敏*感*詞*詞2','*敏*感*詞*詞3','*敏*感*詞*詞4']
# 反
seed_word_e = ['*敏*感*詞*詞1','*敏*感*詞*詞2','*敏*感*詞*詞3','*敏*感*詞*詞4']
# 詞庫
keyword = []
# 構建
tree_r = ahocorasick.AhoCorasick(*seed_word_r)
tree_e = ahocorasick.AhoCorasick(*seed_word_e)
# 遍歷
for word in keyword:
r = tree_r.search(word)
e = tree_e.search(word)
pass
每次都把長(cháng)尾詞傳給兩邊,瞬間得到兩邊長(cháng)尾詞的收錄
,pass部分用于針對性判斷。
可預見(jiàn)的結果如下:
1:長(cháng)尾詞只屬于“positive”或者只屬于“negative”,那就很簡(jiǎn)單,就屬于對應的類(lèi)別。
2:如果一個(gè)長(cháng)尾詞不屬于“positive”或“negative”,則先將這種情況歸為一類(lèi)保存。
3:某個(gè)長(cháng)尾詞既屬于“正面”又屬于“負面”,需要進(jìn)一步判斷。我們把這種詞歸為一類(lèi)保存起來(lái)。
r和e都是集合數據結構,根據交集和并集組合的長(cháng)度判斷歸屬。
" />
w1不賦值,w2同時(shí)賦值,w3是“positive”類(lèi)別,也就是我們要的與網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞,w4是“reverse”,與網(wǎng)絡(luò )推廣相關(guān)的長(cháng)尾詞到我們不想要的醫療技術(shù)。
3、4的內容不會(huì )有問(wèn)題,如果偶爾分類(lèi)不準確,找出不準確的詞匯,追溯其*敏*感*詞*詞。這一定是*敏*感*詞*詞的錯誤選擇。
刪掉重新運行代碼即可,所以在開(kāi)始手動(dòng)選擇的時(shí)候,一定要選擇明確的歸屬地,不能含糊其辭。
但是我們看到w2,也就是同時(shí)還有1.9M屬于它,打開(kāi)看看:
還有6W多的記錄無(wú)法確定分類(lèi)(截圖沒(méi)有完整展示,懶得再截了)。雖然按比例來(lái)說(shuō),我們已經(jīng)分類(lèi)了80%,但是超過(guò)6W還是很多的。
既然都是同時(shí)判斷屬于的,也就是兩邊都能匹配到,那我們就隨機取一個(gè)詞到原程序中,再跑一遍,看兩邊匹配的是什么。
闌尾炎引流管每日引流
這是一個(gè)與醫療技術(shù)相關(guān)的長(cháng)尾詞。程序運行后,這個(gè)長(cháng)尾詞的結果是:
正面:交通
逆位:闌尾,闌尾炎,引流,引流管,引流
這是長(cháng)尾詞在*敏*感*詞*詞中命中的詞,所以顯然程序沒(méi)有問(wèn)題,因為詞流量出現在與互聯(lián)網(wǎng)推廣相關(guān)的長(cháng)尾詞中是正常的。
但是這個(gè)詞跟醫療有關(guān),我們還是希望它能被判“反”,怎么辦呢?
還是要用到概率的思維,結合我們上面說(shuō)的相關(guān)性,一個(gè)長(cháng)尾詞屬于哪個(gè)領(lǐng)域,分詞后的詞屬于這個(gè)領(lǐng)域的可能性很大。
所以我們從上面可以看出,這個(gè)長(cháng)尾詞中命中“anti”的*敏*感*詞*詞數量遠遠超過(guò)命中“positive”的*敏*感*詞*詞。,我們可以直接獎勵人數最多的一方。
優(yōu)化程序判斷后,結果為:
可以看到w2從1.9M下降到300+kb,w3和w4都有明顯的增加,因為更多的詞被分類(lèi)了。
可以看到w2中有10000多個(gè)詞條。對于專(zhuān)門(mén)和Excel打交道的seo或者sem人員來(lái)說(shuō),這樣的數據量,反復操作幾次就可以很快整理出來(lái)。
但其實(shí)如果你愿意,這個(gè)還是可以?xún)?yōu)化的。w2會(huì )有這么多,很大一部分原因是準確分詞的問(wèn)題。有興趣的可以自行研究?jì)?yōu)化方案。
對于未提及的 w1:
我故意把它截短了一點(diǎn)。為什么這些詞不屬于任何一方?看完之后我就明白了。事實(shí)上,這類(lèi)詞已經(jīng)超出了長(cháng)尾詞的范疇。去掉“引流”,去掉不傾斜的詞后,基本就沒(méi)有詞了。是時(shí)候做出判斷了。
這種詞結構非常簡(jiǎn)單。如果確實(shí)需要,可以在Excel中快速整理。
最后放上w3和w4的數據:
總共有15W+的長(cháng)尾詞,這就是我們需要的數據!
總共有30W+的長(cháng)尾詞,這是我們不需要的數據!
交流自動(dòng)機
# pip install ahocorasick-python
import ahocorasick
t1 = time.time()
ac = ahocorasick.AhoCorasick(*seed_word)
t2 = time.time()
rw = []
print(t2-t1)
for word in keyword:
sw = ac.search(word)
for i in sw:
word = word.replace(i,'***')
rw.append(word)
t3 = time.time()
print(t3-t2)
rw = []
t1 = time.time()
for word in keyword:
for i in seed_word:
if i in word:
word = word.replace(i,'***')
rw.append(word)
t2 = time.time()
print(t2-t1)
我用的是AC Automata的第三方模塊,算法效率還是不錯的,一共5W詞匯和50W目標文本,傳統方式共耗時(shí)1450秒,使用AC Automata,構建耗時(shí)20秒,但這是一次性的 具體來(lái)說(shuō),判斷加替換是100秒。
其實(shí)無(wú)論是*敏*感*詞*詞聯(lián)想的思想還是AC自動(dòng)機算法,一個(gè)不恰當的類(lèi)比類(lèi)似于將線(xiàn)性問(wèn)題轉化為指數問(wèn)題(這個(gè)表達式可能有問(wèn)題),時(shí)間成本不會(huì )機械地增加隨著(zhù)數據量的增加。上升。
敏感詞過(guò)濾等問(wèn)題還有其他解決方案,比如DFA,解決方案沒(méi)有標準,只有適合自己的。
結語(yǔ)
如何大量剔除不相似的長(cháng)尾詞,我在之前的公眾號付費文章中也給出了解決方案,但是需要網(wǎng)絡(luò )數據做支撐判斷,而且這個(gè)是完全本地化的,相對來(lái)說(shuō)更經(jīng)濟。
這個(gè)工作一般不會(huì )超過(guò)半個(gè)小時(shí),得益于“用*敏*感*詞*詞帶出更多*敏*感*詞*詞”的思路,“根據概率判斷歸屬”的邏輯,以及“AC自動(dòng)機算法”的高效,會(huì )有幾十萬(wàn)和幾百萬(wàn)的處理時(shí)間相差不大,程序真正的計算時(shí)間不到10分鐘。
雖然我們絞盡腦汁,用了很多策略來(lái)完成這樣的工作,但當我們第一次完成它時(shí),我們可能會(huì )感到有些自豪。
但實(shí)際上就價(jià)值而言,這是一個(gè)甚至不值得對外談?wù)摰墓ぷ黜椖?,因為它不是具體的結果指標。
在外人看來(lái),這就是你立足的基礎,也確實(shí)如此。
另外,可能有朋友覺(jué)得用AC自動(dòng)機算法和普通方法相比,幾十萬(wàn)字的時(shí)間差相差不大,不亞于程序計算的幾十分鐘。
沒(méi)錯,整個(gè)過(guò)程沒(méi)有標準的步驟或解決方案。我只是想傳達一個(gè)工作方法。遇到很多難題時(shí),發(fā)散思路,換個(gè)角度。其實(shí)有很多思路可以解決。.
同時(shí),對于懂技術(shù)的朋友來(lái)說(shuō),與傳統方法相比,使用AC自動(dòng)機只是寫(xiě)幾行代碼而已,但好處不僅限于這些。多學(xué)一門(mén)技術(shù)可以解決很多同類(lèi)問(wèn)題。
對于上面提到的采集項目,我可以使用AC自動(dòng)機來(lái)處理敏感詞和文章的不斷增加。下一階段我會(huì )在這個(gè)采集項目上做另外一個(gè)工作:篩選目標領(lǐng)域的內容。
在目標集合源中,并不是所有的內容都一定是我們目標字段的內容??赡軙?huì )有很多無(wú)關(guān)緊要的內容。對于不相關(guān)的內容,當然是選擇丟棄,不存儲。
因此需要設計一個(gè)簡(jiǎn)單的判斷邏輯,類(lèi)似推薦算法給文章打標簽,判斷當前內容是否屬于目標領(lǐng)域,如果不屬于則不采集,減少人工審核的工作量。是最高的。
所以:我覺(jué)得默默地啃這些棘手的問(wèn)題,目前看來(lái)是吃虧的,但在以后的工作中,肯定會(huì )帶來(lái)更多的“復利”。
PS:很多做長(cháng)尾詞數據處理的朋友跟我說(shuō)不知道怎么清洗。過(guò)段時(shí)間會(huì )寫(xiě)類(lèi)似的工具,放到公眾號上。
推薦文章:刷百度關(guān)鍵詞排名 網(wǎng)站排名
平頂山新廣網(wǎng)絡(luò )科技*敏*感*詞*
優(yōu)化原則:
整站優(yōu)化的原則是將高質(zhì)量的數據反饋給百度,從而提高網(wǎng)站排名、字數和流量。比如增加蜘蛛的爬行量,增加外鏈數量,站點(diǎn)等級,優(yōu)化蜘蛛的爬行速度等,進(jìn)而提升關(guān)鍵詞排名,首頁(yè)排名字數和交通。
效果特點(diǎn):
1、整體提升百度排名效果顯著(zhù);
2、完全符合百度排名規則,沒(méi)有;與常規SEO相比,提升更快,排名效果直接,大部分直接上**,一批一批排名,不是一個(gè)一個(gè)排名;
3、與常規SEO相比,成本非常低。
全站自動(dòng)提取百度排名,手機端也可以同時(shí)上傳單詞,但不計入單詞數!換句話(huà)說(shuō),手機上的排名是一個(gè)禮物!
收費規則:真正的按效果付費
以愛(ài)站網(wǎng)基礎查詢(xún)數據為基礎,根據當前總字數確定首頁(yè)單價(jià)和低增長(cháng)數量。
費用達到上限后,將支付任何額外的字數。
1、整站優(yōu)化的原則是什么?
答:整站優(yōu)化的原則是將優(yōu)質(zhì)數據反饋給百度,從而提高網(wǎng)站排名、字數和流量。比如增加蜘蛛的爬行量,增加外鏈數量,站點(diǎn)等級,優(yōu)化蜘蛛的爬行速度等,進(jìn)而提升關(guān)鍵詞排名,首頁(yè)排名字數和交通。
2、首頁(yè)添加的關(guān)鍵詞從何而來(lái)?是長(cháng)尾詞嗎?有索引還是沒(méi)有索引?
A:首頁(yè)添加到當前*知名頁(yè)面的關(guān)鍵詞和頁(yè)面SEO布局的關(guān)鍵詞相關(guān)性高但沒(méi)有排名;批量?jì)?yōu)化,提升到首頁(yè),結算標準是參考愛(ài)站數據,這些詞都是索引至少50以上的詞,否則愛(ài)站詞庫不收錄。
3、我可以指定關(guān)鍵詞被提升到首頁(yè)嗎?
答:第一步是生成詞,對沒(méi)有排名的詞進(jìn)行排名;第二步,將已經(jīng)排名的詞推廣到首頁(yè)??蛻?hù)可以提交一些詞給我們,但需要排名,在優(yōu)化范圍內。正常流程是前期增加總字數,后期再增加到首頁(yè)**的字數。
4.我可以?xún)?yōu)化字數嗎?
答:整站優(yōu)化是真正的按效果付費,你加多少字就收多少。我們在優(yōu)化上是認真的,毫無(wú)保留的。我們始終為客戶(hù)著(zhù)想,幫助他們改善,以達到最佳效果。字數越多,效果越好,平均成本越低。
5、整站優(yōu)化需要多長(cháng)時(shí)間才能見(jiàn)效?
答:基礎數據好的時(shí)候,優(yōu)化10-20天后會(huì )有明顯的數據增長(cháng)。如果三個(gè)月沒(méi)有明顯效果,會(huì )全額支付(這個(gè)概率是最低的)。
如何優(yōu)化文章關(guān)鍵詞的排名?
有的排在首頁(yè),有的排在欄目頁(yè),有的排在大量的文章內容。一個(gè)經(jīng)過(guò)適當優(yōu)化的結果,在正常情況下,應該有大量的文章內容頁(yè)面排名。大量的文章頁(yè)面排名意味著(zhù)大量的精準點(diǎn)擊,意味著(zhù)收錄頁(yè)面將權重傳遞給欄目頁(yè)面和內容頁(yè)面。
在某些情況下,文章的排名會(huì )很低。在這種情況下,盡可能對收錄的文章進(jìn)行排名就顯得非常重要,這幾乎是優(yōu)化的必經(jīng)之路。針對文章關(guān)鍵詞排名偏低,百萬(wàn)數系統建議從以下幾個(gè)方面入手。
增加了主站的重量。
如何快速增加成品重量?理想很美好,現實(shí)卻很骨氣。主站權重的增加可以直接提升內容文章頁(yè)或專(zhuān)欄頁(yè)的排名。這個(gè)道理誰(shuí)都懂,但是實(shí)現起來(lái)卻相當困難。
當前文章頁(yè)面優(yōu)化設置。
這個(gè)優(yōu)化點(diǎn)是可以實(shí)現的。具體操作包括但不限于:設置文章頁(yè)面自身新聞源格式、調用相關(guān)內容、設置豐富元素、圖文結合展示內容、設置面包屑導航、通過(guò)ugc增加頁(yè)面價(jià)值、添加內容詞、更高的關(guān)鍵詞密度(精確匹配和分詞匹配)、重要的關(guān)鍵詞出現在重要的位置等。
外鏈方式提高了文章頁(yè)的關(guān)鍵詞排名。
鏈接可以提高所有頁(yè)面的關(guān)鍵詞排名,包括首頁(yè)、專(zhuān)欄頁(yè)、內容頁(yè)。知道了這個(gè)原理之后,就可以通過(guò)錨文本等方式來(lái)推進(jìn)遲發(fā)文章的排名。
在網(wǎng)上看到一篇關(guān)于文章優(yōu)化技巧的文章,可以參考如下:
1.文章標題優(yōu)化技巧
文章是吸引用戶(hù)點(diǎn)擊的因素。文章的點(diǎn)擊率高不高取決于文章的標題是否吸引人。很多站長(cháng)在寫(xiě)標題的時(shí)候很隨意,沒(méi)有對標題進(jìn)行優(yōu)化,也沒(méi)有加入營(yíng)銷(xiāo)詞。這樣一來(lái),再精彩的內容,也沒(méi)有多少用戶(hù)會(huì )看。大家可以看看新聞的頭條,為什么點(diǎn)擊率這么高,頭條的吸引力有很大的作用。
那么如何做好文章標題優(yōu)化技巧呢?
1、題目主題要結合企業(yè)需要,不能脫離事實(shí);
2.在標題中添加用戶(hù)關(guān)注的熱門(mén)話(huà)題;
3、在標題中加入利誘等詞,就像商城活躍的詞一樣;
4、使用關(guān)鍵詞選詞工具,選擇長(cháng)尾關(guān)鍵詞和問(wèn)題關(guān)鍵詞作為標題;這些方法對于吸引用戶(hù)點(diǎn)擊非常實(shí)用,具體操作需要結合企業(yè)的實(shí)際情況,才能吸引到自己企業(yè)的潛在客戶(hù)。
2.文章關(guān)鍵詞出現的頻率
很多新手站長(cháng)為了增加關(guān)鍵詞的密度,告訴搜索引擎優(yōu)化文章中的關(guān)鍵詞,惡意堆砌人為干預關(guān)鍵詞的頻率,導致句子不連貫而且嚴重影響用戶(hù)閱讀時(shí),跳出率高,嚴重影響文章質(zhì)量。這種搜索引擎也不喜歡。站長(cháng)一定要注意不要把關(guān)鍵詞堆起來(lái),就讓流量增加關(guān)鍵詞,記住關(guān)鍵詞應該出現在標題里,這樣自然就形成了關(guān)鍵詞的密度,會(huì )被搜索引擎識別,搜索引擎會(huì )很容易判斷出需要優(yōu)化的關(guān)鍵詞。
3. 關(guān)鍵詞應該出現在哪里
說(shuō)到這一點(diǎn),主要是考慮文章關(guān)鍵詞的排版,以免形成惡意堆砌,同時(shí)也像搜索引擎一樣清晰表達文章關(guān)鍵詞的內部?jì)?yōu)化。
" />
1、標題收錄
關(guān)鍵詞;
2、關(guān)鍵詞出現在段落的句中;
3、最后必須有關(guān)鍵詞;
4. 中間內部出現3-5次;
5、關(guān)鍵詞必須收錄
在文章圖片的ALT標簽中;只要做好這幾點(diǎn),關(guān)鍵詞的密度自然會(huì )增加,切記不要堆起來(lái)。
4. 關(guān)鍵詞大膽的處理
關(guān)鍵詞加粗是提醒搜索引擎這是重點(diǎn)關(guān)鍵詞,沒(méi)必要每次出現關(guān)鍵詞都加粗,這個(gè)沒(méi)有必要,但是會(huì )導致懷疑過(guò)度優(yōu)化,記住 關(guān)鍵詞 出現時(shí)可以加粗。
5.文章標簽
TAG標簽是改善內鏈的重要優(yōu)化技術(shù),便于引導蜘蛛深度爬取,也便于用戶(hù)深度瀏覽,提高關(guān)鍵詞的權重和排名。TAG關(guān)鍵詞標簽就是把內容相同的文章整合到一個(gè)頁(yè)面里,怎么整合呢?對于每個(gè)優(yōu)化過(guò)的關(guān)鍵詞,設置一個(gè)TAG關(guān)鍵詞標簽,使用程序使用TAG關(guān)鍵詞標簽放在一起。
6. 關(guān)鍵詞 錨文本鏈接
關(guān)鍵詞 添加鏈接,這個(gè)也叫關(guān)鍵詞錨文本,也是優(yōu)化內鏈的方式。做一個(gè)錨文本鏈接,引導蜘蛛抓取內容,引導用戶(hù)瀏覽企業(yè)要給用戶(hù)瀏覽的內容。只需在第一次出現的 關(guān)鍵詞 處添加一個(gè)錨文本鏈接。一旦出現就沒(méi)有必要添加錨文本鏈接。這是典型的方式,不利于優(yōu)化。同一個(gè)關(guān)鍵詞可以添加一次鏈接,不同的關(guān)鍵詞不能超過(guò)3個(gè)鏈接。
7.關(guān)鍵詞的出現次數
一篇文章可以?xún)?yōu)化1-3個(gè)關(guān)鍵詞,要求三個(gè)關(guān)鍵詞都是同一類(lèi)型。如果不是同一類(lèi)型,那么文章就很難寫(xiě)了。寫(xiě)在一篇文章里,有點(diǎn)舍不得,*去中心化,搜索引擎不知道你要優(yōu)化哪個(gè)關(guān)鍵詞。
8.圖文顯示
文章考慮了搜索引擎,也需要考慮用戶(hù)和用戶(hù)的瀏覽環(huán)境。簡(jiǎn)單的一堆文字很容易造成視覺(jué)疲勞,降低宣傳效果。有了圖片,更好地排版文章,優(yōu)化文章結構。直觀(guān)地向用戶(hù)表達文章的主題。注意圖片不要超過(guò)200KB,以免影響頁(yè)面加載速度。
文章優(yōu)化技巧很重要。這是幫助企業(yè)獲得更好的權重和關(guān)鍵詞排名必須要做的工作。很多公司天天更新,有一些原創(chuàng )文章,但是沒(méi)有考慮使用文章優(yōu)化技巧。降低了文章的優(yōu)化值。通過(guò)做文章優(yōu)化,可以為公司帶來(lái)更多的長(cháng)尾關(guān)鍵詞排名,尤其是新站**詞,短時(shí)間內很難有很好的排名,所以多用文章來(lái)提升排名是非常重要的。使長(cháng)尾 關(guān)鍵詞 需要。
文章排名不僅與內容質(zhì)量本身有關(guān),還與頁(yè)面質(zhì)量和網(wǎng)站質(zhì)量有關(guān)。文章排名偏低,按照上面的方法,基本可以做到**。注意:在很多情況下,理想與現實(shí)是有差距的。從SEO的角度來(lái)看,理論點(diǎn)并不復雜,但具體優(yōu)化要素的實(shí)現卻很復雜。
關(guān)鍵詞排名優(yōu)化問(wèn)題,0375互聯(lián)網(wǎng)媒體一站式解決方案,快速穩定
關(guān)鍵詞優(yōu)化排名,平均2-4周上傳詞,進(jìn)入搜索引擎首頁(yè),持續穩定
-/gjicie/-