內容采集(沒(méi)有干貨采集內容對SEO是否有效?(圖))
優(yōu)采云 發(fā)布時(shí)間: 2021-10-20 20:16內容采集(沒(méi)有干貨采集內容對SEO是否有效?(圖))
[GOGO Chuang:] 太可惜了這么久才開(kāi)通留言功能。
采集 內容對SEO有效嗎?
有人說(shuō)采集的內容對搜索引擎不是很友好,也不容易獲得排名。這是肯定的,也是不可避免的。
對于大多數網(wǎng)站來(lái)說(shuō),采集 的內容肯定不如 UGC 或精心編輯的內容有效。但是,搜索引擎能夠獲取到的原創(chuàng )內容量已經(jīng)沒(méi)有以前那么多了。畢竟內容制作平臺已經(jīng)轉移,早就不再專(zhuān)注于網(wǎng)站。其他幾個(gè)搜索引擎還在互相追趕,更不用說(shuō)小網(wǎng)站了。
因此,采集的內容仍然有效,但對采集的內容進(jìn)行后處理的成本越來(lái)越高。
采集內容后處理
擔心采集的內容太差或者容易被K攻擊,主要看如何對內容進(jìn)行后處理。打個(gè)比方:
這就像從沃爾瑪拿一籃獼猴桃,完好無(wú)損地放進(jìn)家樂(lè )福。最多只能是原價(jià),因為獼猴桃還是獼猴桃,產(chǎn)品不變。但是把獼猴桃擠成汁(形狀變化),加一點(diǎn)水裝瓶(顆粒大小變化),在711賣(mài)(平臺變化),價(jià)格可以翻倍(增值)
為什么?
因為形狀變了,果汁是不同于水果的商品,果汁更容易吸收
因為平臺變了,711定價(jià)本身比沃爾瑪家樂(lè )福高一點(diǎn)
因為粒度變了
前三項變化導致價(jià)值翻倍
如果將“采集content”比作“獼猴桃”,則“采集content”的后處理策略如下:
形式
有無(wú)數種方式來(lái)組織內容。無(wú)論是將相同的內容拆分并分發(fā)到多個(gè)地方,還是將多個(gè)相關(guān)內容聚合在一個(gè)地方,或者其他方式,都可以讓搜索引擎更容易接受。
平臺
在技??術(shù)行業(yè)有一個(gè)專(zhuān)業(yè)。從新浪對一些垂直行業(yè)內容的把握,到相應的行業(yè)垂直網(wǎng)站,絕對比放在新浪上更合適。把專(zhuān)業(yè)的內容變成專(zhuān)業(yè)的網(wǎng)站。
粒度
抓取相同的內容。粒度越細,原創(chuàng )在搜索引擎中的度就越高。舉個(gè)極端的例子,星座股被命名為八卦、算命、生日、風(fēng)水、算命、qq圖片、動(dòng)態(tài)圖片……這種類(lèi)型的站,哪些內容不重復?
獲得
采集的目的是填補內容上的漏洞,讓同一話(huà)題的內容比其他的更豐富、更充實(shí),從而增加頁(yè)面內容的價(jià)值。
采集內容完整流程
關(guān)于“采集內容處理”,從抓取到上線(xiàn)的整個(gè)過(guò)程,需要解決以下問(wèn)題:
采集內容從何而來(lái)?
采集如何抓取內容?
采集如何處理內容?
采集內容從何而來(lái)?
對于認真認真的人,更適合定位采集,購買(mǎi)專(zhuān)業(yè)數據。
針對采集,只捕獲了幾個(gè)特定的??網(wǎng)站特定范圍,與本站內容漏洞高度相關(guān)。
對于那些不正式做網(wǎng)站的人來(lái)說(shuō),還有更多的選擇??梢宰ト↑c(diǎn)的內容,而且量大,所以不需要限制某些網(wǎng)站的抓取。有人稱(chēng)它為 pan采集
設置幾個(gè)話(huà)題,直接抓取各大平臺的搜索結果。大平臺是什么意思?海量?jì)热菁械牡胤剑焊鞣N搜索引擎、各種門(mén)戶(hù)、今日頭條、微信微博、優(yōu)酷土豆等。
采集如何抓取內容?
方向 采集:
稍微,你可以做你通常做的任何事情。
潘采集:
有針對性的爬蟲(chóng)僅限于網(wǎng)頁(yè)模板。在此基礎上增加了幾種內容分析算法來(lái)提取內容,改為通用爬蟲(chóng)。
很多瀏覽器插件,比如印象筆記之類(lèi)的,都有很多類(lèi)似“只看文字”的功能。一鍵只會(huì )顯示當前網(wǎng)頁(yè)的文字信息。很多人已經(jīng)將這種算法移植到python、php、java等編程中,語(yǔ)言方面,隨便搜索。
采集如何處理內容?
兩個(gè)連續的過(guò)程:
原創(chuàng )內容的處理
整理處理后的內容
原創(chuàng )內容的處理
百度專(zhuān)利稱(chēng),搜索引擎除了根據文本判斷內容相似度外,還會(huì )判斷html的dom節點(diǎn)的位置和順序。如果兩個(gè)網(wǎng)頁(yè)的html結構相似,也可能被視為重復內容。
所以采集的內容不能直接上傳,必須清理源碼。每個(gè)人都有不同的方式,個(gè)人一般是這樣做的:
'''
html清洗
保留主要標簽:p、img
#刪除標簽中不重要的屬性
'''
a = re.sub(r'','',content).strip()
b = re.sub(r']*?>','<p>',a)
newcontent = re.sub(r'alt="[^"]*?"','alt="%s"' % title,b).lower()
#刪除中文字數 < 100字的
text = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,::。?、~@#¥%……&*()“”《》]+".decode("utf8"), "".decode("utf8"),newcontent)
text2 = re.sub(']*?>','',text)
words_number = len(text2)
刪除垃圾郵件
如“XXX網(wǎng)編者:XXX”、郵箱等。.
整理處理后的內容
其實(shí)就是線(xiàn)條形式的變化。之前寫(xiě)過(guò)一篇關(guān)于“組織內容”的幾種方式的文章,參見(jiàn):【SEO】如何對網(wǎng)站的內容進(jìn)行逆向處理?