前兩章如何對內容數據的采集的四種常規方式
優(yōu)采云 發(fā)布時(shí)間: 2021-08-06 23:13前兩章如何對內容數據的采集的四種常規方式
大家好,我是教程的主人。通過(guò)前兩章的學(xué)習,你應該已經(jīng)掌握了如何獲取內容頁(yè)面的URL。本章從采集和文章內容的處理開(kāi)始。本節主要介紹如何采集內容數據,使用以下四種方法:
1.前后截取2.正則取
3.可視化提取
4.tag 組合
這四種方式是采集獲取數據的四種常規方式,下面我會(huì )一一講解。
1、前后截取
我們打開(kāi)軟件,繼續上一節,點(diǎn)擊采集content規則,顯示如下:
點(diǎn)擊標題,彈出如下界面:
可以看到我們選擇了通過(guò)采集獲取數據。這是標題。標題是文章的標題。我們要先在文章中找到這個(gè)標題,打開(kāi)內容看看??矗?/p>
我們打開(kāi)源碼,找出這個(gè)標題的位置。我們已經(jīng)在文章以下地方發(fā)布了標題文字,如下:
我們盡量選擇帶有標簽的標簽。這種類(lèi)型的標簽基本上用作標題標簽。我們不會(huì )更改標題采集 的標題和結尾。我們默認測試一下:
我們會(huì )發(fā)現他后面有_光光網(wǎng)這樣的后綴。如果我們不想這樣,我們可以在標題中添加文本替換:
點(diǎn)擊添加,選擇內容替換如下操作:
這樣就成功了,測試圖如下:
我們的標題是成功的。
如何使用內容的前后截取,其實(shí)和標題一樣,先找到內容位置,然后再找到合適的前后截取位置。選擇的前后截取位置的字符在文章中應該是唯一的,如下:
先復制文章中的第一段,在源碼中找到文章的開(kāi)頭:
我們會(huì )發(fā)現
這個(gè)代碼段一般用作文章的開(kāi)頭,并且測試在源代碼中是唯一的,所以可以作為文章的第一個(gè)攔截位置,同理找到結束攔截位置:
這里我們可以在這兩個(gè)位置之間進(jìn)行選擇。如果我們要帶編輯器,我們會(huì )選擇后者。如果我們不想帶,我們就選擇前者。這里我選擇了前者。
最后如下:
這樣我們就把內容采集好。對于作者,我們可以采集文中,也可以自己定義作者。文中第一個(gè)采集,我們可以用這段:
我們可以用同樣的方法來(lái)做時(shí)間和來(lái)源,這里就不演示了。您也可以自己添加相應的標簽以匹配您的站點(diǎn)標簽。這里的列是上一節中使用的組合標簽的結果。
您的贊賞是我堅持原創(chuàng )的動(dòng)力
共0人欣賞