最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

前兩章如何對內容數據的采集的四種常規方式

優(yōu)采云 發(fā)布時(shí)間: 2021-08-06 23:13

  前兩章如何對內容數據的采集的四種常規方式

  大家好,我是教程的主人。通過(guò)前兩章的學(xué)習,你應該已經(jīng)掌握了如何獲取內容頁(yè)面的URL。本章從采集和文章內容的處理開(kāi)始。本節主要介紹如何采集內容數據,使用以下四種方法:

  1.前后截取2.正則取

  3.可視化提取

  4.tag 組合

  這四種方式是采集獲取數據的四種常規方式,下面我會(huì )一一講解。

  1、前后截取

  我們打開(kāi)軟件,繼續上一節,點(diǎn)擊采集content規則,顯示如下:

  

  點(diǎn)擊標題,彈出如下界面:

  

  可以看到我們選擇了通過(guò)采集獲取數據。這是標題。標題是文章的標題。我們要先在文章中找到這個(gè)標題,打開(kāi)內容看看??矗?/p>

  

  

  我們打開(kāi)源碼,找出這個(gè)標題的位置。我們已經(jīng)在文章以下地方發(fā)布了標題文字,如下:

  

  

  

  我們盡量選擇帶有標簽的標簽。這種類(lèi)型的標簽基本上用作標題標簽。我們不會(huì )更改標題采集 的標題和結尾。我們默認測試一下:

  

  我們會(huì )發(fā)現他后面有_光光網(wǎng)這樣的后綴。如果我們不想這樣,我們可以在標題中添加文本替換:

  

  點(diǎn)擊添加,選擇內容替換如下操作:

  

  

  這樣就成功了,測試圖如下:

  

  我們的標題是成功的。

  如何使用內容的前后截取,其實(shí)和標題一樣,先找到內容位置,然后再找到合適的前后截取位置。選擇的前后截取位置的字符在文章中應該是唯一的,如下:

  

  先復制文章中的第一段,在源碼中找到文章的開(kāi)頭:

  

  我們會(huì )發(fā)現

  這個(gè)代碼段一般用作文章的開(kāi)頭,并且測試在源代碼中是唯一的,所以可以作為文章的第一個(gè)攔截位置,同理找到結束攔截位置:

  

  這里我們可以在這兩個(gè)位置之間進(jìn)行選擇。如果我們要帶編輯器,我們會(huì )選擇后者。如果我們不想帶,我們就選擇前者。這里我選擇了前者。

  最后如下:

  

  

  這樣我們就把內容采集好。對于作者,我們可以采集文中,也可以自己定義作者。文中第一個(gè)采集,我們可以用這段:

  

  

  

  我們可以用同樣的方法來(lái)做時(shí)間和來(lái)源,這里就不演示了。您也可以自己添加相應的標簽以匹配您的站點(diǎn)標簽。這里的列是上一節中使用的組合標簽的結果。

  

  您的贊賞是我堅持原創(chuàng )的動(dòng)力

  共0人欣賞

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区