火車(chē)頭采集器圖片采集上傳設置
優(yōu)采云 發(fā)布時(shí)間: 2020-04-24 11:02前面我們寫(xiě)了基礎的標題和文章采集,下面介紹下圖片的采集。
圖片采集不是必須的,但是圖片可以豐富網(wǎng)站的內容,具體我也不清楚對網(wǎng)站的SEO有哪些影響。我測試采集圖片和不采集圖片收錄沒(méi)區別,我看到的一些采集站,大部分也是不采集圖片的!
如果采集數據量比較大的話(huà)可以選擇不采集圖片。
正文開(kāi)始
首先是火車(chē)頭采集器上的設置。
我們以這個(gè)文章為例:
這個(gè)上面有一張圖片,并且也是上面我們教程里用做示范的網(wǎng)站。
聲明:本人目前沒(méi)使用任何景安的產(chǎn)品(以前用過(guò)),也對他產(chǎn)品印象不好。僅做教程示例,沒(méi)有推薦他產(chǎn)品的意思。
我們直接打開(kāi)上面教程創(chuàng )建的那種火車(chē)頭采集任務(wù)。
在內容采集規則-內容-文件下載上面
選擇:將相對地址補全為絕對地址、下載圖片
文件地址必須包含:uploads/allimg
這個(gè)必須包含是按照不同網(wǎng)站來(lái)設置的,比如本文教程里文章圖片地址是:
那么除掉后面他網(wǎng)站域名和前面會(huì )形成變化的文件名和日期格式的目錄名之外剩余的基本就是我們想要的內容,所以我這兒使圖片文件地址必須包含uploads/allimg。
為什么如此做?
因為他有可能在文章里加入圖片廣告,圖片廣告為了易于更改,大部分都是采用單獨目錄內放圖片廣告的形式。這樣之后該廣告比較容易。新老文章都能一次更改掉。
文件保存目錄:i\m\g/yyyyMMdd
這個(gè)目錄是你采集器的本地筆記本和服務(wù)器上面要創(chuàng )建的目錄火車(chē)頭采集教程火車(chē)頭采集教程,先存到本地之后上傳到服務(wù)器里。
目錄上面的\斜杠是因為默認img上面m和g會(huì )被火車(chē)頭辨識為內置函數(字母顏色會(huì )變藍),沒(méi)辦法正常解析,所以加上斜杠。正常的話(huà)是img/yyyyMMdd這樣的
含義:表示保存到網(wǎng)站的/img目錄下,然后按照年月日手動(dòng)創(chuàng )建對應的目錄。
然后是在內容的-HTML標簽排除上面,我們除去圖象<img這個(gè)標簽的排除。因為排除后我們發(fā)布后文章內就沒(méi)有調用圖片,自然不會(huì )顯示圖片內容。
然后我們進(jìn)行圖片的上傳設置,我們采集時(shí)候次序是,先將圖片下載到本地,然后傳到服務(wù)器這樣一個(gè)步驟。
通過(guò)FTP的方法來(lái)上傳。
先在寶塔面板上傳建一個(gè)FTP帳戶(hù),FTP默認目錄要設置在我們網(wǎng)站跟目錄。
采集器會(huì )依照我們里面的設置自己創(chuàng )建對應的目錄。
注意:FTP使用的端口記得打開(kāi)!21、20、39000-40000不打開(kāi)端口你圖片自然傳不了。放行20和39000到40000這種端口是因為寶塔的FTP時(shí)常出現FTP聯(lián)接錯誤的情況,這是另一個(gè)問(wèn)題。這里不給你們解釋了,不然篇幅很長(cháng)了。
打開(kāi)火車(chē)頭采集器:其他設置、FTP文件上傳、FTP上傳
服務(wù)器:填寫(xiě)你的服務(wù)器IP地址
用戶(hù)名/密碼:剛才創(chuàng )建的FTP帳戶(hù)和密碼
端口:默認21
文件上傳根目錄:/
次序:先發(fā)布數據
文件上傳成功后刪掉本地文件:是
這里也可以選擇否,選擇是的話(huà)可以降低采集器所在機器c盤(pán)的占用,而且上傳成功的圖片,也沒(méi)必要在保留了。
設置好了以后我們點(diǎn)一下上傳測試文件:
看下下邊的框里顯示的信息,有沒(méi)有成功上傳,并且打開(kāi)網(wǎng)站目錄內也看下有沒(méi)有測試文件Test.zip被上傳。
測試OK的話(huà)保存一下設置,我們測試下瞧瞧采集效果