PHPCMS采集模塊
優(yōu)采云 發(fā)布時(shí)間: 2020-08-07 16:48模塊的常用操作
操作名稱(chēng)
說(shuō)明
詳細的采集過(guò)程
沒(méi)有
其他功能說(shuō)明
沒(méi)有
描述: 文章采集功能是通過(guò)程序遠程獲取目標網(wǎng)頁(yè)的內容,并在進(jìn)行本地規則分析處理后將其存儲在服務(wù)器的數據庫中.
文章采集系統顛覆了傳統的采集方式和過(guò)程,將采集規則與采集界面分開(kāi),規則設置更加簡(jiǎn)單. 只有具有基本技術(shù)知識的人員才需要設置相關(guān)規則. 編輯人員不需要了解太多詳細的技術(shù)規則,只需選擇要采集的文章列表,就可以像發(fā)布文章一樣輕松地完成數據采集操作.
首先,采集過(guò)程很簡(jiǎn)單,分三個(gè)步驟:
1. 添加采集點(diǎn)并填寫(xiě)采集規則.
2. 采集網(wǎng)址和內容
3. 將內容發(fā)布到指定的列
以Sina News()的集合為例,并介紹詳細過(guò)程.
示例說(shuō)明:
目標: 將新浪新聞采集到V9系統的國際新聞專(zhuān)欄中.
目標網(wǎng)址:
1. 添加采集點(diǎn)1.1 URL規則配置
添加采集點(diǎn)URL規則配置圖1
檢查要采集的目標URL的源代碼,并找到要采集的URL的起點(diǎn)和終點(diǎn)(這兩個(gè)點(diǎn)在整個(gè)源代碼中必須是唯一的). 進(jìn)一步縮小集合URL的搜索范圍.
添加采集點(diǎn)URL規則配置圖2
測試您的URL采集規則是否正確,如下圖所示
1.2內容規則配置
內容規則在這里看起來(lái)很復雜,但實(shí)際上非常簡(jiǎn)單. 為了便于說(shuō)明,我們僅采集兩個(gè)字段: 標題和內容. 集合網(wǎng)址:
內容采集規則,請打開(kāi)此網(wǎng)站,然后右鍵單擊頁(yè)面的空白區域->查看源文件以搜索內容的標題和起始邊界.
標題采集配置:
從網(wǎng)頁(yè)上獲取標題并刪除不必要的字符. 如下圖所示
內容采集配置:
新浪新聞的最后一頁(yè),新聞內容收錄在兩者之間,并且這兩個(gè)節點(diǎn)在整個(gè)頁(yè)面的源代碼中都是唯一的. 因此,您可以將內容作為規則. 并過(guò)濾內容. 如下圖所示
1.3自定義規則
1.4高級配置
您可以設置是否將圖片下載到服務(wù)器,是否打印水印和其他配置.
2. 采集網(wǎng)址和內容
設置采集規則后,可以采集網(wǎng)站,然后可以采集內容.
3. 將內容發(fā)布到指定的列
選擇要導入的列
設置采集的內容和數據庫字段之間的對應關(guān)系. 提交數據存儲,在此期間請耐心等待,完成后它將自動(dòng)重定向. 到目前為止,一個(gè)簡(jiǎn)單的采集過(guò)程就完成了.
其他更*敏*感*詞*,期待您的發(fā)現.