使用php 優(yōu)采云捕獲當今頭條新聞Ajax文章的內容
優(yōu)采云 發(fā)布時(shí)間: 2020-08-08 00:40今天的標題數據由Ajax加載并顯示. 根據普通URL,無(wú)法捕獲數據. 有必要分析加載地址. 讓我們以%E6%96%B0%E9%97%BB為例. 文章采集列表
使用Google Chrome瀏覽器打開(kāi)鏈接,右鍵單擊“審閱”,在控制臺中切換到網(wǎng)絡(luò ),然后單擊XHR,以便可以過(guò)濾不必要的請求(例如圖像,文件等),而僅請求查看內容頁(yè)面
由于頁(yè)面是由ajax加載的,因此將頁(yè)面拉到底部,更多文章將自動(dòng)加載. 目前,控制臺捕獲的鏈接是我們真正需要的列表頁(yè)面的鏈接:
?。6%96%B0%E9%97%BB&autoload = true&count = 20&cur_tab = 1&from = search_tab
在優(yōu)采云 采集中創(chuàng )建任務(wù)
創(chuàng )建后,單擊“集合設置”,然后在“開(kāi)始頁(yè)面URL”中填寫(xiě)上面爬網(wǎng)的鏈接
下一步匹配內容頁(yè)面的URL,標題文章的URL格式為數字/
點(diǎn)擊“內容頁(yè)面網(wǎng)址”以編寫(xiě)“匹配內容網(wǎng)址”規則:
?。??\ d + /)
這是一條常規規則,這意味著(zhù)將匹配的URL加載到捕獲組content1中,然后填寫(xiě)下面的[Content1](與上面的content1相對應)以獲取內容頁(yè)面鏈接
您可以單擊“測試”以查看鏈接是否成功爬網(wǎng)
獲取成功后,您可以開(kāi)始獲取內容
點(diǎn)擊“獲取內容”以在字段列表的右側添加默認字段,例如標題,正文等. 可以智能識別,如果需要準確性,則可以自己編輯字段,支持常規, xpath,json和其他匹配內容
我們需要獲取文章的標題和正文. 因為它是由Ajax顯示的,所以我們需要編寫(xiě)規則以匹配內容,分析文章的源代碼: 找到文章的位置
標題規則: articleInfo \ s *: \ s * {\ s * title: \ s *'[Content1]',
正文規則: content \ s *: \ s *'[content1]',\ s * groupId
該規則必須唯一,否則它將與其他內容匹配. 將規則添加到字段中,然后為獲取方法選擇規則匹配:
編寫(xiě)規則后,單擊“保存”,然后單擊“測試”以查看其工作原理
規則正確,并且爬網(wǎng)是正常的. 捕獲的數據也可以發(fā)布到cms系統,直接存儲在數據庫中,另存為excel文件等,只需單擊底部導航欄中的“發(fā)布設置”即可. 采集在這里,每個(gè)人都可以嘗試一下!