最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

使用php 優(yōu)采云捕獲當今頭條新聞Ajax文章的內容

優(yōu)采云 發(fā)布時(shí)間: 2020-08-08 00:40

  今天的標題數據由Ajax加載并顯示. 根據普通URL,無(wú)法捕獲數據. 有必要分析加載地址. 讓我們以%E6%96%B0%E9%97%BB為例. 文章采集列表

  使用Google Chrome瀏覽器打開(kāi)鏈接,右鍵單擊“審閱”,在控制臺中切換到網(wǎng)絡(luò ),然后單擊XHR,以便可以過(guò)濾不必要的請求(例如圖像,文件等),而僅請求查看內容頁(yè)面

  

  由于頁(yè)面是由ajax加載的,因此將頁(yè)面拉到底部,更多文章將自動(dòng)加載. 目前,控制臺捕獲的鏈接是我們真正需要的列表頁(yè)面的鏈接:

 ?。6%96%B0%E9%97%BB&autoload = true&count = 20&cur_tab = 1&from = search_tab

  在優(yōu)采云 采集中創(chuàng )建任務(wù)

  

  創(chuàng )建后,單擊“集合設置”,然后在“開(kāi)始頁(yè)面URL”中填寫(xiě)上面爬網(wǎng)的鏈接

  

  下一步匹配內容頁(yè)面的URL,標題文章的URL格式為數字/

  點(diǎn)擊“內容頁(yè)面網(wǎng)址”以編寫(xiě)“匹配內容網(wǎng)址”規則:

 ?。??\ d + /)

  這是一條常規規則,這意味著(zhù)將匹配的URL加載到捕獲組content1中,然后填寫(xiě)下面的[Content1](與上面的content1相對應)以獲取內容頁(yè)面鏈接

  

  您可以單擊“測試”以查看鏈接是否成功爬網(wǎng)

  

  獲取成功后,您可以開(kāi)始獲取內容

  點(diǎn)擊“獲取內容”以在字段列表的右側添加默認字段,例如標題,正文等. 可以智能識別,如果需要準確性,則可以自己編輯字段,支持常規, xpath,json和其他匹配內容

  我們需要獲取文章的標題和正文. 因為它是由Ajax顯示的,所以我們需要編寫(xiě)規則以匹配內容,分析文章的源代碼: 找到文章的位置

  

  標題規則: articleInfo \ s *: \ s * {\ s * title: \ s *'[Content1]',

  正文規則: content \ s *: \ s *'[content1]',\ s * groupId

  該規則必須唯一,否則它將與其他內容匹配. 將規則添加到字段中,然后為獲取方法選擇規則匹配:

  

  

  編寫(xiě)規則后,單擊“保存”,然后單擊“測試”以查看其工作原理

  

  規則正確,并且爬網(wǎng)是正常的. 捕獲的數據也可以發(fā)布到cms系統,直接存儲在數據庫中,另存為excel文件等,只需單擊底部導航欄中的“發(fā)布設置”即可. 采集在這里,每個(gè)人都可以嘗試一下!

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区