火車(chē)頭采集搜狐號自媒體教程方式?。ㄒ呀鉀Q)
優(yōu)采云 發(fā)布時(shí)間: 2020-04-24 11:02====20191109更新====
溫馨提示:需要搜狐新聞采集規則的這兒構面《搜狐新聞采集規則》
如果須要搜狐號作者采集規則的同學(xué),可以點(diǎn)擊兩側的聯(lián)系方法,聯(lián)系我QQ
====20191109更新====
針對某一個(gè)搜狐號,進(jìn)入其主頁(yè),進(jìn)行采集,該主頁(yè)網(wǎng)址未能采集到列表火車(chē)頭采集教程,不能采集到列表也就無(wú)法進(jìn)行批量采集,所以,首先要解決該問(wèn)題。
其次,搜狐自媒體號上的文章URL都有一定的特征,如下:
變量_114778
我們只須要把這個(gè)變量找到就好了!然后用火車(chē)頭拼接一下URL就可以了。
難點(diǎn):抓包找數據剖析
案例如下:
1、目標搜狐號主頁(yè):;_f=index_pagemp_1
2、fiddler抓包,如下圖所示:
查看大圖
該網(wǎng)址就是列表url原先的地址:%h#u.com/apiV2/profile/newsListAjax?xpt=cHBhZzc5Mjg1OTg1MDkxNEBzb2h1LmNvbQ==&pageNumber=1&pageSize=10&categoryId=&_=1513670508722
在火車(chē)頭中多頁(yè)采集修改這個(gè)地方:pageNumber=1
3、采集文章頁(yè)URL
把里面的舊址用瀏覽器打開(kāi),如下圖所示:
我們把紅色圈中的部份采集下來(lái)即可。然后火車(chē)頭采集規則如此編撰:
列表頁(yè)采集到了火車(chē)頭采集教程,內頁(yè)文章頁(yè)可以直接看源碼編撰采集規則,上面是難點(diǎn),簡(jiǎn)單的就不啰嗦了。