優(yōu)采云云采集服務(wù)平臺本教程:錯誤、解決錯誤
優(yōu)采云 發(fā)布時(shí)間: 2021-07-21 04:16優(yōu)采云云采集服務(wù)平臺本教程:錯誤、解決錯誤
優(yōu)采云云采集服務(wù)平臺優(yōu)采云采集 過(guò)程中常見(jiàn)問(wèn)題及解決方法 本教程主要講在使用優(yōu)采云采集過(guò)程中遇到問(wèn)題如何快速找出錯誤,解決錯誤或如何理解錯誤,以及與客服溝通的更好方式。 優(yōu)采云采集器主要是利用技術(shù)定位和模擬用戶(hù)瀏覽網(wǎng)頁(yè)的操作來(lái)采集數據。用戶(hù)不需要了解網(wǎng)頁(yè)結構、數據采集原理等技巧,通過(guò)優(yōu)采云采集器采集流程,k6@可以理解,可以循環(huán)工作。如果出現采集模式不能滿(mǎn)足需求的情況,故障排除后有更詳細的教程。 采集過(guò)程中的錯誤可以分為五個(gè)方面,分別是網(wǎng)頁(yè)問(wèn)題、規則問(wèn)題、定位模擬問(wèn)題、采集器問(wèn)題和云問(wèn)題。當采集異常時(shí),請按照以下流程進(jìn)行排查和查找問(wèn)題類(lèi)型:1、手勱再次執行規則:打開(kāi)界面右上角的流程圖,點(diǎn)擊規則中的規則流程圖,從上到下,每次點(diǎn)擊下一步都會(huì )有對應的響應,沒(méi)有響應的就是出現問(wèn)題的那一步。注:1)點(diǎn)擊并提取循環(huán)中的元素手動(dòng)選擇循環(huán)中第一個(gè)以外的內容,防止循環(huán)失敗,只能點(diǎn)擊提取循環(huán)中的第一個(gè)元素優(yōu)采云云采集服務(wù)平臺2)所有規則在執行下一步之前先執行每一步。網(wǎng)頁(yè)未滿(mǎn)載,即瀏覽器上的圓形等待圖標沒(méi)有消失時(shí),觀(guān)察網(wǎng)頁(yè)內容是否滿(mǎn)載。如果是滿(mǎn)載,可以自行取消加載,然后再配置規則。
2、迚行單機采集,查看沒(méi)有采集項的采集結果。注意:最好把當前的URL加入到規則中,這樣如果有沒(méi)有采集到數據中的項目,可以復制URL在瀏覽器中打開(kāi)查看原因,判斷錯誤以下對可能出現的問(wèn)題描述如下,供大家參考: 1、手勱 執行步驟無(wú)反應 可能的現象有兩種: 1)無(wú)法正常執行步驟。原因:規則問(wèn)題、采集器問(wèn)題、定位模擬問(wèn)題解決方法:可以進(jìn)行故障排除,刪除這一步,重新添加。如果仍然無(wú)法執行,則排除規則問(wèn)題。您可以: 在瀏覽器中打開(kāi)網(wǎng)頁(yè)進(jìn)行操作,如果有一些滾動(dòng)或點(diǎn)擊翻頁(yè) 頁(yè)面可以在瀏覽器中執行,但采集器無(wú)法執行。這是采集器 問(wèn)題。原因是采集器內部瀏覽器是火狐瀏覽器??赡苁莾炔繛g覽器版本出現在后續版本中。改動(dòng)導致瀏覽器中可以實(shí)現的功能無(wú)法在采集器內置瀏覽器中執行。此類(lèi)網(wǎng)頁(yè)中的數據為智能采集翻優(yōu)采云云采集服務(wù)平臺頁(yè)面或之前版本數據。排除采集器問(wèn)題和規則問(wèn)題后,可以嘗試在不做規則的情況下在同一個(gè)布局頁(yè)面重新添加步驟。如果在這樣的頁(yè)面上可以執行但只有部分頁(yè)面不能執行,就是定位模擬問(wèn)題,這個(gè)問(wèn)題在網(wǎng)站時(shí)間跨度大的情況下經(jīng)常存在。原因是網(wǎng)站的布局發(fā)生了變化,導致采集器所需的XPath發(fā)生了變化。請參考XPath章節修改規則或咨詢(xún)客服。建議向客服說(shuō)明網(wǎng)站 URL及錯誤原因,方便客服給出解決方案。
優(yōu)采云采集器排錯-圖1 2)循環(huán)或采集中的點(diǎn)擊只發(fā)生在第一個(gè)內容,第二個(gè)內容仍然是采集到第一個(gè)內容。原因:規則問(wèn)題,定位模擬問(wèn)題優(yōu)采云云采集服務(wù)平臺解決方法:檢查循環(huán)中的第一項是否被選中。單擊當前循環(huán)中的元素集。如果勾選了這個(gè)項目,還是不行。您可以: 如果循環(huán)中還有其他循環(huán),先參考問(wèn)題1的*敏*感*詞*圖去掉里面的內容,刪除有問(wèn)題的循環(huán),重新設置。如果移除的規則沒(méi)有自動(dòng)重置,則需要手動(dòng)重置。如果循環(huán)可以使用,則排除問(wèn)題。如果不是,則是定位模擬問(wèn)題。您可以: 查看循環(huán)中提取數據的自定義數據字段,查看自定義定位元素方法,查看其中是否有相對Xpath路徑。如果不存在,刪除該字段,在外部高級選項中查看使用周期,重新添加,重試。如果有響應,問(wèn)題就解決了,如果還是不行,可以:參考Xpath章節修改網(wǎng)頁(yè)Xpath或者咨詢(xún)客服。建議向客服說(shuō)明網(wǎng)站網(wǎng)址及錯誤原因,以便客服給出解決方案。 優(yōu)采云采集器排錯-圖2 優(yōu)采云云采集服務(wù)平臺2、單機采集采不到數據 數據有4種可能原因1)單機操作規則,數據會(huì )在采集數據之前顯示采集Complete 這種現象分為3種情況。打開(kāi)網(wǎng)頁(yè)后,直接顯示采集。完成原因:網(wǎng)頁(yè)問(wèn)題,第一個(gè)網(wǎng)頁(yè)加載太慢,優(yōu)采云會(huì )等待一段時(shí)間,一段時(shí)間后仍然會(huì )加載優(yōu)采云此步驟將被跳過(guò)。在后續步驟中,如果沒(méi)有加載內容,也沒(méi)有采集到數據,優(yōu)采云結束任務(wù),導致采集沒(méi)有獲取到數據。
解決方法:增加網(wǎng)頁(yè)的超時(shí)時(shí)間,或者等待下一步設置執行,讓網(wǎng)頁(yè)有足夠的時(shí)間加載。 優(yōu)采云采集器排錯-圖3 優(yōu)采云云采集服務(wù)平臺優(yōu)采云采集器排錯-圖4 網(wǎng)頁(yè)一直處于加載狀態(tài)。原因:網(wǎng)頁(yè)有問(wèn)題,部分網(wǎng)頁(yè)加載會(huì )很慢。我不希望采集 的數據出現。解決方法:如果當前步驟是打開(kāi)網(wǎng)頁(yè),可以增加網(wǎng)頁(yè)的超時(shí)時(shí)間。如果是點(diǎn)擊元素的步驟,并且采集的數據已經(jīng)加載完畢,可以在點(diǎn)擊元素的步驟中設置ajax延遲。點(diǎn)擊后加載了新數據,網(wǎng)頁(yè)URL沒(méi)有改變?yōu)閍jax鏈接,優(yōu)采云Cloud采集服務(wù)平臺優(yōu)采云采集器排錯-圖5 網(wǎng)頁(yè)沒(méi)有進(jìn)入采集頁(yè)面原因:這個(gè)問(wèn)題經(jīng)常出現在點(diǎn)擊元素的步驟。當某些網(wǎng)頁(yè)中存在ajax鏈接時(shí),需要根據點(diǎn)擊位置來(lái)判斷是否需要設置。如果不設置,在單機采集中總是卡在上一步,采集拿不到數據。當網(wǎng)頁(yè)異步加載且未設置ajax延遲時(shí),一般不會(huì )正確執行操作,導致規則無(wú)法進(jìn)行下一步,無(wú)法提取數據。解決方法:在相應的步驟中設置ajax延遲,一般為2-3S,如果網(wǎng)頁(yè)加載時(shí)間較長(cháng),可以適當增加延遲時(shí)間。點(diǎn)擊元素,循環(huán)到下一頁(yè),鼠標移動(dòng)到元素,在這三步中,有ajax設置優(yōu)采云云采集服務(wù)平臺2)單機操作規則,無(wú)法正常執行原因:規則問(wèn)題或定位模擬問(wèn)題解決方法:首先判斷是否需要設置ajax以及是否設置正確,如果不是ajax問(wèn)題,可以刪除有問(wèn)題的步驟,重新設置,如果問(wèn)題解決了,就是規則問(wèn)題,如果問(wèn)題沒(méi)有解決,就是定位模擬問(wèn)題,可以:參考Xpath章節修改網(wǎng)頁(yè)Xpath或者咨詢(xún)客服。建議向客服說(shuō)明網(wǎng)站網(wǎng)址及錯誤原因,以便客服提供解決方案。
3)單機操作規則,第一頁(yè)或第一頁(yè)數據正常,后面無(wú)法執行。原因:規則問(wèn)題——循環(huán)部分有問(wèn)題。解決方法:參考第二個(gè)內容的手動(dòng)執行。 4)單機操作規則,數據采集缺失或錯誤,此現象可分為5種情況:優(yōu)采云云采集服務(wù)平臺部分領(lǐng)域無(wú)數據。原因:網(wǎng)頁(yè)數據為空,解決了模擬定位問(wèn)題。檢查沒(méi)有字段的鏈接并使用瀏覽器打開(kāi)它們。如果確實(shí)沒(méi)有字段,則沒(méi)有問(wèn)題。如果瀏覽器打開(kāi)有內容,就是模擬定位問(wèn)題。您可以: 參考Xpath章節修改網(wǎng)頁(yè)Xpath或咨詢(xún)客服。建議向客服說(shuō)明網(wǎng)站網(wǎng)址及錯誤原因,以便客服給出解決方案。 采集數據個(gè)數不對。原因:規則問(wèn)題——循環(huán)部分有問(wèn)題。解決方法:參考手冊執行第二個(gè)內容采集Data 亂序,不是對應的信息。原因:規則問(wèn)題-提取步驟太多,網(wǎng)頁(yè)加載時(shí)間過(guò)長(cháng),如果設置ajax忽略加載,可能會(huì )導致多次提取步驟中的部分內容加載不出來(lái)或者加載不出來(lái)完全錯誤。解決方案:將規則分為兩步。如果采集評論網(wǎng)頁(yè)數據,第一步是采集當前頁(yè)面信息和評論頁(yè)面的URL,第二步是循環(huán)URL采集評論數據,后面會(huì )導出數據進(jìn)行匹配處理在excel和數據庫中。該字段出現在不同位置優(yōu)采云云采集服務(wù)平臺原因:網(wǎng)頁(yè)問(wèn)題-Xpath更改解決方法:參考Xpath章節修改網(wǎng)頁(yè)Xpath或咨詢(xún)客服。建議向客服說(shuō)明網(wǎng)站網(wǎng)址和錯誤原因。方便客服給出解決方案。
數據重復的原因:網(wǎng)頁(yè)問(wèn)題-Xpath定位問(wèn)題,問(wèn)題主要出現在翻頁(yè)時(shí),比如只有一兩頁(yè)循環(huán),或者最后一頁(yè)的下一頁(yè)按鈕仍然可以點(diǎn)擊。解決方法:參考Xpath章節修改網(wǎng)頁(yè)Xpath或咨詢(xún)客服。建議向客服說(shuō)明網(wǎng)站網(wǎng)址及錯誤原因,以便客服提供解決方案。 3、單機采集正常,云采集無(wú)數據。這種現象可以分為4種情況:1)網(wǎng)頁(yè)問(wèn)題-IP阻塞原因:大部分有IP阻塞措施的網(wǎng)站優(yōu)采云都可以解決。極少數網(wǎng)站采取極其嚴格的IP封堵措施,會(huì )導致云端采集采集收不到數據。解決方法:如果是單機采集,可以使用代理IP功能。具體操作請參考代理IP教程。如果是云采集,可以給任務(wù)分配多個(gè)節點(diǎn),讓多個(gè)節點(diǎn)空閑,避免任務(wù)在同一個(gè)云,同一個(gè)IP采集。 優(yōu)采云云采集服務(wù)平臺2)云問(wèn)題-云服務(wù)器帶寬小原因:云帶寬小,導致本地打開(kāi)慢網(wǎng)站云中打開(kāi)時(shí)間較長(cháng),一旦超時(shí),就會(huì )not open 網(wǎng)站Or 加載不出來(lái)的數據導致這一步被跳過(guò)。解決方法:將打開(kāi)網(wǎng)址的超時(shí)時(shí)間或下一步前的等待時(shí)間設置得更長(cháng)一些。 3)Rule problem-increment采集 原因:規則設置增量采集,增量采集根據URL判斷采集是否通過(guò),在某些網(wǎng)頁(yè)上使用增量采集會(huì )導致增量判斷錯誤頁(yè)面被跳過(guò)。
解決方案:關(guān)閉增量采集。 4)Rules issue-禁止瀏覽器加載圖片和云采集不分任務(wù)原因:無(wú)法勾選的網(wǎng)頁(yè)很少,禁止瀏覽器不帶云加載圖片采集丌解決任務(wù)解決方法:取消勾選相關(guān)選項。如有更多問(wèn)題,歡迎您在官網(wǎng)或客服反饋。謝謝您的支持。相關(guān)采集教程:天貓產(chǎn)品信息采集優(yōu)采云云采集服務(wù)平臺美團業(yè)務(wù)信息采集趕集招聘信息采集優(yōu)采云——70萬(wàn)用戶(hù)采集器精選的網(wǎng)頁(yè)數據。 1、操作簡(jiǎn)單,任何人都可以使用:無(wú)需技術(shù)背景,采集可在線(xiàn)訪(fǎng)問(wèn)。過(guò)程完全可視化,點(diǎn)擊鼠標即可完成操作,2分鐘即可快速上手。 2、功能強大,任何網(wǎng)站都可以:對于點(diǎn)擊、登錄、翻頁(yè)、識別驗證碼、瀑布流、異步加載數據的Ajax腳本的網(wǎng)頁(yè),都可以簡(jiǎn)單的設置為采集。 3、云采集,可以關(guān)閉。 采集任務(wù)配置完成后可以關(guān)閉采集任務(wù),任務(wù)可以在云端執行。龐達云采集集群24*7不間斷運行,不用擔心IP被封,網(wǎng)絡(luò )中斷。 4、功能免費+增值服務(wù),可根據需要選擇。免費版功能齊全,可以滿(mǎn)足用戶(hù)基本的采集需求。同時(shí),還建立了一些增值服務(wù)(如私有云),以滿(mǎn)足高端付費企業(yè)用戶(hù)的需求。