行業(yè)解決方案:互聯(lián)網(wǎng)數據采集器---優(yōu)采云
優(yōu)采云 發(fā)布時(shí)間: 2022-10-20 13:19行業(yè)解決方案:互聯(lián)網(wǎng)數據采集器---優(yōu)采云
優(yōu)采云Data采集系統基于完全自主研發(fā)的分布式云計算平臺。它可以很容易地在很短的時(shí)間內從各種網(wǎng)站或網(wǎng)頁(yè)中獲取大量的標準化數據。數據,幫助任何需要從網(wǎng)頁(yè)獲取信息的客戶(hù)實(shí)現數據自動(dòng)化采集、編輯、規范化,擺脫對人工搜索和數據采集的依賴(lài),從而降低獲取信息的成本,提高效率。
下載地址:
折疊編輯本段主要功能
簡(jiǎn)而言之,使用 優(yōu)采云 可以輕松采集從任何網(wǎng)頁(yè)中精確獲取所需的數據,并生成自定義的常規數據格式。優(yōu)采云數據采集系統可以做的包括但不限于以下內容:
1、財務(wù)數據,如季報、年報、財務(wù)報告,包括每日最新凈值自動(dòng)采集;
2、各大新聞門(mén)戶(hù)網(wǎng)站實(shí)時(shí)監控,自動(dòng)更新上傳最新消息;
3. 監控競爭對手的最新信息,包括商品價(jià)格和庫存;
4、監控各大社交網(wǎng)絡(luò )網(wǎng)站、博客,自動(dòng)抓取企業(yè)產(chǎn)品相關(guān)評論;
5、采集最新最全的招聘信息;
6、關(guān)注各大地產(chǎn)相關(guān)網(wǎng)站、采集新房、二手房的最新行情;
7、采集主要汽車(chē)網(wǎng)站具體新車(chē)和二手車(chē)信息;
8、發(fā)現和采集潛在客戶(hù)信息;
9、采集行業(yè)網(wǎng)站的產(chǎn)品目錄和產(chǎn)品信息;
10. 同步各大電商平臺商品信息,可在一個(gè)平臺發(fā)布,在其他平臺自動(dòng)更新。
折疊編輯本款產(chǎn)品優(yōu)勢折疊操作簡(jiǎn)單
操作簡(jiǎn)單,圖形化操作完全可視化,無(wú)需專(zhuān)業(yè)的IT人員,任何會(huì )用電腦上網(wǎng)的人都能輕松掌握。
折疊云采集
采集任務(wù)自動(dòng)分配到云端多臺服務(wù)器同時(shí)執行,提高采集效率,在極短的時(shí)間內獲取上千條信息。
折疊和拖動(dòng)采集過(guò)程
模擬人類(lèi)操作思維模式,可以登錄、輸入數據、點(diǎn)擊鏈接、按鈕等,也可以針對不同的情況采取不同的采集流程。
折疊圖像識別
內置可擴展OCR接口,支持解析圖片中的文字,可以提取圖片上的文字。
折疊定時(shí)自動(dòng)采集
采集任務(wù)自動(dòng)運行,可以按指定周期自動(dòng)采集,也支持一分鐘實(shí)時(shí)采集。
折疊 2 分鐘快速入門(mén)
內置從入門(mén)到精通的視頻教程,2分鐘即可上手,此外還有文檔、論壇、QQ群等。
折疊免費使用
它是免費的,免費版沒(méi)有功能限制,您可以立即試用,立即下載安裝。
配置視頻教程:
解決方案:[平臺建設] 大數據平臺如何實(shí)現任務(wù)日志采集
背景
平臺任務(wù)主要分為三種:flink實(shí)時(shí)任務(wù)、spark任務(wù),以及java任務(wù)spark和flink。我們在紗線(xiàn)上運行。日常排查,我們通過(guò)查看yarn日志來(lái)定位,但是會(huì )設置一定的保留時(shí)間用于日志存儲。, 為了以后更好的排查問(wèn)題,希望spark、flink、java任務(wù)可以采集到ES中,為用戶(hù)提供統一的查詢(xún)服務(wù)。這是設計的動(dòng)機。
這個(gè)想法要解決的主要問(wèn)題是什么?
如何進(jìn)行Flink、Spark、java logging采集如何在保證不影響任務(wù)部署的同時(shí),盡量保持低耦合,用戶(hù)端盡量少操作
查閱了相關(guān)資料后,選擇了基于Log4實(shí)現一個(gè)自定義的Appender。實(shí)現方式更加優(yōu)雅、輕量、易維護。
log4介紹
log4j 具有三個(gè)主要組件:
調用 log4j 組件執行順序:
實(shí)現一個(gè)自定義 log4j Appender:
一般情況下,只需重寫(xiě)append方法即可。然后就可以在log4j中使用了
java 任務(wù)采集
對于java任務(wù),我們只需要引入自己自定義的log4j Appender,就可以獲取到相關(guān)的日志信息進(jìn)行后續操作。
Flink 任務(wù)采集
因為Flink任務(wù)是在yarn上提交和執行的,所以我們需要采集除了日志信息,還需要想辦法獲取任務(wù)對應的應用id,這樣更方便用戶(hù)查詢(xún)對應日志,并且設計必須滿(mǎn)足查詢(xún) taskManger ,nodemanager 每個(gè)節點(diǎn)的日志
System.getProperty("mand") 獲取當前正在執行的類(lèi),根據返回的字符串處理后,就可以得到你需要的相關(guān)信息。我們可以在yarn log中看到返回的結果,靈感也來(lái)源于此
如何判斷不同的節點(diǎn)?
根據收錄類(lèi)org.apache.flink.yarn.entrypoint.YarnJobClusterEntrypoint判斷是否為jobManager日志
根據返回值收錄 org.apache.flink.yarn.YarnTaskExecutorRunner 判斷是否是taskManager節點(diǎn)日志
火花任務(wù)采集
類(lèi)似于 flink 處理
根據
org.apache.spark.executor.CoarseGrainedExecutorBackend 可以判斷執行器日志
org.apache.spark.deploy.yarn.ApplicationMaster 是驅動(dòng)日志
部署
1.log4j.properties 配置:
log4j.rootCategory=INFO, customlog, console
log4j.appender.customlog=com.aa.log.CustomlogAppender
29 log4j.appender.customlog.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n
30 log4j.appender.customlog.layout=org.apache.log4j.PatternLayout
customlog 是我們自己定義的 logAppender 實(shí)現
將自定義的 Appender 程序打包,放在我們的 Flink 和 Spark 包下。Java程序采集引入我們的jar,排除其他日志框架,引入采集架構設計
通過(guò) log4j appender 將 采集 的日志發(fā)送到接收中心。這里注意創(chuàng )建一個(gè)緩沖區,通過(guò)http批量發(fā)送到接收中心。日志太小,無(wú)法過(guò)濾掉。這里可以根據實(shí)際情況設置相應的策略,比如一分鐘寫(xiě),如果輸入的消息很多,有可能用戶(hù)把日志弄亂了,所以我們就停止發(fā)送,避免占滿(mǎn)磁盤(pán)和影響其他用戶(hù)。接收中心主要負責接收消息,然后寫(xiě)入kafka。Flink 消費 Kafka 的日志,執行簡(jiǎn)單的清洗和轉換后,將數據下沉到 es 中。用戶(hù)可以通過(guò)界面根據applicationId、時(shí)間、不同角色節點(diǎn)等各種條件進(jìn)行過(guò)濾,
本文主要介紹基于log4j的自定義appender,實(shí)現了大數據平臺采集相關(guān)的任務(wù)日志,用于處理不同類(lèi)型的任務(wù),獲取我們平臺最終搜索所需的功能。日志采集注意采集容量過(guò)大可能會(huì )填滿(mǎn)磁盤(pán),需要相應的降級或預防措施。用戶(hù)不會(huì )過(guò)多考慮平臺相關(guān)的事情。大數據平臺技術(shù)目前很多大公司都有類(lèi)似的技術(shù)架構。查看詳細信息。
參考
/grh946/p/5977046.html
如果您覺(jué)得本文對您有幫助,請點(diǎn)贊、關(guān)注、支持