最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

智能采集組合文章

智能采集組合文章

無(wú)爬蟲(chóng)團隊,企業(yè)怎樣實(shí)現1000萬(wàn)級數據采集?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 378 次瀏覽 ? 2020-08-19 10:07 ? 來(lái)自相關(guān)話(huà)題

  無(wú)爬蟲(chóng)團隊,企業(yè)怎樣實(shí)現1000萬(wàn)級數據采集?
  隨著(zhù)數據智能時(shí)代到來(lái),越來(lái)越多的企業(yè)注重數據,并通過(guò)爬蟲(chóng)技術(shù)獲取網(wǎng)路海量公開(kāi)數據,為自己的業(yè)務(wù)賦能。
  目前基于爬蟲(chóng)技術(shù)衍生的精典商業(yè)項目,我相信你一定也用過(guò):
  
  企查查是一款企業(yè)信息查詢(xún)工具,上面匯集了目前國內市場(chǎng)中的80個(gè)產(chǎn)業(yè)鏈,8000個(gè)行業(yè),6000個(gè)市場(chǎng)以及8000多萬(wàn)家企業(yè)數據。
  企查查怎么擁有海量數據?
  企查查數據源主要來(lái)自以下3個(gè)方面。
 ?、倬W(wǎng)絡(luò )爬蟲(chóng)采集數據
 ?、诘谌胶献鲾祿?br />  ?、垡约安糠輸祿氯蝿?wù)為用戶(hù)觸發(fā)
  它通過(guò)網(wǎng)路爬蟲(chóng)采集數據并進(jìn)行初步的清洗劃入其數據庫,并經(jīng)過(guò)算法處理,最后向用戶(hù)開(kāi)放,提供查詢(xún)搜索。
  企查查目前市值已達到5億人民幣。
  
  原來(lái)爬蟲(chóng)技術(shù)那么有商業(yè)價(jià)值?
  我們企業(yè)是不是也可以自己做,爬爬數據來(lái)提高自己的競爭力?
  Too Young Too Naive。
  知乎有個(gè)高手說(shuō)出了一個(gè)現實(shí):“爬蟲(chóng)是一項入門(mén)門(mén)檻不高,但在后期實(shí)操階段真的會(huì )使你太崩潰,比如你一定會(huì )碰到的以下問(wèn)題”。
  
  你要懂起碼一門(mén)學(xué)科以上的知識,不僅僅只是爬蟲(chóng),學(xué)會(huì )爬蟲(chóng)你只是剛起步。
  
  來(lái)源
  企業(yè)假如自建一個(gè)爬蟲(chóng)專(zhuān)家團隊,需要從0開(kāi)始。
  對企業(yè)來(lái)說(shuō),這一筆不小的開(kāi)支,包括管理成本、時(shí)間成本。
  如何能夠打破這一窘境?
  其實(shí)那位知乎高手給出了答案:
  “不要重復造車(chē)輪子”
  市面上早已有許多簡(jiǎn)單好用且專(zhuān)業(yè)的爬蟲(chóng)服務(wù)和工具,能使一個(gè)企業(yè)以更靈活、更輕便、成本更低的形式實(shí)現海量數據的獲取。
  比如,優(yōu)采云數據采集的企業(yè)私有云。
  優(yōu)采云私有云版本就是為有海量數據采集需求的企業(yè)而量身訂制的爬蟲(chóng)工具。
  企業(yè)無(wú)需平添任何一名爬蟲(chóng)技術(shù)人員,優(yōu)采云企業(yè)私有云能夠完美滿(mǎn)足企業(yè)海量信息采集需求。
  為什么選優(yōu)采云?
  優(yōu)采云自2013年面向市場(chǎng)以來(lái),一直致力于為廣大用戶(hù)提供簡(jiǎn)單易用、快速穩定的數據爬蟲(chóng)工具。
  經(jīng)過(guò)幾年來(lái)的發(fā)展,用戶(hù)規模擴大,在全球擁有120萬(wàn)用戶(hù)。通過(guò)專(zhuān)業(yè)數據爬蟲(chóng)能力與經(jīng)驗積累,開(kāi)拓了諸多如平安、騰訊、萬(wàn)達等行業(yè)著(zhù)名企業(yè),以及公安部、稅務(wù)局、清華大學(xué)等政府機構、科研院所、高等院校數據項目成功案例,并且獲得用戶(hù)對優(yōu)采云的數據采集專(zhuān)業(yè)能力的認可。
  
  優(yōu)采云數據采集成功入圍由國家住建部公布的“2019大數據優(yōu)秀產(chǎn)品和應用解決方案”優(yōu)采云連續5年蟬聯(lián)《中國大數據企業(yè)排行榜》中國互聯(lián)網(wǎng)數據采集工具榜No.1
  
  優(yōu)采云私有云怎么滿(mǎn)足企業(yè)需求?
  01、專(zhuān)業(yè)的數據爬蟲(chóng)服務(wù)能力
  優(yōu)采云可以采集網(wǎng)絡(luò )公開(kāi)顯示的數據,只要是肉眼可見(jiàn)可復制出來(lái)的信息數據均可獲取。
  優(yōu)采云支持文字、數字、圖片、視頻、源碼等數據類(lèi)型,不屈從于數據方式。
  02、海量數據云端高效分布式采集
  
  優(yōu)采云采用高效的云端分布式采集,背后有5000+云服務(wù)器提供支持。優(yōu)采云私有云可依照企業(yè)需求配備30-100個(gè)甚至更多云節點(diǎn),相當于逾百個(gè)服務(wù)器同時(shí)運行,實(shí)現多任務(wù)同時(shí)并發(fā)采集。
  采用分布式采集比企業(yè)用自己服務(wù)器所需時(shí)長(cháng)明顯增加,普通企業(yè)很難有專(zhuān)業(yè)爬蟲(chóng)企業(yè)這樣大量的服務(wù)器資源,去支撐海量的數據采集。
  云端分布式采集能幫助企業(yè)實(shí)現短時(shí)間采集海量數據的目的,讓企業(yè)輕松實(shí)現日采百萬(wàn)級甚至千萬(wàn)級的數據。
  
  由于常年有大量數據爬蟲(chóng)需求,優(yōu)采云已成為「阿里云VIP企業(yè)顧客」,優(yōu)采云私有云的用戶(hù)可以通過(guò)優(yōu)采云直接享受阿里云提供的「企業(yè)級優(yōu)質(zhì)的云端節點(diǎn)」,進(jìn)一步實(shí)現快速、穩定的云爬蟲(chóng)服務(wù)。
  03、獨家智能防封技術(shù)組合
  正如上述知乎高手說(shuō)的,網(wǎng)站反爬蟲(chóng)策略各式各樣,遇到這些情況企業(yè)爬蟲(chóng)工程師大部分都只能束手無(wú)策。
  優(yōu)采云經(jīng)過(guò)6年多實(shí)戰經(jīng)驗構,組建出獨家智能防封技術(shù)組合,能夠有效攻破絕大部分的網(wǎng)站防采集措施。
  1 優(yōu)質(zhì)代理IP池
  優(yōu)采云為私有云用戶(hù)能提供優(yōu)質(zhì)代理IP池,支持用戶(hù)在采集過(guò)程靈活切換IP,有效防止網(wǎng)站防采集。
  2 自動(dòng)辨識驗證碼
  優(yōu)采云能支持手動(dòng)辨識9類(lèi)驗證碼的手動(dòng)辨識,能有效破解網(wǎng)站驗證碼防采集時(shí)。
  
  9類(lèi)驗證碼
  3 cookie、UA
  優(yōu)采云還能靈活設置cookie(用戶(hù)身分)、定時(shí)切換UA(用戶(hù)代理)、突破對方防封手段,讓企業(yè)才能穩定地獲取優(yōu)質(zhì)數據源。
  04、企業(yè)協(xié)作數據資源共享
  
  考慮到企業(yè)數據采集通常是一項內部多人協(xié)作的工程,優(yōu)采云私有云為用戶(hù)提供了團隊協(xié)作的功能,可實(shí)現跨帳號的數據、云節點(diǎn)(可以理解為服務(wù)器)、IP代理池等資源的共享,是團隊協(xié)作的最佳神器。
  05、無(wú)縫對接企業(yè)數據庫
  數據采集后,優(yōu)采云可手動(dòng)導出企業(yè)數據庫,我們支持企業(yè)常見(jiàn)的數據庫如Oracle、MySQL等。
  無(wú)縫鏈接企業(yè)業(yè)務(wù)系統,實(shí)現高效數據歸檔,省去人工冗長(cháng)復雜操作。
  06、多種中級API數據插口
  私有云用戶(hù)可以調用優(yōu)采云的數據導入API接口,以及增值API插口。
  有了以上2項插口,私有云用戶(hù)的開(kāi)發(fā)小哥能夠通過(guò)API,輕松獲取優(yōu)采云任務(wù)信息和采集到的數據,無(wú)需登陸優(yōu)采云,即可調取并控制優(yōu)采云任務(wù)的狀態(tài),減少工作場(chǎng)景來(lái)回切換。
  07、滿(mǎn)足企業(yè)靈活個(gè)性化需求
  1 指定時(shí)間靈活采集
  定時(shí)采集,是優(yōu)采云私有云為須要定期更新網(wǎng)站最新信息的企業(yè)用戶(hù)提供的,精確到分鐘的采集時(shí)間的自定義設置的功能。
  有了定時(shí)采集,用戶(hù)便能在24小時(shí)內靈活選擇采集時(shí)間,“到點(diǎn)”了優(yōu)采云自動(dòng)開(kāi)始工作,讓用戶(hù)省心省力。
  2 新增數據精準采集
  智能辨識新增數據進(jìn)行精準采集,不做歷史重復工作,既節約時(shí)間,又節約節點(diǎn)資源。
  3 7*24h工作,關(guān)機也能采
  私有云的任務(wù)開(kāi)始運行采集任務(wù)后,即使死機也不怕,優(yōu)采云會(huì )在云端7*24小時(shí)持續為你工作,直至數據全部采集完。
  你可以安心死機上班,享受放松休閑歲月。
  08、尊享優(yōu)采云MAX性能配置
  1 無(wú)限量任務(wù)儲存空間
  你擁可以無(wú)拘無(wú)束,任性創(chuàng )建采集任務(wù),無(wú)需害怕因任務(wù)數目限制而須要定期刪掉或導入任務(wù),減少可惡的工作量。
  2 無(wú)限量帳號同時(shí)在線(xiàn)
  你的團隊可以共用一個(gè)優(yōu)采云私有云帳號,即使在不同的地點(diǎn),不同的筆記本上,都能同時(shí)進(jìn)行登陸并操作。
  3 無(wú)限量客戶(hù)端同時(shí)開(kāi)啟
  一臺筆記本可以同時(shí)開(kāi)啟多個(gè)客戶(hù)端,挑戰你的筆記本MAX極限性能。
  4 無(wú)限量數據隨時(shí)導入
  從優(yōu)采云采集下來(lái)的10,000,000+數據可無(wú)限次無(wú)限量直接導出到你的業(yè)務(wù)系統中。
  09、私有云VIP爬蟲(chóng)專(zhuān)家咨詢(xún)服務(wù)
  每位私有云用戶(hù)都將配備一支VIP爬蟲(chóng)專(zhuān)家咨詢(xún)團隊,提供及時(shí)響應、技能高超的專(zhuān)業(yè)售后服務(wù)。
  10、「優(yōu)采云」值得信賴(lài)的品牌
  
  部分顧客展示
  
  優(yōu)采云拿到手軟的各大獎項
  優(yōu)劣勢對比
  
  如果你的企業(yè)沒(méi)有爬蟲(chóng)人員,但又希望以低成本、快速配備海量數據的獲取能力,墻裂推薦你使用優(yōu)采云私有云!
  優(yōu)采云·讓數據觸手可及
  公眾號【優(yōu)采云大數據】 查看全部

  無(wú)爬蟲(chóng)團隊,企業(yè)怎樣實(shí)現1000萬(wàn)級數據采集?
  隨著(zhù)數據智能時(shí)代到來(lái),越來(lái)越多的企業(yè)注重數據,并通過(guò)爬蟲(chóng)技術(shù)獲取網(wǎng)路海量公開(kāi)數據,為自己的業(yè)務(wù)賦能。
  目前基于爬蟲(chóng)技術(shù)衍生的精典商業(yè)項目,我相信你一定也用過(guò):
  
  企查查是一款企業(yè)信息查詢(xún)工具,上面匯集了目前國內市場(chǎng)中的80個(gè)產(chǎn)業(yè)鏈,8000個(gè)行業(yè),6000個(gè)市場(chǎng)以及8000多萬(wàn)家企業(yè)數據。
  企查查怎么擁有海量數據?
  企查查數據源主要來(lái)自以下3個(gè)方面。
 ?、倬W(wǎng)絡(luò )爬蟲(chóng)采集數據
 ?、诘谌胶献鲾祿?br />  ?、垡约安糠輸祿氯蝿?wù)為用戶(hù)觸發(fā)
  它通過(guò)網(wǎng)路爬蟲(chóng)采集數據并進(jìn)行初步的清洗劃入其數據庫,并經(jīng)過(guò)算法處理,最后向用戶(hù)開(kāi)放,提供查詢(xún)搜索。
  企查查目前市值已達到5億人民幣。
  
  原來(lái)爬蟲(chóng)技術(shù)那么有商業(yè)價(jià)值?
  我們企業(yè)是不是也可以自己做,爬爬數據來(lái)提高自己的競爭力?
  Too Young Too Naive。
  知乎有個(gè)高手說(shuō)出了一個(gè)現實(shí):“爬蟲(chóng)是一項入門(mén)門(mén)檻不高,但在后期實(shí)操階段真的會(huì )使你太崩潰,比如你一定會(huì )碰到的以下問(wèn)題”。
  
  你要懂起碼一門(mén)學(xué)科以上的知識,不僅僅只是爬蟲(chóng),學(xué)會(huì )爬蟲(chóng)你只是剛起步。
  
  來(lái)源
  企業(yè)假如自建一個(gè)爬蟲(chóng)專(zhuān)家團隊,需要從0開(kāi)始。
  對企業(yè)來(lái)說(shuō),這一筆不小的開(kāi)支,包括管理成本、時(shí)間成本。
  如何能夠打破這一窘境?
  其實(shí)那位知乎高手給出了答案:
  “不要重復造車(chē)輪子”
  市面上早已有許多簡(jiǎn)單好用且專(zhuān)業(yè)的爬蟲(chóng)服務(wù)和工具,能使一個(gè)企業(yè)以更靈活、更輕便、成本更低的形式實(shí)現海量數據的獲取。
  比如,優(yōu)采云數據采集的企業(yè)私有云。
  優(yōu)采云私有云版本就是為有海量數據采集需求的企業(yè)而量身訂制的爬蟲(chóng)工具。
  企業(yè)無(wú)需平添任何一名爬蟲(chóng)技術(shù)人員,優(yōu)采云企業(yè)私有云能夠完美滿(mǎn)足企業(yè)海量信息采集需求。
  為什么選優(yōu)采云?
  優(yōu)采云自2013年面向市場(chǎng)以來(lái),一直致力于為廣大用戶(hù)提供簡(jiǎn)單易用、快速穩定的數據爬蟲(chóng)工具。
  經(jīng)過(guò)幾年來(lái)的發(fā)展,用戶(hù)規模擴大,在全球擁有120萬(wàn)用戶(hù)。通過(guò)專(zhuān)業(yè)數據爬蟲(chóng)能力與經(jīng)驗積累,開(kāi)拓了諸多如平安、騰訊、萬(wàn)達等行業(yè)著(zhù)名企業(yè),以及公安部、稅務(wù)局、清華大學(xué)等政府機構、科研院所、高等院校數據項目成功案例,并且獲得用戶(hù)對優(yōu)采云的數據采集專(zhuān)業(yè)能力的認可。
  
  優(yōu)采云數據采集成功入圍由國家住建部公布的“2019大數據優(yōu)秀產(chǎn)品和應用解決方案”優(yōu)采云連續5年蟬聯(lián)《中國大數據企業(yè)排行榜》中國互聯(lián)網(wǎng)數據采集工具榜No.1
  
  優(yōu)采云私有云怎么滿(mǎn)足企業(yè)需求?
  01、專(zhuān)業(yè)的數據爬蟲(chóng)服務(wù)能力
  優(yōu)采云可以采集網(wǎng)絡(luò )公開(kāi)顯示的數據,只要是肉眼可見(jiàn)可復制出來(lái)的信息數據均可獲取。
  優(yōu)采云支持文字、數字、圖片、視頻、源碼等數據類(lèi)型,不屈從于數據方式。
  02、海量數據云端高效分布式采集
  
  優(yōu)采云采用高效的云端分布式采集,背后有5000+云服務(wù)器提供支持。優(yōu)采云私有云可依照企業(yè)需求配備30-100個(gè)甚至更多云節點(diǎn),相當于逾百個(gè)服務(wù)器同時(shí)運行,實(shí)現多任務(wù)同時(shí)并發(fā)采集。
  采用分布式采集比企業(yè)用自己服務(wù)器所需時(shí)長(cháng)明顯增加,普通企業(yè)很難有專(zhuān)業(yè)爬蟲(chóng)企業(yè)這樣大量的服務(wù)器資源,去支撐海量的數據采集。
  云端分布式采集能幫助企業(yè)實(shí)現短時(shí)間采集海量數據的目的,讓企業(yè)輕松實(shí)現日采百萬(wàn)級甚至千萬(wàn)級的數據。
  
  由于常年有大量數據爬蟲(chóng)需求,優(yōu)采云已成為「阿里云VIP企業(yè)顧客」,優(yōu)采云私有云的用戶(hù)可以通過(guò)優(yōu)采云直接享受阿里云提供的「企業(yè)級優(yōu)質(zhì)的云端節點(diǎn)」,進(jìn)一步實(shí)現快速、穩定的云爬蟲(chóng)服務(wù)。
  03、獨家智能防封技術(shù)組合
  正如上述知乎高手說(shuō)的,網(wǎng)站反爬蟲(chóng)策略各式各樣,遇到這些情況企業(yè)爬蟲(chóng)工程師大部分都只能束手無(wú)策。
  優(yōu)采云經(jīng)過(guò)6年多實(shí)戰經(jīng)驗構,組建出獨家智能防封技術(shù)組合,能夠有效攻破絕大部分的網(wǎng)站防采集措施。
  1 優(yōu)質(zhì)代理IP池
  優(yōu)采云為私有云用戶(hù)能提供優(yōu)質(zhì)代理IP池,支持用戶(hù)在采集過(guò)程靈活切換IP,有效防止網(wǎng)站防采集。
  2 自動(dòng)辨識驗證碼
  優(yōu)采云能支持手動(dòng)辨識9類(lèi)驗證碼的手動(dòng)辨識,能有效破解網(wǎng)站驗證碼防采集時(shí)。
  
  9類(lèi)驗證碼
  3 cookie、UA
  優(yōu)采云還能靈活設置cookie(用戶(hù)身分)、定時(shí)切換UA(用戶(hù)代理)、突破對方防封手段,讓企業(yè)才能穩定地獲取優(yōu)質(zhì)數據源。
  04、企業(yè)協(xié)作數據資源共享
  
  考慮到企業(yè)數據采集通常是一項內部多人協(xié)作的工程,優(yōu)采云私有云為用戶(hù)提供了團隊協(xié)作的功能,可實(shí)現跨帳號的數據、云節點(diǎn)(可以理解為服務(wù)器)、IP代理池等資源的共享,是團隊協(xié)作的最佳神器。
  05、無(wú)縫對接企業(yè)數據庫
  數據采集后,優(yōu)采云可手動(dòng)導出企業(yè)數據庫,我們支持企業(yè)常見(jiàn)的數據庫如Oracle、MySQL等。
  無(wú)縫鏈接企業(yè)業(yè)務(wù)系統,實(shí)現高效數據歸檔,省去人工冗長(cháng)復雜操作。
  06、多種中級API數據插口
  私有云用戶(hù)可以調用優(yōu)采云的數據導入API接口,以及增值API插口。
  有了以上2項插口,私有云用戶(hù)的開(kāi)發(fā)小哥能夠通過(guò)API,輕松獲取優(yōu)采云任務(wù)信息和采集到的數據,無(wú)需登陸優(yōu)采云,即可調取并控制優(yōu)采云任務(wù)的狀態(tài),減少工作場(chǎng)景來(lái)回切換。
  07、滿(mǎn)足企業(yè)靈活個(gè)性化需求
  1 指定時(shí)間靈活采集
  定時(shí)采集,是優(yōu)采云私有云為須要定期更新網(wǎng)站最新信息的企業(yè)用戶(hù)提供的,精確到分鐘的采集時(shí)間的自定義設置的功能。
  有了定時(shí)采集,用戶(hù)便能在24小時(shí)內靈活選擇采集時(shí)間,“到點(diǎn)”了優(yōu)采云自動(dòng)開(kāi)始工作,讓用戶(hù)省心省力。
  2 新增數據精準采集
  智能辨識新增數據進(jìn)行精準采集,不做歷史重復工作,既節約時(shí)間,又節約節點(diǎn)資源。
  3 7*24h工作,關(guān)機也能采
  私有云的任務(wù)開(kāi)始運行采集任務(wù)后,即使死機也不怕,優(yōu)采云會(huì )在云端7*24小時(shí)持續為你工作,直至數據全部采集完。
  你可以安心死機上班,享受放松休閑歲月。
  08、尊享優(yōu)采云MAX性能配置
  1 無(wú)限量任務(wù)儲存空間
  你擁可以無(wú)拘無(wú)束,任性創(chuàng )建采集任務(wù),無(wú)需害怕因任務(wù)數目限制而須要定期刪掉或導入任務(wù),減少可惡的工作量。
  2 無(wú)限量帳號同時(shí)在線(xiàn)
  你的團隊可以共用一個(gè)優(yōu)采云私有云帳號,即使在不同的地點(diǎn),不同的筆記本上,都能同時(shí)進(jìn)行登陸并操作。
  3 無(wú)限量客戶(hù)端同時(shí)開(kāi)啟
  一臺筆記本可以同時(shí)開(kāi)啟多個(gè)客戶(hù)端,挑戰你的筆記本MAX極限性能。
  4 無(wú)限量數據隨時(shí)導入
  從優(yōu)采云采集下來(lái)的10,000,000+數據可無(wú)限次無(wú)限量直接導出到你的業(yè)務(wù)系統中。
  09、私有云VIP爬蟲(chóng)專(zhuān)家咨詢(xún)服務(wù)
  每位私有云用戶(hù)都將配備一支VIP爬蟲(chóng)專(zhuān)家咨詢(xún)團隊,提供及時(shí)響應、技能高超的專(zhuān)業(yè)售后服務(wù)。
  10、「優(yōu)采云」值得信賴(lài)的品牌
  
  部分顧客展示
  
  優(yōu)采云拿到手軟的各大獎項
  優(yōu)劣勢對比
  
  如果你的企業(yè)沒(méi)有爬蟲(chóng)人員,但又希望以低成本、快速配備海量數據的獲取能力,墻裂推薦你使用優(yōu)采云私有云!
  優(yōu)采云·讓數據觸手可及
  公眾號【優(yōu)采云大數據】

冷啟動(dòng)問(wèn)題:如何建立你的機器學(xué)習組合?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 167 次瀏覽 ? 2020-08-15 11:07 ? 來(lái)自相關(guān)話(huà)題

  我是一名物理學(xué)家,在 YC 初創(chuàng )公司工作。我們的工作是幫助應屆畢業(yè)生找到她們的第一份機器學(xué)習工作。
  前段時(shí)間,我曾寫(xiě)了一篇文章《The cold start problem: how to break into machine learning》(《冷啟動(dòng)問(wèn)題:如何順利步入機器學(xué)習》),闡述了為得到第一份機器學(xué)習的工作,你應當做什么事情。我在那篇文章中說(shuō)過(guò),你應當做的一件事就是,建立個(gè)人機器學(xué)習項目的投資組合。但我漏了這一部分:如何能夠做到。因此,在這篇文章中,我將探討應當怎樣去做這件事。[1]
  得益于我們的初創(chuàng )公司所做的事情,我能夠見(jiàn)到這么多的個(gè)人項目的反例。這些個(gè)人項目有特別優(yōu)秀的,也有特別槽糕的。讓我給你舉出兩個(gè)特別優(yōu)秀的反例。
  押上所有賭注
  下面是一則真實(shí)的故事,不過(guò),為了保護個(gè)人隱私,我使用了化名。
  當雜貨店須要購買(mǎi)新庫存時(shí),X 公司都會(huì )使用人工智能來(lái)提醒雜貨店。我們有一名中學(xué)生,叫 Ron,他十分渴求能否在 X 公司工作,已經(jīng)急不可耐了。為了確保就能得到 X 公司的筆試機會(huì ),于是,他完善了一個(gè)個(gè)人項目。
  通常情況下,我們不會(huì )建議象 Ron 那樣把所有的賭注都押在一家公司。如果你剛開(kāi)始這樣做的話(huà),是太有風(fēng)險的。但是,就像我昨天說(shuō)的,Ron 真的非常想到 X 公司工作,特別非常想。
  那么,Ron 做了哪些呢?
  
  紅框處表示該處缺乏商品。
  Ron 用膠布將他的智能手機綁在購物車(chē)上。然后,他推著(zhù)購物車(chē)在雜貨店的走廊來(lái)來(lái)回回地走,同時(shí)使用手機的攝像頭記錄下走廊的情況。他在不同的雜貨店這樣做了 10~12 次。
  回到家后,Ron 就開(kāi)始建立機器學(xué)習模型。他的模型辨識出了雜貨店貨架上的空白處,那是貨架上缺乏玉米片(或其他商品)的地方。
  特別棒的是,Ron 在 GitHub 上實(shí)時(shí)建立了他的模型,完全公開(kāi)。每天,他就會(huì )改進(jìn)他的 repo(提高準確性,并記錄 repo 自述文件的變更)。
  當 X 公司發(fā)覺(jué) Ron 正在做這件事時(shí),非常感興趣。不止是好奇,事實(shí)上,X 公司還有點(diǎn)緊張。他們?yōu)楹螘?huì )倍感緊張呢?因為 Ron 無(wú)意中在幾天內復制了她們的專(zhuān)有技術(shù)棧的一部分。[2]
  X 公司的能力太強,他們的技術(shù)在行業(yè)中無(wú)出其右。盡管如此,4 天之內,Ron 的項目還是成功吸引了 X 公司 CEO 的注意力。
  飛行員項目
  這是另一則真實(shí)的故事。
  Alex 主修歷史專(zhuān)業(yè),輔修英語(yǔ)(這是真實(shí)的情況)。不同尋常的是,作為歷史專(zhuān)業(yè)的大學(xué)生,他竟然對機器學(xué)習形成了興趣。更不尋常的是,他決定學(xué)習 Python,要知道,他從來(lái)沒(méi)用 Python 寫(xiě)過(guò)一行代碼。
  Alex 選擇了通過(guò)建立項目進(jìn)行學(xué)習的方法。他決定建立一個(gè)分類(lèi)器,用于測量戰斗機飛行員在客機上是否失去知覺(jué)。Alex 想通過(guò)觀(guān)看飛行員的視頻來(lái)發(fā)覺(jué)是否喪失意識。他曉得,人們通過(guò)觀(guān)察,很容易判定飛行員是否失去知覺(jué)。所以,Alex 覺(jué)得機器也應當有可能做到這一點(diǎn)。
  以下是 Alex 在幾個(gè)月的時(shí)間里所做的事情:
  
  Alex建立的月球引力引起昏迷探測器的演示。
  Alex 在 YouTube 上下載了從駕駛艙拍攝的駕駛客機時(shí)飛行員所有的視頻。(如果你也倍感好奇的話(huà),這里有幾十個(gè)這樣的片斷。)
  接下來(lái)他開(kāi)始標記數據。Alex 構建了一個(gè) UI,讓他還能滾動(dòng)數千個(gè)視頻幀,按下一個(gè)按鍵表示 “有知覺(jué)”,另一個(gè)按鍵表示 “無(wú)知覺(jué)”。然后手動(dòng)將該視頻幀保存到正確標記的文件夾中。這個(gè)標記過(guò)程十分特別無(wú)趣,花了他好幾天的時(shí)間。
  Alex 為這種圖象建立了一個(gè)數據管線(xiàn),可以將飛行員從駕駛艙背景中摳下來(lái),這樣分類(lèi)器才能更容易專(zhuān)注于飛行員。最后,他建立了自己的昏迷分類(lèi)器。
  在做這些事的同時(shí),Alex 在社交媒體上向急聘主管展示了他的項目快照。每次
  他掏出手機展示這個(gè)項目時(shí),他們就會(huì )問(wèn)他是如何做到的,構建的管線(xiàn)是怎么回事,以及如何搜集數據的等等。但從來(lái)沒(méi)有人問(wèn)過(guò)他的模型的準確度怎樣,要知道,這個(gè)模型的準確度就從來(lái)沒(méi)超過(guò) 50%。
  當然,Alex 早就計劃提升模型的準確性,但是在他還沒(méi)有實(shí)現這一計劃時(shí)就早已被錄用了。事實(shí)證明,對企業(yè)而言,他那種項目呈現下來(lái)的視覺(jué)沖擊力,以及在數據搜集方面表現下來(lái)的不屈不撓的精神和足智多謀,遠比他的模型到底有多好來(lái)得更為重要。
  我剛剛有沒(méi)有提及 Alex 是一名主修歷史,輔修英語(yǔ)的中學(xué)生?
  他們有何共同之處
  是哪些使 Ron 和 Alex 如此成功?以下是她們做對的四件大事:
  Ron 和 Alex 并沒(méi)有在建模上花費太多的精力。我曉得這聽(tīng)起來(lái)很奇怪,但是對于現今的許多用例來(lái)說(shuō),建模是一個(gè)已解決的問(wèn)題。在實(shí)際工作中,除非你做的是最先進(jìn)的人工智能研究,否則無(wú)論如何,你都須要花費 80~90% 的時(shí)間來(lái)清除數據。為什么你的個(gè)人項目會(huì )有所不同呢?
  Ron 和 Alex 都搜集了自己的數據。正由于這么,他們最終得到的數據比 Kaggle 或 UCI 數據庫中的數據更為混亂。但是處理混亂的數據教會(huì )了她們怎么處理這些混亂的數據。而且也促使了她們從學(xué)術(shù)服務(wù)器下載數據以更好地理解自己的數據。
  Ron 和 Alex 營(yíng)造了可視化療效。面試,并不能使無(wú)所不知的面試官才能客觀(guān)地評估你的技能。面試的本質(zhì)就是將自己推薦給別人。人類(lèi)是視覺(jué)植物,因此,如果你拿出手機給面試官展示你所做的東西,那么,確保你做的東西看上去太有趣是值得的。
  Ron 和 Alex 所做的事其實(shí)挺瘋狂。這很瘋狂了。因為一般人不會(huì )把她們的智能手機用膠水綁在購物車(chē)上,也不會(huì )在 YouTube 上花費大量時(shí)間就為了剪裁飛行員的視頻。你曉得是什么樣的人就會(huì )如此瘋狂?這樣的人就會(huì )不惜一切代價(jià)去完成工作。公司真的十分、非常樂(lè )意雇用這種人。
  Ron 和 Alex 所做的事情,看上去雖然太多了,但實(shí)際上,他們所做的事兒并不比你在實(shí)際工作中所期望的多多少。這就是問(wèn)題的關(guān)鍵:當你沒(méi)有做某件事的工作經(jīng)驗時(shí),招聘總監會(huì )看你做過(guò)的類(lèi)似做某件事的工作經(jīng)驗。
  幸運的是,你只需在這個(gè)級別上,構建一兩個(gè)項目就可以了——Ron 和 Alex 的項目在她們各自所有筆試中被反復使用。
  因此,如果使我必須用一句話(huà)來(lái)總結一個(gè)卓越的機器學(xué)習項目的絕招,那就是:用有趣的數據集去建立項目,這個(gè)數據集其實(shí)須要花費大量精力來(lái)搜集,并讓其盡可能有視覺(jué)沖擊力。
  [1] 如果你想知道為何這一點(diǎn)十分重要,那是因為急聘總監會(huì )查看你的業(yè)績(jì)記錄來(lái)評估你的技能。如果你沒(méi)有業(yè)績(jì)記錄的話(huà),那么,個(gè)人項目就是最為接近的替代者。
  [2] 當然,Ron 的嘗試遠非完美:X 公司為這個(gè)問(wèn)題投入了比他更多的資源。但情況十分相像,他們很快就要求 Ron 將他的 repo 設為 private。
  原文鏈接: 查看全部

  我是一名物理學(xué)家,在 YC 初創(chuàng )公司工作。我們的工作是幫助應屆畢業(yè)生找到她們的第一份機器學(xué)習工作。
  前段時(shí)間,我曾寫(xiě)了一篇文章《The cold start problem: how to break into machine learning》(《冷啟動(dòng)問(wèn)題:如何順利步入機器學(xué)習》),闡述了為得到第一份機器學(xué)習的工作,你應當做什么事情。我在那篇文章中說(shuō)過(guò),你應當做的一件事就是,建立個(gè)人機器學(xué)習項目的投資組合。但我漏了這一部分:如何能夠做到。因此,在這篇文章中,我將探討應當怎樣去做這件事。[1]
  得益于我們的初創(chuàng )公司所做的事情,我能夠見(jiàn)到這么多的個(gè)人項目的反例。這些個(gè)人項目有特別優(yōu)秀的,也有特別槽糕的。讓我給你舉出兩個(gè)特別優(yōu)秀的反例。
  押上所有賭注
  下面是一則真實(shí)的故事,不過(guò),為了保護個(gè)人隱私,我使用了化名。
  當雜貨店須要購買(mǎi)新庫存時(shí),X 公司都會(huì )使用人工智能來(lái)提醒雜貨店。我們有一名中學(xué)生,叫 Ron,他十分渴求能否在 X 公司工作,已經(jīng)急不可耐了。為了確保就能得到 X 公司的筆試機會(huì ),于是,他完善了一個(gè)個(gè)人項目。
  通常情況下,我們不會(huì )建議象 Ron 那樣把所有的賭注都押在一家公司。如果你剛開(kāi)始這樣做的話(huà),是太有風(fēng)險的。但是,就像我昨天說(shuō)的,Ron 真的非常想到 X 公司工作,特別非常想。
  那么,Ron 做了哪些呢?
  
  紅框處表示該處缺乏商品。
  Ron 用膠布將他的智能手機綁在購物車(chē)上。然后,他推著(zhù)購物車(chē)在雜貨店的走廊來(lái)來(lái)回回地走,同時(shí)使用手機的攝像頭記錄下走廊的情況。他在不同的雜貨店這樣做了 10~12 次。
  回到家后,Ron 就開(kāi)始建立機器學(xué)習模型。他的模型辨識出了雜貨店貨架上的空白處,那是貨架上缺乏玉米片(或其他商品)的地方。
  特別棒的是,Ron 在 GitHub 上實(shí)時(shí)建立了他的模型,完全公開(kāi)。每天,他就會(huì )改進(jìn)他的 repo(提高準確性,并記錄 repo 自述文件的變更)。
  當 X 公司發(fā)覺(jué) Ron 正在做這件事時(shí),非常感興趣。不止是好奇,事實(shí)上,X 公司還有點(diǎn)緊張。他們?yōu)楹螘?huì )倍感緊張呢?因為 Ron 無(wú)意中在幾天內復制了她們的專(zhuān)有技術(shù)棧的一部分。[2]
  X 公司的能力太強,他們的技術(shù)在行業(yè)中無(wú)出其右。盡管如此,4 天之內,Ron 的項目還是成功吸引了 X 公司 CEO 的注意力。
  飛行員項目
  這是另一則真實(shí)的故事。
  Alex 主修歷史專(zhuān)業(yè),輔修英語(yǔ)(這是真實(shí)的情況)。不同尋常的是,作為歷史專(zhuān)業(yè)的大學(xué)生,他竟然對機器學(xué)習形成了興趣。更不尋常的是,他決定學(xué)習 Python,要知道,他從來(lái)沒(méi)用 Python 寫(xiě)過(guò)一行代碼。
  Alex 選擇了通過(guò)建立項目進(jìn)行學(xué)習的方法。他決定建立一個(gè)分類(lèi)器,用于測量戰斗機飛行員在客機上是否失去知覺(jué)。Alex 想通過(guò)觀(guān)看飛行員的視頻來(lái)發(fā)覺(jué)是否喪失意識。他曉得,人們通過(guò)觀(guān)察,很容易判定飛行員是否失去知覺(jué)。所以,Alex 覺(jué)得機器也應當有可能做到這一點(diǎn)。
  以下是 Alex 在幾個(gè)月的時(shí)間里所做的事情:
  
  Alex建立的月球引力引起昏迷探測器的演示。
  Alex 在 YouTube 上下載了從駕駛艙拍攝的駕駛客機時(shí)飛行員所有的視頻。(如果你也倍感好奇的話(huà),這里有幾十個(gè)這樣的片斷。)
  接下來(lái)他開(kāi)始標記數據。Alex 構建了一個(gè) UI,讓他還能滾動(dòng)數千個(gè)視頻幀,按下一個(gè)按鍵表示 “有知覺(jué)”,另一個(gè)按鍵表示 “無(wú)知覺(jué)”。然后手動(dòng)將該視頻幀保存到正確標記的文件夾中。這個(gè)標記過(guò)程十分特別無(wú)趣,花了他好幾天的時(shí)間。
  Alex 為這種圖象建立了一個(gè)數據管線(xiàn),可以將飛行員從駕駛艙背景中摳下來(lái),這樣分類(lèi)器才能更容易專(zhuān)注于飛行員。最后,他建立了自己的昏迷分類(lèi)器。
  在做這些事的同時(shí),Alex 在社交媒體上向急聘主管展示了他的項目快照。每次
  他掏出手機展示這個(gè)項目時(shí),他們就會(huì )問(wèn)他是如何做到的,構建的管線(xiàn)是怎么回事,以及如何搜集數據的等等。但從來(lái)沒(méi)有人問(wèn)過(guò)他的模型的準確度怎樣,要知道,這個(gè)模型的準確度就從來(lái)沒(méi)超過(guò) 50%。
  當然,Alex 早就計劃提升模型的準確性,但是在他還沒(méi)有實(shí)現這一計劃時(shí)就早已被錄用了。事實(shí)證明,對企業(yè)而言,他那種項目呈現下來(lái)的視覺(jué)沖擊力,以及在數據搜集方面表現下來(lái)的不屈不撓的精神和足智多謀,遠比他的模型到底有多好來(lái)得更為重要。
  我剛剛有沒(méi)有提及 Alex 是一名主修歷史,輔修英語(yǔ)的中學(xué)生?
  他們有何共同之處
  是哪些使 Ron 和 Alex 如此成功?以下是她們做對的四件大事:
  Ron 和 Alex 并沒(méi)有在建模上花費太多的精力。我曉得這聽(tīng)起來(lái)很奇怪,但是對于現今的許多用例來(lái)說(shuō),建模是一個(gè)已解決的問(wèn)題。在實(shí)際工作中,除非你做的是最先進(jìn)的人工智能研究,否則無(wú)論如何,你都須要花費 80~90% 的時(shí)間來(lái)清除數據。為什么你的個(gè)人項目會(huì )有所不同呢?
  Ron 和 Alex 都搜集了自己的數據。正由于這么,他們最終得到的數據比 Kaggle 或 UCI 數據庫中的數據更為混亂。但是處理混亂的數據教會(huì )了她們怎么處理這些混亂的數據。而且也促使了她們從學(xué)術(shù)服務(wù)器下載數據以更好地理解自己的數據。
  Ron 和 Alex 營(yíng)造了可視化療效。面試,并不能使無(wú)所不知的面試官才能客觀(guān)地評估你的技能。面試的本質(zhì)就是將自己推薦給別人。人類(lèi)是視覺(jué)植物,因此,如果你拿出手機給面試官展示你所做的東西,那么,確保你做的東西看上去太有趣是值得的。
  Ron 和 Alex 所做的事其實(shí)挺瘋狂。這很瘋狂了。因為一般人不會(huì )把她們的智能手機用膠水綁在購物車(chē)上,也不會(huì )在 YouTube 上花費大量時(shí)間就為了剪裁飛行員的視頻。你曉得是什么樣的人就會(huì )如此瘋狂?這樣的人就會(huì )不惜一切代價(jià)去完成工作。公司真的十分、非常樂(lè )意雇用這種人。
  Ron 和 Alex 所做的事情,看上去雖然太多了,但實(shí)際上,他們所做的事兒并不比你在實(shí)際工作中所期望的多多少。這就是問(wèn)題的關(guān)鍵:當你沒(méi)有做某件事的工作經(jīng)驗時(shí),招聘總監會(huì )看你做過(guò)的類(lèi)似做某件事的工作經(jīng)驗。
  幸運的是,你只需在這個(gè)級別上,構建一兩個(gè)項目就可以了——Ron 和 Alex 的項目在她們各自所有筆試中被反復使用。
  因此,如果使我必須用一句話(huà)來(lái)總結一個(gè)卓越的機器學(xué)習項目的絕招,那就是:用有趣的數據集去建立項目,這個(gè)數據集其實(shí)須要花費大量精力來(lái)搜集,并讓其盡可能有視覺(jué)沖擊力。
  [1] 如果你想知道為何這一點(diǎn)十分重要,那是因為急聘總監會(huì )查看你的業(yè)績(jì)記錄來(lái)評估你的技能。如果你沒(méi)有業(yè)績(jì)記錄的話(huà),那么,個(gè)人項目就是最為接近的替代者。
  [2] 當然,Ron 的嘗試遠非完美:X 公司為這個(gè)問(wèn)題投入了比他更多的資源。但情況十分相像,他們很快就要求 Ron 將他的 repo 設為 private。
  原文鏈接:

【智能模式】【流程圖模式】如何設置智能策略

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 198 次瀏覽 ? 2020-08-15 03:49 ? 來(lái)自相關(guān)話(huà)題

  智能策略收錄代理設置、智能切換和自動(dòng)切換,這部份功能主要是拿來(lái)智能處理采集過(guò)程中遇見(jiàn)的各類(lèi)問(wèn)題。
  在編輯任務(wù)界面,點(diǎn)擊右下角“開(kāi)始采集”按鈕,在彈出的設置框中,點(diǎn)擊“智能策略”選項可以切換到設置界面。
  
  1、代理設置
  1)代理類(lèi)型
  I、代理IP(由芝麻代理提供)
  該代理為通過(guò)芝麻代理提供的訂購插口,直接在軟件內選購。
  
  代理的區域可以進(jìn)行設置,包括全省混撥、省份混撥或則指定城市。
  
  
  
  II、自定義代理
  如果須要使用自己的代理,請點(diǎn)擊“立即設置”,然后在設置窗口中按要求進(jìn)行設置。(注意:自定義代理按次序循環(huán)切換)
  
  
  2)切換條件
  I、按照時(shí)間切換
  代理按照時(shí)間進(jìn)行切換,例如您設置切換條件為“每隔:3分鐘”,那么每隔3分鐘都會(huì )切換一次代理,同時(shí)會(huì )消耗一個(gè)代理IP 。
  
  II、按照文本切換
  根據文本進(jìn)行切換,例如您設置切換條件為“當頁(yè)面中出現該文本:優(yōu)采云”,那么網(wǎng)頁(yè)中出現對應的文本時(shí),就會(huì )切換一次代理,同時(shí)消耗一個(gè)代理IP。
  
  2、智能切換
  智能切換是我們推薦的首選設置,能滿(mǎn)足絕大部分采集任務(wù)的需求。
  
  3、手動(dòng)切換
  如果碰到的網(wǎng)頁(yè)比較特殊,智能切換未能滿(mǎn)足需求,我們可以設置自動(dòng)切換。
  I、請求等待時(shí)間
  請求等待時(shí)間是加在網(wǎng)頁(yè)點(diǎn)擊操作以后的等待時(shí)間,通常用于打開(kāi)網(wǎng)頁(yè)或則點(diǎn)擊翻頁(yè)等操作以后的等待,通過(guò)降低該等待時(shí)間,可以減輕網(wǎng)頁(yè)加載平緩的問(wèn)題,或者增加采集速度。
  
  II、運行中測量驗證碼
  軟件在采集過(guò)程中遇見(jiàn)未能采集到內容時(shí),會(huì )手動(dòng)進(jìn)行驗證碼檢查,如果碰到軟件未兼容的情況,也可以自動(dòng)設置驗證碼辨識條件,例如假如驗證碼提示頁(yè)面中收錄了“優(yōu)采云”這個(gè)文本,我們可以設置條件為“當頁(yè)面中出現該文本:優(yōu)采云”。需要注意的是該條件一定要確保只會(huì )在驗證碼提示頁(yè)面中出現,否則會(huì )出現誤報的情況。
  
  III、運行中測量登陸提示
  需要登入能夠采集數據的網(wǎng)站,在運行過(guò)程中登陸有可能會(huì )失效,或者有些網(wǎng)站采集到一定量的數據然后會(huì )提示登陸,勾選此功能,軟件在運行過(guò)程中若果遇見(jiàn)登陸失效或須要登陸的情況會(huì )暫停任務(wù)并彈出登陸提示。
  
  IV、僅采集頁(yè)面可見(jiàn)內容
  有一些網(wǎng)站會(huì )將無(wú)效的數據混在有效的數據之中,采集數據的時(shí)侯會(huì )出現好多無(wú)效的數據,這種情況下我們就可以勾選這個(gè)設置,只采集頁(yè)面可見(jiàn)的內容。
  注意:如果采集的網(wǎng)站沒(méi)有隱藏無(wú)效字符的設置,勾選此項會(huì )導致數據采集不全或則數據難以采集,因此我們在使用此項功能時(shí)須要慎重。
  
  V、逐行滾動(dòng)網(wǎng)頁(yè)預加載
  有些網(wǎng)站需要滾動(dòng)到一定位置以后內容才會(huì )顯示,否則這種數據都未能采集,這時(shí)候可以勾選此項功能。但是須要注意的是,勾選此項功能的時(shí)侯會(huì )影響采集速度,需謹慎使用。
  
  VI、定時(shí)切換瀏覽器版本
  我們可以自定義設置切換版本的時(shí)間周期,設置時(shí)間周期可以是30秒~10分鐘,軟件會(huì )根據設置周期手動(dòng)切換外置瀏覽器版本,用戶(hù)無(wú)需自行選擇具體版本。
  
  VII、定時(shí)清理cookie
  我們可以自定義設置消除cookie的時(shí)間周期,設置時(shí)間周期可以是30秒~10分鐘,軟件會(huì )根據設置周期定時(shí)清理網(wǎng)頁(yè)Cookie。 查看全部

  智能策略收錄代理設置、智能切換和自動(dòng)切換,這部份功能主要是拿來(lái)智能處理采集過(guò)程中遇見(jiàn)的各類(lèi)問(wèn)題。
  在編輯任務(wù)界面,點(diǎn)擊右下角“開(kāi)始采集”按鈕,在彈出的設置框中,點(diǎn)擊“智能策略”選項可以切換到設置界面。
  
  1、代理設置
  1)代理類(lèi)型
  I、代理IP(由芝麻代理提供)
  該代理為通過(guò)芝麻代理提供的訂購插口,直接在軟件內選購。
  
  代理的區域可以進(jìn)行設置,包括全省混撥、省份混撥或則指定城市。
  
  
  
  II、自定義代理
  如果須要使用自己的代理,請點(diǎn)擊“立即設置”,然后在設置窗口中按要求進(jìn)行設置。(注意:自定義代理按次序循環(huán)切換)
  
  
  2)切換條件
  I、按照時(shí)間切換
  代理按照時(shí)間進(jìn)行切換,例如您設置切換條件為“每隔:3分鐘”,那么每隔3分鐘都會(huì )切換一次代理,同時(shí)會(huì )消耗一個(gè)代理IP 。
  
  II、按照文本切換
  根據文本進(jìn)行切換,例如您設置切換條件為“當頁(yè)面中出現該文本:優(yōu)采云”,那么網(wǎng)頁(yè)中出現對應的文本時(shí),就會(huì )切換一次代理,同時(shí)消耗一個(gè)代理IP。
  
  2、智能切換
  智能切換是我們推薦的首選設置,能滿(mǎn)足絕大部分采集任務(wù)的需求。
  
  3、手動(dòng)切換
  如果碰到的網(wǎng)頁(yè)比較特殊,智能切換未能滿(mǎn)足需求,我們可以設置自動(dòng)切換。
  I、請求等待時(shí)間
  請求等待時(shí)間是加在網(wǎng)頁(yè)點(diǎn)擊操作以后的等待時(shí)間,通常用于打開(kāi)網(wǎng)頁(yè)或則點(diǎn)擊翻頁(yè)等操作以后的等待,通過(guò)降低該等待時(shí)間,可以減輕網(wǎng)頁(yè)加載平緩的問(wèn)題,或者增加采集速度。
  
  II、運行中測量驗證碼
  軟件在采集過(guò)程中遇見(jiàn)未能采集到內容時(shí),會(huì )手動(dòng)進(jìn)行驗證碼檢查,如果碰到軟件未兼容的情況,也可以自動(dòng)設置驗證碼辨識條件,例如假如驗證碼提示頁(yè)面中收錄了“優(yōu)采云”這個(gè)文本,我們可以設置條件為“當頁(yè)面中出現該文本:優(yōu)采云”。需要注意的是該條件一定要確保只會(huì )在驗證碼提示頁(yè)面中出現,否則會(huì )出現誤報的情況。
  
  III、運行中測量登陸提示
  需要登入能夠采集數據的網(wǎng)站,在運行過(guò)程中登陸有可能會(huì )失效,或者有些網(wǎng)站采集到一定量的數據然后會(huì )提示登陸,勾選此功能,軟件在運行過(guò)程中若果遇見(jiàn)登陸失效或須要登陸的情況會(huì )暫停任務(wù)并彈出登陸提示。
  
  IV、僅采集頁(yè)面可見(jiàn)內容
  有一些網(wǎng)站會(huì )將無(wú)效的數據混在有效的數據之中,采集數據的時(shí)侯會(huì )出現好多無(wú)效的數據,這種情況下我們就可以勾選這個(gè)設置,只采集頁(yè)面可見(jiàn)的內容。
  注意:如果采集的網(wǎng)站沒(méi)有隱藏無(wú)效字符的設置,勾選此項會(huì )導致數據采集不全或則數據難以采集,因此我們在使用此項功能時(shí)須要慎重。
  
  V、逐行滾動(dòng)網(wǎng)頁(yè)預加載
  有些網(wǎng)站需要滾動(dòng)到一定位置以后內容才會(huì )顯示,否則這種數據都未能采集,這時(shí)候可以勾選此項功能。但是須要注意的是,勾選此項功能的時(shí)侯會(huì )影響采集速度,需謹慎使用。
  
  VI、定時(shí)切換瀏覽器版本
  我們可以自定義設置切換版本的時(shí)間周期,設置時(shí)間周期可以是30秒~10分鐘,軟件會(huì )根據設置周期手動(dòng)切換外置瀏覽器版本,用戶(hù)無(wú)需自行選擇具體版本。
  
  VII、定時(shí)清理cookie
  我們可以自定義設置消除cookie的時(shí)間周期,設置時(shí)間周期可以是30秒~10分鐘,軟件會(huì )根據設置周期定時(shí)清理網(wǎng)頁(yè)Cookie。

采集 | 數據智能與計算機圖形學(xué)領(lǐng)域2019推薦論文列表(附鏈接)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 440 次瀏覽 ? 2020-08-14 15:29 ? 來(lái)自相關(guān)話(huà)題

  本文約3600字,建議閱讀10分鐘。
  2019年度數據智能與估算及圖形學(xué)領(lǐng)域論文推薦。
  數據智能
  1. Data-anonymous Encoding for Text-to-SQL Generation
  論文鏈接:
  在跨領(lǐng)域 Text-to-SQL 研究中一個(gè)重要的問(wèn)題是辨識自然語(yǔ)言句子中提及的列名、表格、及單元格的值。本文中提出了一種基于中間變量和多任務(wù)學(xué)習的框架,嘗試同時(shí)解決表格實(shí)體辨識和語(yǔ)義解析問(wèn)題,取得了良好的療效。論文在 EMNLP 2019 會(huì )議發(fā)表。
  2. Towards Complex Text-to-SQL in Cross-domain Database
  論文鏈接:
  計算機的可執行語(yǔ)言(例如 SQL 語(yǔ)句與儲存結構緊密相關(guān))與自然語(yǔ)言存在不匹配問(wèn)題,給復雜問(wèn)題的語(yǔ)義解析帶來(lái)了困難。為了解決這個(gè)問(wèn)題,論文中設計了一種中間語(yǔ)言。先將自然語(yǔ)言轉換成中間語(yǔ)言,再將中間語(yǔ)言轉換成 SQL,可以提升語(yǔ)義解析的準確率。該論文已在 ACL 2019 會(huì )議發(fā)表。
  3. Leveraging Adjective-Noun Phrasing Knowledge for Comparison Relation Prediction in Text-to-SQL
  論文鏈接:
  在自然語(yǔ)言理解中,知識的運用極其重要。本文以 Adjective-Noun Phrasing Knowledge 為切入點(diǎn)嘗試在 Text-to-SQL 中運用語(yǔ)言相關(guān)知識來(lái)提升語(yǔ)言理解的準確率。論文在 EMNLP 2019 會(huì )議發(fā)表。
  4. FANDA: A Novel Approach to Perform Follow-up Query Analysis
  論文鏈接:
  在多履帶對話(huà)中,對話(huà)句子中常常存在省略或指代,需要依據上下文來(lái)理解當前詞句。本文剖析總結了在對話(huà)式數據剖析中普遍出現的省略或指代現象,并提出了將當前句子補充完整的方式。論文發(fā)表在 AAAI 2019。
  5. A Split-and-Recombine Approach for Follow-up Query Analysis
  論文鏈接:
  本文中提出了一個(gè)處理上下文的 split-recombine 框架,能夠拿來(lái)有效處理對話(huà)句子中常常存在上下文省略或指代問(wèn)題。這個(gè)框架既可以用于將當前句子補充完整(restate),也可以直接生成 logic form(例如SQL)。論文發(fā)表在 EMNLP 2019。
  6. QuickInsights: Quick and Automatic Discovery of Insights from Multi-Dimensional Data
  論文鏈接:
  該論文創(chuàng )新性地提出了多維數據中洞察 (insights) 的一種普遍適用的具象定義,并系統化地提出了面向大規模多維數據的有效的洞察挖掘算法。文章發(fā)表在 SIGMOD 2019。相應技術(shù)從2015年起轉化到谷歌 Power BI,Office 365 等產(chǎn)品中。
  7. TableSense: Spreadsheet Table Detection with Convolutional Neural Networks
  論文鏈接:
  文章提出的基于深度學(xué)習模型的 TableSense 技術(shù),可對電子表格進(jìn)行區域監測和表格結構理解,并將其轉換為結構化的多維數據進(jìn)行手動(dòng)剖析。這項技術(shù)已轉化到谷歌的 Office 365 產(chǎn)品中,隨 Ideas in Excel 功能全面上線(xiàn)。文章發(fā)表在 AAAI 2019。
  8. Text-to-Viz: Automatic Generation of Infographics from Proportion-Related Natural language Statements
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,首創(chuàng )了由自然語(yǔ)言手動(dòng)生成數據信息圖(Infographics)的技術(shù)。該技術(shù)讓人們就能十分容易的獲得大量數據信息圖的設計,用于強化數據故事的抒發(fā)。
  9. DataShot: Automatic Generation of Fact Sheets from Tabular Data
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,提出了一種從數據表格出發(fā)手動(dòng)生成由多個(gè)數據信息圖組合而成的數據海報的技術(shù)。
  10. Towards Automated Infographic Design: Deep Learning-based Auto-Extraction of Extensible Timeline
  論文鏈接:
  該論文提出了一種手動(dòng)從圖片中抽取數據信息圖模板的技術(shù)。利用計算機視覺(jué)技術(shù),將時(shí)間軸的設計圖片分解成多個(gè)視覺(jué)元素并重新組合,使可視化時(shí)間軸設計圖片的重用成為了可能。該論文發(fā)表在 IEEE VIS 2019。
  11. Visualization Assessment: A Machine Learning Approach
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,探索了手動(dòng)評估可視化圖片特點(diǎn)的方式,比如記憶度、美觀(guān)度,讓機器學(xué)習的算法在可視化的生成、推薦中發(fā)揮作用。
  12. Supporting Story Synthesis: Bridging the Gap between Visual Analytics and Storytelling
  論文鏈接:
  該論文定義了一個(gè)新的故事生成框架,將數據剖析到結果展示的過(guò)程具象成普遍的故事生成流程。該框架支持交互式地從復雜的可視剖析結果中生成可以使普通讀者理解的故事。論文發(fā)表在 TVCG 2019。
  13. Cross-dataset Time Series Anomaly Detection for Cloud Systems
  論文鏈接:
  文章提出了基于遷移學(xué)習和主動(dòng)學(xué)習的跨數據集異常檢查框架,可以有效地在不同時(shí)間序列數據集之間進(jìn)行遷移,只須要1%-5% 的標明樣本量即可達到高精度檢查。文章發(fā)表在系統領(lǐng)域頂尖大會(huì ) USENIX ATC 2019 上。
  14. Robust Log-based Anomaly Detection on Unstable Log Data
  論文鏈接:
  文章提出了基于深度學(xué)習技術(shù)的模型 LogRobust,可有效克服日志不穩定問(wèn)題,在快速迭代的實(shí)際工業(yè)數據中取得了出色的療效,該研究發(fā)表在了軟件工程領(lǐng)域頂尖大會(huì ) FSE 2019。
  15. An Intelligent, End-To-End Analytics Service for Safe Deployment in Large-Scale Cloud Infrastructure
  論文鏈接:
  該文章提出了時(shí)空相關(guān)性模型,在時(shí)間和空間的雙重維度上對比故障前后的系統狀態(tài),為故障確診提供線(xiàn)索,該模型在安全布署中取得了很高的準確率,研究成果將發(fā)表在系統領(lǐng)域頂尖大會(huì ) NSDI 2020上。
  16. Outage Prediction and Diagnosis for Cloud Service Systems
  論文鏈接:
  該文章提出了一種智能的大規模中斷預警機制 AirAlert,AirAlert 采集整個(gè)云系統中的所有系統監控訊號,采用魯棒梯度提高樹(shù)算法做預測,并借助貝葉斯網(wǎng)絡(luò )進(jìn)行確診剖析。相關(guān)研究短文發(fā)表在 WWW 2019。
  17. Prediction-Guided Design for Software Systems
  論文鏈接:
  文章提出了智能緩沖區管理方式,基于預測導向(Prediction-Guided)框架,以機器學(xué)習預測引擎為核心,可監控集群已布署的工作負載與平臺操作,對這種負載在發(fā)生故障的機率和新的容量下降需求進(jìn)行預測,動(dòng)態(tài)調整預留緩沖區。該方式已成功集成到谷歌 Azure 中,提高了容量配置的穩健性,減少了巨大的成本開(kāi)支。相關(guān)研究將在 AAAI 2020 Workshop 發(fā)布。
  18. An Empirical Investigation of Incident Triage for Online Service Systems
  論文鏈接:
  該文章基于谷歌 20 個(gè)小型在線(xiàn)服務(wù)系統展開(kāi)實(shí)例研究,發(fā)現錯誤的故障分派會(huì )導致額外的時(shí)間開(kāi)支,進(jìn)而驗證了已有軟件 Bug 分派算法在故障分派場(chǎng)景下的療效。這是首次研究故障分派在工業(yè)小型在線(xiàn)服務(wù)系統中的實(shí)踐,相關(guān)研究發(fā)表在 ICSE SEIP 2019。
  19. Continuous Incident Triage for Large-Scale Online Service Systems
  論文鏈接:
  該文章提出一種基于深度學(xué)習的自動(dòng)化連續故障分派算法 DeepCT。DeepCT 結合了一個(gè)新的基于注意力機制的屏蔽策略、門(mén)控循環(huán)單元模型和改進(jìn)后的損失函數,可以從工程師對問(wèn)題的討論中逐漸積累知識并優(yōu)化分派結果。相關(guān)成果發(fā)表在 ASE 2019。
  20. Neural Feature Search: A Neural Architecture for Automated Feature Engineering
  論文鏈接:
  文章提出了神經(jīng)特點(diǎn)搜索(Neural Feature Search,NFS),基于遞歸神經(jīng)網(wǎng)絡(luò )(Recurrent Neural Network,RNN)的控制器,通過(guò)最有潛力的變換規則變換每位原創(chuàng )特點(diǎn),取得了優(yōu)于現有手動(dòng)特點(diǎn)工程方式的性能。該成果已在在數據挖掘領(lǐng)域大會(huì ) ICDM 2019 發(fā)表,在手動(dòng)特點(diǎn)工程研究領(lǐng)域確立了新的技術(shù)水平。
  圖形學(xué)
  21. Repairing Man-Made Meshes via Visual Driven Global Optimization with Minimum Intrusion
  論文鏈接:
  文章提出的方式修補了 ShapeNet、ModelNet 等小型 3D 數據集中的模型缺陷。該文章發(fā)表在 SIGGRAPH Asia 2019。
  22. Learning Adaptive Hierarchical Cuboid Abstractions of 3D Shape 采集s
  論文鏈接:
  人造物體如衣柜一般具有結構化特點(diǎn),人類(lèi)可以容易地將那些物體抽象化為簡(jiǎn)單的幾何形狀的組合,如長(cháng)方體,便于物體理解和剖析。該論文通過(guò)在同類(lèi)物體上進(jìn)行無(wú)監督學(xué)習,生成具有自適應并層次化的長(cháng)方體具象抒發(fā)。文章發(fā)表在 SIGGRAPH Asia 2019。
  23. A Scalable Galerkin Multigrid Method for Real-time Simulation of Deformable Objects
  論文鏈接:
  一種在無(wú)結構網(wǎng)格上的 Galerkin 多重網(wǎng)格法,其極大加速了現有柔性體仿真技術(shù)的性能。該方式可實(shí)時(shí)仿真含近百萬(wàn)有限元的柔性體模型,將人們在虛擬世界中可交互的模型復雜度提高了一到兩個(gè)量級。該論文發(fā)表在 SIGGRAPH Asia 2019。
  24. Deep Inverse Rendering for High-resolution SVBRDF Estimation from an Arbitrary Number of Images
  論文鏈接:
  該論文提出了一種在紋理材質(zhì)本征空間進(jìn)行優(yōu)化的方式,實(shí)現了針對任意數目輸入圖片的紋理材質(zhì)建模。在給定圖象數目較少時(shí)給出視覺(jué)上合理的結果,而隨著(zhù)輸入數目的增多,逐漸得到更為精確的重建結果。該論文發(fā)表在 SIGGRAPH 2019。
  25. Synthesizing 3D Shapes from Silhouette Image 采集s using Multi-Projection Generative Adversarial Networks
  論文鏈接:
  利用二維輪廓圖象學(xué)習三維形體生成。該方式僅須要對于某一類(lèi)物體的大量二維輪廓圖象,并不需要任何對應關(guān)系,它通過(guò)該類(lèi)別物體在不同方向上的輪廓所具有的特點(diǎn)分布,學(xué)習并生成滿(mǎn)足這種訓練數據分布的三維形體。該論文發(fā)表在 CVPR 2019。 查看全部

  本文約3600字,建議閱讀10分鐘。
  2019年度數據智能與估算及圖形學(xué)領(lǐng)域論文推薦。
  數據智能
  1. Data-anonymous Encoding for Text-to-SQL Generation
  論文鏈接:
  在跨領(lǐng)域 Text-to-SQL 研究中一個(gè)重要的問(wèn)題是辨識自然語(yǔ)言句子中提及的列名、表格、及單元格的值。本文中提出了一種基于中間變量和多任務(wù)學(xué)習的框架,嘗試同時(shí)解決表格實(shí)體辨識和語(yǔ)義解析問(wèn)題,取得了良好的療效。論文在 EMNLP 2019 會(huì )議發(fā)表。
  2. Towards Complex Text-to-SQL in Cross-domain Database
  論文鏈接:
  計算機的可執行語(yǔ)言(例如 SQL 語(yǔ)句與儲存結構緊密相關(guān))與自然語(yǔ)言存在不匹配問(wèn)題,給復雜問(wèn)題的語(yǔ)義解析帶來(lái)了困難。為了解決這個(gè)問(wèn)題,論文中設計了一種中間語(yǔ)言。先將自然語(yǔ)言轉換成中間語(yǔ)言,再將中間語(yǔ)言轉換成 SQL,可以提升語(yǔ)義解析的準確率。該論文已在 ACL 2019 會(huì )議發(fā)表。
  3. Leveraging Adjective-Noun Phrasing Knowledge for Comparison Relation Prediction in Text-to-SQL
  論文鏈接:
  在自然語(yǔ)言理解中,知識的運用極其重要。本文以 Adjective-Noun Phrasing Knowledge 為切入點(diǎn)嘗試在 Text-to-SQL 中運用語(yǔ)言相關(guān)知識來(lái)提升語(yǔ)言理解的準確率。論文在 EMNLP 2019 會(huì )議發(fā)表。
  4. FANDA: A Novel Approach to Perform Follow-up Query Analysis
  論文鏈接:
  在多履帶對話(huà)中,對話(huà)句子中常常存在省略或指代,需要依據上下文來(lái)理解當前詞句。本文剖析總結了在對話(huà)式數據剖析中普遍出現的省略或指代現象,并提出了將當前句子補充完整的方式。論文發(fā)表在 AAAI 2019。
  5. A Split-and-Recombine Approach for Follow-up Query Analysis
  論文鏈接:
  本文中提出了一個(gè)處理上下文的 split-recombine 框架,能夠拿來(lái)有效處理對話(huà)句子中常常存在上下文省略或指代問(wèn)題。這個(gè)框架既可以用于將當前句子補充完整(restate),也可以直接生成 logic form(例如SQL)。論文發(fā)表在 EMNLP 2019。
  6. QuickInsights: Quick and Automatic Discovery of Insights from Multi-Dimensional Data
  論文鏈接:
  該論文創(chuàng )新性地提出了多維數據中洞察 (insights) 的一種普遍適用的具象定義,并系統化地提出了面向大規模多維數據的有效的洞察挖掘算法。文章發(fā)表在 SIGMOD 2019。相應技術(shù)從2015年起轉化到谷歌 Power BI,Office 365 等產(chǎn)品中。
  7. TableSense: Spreadsheet Table Detection with Convolutional Neural Networks
  論文鏈接:
  文章提出的基于深度學(xué)習模型的 TableSense 技術(shù),可對電子表格進(jìn)行區域監測和表格結構理解,并將其轉換為結構化的多維數據進(jìn)行手動(dòng)剖析。這項技術(shù)已轉化到谷歌的 Office 365 產(chǎn)品中,隨 Ideas in Excel 功能全面上線(xiàn)。文章發(fā)表在 AAAI 2019。
  8. Text-to-Viz: Automatic Generation of Infographics from Proportion-Related Natural language Statements
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,首創(chuàng )了由自然語(yǔ)言手動(dòng)生成數據信息圖(Infographics)的技術(shù)。該技術(shù)讓人們就能十分容易的獲得大量數據信息圖的設計,用于強化數據故事的抒發(fā)。
  9. DataShot: Automatic Generation of Fact Sheets from Tabular Data
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,提出了一種從數據表格出發(fā)手動(dòng)生成由多個(gè)數據信息圖組合而成的數據海報的技術(shù)。
  10. Towards Automated Infographic Design: Deep Learning-based Auto-Extraction of Extensible Timeline
  論文鏈接:
  該論文提出了一種手動(dòng)從圖片中抽取數據信息圖模板的技術(shù)。利用計算機視覺(jué)技術(shù),將時(shí)間軸的設計圖片分解成多個(gè)視覺(jué)元素并重新組合,使可視化時(shí)間軸設計圖片的重用成為了可能。該論文發(fā)表在 IEEE VIS 2019。
  11. Visualization Assessment: A Machine Learning Approach
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,探索了手動(dòng)評估可視化圖片特點(diǎn)的方式,比如記憶度、美觀(guān)度,讓機器學(xué)習的算法在可視化的生成、推薦中發(fā)揮作用。
  12. Supporting Story Synthesis: Bridging the Gap between Visual Analytics and Storytelling
  論文鏈接:
  該論文定義了一個(gè)新的故事生成框架,將數據剖析到結果展示的過(guò)程具象成普遍的故事生成流程。該框架支持交互式地從復雜的可視剖析結果中生成可以使普通讀者理解的故事。論文發(fā)表在 TVCG 2019。
  13. Cross-dataset Time Series Anomaly Detection for Cloud Systems
  論文鏈接:
  文章提出了基于遷移學(xué)習和主動(dòng)學(xué)習的跨數據集異常檢查框架,可以有效地在不同時(shí)間序列數據集之間進(jìn)行遷移,只須要1%-5% 的標明樣本量即可達到高精度檢查。文章發(fā)表在系統領(lǐng)域頂尖大會(huì ) USENIX ATC 2019 上。
  14. Robust Log-based Anomaly Detection on Unstable Log Data
  論文鏈接:
  文章提出了基于深度學(xué)習技術(shù)的模型 LogRobust,可有效克服日志不穩定問(wèn)題,在快速迭代的實(shí)際工業(yè)數據中取得了出色的療效,該研究發(fā)表在了軟件工程領(lǐng)域頂尖大會(huì ) FSE 2019。
  15. An Intelligent, End-To-End Analytics Service for Safe Deployment in Large-Scale Cloud Infrastructure
  論文鏈接:
  該文章提出了時(shí)空相關(guān)性模型,在時(shí)間和空間的雙重維度上對比故障前后的系統狀態(tài),為故障確診提供線(xiàn)索,該模型在安全布署中取得了很高的準確率,研究成果將發(fā)表在系統領(lǐng)域頂尖大會(huì ) NSDI 2020上。
  16. Outage Prediction and Diagnosis for Cloud Service Systems
  論文鏈接:
  該文章提出了一種智能的大規模中斷預警機制 AirAlert,AirAlert 采集整個(gè)云系統中的所有系統監控訊號,采用魯棒梯度提高樹(shù)算法做預測,并借助貝葉斯網(wǎng)絡(luò )進(jìn)行確診剖析。相關(guān)研究短文發(fā)表在 WWW 2019。
  17. Prediction-Guided Design for Software Systems
  論文鏈接:
  文章提出了智能緩沖區管理方式,基于預測導向(Prediction-Guided)框架,以機器學(xué)習預測引擎為核心,可監控集群已布署的工作負載與平臺操作,對這種負載在發(fā)生故障的機率和新的容量下降需求進(jìn)行預測,動(dòng)態(tài)調整預留緩沖區。該方式已成功集成到谷歌 Azure 中,提高了容量配置的穩健性,減少了巨大的成本開(kāi)支。相關(guān)研究將在 AAAI 2020 Workshop 發(fā)布。
  18. An Empirical Investigation of Incident Triage for Online Service Systems
  論文鏈接:
  該文章基于谷歌 20 個(gè)小型在線(xiàn)服務(wù)系統展開(kāi)實(shí)例研究,發(fā)現錯誤的故障分派會(huì )導致額外的時(shí)間開(kāi)支,進(jìn)而驗證了已有軟件 Bug 分派算法在故障分派場(chǎng)景下的療效。這是首次研究故障分派在工業(yè)小型在線(xiàn)服務(wù)系統中的實(shí)踐,相關(guān)研究發(fā)表在 ICSE SEIP 2019。
  19. Continuous Incident Triage for Large-Scale Online Service Systems
  論文鏈接:
  該文章提出一種基于深度學(xué)習的自動(dòng)化連續故障分派算法 DeepCT。DeepCT 結合了一個(gè)新的基于注意力機制的屏蔽策略、門(mén)控循環(huán)單元模型和改進(jìn)后的損失函數,可以從工程師對問(wèn)題的討論中逐漸積累知識并優(yōu)化分派結果。相關(guān)成果發(fā)表在 ASE 2019。
  20. Neural Feature Search: A Neural Architecture for Automated Feature Engineering
  論文鏈接:
  文章提出了神經(jīng)特點(diǎn)搜索(Neural Feature Search,NFS),基于遞歸神經(jīng)網(wǎng)絡(luò )(Recurrent Neural Network,RNN)的控制器,通過(guò)最有潛力的變換規則變換每位原創(chuàng )特點(diǎn),取得了優(yōu)于現有手動(dòng)特點(diǎn)工程方式的性能。該成果已在在數據挖掘領(lǐng)域大會(huì ) ICDM 2019 發(fā)表,在手動(dòng)特點(diǎn)工程研究領(lǐng)域確立了新的技術(shù)水平。
  圖形學(xué)
  21. Repairing Man-Made Meshes via Visual Driven Global Optimization with Minimum Intrusion
  論文鏈接:
  文章提出的方式修補了 ShapeNet、ModelNet 等小型 3D 數據集中的模型缺陷。該文章發(fā)表在 SIGGRAPH Asia 2019。
  22. Learning Adaptive Hierarchical Cuboid Abstractions of 3D Shape 采集s
  論文鏈接:
  人造物體如衣柜一般具有結構化特點(diǎn),人類(lèi)可以容易地將那些物體抽象化為簡(jiǎn)單的幾何形狀的組合,如長(cháng)方體,便于物體理解和剖析。該論文通過(guò)在同類(lèi)物體上進(jìn)行無(wú)監督學(xué)習,生成具有自適應并層次化的長(cháng)方體具象抒發(fā)。文章發(fā)表在 SIGGRAPH Asia 2019。
  23. A Scalable Galerkin Multigrid Method for Real-time Simulation of Deformable Objects
  論文鏈接:
  一種在無(wú)結構網(wǎng)格上的 Galerkin 多重網(wǎng)格法,其極大加速了現有柔性體仿真技術(shù)的性能。該方式可實(shí)時(shí)仿真含近百萬(wàn)有限元的柔性體模型,將人們在虛擬世界中可交互的模型復雜度提高了一到兩個(gè)量級。該論文發(fā)表在 SIGGRAPH Asia 2019。
  24. Deep Inverse Rendering for High-resolution SVBRDF Estimation from an Arbitrary Number of Images
  論文鏈接:
  該論文提出了一種在紋理材質(zhì)本征空間進(jìn)行優(yōu)化的方式,實(shí)現了針對任意數目輸入圖片的紋理材質(zhì)建模。在給定圖象數目較少時(shí)給出視覺(jué)上合理的結果,而隨著(zhù)輸入數目的增多,逐漸得到更為精確的重建結果。該論文發(fā)表在 SIGGRAPH 2019。
  25. Synthesizing 3D Shapes from Silhouette Image 采集s using Multi-Projection Generative Adversarial Networks
  論文鏈接:
  利用二維輪廓圖象學(xué)習三維形體生成。該方式僅須要對于某一類(lèi)物體的大量二維輪廓圖象,并不需要任何對應關(guān)系,它通過(guò)該類(lèi)別物體在不同方向上的輪廓所具有的特點(diǎn)分布,學(xué)習并生成滿(mǎn)足這種訓練數據分布的三維形體。該論文發(fā)表在 CVPR 2019。

Python+fiddler:爬取微信公眾號的文章

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 420 次瀏覽 ? 2020-08-13 00:35 ? 來(lái)自相關(guān)話(huà)題

  這幾天師傅有個(gè)小項目,挺有意思,如何使用python爬微信公眾號中的新聞信息。大體流程如下。
  
  圖1:流程
  其實(shí)我們看見(jiàn),這里并沒(méi)有想像中的“智能”——依然須要自動(dòng)刷公眾號文章,然后就能夠搜集到信息。(誤:更新的第9部份是愈發(fā)智能的操作,減少手刷)
  1. 電腦下載fiddler
  
  圖2:下載fiddler2. 安裝以后,點(diǎn)開(kāi)第一眼聽(tīng)到的是這樣
  
  圖3:fiddler第一次點(diǎn)開(kāi)以后
  這里附上fiddler的介紹。
  3. 設置
  
  圖4:設置Tools-Options-HTTPS
  然后設置Actions:點(diǎn)擊Actions,選擇Trust root certificate以及export root certificate to desktop(彈下來(lái)的提示都選Yes)。
  
  圖5:設置Actions
  
  圖6:設置Tools-Options-Connections4. 手機設置(我使用小米手機,其他手機大致一樣)
  
  圖7:設置手機WiFi代理(proxy)
  
  圖8:手機步入網(wǎng)址192.168.124.14:8888
  
  圖9:點(diǎn)擊FiddlerRoot Certificate
  
  圖10:下載以后安裝它,隨意命名,我命名為“Fiddler2”
  5. 重啟筆記本的Fiddler,手機點(diǎn)開(kāi)公眾號文章,電腦Fiddler搜集信息
  
  圖11:記錄
  
  圖12:具體剖析
  
  圖13:復制Fiddler記錄的鏈接,在瀏覽器中點(diǎn)開(kāi)
  
  圖14:過(guò)濾
  
  圖15:過(guò)濾以后的信息
  可以看見(jiàn),序號存在著(zhù)跳躍,因為過(guò)濾起到了作用。
  6. 將所有信息導入
  
  圖16:導出手機瀏覽記錄
  
  圖17:txt信息7. Python抽取公眾號信息
  import numpy as np
data = []
with open(r'...\1_Full.txt', 'r', encoding='utf-8') as fp:
for line in fp:
if 'Referer: https://mp.weixin.qq.com/' in line: //將含有重要信息的鏈接保留到data中
data.append(line[9:])
// 去重
data = np.unique(data)
  8. 通過(guò)筆記本陌陌客戶(hù)端抓取公眾號的信息
  在一遍一遍刷手機以后,本人勿必厭惡。。如果還能通過(guò)鍵盤(pán)點(diǎn)擊筆記本為內心客戶(hù)端,然后通過(guò)fiddler搜集信息,那么就不用刷手機了。。注意,在調整fiddler的時(shí)侯,anaconda的jupyter關(guān)掉(可以使用spyder),否則fiddler會(huì )出問(wèn)題。
  操作差不多。
  首先,將fiddler-Tools-Options-HTTPS,將Decrypt HTTPS traffic更改為“from all processes”.
  
  圖18:電腦搜集微信公眾號的操作
  然后,同樣在自己的瀏覽器中,輸入IP地址+8888,下載證書(shū)。
  
  圖19:下載FiddlerRoot證書(shū)
  下載以后進(jìn)行安裝。
  
  圖20:安裝證書(shū)
  其他設置filter和前面手機設置一樣,都是把關(guān)于wp.weixin的內容篩選下來(lái)。
  然后,刷筆記本端微信公眾號,那么filter才能夠記錄下所有的公眾號文章。注意,一旦打開(kāi)fiddler,那么筆記本難以訪(fǎng)問(wèn)其他網(wǎng)頁(yè),因為百度等防爬機制太嚴格,會(huì )檢查到fiddler早已啟動(dòng)。
  9. 更加手動(dòng)和智能的操作
  無(wú)論是刷手機搜集信息,還是通過(guò)筆記本端刷公眾號,依然是須要人點(diǎn)擊信息,不夠智能。這里在參考了新的案例以后,能夠進(jìn)行顛覆性的改進(jìn)。
  首先,本文后面的模塊仍然須要了解。當早已才能在筆記本端刷微信公眾號的文章、同時(shí)fiddler才能搜集https的信息,那么繼續往下。以“首都之窗”微信公眾號為例。
 ?。?)電腦陌陌端的操作
  打開(kāi)fiddler。
  點(diǎn)擊設置-通用設置-使用系統默認瀏覽器打開(kāi)網(wǎng)頁(yè)。
  
  圖21:電腦陌陌端設置
  然后,隨意點(diǎn)擊“首都之窗”的任意一篇文章,會(huì )在瀏覽器中彈下來(lái)。放在哪里,不用理會(huì )。順便把fiddler中記錄的這個(gè)文章信息刪了。留著(zhù)fiddler空白,記錄第25圖的重點(diǎn)內容!
  這一步的目的是為了才能順利在瀏覽器中打開(kāi)公眾號的歷史消息但是刷新。
  
  圖22:先點(diǎn)一篇文章
  
  圖23:該文章在瀏覽器彈下來(lái)
  
  圖24:完整操作
  接著(zhù),進(jìn)入“首都之窗”公眾號,點(diǎn)擊查看歷史消息。
  
  
  圖25:查看歷史消息
  同樣,“歷史消息”在瀏覽器(絕不能在陌陌客戶(hù)端下拉、因為fiddler收不到信息)中彈下來(lái),然后往下開(kāi)始刷幾下,需要聽(tīng)到有新的內容彈下來(lái),同時(shí)見(jiàn)到fiddler正在記錄更新的信息。fiddler更新的消息就是最重要的內容。
  
  圖26:在瀏覽器中下拉幾次“歷史消息”
 ?。?)fiddler信息剖析
  剛剛通過(guò)在瀏覽器下拉公眾號歷史消息,fiddler采集到了更新的信息。我們開(kāi)始剖析。
  
  圖27:分析由于下拉歷史消息而搜集到的某一條記錄
  選擇第8條記錄(該記錄來(lái)自瀏覽器中下拉歷史記錄而搜集到的消息),重點(diǎn)部份早已在headers中圈下來(lái)了。
 ?。?)鏈接分析(看不下去的話(huà),直接看代碼如何拼出鏈接)
  首先,在Request headers中,該鏈接簡(jiǎn)拼是 /mp/profile_ext?action=getmsg&__biz=MzA5NDY5MzUzMQ==&f=json&offset=20&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxtoken=&appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&x5=0&f=json HTTP/1.1
  分析這個(gè)鏈接??梢钥匆?jiàn),它是由幾個(gè)部份組成。
 ?、?mp/profile_ext?②action=getmsg ③&__biz=MzA5NDY5MzUzMQ== ④&f=json⑤&offset=20 ⑥&count=10 ⑦&is_ok=1 ⑧&scene=124 ⑨&uin=777 ⑩&key=777 &pass_ticket= &wxtoken= &appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~ &x5=0&f=json HTTP/1.1
  那么我們須要關(guān)注的信息是:
 ?、踎_biz:公眾號的id(公眾號的biz惟一),⑤offset:翻頁(yè)標志,appmsg_token:某個(gè)有時(shí)效性的token(隔一段時(shí)間會(huì )變化)
  我們再看下邊幾個(gè)鏈接
  GET /mp/profile_ext?action=getmsg&__biz=MzA5NDY5MzUzMQ==&f=json&offset=40&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxtoken=&appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&x5=0&f=json HTTP/1.1
  GET /mp/profile_ext?action=getmsg&__biz=MzA5NDY5MzUzMQ==&f=json&offset=60&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxtoken=&appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&x5=0&f=json HTTP/1.1
  biz和appmsg_token一致,offset改變,即為新的一頁(yè)。因此,第一步,我們早已找到了翻頁(yè)的規律。鏈接中只有這三個(gè)在變化,其他沒(méi)有變動(dòng)。因此,鏈接在python中才能寫(xiě)成:
  api = 'https://mp.weixin.qq.com/mp/pr ... iz%3D{0}&f=json&offset={1}&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxton=&appmsg_token={2}&x5=0&f=json HTTP/1.1'.format(
__biz, offset, appmsg_token)
 ?。?)cookie和headers
  cookie保存的是陌陌登陸的信息,在爬蟲(chóng)的時(shí)侯須要填進(jìn)去。我們只要關(guān)注wsp_sid2的cookies信息。
  cookies同樣來(lái)自圖27。找到wap_sid2=CK6vyK4CElxLdmda............
  headers同樣來(lái)自圖27。找到 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
 ?。?)爬取
  好的,以上找到了好多信息。初步的python如下:
  import requests
import json
# 鏈接拼接三個(gè)信息
__biz = "MzA5NDY5MzUzMQ=="
appmsg_token = "1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~"
offset = 20
# cookies和headers
cookies = "wap_sid2=CK6vyK4CElxLdmda......."
headers = {'Cookie':cookies,
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
}
# api拼出來(lái)
api = 'https://mp.weixin.qq.com/mp/pr ... iz%3D{0}&f=json&offset={1}&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxton=&appmsg_token={2}&x5=0&f=json HTTP/1.1'.format(
__biz, offset, appmsg_token)
# 抓取并且json化
resp = requests.get(api, headers = headers, verify=False).json()
  為什么須要把resp進(jìn)行json化?我們可以嘗試著(zhù)打開(kāi)9(3)一開(kāi)始的鏈接的網(wǎng)頁(yè),
  
  圖28:拼下來(lái)的api打開(kāi)的網(wǎng)頁(yè)長(cháng)這樣
  很明顯這是個(gè)json信息。因此須要json化。復制該網(wǎng)頁(yè)的全部文本,放在網(wǎng)頁(yè)中,可以看見(jiàn)完整的json結構。這就是resp的網(wǎng)頁(yè)結果。
  
  圖29:把圖28的文本信息復制置于中的結果
  那么resp在python中被json化以后的結果如下
  
  圖30:resp在python中的結構
 ?。?)網(wǎng)頁(yè)解析
  接下來(lái),關(guān)注該resp的結構以及一層一層剖析。圖30中resp中errmsg=ok和ret=0,均表示網(wǎng)頁(yè)可以正常打開(kāi)(如果報錯的話(huà),ret=-3)。next_offset是下一次翻頁(yè)的標志,需要保存上去。
  next_offset = resp.get('next_offset')
general_msg_list = resp.get('general_msg_list')
# 將general_msg_list轉為json格式
msg_list = json.loads(general_msg_list)['list']
  general_msg_list 是 重要的內容。點(diǎn)擊general_msg_list,這仍然是一個(gè)json結構。
  
  圖31:general_msg_list仍然是json結構。
  復制上面的文本,放到中瞧瞧是哪些。
  
  圖32:general_msg_list放在中的結果
  因此被json化以后的msg_list,在python中長(cháng)這樣
  
  圖33:把general_msg_list進(jìn)行json化在python中的樣子
  可以看見(jiàn),msg_list中富含10個(gè)記錄。我們抽出一個(gè)記錄,進(jìn)行具體剖析。在剖析之前,我們要明晰一個(gè)東西。msg_list中收錄了10個(gè)記錄,不是指10篇文章,而是10次推送。某一次公眾號推送消息,可能同時(shí)發(fā)布好幾條文章,也有可能是一篇文章。因此,要明白,單個(gè)msg記錄,是指一個(gè)推送(and可能一次性發(fā)布了好幾篇文章)。
  
  圖34:某一次推送,一起發(fā)布了3篇文章
  msg = msg_list[0]
  
  圖35:某一個(gè)具體的msg
  該msg上面收錄了“app_msg_ext_info”和“comm_msg_info”兩個(gè)內容。在中,這兩個(gè)內容分別長(cháng)這樣子。
  
  圖36:某一個(gè)msg具體的兩部份---app_msg_ext_info和comm_msg_info
  那么comm_msg_info收錄了該推送的基本信息:推送ID,時(shí)間等。
  app_msg_ext_info是哪些?且聽(tīng)我漸漸剖析。首先,title,digest仍然到is_multi,都是該次推送的打頭文章(就是圖34中帶圖片的那種文章的信息)。例如title標題/digest關(guān)鍵詞/content_url鏈接/source_url原鏈接等。
  is_multi是判定該次推送是不是有讀篇文章;=1表示yes,=0表示no。那么這兒等于1,說(shuō)明該次推送還有其他文章,存在于multi_app_msg_item_list中。
  把multi_app_msg_item_list取下來(lái)。
  multi_app_msg_item_list = app_msg_ext_info.get('multi_app_msg_item_list')
  
  圖37:該推送剩下的兩篇文章藏在multi_app_msg_item_list中
  到目前為止,我們早已剖析完了整體的流程。
  總結
  
  圖38:總結怎樣走出第一步
  
  圖39:具體剖析結構
 ?。?)具體代碼如下
<p>import requests
import json
from datetime import datetime
import pandas as pd
import time
class WxMps:

def __init__(self, biz, appmsg_token, cookies, offset, city):
self.biz = biz
self.msg_token = appmsg_token
self.offset = offset
self.headers = {&#39;Cookie&#39;:cookies, &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36&#39;
}
self.city = city

def parse1(self, resp):
# 控制下一個(gè)抓取的offset
offset = resp.get(&#39;next_offset&#39;)
# 將包含主要內容的list轉為json格式
general_msg_list = resp.get(&#39;general_msg_list&#39;)
# 一個(gè)msg_list中含有10個(gè)msg
msg_list = json.loads(general_msg_list)[&#39;list&#39;]
df1 = pd.DataFrame(columns = [&#39;msg_id&#39;, &#39;post_time&#39;, &#39;msg_type&#39;, &#39;title&#39;, &#39;cover&#39;, &#39;author&#39;, &#39;digest&#39;, &#39;source_url&#39;, &#39;content_url&#39;])
# 循環(huán)message列表
for msg in msg_list:
# msg是該推送的信息,包含了comm_msg_info以及app_msg_ext_info兩個(gè)信息,注意某一個(gè)推送中可能含有多個(gè)文章。
comm_msg_info = msg.get(&#39;comm_msg_info&#39;)
app_msg_ext_info = msg.get(&#39;app_msg_ext_info&#39;)

# 該推送的id
msg_id = comm_msg_info.get(&#39;id&#39;)
# 該推送的發(fā)布時(shí)間,例如1579965567需要轉化為datetime,datetime.fromtimestamp(1579965567)
post_time = datetime.fromtimestamp(comm_msg_info[&#39;datetime&#39;])
# 該推送的類(lèi)型
msg_type = comm_msg_info.get(&#39;type&#39;)

if app_msg_ext_info:
# 推送的第一篇文章
title, cover, author, digest, source_url, content_url = self.parse2(app_msg_ext_info)
df2 = self.df_process(msg_id, post_time, msg_type, title, cover, author, digest, source_url, content_url)
df1 = pd.concat([df1, df2])

# 判斷是不是多篇文章
is_multi = app_msg_ext_info.get("is_multi")
# 如果是1,繼續爬??;如果是0,單條推送=只有一篇文章
if is_multi:
multi_app_msg_item_list = app_msg_ext_info.get(&#39;multi_app_msg_item_list&#39;)
for information in multi_app_msg_item_list:
(title, cover, author, digest, source_url, content_url) = self.parse2(information)
df2 = self.df_process(msg_id, post_time, msg_type, title, cover, author, digest, source_url, content_url)
df1 = pd.concat([df1, df2])
return df1, offset

def start(self):
offset = self.offset
df1 = pd.DataFrame(columns = [&#39;msg_id&#39;, &#39;post_time&#39;, &#39;msg_type&#39;, &#39;title&#39;, &#39;cover&#39;, &#39;author&#39;, &#39;digest&#39;, &#39;source_url&#39;, &#39;content_url&#39;])

while offset 查看全部

  這幾天師傅有個(gè)小項目,挺有意思,如何使用python爬微信公眾號中的新聞信息。大體流程如下。
  
  圖1:流程
  其實(shí)我們看見(jiàn),這里并沒(méi)有想像中的“智能”——依然須要自動(dòng)刷公眾號文章,然后就能夠搜集到信息。(誤:更新的第9部份是愈發(fā)智能的操作,減少手刷)
  1. 電腦下載fiddler
  
  圖2:下載fiddler2. 安裝以后,點(diǎn)開(kāi)第一眼聽(tīng)到的是這樣
  
  圖3:fiddler第一次點(diǎn)開(kāi)以后
  這里附上fiddler的介紹。
  3. 設置
  
  圖4:設置Tools-Options-HTTPS
  然后設置Actions:點(diǎn)擊Actions,選擇Trust root certificate以及export root certificate to desktop(彈下來(lái)的提示都選Yes)。
  
  圖5:設置Actions
  
  圖6:設置Tools-Options-Connections4. 手機設置(我使用小米手機,其他手機大致一樣)
  
  圖7:設置手機WiFi代理(proxy)
  
  圖8:手機步入網(wǎng)址192.168.124.14:8888
  
  圖9:點(diǎn)擊FiddlerRoot Certificate
  
  圖10:下載以后安裝它,隨意命名,我命名為“Fiddler2”
  5. 重啟筆記本的Fiddler,手機點(diǎn)開(kāi)公眾號文章,電腦Fiddler搜集信息
  
  圖11:記錄
  
  圖12:具體剖析
  
  圖13:復制Fiddler記錄的鏈接,在瀏覽器中點(diǎn)開(kāi)
  
  圖14:過(guò)濾
  
  圖15:過(guò)濾以后的信息
  可以看見(jiàn),序號存在著(zhù)跳躍,因為過(guò)濾起到了作用。
  6. 將所有信息導入
  
  圖16:導出手機瀏覽記錄
  
  圖17:txt信息7. Python抽取公眾號信息
  import numpy as np
data = []
with open(r&#39;...\1_Full.txt&#39;, &#39;r&#39;, encoding=&#39;utf-8&#39;) as fp:
for line in fp:
if &#39;Referer: https://mp.weixin.qq.com/&#39; in line: //將含有重要信息的鏈接保留到data中
data.append(line[9:])
// 去重
data = np.unique(data)
  8. 通過(guò)筆記本陌陌客戶(hù)端抓取公眾號的信息
  在一遍一遍刷手機以后,本人勿必厭惡。。如果還能通過(guò)鍵盤(pán)點(diǎn)擊筆記本為內心客戶(hù)端,然后通過(guò)fiddler搜集信息,那么就不用刷手機了。。注意,在調整fiddler的時(shí)侯,anaconda的jupyter關(guān)掉(可以使用spyder),否則fiddler會(huì )出問(wèn)題。
  操作差不多。
  首先,將fiddler-Tools-Options-HTTPS,將Decrypt HTTPS traffic更改為“from all processes”.
  
  圖18:電腦搜集微信公眾號的操作
  然后,同樣在自己的瀏覽器中,輸入IP地址+8888,下載證書(shū)。
  
  圖19:下載FiddlerRoot證書(shū)
  下載以后進(jìn)行安裝。
  
  圖20:安裝證書(shū)
  其他設置filter和前面手機設置一樣,都是把關(guān)于wp.weixin的內容篩選下來(lái)。
  然后,刷筆記本端微信公眾號,那么filter才能夠記錄下所有的公眾號文章。注意,一旦打開(kāi)fiddler,那么筆記本難以訪(fǎng)問(wèn)其他網(wǎng)頁(yè),因為百度等防爬機制太嚴格,會(huì )檢查到fiddler早已啟動(dòng)。
  9. 更加手動(dòng)和智能的操作
  無(wú)論是刷手機搜集信息,還是通過(guò)筆記本端刷公眾號,依然是須要人點(diǎn)擊信息,不夠智能。這里在參考了新的案例以后,能夠進(jìn)行顛覆性的改進(jìn)。
  首先,本文后面的模塊仍然須要了解。當早已才能在筆記本端刷微信公眾號的文章、同時(shí)fiddler才能搜集https的信息,那么繼續往下。以“首都之窗”微信公眾號為例。
 ?。?)電腦陌陌端的操作
  打開(kāi)fiddler。
  點(diǎn)擊設置-通用設置-使用系統默認瀏覽器打開(kāi)網(wǎng)頁(yè)。
  
  圖21:電腦陌陌端設置
  然后,隨意點(diǎn)擊“首都之窗”的任意一篇文章,會(huì )在瀏覽器中彈下來(lái)。放在哪里,不用理會(huì )。順便把fiddler中記錄的這個(gè)文章信息刪了。留著(zhù)fiddler空白,記錄第25圖的重點(diǎn)內容!
  這一步的目的是為了才能順利在瀏覽器中打開(kāi)公眾號的歷史消息但是刷新。
  
  圖22:先點(diǎn)一篇文章
  
  圖23:該文章在瀏覽器彈下來(lái)
  
  圖24:完整操作
  接著(zhù),進(jìn)入“首都之窗”公眾號,點(diǎn)擊查看歷史消息。
  
  
  圖25:查看歷史消息
  同樣,“歷史消息”在瀏覽器(絕不能在陌陌客戶(hù)端下拉、因為fiddler收不到信息)中彈下來(lái),然后往下開(kāi)始刷幾下,需要聽(tīng)到有新的內容彈下來(lái),同時(shí)見(jiàn)到fiddler正在記錄更新的信息。fiddler更新的消息就是最重要的內容。
  
  圖26:在瀏覽器中下拉幾次“歷史消息”
 ?。?)fiddler信息剖析
  剛剛通過(guò)在瀏覽器下拉公眾號歷史消息,fiddler采集到了更新的信息。我們開(kāi)始剖析。
  
  圖27:分析由于下拉歷史消息而搜集到的某一條記錄
  選擇第8條記錄(該記錄來(lái)自瀏覽器中下拉歷史記錄而搜集到的消息),重點(diǎn)部份早已在headers中圈下來(lái)了。
 ?。?)鏈接分析(看不下去的話(huà),直接看代碼如何拼出鏈接)
  首先,在Request headers中,該鏈接簡(jiǎn)拼是 /mp/profile_ext?action=getmsg&amp;__biz=MzA5NDY5MzUzMQ==&amp;f=json&amp;offset=20&amp;count=10&amp;is_ok=1&amp;scene=124&amp;uin=777&amp;key=777&amp;pass_ticket=&amp;wxtoken=&amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&amp;x5=0&amp;f=json HTTP/1.1
  分析這個(gè)鏈接??梢钥匆?jiàn),它是由幾個(gè)部份組成。
 ?、?mp/profile_ext?②action=getmsg ③&amp;__biz=MzA5NDY5MzUzMQ== ④&amp;f=json⑤&amp;offset=20 ⑥&amp;count=10 ⑦&amp;is_ok=1 ⑧&amp;scene=124 ⑨&amp;uin=777 ⑩&amp;key=777 &amp;pass_ticket= &amp;wxtoken= &amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~ &amp;x5=0&amp;f=json HTTP/1.1
  那么我們須要關(guān)注的信息是:
 ?、踎_biz:公眾號的id(公眾號的biz惟一),⑤offset:翻頁(yè)標志,appmsg_token:某個(gè)有時(shí)效性的token(隔一段時(shí)間會(huì )變化)
  我們再看下邊幾個(gè)鏈接
  GET /mp/profile_ext?action=getmsg&amp;__biz=MzA5NDY5MzUzMQ==&amp;f=json&amp;offset=40&amp;count=10&amp;is_ok=1&amp;scene=124&amp;uin=777&amp;key=777&amp;pass_ticket=&amp;wxtoken=&amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&amp;x5=0&amp;f=json HTTP/1.1
  GET /mp/profile_ext?action=getmsg&amp;__biz=MzA5NDY5MzUzMQ==&amp;f=json&amp;offset=60&amp;count=10&amp;is_ok=1&amp;scene=124&amp;uin=777&amp;key=777&amp;pass_ticket=&amp;wxtoken=&amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&amp;x5=0&amp;f=json HTTP/1.1
  biz和appmsg_token一致,offset改變,即為新的一頁(yè)。因此,第一步,我們早已找到了翻頁(yè)的規律。鏈接中只有這三個(gè)在變化,其他沒(méi)有變動(dòng)。因此,鏈接在python中才能寫(xiě)成:
  api = &#39;https://mp.weixin.qq.com/mp/pr ... iz%3D{0}&f=json&offset={1}&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxton=&appmsg_token={2}&x5=0&f=json HTTP/1.1&#39;.format(
__biz, offset, appmsg_token)
 ?。?)cookie和headers
  cookie保存的是陌陌登陸的信息,在爬蟲(chóng)的時(shí)侯須要填進(jìn)去。我們只要關(guān)注wsp_sid2的cookies信息。
  cookies同樣來(lái)自圖27。找到wap_sid2=CK6vyK4CElxLdmda............
  headers同樣來(lái)自圖27。找到 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
 ?。?)爬取
  好的,以上找到了好多信息。初步的python如下:
  import requests
import json
# 鏈接拼接三個(gè)信息
__biz = "MzA5NDY5MzUzMQ=="
appmsg_token = "1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~"
offset = 20
# cookies和headers
cookies = "wap_sid2=CK6vyK4CElxLdmda......."
headers = {&#39;Cookie&#39;:cookies,
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
}
# api拼出來(lái)
api = &#39;https://mp.weixin.qq.com/mp/pr ... iz%3D{0}&f=json&offset={1}&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxton=&appmsg_token={2}&x5=0&f=json HTTP/1.1&#39;.format(
__biz, offset, appmsg_token)
# 抓取并且json化
resp = requests.get(api, headers = headers, verify=False).json()
  為什么須要把resp進(jìn)行json化?我們可以嘗試著(zhù)打開(kāi)9(3)一開(kāi)始的鏈接的網(wǎng)頁(yè),
  
  圖28:拼下來(lái)的api打開(kāi)的網(wǎng)頁(yè)長(cháng)這樣
  很明顯這是個(gè)json信息。因此須要json化。復制該網(wǎng)頁(yè)的全部文本,放在網(wǎng)頁(yè)中,可以看見(jiàn)完整的json結構。這就是resp的網(wǎng)頁(yè)結果。
  
  圖29:把圖28的文本信息復制置于中的結果
  那么resp在python中被json化以后的結果如下
  
  圖30:resp在python中的結構
 ?。?)網(wǎng)頁(yè)解析
  接下來(lái),關(guān)注該resp的結構以及一層一層剖析。圖30中resp中errmsg=ok和ret=0,均表示網(wǎng)頁(yè)可以正常打開(kāi)(如果報錯的話(huà),ret=-3)。next_offset是下一次翻頁(yè)的標志,需要保存上去。
  next_offset = resp.get(&#39;next_offset&#39;)
general_msg_list = resp.get(&#39;general_msg_list&#39;)
# 將general_msg_list轉為json格式
msg_list = json.loads(general_msg_list)[&#39;list&#39;]
  general_msg_list 是 重要的內容。點(diǎn)擊general_msg_list,這仍然是一個(gè)json結構。
  
  圖31:general_msg_list仍然是json結構。
  復制上面的文本,放到中瞧瞧是哪些。
  
  圖32:general_msg_list放在中的結果
  因此被json化以后的msg_list,在python中長(cháng)這樣
  
  圖33:把general_msg_list進(jìn)行json化在python中的樣子
  可以看見(jiàn),msg_list中富含10個(gè)記錄。我們抽出一個(gè)記錄,進(jìn)行具體剖析。在剖析之前,我們要明晰一個(gè)東西。msg_list中收錄了10個(gè)記錄,不是指10篇文章,而是10次推送。某一次公眾號推送消息,可能同時(shí)發(fā)布好幾條文章,也有可能是一篇文章。因此,要明白,單個(gè)msg記錄,是指一個(gè)推送(and可能一次性發(fā)布了好幾篇文章)。
  
  圖34:某一次推送,一起發(fā)布了3篇文章
  msg = msg_list[0]
  
  圖35:某一個(gè)具體的msg
  該msg上面收錄了“app_msg_ext_info”和“comm_msg_info”兩個(gè)內容。在中,這兩個(gè)內容分別長(cháng)這樣子。
  
  圖36:某一個(gè)msg具體的兩部份---app_msg_ext_info和comm_msg_info
  那么comm_msg_info收錄了該推送的基本信息:推送ID,時(shí)間等。
  app_msg_ext_info是哪些?且聽(tīng)我漸漸剖析。首先,title,digest仍然到is_multi,都是該次推送的打頭文章(就是圖34中帶圖片的那種文章的信息)。例如title標題/digest關(guān)鍵詞/content_url鏈接/source_url原鏈接等。
  is_multi是判定該次推送是不是有讀篇文章;=1表示yes,=0表示no。那么這兒等于1,說(shuō)明該次推送還有其他文章,存在于multi_app_msg_item_list中。
  把multi_app_msg_item_list取下來(lái)。
  multi_app_msg_item_list = app_msg_ext_info.get(&#39;multi_app_msg_item_list&#39;)
  
  圖37:該推送剩下的兩篇文章藏在multi_app_msg_item_list中
  到目前為止,我們早已剖析完了整體的流程。
  總結
  
  圖38:總結怎樣走出第一步
  
  圖39:具體剖析結構
 ?。?)具體代碼如下
<p>import requests
import json
from datetime import datetime
import pandas as pd
import time
class WxMps:

def __init__(self, biz, appmsg_token, cookies, offset, city):
self.biz = biz
self.msg_token = appmsg_token
self.offset = offset
self.headers = {&#39;Cookie&#39;:cookies, &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36&#39;
}
self.city = city

def parse1(self, resp):
# 控制下一個(gè)抓取的offset
offset = resp.get(&#39;next_offset&#39;)
# 將包含主要內容的list轉為json格式
general_msg_list = resp.get(&#39;general_msg_list&#39;)
# 一個(gè)msg_list中含有10個(gè)msg
msg_list = json.loads(general_msg_list)[&#39;list&#39;]
df1 = pd.DataFrame(columns = [&#39;msg_id&#39;, &#39;post_time&#39;, &#39;msg_type&#39;, &#39;title&#39;, &#39;cover&#39;, &#39;author&#39;, &#39;digest&#39;, &#39;source_url&#39;, &#39;content_url&#39;])
# 循環(huán)message列表
for msg in msg_list:
# msg是該推送的信息,包含了comm_msg_info以及app_msg_ext_info兩個(gè)信息,注意某一個(gè)推送中可能含有多個(gè)文章。
comm_msg_info = msg.get(&#39;comm_msg_info&#39;)
app_msg_ext_info = msg.get(&#39;app_msg_ext_info&#39;)

# 該推送的id
msg_id = comm_msg_info.get(&#39;id&#39;)
# 該推送的發(fā)布時(shí)間,例如1579965567需要轉化為datetime,datetime.fromtimestamp(1579965567)
post_time = datetime.fromtimestamp(comm_msg_info[&#39;datetime&#39;])
# 該推送的類(lèi)型
msg_type = comm_msg_info.get(&#39;type&#39;)

if app_msg_ext_info:
# 推送的第一篇文章
title, cover, author, digest, source_url, content_url = self.parse2(app_msg_ext_info)
df2 = self.df_process(msg_id, post_time, msg_type, title, cover, author, digest, source_url, content_url)
df1 = pd.concat([df1, df2])

# 判斷是不是多篇文章
is_multi = app_msg_ext_info.get("is_multi")
# 如果是1,繼續爬??;如果是0,單條推送=只有一篇文章
if is_multi:
multi_app_msg_item_list = app_msg_ext_info.get(&#39;multi_app_msg_item_list&#39;)
for information in multi_app_msg_item_list:
(title, cover, author, digest, source_url, content_url) = self.parse2(information)
df2 = self.df_process(msg_id, post_time, msg_type, title, cover, author, digest, source_url, content_url)
df1 = pd.concat([df1, df2])
return df1, offset

def start(self):
offset = self.offset
df1 = pd.DataFrame(columns = [&#39;msg_id&#39;, &#39;post_time&#39;, &#39;msg_type&#39;, &#39;title&#39;, &#39;cover&#39;, &#39;author&#39;, &#39;digest&#39;, &#39;source_url&#39;, &#39;content_url&#39;])

while offset

在時(shí)間關(guān)系數據上AutoML:一個(gè)新的前沿

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 221 次瀏覽 ? 2020-08-12 16:31 ? 來(lái)自相關(guān)話(huà)題

  作者:Flytxt
  翻譯:張恬鈺
  校對:李海明
  本文1600字,建議閱讀8分鐘。
  本文介紹了AutoML的發(fā)展歷史及其在時(shí)間關(guān)系數據上的應用方案。
  現實(shí)世界中的機器學(xué)習系統須要數據科學(xué)家和領(lǐng)域專(zhuān)家來(lái)構建和維護,而這樣的人才卻總是供不應求。自動(dòng)化機器學(xué)習(AutoML)由于在建立和維護機器學(xué)習工作流中的關(guān)鍵步驟中所顯露出的廣泛適用性,使得該領(lǐng)域的研究前景一片光明。它減少了人類(lèi)專(zhuān)家的工作負擔,使她們才能專(zhuān)注于復雜、非重復和具有創(chuàng )造性的學(xué)習問(wèn)題。
  AutoML的最新進(jìn)展主要包括從時(shí)間關(guān)系數據庫中手動(dòng)發(fā)覺(jué)有意義的表間關(guān)系的復雜功能合成(例如,深度特點(diǎn)綜合),使用模型手動(dòng)調整進(jìn)行概念漂移(例如,AutoGBT),以及深度學(xué)習模型的手動(dòng)設計(例如,神經(jīng)結構搜索),如圖1所示。這些研究進(jìn)展提升了數據科學(xué)家的生產(chǎn)力,從而明顯增強了AutoML系統的實(shí)用性,并促使非機器學(xué)習專(zhuān)家也才能處理現實(shí)中不同領(lǐng)域的數據科學(xué)問(wèn)題。
  
  圖1 AutoML進(jìn)化史
  在時(shí)間關(guān)系數據庫中使用AutoML
  在例如在線(xiàn)廣告,推薦系統,自動(dòng)與顧客交流等機器學(xué)習應用中,數據集可以跨越多個(gè)具有時(shí)間戳的相關(guān)表來(lái)顯示風(fēng)波的時(shí)間安排。而傳統方法則須要專(zhuān)家們通過(guò)冗長(cháng)的試錯法自動(dòng)組合表格來(lái)獲取有意義的特點(diǎn)。用于處理動(dòng)詞關(guān)系數據的AutoML考慮了相關(guān)關(guān)鍵數組的臨時(shí)聯(lián)接,并通過(guò)手動(dòng)發(fā)覺(jué)重要的表間關(guān)系來(lái)手動(dòng)進(jìn)行特點(diǎn)合成。
  在沒(méi)有域信息的情況下,實(shí)現基于動(dòng)詞關(guān)系數據的真實(shí)世界的AutoML案例包括手動(dòng)生成有用的動(dòng)詞信息和跨多個(gè)子表格有效合并特點(diǎn),且不會(huì )造成數據泄漏。除了這種困難外,還須要手動(dòng)選擇最佳的學(xué)習模型和受資源約束的超參數集,以讓解決方案足夠通用,并且符合時(shí)間和內容預算。
  有趣的是,今年的KDD杯舉辦了以AutoML為主題的挑戰賽,邀請了全世界AI / ML領(lǐng)域的研究和從業(yè)人員為動(dòng)詞關(guān)系數據庫開(kāi)發(fā)最新的AutoML。
  我們的解決方式
  我們的工作流程包括預處理,跨關(guān)系表的手動(dòng)特點(diǎn)合成,模型學(xué)習和預測這種步驟。預處理包括對于偏移校準的特點(diǎn)變換以及平方和三次特點(diǎn)的提高。它還包括分類(lèi)特點(diǎn)的頻率編碼,而特點(diǎn)是使用子表中聚合指標的時(shí)間連接手動(dòng)合成的。多數類(lèi)的實(shí)例將進(jìn)行下述取樣以保持1:3的百分比。漸進(jìn)式?jīng)Q策樹(shù)(GBDT)的Catboost實(shí)現可用于學(xué)習算法,交叉驗證則可用于參數調整來(lái)決定最佳樹(shù)的數目。圖2概括地描述了我們的工作流程:
  
  圖2 我們的模型管線(xiàn)
  時(shí)態(tài)數據聚合
  當動(dòng)詞關(guān)系數據跨越多個(gè)表格時(shí),找出表間的重要關(guān)系之后以最佳方法執行數據聚合將有助于特點(diǎn)提取。為了提取正確的特點(diǎn)表示,可對數字特點(diǎn)使用均值、求和等聚合運算,而對分類(lèi)特點(diǎn)則采用計數、眾數等運算。求頻度,聚合指標的估算須要在適當的時(shí)間窗口上使用交叉驗證完成。
  特征處理
  連接多個(gè)數據庫的表會(huì )形成高度偏移的特點(diǎn)。我們的特點(diǎn)預處理步驟包括偏移校準以及特點(diǎn)變換和提高。特征提高包括添加具有周期性的數字特點(diǎn)的平方和三次方變換以及正則或正切,日期時(shí)間特點(diǎn)的變換(例如,月,時(shí)和分)來(lái)豐富特點(diǎn)空間。還可對分類(lèi)特點(diǎn)進(jìn)行頻率編碼來(lái)進(jìn)一步擴大特點(diǎn)空間。
  模型選擇
  在估算和儲存方面,嘗試幾種線(xiàn)性和非線(xiàn)性模型的成本可能會(huì )十分高昂。由于梯度提高決策樹(shù)在處理分類(lèi)特點(diǎn)和可擴展性方面的魯棒性,我們將模型組合限制在CatBoost的實(shí)現上。同時(shí)使用交叉驗證對超參數(例如樹(shù)的數目)進(jìn)行調整,以防止過(guò)度擬合。
  我們的解決方案拓展了現有的AutoML研究項目組合,允許使用涉及不定式關(guān)系數據庫學(xué)習的用例??梢栽L(fǎng)問(wèn)Github儲存庫來(lái)查看我們的解決方案。
  AutoML趨勢
  隨著(zhù)行業(yè)越來(lái)越關(guān)注從AI中快速獲取價(jià)值并降低機器學(xué)習模型從原型到生產(chǎn)布署的周期時(shí)間,能夠增加AI準入門(mén)檻并實(shí)現AI工作流程自動(dòng)化的AutoML已成為重要推動(dòng)力。AutoML社區越來(lái)越關(guān)注于支持真實(shí)案例的使用,包括從結構化和非結構化數據、時(shí)態(tài)關(guān)系數據庫以及受概念甩尾影響的數據流中學(xué)習。
  盡管AutoML最初專(zhuān)注于最佳機器學(xué)習管線(xiàn)的手動(dòng)建立,隨著(zhù)時(shí)間的推移,對此類(lèi)管線(xiàn)手動(dòng)維護處理它的范圍正在擴大,模型自治性進(jìn)一步降低。AutoML的進(jìn)步和強悍的估算基礎設施的可借助性將促進(jìn)人機智能的融合,使得人類(lèi)專(zhuān)家才能更好地將精力集中在學(xué)習復雜的,非重復和創(chuàng )造性的問(wèn)題上,從而獲得更優(yōu)的解決方案。
  原文標題:
  AutoMLfor Temporal Relational Data: A New Frontier
  原文鏈接: 查看全部

  作者:Flytxt
  翻譯:張恬鈺
  校對:李海明
  本文1600字,建議閱讀8分鐘。
  本文介紹了AutoML的發(fā)展歷史及其在時(shí)間關(guān)系數據上的應用方案。
  現實(shí)世界中的機器學(xué)習系統須要數據科學(xué)家和領(lǐng)域專(zhuān)家來(lái)構建和維護,而這樣的人才卻總是供不應求。自動(dòng)化機器學(xué)習(AutoML)由于在建立和維護機器學(xué)習工作流中的關(guān)鍵步驟中所顯露出的廣泛適用性,使得該領(lǐng)域的研究前景一片光明。它減少了人類(lèi)專(zhuān)家的工作負擔,使她們才能專(zhuān)注于復雜、非重復和具有創(chuàng )造性的學(xué)習問(wèn)題。
  AutoML的最新進(jìn)展主要包括從時(shí)間關(guān)系數據庫中手動(dòng)發(fā)覺(jué)有意義的表間關(guān)系的復雜功能合成(例如,深度特點(diǎn)綜合),使用模型手動(dòng)調整進(jìn)行概念漂移(例如,AutoGBT),以及深度學(xué)習模型的手動(dòng)設計(例如,神經(jīng)結構搜索),如圖1所示。這些研究進(jìn)展提升了數據科學(xué)家的生產(chǎn)力,從而明顯增強了AutoML系統的實(shí)用性,并促使非機器學(xué)習專(zhuān)家也才能處理現實(shí)中不同領(lǐng)域的數據科學(xué)問(wèn)題。
  
  圖1 AutoML進(jìn)化史
  在時(shí)間關(guān)系數據庫中使用AutoML
  在例如在線(xiàn)廣告,推薦系統,自動(dòng)與顧客交流等機器學(xué)習應用中,數據集可以跨越多個(gè)具有時(shí)間戳的相關(guān)表來(lái)顯示風(fēng)波的時(shí)間安排。而傳統方法則須要專(zhuān)家們通過(guò)冗長(cháng)的試錯法自動(dòng)組合表格來(lái)獲取有意義的特點(diǎn)。用于處理動(dòng)詞關(guān)系數據的AutoML考慮了相關(guān)關(guān)鍵數組的臨時(shí)聯(lián)接,并通過(guò)手動(dòng)發(fā)覺(jué)重要的表間關(guān)系來(lái)手動(dòng)進(jìn)行特點(diǎn)合成。
  在沒(méi)有域信息的情況下,實(shí)現基于動(dòng)詞關(guān)系數據的真實(shí)世界的AutoML案例包括手動(dòng)生成有用的動(dòng)詞信息和跨多個(gè)子表格有效合并特點(diǎn),且不會(huì )造成數據泄漏。除了這種困難外,還須要手動(dòng)選擇最佳的學(xué)習模型和受資源約束的超參數集,以讓解決方案足夠通用,并且符合時(shí)間和內容預算。
  有趣的是,今年的KDD杯舉辦了以AutoML為主題的挑戰賽,邀請了全世界AI / ML領(lǐng)域的研究和從業(yè)人員為動(dòng)詞關(guān)系數據庫開(kāi)發(fā)最新的AutoML。
  我們的解決方式
  我們的工作流程包括預處理,跨關(guān)系表的手動(dòng)特點(diǎn)合成,模型學(xué)習和預測這種步驟。預處理包括對于偏移校準的特點(diǎn)變換以及平方和三次特點(diǎn)的提高。它還包括分類(lèi)特點(diǎn)的頻率編碼,而特點(diǎn)是使用子表中聚合指標的時(shí)間連接手動(dòng)合成的。多數類(lèi)的實(shí)例將進(jìn)行下述取樣以保持1:3的百分比。漸進(jìn)式?jīng)Q策樹(shù)(GBDT)的Catboost實(shí)現可用于學(xué)習算法,交叉驗證則可用于參數調整來(lái)決定最佳樹(shù)的數目。圖2概括地描述了我們的工作流程:
  
  圖2 我們的模型管線(xiàn)
  時(shí)態(tài)數據聚合
  當動(dòng)詞關(guān)系數據跨越多個(gè)表格時(shí),找出表間的重要關(guān)系之后以最佳方法執行數據聚合將有助于特點(diǎn)提取。為了提取正確的特點(diǎn)表示,可對數字特點(diǎn)使用均值、求和等聚合運算,而對分類(lèi)特點(diǎn)則采用計數、眾數等運算。求頻度,聚合指標的估算須要在適當的時(shí)間窗口上使用交叉驗證完成。
  特征處理
  連接多個(gè)數據庫的表會(huì )形成高度偏移的特點(diǎn)。我們的特點(diǎn)預處理步驟包括偏移校準以及特點(diǎn)變換和提高。特征提高包括添加具有周期性的數字特點(diǎn)的平方和三次方變換以及正則或正切,日期時(shí)間特點(diǎn)的變換(例如,月,時(shí)和分)來(lái)豐富特點(diǎn)空間。還可對分類(lèi)特點(diǎn)進(jìn)行頻率編碼來(lái)進(jìn)一步擴大特點(diǎn)空間。
  模型選擇
  在估算和儲存方面,嘗試幾種線(xiàn)性和非線(xiàn)性模型的成本可能會(huì )十分高昂。由于梯度提高決策樹(shù)在處理分類(lèi)特點(diǎn)和可擴展性方面的魯棒性,我們將模型組合限制在CatBoost的實(shí)現上。同時(shí)使用交叉驗證對超參數(例如樹(shù)的數目)進(jìn)行調整,以防止過(guò)度擬合。
  我們的解決方案拓展了現有的AutoML研究項目組合,允許使用涉及不定式關(guān)系數據庫學(xué)習的用例??梢栽L(fǎng)問(wèn)Github儲存庫來(lái)查看我們的解決方案。
  AutoML趨勢
  隨著(zhù)行業(yè)越來(lái)越關(guān)注從AI中快速獲取價(jià)值并降低機器學(xué)習模型從原型到生產(chǎn)布署的周期時(shí)間,能夠增加AI準入門(mén)檻并實(shí)現AI工作流程自動(dòng)化的AutoML已成為重要推動(dòng)力。AutoML社區越來(lái)越關(guān)注于支持真實(shí)案例的使用,包括從結構化和非結構化數據、時(shí)態(tài)關(guān)系數據庫以及受概念甩尾影響的數據流中學(xué)習。
  盡管AutoML最初專(zhuān)注于最佳機器學(xué)習管線(xiàn)的手動(dòng)建立,隨著(zhù)時(shí)間的推移,對此類(lèi)管線(xiàn)手動(dòng)維護處理它的范圍正在擴大,模型自治性進(jìn)一步降低。AutoML的進(jìn)步和強悍的估算基礎設施的可借助性將促進(jìn)人機智能的融合,使得人類(lèi)專(zhuān)家才能更好地將精力集中在學(xué)習復雜的,非重復和創(chuàng )造性的問(wèn)題上,從而獲得更優(yōu)的解決方案。
  原文標題:
  AutoMLfor Temporal Relational Data: A New Frontier
  原文鏈接:

基于主題爬蟲(chóng)與文本分類(lèi)的微博資訊智能生成策略研究

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 162 次瀏覽 ? 2020-08-11 13:57 ? 來(lái)自相關(guān)話(huà)題

  【摘要】:隨著(zhù)聯(lián)通互聯(lián)網(wǎng)的快速發(fā)展,中國手機網(wǎng)民數目早已趕超PC,各種手機應用層出不窮,其中手機微博早已成為使用率增速最快的手機應用。越來(lái)越多的人們使用微博進(jìn)行交流互動(dòng),尤其是在面向垂直細分領(lǐng)域的專(zhuān)業(yè)微博中,用戶(hù)有強烈的獲取權威資訊信息的需求。但是,傳統的微博欠缺良好的信息查詢(xún)與推送功能,難以滿(mǎn)足不同人群的信息獲取須要。因此,根據不同行業(yè)主題,利用微博平臺將互聯(lián)網(wǎng)上豐富的行業(yè)資訊信息進(jìn)行手動(dòng)采集推送,具有重要的理論研究和實(shí)際應用價(jià)值。在基于主題爬蟲(chóng)與文本分類(lèi)的微博資訊智能生成策略中,利用主題爬蟲(chóng)技術(shù)和文本分類(lèi)技術(shù)將互聯(lián)網(wǎng)上豐富的行業(yè)信息按主題進(jìn)行采集分類(lèi)并通過(guò)手機微博客戶(hù)端向特定用戶(hù)群體提供資訊查詢(xún)和推送服務(wù)。首先,在針對主題信息的采集中提出了一種面向特定領(lǐng)域的主題式爬取策略,通過(guò)對開(kāi)源爬蟲(chóng)框架Heritrix進(jìn)行主題模塊的擴充,使爬蟲(chóng)只抓取與特定主題相關(guān)的最新行業(yè)信息。其次,在網(wǎng)頁(yè)數據處理過(guò)程中通過(guò)改進(jìn)文本分類(lèi)算法,設計了一種英文網(wǎng)頁(yè)文本分類(lèi)器,對抓取的網(wǎng)頁(yè)按行業(yè)主題進(jìn)行手動(dòng)細分類(lèi)并提取數據生成有價(jià)值資訊信息。然后,通過(guò)手機微博平臺將分類(lèi)的信息通過(guò)設定的不同微博頻道或則智能帳號進(jìn)行動(dòng)態(tài)展示與發(fā)布。最后,以農業(yè)主題為例將基于主題爬蟲(chóng)與文本分類(lèi)的微博資訊智能生成策略應用在廣東手機農業(yè)微博中進(jìn)行農務(wù)資訊的生成與推送。在廣東手機農業(yè)微博中實(shí)現農業(yè)微博資訊的智能生成,并對微博資訊生成策略進(jìn)行了相關(guān)的功能和性能測試。實(shí)驗結果表明:這種微博資訊生成策略才能及時(shí)獲取最新行業(yè)相關(guān)資訊,進(jìn)行詳盡確切的信息分類(lèi)并提供便捷的查詢(xún)與推送服務(wù)。其中主題爬蟲(chóng)抓取的主題準確率達到87%以上,網(wǎng)頁(yè)文本分類(lèi)器的整體評估指數達到85%左右。 查看全部

  【摘要】:隨著(zhù)聯(lián)通互聯(lián)網(wǎng)的快速發(fā)展,中國手機網(wǎng)民數目早已趕超PC,各種手機應用層出不窮,其中手機微博早已成為使用率增速最快的手機應用。越來(lái)越多的人們使用微博進(jìn)行交流互動(dòng),尤其是在面向垂直細分領(lǐng)域的專(zhuān)業(yè)微博中,用戶(hù)有強烈的獲取權威資訊信息的需求。但是,傳統的微博欠缺良好的信息查詢(xún)與推送功能,難以滿(mǎn)足不同人群的信息獲取須要。因此,根據不同行業(yè)主題,利用微博平臺將互聯(lián)網(wǎng)上豐富的行業(yè)資訊信息進(jìn)行手動(dòng)采集推送,具有重要的理論研究和實(shí)際應用價(jià)值。在基于主題爬蟲(chóng)與文本分類(lèi)的微博資訊智能生成策略中,利用主題爬蟲(chóng)技術(shù)和文本分類(lèi)技術(shù)將互聯(lián)網(wǎng)上豐富的行業(yè)信息按主題進(jìn)行采集分類(lèi)并通過(guò)手機微博客戶(hù)端向特定用戶(hù)群體提供資訊查詢(xún)和推送服務(wù)。首先,在針對主題信息的采集中提出了一種面向特定領(lǐng)域的主題式爬取策略,通過(guò)對開(kāi)源爬蟲(chóng)框架Heritrix進(jìn)行主題模塊的擴充,使爬蟲(chóng)只抓取與特定主題相關(guān)的最新行業(yè)信息。其次,在網(wǎng)頁(yè)數據處理過(guò)程中通過(guò)改進(jìn)文本分類(lèi)算法,設計了一種英文網(wǎng)頁(yè)文本分類(lèi)器,對抓取的網(wǎng)頁(yè)按行業(yè)主題進(jìn)行手動(dòng)細分類(lèi)并提取數據生成有價(jià)值資訊信息。然后,通過(guò)手機微博平臺將分類(lèi)的信息通過(guò)設定的不同微博頻道或則智能帳號進(jìn)行動(dòng)態(tài)展示與發(fā)布。最后,以農業(yè)主題為例將基于主題爬蟲(chóng)與文本分類(lèi)的微博資訊智能生成策略應用在廣東手機農業(yè)微博中進(jìn)行農務(wù)資訊的生成與推送。在廣東手機農業(yè)微博中實(shí)現農業(yè)微博資訊的智能生成,并對微博資訊生成策略進(jìn)行了相關(guān)的功能和性能測試。實(shí)驗結果表明:這種微博資訊生成策略才能及時(shí)獲取最新行業(yè)相關(guān)資訊,進(jìn)行詳盡確切的信息分類(lèi)并提供便捷的查詢(xún)與推送服務(wù)。其中主題爬蟲(chóng)抓取的主題準確率達到87%以上,網(wǎng)頁(yè)文本分類(lèi)器的整體評估指數達到85%左右。

USB免驅攝像頭采集圖像【VS2012+opencv+directShow(Cc

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 510 次瀏覽 ? 2020-08-10 23:03 ? 來(lái)自相關(guān)話(huà)題

  在Opencv英文網(wǎng)站上有關(guān)于directShow和opencv結合采集圖像的教程,地址:%e4%bd%bf%e7%94%a8DirectShow%e9%87%87%e9%9b%86%e5%9b%be%e5%83%8f
  但是該配置比較老,本文述說(shuō)怎樣基于該教程在 VS2012和opencv2.4.9上進(jìn)行配置和更改,完成USB攝像頭的驅動(dòng)。
  博主的USB免驅攝像頭如下:
  
  文末有完整代碼的下載地址
  1.環(huán)境配置
  在Opencv英文網(wǎng)站上有關(guān)于directShow和opencv結合采集圖像的教程,地址:%e4%bd%bf%e7%94%a8DirectShow%e9%87%87%e9%9b%86%e5%9b%be%e5%83%8f
  但說(shuō)明中的“本文檔介紹的CCameraDS類(lèi)調用采集函數可直接返回IplImage,使用更方便,且集成了DirectShow,勿需安裝龐大的DirectX/Platform SDK”并不靠譜,DirectShow 似乎早已開(kāi)始被谷歌給淘汰了,最后存在是在多年前的 DirectX 9.0b 包里。
  注意這兒并不需要下載DirectX 9.0包,下面介紹在VS2012和opencv2.4.9下的配置過(guò)程。
  1.1 配置VS2012和opencv環(huán)境
  按照網(wǎng)上流行的配置即可,如 。配置好以后嘗試運行一個(gè)打開(kāi)圖片的小程序檢查opencv環(huán)境是否配置成功。
  1.2 配置DirectX環(huán)境
  新建工程,配置好Opencv環(huán)境,隨后將從Opencv英文網(wǎng)上下載的 CameraDS.h 和 CameraDS.cpp 文件分別添加到項目的頭文件和源文件中。
  VS2012旗艦版是自帶了 SDK 的,在 C:\Program Files (x86)\Microsoft SDKs\Windows\v7.1A\Include。
  打開(kāi)構建的VS2012項目的屬性頁(yè),找到“VC++目錄”,在“收錄目錄”里添加 (FrameworkSDKDir)Include,在“庫目錄”里添加(FrameworkSDKDir)Lib。
  發(fā)現#include “qedit.h”報錯,原因是現今的版本早已沒(méi)有qedit.h這個(gè)頭文件了,從網(wǎng)址: 中下載該文件,添加到項目的頭文件中。
  2. 運行
  環(huán)境配置好以后,可以用 Opencv英文網(wǎng) 上下載的main.cpp運行,運行過(guò)程可能碰到const char* 無(wú)法轉換的問(wèn)題,將此處的代碼除去即可。
  下面是本人編撰的main函數,提供了USB單反的打開(kāi)、監視、圖像捕獲功能。
  2.1 查看系統的所有攝像頭狀態(tài)(initAllCameras函數)
  參數是 CCameraDS 類(lèi)的對象。該函數獲取單反的數量而且顯示單反名稱(chēng)。從輸出中我們可以找到USB單反的編號,一般情況下編號為1。
  //獲取當前可用的攝像頭并打開(kāi)USB攝像頭
int initAllCameras(CCameraDS &m_CamDS){
//僅僅獲取攝像頭數目
int m_iCamCount = CCameraDS::CameraCount();
printf("There are %d cameras.\n", m_iCamCount);
if(m_iCamCount == 0)
{
return -1;
}
//獲取所有攝像頭的名稱(chēng)
for(int i = 0; i < m_iCamCount; i++)
{
char szCamName[1024];
int retval = m_CamDS.CameraName(i, szCamName, sizeof(szCamName));
if(retval >0)
{
printf("Camera #%d's Name is '%s'.\n", i, szCamName);
}
else
{
printf("Can not get Camera #%d's name.\n", i);
}
}
return m_iCamCount;
}
  運行結果如下所示:
  There are 3 cameras.
Camera #0's Name is 'Lenovo EasyCamera'.
Camera #1's Name is '3D Camera'.
Camera #2's Name is 'Basler GenICam Source'.
  從運行結果中可以看出,使用的3D相機的編號為1。
  2.2 打開(kāi)USB單反(openUsbCam函數)
  函數有四個(gè)參數,第一個(gè)參數為CcameraDS類(lèi)的對象,camNum設置為1,表明如今要打開(kāi)的USB單反,而不是筆記本自帶單反。camWidth和camHeight按照自己所使用單反的情況進(jìn)行設置,設置為圖象的長(cháng)度和高度。
  代碼如下:
<p>// 打開(kāi) USB 相機 !! 在調用 camDisplay 和 camCapPic 之前必須調用該函數
// camNum = 1; // 攝像頭編號為1,表示當前要使用的是 USB 攝像頭
// camWidth = 2560; // 圖片寬度
// camHeight = 720; // 圖片高度
int openUsbCam(CCameraDS &m_CamDS, const int camNum=1, const int camWidth=2560, const int camHeight = 720){
// 獲取當前可用的相機個(gè)數
// 在所有的相機中,一般編號為 0 的為電腦自帶攝像頭,編號為 1 的為要使用的 USB 攝像頭
int m_iCamCount = initAllCameras(m_CamDS);
if(m_iCamCount == -1){
cout 查看全部

  在Opencv英文網(wǎng)站上有關(guān)于directShow和opencv結合采集圖像的教程,地址:%e4%bd%bf%e7%94%a8DirectShow%e9%87%87%e9%9b%86%e5%9b%be%e5%83%8f
  但是該配置比較老,本文述說(shuō)怎樣基于該教程在 VS2012和opencv2.4.9上進(jìn)行配置和更改,完成USB攝像頭的驅動(dòng)。
  博主的USB免驅攝像頭如下:
  
  文末有完整代碼的下載地址
  1.環(huán)境配置
  在Opencv英文網(wǎng)站上有關(guān)于directShow和opencv結合采集圖像的教程,地址:%e4%bd%bf%e7%94%a8DirectShow%e9%87%87%e9%9b%86%e5%9b%be%e5%83%8f
  但說(shuō)明中的“本文檔介紹的CCameraDS類(lèi)調用采集函數可直接返回IplImage,使用更方便,且集成了DirectShow,勿需安裝龐大的DirectX/Platform SDK”并不靠譜,DirectShow 似乎早已開(kāi)始被谷歌給淘汰了,最后存在是在多年前的 DirectX 9.0b 包里。
  注意這兒并不需要下載DirectX 9.0包,下面介紹在VS2012和opencv2.4.9下的配置過(guò)程。
  1.1 配置VS2012和opencv環(huán)境
  按照網(wǎng)上流行的配置即可,如 。配置好以后嘗試運行一個(gè)打開(kāi)圖片的小程序檢查opencv環(huán)境是否配置成功。
  1.2 配置DirectX環(huán)境
  新建工程,配置好Opencv環(huán)境,隨后將從Opencv英文網(wǎng)上下載的 CameraDS.h 和 CameraDS.cpp 文件分別添加到項目的頭文件和源文件中。
  VS2012旗艦版是自帶了 SDK 的,在 C:\Program Files (x86)\Microsoft SDKs\Windows\v7.1A\Include。
  打開(kāi)構建的VS2012項目的屬性頁(yè),找到“VC++目錄”,在“收錄目錄”里添加 (FrameworkSDKDir)Include,在“庫目錄”里添加(FrameworkSDKDir)Lib。
  發(fā)現#include “qedit.h”報錯,原因是現今的版本早已沒(méi)有qedit.h這個(gè)頭文件了,從網(wǎng)址: 中下載該文件,添加到項目的頭文件中。
  2. 運行
  環(huán)境配置好以后,可以用 Opencv英文網(wǎng) 上下載的main.cpp運行,運行過(guò)程可能碰到const char* 無(wú)法轉換的問(wèn)題,將此處的代碼除去即可。
  下面是本人編撰的main函數,提供了USB單反的打開(kāi)、監視、圖像捕獲功能。
  2.1 查看系統的所有攝像頭狀態(tài)(initAllCameras函數)
  參數是 CCameraDS 類(lèi)的對象。該函數獲取單反的數量而且顯示單反名稱(chēng)。從輸出中我們可以找到USB單反的編號,一般情況下編號為1。
  //獲取當前可用的攝像頭并打開(kāi)USB攝像頭
int initAllCameras(CCameraDS &m_CamDS){
//僅僅獲取攝像頭數目
int m_iCamCount = CCameraDS::CameraCount();
printf("There are %d cameras.\n", m_iCamCount);
if(m_iCamCount == 0)
{
return -1;
}
//獲取所有攝像頭的名稱(chēng)
for(int i = 0; i < m_iCamCount; i++)
{
char szCamName[1024];
int retval = m_CamDS.CameraName(i, szCamName, sizeof(szCamName));
if(retval >0)
{
printf("Camera #%d's Name is '%s'.\n", i, szCamName);
}
else
{
printf("Can not get Camera #%d's name.\n", i);
}
}
return m_iCamCount;
}
  運行結果如下所示:
  There are 3 cameras.
Camera #0's Name is 'Lenovo EasyCamera'.
Camera #1's Name is '3D Camera'.
Camera #2's Name is 'Basler GenICam Source'.
  從運行結果中可以看出,使用的3D相機的編號為1。
  2.2 打開(kāi)USB單反(openUsbCam函數)
  函數有四個(gè)參數,第一個(gè)參數為CcameraDS類(lèi)的對象,camNum設置為1,表明如今要打開(kāi)的USB單反,而不是筆記本自帶單反。camWidth和camHeight按照自己所使用單反的情況進(jìn)行設置,設置為圖象的長(cháng)度和高度。
  代碼如下:
<p>// 打開(kāi) USB 相機 !! 在調用 camDisplay 和 camCapPic 之前必須調用該函數
// camNum = 1; // 攝像頭編號為1,表示當前要使用的是 USB 攝像頭
// camWidth = 2560; // 圖片寬度
// camHeight = 720; // 圖片高度
int openUsbCam(CCameraDS &m_CamDS, const int camNum=1, const int camWidth=2560, const int camHeight = 720){
// 獲取當前可用的相機個(gè)數
// 在所有的相機中,一般編號為 0 的為電腦自帶攝像頭,編號為 1 的為要使用的 USB 攝像頭
int m_iCamCount = initAllCameras(m_CamDS);
if(m_iCamCount == -1){
cout

被動(dòng)信息搜集----指紋辨識(CMS辨識)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 214 次瀏覽 ? 2020-08-10 21:24 ? 來(lái)自相關(guān)話(huà)題

  一、指紋辨識
  1.指紋識別介紹
  指紋因為其具有不變性、唯一性和方便性,使其可以被惟一的標示。而對于每位網(wǎng)站來(lái)說(shuō),他們也具有可標識性,我們通常通過(guò)網(wǎng)站CMS辨識、計算機操作系統辨識以及web容器辨識來(lái)標示網(wǎng)站。
  2.指紋辨識的目的
  在滲透測試中,對目標服務(wù)器進(jìn)行指紋辨識是十分有必要的,因為只有辨識出相應的web容器或則CMS,才能查看與其相關(guān)的漏洞,然后借助可用的漏洞進(jìn)行相應的滲透測試。
  二、CMS介紹
  CMS(Content Management System)又稱(chēng)整站系統或文章系統。在2004年以前,如果想進(jìn)行網(wǎng)站內容管理,基本上須要靠自動(dòng)維護,但在信息爆燃的時(shí)代,完全靠手工維護都會(huì )相當苦悶。所以就出現了CMS,開(kāi)發(fā)者只須要給顧客一個(gè)軟件包,客戶(hù)自己安裝配置好,就可以定期更新數據來(lái)維護網(wǎng)站,節省了大量的人力和物力。
  三、常見(jiàn)CMS介紹
  php類(lèi)cms系統:dedeCMS、帝國CMS、php168、phpCMS、cmstop、discuz、phpwind等
  asp類(lèi)cms系統:zblog、KingCMS等
  .net類(lèi)cms系統:EoyooCMS等
  國外的知名cms系統:joomla、WordPress 、magento、drupal 、mambo等
  (1):DedeCMS(織夢(mèng))
  織夢(mèng)內容管理系統(DedeCMS)以簡(jiǎn)單、實(shí)用、開(kāi)源而享譽(yù),是國外最著(zhù)名的PHP開(kāi)源網(wǎng)站管理系統,也是使用用戶(hù)最多的PHP類(lèi)CMS系統。DedeCMS免費版主要目標鎖定在個(gè)人站長(cháng),功能愈發(fā)專(zhuān)注于個(gè)人網(wǎng)站或中小型門(mén)戶(hù)的建立,當然也有企業(yè)用戶(hù)和中學(xué)等在使用本系統。
  (2):Discuz
  Crossday Discuz! Board(簡(jiǎn)稱(chēng)Discuz!)是康盛創(chuàng )想(北京)科技有限公司推出的一套通用的社區峰會(huì )軟件系統,用戶(hù)可以在不需要任何編程的基礎上,通過(guò)簡(jiǎn)單的設置和安裝,在互聯(lián)網(wǎng)上搭建起具備建立功能、很強負載能力和可高度訂制的峰會(huì )服務(wù)。Discuz! 的基礎構架采用世界上最流行的web編程組合PHP+MySQL實(shí)現,是一個(gè)經(jīng)過(guò)建立設計,適用于各類(lèi)服務(wù)器環(huán)境的高效峰會(huì )系統解決方案。
  (3):帝國CMS
  帝國CMS又稱(chēng)為Empire CMS,簡(jiǎn)稱(chēng)Ecms,它是基于B/S結構而且功能強悍而易用的網(wǎng)站管理系統。它采用了系統模型功能:用戶(hù)通過(guò)此功能可直接在后臺擴充與實(shí)現各類(lèi)系統,因此又被稱(chēng)為是萬(wàn)能建站工具。帝國CMS具有強悍的功能,并且現今早已全部開(kāi)源。
  (4):WordPress
  WordPress是使用PHP語(yǔ)言開(kāi)發(fā)的博客平臺,用戶(hù)可以在支持PHP和MySQL數據庫的服務(wù)器上架設屬于自己的網(wǎng)站,WordPress也被當做一個(gè)內容管理系統(CMS)。WordPress是一款個(gè)人博客系統,使用PHP和MySQL語(yǔ)言進(jìn)行開(kāi)發(fā)的。
  四、判斷CMS的方式
  1.查看robots.txt文件
  robots.txt文件中儲存的是一些嚴禁被爬蟲(chóng)爬取的目錄,因此有些robots.txt文件中都會(huì )儲存一些關(guān)于CMS的敏感信息。例如假如robots.txt文件中存在wp-admin目錄,那么就表名這個(gè)CMS是WordPress。
  
  2.查看網(wǎng)頁(yè)源代碼
  在有些網(wǎng)站中的源代碼中會(huì )儲存著(zhù)網(wǎng)站的CMS信息和相應的版本信息,通過(guò)查看源代碼可以發(fā)覺(jué)使用的CMS類(lèi)別。 查看全部

  一、指紋辨識
  1.指紋識別介紹
  指紋因為其具有不變性、唯一性和方便性,使其可以被惟一的標示。而對于每位網(wǎng)站來(lái)說(shuō),他們也具有可標識性,我們通常通過(guò)網(wǎng)站CMS辨識、計算機操作系統辨識以及web容器辨識來(lái)標示網(wǎng)站。
  2.指紋辨識的目的
  在滲透測試中,對目標服務(wù)器進(jìn)行指紋辨識是十分有必要的,因為只有辨識出相應的web容器或則CMS,才能查看與其相關(guān)的漏洞,然后借助可用的漏洞進(jìn)行相應的滲透測試。
  二、CMS介紹
  CMS(Content Management System)又稱(chēng)整站系統或文章系統。在2004年以前,如果想進(jìn)行網(wǎng)站內容管理,基本上須要靠自動(dòng)維護,但在信息爆燃的時(shí)代,完全靠手工維護都會(huì )相當苦悶。所以就出現了CMS,開(kāi)發(fā)者只須要給顧客一個(gè)軟件包,客戶(hù)自己安裝配置好,就可以定期更新數據來(lái)維護網(wǎng)站,節省了大量的人力和物力。
  三、常見(jiàn)CMS介紹
  php類(lèi)cms系統:dedeCMS、帝國CMS、php168、phpCMS、cmstop、discuz、phpwind等
  asp類(lèi)cms系統:zblog、KingCMS等
  .net類(lèi)cms系統:EoyooCMS等
  國外的知名cms系統:joomla、WordPress 、magento、drupal 、mambo等
  (1):DedeCMS(織夢(mèng))
  織夢(mèng)內容管理系統(DedeCMS)以簡(jiǎn)單、實(shí)用、開(kāi)源而享譽(yù),是國外最著(zhù)名的PHP開(kāi)源網(wǎng)站管理系統,也是使用用戶(hù)最多的PHP類(lèi)CMS系統。DedeCMS免費版主要目標鎖定在個(gè)人站長(cháng),功能愈發(fā)專(zhuān)注于個(gè)人網(wǎng)站或中小型門(mén)戶(hù)的建立,當然也有企業(yè)用戶(hù)和中學(xué)等在使用本系統。
  (2):Discuz
  Crossday Discuz! Board(簡(jiǎn)稱(chēng)Discuz!)是康盛創(chuàng )想(北京)科技有限公司推出的一套通用的社區峰會(huì )軟件系統,用戶(hù)可以在不需要任何編程的基礎上,通過(guò)簡(jiǎn)單的設置和安裝,在互聯(lián)網(wǎng)上搭建起具備建立功能、很強負載能力和可高度訂制的峰會(huì )服務(wù)。Discuz! 的基礎構架采用世界上最流行的web編程組合PHP+MySQL實(shí)現,是一個(gè)經(jīng)過(guò)建立設計,適用于各類(lèi)服務(wù)器環(huán)境的高效峰會(huì )系統解決方案。
  (3):帝國CMS
  帝國CMS又稱(chēng)為Empire CMS,簡(jiǎn)稱(chēng)Ecms,它是基于B/S結構而且功能強悍而易用的網(wǎng)站管理系統。它采用了系統模型功能:用戶(hù)通過(guò)此功能可直接在后臺擴充與實(shí)現各類(lèi)系統,因此又被稱(chēng)為是萬(wàn)能建站工具。帝國CMS具有強悍的功能,并且現今早已全部開(kāi)源。
  (4):WordPress
  WordPress是使用PHP語(yǔ)言開(kāi)發(fā)的博客平臺,用戶(hù)可以在支持PHP和MySQL數據庫的服務(wù)器上架設屬于自己的網(wǎng)站,WordPress也被當做一個(gè)內容管理系統(CMS)。WordPress是一款個(gè)人博客系統,使用PHP和MySQL語(yǔ)言進(jìn)行開(kāi)發(fā)的。
  四、判斷CMS的方式
  1.查看robots.txt文件
  robots.txt文件中儲存的是一些嚴禁被爬蟲(chóng)爬取的目錄,因此有些robots.txt文件中都會(huì )儲存一些關(guān)于CMS的敏感信息。例如假如robots.txt文件中存在wp-admin目錄,那么就表名這個(gè)CMS是WordPress。
  
  2.查看網(wǎng)頁(yè)源代碼
  在有些網(wǎng)站中的源代碼中會(huì )儲存著(zhù)網(wǎng)站的CMS信息和相應的版本信息,通過(guò)查看源代碼可以發(fā)覺(jué)使用的CMS類(lèi)別。

優(yōu)采云QQ群聊天消息文章生成器下載 1.7.0.1 試用版

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 179 次瀏覽 ? 2020-08-10 12:39 ? 來(lái)自相關(guān)話(huà)題

  優(yōu)采云QQ群聊天消息文章生成器是一款可以將QQ聊天,尤其是群聊天的大量原創(chuàng )內容,進(jìn)行處理后生產(chǎn)出原創(chuàng )文章來(lái),雖然個(gè)他人會(huì )復制文章來(lái)粘貼,但它們的特點(diǎn)很容易辨識,往往是篇幅很大的,這時(shí)你可以設定單條消息字數超過(guò)某甲字數就忽視。
  
  工作流程:
  1、分析QQ導入的TXT格式聊天消息記錄文件,得到精確的每條消息
  2、將每條消息進(jìn)行過(guò)濾、插入前后綴文字等修飾后,按設定的數目進(jìn)行組合(如一個(gè)消息文件有1萬(wàn)條記錄,按100條消息一篇的組合,能生產(chǎn)100篇原創(chuàng )文章)
  3、可以對組合的結果插入關(guān)鍵詞或該消息文件的文件名
  4、一篇篇純原創(chuàng )的文章就此誕生!
  功能特性:
  1、分析QQ消息文件,精確獲取每一條消息文本
  2、全局攪亂消息
  3、內置過(guò)濾(如過(guò)濾網(wǎng)址、郵箱等)
  4、內置屏蔽詞替換(QQ聊天時(shí)常常說(shuō)到好多敏感詞句)
  5、自動(dòng)消除多余標點(diǎn)符號(多個(gè)標點(diǎn)符號相連時(shí),只保留一個(gè),讓文章看起來(lái)更真實(shí)和順眼)
  6、消息支持合縱連橫組合。(連橫,即多條原創(chuàng )消息連在一起作為單條消息,以合并符分隔,合縱,即多個(gè)單條消息組合為一篇原創(chuàng )文章)
  7、單條消息支持前后綴插入,如常見(jiàn)的段落網(wǎng)頁(yè)標簽”《p》《/p》“
  8、支持插入詞到標題,支持插入隨機詞到文章(更可手動(dòng)組合錨文本)
  9、文章標題智能提取組合的結果中的隨機一句。
  10、批量選擇多個(gè)QQ消息文件,一鍵處理,大功告成,文章滾滾來(lái)??!
  更新日志:
  改造為支持OEM代理
  官方網(wǎng)站:
  相關(guān)搜索:QQ聊天記錄 查看全部

  優(yōu)采云QQ群聊天消息文章生成器是一款可以將QQ聊天,尤其是群聊天的大量原創(chuàng )內容,進(jìn)行處理后生產(chǎn)出原創(chuàng )文章來(lái),雖然個(gè)他人會(huì )復制文章來(lái)粘貼,但它們的特點(diǎn)很容易辨識,往往是篇幅很大的,這時(shí)你可以設定單條消息字數超過(guò)某甲字數就忽視。
  
  工作流程:
  1、分析QQ導入的TXT格式聊天消息記錄文件,得到精確的每條消息
  2、將每條消息進(jìn)行過(guò)濾、插入前后綴文字等修飾后,按設定的數目進(jìn)行組合(如一個(gè)消息文件有1萬(wàn)條記錄,按100條消息一篇的組合,能生產(chǎn)100篇原創(chuàng )文章)
  3、可以對組合的結果插入關(guān)鍵詞或該消息文件的文件名
  4、一篇篇純原創(chuàng )的文章就此誕生!
  功能特性:
  1、分析QQ消息文件,精確獲取每一條消息文本
  2、全局攪亂消息
  3、內置過(guò)濾(如過(guò)濾網(wǎng)址、郵箱等)
  4、內置屏蔽詞替換(QQ聊天時(shí)常常說(shuō)到好多敏感詞句)
  5、自動(dòng)消除多余標點(diǎn)符號(多個(gè)標點(diǎn)符號相連時(shí),只保留一個(gè),讓文章看起來(lái)更真實(shí)和順眼)
  6、消息支持合縱連橫組合。(連橫,即多條原創(chuàng )消息連在一起作為單條消息,以合并符分隔,合縱,即多個(gè)單條消息組合為一篇原創(chuàng )文章)
  7、單條消息支持前后綴插入,如常見(jiàn)的段落網(wǎng)頁(yè)標簽”《p》《/p》“
  8、支持插入詞到標題,支持插入隨機詞到文章(更可手動(dòng)組合錨文本)
  9、文章標題智能提取組合的結果中的隨機一句。
  10、批量選擇多個(gè)QQ消息文件,一鍵處理,大功告成,文章滾滾來(lái)??!
  更新日志:
  改造為支持OEM代理
  官方網(wǎng)站:
  相關(guān)搜索:QQ聊天記錄

人工智能+工程師的組合,或將滿(mǎn)足日漸下降的網(wǎng)路安全需求

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 198 次瀏覽 ? 2020-08-10 02:25 ? 來(lái)自相關(guān)話(huà)題

  哪怕堪稱(chēng)網(wǎng)路最安全的日本,也躲不過(guò)黑客的功擊。那么為什么不將人工智能和工程師結合,實(shí)現更完善的網(wǎng)路安全。
  北京時(shí)間10月22日凌晨,美國域名服務(wù)器管理服務(wù)供應商Dyn宣布,該公司在當地時(shí)間周五早上遭到了DDoS(分布式拒絕服務(wù))攻擊,這一情況造成許多網(wǎng)站在英國東海岸地區宕機。Twitter、Tumblr、Netflix、Amazon、PayPal等眾多人氣網(wǎng)站無(wú)一幸免。
  
  許多受此影響的公司都在Twitter上發(fā)布消息,向其用戶(hù)發(fā)出了網(wǎng)站宕機的通知,亞馬遜報告報稱(chēng)有一次服務(wù)中斷,午后已解決問(wèn)題。由于影響范圍太廣,著(zhù)名的科技博客Gizmodo甚至表示半個(gè)互聯(lián)網(wǎng)都關(guān)掉了,而按照網(wǎng)友們反饋,此次黑客攻擊造成83家網(wǎng)站受影響。
  三波網(wǎng)路功擊,來(lái)自上千萬(wàn)IP地址
  根據Dyn的說(shuō)法,最早的一次功擊源于周五早上7點(diǎn)(北京時(shí)間周五晚上7點(diǎn))過(guò)后,此次功擊干擾干擾了Dyn運作約兩小時(shí)。隨即,工作人員進(jìn)行了搶險,在當天上午9點(diǎn)半左右恢復了營(yíng)運。但是僅在幾小時(shí)后,Dyn就受到第二次功擊,運營(yíng)再度遭到干擾。北京時(shí)間今天凌晨4點(diǎn)30分左右Dyn又受到第三次功擊。
  
  Dyn是日本最主要的DNS服務(wù)商,他們的主要職責就是將域名解析為IP地址,將網(wǎng)友引入正確的網(wǎng)站。此次Dyn遭到功擊以后,會(huì )導致日本大部分地區網(wǎng)民在懇求鏈接某網(wǎng)站的時(shí)侯會(huì )失敗,即使你按F5不斷刷新也沒(méi)有用。
  很顯然,這是一次有組織有蓄謀的網(wǎng)路功擊行為,攻擊行為來(lái)自超過(guò)一千萬(wàn)IP來(lái)源。此外,Dyn也表示這當中有幾百萬(wàn)惡意功擊的源頭是物聯(lián)網(wǎng)聯(lián)系的所謂“智能”家居產(chǎn)品。Dyn的首席策略官Kyle York在電話(huà)會(huì )議上甚至說(shuō),黑客們“真正在做的是用每次功擊撼動(dòng)世界?!?br />   單獨借助人工智能或則工程師難以做到維護網(wǎng)路安全
  網(wǎng)絡(luò )安全的維護一般都是由工程師們完成的,但是一次又一次的網(wǎng)路黑客侵襲風(fēng)波證明了,工程師們并沒(méi)有絕對的掌握保障網(wǎng)路安全。那么假如由人工智能來(lái)接替工程師,是否能夠保障網(wǎng)路安全呢?答案也是否定的。哪怕是新型混雜式系統,基于人工智能(AI)梳理數據,并將當前可疑行為遞交給剖析人員,也僅才能測量85%的功擊。
  
  人工智能在維護網(wǎng)路安全上可以做到的自動(dòng)化和漏洞修復技術(shù)包括:動(dòng)態(tài)剖析(Dynamic Analysis)、靜態(tài)剖析(Static Analysis)、符號執行(Symbolic Execution)、約束求解、數據流跟蹤技術(shù)(Data Flow Tracking)以及模糊測試(Fuzz Testing)等,并和其他半自動(dòng)化技術(shù)搭配,形成一整套全手動(dòng)的網(wǎng)路決策推理系統(Cyber Reasoning System,CRS)。
  很明顯,人工智能才能在改善聯(lián)通安全和網(wǎng)路安全方面發(fā)揮作用,做好避免網(wǎng)路恐嚇逼搶和網(wǎng)路安全防御舉措。但是,人工智能也只能測量到85%的功擊,而并非100%。
  由此可見(jiàn),如果單獨借助單獨借助人工智能或則工程師,無(wú)法做到百分百的網(wǎng)路安全。
  人工智能+工程師,合作以后或將構建更強大的網(wǎng)路安全
  既然工程師和人工智能都難以單獨在網(wǎng)路安全維護工作上取得壓倒性成功,為什么不試著(zhù)把三者整合上去呢?
  在網(wǎng)路安全的世界里,以人為主的技術(shù)主要依賴(lài)專(zhuān)業(yè)人員完善的規則,因此不符合規則的功擊就被錯過(guò)。而初期網(wǎng)路安全方面的機器學(xué)習則依賴(lài)于異常檢查,因此常常容易誤報,“狼來(lái)了”太多,最終造成其并不被看好。
  
  但是,隨著(zhù)人工智能技術(shù)的日漸發(fā)展,在現今的網(wǎng)路安全領(lǐng)域,它可以是一個(gè)虛擬的分析員,在發(fā)覺(jué)黑客攻擊以后,第一時(shí)間交由人類(lèi)分析員來(lái)判斷,之后系統再把判定結果整合到模型中,作為下一個(gè)數據集的測量標準,然后不斷循環(huán)這個(gè)過(guò)程。這也就意味著(zhù),在保證極大地提高檢測率的同時(shí),還可以提高未來(lái)的預測準確率。
  因此,使用人工智能來(lái)學(xué)習并找到最有可能是功擊的風(fēng)波,然后交給人類(lèi)專(zhuān)家去判定,并且協(xié)助人類(lèi)工程師進(jìn)行網(wǎng)路安全防護,是一個(gè)結合二者優(yōu)勢以后最有效的辦法。
  世界上并沒(méi)有絕對的網(wǎng)路安全,防患于未然只是更好的選擇
  俗話(huà)說(shuō)的好“魔高一尺道高一丈”,先有魔,后有道。如今的“道”,已經(jīng)實(shí)現人工智能的廣泛應用,而“魔”呢?黑客雖然已經(jīng)實(shí)現完全自動(dòng)化了......攻擊的投放、發(fā)起、滲透,只是在其中幾個(gè)小的步驟才須要人工介入,通過(guò)一個(gè)可視化界面管理著(zhù)被滲透的全世界幾十萬(wàn)臺服務(wù)器。
  
  其實(shí)面對現今的網(wǎng)路安全方式,每日就會(huì )有成百上千的崩潰報告、DDoS攻擊、數據泄漏等功擊行為,我們不應渴望“完美的防御”,而應當盡量提升功擊成功率的門(mén)檻,降低功擊成功率或是減短防御響應時(shí)間,形成正確的“安全觀(guān)”。最后提醒你們,被功擊只是時(shí)間而已,現在沒(méi)有發(fā)生,未來(lái)必然發(fā)生。 查看全部

  哪怕堪稱(chēng)網(wǎng)路最安全的日本,也躲不過(guò)黑客的功擊。那么為什么不將人工智能和工程師結合,實(shí)現更完善的網(wǎng)路安全。
  北京時(shí)間10月22日凌晨,美國域名服務(wù)器管理服務(wù)供應商Dyn宣布,該公司在當地時(shí)間周五早上遭到了DDoS(分布式拒絕服務(wù))攻擊,這一情況造成許多網(wǎng)站在英國東海岸地區宕機。Twitter、Tumblr、Netflix、Amazon、PayPal等眾多人氣網(wǎng)站無(wú)一幸免。
  
  許多受此影響的公司都在Twitter上發(fā)布消息,向其用戶(hù)發(fā)出了網(wǎng)站宕機的通知,亞馬遜報告報稱(chēng)有一次服務(wù)中斷,午后已解決問(wèn)題。由于影響范圍太廣,著(zhù)名的科技博客Gizmodo甚至表示半個(gè)互聯(lián)網(wǎng)都關(guān)掉了,而按照網(wǎng)友們反饋,此次黑客攻擊造成83家網(wǎng)站受影響。
  三波網(wǎng)路功擊,來(lái)自上千萬(wàn)IP地址
  根據Dyn的說(shuō)法,最早的一次功擊源于周五早上7點(diǎn)(北京時(shí)間周五晚上7點(diǎn))過(guò)后,此次功擊干擾干擾了Dyn運作約兩小時(shí)。隨即,工作人員進(jìn)行了搶險,在當天上午9點(diǎn)半左右恢復了營(yíng)運。但是僅在幾小時(shí)后,Dyn就受到第二次功擊,運營(yíng)再度遭到干擾。北京時(shí)間今天凌晨4點(diǎn)30分左右Dyn又受到第三次功擊。
  
  Dyn是日本最主要的DNS服務(wù)商,他們的主要職責就是將域名解析為IP地址,將網(wǎng)友引入正確的網(wǎng)站。此次Dyn遭到功擊以后,會(huì )導致日本大部分地區網(wǎng)民在懇求鏈接某網(wǎng)站的時(shí)侯會(huì )失敗,即使你按F5不斷刷新也沒(méi)有用。
  很顯然,這是一次有組織有蓄謀的網(wǎng)路功擊行為,攻擊行為來(lái)自超過(guò)一千萬(wàn)IP來(lái)源。此外,Dyn也表示這當中有幾百萬(wàn)惡意功擊的源頭是物聯(lián)網(wǎng)聯(lián)系的所謂“智能”家居產(chǎn)品。Dyn的首席策略官Kyle York在電話(huà)會(huì )議上甚至說(shuō),黑客們“真正在做的是用每次功擊撼動(dòng)世界?!?br />   單獨借助人工智能或則工程師難以做到維護網(wǎng)路安全
  網(wǎng)絡(luò )安全的維護一般都是由工程師們完成的,但是一次又一次的網(wǎng)路黑客侵襲風(fēng)波證明了,工程師們并沒(méi)有絕對的掌握保障網(wǎng)路安全。那么假如由人工智能來(lái)接替工程師,是否能夠保障網(wǎng)路安全呢?答案也是否定的。哪怕是新型混雜式系統,基于人工智能(AI)梳理數據,并將當前可疑行為遞交給剖析人員,也僅才能測量85%的功擊。
  
  人工智能在維護網(wǎng)路安全上可以做到的自動(dòng)化和漏洞修復技術(shù)包括:動(dòng)態(tài)剖析(Dynamic Analysis)、靜態(tài)剖析(Static Analysis)、符號執行(Symbolic Execution)、約束求解、數據流跟蹤技術(shù)(Data Flow Tracking)以及模糊測試(Fuzz Testing)等,并和其他半自動(dòng)化技術(shù)搭配,形成一整套全手動(dòng)的網(wǎng)路決策推理系統(Cyber Reasoning System,CRS)。
  很明顯,人工智能才能在改善聯(lián)通安全和網(wǎng)路安全方面發(fā)揮作用,做好避免網(wǎng)路恐嚇逼搶和網(wǎng)路安全防御舉措。但是,人工智能也只能測量到85%的功擊,而并非100%。
  由此可見(jiàn),如果單獨借助單獨借助人工智能或則工程師,無(wú)法做到百分百的網(wǎng)路安全。
  人工智能+工程師,合作以后或將構建更強大的網(wǎng)路安全
  既然工程師和人工智能都難以單獨在網(wǎng)路安全維護工作上取得壓倒性成功,為什么不試著(zhù)把三者整合上去呢?
  在網(wǎng)路安全的世界里,以人為主的技術(shù)主要依賴(lài)專(zhuān)業(yè)人員完善的規則,因此不符合規則的功擊就被錯過(guò)。而初期網(wǎng)路安全方面的機器學(xué)習則依賴(lài)于異常檢查,因此常常容易誤報,“狼來(lái)了”太多,最終造成其并不被看好。
  
  但是,隨著(zhù)人工智能技術(shù)的日漸發(fā)展,在現今的網(wǎng)路安全領(lǐng)域,它可以是一個(gè)虛擬的分析員,在發(fā)覺(jué)黑客攻擊以后,第一時(shí)間交由人類(lèi)分析員來(lái)判斷,之后系統再把判定結果整合到模型中,作為下一個(gè)數據集的測量標準,然后不斷循環(huán)這個(gè)過(guò)程。這也就意味著(zhù),在保證極大地提高檢測率的同時(shí),還可以提高未來(lái)的預測準確率。
  因此,使用人工智能來(lái)學(xué)習并找到最有可能是功擊的風(fēng)波,然后交給人類(lèi)專(zhuān)家去判定,并且協(xié)助人類(lèi)工程師進(jìn)行網(wǎng)路安全防護,是一個(gè)結合二者優(yōu)勢以后最有效的辦法。
  世界上并沒(méi)有絕對的網(wǎng)路安全,防患于未然只是更好的選擇
  俗話(huà)說(shuō)的好“魔高一尺道高一丈”,先有魔,后有道。如今的“道”,已經(jīng)實(shí)現人工智能的廣泛應用,而“魔”呢?黑客雖然已經(jīng)實(shí)現完全自動(dòng)化了......攻擊的投放、發(fā)起、滲透,只是在其中幾個(gè)小的步驟才須要人工介入,通過(guò)一個(gè)可視化界面管理著(zhù)被滲透的全世界幾十萬(wàn)臺服務(wù)器。
  
  其實(shí)面對現今的網(wǎng)路安全方式,每日就會(huì )有成百上千的崩潰報告、DDoS攻擊、數據泄漏等功擊行為,我們不應渴望“完美的防御”,而應當盡量提升功擊成功率的門(mén)檻,降低功擊成功率或是減短防御響應時(shí)間,形成正確的“安全觀(guān)”。最后提醒你們,被功擊只是時(shí)間而已,現在沒(méi)有發(fā)生,未來(lái)必然發(fā)生。

您對晝夜使用的智能推薦系統了解多少? [Aix Smart]

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2020-08-08 20:29 ? 來(lái)自相關(guān)話(huà)題

 ?。?)推薦算法
  我們知道推薦結果是通過(guò)推薦系統所需數據??進(jìn)行計算和處理的結果,并且計算和處理過(guò)程使用推薦算法. 如果我們將推薦系統所需的數據視為原材料,則推薦算法是裝配線(xiàn)上的工人,根據程序對原材料進(jìn)行處理和包裝,然后將其存儲在倉庫(緩存層)中. 那么,更廣泛使用的推薦算法是什么?
  1. 基于神經(jīng)網(wǎng)絡(luò )的文本語(yǔ)義推薦算法
  CB(基于內容的推薦),即根據用戶(hù)的歷史采集內容(項目),向用戶(hù)推薦與其歷史采集內容相似或相關(guān)的內容. 例如,在汽車(chē)信息場(chǎng)景中,用戶(hù)閱讀了很多有關(guān)“寶馬”汽車(chē)的文章,然后該列表還將推薦類(lèi)似于“寶馬”汽車(chē)的文章. 值得注意的是,基于相似內容的推薦不僅涉及標題,而且還收錄所有被認為具有計算價(jià)值的文本的相似性
  2. 基于協(xié)同過(guò)濾的推薦算法
  基于內容的推薦算法將帶來(lái)一系列問(wèn)題. 例如,它將允許用戶(hù)進(jìn)入信息繭室而不能執行冷啟動(dòng)(新用戶(hù))建議. 因此,在大多數業(yè)務(wù)場(chǎng)景中,需要將智能推薦應用于基于協(xié)作推薦算法(CF),并與CB推薦相結合. (CF)是一種算法,它指的是對哪種類(lèi)型的數據進(jìn)行協(xié)調,以及完成協(xié)作后如何進(jìn)行過(guò)濾. 這些是(CF)算法的關(guān)鍵點(diǎn).
  協(xié)作推薦算法(CF)背后的邏輯是,每個(gè)人對自己利益的看法都是單方面的,并且是無(wú)知的. 即使您還沒(méi)有看到任何東西,每個(gè)人都不知道也不知道他們是否會(huì )喜歡. 因此,CF依靠“群體共性”和“群體智慧”來(lái)挖掘出用戶(hù)可能喜歡的那些潛在內容并將其推薦給用戶(hù). CF算法也是最早,最經(jīng)典的推薦算法之一. 可以說(shuō)CF算法是推薦算法的發(fā)起者. 我們的許多后續推薦算法都基于基于CF的協(xié)作過(guò)濾思想. 基于協(xié)作的推薦算法有兩種: 基于用戶(hù)的協(xié)作過(guò)濾算法和基于項目的協(xié)作過(guò)濾算法.
  3. 基于用戶(hù)行為的深度學(xué)習模型
  隨著(zhù)技術(shù)的發(fā)展,深度學(xué)習的應用場(chǎng)景變得越來(lái)越廣泛,并且已經(jīng)進(jìn)行了許多嘗試將深度學(xué)習應用于行業(yè)中的推薦系統. 基于用戶(hù)行為的深度學(xué)習模型首先被應用于中小型計算廣告系統. 出于成本考慮,由于龐大的吞吐量和低延遲要求,大型計算廣告系統通常使用簡(jiǎn)單的回歸算法.
  深度學(xué)習模型在推薦系統中有兩個(gè)主要應用: 一是使用更精確的語(yǔ)義模型來(lái)進(jìn)行項目相似度計算;二是將深度學(xué)習模型應用于推薦項目. 另一種是抽象用戶(hù)行為并提取特征以預測點(diǎn)擊概率;
  4. 基于關(guān)聯(lián)規則的推薦
  在電子商務(wù)領(lǐng)域中廣泛使用的另一種推薦算法是基于關(guān)聯(lián)規則的推薦. 從本質(zhì)上講,它與協(xié)作過(guò)濾算法相似,不同之處在于它與用戶(hù)自己的購買(mǎi)記錄進(jìn)行協(xié)作. 典型的故事是啤酒和尿布的故事. 盡管故事的來(lái)源不再可用,但它是當前最廣泛認可的數據帶來(lái)的好處的案例.
  故事的內容是: 經(jīng)過(guò)數據分析,北美的超市運營(yíng)商發(fā)現,啤酒和尿布更有可能以相同的順序出現. 因此,我進(jìn)一步研究發(fā)現,家庭中購買(mǎi)尿布的大部分事情都是由家庭中的男人完成的,男人在購買(mǎi)尿布時(shí)總是會(huì )帶幾罐啤酒. 因此,通過(guò)調整貨架位置,將尿布和啤酒放在一起,以便更多的男人在購買(mǎi)尿布時(shí)可以帶一打啤酒. 結果,銷(xiāo)售額大大增加了.
  這個(gè)故事本身不能接受審查. 例如,尿布和啤酒總是總是一起買(mǎi)的,所以你不應該把它們放在一起,而要保持一定距離. 在移動(dòng)線(xiàn)設計中,讓用戶(hù)瀏覽兩種商品的過(guò)程,并放置其他一些男人會(huì )隨身攜帶的商品,回報率可能更高. 我們暫時(shí)不會(huì )討論這個(gè)故事的可信度. 這個(gè)故事反映了關(guān)聯(lián)規則推薦背后的最簡(jiǎn)單邏輯: 我應該需要其他用戶(hù)經(jīng)常一起購買(mǎi)哪些產(chǎn)品.
  通常,作為一種智能的內容分發(fā)平臺,其內容分發(fā)方法多種多樣. 內容平臺包括算法分發(fā),編輯(手動(dòng))分發(fā),社交分發(fā)等,內容平臺將根據自身特點(diǎn)選擇高分發(fā)效率的分發(fā)方式. 總體來(lái)說(shuō),內容平臺中存在多種分發(fā)方式.
  例如,在新聞場(chǎng)景中,可能需要在指定位置顯示固定類(lèi)型的新聞,而其他推薦位置將使用算法進(jìn)行分發(fā). 例如,微博的熱點(diǎn)是算法的分布,而以下各節的算法是純粹基于訂閱的社交分布. 還是在業(yè)務(wù)場(chǎng)景中,各種分配方法都以權重的形式參與了最終結果的表示. 例如,電子商務(wù)搜索部分不僅使用基于語(yǔ)義和用戶(hù)行為的個(gè)性化搜索排名,而且還增加了主要產(chǎn)品,流量產(chǎn)品等的權重,因此這些產(chǎn)品在分發(fā)過(guò)程. 最上面的一個(gè)顯示在用戶(hù)的屏幕上. 當平臺內容量大,用戶(hù)規模達數千萬(wàn)甚至數千萬(wàn)時(shí),信息和用戶(hù)的有效匹配就顯得尤為重要,它將自然通過(guò)各種方法提高分發(fā)效率.
  3. 智能推薦與分類(lèi)和搜索引擎有什么區別
  在當今的互聯(lián)網(wǎng)時(shí)代,我們大致經(jīng)歷了三種獲取信息的方式: 目錄,搜索引擎和智能推薦. 他們還催生了提供三種類(lèi)型的信息獲取服務(wù)的成功公司. 類(lèi)別包括: Yahoo,Sina;搜索引擎: 谷歌,百度;明智的建議: ByteDance.
  類(lèi)別目錄所涵蓋的信息量是有限的,并且用戶(hù)不容易找到不同類(lèi)別的信息. 搜索引擎覆蓋范圍廣,操作簡(jiǎn)單,但是用戶(hù)必須提供準確的關(guān)鍵字. . 在當今的信息爆炸時(shí)代,用戶(hù)依靠上述兩種方法來(lái)準確地獲取所需內容并不容易,尤其是當他們不了解所需內容的具體分類(lèi)和精確關(guān)鍵字時(shí). 明智的建議是通過(guò)計算用戶(hù)行為數據,將最需要的信息主動(dòng)推送給用戶(hù). 它與目錄和搜索引擎之間的區別體現在這里.
  推薦系統根據用戶(hù)的靜態(tài)屬性和用戶(hù)行為數據來(lái)匹配信息. 因為每個(gè)用戶(hù)都有各自的差異,所以每個(gè)用戶(hù)獲得的信息都是不同的且個(gè)性化的,并且推薦系統傳遞的信息是主動(dòng)而非被動(dòng)的過(guò)程.
  我們每個(gè)人都不能沒(méi)有的在線(xiàn)購物向我們展示了明智推薦的優(yōu)勢和必要性. 有數千萬(wàn)種產(chǎn)品,搜索詞也多種多樣. 如果我們不依靠智能推薦系統為我們提供便利,那么我們可能很難找到我們真正想要的產(chǎn)品.
  四個(gè). 明智的推薦勢在必行
  無(wú)論它是什么平臺,都必須構建一個(gè)智能的推薦系統,幫助用戶(hù)發(fā)現內容并克服信息過(guò)載. 智能推薦系統正在潛移默化地影響著(zhù)我們的生活,無(wú)論我們是否注意到它,我們都無(wú)法離開(kāi)智能推薦系統. 作為您最了解您的“人”,它正在您和我周?chē)钴S,不僅使該平臺有利可圖,而且為每個(gè)用戶(hù)提供了更多便利.
  這種積極推薦人們喜歡和需要的產(chǎn)品和信息的方式,可以迎合人類(lèi)固有的慣性. 人們喜歡被動(dòng)接收而不是主動(dòng)搜索,特別是當信息是我們感興趣的信息時(shí). 如今,聰明的建議無(wú)處不在. 購物平臺上的商品推薦,短視頻平臺上的視頻推薦,娛樂(lè )平臺上的音樂(lè )和電影推薦,新聞信息平臺上的信息推薦,甚至社交平臺上的朋友卡推薦,都依賴(lài)于此. 簡(jiǎn)而言之,在不同用戶(hù)手中,每個(gè)應用程序可以相同或完全不同. 一切都會(huì )根據您的個(gè)性和喜好進(jìn)行定義. 這是智能推薦的本質(zhì). 查看全部

 ?。?)推薦算法
  我們知道推薦結果是通過(guò)推薦系統所需數據??進(jìn)行計算和處理的結果,并且計算和處理過(guò)程使用推薦算法. 如果我們將推薦系統所需的數據視為原材料,則推薦算法是裝配線(xiàn)上的工人,根據程序對原材料進(jìn)行處理和包裝,然后將其存儲在倉庫(緩存層)中. 那么,更廣泛使用的推薦算法是什么?
  1. 基于神經(jīng)網(wǎng)絡(luò )的文本語(yǔ)義推薦算法
  CB(基于內容的推薦),即根據用戶(hù)的歷史采集內容(項目),向用戶(hù)推薦與其歷史采集內容相似或相關(guān)的內容. 例如,在汽車(chē)信息場(chǎng)景中,用戶(hù)閱讀了很多有關(guān)“寶馬”汽車(chē)的文章,然后該列表還將推薦類(lèi)似于“寶馬”汽車(chē)的文章. 值得注意的是,基于相似內容的推薦不僅涉及標題,而且還收錄所有被認為具有計算價(jià)值的文本的相似性
  2. 基于協(xié)同過(guò)濾的推薦算法
  基于內容的推薦算法將帶來(lái)一系列問(wèn)題. 例如,它將允許用戶(hù)進(jìn)入信息繭室而不能執行冷啟動(dòng)(新用戶(hù))建議. 因此,在大多數業(yè)務(wù)場(chǎng)景中,需要將智能推薦應用于基于協(xié)作推薦算法(CF),并與CB推薦相結合. (CF)是一種算法,它指的是對哪種類(lèi)型的數據進(jìn)行協(xié)調,以及完成協(xié)作后如何進(jìn)行過(guò)濾. 這些是(CF)算法的關(guān)鍵點(diǎn).
  協(xié)作推薦算法(CF)背后的邏輯是,每個(gè)人對自己利益的看法都是單方面的,并且是無(wú)知的. 即使您還沒(méi)有看到任何東西,每個(gè)人都不知道也不知道他們是否會(huì )喜歡. 因此,CF依靠“群體共性”和“群體智慧”來(lái)挖掘出用戶(hù)可能喜歡的那些潛在內容并將其推薦給用戶(hù). CF算法也是最早,最經(jīng)典的推薦算法之一. 可以說(shuō)CF算法是推薦算法的發(fā)起者. 我們的許多后續推薦算法都基于基于CF的協(xié)作過(guò)濾思想. 基于協(xié)作的推薦算法有兩種: 基于用戶(hù)的協(xié)作過(guò)濾算法和基于項目的協(xié)作過(guò)濾算法.
  3. 基于用戶(hù)行為的深度學(xué)習模型
  隨著(zhù)技術(shù)的發(fā)展,深度學(xué)習的應用場(chǎng)景變得越來(lái)越廣泛,并且已經(jīng)進(jìn)行了許多嘗試將深度學(xué)習應用于行業(yè)中的推薦系統. 基于用戶(hù)行為的深度學(xué)習模型首先被應用于中小型計算廣告系統. 出于成本考慮,由于龐大的吞吐量和低延遲要求,大型計算廣告系統通常使用簡(jiǎn)單的回歸算法.
  深度學(xué)習模型在推薦系統中有兩個(gè)主要應用: 一是使用更精確的語(yǔ)義模型來(lái)進(jìn)行項目相似度計算;二是將深度學(xué)習模型應用于推薦項目. 另一種是抽象用戶(hù)行為并提取特征以預測點(diǎn)擊概率;
  4. 基于關(guān)聯(lián)規則的推薦
  在電子商務(wù)領(lǐng)域中廣泛使用的另一種推薦算法是基于關(guān)聯(lián)規則的推薦. 從本質(zhì)上講,它與協(xié)作過(guò)濾算法相似,不同之處在于它與用戶(hù)自己的購買(mǎi)記錄進(jìn)行協(xié)作. 典型的故事是啤酒和尿布的故事. 盡管故事的來(lái)源不再可用,但它是當前最廣泛認可的數據帶來(lái)的好處的案例.
  故事的內容是: 經(jīng)過(guò)數據分析,北美的超市運營(yíng)商發(fā)現,啤酒和尿布更有可能以相同的順序出現. 因此,我進(jìn)一步研究發(fā)現,家庭中購買(mǎi)尿布的大部分事情都是由家庭中的男人完成的,男人在購買(mǎi)尿布時(shí)總是會(huì )帶幾罐啤酒. 因此,通過(guò)調整貨架位置,將尿布和啤酒放在一起,以便更多的男人在購買(mǎi)尿布時(shí)可以帶一打啤酒. 結果,銷(xiāo)售額大大增加了.
  這個(gè)故事本身不能接受審查. 例如,尿布和啤酒總是總是一起買(mǎi)的,所以你不應該把它們放在一起,而要保持一定距離. 在移動(dòng)線(xiàn)設計中,讓用戶(hù)瀏覽兩種商品的過(guò)程,并放置其他一些男人會(huì )隨身攜帶的商品,回報率可能更高. 我們暫時(shí)不會(huì )討論這個(gè)故事的可信度. 這個(gè)故事反映了關(guān)聯(lián)規則推薦背后的最簡(jiǎn)單邏輯: 我應該需要其他用戶(hù)經(jīng)常一起購買(mǎi)哪些產(chǎn)品.
  通常,作為一種智能的內容分發(fā)平臺,其內容分發(fā)方法多種多樣. 內容平臺包括算法分發(fā),編輯(手動(dòng))分發(fā),社交分發(fā)等,內容平臺將根據自身特點(diǎn)選擇高分發(fā)效率的分發(fā)方式. 總體來(lái)說(shuō),內容平臺中存在多種分發(fā)方式.
  例如,在新聞場(chǎng)景中,可能需要在指定位置顯示固定類(lèi)型的新聞,而其他推薦位置將使用算法進(jìn)行分發(fā). 例如,微博的熱點(diǎn)是算法的分布,而以下各節的算法是純粹基于訂閱的社交分布. 還是在業(yè)務(wù)場(chǎng)景中,各種分配方法都以權重的形式參與了最終結果的表示. 例如,電子商務(wù)搜索部分不僅使用基于語(yǔ)義和用戶(hù)行為的個(gè)性化搜索排名,而且還增加了主要產(chǎn)品,流量產(chǎn)品等的權重,因此這些產(chǎn)品在分發(fā)過(guò)程. 最上面的一個(gè)顯示在用戶(hù)的屏幕上. 當平臺內容量大,用戶(hù)規模達數千萬(wàn)甚至數千萬(wàn)時(shí),信息和用戶(hù)的有效匹配就顯得尤為重要,它將自然通過(guò)各種方法提高分發(fā)效率.
  3. 智能推薦與分類(lèi)和搜索引擎有什么區別
  在當今的互聯(lián)網(wǎng)時(shí)代,我們大致經(jīng)歷了三種獲取信息的方式: 目錄,搜索引擎和智能推薦. 他們還催生了提供三種類(lèi)型的信息獲取服務(wù)的成功公司. 類(lèi)別包括: Yahoo,Sina;搜索引擎: 谷歌,百度;明智的建議: ByteDance.
  類(lèi)別目錄所涵蓋的信息量是有限的,并且用戶(hù)不容易找到不同類(lèi)別的信息. 搜索引擎覆蓋范圍廣,操作簡(jiǎn)單,但是用戶(hù)必須提供準確的關(guān)鍵字. . 在當今的信息爆炸時(shí)代,用戶(hù)依靠上述兩種方法來(lái)準確地獲取所需內容并不容易,尤其是當他們不了解所需內容的具體分類(lèi)和精確關(guān)鍵字時(shí). 明智的建議是通過(guò)計算用戶(hù)行為數據,將最需要的信息主動(dòng)推送給用戶(hù). 它與目錄和搜索引擎之間的區別體現在這里.
  推薦系統根據用戶(hù)的靜態(tài)屬性和用戶(hù)行為數據來(lái)匹配信息. 因為每個(gè)用戶(hù)都有各自的差異,所以每個(gè)用戶(hù)獲得的信息都是不同的且個(gè)性化的,并且推薦系統傳遞的信息是主動(dòng)而非被動(dòng)的過(guò)程.
  我們每個(gè)人都不能沒(méi)有的在線(xiàn)購物向我們展示了明智推薦的優(yōu)勢和必要性. 有數千萬(wàn)種產(chǎn)品,搜索詞也多種多樣. 如果我們不依靠智能推薦系統為我們提供便利,那么我們可能很難找到我們真正想要的產(chǎn)品.
  四個(gè). 明智的推薦勢在必行
  無(wú)論它是什么平臺,都必須構建一個(gè)智能的推薦系統,幫助用戶(hù)發(fā)現內容并克服信息過(guò)載. 智能推薦系統正在潛移默化地影響著(zhù)我們的生活,無(wú)論我們是否注意到它,我們都無(wú)法離開(kāi)智能推薦系統. 作為您最了解您的“人”,它正在您和我周?chē)钴S,不僅使該平臺有利可圖,而且為每個(gè)用戶(hù)提供了更多便利.
  這種積極推薦人們喜歡和需要的產(chǎn)品和信息的方式,可以迎合人類(lèi)固有的慣性. 人們喜歡被動(dòng)接收而不是主動(dòng)搜索,特別是當信息是我們感興趣的信息時(shí). 如今,聰明的建議無(wú)處不在. 購物平臺上的商品推薦,短視頻平臺上的視頻推薦,娛樂(lè )平臺上的音樂(lè )和電影推薦,新聞信息平臺上的信息推薦,甚至社交平臺上的朋友卡推薦,都依賴(lài)于此. 簡(jiǎn)而言之,在不同用戶(hù)手中,每個(gè)應用程序可以相同或完全不同. 一切都會(huì )根據您的個(gè)性和喜好進(jìn)行定義. 這是智能推薦的本質(zhì).

Python學(xué)習筆記(20)自動(dòng)點(diǎn)擊京東產(chǎn)品的價(jià)格狀況并智能地采集價(jià)格數據

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 552 次瀏覽 ? 2020-08-07 19:49 ? 來(lái)自相關(guān)話(huà)題

  **注意: **如果在執行操作之前和之后網(wǎng)頁(yè)結構沒(méi)有變化,則可以通過(guò)一條規則來(lái)完成;如果網(wǎng)頁(yè)結構在前后變化,則必須通過(guò)兩個(gè)或更多規則來(lái)完成;另外,如果涉及翻頁(yè),則分為兩個(gè)或更多規則. 有關(guān)連續操作的規則數量,請參閱“計劃獲取過(guò)程”一文.
  1. 建立第一級主題以獲取目標信息
  建立第一級主題的規則,然后將所需的信息映射到排序框. 建議在完成內容映射后,還應進(jìn)行定位標記映射,以提高定位精度和規則適應性.
  **注意: **如果您設置了連續操作規則,則無(wú)需構建排序框. 例如,方案2的第一級主題不需要構建排序框,而是使用排序框來(lái)獲取一些數據(選擇頁(yè)面一定會(huì )顯示該信息)供爬蟲(chóng)程序確定是否執行采集,否則可能會(huì )錯過(guò)網(wǎng)頁(yè).
  
  二,設置連續動(dòng)作
  單擊“新建”按鈕創(chuàng )建一個(gè)新動(dòng)作,每個(gè)動(dòng)作的設置方法相同,基本操作如下:
  2.1輸入目標主題名稱(chēng)
  連續動(dòng)作指向同一目標對象. 如果有多個(gè)操作,并且您要指向不同的主題,請將它們分成多個(gè)規則并分別設置連續的操作.
  2.2選擇操作類(lèi)型
  這種情況是單擊操作,并且不同操作的應用范圍不同. 請根據實(shí)際操作情況選擇動(dòng)作類(lèi)型.
  2.3將位于動(dòng)作對象的xpath填充到定位表達式中
  2.4輸入動(dòng)作名稱(chēng)
  告訴自己該步驟的用途,以便稍后進(jìn)行修改.
  2.5高級設置
  不必先設置它,以后在調試連續動(dòng)作時(shí)將使用它,這可以擴大適用的動(dòng)作范圍. 如果要捕獲操作對象的信息,請使用xpath在高級設置的內容表達式中找到操作對象的信息. 請根據需要進(jìn)行設置.
  **注: **是否選擇了動(dòng)作類(lèi)型以及xpath定位是否正確,請確定連續動(dòng)作是否可以成功執行. Xpath是用于定位html節點(diǎn)的標準語(yǔ)言. 使用連續動(dòng)作功能之前,請先掌握xpath.
  
  根據人工步驟,我們還需要選擇版本,購買(mǎi)方式1,購買(mǎi)方式2,因此我們將繼續創(chuàng )建3個(gè)新操作并重復上述步驟.
  
  
  
  三,調試規則
  完成上述步驟后,單擊“保存規則”,然后單擊“爬網(wǎng)數據”按鈕以開(kāi)始試用捕獲. 采集期間報告了一個(gè)錯誤: 無(wú)法找到節點(diǎn)***. 觀(guān)察瀏覽器窗口,發(fā)現單擊第一步后,未加載其他信息. 加載信息后,發(fā)現單擊購買(mǎi)方法2后,無(wú)法返回執行四步單擊的頁(yè)面,從而導致連續執行連續動(dòng)作.
  
  
  鑒于上述情況,我們的解決方案是刪除第四步. 因為無(wú)論您是否單擊購買(mǎi)方法2,它都不會(huì )影響產(chǎn)品的價(jià)格. 因此,可以刪除不必要的干擾步驟.
  修改后,嘗試再次捕獲. 將提取的xml轉換為excel后,我發(fā)現價(jià)格和累積評估數據被捕獲或捕獲不正確. 這是因為網(wǎng)頁(yè)太大,加載速度太慢,并且單擊后的數據將必須等待一段時(shí)間才能加載.
  
  為了捕獲所有數據,您需要延長(cháng)等待時(shí)間并分別為每個(gè)操作設置延遲. 單擊操作步驟->高級設置->額外延遲,然后輸入以秒為單位的正整數. 請根據實(shí)際情況進(jìn)行調試.
  此外,如果不是頂部窗口,則在采集時(shí)將反復單擊它. 這是因為京東網(wǎng)站上有一些防爬措施,這些措施必須是當前的窗口操作才能生效. 因此,請檢查該窗口在高級設置中是否可見(jiàn),并且在采集過(guò)程中該窗口將位于頂部. 請根據實(shí)際情況進(jìn)行設置.
  
  
  四個(gè). 如何將捕獲的信息與操作步驟一一對應?
  如果要將捕獲的信息與操作步驟一一對應,則必須提取操作對象的信息. 有兩種方法:
  4.1使用xpath在連續操作的高級設置的內容表達式中找到操作對象的信息節點(diǎn).
  在將定位表達式定位到動(dòng)作對象的整個(gè)操作范圍之后,它還收錄其自己的信息. 因此,內容表達僅需要從定位的動(dòng)作對象開(kāi)始,并繼續定位到其信息. 采集時(shí),此步驟的信息將記錄在actionvalue中,該值對應于actionno,后者記錄該步驟的執行次數.
  
  
  4.2在整理框中獲取動(dòng)作對象的信息,這里也使用xpath進(jìn)行定位.
  執行動(dòng)作對象時(shí),其dom結構將更改. 找到網(wǎng)頁(yè)更改的結構特征,使用xpath精確定位節點(diǎn),并在通過(guò)驗證后,可以設置自定義xpath.
   查看全部

  **注意: **如果在執行操作之前和之后網(wǎng)頁(yè)結構沒(méi)有變化,則可以通過(guò)一條規則來(lái)完成;如果網(wǎng)頁(yè)結構在前后變化,則必須通過(guò)兩個(gè)或更多規則來(lái)完成;另外,如果涉及翻頁(yè),則分為兩個(gè)或更多規則. 有關(guān)連續操作的規則數量,請參閱“計劃獲取過(guò)程”一文.
  1. 建立第一級主題以獲取目標信息
  建立第一級主題的規則,然后將所需的信息映射到排序框. 建議在完成內容映射后,還應進(jìn)行定位標記映射,以提高定位精度和規則適應性.
  **注意: **如果您設置了連續操作規則,則無(wú)需構建排序框. 例如,方案2的第一級主題不需要構建排序框,而是使用排序框來(lái)獲取一些數據(選擇頁(yè)面一定會(huì )顯示該信息)供爬蟲(chóng)程序確定是否執行采集,否則可能會(huì )錯過(guò)網(wǎng)頁(yè).
  
  二,設置連續動(dòng)作
  單擊“新建”按鈕創(chuàng )建一個(gè)新動(dòng)作,每個(gè)動(dòng)作的設置方法相同,基本操作如下:
  2.1輸入目標主題名稱(chēng)
  連續動(dòng)作指向同一目標對象. 如果有多個(gè)操作,并且您要指向不同的主題,請將它們分成多個(gè)規則并分別設置連續的操作.
  2.2選擇操作類(lèi)型
  這種情況是單擊操作,并且不同操作的應用范圍不同. 請根據實(shí)際操作情況選擇動(dòng)作類(lèi)型.
  2.3將位于動(dòng)作對象的xpath填充到定位表達式中
  2.4輸入動(dòng)作名稱(chēng)
  告訴自己該步驟的用途,以便稍后進(jìn)行修改.
  2.5高級設置
  不必先設置它,以后在調試連續動(dòng)作時(shí)將使用它,這可以擴大適用的動(dòng)作范圍. 如果要捕獲操作對象的信息,請使用xpath在高級設置的內容表達式中找到操作對象的信息. 請根據需要進(jìn)行設置.
  **注: **是否選擇了動(dòng)作類(lèi)型以及xpath定位是否正確,請確定連續動(dòng)作是否可以成功執行. Xpath是用于定位html節點(diǎn)的標準語(yǔ)言. 使用連續動(dòng)作功能之前,請先掌握xpath.
  
  根據人工步驟,我們還需要選擇版本,購買(mǎi)方式1,購買(mǎi)方式2,因此我們將繼續創(chuàng )建3個(gè)新操作并重復上述步驟.
  
  
  
  三,調試規則
  完成上述步驟后,單擊“保存規則”,然后單擊“爬網(wǎng)數據”按鈕以開(kāi)始試用捕獲. 采集期間報告了一個(gè)錯誤: 無(wú)法找到節點(diǎn)***. 觀(guān)察瀏覽器窗口,發(fā)現單擊第一步后,未加載其他信息. 加載信息后,發(fā)現單擊購買(mǎi)方法2后,無(wú)法返回執行四步單擊的頁(yè)面,從而導致連續執行連續動(dòng)作.
  
  
  鑒于上述情況,我們的解決方案是刪除第四步. 因為無(wú)論您是否單擊購買(mǎi)方法2,它都不會(huì )影響產(chǎn)品的價(jià)格. 因此,可以刪除不必要的干擾步驟.
  修改后,嘗試再次捕獲. 將提取的xml轉換為excel后,我發(fā)現價(jià)格和累積評估數據被捕獲或捕獲不正確. 這是因為網(wǎng)頁(yè)太大,加載速度太慢,并且單擊后的數據將必須等待一段時(shí)間才能加載.
  
  為了捕獲所有數據,您需要延長(cháng)等待時(shí)間并分別為每個(gè)操作設置延遲. 單擊操作步驟->高級設置->額外延遲,然后輸入以秒為單位的正整數. 請根據實(shí)際情況進(jìn)行調試.
  此外,如果不是頂部窗口,則在采集時(shí)將反復單擊它. 這是因為京東網(wǎng)站上有一些防爬措施,這些措施必須是當前的窗口操作才能生效. 因此,請檢查該窗口在高級設置中是否可見(jiàn),并且在采集過(guò)程中該窗口將位于頂部. 請根據實(shí)際情況進(jìn)行設置.
  
  
  四個(gè). 如何將捕獲的信息與操作步驟一一對應?
  如果要將捕獲的信息與操作步驟一一對應,則必須提取操作對象的信息. 有兩種方法:
  4.1使用xpath在連續操作的高級設置的內容表達式中找到操作對象的信息節點(diǎn).
  在將定位表達式定位到動(dòng)作對象的整個(gè)操作范圍之后,它還收錄其自己的信息. 因此,內容表達僅需要從定位的動(dòng)作對象開(kāi)始,并繼續定位到其信息. 采集時(shí),此步驟的信息將記錄在actionvalue中,該值對應于actionno,后者記錄該步驟的執行次數.
  
  
  4.2在整理框中獲取動(dòng)作對象的信息,這里也使用xpath進(jìn)行定位.
  執行動(dòng)作對象時(shí),其dom結構將更改. 找到網(wǎng)頁(yè)更改的結構特征,使用xpath精確定位節點(diǎn),并在通過(guò)驗證后,可以設置自定義xpath.
  

煤礦安全隱患智能采集與智能決策系統

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 525 次瀏覽 ? 2020-08-06 23:12 ? 來(lái)自相關(guān)話(huà)題

  [摘要]: 分析和處理煤礦中的隱患對安全有效地生產(chǎn)煤礦非常重要,并受到許多煤礦企業(yè)的高度評價(jià). 但是,大多數煤礦企業(yè)使用手動(dòng)方法采集隱患數據并編寫(xiě)安全生產(chǎn)簡(jiǎn)報. 這種方法存在工作量大,效率低,輸入信息混亂,輸入信息不準確等問(wèn)題. 一些煤礦企業(yè)還使用計算機軟件來(lái)輔助數據處理,但是其基本數據存儲還不夠標準化,并且數據分析能力相對不足. 針對上述問(wèn)題,本文應用卷積神經(jīng)網(wǎng)絡(luò )(CNN)語(yǔ)義映射算法,并對深蟻群算法(ACO)進(jìn)行了改進(jìn),設計了煤礦安全隱患智能采集與智能決策系統. 該系統具有實(shí)時(shí)數據存儲,跟蹤和處理,風(fēng)險管理與控制,分析和預警以及科學(xué)決策等功能. 本文首先介紹了煤礦安全隱患智能采集與決策系統的研究背景和意義,以及煤礦相關(guān)領(lǐng)域的國內外研究現狀,分析了煤礦安全存在的問(wèn)題. 從多方面,多角度的生產(chǎn)過(guò)程,并深入分析煤礦企業(yè)的實(shí)際情況,對項目的功能要求,建立煤礦安全隱患智能采集與智能決策系統框架進(jìn)行研究. 根據要求,建立了煤礦安全隱患智能采集與決策系統數據庫,并確定了數據表的詳細字段. 在此基礎上,將改進(jìn)的CNN技術(shù)應用于煤礦隱患的智能采集領(lǐng)域,建立了基于CNN的智能采集模型,并應用ACO改進(jìn)了隱患的智能檢索和決策模型. 在煤礦中,以及從安全風(fēng)險中使用C#等編程語(yǔ)言的方法七個(gè)功能模塊,包括數據管理,安全隱患風(fēng)險管理和控制以及煤礦文件管理,已經(jīng)開(kāi)發(fā)了智能采集和智能決策煤礦安全隱患系統. 最后,通過(guò)多次測試和實(shí)際應用,表明隱患智能采集與智能決策系統顯著(zhù)提高了隱患調查的效率和準確性,顯著(zhù)降低了煤礦安全隱患的發(fā)生頻率,為煤礦安全隱患提供了保障. 煤礦安全生產(chǎn). 圖[61]表[8]參考. [52] 查看全部

  [摘要]: 分析和處理煤礦中的隱患對安全有效地生產(chǎn)煤礦非常重要,并受到許多煤礦企業(yè)的高度評價(jià). 但是,大多數煤礦企業(yè)使用手動(dòng)方法采集隱患數據并編寫(xiě)安全生產(chǎn)簡(jiǎn)報. 這種方法存在工作量大,效率低,輸入信息混亂,輸入信息不準確等問(wèn)題. 一些煤礦企業(yè)還使用計算機軟件來(lái)輔助數據處理,但是其基本數據存儲還不夠標準化,并且數據分析能力相對不足. 針對上述問(wèn)題,本文應用卷積神經(jīng)網(wǎng)絡(luò )(CNN)語(yǔ)義映射算法,并對深蟻群算法(ACO)進(jìn)行了改進(jìn),設計了煤礦安全隱患智能采集與智能決策系統. 該系統具有實(shí)時(shí)數據存儲,跟蹤和處理,風(fēng)險管理與控制,分析和預警以及科學(xué)決策等功能. 本文首先介紹了煤礦安全隱患智能采集與決策系統的研究背景和意義,以及煤礦相關(guān)領(lǐng)域的國內外研究現狀,分析了煤礦安全存在的問(wèn)題. 從多方面,多角度的生產(chǎn)過(guò)程,并深入分析煤礦企業(yè)的實(shí)際情況,對項目的功能要求,建立煤礦安全隱患智能采集與智能決策系統框架進(jìn)行研究. 根據要求,建立了煤礦安全隱患智能采集與決策系統數據庫,并確定了數據表的詳細字段. 在此基礎上,將改進(jìn)的CNN技術(shù)應用于煤礦隱患的智能采集領(lǐng)域,建立了基于CNN的智能采集模型,并應用ACO改進(jìn)了隱患的智能檢索和決策模型. 在煤礦中,以及從安全風(fēng)險中使用C#等編程語(yǔ)言的方法七個(gè)功能模塊,包括數據管理,安全隱患風(fēng)險管理和控制以及煤礦文件管理,已經(jīng)開(kāi)發(fā)了智能采集和智能決策煤礦安全隱患系統. 最后,通過(guò)多次測試和實(shí)際應用,表明隱患智能采集與智能決策系統顯著(zhù)提高了隱患調查的效率和準確性,顯著(zhù)降低了煤礦安全隱患的發(fā)生頻率,為煤礦安全隱患提供了保障. 煤礦安全生產(chǎn). 圖[61]表[8]參考. [52]

[語(yǔ)音記錄](méi)金融云業(yè)務(wù)網(wǎng)絡(luò )智能搜集與綜合分析實(shí)戰

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 260 次瀏覽 ? 2020-08-06 18:20 ? 來(lái)自相關(guān)話(huà)題

  大家好,讓我先自我介紹. 我是云山網(wǎng)絡(luò )公司的吳玉華. 今天,我想與您分享有關(guān)金融云業(yè)務(wù)網(wǎng)絡(luò )的采集,分析和分發(fā)的實(shí)用故事. 在開(kāi)始討論之前,我想與您討論一個(gè)問(wèn)題: 為什么我們需要采集虛擬網(wǎng)絡(luò )流量.
  ▌為什么要談?wù)撎摂M網(wǎng)絡(luò )采集
  云山網(wǎng)絡(luò )從2008年開(kāi)始做SDN. 它已經(jīng)探索了十年. 在云計算和云網(wǎng)絡(luò )中,我們已經(jīng)進(jìn)行了研究和實(shí)踐. 在此期間,我們看到了兩個(gè)明顯的網(wǎng)絡(luò )變化. 第一: 網(wǎng)絡(luò )流量模式的變化. 過(guò)去,該網(wǎng)絡(luò )是具有南北向流量的煙囪架構. 現在,它已成為東西向交通. 據統計,數據中心網(wǎng)絡(luò )中約80%的流量是東西向流量. 可以看出,東西方交通已成為主要交通方式.
  
  第二個(gè): 網(wǎng)絡(luò )與企業(yè)脫節. 為什么這么說(shuō)并不是說(shuō)網(wǎng)絡(luò )不再能夠滿(mǎn)足業(yè)務(wù)需求,而是網(wǎng)絡(luò )與業(yè)務(wù)之間的關(guān)系越來(lái)越遠. 那是什么意思?例如,在舊的傳統網(wǎng)絡(luò )中,我們可以從網(wǎng)絡(luò )中提取流量,然后通過(guò)協(xié)議可以大致了解應用程序. 但是現在,由于存在一個(gè)底層網(wǎng)絡(luò )和一個(gè)覆蓋網(wǎng)絡(luò ),因此我們遵循舊方法,并從提取的流量中看到了VXLAN封裝和數據包. 即使解開(kāi)封裝,里面也有重復的IP.
  因此,實(shí)際上很難發(fā)現當今云網(wǎng)絡(luò )中運行的服務(wù)類(lèi)型,因此該網(wǎng)絡(luò )逐漸被邊緣化. 在這種發(fā)展趨勢下,日常網(wǎng)絡(luò )使用以及運維將面臨哪些挑戰?接下來(lái),我將分享兩個(gè)典型示例.
  每天發(fā)生的事件: 業(yè)務(wù)部門(mén)報告業(yè)務(wù)應用程序響應速度慢,并且網(wǎng)絡(luò )存在問(wèn)題,但是網(wǎng)絡(luò )部門(mén)認為網(wǎng)絡(luò )沒(méi)有問(wèn)題. 當然,業(yè)務(wù)部門(mén)不會(huì )批準它. 在那之后,有無(wú)休止的辯論,但是問(wèn)題仍然沒(méi)有解決之道,那么問(wèn)題出在哪里?
  讓我們看一下網(wǎng)絡(luò )的橫截面. 對于網(wǎng)絡(luò )部門(mén)來(lái)說(shuō),他們的視野是在底層網(wǎng)絡(luò )中. 他們看到了交換機和鏈接,但是業(yè)務(wù)專(zhuān)注于虛擬機中的應用程序,因此這里存在一個(gè)很大的管理盲點(diǎn),包括OVS,VGW,VFW和VLB. 這些都是非常重要的網(wǎng)絡(luò )節點(diǎn). 如果看不到內部網(wǎng)絡(luò )狀態(tài),如何找到問(wèn)題根源?或確定報告是否是網(wǎng)絡(luò )問(wèn)題. 此事件提醒我們,這是清楚了解虛擬網(wǎng)絡(luò )中正在發(fā)生的事情的關(guān)鍵.
  第二個(gè)例子發(fā)生在一家著(zhù)名的證券公司. 眾所周知,證券行業(yè)具有一系列安全要求,例如證券和證券監管. 因此,安全部門(mén)對網(wǎng)絡(luò )部門(mén)提出了一個(gè)要求: 核心業(yè)務(wù)系統中關(guān)鍵業(yè)務(wù)組件的網(wǎng)絡(luò )流量被導出以進(jìn)行安全分析,數據審核等.
  接下來(lái),為了滿(mǎn)足這一需求,網(wǎng)絡(luò )部門(mén)制定了一個(gè)計劃,通過(guò)流表來(lái)鏡像虛擬網(wǎng)絡(luò ). 但是,在POC過(guò)程中,結果并不理想. 流鏡像與流表混合在一起,編排非常復雜. 此外,在遷移虛擬機時(shí),無(wú)法自動(dòng)更新鏡像策略,無(wú)法實(shí)施最終解決方案,需求也就消失了.
  后來(lái),發(fā)生了更嚴重的事情. 該公司發(fā)生了事故,導致用戶(hù)信息泄漏. 這種事件可謂是證券業(yè)的重大失敗. 此時(shí),安全部門(mén)必須負責. 同時(shí),網(wǎng)絡(luò )部門(mén)不滿(mǎn)意. 安全部門(mén)的需求,網(wǎng)絡(luò )部門(mén)和安全部門(mén)都負責整個(gè)事件.
  
  結合以上兩個(gè)示例,不難看出在云網(wǎng)絡(luò )中,業(yè)務(wù)網(wǎng)絡(luò )的采集,分析和分發(fā)已成為云網(wǎng)絡(luò )構建的標準配置,如果要采集虛擬網(wǎng)絡(luò )流量,所有的采集方法和解決方案都必須安全可靠,而且不影響生產(chǎn).
  ▌?dòng)媱澓蛢r(jià)值
  
  如何解決上述問(wèn)題,是云山DeepFlow數據中心虛擬網(wǎng)絡(luò )流量采集分析平臺(以下簡(jiǎn)稱(chēng)DeepFlow)所能做的. 這張照片是最左邊的采集部分. 我們知道目前的業(yè)務(wù)范圍非常廣泛. 它可能涉及私有云和公共云. 云杉DeepFlow同時(shí)涵蓋了這些環(huán)境. 通過(guò)部署DeepFlow,您可以幫助您查看所有業(yè)務(wù). 對于所有VPC網(wǎng)絡(luò )狀態(tài),管理員等效于站在高處從多個(gè)維度查看云網(wǎng)絡(luò )的全景,這更便于管理. 同時(shí),您也可以關(guān)注業(yè)務(wù),例如右上角的圖,轉到某個(gè)VPC網(wǎng)絡(luò ),觀(guān)察數據中有多少個(gè)網(wǎng)絡(luò )組件,并根據每個(gè)點(diǎn)查看相應的網(wǎng)絡(luò )信息. 和線(xiàn).
  我們還對采集技術(shù)的安全性和可靠性進(jìn)行了許多優(yōu)化. 首先,DeepFlow采集器支持500個(gè)節點(diǎn)以覆蓋大多數數據中心.
  第二個(gè)是高性能,單個(gè)采集點(diǎn)支持10G流量采集. 安全可靠. 特殊閾值用于控制CPU,內存和網(wǎng)絡(luò )資源的消耗,因此不會(huì )影響生產(chǎn)網(wǎng)絡(luò ). 當發(fā)生遷移時(shí),我們的策略也可以及時(shí)更新,而不會(huì )中斷采集到的流量.
  簡(jiǎn)而言之,Spruce DeepFlow采集的虛擬網(wǎng)絡(luò )流量使我們能夠查看虛擬網(wǎng)絡(luò )上正在發(fā)生的事情,涵蓋管理盲點(diǎn). 一旦發(fā)生故障,我們可以快速定位,同時(shí),我們可以快速推斷出問(wèn)題的根本原因,并提高操作和維護效率. 其次,采集虛擬網(wǎng)絡(luò )流量后,您不僅可以自己對其進(jìn)行分析,還可以將其分發(fā)給第三方工具,以幫助數據審核滿(mǎn)足安全合規性要求. 第三,從運營(yíng)商的角度來(lái)看整個(gè)云網(wǎng)絡(luò ).
  ▌應用實(shí)踐
  我想再告訴您兩個(gè)DeepFlow數據中心虛擬網(wǎng)絡(luò )流量采集,分析和分發(fā)的示例. 首先是故障定位事件. 使用DeepFlow回溯分析功能可以輕松找到問(wèn)題的根本原因. 怎么做?將事件發(fā)生時(shí)的虛擬網(wǎng)絡(luò )流量與正常時(shí)間的虛擬網(wǎng)絡(luò )流量進(jìn)行比較,結果發(fā)現存在明顯的異常網(wǎng)絡(luò )指示,大量網(wǎng)絡(luò )數據包,非常大的網(wǎng)絡(luò )延遲等. 導致異?,F象的原因是誰(shuí)?
  
  通過(guò)Spruce DeepFlow的細粒度采集功能,發(fā)現數據庫將大量流量發(fā)送到某個(gè)IP地址. 看到這種現象后,立即采取回測措施. 回測意味著(zhù)這種異?,F象是過(guò)去偶然發(fā)生的. 它是經(jīng)常發(fā)生還是定期發(fā)生?經(jīng)過(guò)這一系列步驟之后,我們最終得出結論,為什么數據庫不斷發(fā)送數據,實(shí)際上是因為最近已安裝了新的數據庫備份系統,但是當配置了該策略時(shí),時(shí)間參數是錯誤的,通常是一天時(shí)間備份,由于時(shí)間錯誤,導致每小時(shí)備份一次,因此數據庫連續發(fā)送出去,數據庫信息不斷備份,占用了實(shí)際的生產(chǎn)資源,最終導致運行緩慢的現象業(yè)務(wù).
  在其他情況下,我看到了一些有趣的問(wèn)題. 有時(shí),負載平衡配置不正確,這會(huì )導致背面的資源不平衡. 服務(wù)器可能有很多虛擬機流量,而其他服務(wù)器則是免費的. 或將數據設置為由特定服務(wù)器處理,但是由于負載平衡配置錯誤,固定流量將被散列.
  
  在討論第二個(gè)示例之前,請回顧一下安全部門(mén)剛才向網(wǎng)絡(luò )部門(mén)提出的要求,以導出虛擬機的流量以進(jìn)行安全審核和分析. 實(shí)際上,此問(wèn)題可以在部署DeepFlow之后輕松地采集虛擬網(wǎng)絡(luò )流量,并將其同時(shí)分發(fā)到兩個(gè)后端分析工具資源池. 為什么我們兩個(gè)?實(shí)際上,它可以用作備份,因為數據對于安全,審計和分析部門(mén)非常重要.
  ▌?wù)?br />   
  DeepFlow擁有專(zhuān)利的虛擬流采集技術(shù)具有大規模,零干擾,無(wú)依賴(lài)性,過(guò)載保護和預處理的優(yōu)點(diǎn). 支持VMware和OpenStack平臺,沒(méi)有版本依賴(lài)性. 一個(gè)控制器可以管理500個(gè)采集點(diǎn),而無(wú)需在生產(chǎn)網(wǎng)絡(luò )的虛擬交換機上進(jìn)行其他策略配置. 它支持數據包的重復數據刪除,過(guò)濾和截斷等操作,并支持用戶(hù)配置采集器的資源使用情況,以確保生產(chǎn)環(huán)境的穩定性.
  
  云山網(wǎng)絡(luò )已經(jīng)對SDN云網(wǎng)絡(luò )進(jìn)行了相應的研究和應用,并在過(guò)去十年中得到了資本和客戶(hù)的認可. 目前,Spruce Network的融資額超過(guò)1億美元,并且有許多成功的財富500強客戶(hù)案例. 它已部署在金融,電信,電力和教育行業(yè)的近100家企業(yè)中,其中包括平安科技,工業(yè)數字金融,甜橙金融,中國移動(dòng),國家電網(wǎng),蘇州國家科學(xué)數據中心以及其他基準客戶(hù). 成為企業(yè)云數據中心網(wǎng)絡(luò )穩定高效運行的典范.
  
 ??! !福利! !下載“金融云業(yè)務(wù)網(wǎng)絡(luò )的智能采集和集成分析”的語(yǔ)音PPT,可以通過(guò)在微信背景中回復“語(yǔ)音PPT”獲得.
  ◆◆◆
  相關(guān)閱讀 查看全部

  大家好,讓我先自我介紹. 我是云山網(wǎng)絡(luò )公司的吳玉華. 今天,我想與您分享有關(guān)金融云業(yè)務(wù)網(wǎng)絡(luò )的采集,分析和分發(fā)的實(shí)用故事. 在開(kāi)始討論之前,我想與您討論一個(gè)問(wèn)題: 為什么我們需要采集虛擬網(wǎng)絡(luò )流量.
  ▌為什么要談?wù)撎摂M網(wǎng)絡(luò )采集
  云山網(wǎng)絡(luò )從2008年開(kāi)始做SDN. 它已經(jīng)探索了十年. 在云計算和云網(wǎng)絡(luò )中,我們已經(jīng)進(jìn)行了研究和實(shí)踐. 在此期間,我們看到了兩個(gè)明顯的網(wǎng)絡(luò )變化. 第一: 網(wǎng)絡(luò )流量模式的變化. 過(guò)去,該網(wǎng)絡(luò )是具有南北向流量的煙囪架構. 現在,它已成為東西向交通. 據統計,數據中心網(wǎng)絡(luò )中約80%的流量是東西向流量. 可以看出,東西方交通已成為主要交通方式.
  
  第二個(gè): 網(wǎng)絡(luò )與企業(yè)脫節. 為什么這么說(shuō)并不是說(shuō)網(wǎng)絡(luò )不再能夠滿(mǎn)足業(yè)務(wù)需求,而是網(wǎng)絡(luò )與業(yè)務(wù)之間的關(guān)系越來(lái)越遠. 那是什么意思?例如,在舊的傳統網(wǎng)絡(luò )中,我們可以從網(wǎng)絡(luò )中提取流量,然后通過(guò)協(xié)議可以大致了解應用程序. 但是現在,由于存在一個(gè)底層網(wǎng)絡(luò )和一個(gè)覆蓋網(wǎng)絡(luò ),因此我們遵循舊方法,并從提取的流量中看到了VXLAN封裝和數據包. 即使解開(kāi)封裝,里面也有重復的IP.
  因此,實(shí)際上很難發(fā)現當今云網(wǎng)絡(luò )中運行的服務(wù)類(lèi)型,因此該網(wǎng)絡(luò )逐漸被邊緣化. 在這種發(fā)展趨勢下,日常網(wǎng)絡(luò )使用以及運維將面臨哪些挑戰?接下來(lái),我將分享兩個(gè)典型示例.
  每天發(fā)生的事件: 業(yè)務(wù)部門(mén)報告業(yè)務(wù)應用程序響應速度慢,并且網(wǎng)絡(luò )存在問(wèn)題,但是網(wǎng)絡(luò )部門(mén)認為網(wǎng)絡(luò )沒(méi)有問(wèn)題. 當然,業(yè)務(wù)部門(mén)不會(huì )批準它. 在那之后,有無(wú)休止的辯論,但是問(wèn)題仍然沒(méi)有解決之道,那么問(wèn)題出在哪里?
  讓我們看一下網(wǎng)絡(luò )的橫截面. 對于網(wǎng)絡(luò )部門(mén)來(lái)說(shuō),他們的視野是在底層網(wǎng)絡(luò )中. 他們看到了交換機和鏈接,但是業(yè)務(wù)專(zhuān)注于虛擬機中的應用程序,因此這里存在一個(gè)很大的管理盲點(diǎn),包括OVS,VGW,VFW和VLB. 這些都是非常重要的網(wǎng)絡(luò )節點(diǎn). 如果看不到內部網(wǎng)絡(luò )狀態(tài),如何找到問(wèn)題根源?或確定報告是否是網(wǎng)絡(luò )問(wèn)題. 此事件提醒我們,這是清楚了解虛擬網(wǎng)絡(luò )中正在發(fā)生的事情的關(guān)鍵.
  第二個(gè)例子發(fā)生在一家著(zhù)名的證券公司. 眾所周知,證券行業(yè)具有一系列安全要求,例如證券和證券監管. 因此,安全部門(mén)對網(wǎng)絡(luò )部門(mén)提出了一個(gè)要求: 核心業(yè)務(wù)系統中關(guān)鍵業(yè)務(wù)組件的網(wǎng)絡(luò )流量被導出以進(jìn)行安全分析,數據審核等.
  接下來(lái),為了滿(mǎn)足這一需求,網(wǎng)絡(luò )部門(mén)制定了一個(gè)計劃,通過(guò)流表來(lái)鏡像虛擬網(wǎng)絡(luò ). 但是,在POC過(guò)程中,結果并不理想. 流鏡像與流表混合在一起,編排非常復雜. 此外,在遷移虛擬機時(shí),無(wú)法自動(dòng)更新鏡像策略,無(wú)法實(shí)施最終解決方案,需求也就消失了.
  后來(lái),發(fā)生了更嚴重的事情. 該公司發(fā)生了事故,導致用戶(hù)信息泄漏. 這種事件可謂是證券業(yè)的重大失敗. 此時(shí),安全部門(mén)必須負責. 同時(shí),網(wǎng)絡(luò )部門(mén)不滿(mǎn)意. 安全部門(mén)的需求,網(wǎng)絡(luò )部門(mén)和安全部門(mén)都負責整個(gè)事件.
  
  結合以上兩個(gè)示例,不難看出在云網(wǎng)絡(luò )中,業(yè)務(wù)網(wǎng)絡(luò )的采集,分析和分發(fā)已成為云網(wǎng)絡(luò )構建的標準配置,如果要采集虛擬網(wǎng)絡(luò )流量,所有的采集方法和解決方案都必須安全可靠,而且不影響生產(chǎn).
  ▌?dòng)媱澓蛢r(jià)值
  
  如何解決上述問(wèn)題,是云山DeepFlow數據中心虛擬網(wǎng)絡(luò )流量采集分析平臺(以下簡(jiǎn)稱(chēng)DeepFlow)所能做的. 這張照片是最左邊的采集部分. 我們知道目前的業(yè)務(wù)范圍非常廣泛. 它可能涉及私有云和公共云. 云杉DeepFlow同時(shí)涵蓋了這些環(huán)境. 通過(guò)部署DeepFlow,您可以幫助您查看所有業(yè)務(wù). 對于所有VPC網(wǎng)絡(luò )狀態(tài),管理員等效于站在高處從多個(gè)維度查看云網(wǎng)絡(luò )的全景,這更便于管理. 同時(shí),您也可以關(guān)注業(yè)務(wù),例如右上角的圖,轉到某個(gè)VPC網(wǎng)絡(luò ),觀(guān)察數據中有多少個(gè)網(wǎng)絡(luò )組件,并根據每個(gè)點(diǎn)查看相應的網(wǎng)絡(luò )信息. 和線(xiàn).
  我們還對采集技術(shù)的安全性和可靠性進(jìn)行了許多優(yōu)化. 首先,DeepFlow采集器支持500個(gè)節點(diǎn)以覆蓋大多數數據中心.
  第二個(gè)是高性能,單個(gè)采集點(diǎn)支持10G流量采集. 安全可靠. 特殊閾值用于控制CPU,內存和網(wǎng)絡(luò )資源的消耗,因此不會(huì )影響生產(chǎn)網(wǎng)絡(luò ). 當發(fā)生遷移時(shí),我們的策略也可以及時(shí)更新,而不會(huì )中斷采集到的流量.
  簡(jiǎn)而言之,Spruce DeepFlow采集的虛擬網(wǎng)絡(luò )流量使我們能夠查看虛擬網(wǎng)絡(luò )上正在發(fā)生的事情,涵蓋管理盲點(diǎn). 一旦發(fā)生故障,我們可以快速定位,同時(shí),我們可以快速推斷出問(wèn)題的根本原因,并提高操作和維護效率. 其次,采集虛擬網(wǎng)絡(luò )流量后,您不僅可以自己對其進(jìn)行分析,還可以將其分發(fā)給第三方工具,以幫助數據審核滿(mǎn)足安全合規性要求. 第三,從運營(yíng)商的角度來(lái)看整個(gè)云網(wǎng)絡(luò ).
  ▌應用實(shí)踐
  我想再告訴您兩個(gè)DeepFlow數據中心虛擬網(wǎng)絡(luò )流量采集,分析和分發(fā)的示例. 首先是故障定位事件. 使用DeepFlow回溯分析功能可以輕松找到問(wèn)題的根本原因. 怎么做?將事件發(fā)生時(shí)的虛擬網(wǎng)絡(luò )流量與正常時(shí)間的虛擬網(wǎng)絡(luò )流量進(jìn)行比較,結果發(fā)現存在明顯的異常網(wǎng)絡(luò )指示,大量網(wǎng)絡(luò )數據包,非常大的網(wǎng)絡(luò )延遲等. 導致異?,F象的原因是誰(shuí)?
  
  通過(guò)Spruce DeepFlow的細粒度采集功能,發(fā)現數據庫將大量流量發(fā)送到某個(gè)IP地址. 看到這種現象后,立即采取回測措施. 回測意味著(zhù)這種異?,F象是過(guò)去偶然發(fā)生的. 它是經(jīng)常發(fā)生還是定期發(fā)生?經(jīng)過(guò)這一系列步驟之后,我們最終得出結論,為什么數據庫不斷發(fā)送數據,實(shí)際上是因為最近已安裝了新的數據庫備份系統,但是當配置了該策略時(shí),時(shí)間參數是錯誤的,通常是一天時(shí)間備份,由于時(shí)間錯誤,導致每小時(shí)備份一次,因此數據庫連續發(fā)送出去,數據庫信息不斷備份,占用了實(shí)際的生產(chǎn)資源,最終導致運行緩慢的現象業(yè)務(wù).
  在其他情況下,我看到了一些有趣的問(wèn)題. 有時(shí),負載平衡配置不正確,這會(huì )導致背面的資源不平衡. 服務(wù)器可能有很多虛擬機流量,而其他服務(wù)器則是免費的. 或將數據設置為由特定服務(wù)器處理,但是由于負載平衡配置錯誤,固定流量將被散列.
  
  在討論第二個(gè)示例之前,請回顧一下安全部門(mén)剛才向網(wǎng)絡(luò )部門(mén)提出的要求,以導出虛擬機的流量以進(jìn)行安全審核和分析. 實(shí)際上,此問(wèn)題可以在部署DeepFlow之后輕松地采集虛擬網(wǎng)絡(luò )流量,并將其同時(shí)分發(fā)到兩個(gè)后端分析工具資源池. 為什么我們兩個(gè)?實(shí)際上,它可以用作備份,因為數據對于安全,審計和分析部門(mén)非常重要.
  ▌?wù)?br />   
  DeepFlow擁有專(zhuān)利的虛擬流采集技術(shù)具有大規模,零干擾,無(wú)依賴(lài)性,過(guò)載保護和預處理的優(yōu)點(diǎn). 支持VMware和OpenStack平臺,沒(méi)有版本依賴(lài)性. 一個(gè)控制器可以管理500個(gè)采集點(diǎn),而無(wú)需在生產(chǎn)網(wǎng)絡(luò )的虛擬交換機上進(jìn)行其他策略配置. 它支持數據包的重復數據刪除,過(guò)濾和截斷等操作,并支持用戶(hù)配置采集器的資源使用情況,以確保生產(chǎn)環(huán)境的穩定性.
  
  云山網(wǎng)絡(luò )已經(jīng)對SDN云網(wǎng)絡(luò )進(jìn)行了相應的研究和應用,并在過(guò)去十年中得到了資本和客戶(hù)的認可. 目前,Spruce Network的融資額超過(guò)1億美元,并且有許多成功的財富500強客戶(hù)案例. 它已部署在金融,電信,電力和教育行業(yè)的近100家企業(yè)中,其中包括平安科技,工業(yè)數字金融,甜橙金融,中國移動(dòng),國家電網(wǎng),蘇州國家科學(xué)數據中心以及其他基準客戶(hù). 成為企業(yè)云數據中心網(wǎng)絡(luò )穩定高效運行的典范.
  
 ??! !福利! !下載“金融云業(yè)務(wù)網(wǎng)絡(luò )的智能采集和集成分析”的語(yǔ)音PPT,可以通過(guò)在微信背景中回復“語(yǔ)音PPT”獲得.
  ◆◆◆
  相關(guān)閱讀

AI文章智能處理軟件版本

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 212 次瀏覽 ? 2020-08-06 09:11 ? 來(lái)自相關(guān)話(huà)題

  AI文章智能處理軟件提供了20多種功能來(lái)幫助用戶(hù)處理文章. 您可以直接在軟件界面中修改文章,檢測修改后文章的原創(chuàng )性,并可以翻譯復制的英語(yǔ)內容和文章內容. Acquisition允許軟件自動(dòng)編輯詩(shī)歌和散文. 有許多內置功能. 打開(kāi)軟件,您可以查看所有功能,以便用戶(hù)在處理文章時(shí)可以獲得更多操作. 該軟件仍然非常易于使用. 多數功能一鍵即可使用,沒(méi)有復雜的設置內容,需要注意的是用戶(hù)需要登錄官方注冊帳戶(hù)!
  
  軟件功能
  1. 人工智能寫(xiě)詩(shī)
  使用AI技術(shù)讓機器學(xué)習很多詩(shī)歌寫(xiě)作技巧,然后根據用戶(hù)輸入的指導句子創(chuàng )建原創(chuàng )詩(shī)歌
  2,人工智能寫(xiě)散文
  允許機器通過(guò)AI技術(shù)學(xué)習很多散文寫(xiě)作技巧,然后根據用戶(hù)輸入的指導句子創(chuàng )建原創(chuàng )散文
  3. 文章采集
  常規文章采集: 自己編寫(xiě)采集規則,采集指定的文章,采集穩定且不會(huì )卡住,支持獲取和發(fā)布采集,編寫(xiě)規則簡(jiǎn)單易操作.
  4. 一鍵式采集(無(wú)需編寫(xiě)規則即可采集文章)
  門(mén)戶(hù)新聞: 支持搜狐新聞,騰訊新聞,新浪新聞,鳳凰新聞和網(wǎng)易新聞的一鍵式采集.
  5. 文章組合
  材料智能組合: 通過(guò)提供不同的文章材料,該軟件提取核心內容,然后根據內容將其組合為文章.
  6. 原創(chuàng )性?xún)?yōu)化(用于處理以提高文章的原創(chuàng )性)
  批次獨創(chuàng )性?xún)?yōu)化: 批量改進(jìn)文章獨創(chuàng )性操作.
  7. 流量點(diǎn)擊優(yōu)化
  通過(guò)模擬手動(dòng)搜索和查看流量不同的網(wǎng)站,模擬真實(shí)流量以?xún)?yōu)化網(wǎng)站排名.
  軟件功能
  1. AI文章智能處理軟件具有豐富的功能,可幫助用戶(hù)快速處理其文章
  2,您可以在軟件中編輯文章,可以在軟件中快速修改文章
  3. 支持文章比較,檢查導入文章是否有差異
  4. 支持和比較Internet上的文章,以分析當前文章是否重復
  5. 支持網(wǎng)站優(yōu)化,可以增加您的網(wǎng)站流量
  6. 支持文字統計,將文章粘貼到軟件中即可立即對字數進(jìn)行計數
  7. 您還可以查看網(wǎng)站排名,還可以查詢(xún)文章排名
  8,您可以快速編輯散文,可以快速編輯詩(shī)歌
  使用說(shuō)明
  1. 雙擊aiV2.2.exe進(jìn)行安裝,安裝完成后,打開(kāi)AI文章智能處理軟件.exe
  
  2. 提示登錄,在軟件界面中輸入您的帳戶(hù)登錄
  
  3. 顯然,我沒(méi)有該軟件的帳戶(hù),因此無(wú)法登錄. 您可以轉到官方網(wǎng)站獲取帳戶(hù)
  
  4. 進(jìn)入官方網(wǎng)站,點(diǎn)擊右上角進(jìn)入注冊界面. 編輯者訪(fǎng)問(wèn)時(shí),提示“抱歉,該站點(diǎn)當前禁止新用戶(hù)注冊”
  
  5. 非年度版本將具有一些功能限制,例如“ AI Write Poetry”和“ AI Write Prose”. 非年度版本的用戶(hù)每天只能生成100篇文章.
  
  6. 如果您可以輸入軟件,則顯示的界面是這樣的,您可以在軟件中找到所需的功能
  
  7. 收錄查詢(xún)功能,查詢(xún)您在軟件界面中收錄的內容
  
  8. 圖片下載功能,在軟件界面下載所需圖片,搜索后下載
  
  9. 源代碼查看功能,在軟件界面中查看采集的源代碼內容,并輸入地址以采集源代碼
  
  10. 文本統計功能,在軟件底部顯示當前文本數,您可以檢查輸入了多少個(gè)單詞
  
  11. 熱門(mén)詞查看功能,您可以在軟件界面中查看百度搜索詞并查看360個(gè)熱門(mén)詞
  
  12. 文本加密功能,如果需要對編輯的文本進(jìn)行加密,可以在此處進(jìn)行操作,輸入密碼以獲取密文
  
  13. 文字轉碼功能,如果需要轉換文字編碼,可以在這里操作
  
  14. 支持優(yōu)化功能,可以在軟件界面中優(yōu)化網(wǎng)站,可以選擇優(yōu)化關(guān)鍵字
  
  15. 在此處顯示與優(yōu)化相關(guān)的設置,您可以選擇瀏覽器優(yōu)化,可以選擇搜索引擎優(yōu)化
  
  16. 也可以在軟件界面上查看百度的推送功能,輸入地址并單擊以開(kāi)始提交
  
  17. 關(guān)鍵字查看功能,在軟件中輸入關(guān)鍵字即可立即顯示排名
  
  18. 網(wǎng)站排名功能,如果需要了解網(wǎng)站的排名,可以在軟件界面中輸入
  
  19. 發(fā)布功能,您可以在軟件界面中設置文章的自動(dòng)更新方法,并在軟件下設置發(fā)布時(shí)間
  
  20. 發(fā)布文章的基本設置功能,在軟件中檢查網(wǎng)站地址,并在底部檢查需要發(fā)布的內容
  
  21. 摘要提取功能,將文章復制到軟件中以立即對其進(jìn)行提取,然后軟件會(huì )自動(dòng)識別摘要內容
  
  22. 原創(chuàng )檢測功能,如果需要分析當前復制的文章是否為原創(chuàng ),可以在軟件界面中找到
  
  23. 分析之后,您可以選擇導出HTML或TXT
  
  24. 單一文章檢測功能,您可以通過(guò)在軟件界面中輸入文章內容立即分析文章內容是否與在線(xiàn)內容重復
  
  25. AI文章智能處理軟件具有非常強大的功能. 我不會(huì )在這里介紹. 如果需要,請下載! 查看全部

  AI文章智能處理軟件提供了20多種功能來(lái)幫助用戶(hù)處理文章. 您可以直接在軟件界面中修改文章,檢測修改后文章的原創(chuàng )性,并可以翻譯復制的英語(yǔ)內容和文章內容. Acquisition允許軟件自動(dòng)編輯詩(shī)歌和散文. 有許多內置功能. 打開(kāi)軟件,您可以查看所有功能,以便用戶(hù)在處理文章時(shí)可以獲得更多操作. 該軟件仍然非常易于使用. 多數功能一鍵即可使用,沒(méi)有復雜的設置內容,需要注意的是用戶(hù)需要登錄官方注冊帳戶(hù)!
  
  軟件功能
  1. 人工智能寫(xiě)詩(shī)
  使用AI技術(shù)讓機器學(xué)習很多詩(shī)歌寫(xiě)作技巧,然后根據用戶(hù)輸入的指導句子創(chuàng )建原創(chuàng )詩(shī)歌
  2,人工智能寫(xiě)散文
  允許機器通過(guò)AI技術(shù)學(xué)習很多散文寫(xiě)作技巧,然后根據用戶(hù)輸入的指導句子創(chuàng )建原創(chuàng )散文
  3. 文章采集
  常規文章采集: 自己編寫(xiě)采集規則,采集指定的文章,采集穩定且不會(huì )卡住,支持獲取和發(fā)布采集,編寫(xiě)規則簡(jiǎn)單易操作.
  4. 一鍵式采集(無(wú)需編寫(xiě)規則即可采集文章)
  門(mén)戶(hù)新聞: 支持搜狐新聞,騰訊新聞,新浪新聞,鳳凰新聞和網(wǎng)易新聞的一鍵式采集.
  5. 文章組合
  材料智能組合: 通過(guò)提供不同的文章材料,該軟件提取核心內容,然后根據內容將其組合為文章.
  6. 原創(chuàng )性?xún)?yōu)化(用于處理以提高文章的原創(chuàng )性)
  批次獨創(chuàng )性?xún)?yōu)化: 批量改進(jìn)文章獨創(chuàng )性操作.
  7. 流量點(diǎn)擊優(yōu)化
  通過(guò)模擬手動(dòng)搜索和查看流量不同的網(wǎng)站,模擬真實(shí)流量以?xún)?yōu)化網(wǎng)站排名.
  軟件功能
  1. AI文章智能處理軟件具有豐富的功能,可幫助用戶(hù)快速處理其文章
  2,您可以在軟件中編輯文章,可以在軟件中快速修改文章
  3. 支持文章比較,檢查導入文章是否有差異
  4. 支持和比較Internet上的文章,以分析當前文章是否重復
  5. 支持網(wǎng)站優(yōu)化,可以增加您的網(wǎng)站流量
  6. 支持文字統計,將文章粘貼到軟件中即可立即對字數進(jìn)行計數
  7. 您還可以查看網(wǎng)站排名,還可以查詢(xún)文章排名
  8,您可以快速編輯散文,可以快速編輯詩(shī)歌
  使用說(shuō)明
  1. 雙擊aiV2.2.exe進(jìn)行安裝,安裝完成后,打開(kāi)AI文章智能處理軟件.exe
  
  2. 提示登錄,在軟件界面中輸入您的帳戶(hù)登錄
  
  3. 顯然,我沒(méi)有該軟件的帳戶(hù),因此無(wú)法登錄. 您可以轉到官方網(wǎng)站獲取帳戶(hù)
  
  4. 進(jìn)入官方網(wǎng)站,點(diǎn)擊右上角進(jìn)入注冊界面. 編輯者訪(fǎng)問(wèn)時(shí),提示“抱歉,該站點(diǎn)當前禁止新用戶(hù)注冊”
  
  5. 非年度版本將具有一些功能限制,例如“ AI Write Poetry”和“ AI Write Prose”. 非年度版本的用戶(hù)每天只能生成100篇文章.
  
  6. 如果您可以輸入軟件,則顯示的界面是這樣的,您可以在軟件中找到所需的功能
  
  7. 收錄查詢(xún)功能,查詢(xún)您在軟件界面中收錄的內容
  
  8. 圖片下載功能,在軟件界面下載所需圖片,搜索后下載
  
  9. 源代碼查看功能,在軟件界面中查看采集的源代碼內容,并輸入地址以采集源代碼
  
  10. 文本統計功能,在軟件底部顯示當前文本數,您可以檢查輸入了多少個(gè)單詞
  
  11. 熱門(mén)詞查看功能,您可以在軟件界面中查看百度搜索詞并查看360個(gè)熱門(mén)詞
  
  12. 文本加密功能,如果需要對編輯的文本進(jìn)行加密,可以在此處進(jìn)行操作,輸入密碼以獲取密文
  
  13. 文字轉碼功能,如果需要轉換文字編碼,可以在這里操作
  
  14. 支持優(yōu)化功能,可以在軟件界面中優(yōu)化網(wǎng)站,可以選擇優(yōu)化關(guān)鍵字
  
  15. 在此處顯示與優(yōu)化相關(guān)的設置,您可以選擇瀏覽器優(yōu)化,可以選擇搜索引擎優(yōu)化
  
  16. 也可以在軟件界面上查看百度的推送功能,輸入地址并單擊以開(kāi)始提交
  
  17. 關(guān)鍵字查看功能,在軟件中輸入關(guān)鍵字即可立即顯示排名
  
  18. 網(wǎng)站排名功能,如果需要了解網(wǎng)站的排名,可以在軟件界面中輸入
  
  19. 發(fā)布功能,您可以在軟件界面中設置文章的自動(dòng)更新方法,并在軟件下設置發(fā)布時(shí)間
  
  20. 發(fā)布文章的基本設置功能,在軟件中檢查網(wǎng)站地址,并在底部檢查需要發(fā)布的內容
  
  21. 摘要提取功能,將文章復制到軟件中以立即對其進(jìn)行提取,然后軟件會(huì )自動(dòng)識別摘要內容
  
  22. 原創(chuàng )檢測功能,如果需要分析當前復制的文章是否為原創(chuàng ),可以在軟件界面中找到
  
  23. 分析之后,您可以選擇導出HTML或TXT
  
  24. 單一文章檢測功能,您可以通過(guò)在軟件界面中輸入文章內容立即分析文章內容是否與在線(xiàn)內容重復
  
  25. AI文章智能處理軟件具有非常強大的功能. 我不會(huì )在這里介紹. 如果需要,請下載!

我們如何談?wù)撝悄苤圃欤?/a>

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 209 次瀏覽 ? 2020-08-05 23:04 ? 來(lái)自相關(guān)話(huà)題

  無(wú)論是轉向智能制造還是使用優(yōu)化生產(chǎn)過(guò)程的MES系統,都需要一個(gè)主要前提,即,需要采集工業(yè)設備的數據,然后才能在下次使用和分析數據之前步驟.
  根據不完全統計,制造業(yè)的信息孤島被打破了. 至少有60-70%的信息孤島存在于離散行業(yè)中,而在連續的平滑行業(yè)中,信息孤島現象約占50%. 從這個(gè)角度來(lái)看,可以修改和利用的數據采集和傳輸空間確實(shí)太大了,我們無(wú)法想象. 當然,肯定會(huì )有很多制造人員抱怨: “我們都知道數據采集的重要性,并且還在用你的話(huà)說(shuō)嗎?但是問(wèn)題在于如何采集數據,我們無(wú)從下手. ”
  這是我今天要談?wù)摰膯?wèn)題,如何采集和傳輸數據. 問(wèn)題在于,許多國內工廠(chǎng)使用的生產(chǎn)設備要么設備比較舊,要么多個(gè)供應商使用的設備沒(méi)有標準的統一接口,而且多個(gè)設備使用的系統也大不相同. 這樣,關(guān)于數據的采集就更加困難. 統一轉換后,能否使用統一的行業(yè)數據標準對獲取的標準數據進(jìn)行處理?這些問(wèn)題使我們感到困擾. 實(shí)際上,國外的制造商也遇到了麻煩,因此在這里我們不得不提及這樣一個(gè)國際組織-OPC基金會(huì ). 我們對中國的這個(gè)組織有點(diǎn)陌生,但國外長(cháng)期以來(lái)一直積極支持這種組織. OPC基金會(huì )有220多個(gè)國際成員. 它的成員遍布世界各地,包括世界上所有主要的自動(dòng)化控制系統,儀器和過(guò)程控制系統公司. 這種組織的真正誕生在于對OPC標準的管理(用于過(guò)程控制的OLE,用于過(guò)程控制的OLE是統一的工業(yè)交互性標準). OPC包括用于過(guò)程控制和制造自動(dòng)化系統的一組標準接口,屬性和方法. OPC可以理解為一種平臺技術(shù),因此無(wú)論客戶(hù)端是誰(shuí),只要客戶(hù)端的軟件程序可以理解OPC,就可以順利地從設備中采集和傳輸數據.
  為什么選擇OPC UA?
  德國工業(yè)4.0,美國工業(yè)互聯(lián)網(wǎng)到中國的智能制造,政府已正式推薦將OPC協(xié)議作為統一的工業(yè)交互標準. 在成功應用OPC Classic之后,OPC基金會(huì )于2008年發(fā)布了OPC統一體系結構(UA)統一體系結構. OPCUA涵蓋了OPC實(shí)時(shí)數據訪(fǎng)問(wèn)規范(OPC DA),OPC歷史數據訪(fǎng)問(wèn)規范(OPC HDA),在OPC警報事件訪(fǎng)問(wèn)規范(OPC A&E)和OPC安全協(xié)議(OPC Security)的不同方面,OPC UA將每個(gè)OPC Classic規范的所有功能集成到一個(gè)可擴展的框架中,該框架是獨立于平臺且面向服務(wù)的. 在當前市場(chǎng)中,除了主流自動(dòng)化供應商之外,微軟,華為和思科等IT領(lǐng)域都已成為OPC UA的積極支持者,那么為什么每個(gè)人都選擇OPC UA?首先,OPC UA解決了不同系統之間的語(yǔ)義互操作,OPC UA是獨立的國際標準. 它可以建立一定的信息模型,即插即用,并且具有強大的安全保護,因此這種技術(shù)無(wú)疑是選擇的充分理由.
  以下圖片更清楚,更全面地說(shuō)明了選擇的原因:
  
  由于市場(chǎng)上有太多有關(guān)OPC技術(shù)的軟件提供商,我只想提及Matrikon,他是在OPC技術(shù)上取得了巨大成就的ace制造商. 該制造商基本上是OPC. 該基金會(huì )同時(shí)成立,并且也是該基金會(huì )中最強大的成員. 其產(chǎn)品擁有60%的市場(chǎng)份額. 這個(gè)數字也相當驚人(幾乎是壟斷). 他們的Matrikon OPC UA現在是王牌的主要產(chǎn)品. 為了避免懷疑廣告,每個(gè)人都想最大程度地了解OPC UA或OPC的技術(shù)細節,例如技術(shù)架構和相關(guān)產(chǎn)品,請自行單擊以下鏈接: / product / 4056
  到目前為止,超過(guò)4,200個(gè)供應商已經(jīng)在超過(guò)1,700萬(wàn)個(gè)應用領(lǐng)域中生產(chǎn)了35,000多種不同類(lèi)型的OPC產(chǎn)品,僅在工程資源上就節省了數十億美元. 因此,如果您真的想實(shí)現智能制造,則應從工業(yè)數據采集和傳輸開(kāi)始. 認為OPC技術(shù)為我們提供了最方便,最全面的技術(shù)支持,對工業(yè)制造的優(yōu)化和改造確實(shí)是一項偉大的壯舉. 查看全部

  無(wú)論是轉向智能制造還是使用優(yōu)化生產(chǎn)過(guò)程的MES系統,都需要一個(gè)主要前提,即,需要采集工業(yè)設備的數據,然后才能在下次使用和分析數據之前步驟.
  根據不完全統計,制造業(yè)的信息孤島被打破了. 至少有60-70%的信息孤島存在于離散行業(yè)中,而在連續的平滑行業(yè)中,信息孤島現象約占50%. 從這個(gè)角度來(lái)看,可以修改和利用的數據采集和傳輸空間確實(shí)太大了,我們無(wú)法想象. 當然,肯定會(huì )有很多制造人員抱怨: “我們都知道數據采集的重要性,并且還在用你的話(huà)說(shuō)嗎?但是問(wèn)題在于如何采集數據,我們無(wú)從下手. ”
  這是我今天要談?wù)摰膯?wèn)題,如何采集和傳輸數據. 問(wèn)題在于,許多國內工廠(chǎng)使用的生產(chǎn)設備要么設備比較舊,要么多個(gè)供應商使用的設備沒(méi)有標準的統一接口,而且多個(gè)設備使用的系統也大不相同. 這樣,關(guān)于數據的采集就更加困難. 統一轉換后,能否使用統一的行業(yè)數據標準對獲取的標準數據進(jìn)行處理?這些問(wèn)題使我們感到困擾. 實(shí)際上,國外的制造商也遇到了麻煩,因此在這里我們不得不提及這樣一個(gè)國際組織-OPC基金會(huì ). 我們對中國的這個(gè)組織有點(diǎn)陌生,但國外長(cháng)期以來(lái)一直積極支持這種組織. OPC基金會(huì )有220多個(gè)國際成員. 它的成員遍布世界各地,包括世界上所有主要的自動(dòng)化控制系統,儀器和過(guò)程控制系統公司. 這種組織的真正誕生在于對OPC標準的管理(用于過(guò)程控制的OLE,用于過(guò)程控制的OLE是統一的工業(yè)交互性標準). OPC包括用于過(guò)程控制和制造自動(dòng)化系統的一組標準接口,屬性和方法. OPC可以理解為一種平臺技術(shù),因此無(wú)論客戶(hù)端是誰(shuí),只要客戶(hù)端的軟件程序可以理解OPC,就可以順利地從設備中采集和傳輸數據.
  為什么選擇OPC UA?
  德國工業(yè)4.0,美國工業(yè)互聯(lián)網(wǎng)到中國的智能制造,政府已正式推薦將OPC協(xié)議作為統一的工業(yè)交互標準. 在成功應用OPC Classic之后,OPC基金會(huì )于2008年發(fā)布了OPC統一體系結構(UA)統一體系結構. OPCUA涵蓋了OPC實(shí)時(shí)數據訪(fǎng)問(wèn)規范(OPC DA),OPC歷史數據訪(fǎng)問(wèn)規范(OPC HDA),在OPC警報事件訪(fǎng)問(wèn)規范(OPC A&E)和OPC安全協(xié)議(OPC Security)的不同方面,OPC UA將每個(gè)OPC Classic規范的所有功能集成到一個(gè)可擴展的框架中,該框架是獨立于平臺且面向服務(wù)的. 在當前市場(chǎng)中,除了主流自動(dòng)化供應商之外,微軟,華為和思科等IT領(lǐng)域都已成為OPC UA的積極支持者,那么為什么每個(gè)人都選擇OPC UA?首先,OPC UA解決了不同系統之間的語(yǔ)義互操作,OPC UA是獨立的國際標準. 它可以建立一定的信息模型,即插即用,并且具有強大的安全保護,因此這種技術(shù)無(wú)疑是選擇的充分理由.
  以下圖片更清楚,更全面地說(shuō)明了選擇的原因:
  
  由于市場(chǎng)上有太多有關(guān)OPC技術(shù)的軟件提供商,我只想提及Matrikon,他是在OPC技術(shù)上取得了巨大成就的ace制造商. 該制造商基本上是OPC. 該基金會(huì )同時(shí)成立,并且也是該基金會(huì )中最強大的成員. 其產(chǎn)品擁有60%的市場(chǎng)份額. 這個(gè)數字也相當驚人(幾乎是壟斷). 他們的Matrikon OPC UA現在是王牌的主要產(chǎn)品. 為了避免懷疑廣告,每個(gè)人都想最大程度地了解OPC UA或OPC的技術(shù)細節,例如技術(shù)架構和相關(guān)產(chǎn)品,請自行單擊以下鏈接: / product / 4056
  到目前為止,超過(guò)4,200個(gè)供應商已經(jīng)在超過(guò)1,700萬(wàn)個(gè)應用領(lǐng)域中生產(chǎn)了35,000多種不同類(lèi)型的OPC產(chǎn)品,僅在工程資源上就節省了數十億美元. 因此,如果您真的想實(shí)現智能制造,則應從工業(yè)數據采集和傳輸開(kāi)始. 認為OPC技術(shù)為我們提供了最方便,最全面的技術(shù)支持,對工業(yè)制造的優(yōu)化和改造確實(shí)是一項偉大的壯舉.

AI文章智能處理軟件 V2.1 最新版

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 196 次瀏覽 ? 2020-08-04 19:03 ? 來(lái)自相關(guān)話(huà)題

  AI文章智能處理軟件(文章智能AI組合工具)是一款非常優(yōu)秀好用的文章偽原創(chuàng )輔助工具。這款AI文章智能處理硬件功能強大全面,簡(jiǎn)單易用,使用后可以幫助用戶(hù)輕松的進(jìn)行文章智能AI組合。用戶(hù)可以使用該硬件重新組合文章并將其轉換為新文章,這相當適合媒體用戶(hù)。有必須的同學(xué)快來(lái)下載使用吧!
  主要功能:
  1.智能偽原創(chuàng ):利用人工智能中的自然語(yǔ)言處理技術(shù)實(shí)現文章的偽原創(chuàng )處理。核心功能是“智能偽原創(chuàng )”,“同義替換偽原始”,“反義替換偽原始”,“隨機插入關(guān)鍵詞與html代碼”,“句子重組”等,處理過(guò)的文章既有創(chuàng )意包含率在80%以上。有關(guān)更多功能,請下載軟件試用版。
  2,門(mén)戶(hù)文章集:一鍵搜索集相關(guān)門(mén)戶(hù)新聞文章,該網(wǎng)站有搜狐,騰訊,新浪,網(wǎng)易,今日新聞,新藍,聯(lián)合晚報,光明網(wǎng)站,網(wǎng)站管理員。 com,新文化網(wǎng)路等,用戶(hù)可以輸入行業(yè)關(guān)鍵詞來(lái)搜索所需的行業(yè)文章。該模塊的特征是它不需要編寫(xiě)采集規則跟一鍵操作。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  3,百度新聞采訪(fǎng):一鍵搜索各類(lèi)行業(yè)新聞文章,數據源到百度新聞搜索引擎,資源豐富,操作靈活,不需要寫(xiě)任何收集規則,但缺點(diǎn)是收集文章不一定完整,但可以滿(mǎn)足大多數用戶(hù)的需求。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  4,行業(yè)文章集:一鍵搜索相關(guān)行業(yè)網(wǎng)站文章,網(wǎng)站行業(yè)有裝飾家具產(chǎn)業(yè),機械市場(chǎng),建材產(chǎn)業(yè),家電市場(chǎng),五金產(chǎn)業(yè),美容行業(yè),幼兒行業(yè),金融市場(chǎng),游戲產(chǎn)業(yè), SEO行業(yè),女性健康產(chǎn)業(yè)等。網(wǎng)站上有數十個(gè)網(wǎng)站,資源豐富。此模塊可能難以滿(mǎn)足所有客戶(hù)的需求,但客戶(hù)可以提出請求,我們將改進(jìn)和更新模塊資源。該模塊的特征是它不需要編寫(xiě)采集規則跟一鍵操作。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  5,寫(xiě)規則集合:自己撰寫(xiě)集合規則,集合規則符合通常正則表達式,寫(xiě)集合規則必須知道一些html代碼跟正則表達式規則,如果你有其他商家的書(shū)面收集規則,那么需要我們將編寫(xiě)我們軟件的搜集規則,我們有文檔提供撰寫(xiě)收集的規則。我們不幫客戶(hù)寫(xiě)收集規則,如果必須寫(xiě),10元的收購規則。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  6,外鏈文章材料:該模塊是通過(guò)大量的市場(chǎng)語(yǔ)料庫,通過(guò)算法隨機組合的語(yǔ)料庫制作相關(guān)產(chǎn)業(yè)文章,該模塊文章僅適用于文章質(zhì)量要求不高,為外部鏈促銷(xiāo)用戶(hù),模塊的特性,資源豐富,原創(chuàng )性高,但缺點(diǎn)是文章可讀性差,用戶(hù)在使用時(shí)可以選擇性地使用。
  7.批量生產(chǎn)標題:有兩個(gè)功能,一個(gè)是按關(guān)鍵字和規則組合批量生產(chǎn)標題,二是通過(guò)收集網(wǎng)絡(luò )大數據獲取標題。自動(dòng)生成的促銷(xiāo)準確性很高,捕獲的標題是可讀的,每個(gè)都有特點(diǎn)跟缺點(diǎn)。
  8,文章界面公布:通過(guò)簡(jiǎn)單的配置,生成的文章發(fā)布至您自己的網(wǎng)站。目前支持的網(wǎng)站有,Discuz Portal,DedeCms,Empire ECMS(新聞),PHMCMS,Zibo CMS,PHP168,diypage,phpwind門(mén)戶(hù)。
  9,SEO批量查詢(xún)工具:權重批量查詢(xún),排序批量查詢(xún),包含批量查詢(xún),長(cháng)尾詞挖掘,代碼批量轉換,文本加密和解密。 查看全部

  AI文章智能處理軟件(文章智能AI組合工具)是一款非常優(yōu)秀好用的文章偽原創(chuàng )輔助工具。這款AI文章智能處理硬件功能強大全面,簡(jiǎn)單易用,使用后可以幫助用戶(hù)輕松的進(jìn)行文章智能AI組合。用戶(hù)可以使用該硬件重新組合文章并將其轉換為新文章,這相當適合媒體用戶(hù)。有必須的同學(xué)快來(lái)下載使用吧!
  主要功能:
  1.智能偽原創(chuàng ):利用人工智能中的自然語(yǔ)言處理技術(shù)實(shí)現文章的偽原創(chuàng )處理。核心功能是“智能偽原創(chuàng )”,“同義替換偽原始”,“反義替換偽原始”,“隨機插入關(guān)鍵詞與html代碼”,“句子重組”等,處理過(guò)的文章既有創(chuàng )意包含率在80%以上。有關(guān)更多功能,請下載軟件試用版。
  2,門(mén)戶(hù)文章集:一鍵搜索集相關(guān)門(mén)戶(hù)新聞文章,該網(wǎng)站有搜狐,騰訊,新浪,網(wǎng)易,今日新聞,新藍,聯(lián)合晚報,光明網(wǎng)站,網(wǎng)站管理員。 com,新文化網(wǎng)路等,用戶(hù)可以輸入行業(yè)關(guān)鍵詞來(lái)搜索所需的行業(yè)文章。該模塊的特征是它不需要編寫(xiě)采集規則跟一鍵操作。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  3,百度新聞采訪(fǎng):一鍵搜索各類(lèi)行業(yè)新聞文章,數據源到百度新聞搜索引擎,資源豐富,操作靈活,不需要寫(xiě)任何收集規則,但缺點(diǎn)是收集文章不一定完整,但可以滿(mǎn)足大多數用戶(hù)的需求。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  4,行業(yè)文章集:一鍵搜索相關(guān)行業(yè)網(wǎng)站文章,網(wǎng)站行業(yè)有裝飾家具產(chǎn)業(yè),機械市場(chǎng),建材產(chǎn)業(yè),家電市場(chǎng),五金產(chǎn)業(yè),美容行業(yè),幼兒行業(yè),金融市場(chǎng),游戲產(chǎn)業(yè), SEO行業(yè),女性健康產(chǎn)業(yè)等。網(wǎng)站上有數十個(gè)網(wǎng)站,資源豐富。此模塊可能難以滿(mǎn)足所有客戶(hù)的需求,但客戶(hù)可以提出請求,我們將改進(jìn)和更新模塊資源。該模塊的特征是它不需要編寫(xiě)采集規則跟一鍵操作。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  5,寫(xiě)規則集合:自己撰寫(xiě)集合規則,集合規則符合通常正則表達式,寫(xiě)集合規則必須知道一些html代碼跟正則表達式規則,如果你有其他商家的書(shū)面收集規則,那么需要我們將編寫(xiě)我們軟件的搜集規則,我們有文檔提供撰寫(xiě)收集的規則。我們不幫客戶(hù)寫(xiě)收集規則,如果必須寫(xiě),10元的收購規則。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  6,外鏈文章材料:該模塊是通過(guò)大量的市場(chǎng)語(yǔ)料庫,通過(guò)算法隨機組合的語(yǔ)料庫制作相關(guān)產(chǎn)業(yè)文章,該模塊文章僅適用于文章質(zhì)量要求不高,為外部鏈促銷(xiāo)用戶(hù),模塊的特性,資源豐富,原創(chuàng )性高,但缺點(diǎn)是文章可讀性差,用戶(hù)在使用時(shí)可以選擇性地使用。
  7.批量生產(chǎn)標題:有兩個(gè)功能,一個(gè)是按關(guān)鍵字和規則組合批量生產(chǎn)標題,二是通過(guò)收集網(wǎng)絡(luò )大數據獲取標題。自動(dòng)生成的促銷(xiāo)準確性很高,捕獲的標題是可讀的,每個(gè)都有特點(diǎn)跟缺點(diǎn)。
  8,文章界面公布:通過(guò)簡(jiǎn)單的配置,生成的文章發(fā)布至您自己的網(wǎng)站。目前支持的網(wǎng)站有,Discuz Portal,DedeCms,Empire ECMS(新聞),PHMCMS,Zibo CMS,PHP168,diypage,phpwind門(mén)戶(hù)。
  9,SEO批量查詢(xún)工具:權重批量查詢(xún),排序批量查詢(xún),包含批量查詢(xún),長(cháng)尾詞挖掘,代碼批量轉換,文本加密和解密。

無(wú)爬蟲(chóng)團隊,企業(yè)怎樣實(shí)現1000萬(wàn)級數據采集?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 378 次瀏覽 ? 2020-08-19 10:07 ? 來(lái)自相關(guān)話(huà)題

  無(wú)爬蟲(chóng)團隊,企業(yè)怎樣實(shí)現1000萬(wàn)級數據采集?
  隨著(zhù)數據智能時(shí)代到來(lái),越來(lái)越多的企業(yè)注重數據,并通過(guò)爬蟲(chóng)技術(shù)獲取網(wǎng)路海量公開(kāi)數據,為自己的業(yè)務(wù)賦能。
  目前基于爬蟲(chóng)技術(shù)衍生的精典商業(yè)項目,我相信你一定也用過(guò):
  
  企查查是一款企業(yè)信息查詢(xún)工具,上面匯集了目前國內市場(chǎng)中的80個(gè)產(chǎn)業(yè)鏈,8000個(gè)行業(yè),6000個(gè)市場(chǎng)以及8000多萬(wàn)家企業(yè)數據。
  企查查怎么擁有海量數據?
  企查查數據源主要來(lái)自以下3個(gè)方面。
 ?、倬W(wǎng)絡(luò )爬蟲(chóng)采集數據
 ?、诘谌胶献鲾祿?br />  ?、垡约安糠輸祿氯蝿?wù)為用戶(hù)觸發(fā)
  它通過(guò)網(wǎng)路爬蟲(chóng)采集數據并進(jìn)行初步的清洗劃入其數據庫,并經(jīng)過(guò)算法處理,最后向用戶(hù)開(kāi)放,提供查詢(xún)搜索。
  企查查目前市值已達到5億人民幣。
  
  原來(lái)爬蟲(chóng)技術(shù)那么有商業(yè)價(jià)值?
  我們企業(yè)是不是也可以自己做,爬爬數據來(lái)提高自己的競爭力?
  Too Young Too Naive。
  知乎有個(gè)高手說(shuō)出了一個(gè)現實(shí):“爬蟲(chóng)是一項入門(mén)門(mén)檻不高,但在后期實(shí)操階段真的會(huì )使你太崩潰,比如你一定會(huì )碰到的以下問(wèn)題”。
  
  你要懂起碼一門(mén)學(xué)科以上的知識,不僅僅只是爬蟲(chóng),學(xué)會(huì )爬蟲(chóng)你只是剛起步。
  
  來(lái)源
  企業(yè)假如自建一個(gè)爬蟲(chóng)專(zhuān)家團隊,需要從0開(kāi)始。
  對企業(yè)來(lái)說(shuō),這一筆不小的開(kāi)支,包括管理成本、時(shí)間成本。
  如何能夠打破這一窘境?
  其實(shí)那位知乎高手給出了答案:
  “不要重復造車(chē)輪子”
  市面上早已有許多簡(jiǎn)單好用且專(zhuān)業(yè)的爬蟲(chóng)服務(wù)和工具,能使一個(gè)企業(yè)以更靈活、更輕便、成本更低的形式實(shí)現海量數據的獲取。
  比如,優(yōu)采云數據采集的企業(yè)私有云。
  優(yōu)采云私有云版本就是為有海量數據采集需求的企業(yè)而量身訂制的爬蟲(chóng)工具。
  企業(yè)無(wú)需平添任何一名爬蟲(chóng)技術(shù)人員,優(yōu)采云企業(yè)私有云能夠完美滿(mǎn)足企業(yè)海量信息采集需求。
  為什么選優(yōu)采云?
  優(yōu)采云自2013年面向市場(chǎng)以來(lái),一直致力于為廣大用戶(hù)提供簡(jiǎn)單易用、快速穩定的數據爬蟲(chóng)工具。
  經(jīng)過(guò)幾年來(lái)的發(fā)展,用戶(hù)規模擴大,在全球擁有120萬(wàn)用戶(hù)。通過(guò)專(zhuān)業(yè)數據爬蟲(chóng)能力與經(jīng)驗積累,開(kāi)拓了諸多如平安、騰訊、萬(wàn)達等行業(yè)著(zhù)名企業(yè),以及公安部、稅務(wù)局、清華大學(xué)等政府機構、科研院所、高等院校數據項目成功案例,并且獲得用戶(hù)對優(yōu)采云的數據采集專(zhuān)業(yè)能力的認可。
  
  優(yōu)采云數據采集成功入圍由國家住建部公布的“2019大數據優(yōu)秀產(chǎn)品和應用解決方案”優(yōu)采云連續5年蟬聯(lián)《中國大數據企業(yè)排行榜》中國互聯(lián)網(wǎng)數據采集工具榜No.1
  
  優(yōu)采云私有云怎么滿(mǎn)足企業(yè)需求?
  01、專(zhuān)業(yè)的數據爬蟲(chóng)服務(wù)能力
  優(yōu)采云可以采集網(wǎng)絡(luò )公開(kāi)顯示的數據,只要是肉眼可見(jiàn)可復制出來(lái)的信息數據均可獲取。
  優(yōu)采云支持文字、數字、圖片、視頻、源碼等數據類(lèi)型,不屈從于數據方式。
  02、海量數據云端高效分布式采集
  
  優(yōu)采云采用高效的云端分布式采集,背后有5000+云服務(wù)器提供支持。優(yōu)采云私有云可依照企業(yè)需求配備30-100個(gè)甚至更多云節點(diǎn),相當于逾百個(gè)服務(wù)器同時(shí)運行,實(shí)現多任務(wù)同時(shí)并發(fā)采集。
  采用分布式采集比企業(yè)用自己服務(wù)器所需時(shí)長(cháng)明顯增加,普通企業(yè)很難有專(zhuān)業(yè)爬蟲(chóng)企業(yè)這樣大量的服務(wù)器資源,去支撐海量的數據采集。
  云端分布式采集能幫助企業(yè)實(shí)現短時(shí)間采集海量數據的目的,讓企業(yè)輕松實(shí)現日采百萬(wàn)級甚至千萬(wàn)級的數據。
  
  由于常年有大量數據爬蟲(chóng)需求,優(yōu)采云已成為「阿里云VIP企業(yè)顧客」,優(yōu)采云私有云的用戶(hù)可以通過(guò)優(yōu)采云直接享受阿里云提供的「企業(yè)級優(yōu)質(zhì)的云端節點(diǎn)」,進(jìn)一步實(shí)現快速、穩定的云爬蟲(chóng)服務(wù)。
  03、獨家智能防封技術(shù)組合
  正如上述知乎高手說(shuō)的,網(wǎng)站反爬蟲(chóng)策略各式各樣,遇到這些情況企業(yè)爬蟲(chóng)工程師大部分都只能束手無(wú)策。
  優(yōu)采云經(jīng)過(guò)6年多實(shí)戰經(jīng)驗構,組建出獨家智能防封技術(shù)組合,能夠有效攻破絕大部分的網(wǎng)站防采集措施。
  1 優(yōu)質(zhì)代理IP池
  優(yōu)采云為私有云用戶(hù)能提供優(yōu)質(zhì)代理IP池,支持用戶(hù)在采集過(guò)程靈活切換IP,有效防止網(wǎng)站防采集。
  2 自動(dòng)辨識驗證碼
  優(yōu)采云能支持手動(dòng)辨識9類(lèi)驗證碼的手動(dòng)辨識,能有效破解網(wǎng)站驗證碼防采集時(shí)。
  
  9類(lèi)驗證碼
  3 cookie、UA
  優(yōu)采云還能靈活設置cookie(用戶(hù)身分)、定時(shí)切換UA(用戶(hù)代理)、突破對方防封手段,讓企業(yè)才能穩定地獲取優(yōu)質(zhì)數據源。
  04、企業(yè)協(xié)作數據資源共享
  
  考慮到企業(yè)數據采集通常是一項內部多人協(xié)作的工程,優(yōu)采云私有云為用戶(hù)提供了團隊協(xié)作的功能,可實(shí)現跨帳號的數據、云節點(diǎn)(可以理解為服務(wù)器)、IP代理池等資源的共享,是團隊協(xié)作的最佳神器。
  05、無(wú)縫對接企業(yè)數據庫
  數據采集后,優(yōu)采云可手動(dòng)導出企業(yè)數據庫,我們支持企業(yè)常見(jiàn)的數據庫如Oracle、MySQL等。
  無(wú)縫鏈接企業(yè)業(yè)務(wù)系統,實(shí)現高效數據歸檔,省去人工冗長(cháng)復雜操作。
  06、多種中級API數據插口
  私有云用戶(hù)可以調用優(yōu)采云的數據導入API接口,以及增值API插口。
  有了以上2項插口,私有云用戶(hù)的開(kāi)發(fā)小哥能夠通過(guò)API,輕松獲取優(yōu)采云任務(wù)信息和采集到的數據,無(wú)需登陸優(yōu)采云,即可調取并控制優(yōu)采云任務(wù)的狀態(tài),減少工作場(chǎng)景來(lái)回切換。
  07、滿(mǎn)足企業(yè)靈活個(gè)性化需求
  1 指定時(shí)間靈活采集
  定時(shí)采集,是優(yōu)采云私有云為須要定期更新網(wǎng)站最新信息的企業(yè)用戶(hù)提供的,精確到分鐘的采集時(shí)間的自定義設置的功能。
  有了定時(shí)采集,用戶(hù)便能在24小時(shí)內靈活選擇采集時(shí)間,“到點(diǎn)”了優(yōu)采云自動(dòng)開(kāi)始工作,讓用戶(hù)省心省力。
  2 新增數據精準采集
  智能辨識新增數據進(jìn)行精準采集,不做歷史重復工作,既節約時(shí)間,又節約節點(diǎn)資源。
  3 7*24h工作,關(guān)機也能采
  私有云的任務(wù)開(kāi)始運行采集任務(wù)后,即使死機也不怕,優(yōu)采云會(huì )在云端7*24小時(shí)持續為你工作,直至數據全部采集完。
  你可以安心死機上班,享受放松休閑歲月。
  08、尊享優(yōu)采云MAX性能配置
  1 無(wú)限量任務(wù)儲存空間
  你擁可以無(wú)拘無(wú)束,任性創(chuàng )建采集任務(wù),無(wú)需害怕因任務(wù)數目限制而須要定期刪掉或導入任務(wù),減少可惡的工作量。
  2 無(wú)限量帳號同時(shí)在線(xiàn)
  你的團隊可以共用一個(gè)優(yōu)采云私有云帳號,即使在不同的地點(diǎn),不同的筆記本上,都能同時(shí)進(jìn)行登陸并操作。
  3 無(wú)限量客戶(hù)端同時(shí)開(kāi)啟
  一臺筆記本可以同時(shí)開(kāi)啟多個(gè)客戶(hù)端,挑戰你的筆記本MAX極限性能。
  4 無(wú)限量數據隨時(shí)導入
  從優(yōu)采云采集下來(lái)的10,000,000+數據可無(wú)限次無(wú)限量直接導出到你的業(yè)務(wù)系統中。
  09、私有云VIP爬蟲(chóng)專(zhuān)家咨詢(xún)服務(wù)
  每位私有云用戶(hù)都將配備一支VIP爬蟲(chóng)專(zhuān)家咨詢(xún)團隊,提供及時(shí)響應、技能高超的專(zhuān)業(yè)售后服務(wù)。
  10、「優(yōu)采云」值得信賴(lài)的品牌
  
  部分顧客展示
  
  優(yōu)采云拿到手軟的各大獎項
  優(yōu)劣勢對比
  
  如果你的企業(yè)沒(méi)有爬蟲(chóng)人員,但又希望以低成本、快速配備海量數據的獲取能力,墻裂推薦你使用優(yōu)采云私有云!
  優(yōu)采云·讓數據觸手可及
  公眾號【優(yōu)采云大數據】 查看全部

  無(wú)爬蟲(chóng)團隊,企業(yè)怎樣實(shí)現1000萬(wàn)級數據采集?
  隨著(zhù)數據智能時(shí)代到來(lái),越來(lái)越多的企業(yè)注重數據,并通過(guò)爬蟲(chóng)技術(shù)獲取網(wǎng)路海量公開(kāi)數據,為自己的業(yè)務(wù)賦能。
  目前基于爬蟲(chóng)技術(shù)衍生的精典商業(yè)項目,我相信你一定也用過(guò):
  
  企查查是一款企業(yè)信息查詢(xún)工具,上面匯集了目前國內市場(chǎng)中的80個(gè)產(chǎn)業(yè)鏈,8000個(gè)行業(yè),6000個(gè)市場(chǎng)以及8000多萬(wàn)家企業(yè)數據。
  企查查怎么擁有海量數據?
  企查查數據源主要來(lái)自以下3個(gè)方面。
 ?、倬W(wǎng)絡(luò )爬蟲(chóng)采集數據
 ?、诘谌胶献鲾祿?br />  ?、垡约安糠輸祿氯蝿?wù)為用戶(hù)觸發(fā)
  它通過(guò)網(wǎng)路爬蟲(chóng)采集數據并進(jìn)行初步的清洗劃入其數據庫,并經(jīng)過(guò)算法處理,最后向用戶(hù)開(kāi)放,提供查詢(xún)搜索。
  企查查目前市值已達到5億人民幣。
  
  原來(lái)爬蟲(chóng)技術(shù)那么有商業(yè)價(jià)值?
  我們企業(yè)是不是也可以自己做,爬爬數據來(lái)提高自己的競爭力?
  Too Young Too Naive。
  知乎有個(gè)高手說(shuō)出了一個(gè)現實(shí):“爬蟲(chóng)是一項入門(mén)門(mén)檻不高,但在后期實(shí)操階段真的會(huì )使你太崩潰,比如你一定會(huì )碰到的以下問(wèn)題”。
  
  你要懂起碼一門(mén)學(xué)科以上的知識,不僅僅只是爬蟲(chóng),學(xué)會(huì )爬蟲(chóng)你只是剛起步。
  
  來(lái)源
  企業(yè)假如自建一個(gè)爬蟲(chóng)專(zhuān)家團隊,需要從0開(kāi)始。
  對企業(yè)來(lái)說(shuō),這一筆不小的開(kāi)支,包括管理成本、時(shí)間成本。
  如何能夠打破這一窘境?
  其實(shí)那位知乎高手給出了答案:
  “不要重復造車(chē)輪子”
  市面上早已有許多簡(jiǎn)單好用且專(zhuān)業(yè)的爬蟲(chóng)服務(wù)和工具,能使一個(gè)企業(yè)以更靈活、更輕便、成本更低的形式實(shí)現海量數據的獲取。
  比如,優(yōu)采云數據采集的企業(yè)私有云。
  優(yōu)采云私有云版本就是為有海量數據采集需求的企業(yè)而量身訂制的爬蟲(chóng)工具。
  企業(yè)無(wú)需平添任何一名爬蟲(chóng)技術(shù)人員,優(yōu)采云企業(yè)私有云能夠完美滿(mǎn)足企業(yè)海量信息采集需求。
  為什么選優(yōu)采云?
  優(yōu)采云自2013年面向市場(chǎng)以來(lái),一直致力于為廣大用戶(hù)提供簡(jiǎn)單易用、快速穩定的數據爬蟲(chóng)工具。
  經(jīng)過(guò)幾年來(lái)的發(fā)展,用戶(hù)規模擴大,在全球擁有120萬(wàn)用戶(hù)。通過(guò)專(zhuān)業(yè)數據爬蟲(chóng)能力與經(jīng)驗積累,開(kāi)拓了諸多如平安、騰訊、萬(wàn)達等行業(yè)著(zhù)名企業(yè),以及公安部、稅務(wù)局、清華大學(xué)等政府機構、科研院所、高等院校數據項目成功案例,并且獲得用戶(hù)對優(yōu)采云的數據采集專(zhuān)業(yè)能力的認可。
  
  優(yōu)采云數據采集成功入圍由國家住建部公布的“2019大數據優(yōu)秀產(chǎn)品和應用解決方案”優(yōu)采云連續5年蟬聯(lián)《中國大數據企業(yè)排行榜》中國互聯(lián)網(wǎng)數據采集工具榜No.1
  
  優(yōu)采云私有云怎么滿(mǎn)足企業(yè)需求?
  01、專(zhuān)業(yè)的數據爬蟲(chóng)服務(wù)能力
  優(yōu)采云可以采集網(wǎng)絡(luò )公開(kāi)顯示的數據,只要是肉眼可見(jiàn)可復制出來(lái)的信息數據均可獲取。
  優(yōu)采云支持文字、數字、圖片、視頻、源碼等數據類(lèi)型,不屈從于數據方式。
  02、海量數據云端高效分布式采集
  
  優(yōu)采云采用高效的云端分布式采集,背后有5000+云服務(wù)器提供支持。優(yōu)采云私有云可依照企業(yè)需求配備30-100個(gè)甚至更多云節點(diǎn),相當于逾百個(gè)服務(wù)器同時(shí)運行,實(shí)現多任務(wù)同時(shí)并發(fā)采集。
  采用分布式采集比企業(yè)用自己服務(wù)器所需時(shí)長(cháng)明顯增加,普通企業(yè)很難有專(zhuān)業(yè)爬蟲(chóng)企業(yè)這樣大量的服務(wù)器資源,去支撐海量的數據采集。
  云端分布式采集能幫助企業(yè)實(shí)現短時(shí)間采集海量數據的目的,讓企業(yè)輕松實(shí)現日采百萬(wàn)級甚至千萬(wàn)級的數據。
  
  由于常年有大量數據爬蟲(chóng)需求,優(yōu)采云已成為「阿里云VIP企業(yè)顧客」,優(yōu)采云私有云的用戶(hù)可以通過(guò)優(yōu)采云直接享受阿里云提供的「企業(yè)級優(yōu)質(zhì)的云端節點(diǎn)」,進(jìn)一步實(shí)現快速、穩定的云爬蟲(chóng)服務(wù)。
  03、獨家智能防封技術(shù)組合
  正如上述知乎高手說(shuō)的,網(wǎng)站反爬蟲(chóng)策略各式各樣,遇到這些情況企業(yè)爬蟲(chóng)工程師大部分都只能束手無(wú)策。
  優(yōu)采云經(jīng)過(guò)6年多實(shí)戰經(jīng)驗構,組建出獨家智能防封技術(shù)組合,能夠有效攻破絕大部分的網(wǎng)站防采集措施。
  1 優(yōu)質(zhì)代理IP池
  優(yōu)采云為私有云用戶(hù)能提供優(yōu)質(zhì)代理IP池,支持用戶(hù)在采集過(guò)程靈活切換IP,有效防止網(wǎng)站防采集。
  2 自動(dòng)辨識驗證碼
  優(yōu)采云能支持手動(dòng)辨識9類(lèi)驗證碼的手動(dòng)辨識,能有效破解網(wǎng)站驗證碼防采集時(shí)。
  
  9類(lèi)驗證碼
  3 cookie、UA
  優(yōu)采云還能靈活設置cookie(用戶(hù)身分)、定時(shí)切換UA(用戶(hù)代理)、突破對方防封手段,讓企業(yè)才能穩定地獲取優(yōu)質(zhì)數據源。
  04、企業(yè)協(xié)作數據資源共享
  
  考慮到企業(yè)數據采集通常是一項內部多人協(xié)作的工程,優(yōu)采云私有云為用戶(hù)提供了團隊協(xié)作的功能,可實(shí)現跨帳號的數據、云節點(diǎn)(可以理解為服務(wù)器)、IP代理池等資源的共享,是團隊協(xié)作的最佳神器。
  05、無(wú)縫對接企業(yè)數據庫
  數據采集后,優(yōu)采云可手動(dòng)導出企業(yè)數據庫,我們支持企業(yè)常見(jiàn)的數據庫如Oracle、MySQL等。
  無(wú)縫鏈接企業(yè)業(yè)務(wù)系統,實(shí)現高效數據歸檔,省去人工冗長(cháng)復雜操作。
  06、多種中級API數據插口
  私有云用戶(hù)可以調用優(yōu)采云的數據導入API接口,以及增值API插口。
  有了以上2項插口,私有云用戶(hù)的開(kāi)發(fā)小哥能夠通過(guò)API,輕松獲取優(yōu)采云任務(wù)信息和采集到的數據,無(wú)需登陸優(yōu)采云,即可調取并控制優(yōu)采云任務(wù)的狀態(tài),減少工作場(chǎng)景來(lái)回切換。
  07、滿(mǎn)足企業(yè)靈活個(gè)性化需求
  1 指定時(shí)間靈活采集
  定時(shí)采集,是優(yōu)采云私有云為須要定期更新網(wǎng)站最新信息的企業(yè)用戶(hù)提供的,精確到分鐘的采集時(shí)間的自定義設置的功能。
  有了定時(shí)采集,用戶(hù)便能在24小時(shí)內靈活選擇采集時(shí)間,“到點(diǎn)”了優(yōu)采云自動(dòng)開(kāi)始工作,讓用戶(hù)省心省力。
  2 新增數據精準采集
  智能辨識新增數據進(jìn)行精準采集,不做歷史重復工作,既節約時(shí)間,又節約節點(diǎn)資源。
  3 7*24h工作,關(guān)機也能采
  私有云的任務(wù)開(kāi)始運行采集任務(wù)后,即使死機也不怕,優(yōu)采云會(huì )在云端7*24小時(shí)持續為你工作,直至數據全部采集完。
  你可以安心死機上班,享受放松休閑歲月。
  08、尊享優(yōu)采云MAX性能配置
  1 無(wú)限量任務(wù)儲存空間
  你擁可以無(wú)拘無(wú)束,任性創(chuàng )建采集任務(wù),無(wú)需害怕因任務(wù)數目限制而須要定期刪掉或導入任務(wù),減少可惡的工作量。
  2 無(wú)限量帳號同時(shí)在線(xiàn)
  你的團隊可以共用一個(gè)優(yōu)采云私有云帳號,即使在不同的地點(diǎn),不同的筆記本上,都能同時(shí)進(jìn)行登陸并操作。
  3 無(wú)限量客戶(hù)端同時(shí)開(kāi)啟
  一臺筆記本可以同時(shí)開(kāi)啟多個(gè)客戶(hù)端,挑戰你的筆記本MAX極限性能。
  4 無(wú)限量數據隨時(shí)導入
  從優(yōu)采云采集下來(lái)的10,000,000+數據可無(wú)限次無(wú)限量直接導出到你的業(yè)務(wù)系統中。
  09、私有云VIP爬蟲(chóng)專(zhuān)家咨詢(xún)服務(wù)
  每位私有云用戶(hù)都將配備一支VIP爬蟲(chóng)專(zhuān)家咨詢(xún)團隊,提供及時(shí)響應、技能高超的專(zhuān)業(yè)售后服務(wù)。
  10、「優(yōu)采云」值得信賴(lài)的品牌
  
  部分顧客展示
  
  優(yōu)采云拿到手軟的各大獎項
  優(yōu)劣勢對比
  
  如果你的企業(yè)沒(méi)有爬蟲(chóng)人員,但又希望以低成本、快速配備海量數據的獲取能力,墻裂推薦你使用優(yōu)采云私有云!
  優(yōu)采云·讓數據觸手可及
  公眾號【優(yōu)采云大數據】

冷啟動(dòng)問(wèn)題:如何建立你的機器學(xué)習組合?

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 167 次瀏覽 ? 2020-08-15 11:07 ? 來(lái)自相關(guān)話(huà)題

  我是一名物理學(xué)家,在 YC 初創(chuàng )公司工作。我們的工作是幫助應屆畢業(yè)生找到她們的第一份機器學(xué)習工作。
  前段時(shí)間,我曾寫(xiě)了一篇文章《The cold start problem: how to break into machine learning》(《冷啟動(dòng)問(wèn)題:如何順利步入機器學(xué)習》),闡述了為得到第一份機器學(xué)習的工作,你應當做什么事情。我在那篇文章中說(shuō)過(guò),你應當做的一件事就是,建立個(gè)人機器學(xué)習項目的投資組合。但我漏了這一部分:如何能夠做到。因此,在這篇文章中,我將探討應當怎樣去做這件事。[1]
  得益于我們的初創(chuàng )公司所做的事情,我能夠見(jiàn)到這么多的個(gè)人項目的反例。這些個(gè)人項目有特別優(yōu)秀的,也有特別槽糕的。讓我給你舉出兩個(gè)特別優(yōu)秀的反例。
  押上所有賭注
  下面是一則真實(shí)的故事,不過(guò),為了保護個(gè)人隱私,我使用了化名。
  當雜貨店須要購買(mǎi)新庫存時(shí),X 公司都會(huì )使用人工智能來(lái)提醒雜貨店。我們有一名中學(xué)生,叫 Ron,他十分渴求能否在 X 公司工作,已經(jīng)急不可耐了。為了確保就能得到 X 公司的筆試機會(huì ),于是,他完善了一個(gè)個(gè)人項目。
  通常情況下,我們不會(huì )建議象 Ron 那樣把所有的賭注都押在一家公司。如果你剛開(kāi)始這樣做的話(huà),是太有風(fēng)險的。但是,就像我昨天說(shuō)的,Ron 真的非常想到 X 公司工作,特別非常想。
  那么,Ron 做了哪些呢?
  
  紅框處表示該處缺乏商品。
  Ron 用膠布將他的智能手機綁在購物車(chē)上。然后,他推著(zhù)購物車(chē)在雜貨店的走廊來(lái)來(lái)回回地走,同時(shí)使用手機的攝像頭記錄下走廊的情況。他在不同的雜貨店這樣做了 10~12 次。
  回到家后,Ron 就開(kāi)始建立機器學(xué)習模型。他的模型辨識出了雜貨店貨架上的空白處,那是貨架上缺乏玉米片(或其他商品)的地方。
  特別棒的是,Ron 在 GitHub 上實(shí)時(shí)建立了他的模型,完全公開(kāi)。每天,他就會(huì )改進(jìn)他的 repo(提高準確性,并記錄 repo 自述文件的變更)。
  當 X 公司發(fā)覺(jué) Ron 正在做這件事時(shí),非常感興趣。不止是好奇,事實(shí)上,X 公司還有點(diǎn)緊張。他們?yōu)楹螘?huì )倍感緊張呢?因為 Ron 無(wú)意中在幾天內復制了她們的專(zhuān)有技術(shù)棧的一部分。[2]
  X 公司的能力太強,他們的技術(shù)在行業(yè)中無(wú)出其右。盡管如此,4 天之內,Ron 的項目還是成功吸引了 X 公司 CEO 的注意力。
  飛行員項目
  這是另一則真實(shí)的故事。
  Alex 主修歷史專(zhuān)業(yè),輔修英語(yǔ)(這是真實(shí)的情況)。不同尋常的是,作為歷史專(zhuān)業(yè)的大學(xué)生,他竟然對機器學(xué)習形成了興趣。更不尋常的是,他決定學(xué)習 Python,要知道,他從來(lái)沒(méi)用 Python 寫(xiě)過(guò)一行代碼。
  Alex 選擇了通過(guò)建立項目進(jìn)行學(xué)習的方法。他決定建立一個(gè)分類(lèi)器,用于測量戰斗機飛行員在客機上是否失去知覺(jué)。Alex 想通過(guò)觀(guān)看飛行員的視頻來(lái)發(fā)覺(jué)是否喪失意識。他曉得,人們通過(guò)觀(guān)察,很容易判定飛行員是否失去知覺(jué)。所以,Alex 覺(jué)得機器也應當有可能做到這一點(diǎn)。
  以下是 Alex 在幾個(gè)月的時(shí)間里所做的事情:
  
  Alex建立的月球引力引起昏迷探測器的演示。
  Alex 在 YouTube 上下載了從駕駛艙拍攝的駕駛客機時(shí)飛行員所有的視頻。(如果你也倍感好奇的話(huà),這里有幾十個(gè)這樣的片斷。)
  接下來(lái)他開(kāi)始標記數據。Alex 構建了一個(gè) UI,讓他還能滾動(dòng)數千個(gè)視頻幀,按下一個(gè)按鍵表示 “有知覺(jué)”,另一個(gè)按鍵表示 “無(wú)知覺(jué)”。然后手動(dòng)將該視頻幀保存到正確標記的文件夾中。這個(gè)標記過(guò)程十分特別無(wú)趣,花了他好幾天的時(shí)間。
  Alex 為這種圖象建立了一個(gè)數據管線(xiàn),可以將飛行員從駕駛艙背景中摳下來(lái),這樣分類(lèi)器才能更容易專(zhuān)注于飛行員。最后,他建立了自己的昏迷分類(lèi)器。
  在做這些事的同時(shí),Alex 在社交媒體上向急聘主管展示了他的項目快照。每次
  他掏出手機展示這個(gè)項目時(shí),他們就會(huì )問(wèn)他是如何做到的,構建的管線(xiàn)是怎么回事,以及如何搜集數據的等等。但從來(lái)沒(méi)有人問(wèn)過(guò)他的模型的準確度怎樣,要知道,這個(gè)模型的準確度就從來(lái)沒(méi)超過(guò) 50%。
  當然,Alex 早就計劃提升模型的準確性,但是在他還沒(méi)有實(shí)現這一計劃時(shí)就早已被錄用了。事實(shí)證明,對企業(yè)而言,他那種項目呈現下來(lái)的視覺(jué)沖擊力,以及在數據搜集方面表現下來(lái)的不屈不撓的精神和足智多謀,遠比他的模型到底有多好來(lái)得更為重要。
  我剛剛有沒(méi)有提及 Alex 是一名主修歷史,輔修英語(yǔ)的中學(xué)生?
  他們有何共同之處
  是哪些使 Ron 和 Alex 如此成功?以下是她們做對的四件大事:
  Ron 和 Alex 并沒(méi)有在建模上花費太多的精力。我曉得這聽(tīng)起來(lái)很奇怪,但是對于現今的許多用例來(lái)說(shuō),建模是一個(gè)已解決的問(wèn)題。在實(shí)際工作中,除非你做的是最先進(jìn)的人工智能研究,否則無(wú)論如何,你都須要花費 80~90% 的時(shí)間來(lái)清除數據。為什么你的個(gè)人項目會(huì )有所不同呢?
  Ron 和 Alex 都搜集了自己的數據。正由于這么,他們最終得到的數據比 Kaggle 或 UCI 數據庫中的數據更為混亂。但是處理混亂的數據教會(huì )了她們怎么處理這些混亂的數據。而且也促使了她們從學(xué)術(shù)服務(wù)器下載數據以更好地理解自己的數據。
  Ron 和 Alex 營(yíng)造了可視化療效。面試,并不能使無(wú)所不知的面試官才能客觀(guān)地評估你的技能。面試的本質(zhì)就是將自己推薦給別人。人類(lèi)是視覺(jué)植物,因此,如果你拿出手機給面試官展示你所做的東西,那么,確保你做的東西看上去太有趣是值得的。
  Ron 和 Alex 所做的事其實(shí)挺瘋狂。這很瘋狂了。因為一般人不會(huì )把她們的智能手機用膠水綁在購物車(chē)上,也不會(huì )在 YouTube 上花費大量時(shí)間就為了剪裁飛行員的視頻。你曉得是什么樣的人就會(huì )如此瘋狂?這樣的人就會(huì )不惜一切代價(jià)去完成工作。公司真的十分、非常樂(lè )意雇用這種人。
  Ron 和 Alex 所做的事情,看上去雖然太多了,但實(shí)際上,他們所做的事兒并不比你在實(shí)際工作中所期望的多多少。這就是問(wèn)題的關(guān)鍵:當你沒(méi)有做某件事的工作經(jīng)驗時(shí),招聘總監會(huì )看你做過(guò)的類(lèi)似做某件事的工作經(jīng)驗。
  幸運的是,你只需在這個(gè)級別上,構建一兩個(gè)項目就可以了——Ron 和 Alex 的項目在她們各自所有筆試中被反復使用。
  因此,如果使我必須用一句話(huà)來(lái)總結一個(gè)卓越的機器學(xué)習項目的絕招,那就是:用有趣的數據集去建立項目,這個(gè)數據集其實(shí)須要花費大量精力來(lái)搜集,并讓其盡可能有視覺(jué)沖擊力。
  [1] 如果你想知道為何這一點(diǎn)十分重要,那是因為急聘總監會(huì )查看你的業(yè)績(jì)記錄來(lái)評估你的技能。如果你沒(méi)有業(yè)績(jì)記錄的話(huà),那么,個(gè)人項目就是最為接近的替代者。
  [2] 當然,Ron 的嘗試遠非完美:X 公司為這個(gè)問(wèn)題投入了比他更多的資源。但情況十分相像,他們很快就要求 Ron 將他的 repo 設為 private。
  原文鏈接: 查看全部

  我是一名物理學(xué)家,在 YC 初創(chuàng )公司工作。我們的工作是幫助應屆畢業(yè)生找到她們的第一份機器學(xué)習工作。
  前段時(shí)間,我曾寫(xiě)了一篇文章《The cold start problem: how to break into machine learning》(《冷啟動(dòng)問(wèn)題:如何順利步入機器學(xué)習》),闡述了為得到第一份機器學(xué)習的工作,你應當做什么事情。我在那篇文章中說(shuō)過(guò),你應當做的一件事就是,建立個(gè)人機器學(xué)習項目的投資組合。但我漏了這一部分:如何能夠做到。因此,在這篇文章中,我將探討應當怎樣去做這件事。[1]
  得益于我們的初創(chuàng )公司所做的事情,我能夠見(jiàn)到這么多的個(gè)人項目的反例。這些個(gè)人項目有特別優(yōu)秀的,也有特別槽糕的。讓我給你舉出兩個(gè)特別優(yōu)秀的反例。
  押上所有賭注
  下面是一則真實(shí)的故事,不過(guò),為了保護個(gè)人隱私,我使用了化名。
  當雜貨店須要購買(mǎi)新庫存時(shí),X 公司都會(huì )使用人工智能來(lái)提醒雜貨店。我們有一名中學(xué)生,叫 Ron,他十分渴求能否在 X 公司工作,已經(jīng)急不可耐了。為了確保就能得到 X 公司的筆試機會(huì ),于是,他完善了一個(gè)個(gè)人項目。
  通常情況下,我們不會(huì )建議象 Ron 那樣把所有的賭注都押在一家公司。如果你剛開(kāi)始這樣做的話(huà),是太有風(fēng)險的。但是,就像我昨天說(shuō)的,Ron 真的非常想到 X 公司工作,特別非常想。
  那么,Ron 做了哪些呢?
  
  紅框處表示該處缺乏商品。
  Ron 用膠布將他的智能手機綁在購物車(chē)上。然后,他推著(zhù)購物車(chē)在雜貨店的走廊來(lái)來(lái)回回地走,同時(shí)使用手機的攝像頭記錄下走廊的情況。他在不同的雜貨店這樣做了 10~12 次。
  回到家后,Ron 就開(kāi)始建立機器學(xué)習模型。他的模型辨識出了雜貨店貨架上的空白處,那是貨架上缺乏玉米片(或其他商品)的地方。
  特別棒的是,Ron 在 GitHub 上實(shí)時(shí)建立了他的模型,完全公開(kāi)。每天,他就會(huì )改進(jìn)他的 repo(提高準確性,并記錄 repo 自述文件的變更)。
  當 X 公司發(fā)覺(jué) Ron 正在做這件事時(shí),非常感興趣。不止是好奇,事實(shí)上,X 公司還有點(diǎn)緊張。他們?yōu)楹螘?huì )倍感緊張呢?因為 Ron 無(wú)意中在幾天內復制了她們的專(zhuān)有技術(shù)棧的一部分。[2]
  X 公司的能力太強,他們的技術(shù)在行業(yè)中無(wú)出其右。盡管如此,4 天之內,Ron 的項目還是成功吸引了 X 公司 CEO 的注意力。
  飛行員項目
  這是另一則真實(shí)的故事。
  Alex 主修歷史專(zhuān)業(yè),輔修英語(yǔ)(這是真實(shí)的情況)。不同尋常的是,作為歷史專(zhuān)業(yè)的大學(xué)生,他竟然對機器學(xué)習形成了興趣。更不尋常的是,他決定學(xué)習 Python,要知道,他從來(lái)沒(méi)用 Python 寫(xiě)過(guò)一行代碼。
  Alex 選擇了通過(guò)建立項目進(jìn)行學(xué)習的方法。他決定建立一個(gè)分類(lèi)器,用于測量戰斗機飛行員在客機上是否失去知覺(jué)。Alex 想通過(guò)觀(guān)看飛行員的視頻來(lái)發(fā)覺(jué)是否喪失意識。他曉得,人們通過(guò)觀(guān)察,很容易判定飛行員是否失去知覺(jué)。所以,Alex 覺(jué)得機器也應當有可能做到這一點(diǎn)。
  以下是 Alex 在幾個(gè)月的時(shí)間里所做的事情:
  
  Alex建立的月球引力引起昏迷探測器的演示。
  Alex 在 YouTube 上下載了從駕駛艙拍攝的駕駛客機時(shí)飛行員所有的視頻。(如果你也倍感好奇的話(huà),這里有幾十個(gè)這樣的片斷。)
  接下來(lái)他開(kāi)始標記數據。Alex 構建了一個(gè) UI,讓他還能滾動(dòng)數千個(gè)視頻幀,按下一個(gè)按鍵表示 “有知覺(jué)”,另一個(gè)按鍵表示 “無(wú)知覺(jué)”。然后手動(dòng)將該視頻幀保存到正確標記的文件夾中。這個(gè)標記過(guò)程十分特別無(wú)趣,花了他好幾天的時(shí)間。
  Alex 為這種圖象建立了一個(gè)數據管線(xiàn),可以將飛行員從駕駛艙背景中摳下來(lái),這樣分類(lèi)器才能更容易專(zhuān)注于飛行員。最后,他建立了自己的昏迷分類(lèi)器。
  在做這些事的同時(shí),Alex 在社交媒體上向急聘主管展示了他的項目快照。每次
  他掏出手機展示這個(gè)項目時(shí),他們就會(huì )問(wèn)他是如何做到的,構建的管線(xiàn)是怎么回事,以及如何搜集數據的等等。但從來(lái)沒(méi)有人問(wèn)過(guò)他的模型的準確度怎樣,要知道,這個(gè)模型的準確度就從來(lái)沒(méi)超過(guò) 50%。
  當然,Alex 早就計劃提升模型的準確性,但是在他還沒(méi)有實(shí)現這一計劃時(shí)就早已被錄用了。事實(shí)證明,對企業(yè)而言,他那種項目呈現下來(lái)的視覺(jué)沖擊力,以及在數據搜集方面表現下來(lái)的不屈不撓的精神和足智多謀,遠比他的模型到底有多好來(lái)得更為重要。
  我剛剛有沒(méi)有提及 Alex 是一名主修歷史,輔修英語(yǔ)的中學(xué)生?
  他們有何共同之處
  是哪些使 Ron 和 Alex 如此成功?以下是她們做對的四件大事:
  Ron 和 Alex 并沒(méi)有在建模上花費太多的精力。我曉得這聽(tīng)起來(lái)很奇怪,但是對于現今的許多用例來(lái)說(shuō),建模是一個(gè)已解決的問(wèn)題。在實(shí)際工作中,除非你做的是最先進(jìn)的人工智能研究,否則無(wú)論如何,你都須要花費 80~90% 的時(shí)間來(lái)清除數據。為什么你的個(gè)人項目會(huì )有所不同呢?
  Ron 和 Alex 都搜集了自己的數據。正由于這么,他們最終得到的數據比 Kaggle 或 UCI 數據庫中的數據更為混亂。但是處理混亂的數據教會(huì )了她們怎么處理這些混亂的數據。而且也促使了她們從學(xué)術(shù)服務(wù)器下載數據以更好地理解自己的數據。
  Ron 和 Alex 營(yíng)造了可視化療效。面試,并不能使無(wú)所不知的面試官才能客觀(guān)地評估你的技能。面試的本質(zhì)就是將自己推薦給別人。人類(lèi)是視覺(jué)植物,因此,如果你拿出手機給面試官展示你所做的東西,那么,確保你做的東西看上去太有趣是值得的。
  Ron 和 Alex 所做的事其實(shí)挺瘋狂。這很瘋狂了。因為一般人不會(huì )把她們的智能手機用膠水綁在購物車(chē)上,也不會(huì )在 YouTube 上花費大量時(shí)間就為了剪裁飛行員的視頻。你曉得是什么樣的人就會(huì )如此瘋狂?這樣的人就會(huì )不惜一切代價(jià)去完成工作。公司真的十分、非常樂(lè )意雇用這種人。
  Ron 和 Alex 所做的事情,看上去雖然太多了,但實(shí)際上,他們所做的事兒并不比你在實(shí)際工作中所期望的多多少。這就是問(wèn)題的關(guān)鍵:當你沒(méi)有做某件事的工作經(jīng)驗時(shí),招聘總監會(huì )看你做過(guò)的類(lèi)似做某件事的工作經(jīng)驗。
  幸運的是,你只需在這個(gè)級別上,構建一兩個(gè)項目就可以了——Ron 和 Alex 的項目在她們各自所有筆試中被反復使用。
  因此,如果使我必須用一句話(huà)來(lái)總結一個(gè)卓越的機器學(xué)習項目的絕招,那就是:用有趣的數據集去建立項目,這個(gè)數據集其實(shí)須要花費大量精力來(lái)搜集,并讓其盡可能有視覺(jué)沖擊力。
  [1] 如果你想知道為何這一點(diǎn)十分重要,那是因為急聘總監會(huì )查看你的業(yè)績(jì)記錄來(lái)評估你的技能。如果你沒(méi)有業(yè)績(jì)記錄的話(huà),那么,個(gè)人項目就是最為接近的替代者。
  [2] 當然,Ron 的嘗試遠非完美:X 公司為這個(gè)問(wèn)題投入了比他更多的資源。但情況十分相像,他們很快就要求 Ron 將他的 repo 設為 private。
  原文鏈接:

【智能模式】【流程圖模式】如何設置智能策略

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 198 次瀏覽 ? 2020-08-15 03:49 ? 來(lái)自相關(guān)話(huà)題

  智能策略收錄代理設置、智能切換和自動(dòng)切換,這部份功能主要是拿來(lái)智能處理采集過(guò)程中遇見(jiàn)的各類(lèi)問(wèn)題。
  在編輯任務(wù)界面,點(diǎn)擊右下角“開(kāi)始采集”按鈕,在彈出的設置框中,點(diǎn)擊“智能策略”選項可以切換到設置界面。
  
  1、代理設置
  1)代理類(lèi)型
  I、代理IP(由芝麻代理提供)
  該代理為通過(guò)芝麻代理提供的訂購插口,直接在軟件內選購。
  
  代理的區域可以進(jìn)行設置,包括全省混撥、省份混撥或則指定城市。
  
  
  
  II、自定義代理
  如果須要使用自己的代理,請點(diǎn)擊“立即設置”,然后在設置窗口中按要求進(jìn)行設置。(注意:自定義代理按次序循環(huán)切換)
  
  
  2)切換條件
  I、按照時(shí)間切換
  代理按照時(shí)間進(jìn)行切換,例如您設置切換條件為“每隔:3分鐘”,那么每隔3分鐘都會(huì )切換一次代理,同時(shí)會(huì )消耗一個(gè)代理IP 。
  
  II、按照文本切換
  根據文本進(jìn)行切換,例如您設置切換條件為“當頁(yè)面中出現該文本:優(yōu)采云”,那么網(wǎng)頁(yè)中出現對應的文本時(shí),就會(huì )切換一次代理,同時(shí)消耗一個(gè)代理IP。
  
  2、智能切換
  智能切換是我們推薦的首選設置,能滿(mǎn)足絕大部分采集任務(wù)的需求。
  
  3、手動(dòng)切換
  如果碰到的網(wǎng)頁(yè)比較特殊,智能切換未能滿(mǎn)足需求,我們可以設置自動(dòng)切換。
  I、請求等待時(shí)間
  請求等待時(shí)間是加在網(wǎng)頁(yè)點(diǎn)擊操作以后的等待時(shí)間,通常用于打開(kāi)網(wǎng)頁(yè)或則點(diǎn)擊翻頁(yè)等操作以后的等待,通過(guò)降低該等待時(shí)間,可以減輕網(wǎng)頁(yè)加載平緩的問(wèn)題,或者增加采集速度。
  
  II、運行中測量驗證碼
  軟件在采集過(guò)程中遇見(jiàn)未能采集到內容時(shí),會(huì )手動(dòng)進(jìn)行驗證碼檢查,如果碰到軟件未兼容的情況,也可以自動(dòng)設置驗證碼辨識條件,例如假如驗證碼提示頁(yè)面中收錄了“優(yōu)采云”這個(gè)文本,我們可以設置條件為“當頁(yè)面中出現該文本:優(yōu)采云”。需要注意的是該條件一定要確保只會(huì )在驗證碼提示頁(yè)面中出現,否則會(huì )出現誤報的情況。
  
  III、運行中測量登陸提示
  需要登入能夠采集數據的網(wǎng)站,在運行過(guò)程中登陸有可能會(huì )失效,或者有些網(wǎng)站采集到一定量的數據然后會(huì )提示登陸,勾選此功能,軟件在運行過(guò)程中若果遇見(jiàn)登陸失效或須要登陸的情況會(huì )暫停任務(wù)并彈出登陸提示。
  
  IV、僅采集頁(yè)面可見(jiàn)內容
  有一些網(wǎng)站會(huì )將無(wú)效的數據混在有效的數據之中,采集數據的時(shí)侯會(huì )出現好多無(wú)效的數據,這種情況下我們就可以勾選這個(gè)設置,只采集頁(yè)面可見(jiàn)的內容。
  注意:如果采集的網(wǎng)站沒(méi)有隱藏無(wú)效字符的設置,勾選此項會(huì )導致數據采集不全或則數據難以采集,因此我們在使用此項功能時(shí)須要慎重。
  
  V、逐行滾動(dòng)網(wǎng)頁(yè)預加載
  有些網(wǎng)站需要滾動(dòng)到一定位置以后內容才會(huì )顯示,否則這種數據都未能采集,這時(shí)候可以勾選此項功能。但是須要注意的是,勾選此項功能的時(shí)侯會(huì )影響采集速度,需謹慎使用。
  
  VI、定時(shí)切換瀏覽器版本
  我們可以自定義設置切換版本的時(shí)間周期,設置時(shí)間周期可以是30秒~10分鐘,軟件會(huì )根據設置周期手動(dòng)切換外置瀏覽器版本,用戶(hù)無(wú)需自行選擇具體版本。
  
  VII、定時(shí)清理cookie
  我們可以自定義設置消除cookie的時(shí)間周期,設置時(shí)間周期可以是30秒~10分鐘,軟件會(huì )根據設置周期定時(shí)清理網(wǎng)頁(yè)Cookie。 查看全部

  智能策略收錄代理設置、智能切換和自動(dòng)切換,這部份功能主要是拿來(lái)智能處理采集過(guò)程中遇見(jiàn)的各類(lèi)問(wèn)題。
  在編輯任務(wù)界面,點(diǎn)擊右下角“開(kāi)始采集”按鈕,在彈出的設置框中,點(diǎn)擊“智能策略”選項可以切換到設置界面。
  
  1、代理設置
  1)代理類(lèi)型
  I、代理IP(由芝麻代理提供)
  該代理為通過(guò)芝麻代理提供的訂購插口,直接在軟件內選購。
  
  代理的區域可以進(jìn)行設置,包括全省混撥、省份混撥或則指定城市。
  
  
  
  II、自定義代理
  如果須要使用自己的代理,請點(diǎn)擊“立即設置”,然后在設置窗口中按要求進(jìn)行設置。(注意:自定義代理按次序循環(huán)切換)
  
  
  2)切換條件
  I、按照時(shí)間切換
  代理按照時(shí)間進(jìn)行切換,例如您設置切換條件為“每隔:3分鐘”,那么每隔3分鐘都會(huì )切換一次代理,同時(shí)會(huì )消耗一個(gè)代理IP 。
  
  II、按照文本切換
  根據文本進(jìn)行切換,例如您設置切換條件為“當頁(yè)面中出現該文本:優(yōu)采云”,那么網(wǎng)頁(yè)中出現對應的文本時(shí),就會(huì )切換一次代理,同時(shí)消耗一個(gè)代理IP。
  
  2、智能切換
  智能切換是我們推薦的首選設置,能滿(mǎn)足絕大部分采集任務(wù)的需求。
  
  3、手動(dòng)切換
  如果碰到的網(wǎng)頁(yè)比較特殊,智能切換未能滿(mǎn)足需求,我們可以設置自動(dòng)切換。
  I、請求等待時(shí)間
  請求等待時(shí)間是加在網(wǎng)頁(yè)點(diǎn)擊操作以后的等待時(shí)間,通常用于打開(kāi)網(wǎng)頁(yè)或則點(diǎn)擊翻頁(yè)等操作以后的等待,通過(guò)降低該等待時(shí)間,可以減輕網(wǎng)頁(yè)加載平緩的問(wèn)題,或者增加采集速度。
  
  II、運行中測量驗證碼
  軟件在采集過(guò)程中遇見(jiàn)未能采集到內容時(shí),會(huì )手動(dòng)進(jìn)行驗證碼檢查,如果碰到軟件未兼容的情況,也可以自動(dòng)設置驗證碼辨識條件,例如假如驗證碼提示頁(yè)面中收錄了“優(yōu)采云”這個(gè)文本,我們可以設置條件為“當頁(yè)面中出現該文本:優(yōu)采云”。需要注意的是該條件一定要確保只會(huì )在驗證碼提示頁(yè)面中出現,否則會(huì )出現誤報的情況。
  
  III、運行中測量登陸提示
  需要登入能夠采集數據的網(wǎng)站,在運行過(guò)程中登陸有可能會(huì )失效,或者有些網(wǎng)站采集到一定量的數據然后會(huì )提示登陸,勾選此功能,軟件在運行過(guò)程中若果遇見(jiàn)登陸失效或須要登陸的情況會(huì )暫停任務(wù)并彈出登陸提示。
  
  IV、僅采集頁(yè)面可見(jiàn)內容
  有一些網(wǎng)站會(huì )將無(wú)效的數據混在有效的數據之中,采集數據的時(shí)侯會(huì )出現好多無(wú)效的數據,這種情況下我們就可以勾選這個(gè)設置,只采集頁(yè)面可見(jiàn)的內容。
  注意:如果采集的網(wǎng)站沒(méi)有隱藏無(wú)效字符的設置,勾選此項會(huì )導致數據采集不全或則數據難以采集,因此我們在使用此項功能時(shí)須要慎重。
  
  V、逐行滾動(dòng)網(wǎng)頁(yè)預加載
  有些網(wǎng)站需要滾動(dòng)到一定位置以后內容才會(huì )顯示,否則這種數據都未能采集,這時(shí)候可以勾選此項功能。但是須要注意的是,勾選此項功能的時(shí)侯會(huì )影響采集速度,需謹慎使用。
  
  VI、定時(shí)切換瀏覽器版本
  我們可以自定義設置切換版本的時(shí)間周期,設置時(shí)間周期可以是30秒~10分鐘,軟件會(huì )根據設置周期手動(dòng)切換外置瀏覽器版本,用戶(hù)無(wú)需自行選擇具體版本。
  
  VII、定時(shí)清理cookie
  我們可以自定義設置消除cookie的時(shí)間周期,設置時(shí)間周期可以是30秒~10分鐘,軟件會(huì )根據設置周期定時(shí)清理網(wǎng)頁(yè)Cookie。

采集 | 數據智能與計算機圖形學(xué)領(lǐng)域2019推薦論文列表(附鏈接)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 440 次瀏覽 ? 2020-08-14 15:29 ? 來(lái)自相關(guān)話(huà)題

  本文約3600字,建議閱讀10分鐘。
  2019年度數據智能與估算及圖形學(xué)領(lǐng)域論文推薦。
  數據智能
  1. Data-anonymous Encoding for Text-to-SQL Generation
  論文鏈接:
  在跨領(lǐng)域 Text-to-SQL 研究中一個(gè)重要的問(wèn)題是辨識自然語(yǔ)言句子中提及的列名、表格、及單元格的值。本文中提出了一種基于中間變量和多任務(wù)學(xué)習的框架,嘗試同時(shí)解決表格實(shí)體辨識和語(yǔ)義解析問(wèn)題,取得了良好的療效。論文在 EMNLP 2019 會(huì )議發(fā)表。
  2. Towards Complex Text-to-SQL in Cross-domain Database
  論文鏈接:
  計算機的可執行語(yǔ)言(例如 SQL 語(yǔ)句與儲存結構緊密相關(guān))與自然語(yǔ)言存在不匹配問(wèn)題,給復雜問(wèn)題的語(yǔ)義解析帶來(lái)了困難。為了解決這個(gè)問(wèn)題,論文中設計了一種中間語(yǔ)言。先將自然語(yǔ)言轉換成中間語(yǔ)言,再將中間語(yǔ)言轉換成 SQL,可以提升語(yǔ)義解析的準確率。該論文已在 ACL 2019 會(huì )議發(fā)表。
  3. Leveraging Adjective-Noun Phrasing Knowledge for Comparison Relation Prediction in Text-to-SQL
  論文鏈接:
  在自然語(yǔ)言理解中,知識的運用極其重要。本文以 Adjective-Noun Phrasing Knowledge 為切入點(diǎn)嘗試在 Text-to-SQL 中運用語(yǔ)言相關(guān)知識來(lái)提升語(yǔ)言理解的準確率。論文在 EMNLP 2019 會(huì )議發(fā)表。
  4. FANDA: A Novel Approach to Perform Follow-up Query Analysis
  論文鏈接:
  在多履帶對話(huà)中,對話(huà)句子中常常存在省略或指代,需要依據上下文來(lái)理解當前詞句。本文剖析總結了在對話(huà)式數據剖析中普遍出現的省略或指代現象,并提出了將當前句子補充完整的方式。論文發(fā)表在 AAAI 2019。
  5. A Split-and-Recombine Approach for Follow-up Query Analysis
  論文鏈接:
  本文中提出了一個(gè)處理上下文的 split-recombine 框架,能夠拿來(lái)有效處理對話(huà)句子中常常存在上下文省略或指代問(wèn)題。這個(gè)框架既可以用于將當前句子補充完整(restate),也可以直接生成 logic form(例如SQL)。論文發(fā)表在 EMNLP 2019。
  6. QuickInsights: Quick and Automatic Discovery of Insights from Multi-Dimensional Data
  論文鏈接:
  該論文創(chuàng )新性地提出了多維數據中洞察 (insights) 的一種普遍適用的具象定義,并系統化地提出了面向大規模多維數據的有效的洞察挖掘算法。文章發(fā)表在 SIGMOD 2019。相應技術(shù)從2015年起轉化到谷歌 Power BI,Office 365 等產(chǎn)品中。
  7. TableSense: Spreadsheet Table Detection with Convolutional Neural Networks
  論文鏈接:
  文章提出的基于深度學(xué)習模型的 TableSense 技術(shù),可對電子表格進(jìn)行區域監測和表格結構理解,并將其轉換為結構化的多維數據進(jìn)行手動(dòng)剖析。這項技術(shù)已轉化到谷歌的 Office 365 產(chǎn)品中,隨 Ideas in Excel 功能全面上線(xiàn)。文章發(fā)表在 AAAI 2019。
  8. Text-to-Viz: Automatic Generation of Infographics from Proportion-Related Natural language Statements
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,首創(chuàng )了由自然語(yǔ)言手動(dòng)生成數據信息圖(Infographics)的技術(shù)。該技術(shù)讓人們就能十分容易的獲得大量數據信息圖的設計,用于強化數據故事的抒發(fā)。
  9. DataShot: Automatic Generation of Fact Sheets from Tabular Data
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,提出了一種從數據表格出發(fā)手動(dòng)生成由多個(gè)數據信息圖組合而成的數據海報的技術(shù)。
  10. Towards Automated Infographic Design: Deep Learning-based Auto-Extraction of Extensible Timeline
  論文鏈接:
  該論文提出了一種手動(dòng)從圖片中抽取數據信息圖模板的技術(shù)。利用計算機視覺(jué)技術(shù),將時(shí)間軸的設計圖片分解成多個(gè)視覺(jué)元素并重新組合,使可視化時(shí)間軸設計圖片的重用成為了可能。該論文發(fā)表在 IEEE VIS 2019。
  11. Visualization Assessment: A Machine Learning Approach
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,探索了手動(dòng)評估可視化圖片特點(diǎn)的方式,比如記憶度、美觀(guān)度,讓機器學(xué)習的算法在可視化的生成、推薦中發(fā)揮作用。
  12. Supporting Story Synthesis: Bridging the Gap between Visual Analytics and Storytelling
  論文鏈接:
  該論文定義了一個(gè)新的故事生成框架,將數據剖析到結果展示的過(guò)程具象成普遍的故事生成流程。該框架支持交互式地從復雜的可視剖析結果中生成可以使普通讀者理解的故事。論文發(fā)表在 TVCG 2019。
  13. Cross-dataset Time Series Anomaly Detection for Cloud Systems
  論文鏈接:
  文章提出了基于遷移學(xué)習和主動(dòng)學(xué)習的跨數據集異常檢查框架,可以有效地在不同時(shí)間序列數據集之間進(jìn)行遷移,只須要1%-5% 的標明樣本量即可達到高精度檢查。文章發(fā)表在系統領(lǐng)域頂尖大會(huì ) USENIX ATC 2019 上。
  14. Robust Log-based Anomaly Detection on Unstable Log Data
  論文鏈接:
  文章提出了基于深度學(xué)習技術(shù)的模型 LogRobust,可有效克服日志不穩定問(wèn)題,在快速迭代的實(shí)際工業(yè)數據中取得了出色的療效,該研究發(fā)表在了軟件工程領(lǐng)域頂尖大會(huì ) FSE 2019。
  15. An Intelligent, End-To-End Analytics Service for Safe Deployment in Large-Scale Cloud Infrastructure
  論文鏈接:
  該文章提出了時(shí)空相關(guān)性模型,在時(shí)間和空間的雙重維度上對比故障前后的系統狀態(tài),為故障確診提供線(xiàn)索,該模型在安全布署中取得了很高的準確率,研究成果將發(fā)表在系統領(lǐng)域頂尖大會(huì ) NSDI 2020上。
  16. Outage Prediction and Diagnosis for Cloud Service Systems
  論文鏈接:
  該文章提出了一種智能的大規模中斷預警機制 AirAlert,AirAlert 采集整個(gè)云系統中的所有系統監控訊號,采用魯棒梯度提高樹(shù)算法做預測,并借助貝葉斯網(wǎng)絡(luò )進(jìn)行確診剖析。相關(guān)研究短文發(fā)表在 WWW 2019。
  17. Prediction-Guided Design for Software Systems
  論文鏈接:
  文章提出了智能緩沖區管理方式,基于預測導向(Prediction-Guided)框架,以機器學(xué)習預測引擎為核心,可監控集群已布署的工作負載與平臺操作,對這種負載在發(fā)生故障的機率和新的容量下降需求進(jìn)行預測,動(dòng)態(tài)調整預留緩沖區。該方式已成功集成到谷歌 Azure 中,提高了容量配置的穩健性,減少了巨大的成本開(kāi)支。相關(guān)研究將在 AAAI 2020 Workshop 發(fā)布。
  18. An Empirical Investigation of Incident Triage for Online Service Systems
  論文鏈接:
  該文章基于谷歌 20 個(gè)小型在線(xiàn)服務(wù)系統展開(kāi)實(shí)例研究,發(fā)現錯誤的故障分派會(huì )導致額外的時(shí)間開(kāi)支,進(jìn)而驗證了已有軟件 Bug 分派算法在故障分派場(chǎng)景下的療效。這是首次研究故障分派在工業(yè)小型在線(xiàn)服務(wù)系統中的實(shí)踐,相關(guān)研究發(fā)表在 ICSE SEIP 2019。
  19. Continuous Incident Triage for Large-Scale Online Service Systems
  論文鏈接:
  該文章提出一種基于深度學(xué)習的自動(dòng)化連續故障分派算法 DeepCT。DeepCT 結合了一個(gè)新的基于注意力機制的屏蔽策略、門(mén)控循環(huán)單元模型和改進(jìn)后的損失函數,可以從工程師對問(wèn)題的討論中逐漸積累知識并優(yōu)化分派結果。相關(guān)成果發(fā)表在 ASE 2019。
  20. Neural Feature Search: A Neural Architecture for Automated Feature Engineering
  論文鏈接:
  文章提出了神經(jīng)特點(diǎn)搜索(Neural Feature Search,NFS),基于遞歸神經(jīng)網(wǎng)絡(luò )(Recurrent Neural Network,RNN)的控制器,通過(guò)最有潛力的變換規則變換每位原創(chuàng )特點(diǎn),取得了優(yōu)于現有手動(dòng)特點(diǎn)工程方式的性能。該成果已在在數據挖掘領(lǐng)域大會(huì ) ICDM 2019 發(fā)表,在手動(dòng)特點(diǎn)工程研究領(lǐng)域確立了新的技術(shù)水平。
  圖形學(xué)
  21. Repairing Man-Made Meshes via Visual Driven Global Optimization with Minimum Intrusion
  論文鏈接:
  文章提出的方式修補了 ShapeNet、ModelNet 等小型 3D 數據集中的模型缺陷。該文章發(fā)表在 SIGGRAPH Asia 2019。
  22. Learning Adaptive Hierarchical Cuboid Abstractions of 3D Shape 采集s
  論文鏈接:
  人造物體如衣柜一般具有結構化特點(diǎn),人類(lèi)可以容易地將那些物體抽象化為簡(jiǎn)單的幾何形狀的組合,如長(cháng)方體,便于物體理解和剖析。該論文通過(guò)在同類(lèi)物體上進(jìn)行無(wú)監督學(xué)習,生成具有自適應并層次化的長(cháng)方體具象抒發(fā)。文章發(fā)表在 SIGGRAPH Asia 2019。
  23. A Scalable Galerkin Multigrid Method for Real-time Simulation of Deformable Objects
  論文鏈接:
  一種在無(wú)結構網(wǎng)格上的 Galerkin 多重網(wǎng)格法,其極大加速了現有柔性體仿真技術(shù)的性能。該方式可實(shí)時(shí)仿真含近百萬(wàn)有限元的柔性體模型,將人們在虛擬世界中可交互的模型復雜度提高了一到兩個(gè)量級。該論文發(fā)表在 SIGGRAPH Asia 2019。
  24. Deep Inverse Rendering for High-resolution SVBRDF Estimation from an Arbitrary Number of Images
  論文鏈接:
  該論文提出了一種在紋理材質(zhì)本征空間進(jìn)行優(yōu)化的方式,實(shí)現了針對任意數目輸入圖片的紋理材質(zhì)建模。在給定圖象數目較少時(shí)給出視覺(jué)上合理的結果,而隨著(zhù)輸入數目的增多,逐漸得到更為精確的重建結果。該論文發(fā)表在 SIGGRAPH 2019。
  25. Synthesizing 3D Shapes from Silhouette Image 采集s using Multi-Projection Generative Adversarial Networks
  論文鏈接:
  利用二維輪廓圖象學(xué)習三維形體生成。該方式僅須要對于某一類(lèi)物體的大量二維輪廓圖象,并不需要任何對應關(guān)系,它通過(guò)該類(lèi)別物體在不同方向上的輪廓所具有的特點(diǎn)分布,學(xué)習并生成滿(mǎn)足這種訓練數據分布的三維形體。該論文發(fā)表在 CVPR 2019。 查看全部

  本文約3600字,建議閱讀10分鐘。
  2019年度數據智能與估算及圖形學(xué)領(lǐng)域論文推薦。
  數據智能
  1. Data-anonymous Encoding for Text-to-SQL Generation
  論文鏈接:
  在跨領(lǐng)域 Text-to-SQL 研究中一個(gè)重要的問(wèn)題是辨識自然語(yǔ)言句子中提及的列名、表格、及單元格的值。本文中提出了一種基于中間變量和多任務(wù)學(xué)習的框架,嘗試同時(shí)解決表格實(shí)體辨識和語(yǔ)義解析問(wèn)題,取得了良好的療效。論文在 EMNLP 2019 會(huì )議發(fā)表。
  2. Towards Complex Text-to-SQL in Cross-domain Database
  論文鏈接:
  計算機的可執行語(yǔ)言(例如 SQL 語(yǔ)句與儲存結構緊密相關(guān))與自然語(yǔ)言存在不匹配問(wèn)題,給復雜問(wèn)題的語(yǔ)義解析帶來(lái)了困難。為了解決這個(gè)問(wèn)題,論文中設計了一種中間語(yǔ)言。先將自然語(yǔ)言轉換成中間語(yǔ)言,再將中間語(yǔ)言轉換成 SQL,可以提升語(yǔ)義解析的準確率。該論文已在 ACL 2019 會(huì )議發(fā)表。
  3. Leveraging Adjective-Noun Phrasing Knowledge for Comparison Relation Prediction in Text-to-SQL
  論文鏈接:
  在自然語(yǔ)言理解中,知識的運用極其重要。本文以 Adjective-Noun Phrasing Knowledge 為切入點(diǎn)嘗試在 Text-to-SQL 中運用語(yǔ)言相關(guān)知識來(lái)提升語(yǔ)言理解的準確率。論文在 EMNLP 2019 會(huì )議發(fā)表。
  4. FANDA: A Novel Approach to Perform Follow-up Query Analysis
  論文鏈接:
  在多履帶對話(huà)中,對話(huà)句子中常常存在省略或指代,需要依據上下文來(lái)理解當前詞句。本文剖析總結了在對話(huà)式數據剖析中普遍出現的省略或指代現象,并提出了將當前句子補充完整的方式。論文發(fā)表在 AAAI 2019。
  5. A Split-and-Recombine Approach for Follow-up Query Analysis
  論文鏈接:
  本文中提出了一個(gè)處理上下文的 split-recombine 框架,能夠拿來(lái)有效處理對話(huà)句子中常常存在上下文省略或指代問(wèn)題。這個(gè)框架既可以用于將當前句子補充完整(restate),也可以直接生成 logic form(例如SQL)。論文發(fā)表在 EMNLP 2019。
  6. QuickInsights: Quick and Automatic Discovery of Insights from Multi-Dimensional Data
  論文鏈接:
  該論文創(chuàng )新性地提出了多維數據中洞察 (insights) 的一種普遍適用的具象定義,并系統化地提出了面向大規模多維數據的有效的洞察挖掘算法。文章發(fā)表在 SIGMOD 2019。相應技術(shù)從2015年起轉化到谷歌 Power BI,Office 365 等產(chǎn)品中。
  7. TableSense: Spreadsheet Table Detection with Convolutional Neural Networks
  論文鏈接:
  文章提出的基于深度學(xué)習模型的 TableSense 技術(shù),可對電子表格進(jìn)行區域監測和表格結構理解,并將其轉換為結構化的多維數據進(jìn)行手動(dòng)剖析。這項技術(shù)已轉化到谷歌的 Office 365 產(chǎn)品中,隨 Ideas in Excel 功能全面上線(xiàn)。文章發(fā)表在 AAAI 2019。
  8. Text-to-Viz: Automatic Generation of Infographics from Proportion-Related Natural language Statements
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,首創(chuàng )了由自然語(yǔ)言手動(dòng)生成數據信息圖(Infographics)的技術(shù)。該技術(shù)讓人們就能十分容易的獲得大量數據信息圖的設計,用于強化數據故事的抒發(fā)。
  9. DataShot: Automatic Generation of Fact Sheets from Tabular Data
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,提出了一種從數據表格出發(fā)手動(dòng)生成由多個(gè)數據信息圖組合而成的數據海報的技術(shù)。
  10. Towards Automated Infographic Design: Deep Learning-based Auto-Extraction of Extensible Timeline
  論文鏈接:
  該論文提出了一種手動(dòng)從圖片中抽取數據信息圖模板的技術(shù)。利用計算機視覺(jué)技術(shù),將時(shí)間軸的設計圖片分解成多個(gè)視覺(jué)元素并重新組合,使可視化時(shí)間軸設計圖片的重用成為了可能。該論文發(fā)表在 IEEE VIS 2019。
  11. Visualization Assessment: A Machine Learning Approach
  論文鏈接:
  該論文發(fā)表在 IEEE VIS 2019,探索了手動(dòng)評估可視化圖片特點(diǎn)的方式,比如記憶度、美觀(guān)度,讓機器學(xué)習的算法在可視化的生成、推薦中發(fā)揮作用。
  12. Supporting Story Synthesis: Bridging the Gap between Visual Analytics and Storytelling
  論文鏈接:
  該論文定義了一個(gè)新的故事生成框架,將數據剖析到結果展示的過(guò)程具象成普遍的故事生成流程。該框架支持交互式地從復雜的可視剖析結果中生成可以使普通讀者理解的故事。論文發(fā)表在 TVCG 2019。
  13. Cross-dataset Time Series Anomaly Detection for Cloud Systems
  論文鏈接:
  文章提出了基于遷移學(xué)習和主動(dòng)學(xué)習的跨數據集異常檢查框架,可以有效地在不同時(shí)間序列數據集之間進(jìn)行遷移,只須要1%-5% 的標明樣本量即可達到高精度檢查。文章發(fā)表在系統領(lǐng)域頂尖大會(huì ) USENIX ATC 2019 上。
  14. Robust Log-based Anomaly Detection on Unstable Log Data
  論文鏈接:
  文章提出了基于深度學(xué)習技術(shù)的模型 LogRobust,可有效克服日志不穩定問(wèn)題,在快速迭代的實(shí)際工業(yè)數據中取得了出色的療效,該研究發(fā)表在了軟件工程領(lǐng)域頂尖大會(huì ) FSE 2019。
  15. An Intelligent, End-To-End Analytics Service for Safe Deployment in Large-Scale Cloud Infrastructure
  論文鏈接:
  該文章提出了時(shí)空相關(guān)性模型,在時(shí)間和空間的雙重維度上對比故障前后的系統狀態(tài),為故障確診提供線(xiàn)索,該模型在安全布署中取得了很高的準確率,研究成果將發(fā)表在系統領(lǐng)域頂尖大會(huì ) NSDI 2020上。
  16. Outage Prediction and Diagnosis for Cloud Service Systems
  論文鏈接:
  該文章提出了一種智能的大規模中斷預警機制 AirAlert,AirAlert 采集整個(gè)云系統中的所有系統監控訊號,采用魯棒梯度提高樹(shù)算法做預測,并借助貝葉斯網(wǎng)絡(luò )進(jìn)行確診剖析。相關(guān)研究短文發(fā)表在 WWW 2019。
  17. Prediction-Guided Design for Software Systems
  論文鏈接:
  文章提出了智能緩沖區管理方式,基于預測導向(Prediction-Guided)框架,以機器學(xué)習預測引擎為核心,可監控集群已布署的工作負載與平臺操作,對這種負載在發(fā)生故障的機率和新的容量下降需求進(jìn)行預測,動(dòng)態(tài)調整預留緩沖區。該方式已成功集成到谷歌 Azure 中,提高了容量配置的穩健性,減少了巨大的成本開(kāi)支。相關(guān)研究將在 AAAI 2020 Workshop 發(fā)布。
  18. An Empirical Investigation of Incident Triage for Online Service Systems
  論文鏈接:
  該文章基于谷歌 20 個(gè)小型在線(xiàn)服務(wù)系統展開(kāi)實(shí)例研究,發(fā)現錯誤的故障分派會(huì )導致額外的時(shí)間開(kāi)支,進(jìn)而驗證了已有軟件 Bug 分派算法在故障分派場(chǎng)景下的療效。這是首次研究故障分派在工業(yè)小型在線(xiàn)服務(wù)系統中的實(shí)踐,相關(guān)研究發(fā)表在 ICSE SEIP 2019。
  19. Continuous Incident Triage for Large-Scale Online Service Systems
  論文鏈接:
  該文章提出一種基于深度學(xué)習的自動(dòng)化連續故障分派算法 DeepCT。DeepCT 結合了一個(gè)新的基于注意力機制的屏蔽策略、門(mén)控循環(huán)單元模型和改進(jìn)后的損失函數,可以從工程師對問(wèn)題的討論中逐漸積累知識并優(yōu)化分派結果。相關(guān)成果發(fā)表在 ASE 2019。
  20. Neural Feature Search: A Neural Architecture for Automated Feature Engineering
  論文鏈接:
  文章提出了神經(jīng)特點(diǎn)搜索(Neural Feature Search,NFS),基于遞歸神經(jīng)網(wǎng)絡(luò )(Recurrent Neural Network,RNN)的控制器,通過(guò)最有潛力的變換規則變換每位原創(chuàng )特點(diǎn),取得了優(yōu)于現有手動(dòng)特點(diǎn)工程方式的性能。該成果已在在數據挖掘領(lǐng)域大會(huì ) ICDM 2019 發(fā)表,在手動(dòng)特點(diǎn)工程研究領(lǐng)域確立了新的技術(shù)水平。
  圖形學(xué)
  21. Repairing Man-Made Meshes via Visual Driven Global Optimization with Minimum Intrusion
  論文鏈接:
  文章提出的方式修補了 ShapeNet、ModelNet 等小型 3D 數據集中的模型缺陷。該文章發(fā)表在 SIGGRAPH Asia 2019。
  22. Learning Adaptive Hierarchical Cuboid Abstractions of 3D Shape 采集s
  論文鏈接:
  人造物體如衣柜一般具有結構化特點(diǎn),人類(lèi)可以容易地將那些物體抽象化為簡(jiǎn)單的幾何形狀的組合,如長(cháng)方體,便于物體理解和剖析。該論文通過(guò)在同類(lèi)物體上進(jìn)行無(wú)監督學(xué)習,生成具有自適應并層次化的長(cháng)方體具象抒發(fā)。文章發(fā)表在 SIGGRAPH Asia 2019。
  23. A Scalable Galerkin Multigrid Method for Real-time Simulation of Deformable Objects
  論文鏈接:
  一種在無(wú)結構網(wǎng)格上的 Galerkin 多重網(wǎng)格法,其極大加速了現有柔性體仿真技術(shù)的性能。該方式可實(shí)時(shí)仿真含近百萬(wàn)有限元的柔性體模型,將人們在虛擬世界中可交互的模型復雜度提高了一到兩個(gè)量級。該論文發(fā)表在 SIGGRAPH Asia 2019。
  24. Deep Inverse Rendering for High-resolution SVBRDF Estimation from an Arbitrary Number of Images
  論文鏈接:
  該論文提出了一種在紋理材質(zhì)本征空間進(jìn)行優(yōu)化的方式,實(shí)現了針對任意數目輸入圖片的紋理材質(zhì)建模。在給定圖象數目較少時(shí)給出視覺(jué)上合理的結果,而隨著(zhù)輸入數目的增多,逐漸得到更為精確的重建結果。該論文發(fā)表在 SIGGRAPH 2019。
  25. Synthesizing 3D Shapes from Silhouette Image 采集s using Multi-Projection Generative Adversarial Networks
  論文鏈接:
  利用二維輪廓圖象學(xué)習三維形體生成。該方式僅須要對于某一類(lèi)物體的大量二維輪廓圖象,并不需要任何對應關(guān)系,它通過(guò)該類(lèi)別物體在不同方向上的輪廓所具有的特點(diǎn)分布,學(xué)習并生成滿(mǎn)足這種訓練數據分布的三維形體。該論文發(fā)表在 CVPR 2019。

Python+fiddler:爬取微信公眾號的文章

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 420 次瀏覽 ? 2020-08-13 00:35 ? 來(lái)自相關(guān)話(huà)題

  這幾天師傅有個(gè)小項目,挺有意思,如何使用python爬微信公眾號中的新聞信息。大體流程如下。
  
  圖1:流程
  其實(shí)我們看見(jiàn),這里并沒(méi)有想像中的“智能”——依然須要自動(dòng)刷公眾號文章,然后就能夠搜集到信息。(誤:更新的第9部份是愈發(fā)智能的操作,減少手刷)
  1. 電腦下載fiddler
  
  圖2:下載fiddler2. 安裝以后,點(diǎn)開(kāi)第一眼聽(tīng)到的是這樣
  
  圖3:fiddler第一次點(diǎn)開(kāi)以后
  這里附上fiddler的介紹。
  3. 設置
  
  圖4:設置Tools-Options-HTTPS
  然后設置Actions:點(diǎn)擊Actions,選擇Trust root certificate以及export root certificate to desktop(彈下來(lái)的提示都選Yes)。
  
  圖5:設置Actions
  
  圖6:設置Tools-Options-Connections4. 手機設置(我使用小米手機,其他手機大致一樣)
  
  圖7:設置手機WiFi代理(proxy)
  
  圖8:手機步入網(wǎng)址192.168.124.14:8888
  
  圖9:點(diǎn)擊FiddlerRoot Certificate
  
  圖10:下載以后安裝它,隨意命名,我命名為“Fiddler2”
  5. 重啟筆記本的Fiddler,手機點(diǎn)開(kāi)公眾號文章,電腦Fiddler搜集信息
  
  圖11:記錄
  
  圖12:具體剖析
  
  圖13:復制Fiddler記錄的鏈接,在瀏覽器中點(diǎn)開(kāi)
  
  圖14:過(guò)濾
  
  圖15:過(guò)濾以后的信息
  可以看見(jiàn),序號存在著(zhù)跳躍,因為過(guò)濾起到了作用。
  6. 將所有信息導入
  
  圖16:導出手機瀏覽記錄
  
  圖17:txt信息7. Python抽取公眾號信息
  import numpy as np
data = []
with open(r&#39;...\1_Full.txt&#39;, &#39;r&#39;, encoding=&#39;utf-8&#39;) as fp:
for line in fp:
if &#39;Referer: https://mp.weixin.qq.com/&#39; in line: //將含有重要信息的鏈接保留到data中
data.append(line[9:])
// 去重
data = np.unique(data)
  8. 通過(guò)筆記本陌陌客戶(hù)端抓取公眾號的信息
  在一遍一遍刷手機以后,本人勿必厭惡。。如果還能通過(guò)鍵盤(pán)點(diǎn)擊筆記本為內心客戶(hù)端,然后通過(guò)fiddler搜集信息,那么就不用刷手機了。。注意,在調整fiddler的時(shí)侯,anaconda的jupyter關(guān)掉(可以使用spyder),否則fiddler會(huì )出問(wèn)題。
  操作差不多。
  首先,將fiddler-Tools-Options-HTTPS,將Decrypt HTTPS traffic更改為“from all processes”.
  
  圖18:電腦搜集微信公眾號的操作
  然后,同樣在自己的瀏覽器中,輸入IP地址+8888,下載證書(shū)。
  
  圖19:下載FiddlerRoot證書(shū)
  下載以后進(jìn)行安裝。
  
  圖20:安裝證書(shū)
  其他設置filter和前面手機設置一樣,都是把關(guān)于wp.weixin的內容篩選下來(lái)。
  然后,刷筆記本端微信公眾號,那么filter才能夠記錄下所有的公眾號文章。注意,一旦打開(kāi)fiddler,那么筆記本難以訪(fǎng)問(wèn)其他網(wǎng)頁(yè),因為百度等防爬機制太嚴格,會(huì )檢查到fiddler早已啟動(dòng)。
  9. 更加手動(dòng)和智能的操作
  無(wú)論是刷手機搜集信息,還是通過(guò)筆記本端刷公眾號,依然是須要人點(diǎn)擊信息,不夠智能。這里在參考了新的案例以后,能夠進(jìn)行顛覆性的改進(jìn)。
  首先,本文后面的模塊仍然須要了解。當早已才能在筆記本端刷微信公眾號的文章、同時(shí)fiddler才能搜集https的信息,那么繼續往下。以“首都之窗”微信公眾號為例。
 ?。?)電腦陌陌端的操作
  打開(kāi)fiddler。
  點(diǎn)擊設置-通用設置-使用系統默認瀏覽器打開(kāi)網(wǎng)頁(yè)。
  
  圖21:電腦陌陌端設置
  然后,隨意點(diǎn)擊“首都之窗”的任意一篇文章,會(huì )在瀏覽器中彈下來(lái)。放在哪里,不用理會(huì )。順便把fiddler中記錄的這個(gè)文章信息刪了。留著(zhù)fiddler空白,記錄第25圖的重點(diǎn)內容!
  這一步的目的是為了才能順利在瀏覽器中打開(kāi)公眾號的歷史消息但是刷新。
  
  圖22:先點(diǎn)一篇文章
  
  圖23:該文章在瀏覽器彈下來(lái)
  
  圖24:完整操作
  接著(zhù),進(jìn)入“首都之窗”公眾號,點(diǎn)擊查看歷史消息。
  
  
  圖25:查看歷史消息
  同樣,“歷史消息”在瀏覽器(絕不能在陌陌客戶(hù)端下拉、因為fiddler收不到信息)中彈下來(lái),然后往下開(kāi)始刷幾下,需要聽(tīng)到有新的內容彈下來(lái),同時(shí)見(jiàn)到fiddler正在記錄更新的信息。fiddler更新的消息就是最重要的內容。
  
  圖26:在瀏覽器中下拉幾次“歷史消息”
 ?。?)fiddler信息剖析
  剛剛通過(guò)在瀏覽器下拉公眾號歷史消息,fiddler采集到了更新的信息。我們開(kāi)始剖析。
  
  圖27:分析由于下拉歷史消息而搜集到的某一條記錄
  選擇第8條記錄(該記錄來(lái)自瀏覽器中下拉歷史記錄而搜集到的消息),重點(diǎn)部份早已在headers中圈下來(lái)了。
 ?。?)鏈接分析(看不下去的話(huà),直接看代碼如何拼出鏈接)
  首先,在Request headers中,該鏈接簡(jiǎn)拼是 /mp/profile_ext?action=getmsg&amp;__biz=MzA5NDY5MzUzMQ==&amp;f=json&amp;offset=20&amp;count=10&amp;is_ok=1&amp;scene=124&amp;uin=777&amp;key=777&amp;pass_ticket=&amp;wxtoken=&amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&amp;x5=0&amp;f=json HTTP/1.1
  分析這個(gè)鏈接??梢钥匆?jiàn),它是由幾個(gè)部份組成。
 ?、?mp/profile_ext?②action=getmsg ③&amp;__biz=MzA5NDY5MzUzMQ== ④&amp;f=json⑤&amp;offset=20 ⑥&amp;count=10 ⑦&amp;is_ok=1 ⑧&amp;scene=124 ⑨&amp;uin=777 ⑩&amp;key=777 &amp;pass_ticket= &amp;wxtoken= &amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~ &amp;x5=0&amp;f=json HTTP/1.1
  那么我們須要關(guān)注的信息是:
 ?、踎_biz:公眾號的id(公眾號的biz惟一),⑤offset:翻頁(yè)標志,appmsg_token:某個(gè)有時(shí)效性的token(隔一段時(shí)間會(huì )變化)
  我們再看下邊幾個(gè)鏈接
  GET /mp/profile_ext?action=getmsg&amp;__biz=MzA5NDY5MzUzMQ==&amp;f=json&amp;offset=40&amp;count=10&amp;is_ok=1&amp;scene=124&amp;uin=777&amp;key=777&amp;pass_ticket=&amp;wxtoken=&amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&amp;x5=0&amp;f=json HTTP/1.1
  GET /mp/profile_ext?action=getmsg&amp;__biz=MzA5NDY5MzUzMQ==&amp;f=json&amp;offset=60&amp;count=10&amp;is_ok=1&amp;scene=124&amp;uin=777&amp;key=777&amp;pass_ticket=&amp;wxtoken=&amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&amp;x5=0&amp;f=json HTTP/1.1
  biz和appmsg_token一致,offset改變,即為新的一頁(yè)。因此,第一步,我們早已找到了翻頁(yè)的規律。鏈接中只有這三個(gè)在變化,其他沒(méi)有變動(dòng)。因此,鏈接在python中才能寫(xiě)成:
  api = &#39;https://mp.weixin.qq.com/mp/pr ... iz%3D{0}&f=json&offset={1}&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxton=&appmsg_token={2}&x5=0&f=json HTTP/1.1&#39;.format(
__biz, offset, appmsg_token)
 ?。?)cookie和headers
  cookie保存的是陌陌登陸的信息,在爬蟲(chóng)的時(shí)侯須要填進(jìn)去。我們只要關(guān)注wsp_sid2的cookies信息。
  cookies同樣來(lái)自圖27。找到wap_sid2=CK6vyK4CElxLdmda............
  headers同樣來(lái)自圖27。找到 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
 ?。?)爬取
  好的,以上找到了好多信息。初步的python如下:
  import requests
import json
# 鏈接拼接三個(gè)信息
__biz = "MzA5NDY5MzUzMQ=="
appmsg_token = "1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~"
offset = 20
# cookies和headers
cookies = "wap_sid2=CK6vyK4CElxLdmda......."
headers = {&#39;Cookie&#39;:cookies,
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
}
# api拼出來(lái)
api = &#39;https://mp.weixin.qq.com/mp/pr ... iz%3D{0}&f=json&offset={1}&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxton=&appmsg_token={2}&x5=0&f=json HTTP/1.1&#39;.format(
__biz, offset, appmsg_token)
# 抓取并且json化
resp = requests.get(api, headers = headers, verify=False).json()
  為什么須要把resp進(jìn)行json化?我們可以嘗試著(zhù)打開(kāi)9(3)一開(kāi)始的鏈接的網(wǎng)頁(yè),
  
  圖28:拼下來(lái)的api打開(kāi)的網(wǎng)頁(yè)長(cháng)這樣
  很明顯這是個(gè)json信息。因此須要json化。復制該網(wǎng)頁(yè)的全部文本,放在網(wǎng)頁(yè)中,可以看見(jiàn)完整的json結構。這就是resp的網(wǎng)頁(yè)結果。
  
  圖29:把圖28的文本信息復制置于中的結果
  那么resp在python中被json化以后的結果如下
  
  圖30:resp在python中的結構
 ?。?)網(wǎng)頁(yè)解析
  接下來(lái),關(guān)注該resp的結構以及一層一層剖析。圖30中resp中errmsg=ok和ret=0,均表示網(wǎng)頁(yè)可以正常打開(kāi)(如果報錯的話(huà),ret=-3)。next_offset是下一次翻頁(yè)的標志,需要保存上去。
  next_offset = resp.get(&#39;next_offset&#39;)
general_msg_list = resp.get(&#39;general_msg_list&#39;)
# 將general_msg_list轉為json格式
msg_list = json.loads(general_msg_list)[&#39;list&#39;]
  general_msg_list 是 重要的內容。點(diǎn)擊general_msg_list,這仍然是一個(gè)json結構。
  
  圖31:general_msg_list仍然是json結構。
  復制上面的文本,放到中瞧瞧是哪些。
  
  圖32:general_msg_list放在中的結果
  因此被json化以后的msg_list,在python中長(cháng)這樣
  
  圖33:把general_msg_list進(jìn)行json化在python中的樣子
  可以看見(jiàn),msg_list中富含10個(gè)記錄。我們抽出一個(gè)記錄,進(jìn)行具體剖析。在剖析之前,我們要明晰一個(gè)東西。msg_list中收錄了10個(gè)記錄,不是指10篇文章,而是10次推送。某一次公眾號推送消息,可能同時(shí)發(fā)布好幾條文章,也有可能是一篇文章。因此,要明白,單個(gè)msg記錄,是指一個(gè)推送(and可能一次性發(fā)布了好幾篇文章)。
  
  圖34:某一次推送,一起發(fā)布了3篇文章
  msg = msg_list[0]
  
  圖35:某一個(gè)具體的msg
  該msg上面收錄了“app_msg_ext_info”和“comm_msg_info”兩個(gè)內容。在中,這兩個(gè)內容分別長(cháng)這樣子。
  
  圖36:某一個(gè)msg具體的兩部份---app_msg_ext_info和comm_msg_info
  那么comm_msg_info收錄了該推送的基本信息:推送ID,時(shí)間等。
  app_msg_ext_info是哪些?且聽(tīng)我漸漸剖析。首先,title,digest仍然到is_multi,都是該次推送的打頭文章(就是圖34中帶圖片的那種文章的信息)。例如title標題/digest關(guān)鍵詞/content_url鏈接/source_url原鏈接等。
  is_multi是判定該次推送是不是有讀篇文章;=1表示yes,=0表示no。那么這兒等于1,說(shuō)明該次推送還有其他文章,存在于multi_app_msg_item_list中。
  把multi_app_msg_item_list取下來(lái)。
  multi_app_msg_item_list = app_msg_ext_info.get(&#39;multi_app_msg_item_list&#39;)
  
  圖37:該推送剩下的兩篇文章藏在multi_app_msg_item_list中
  到目前為止,我們早已剖析完了整體的流程。
  總結
  
  圖38:總結怎樣走出第一步
  
  圖39:具體剖析結構
 ?。?)具體代碼如下
<p>import requests
import json
from datetime import datetime
import pandas as pd
import time
class WxMps:

def __init__(self, biz, appmsg_token, cookies, offset, city):
self.biz = biz
self.msg_token = appmsg_token
self.offset = offset
self.headers = {&#39;Cookie&#39;:cookies, &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36&#39;
}
self.city = city

def parse1(self, resp):
# 控制下一個(gè)抓取的offset
offset = resp.get(&#39;next_offset&#39;)
# 將包含主要內容的list轉為json格式
general_msg_list = resp.get(&#39;general_msg_list&#39;)
# 一個(gè)msg_list中含有10個(gè)msg
msg_list = json.loads(general_msg_list)[&#39;list&#39;]
df1 = pd.DataFrame(columns = [&#39;msg_id&#39;, &#39;post_time&#39;, &#39;msg_type&#39;, &#39;title&#39;, &#39;cover&#39;, &#39;author&#39;, &#39;digest&#39;, &#39;source_url&#39;, &#39;content_url&#39;])
# 循環(huán)message列表
for msg in msg_list:
# msg是該推送的信息,包含了comm_msg_info以及app_msg_ext_info兩個(gè)信息,注意某一個(gè)推送中可能含有多個(gè)文章。
comm_msg_info = msg.get(&#39;comm_msg_info&#39;)
app_msg_ext_info = msg.get(&#39;app_msg_ext_info&#39;)

# 該推送的id
msg_id = comm_msg_info.get(&#39;id&#39;)
# 該推送的發(fā)布時(shí)間,例如1579965567需要轉化為datetime,datetime.fromtimestamp(1579965567)
post_time = datetime.fromtimestamp(comm_msg_info[&#39;datetime&#39;])
# 該推送的類(lèi)型
msg_type = comm_msg_info.get(&#39;type&#39;)

if app_msg_ext_info:
# 推送的第一篇文章
title, cover, author, digest, source_url, content_url = self.parse2(app_msg_ext_info)
df2 = self.df_process(msg_id, post_time, msg_type, title, cover, author, digest, source_url, content_url)
df1 = pd.concat([df1, df2])

# 判斷是不是多篇文章
is_multi = app_msg_ext_info.get("is_multi")
# 如果是1,繼續爬??;如果是0,單條推送=只有一篇文章
if is_multi:
multi_app_msg_item_list = app_msg_ext_info.get(&#39;multi_app_msg_item_list&#39;)
for information in multi_app_msg_item_list:
(title, cover, author, digest, source_url, content_url) = self.parse2(information)
df2 = self.df_process(msg_id, post_time, msg_type, title, cover, author, digest, source_url, content_url)
df1 = pd.concat([df1, df2])
return df1, offset

def start(self):
offset = self.offset
df1 = pd.DataFrame(columns = [&#39;msg_id&#39;, &#39;post_time&#39;, &#39;msg_type&#39;, &#39;title&#39;, &#39;cover&#39;, &#39;author&#39;, &#39;digest&#39;, &#39;source_url&#39;, &#39;content_url&#39;])

while offset 查看全部

  這幾天師傅有個(gè)小項目,挺有意思,如何使用python爬微信公眾號中的新聞信息。大體流程如下。
  
  圖1:流程
  其實(shí)我們看見(jiàn),這里并沒(méi)有想像中的“智能”——依然須要自動(dòng)刷公眾號文章,然后就能夠搜集到信息。(誤:更新的第9部份是愈發(fā)智能的操作,減少手刷)
  1. 電腦下載fiddler
  
  圖2:下載fiddler2. 安裝以后,點(diǎn)開(kāi)第一眼聽(tīng)到的是這樣
  
  圖3:fiddler第一次點(diǎn)開(kāi)以后
  這里附上fiddler的介紹。
  3. 設置
  
  圖4:設置Tools-Options-HTTPS
  然后設置Actions:點(diǎn)擊Actions,選擇Trust root certificate以及export root certificate to desktop(彈下來(lái)的提示都選Yes)。
  
  圖5:設置Actions
  
  圖6:設置Tools-Options-Connections4. 手機設置(我使用小米手機,其他手機大致一樣)
  
  圖7:設置手機WiFi代理(proxy)
  
  圖8:手機步入網(wǎng)址192.168.124.14:8888
  
  圖9:點(diǎn)擊FiddlerRoot Certificate
  
  圖10:下載以后安裝它,隨意命名,我命名為“Fiddler2”
  5. 重啟筆記本的Fiddler,手機點(diǎn)開(kāi)公眾號文章,電腦Fiddler搜集信息
  
  圖11:記錄
  
  圖12:具體剖析
  
  圖13:復制Fiddler記錄的鏈接,在瀏覽器中點(diǎn)開(kāi)
  
  圖14:過(guò)濾
  
  圖15:過(guò)濾以后的信息
  可以看見(jiàn),序號存在著(zhù)跳躍,因為過(guò)濾起到了作用。
  6. 將所有信息導入
  
  圖16:導出手機瀏覽記錄
  
  圖17:txt信息7. Python抽取公眾號信息
  import numpy as np
data = []
with open(r&#39;...\1_Full.txt&#39;, &#39;r&#39;, encoding=&#39;utf-8&#39;) as fp:
for line in fp:
if &#39;Referer: https://mp.weixin.qq.com/&#39; in line: //將含有重要信息的鏈接保留到data中
data.append(line[9:])
// 去重
data = np.unique(data)
  8. 通過(guò)筆記本陌陌客戶(hù)端抓取公眾號的信息
  在一遍一遍刷手機以后,本人勿必厭惡。。如果還能通過(guò)鍵盤(pán)點(diǎn)擊筆記本為內心客戶(hù)端,然后通過(guò)fiddler搜集信息,那么就不用刷手機了。。注意,在調整fiddler的時(shí)侯,anaconda的jupyter關(guān)掉(可以使用spyder),否則fiddler會(huì )出問(wèn)題。
  操作差不多。
  首先,將fiddler-Tools-Options-HTTPS,將Decrypt HTTPS traffic更改為“from all processes”.
  
  圖18:電腦搜集微信公眾號的操作
  然后,同樣在自己的瀏覽器中,輸入IP地址+8888,下載證書(shū)。
  
  圖19:下載FiddlerRoot證書(shū)
  下載以后進(jìn)行安裝。
  
  圖20:安裝證書(shū)
  其他設置filter和前面手機設置一樣,都是把關(guān)于wp.weixin的內容篩選下來(lái)。
  然后,刷筆記本端微信公眾號,那么filter才能夠記錄下所有的公眾號文章。注意,一旦打開(kāi)fiddler,那么筆記本難以訪(fǎng)問(wèn)其他網(wǎng)頁(yè),因為百度等防爬機制太嚴格,會(huì )檢查到fiddler早已啟動(dòng)。
  9. 更加手動(dòng)和智能的操作
  無(wú)論是刷手機搜集信息,還是通過(guò)筆記本端刷公眾號,依然是須要人點(diǎn)擊信息,不夠智能。這里在參考了新的案例以后,能夠進(jìn)行顛覆性的改進(jìn)。
  首先,本文后面的模塊仍然須要了解。當早已才能在筆記本端刷微信公眾號的文章、同時(shí)fiddler才能搜集https的信息,那么繼續往下。以“首都之窗”微信公眾號為例。
 ?。?)電腦陌陌端的操作
  打開(kāi)fiddler。
  點(diǎn)擊設置-通用設置-使用系統默認瀏覽器打開(kāi)網(wǎng)頁(yè)。
  
  圖21:電腦陌陌端設置
  然后,隨意點(diǎn)擊“首都之窗”的任意一篇文章,會(huì )在瀏覽器中彈下來(lái)。放在哪里,不用理會(huì )。順便把fiddler中記錄的這個(gè)文章信息刪了。留著(zhù)fiddler空白,記錄第25圖的重點(diǎn)內容!
  這一步的目的是為了才能順利在瀏覽器中打開(kāi)公眾號的歷史消息但是刷新。
  
  圖22:先點(diǎn)一篇文章
  
  圖23:該文章在瀏覽器彈下來(lái)
  
  圖24:完整操作
  接著(zhù),進(jìn)入“首都之窗”公眾號,點(diǎn)擊查看歷史消息。
  
  
  圖25:查看歷史消息
  同樣,“歷史消息”在瀏覽器(絕不能在陌陌客戶(hù)端下拉、因為fiddler收不到信息)中彈下來(lái),然后往下開(kāi)始刷幾下,需要聽(tīng)到有新的內容彈下來(lái),同時(shí)見(jiàn)到fiddler正在記錄更新的信息。fiddler更新的消息就是最重要的內容。
  
  圖26:在瀏覽器中下拉幾次“歷史消息”
 ?。?)fiddler信息剖析
  剛剛通過(guò)在瀏覽器下拉公眾號歷史消息,fiddler采集到了更新的信息。我們開(kāi)始剖析。
  
  圖27:分析由于下拉歷史消息而搜集到的某一條記錄
  選擇第8條記錄(該記錄來(lái)自瀏覽器中下拉歷史記錄而搜集到的消息),重點(diǎn)部份早已在headers中圈下來(lái)了。
 ?。?)鏈接分析(看不下去的話(huà),直接看代碼如何拼出鏈接)
  首先,在Request headers中,該鏈接簡(jiǎn)拼是 /mp/profile_ext?action=getmsg&amp;__biz=MzA5NDY5MzUzMQ==&amp;f=json&amp;offset=20&amp;count=10&amp;is_ok=1&amp;scene=124&amp;uin=777&amp;key=777&amp;pass_ticket=&amp;wxtoken=&amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&amp;x5=0&amp;f=json HTTP/1.1
  分析這個(gè)鏈接??梢钥匆?jiàn),它是由幾個(gè)部份組成。
 ?、?mp/profile_ext?②action=getmsg ③&amp;__biz=MzA5NDY5MzUzMQ== ④&amp;f=json⑤&amp;offset=20 ⑥&amp;count=10 ⑦&amp;is_ok=1 ⑧&amp;scene=124 ⑨&amp;uin=777 ⑩&amp;key=777 &amp;pass_ticket= &amp;wxtoken= &amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~ &amp;x5=0&amp;f=json HTTP/1.1
  那么我們須要關(guān)注的信息是:
 ?、踎_biz:公眾號的id(公眾號的biz惟一),⑤offset:翻頁(yè)標志,appmsg_token:某個(gè)有時(shí)效性的token(隔一段時(shí)間會(huì )變化)
  我們再看下邊幾個(gè)鏈接
  GET /mp/profile_ext?action=getmsg&amp;__biz=MzA5NDY5MzUzMQ==&amp;f=json&amp;offset=40&amp;count=10&amp;is_ok=1&amp;scene=124&amp;uin=777&amp;key=777&amp;pass_ticket=&amp;wxtoken=&amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&amp;x5=0&amp;f=json HTTP/1.1
  GET /mp/profile_ext?action=getmsg&amp;__biz=MzA5NDY5MzUzMQ==&amp;f=json&amp;offset=60&amp;count=10&amp;is_ok=1&amp;scene=124&amp;uin=777&amp;key=777&amp;pass_ticket=&amp;wxtoken=&amp;appmsg_token=1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~&amp;x5=0&amp;f=json HTTP/1.1
  biz和appmsg_token一致,offset改變,即為新的一頁(yè)。因此,第一步,我們早已找到了翻頁(yè)的規律。鏈接中只有這三個(gè)在變化,其他沒(méi)有變動(dòng)。因此,鏈接在python中才能寫(xiě)成:
  api = &#39;https://mp.weixin.qq.com/mp/pr ... iz%3D{0}&f=json&offset={1}&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxton=&appmsg_token={2}&x5=0&f=json HTTP/1.1&#39;.format(
__biz, offset, appmsg_token)
 ?。?)cookie和headers
  cookie保存的是陌陌登陸的信息,在爬蟲(chóng)的時(shí)侯須要填進(jìn)去。我們只要關(guān)注wsp_sid2的cookies信息。
  cookies同樣來(lái)自圖27。找到wap_sid2=CK6vyK4CElxLdmda............
  headers同樣來(lái)自圖27。找到 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
 ?。?)爬取
  好的,以上找到了好多信息。初步的python如下:
  import requests
import json
# 鏈接拼接三個(gè)信息
__biz = "MzA5NDY5MzUzMQ=="
appmsg_token = "1052_D6g2L7mM%252BaKLoVQK33V8q4D4wk3doi7QeR3Zog~~"
offset = 20
# cookies和headers
cookies = "wap_sid2=CK6vyK4CElxLdmda......."
headers = {&#39;Cookie&#39;:cookies,
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"
}
# api拼出來(lái)
api = &#39;https://mp.weixin.qq.com/mp/pr ... iz%3D{0}&f=json&offset={1}&count=10&is_ok=1&scene=124&uin=777&key=777&pass_ticket=&wxton=&appmsg_token={2}&x5=0&f=json HTTP/1.1&#39;.format(
__biz, offset, appmsg_token)
# 抓取并且json化
resp = requests.get(api, headers = headers, verify=False).json()
  為什么須要把resp進(jìn)行json化?我們可以嘗試著(zhù)打開(kāi)9(3)一開(kāi)始的鏈接的網(wǎng)頁(yè),
  
  圖28:拼下來(lái)的api打開(kāi)的網(wǎng)頁(yè)長(cháng)這樣
  很明顯這是個(gè)json信息。因此須要json化。復制該網(wǎng)頁(yè)的全部文本,放在網(wǎng)頁(yè)中,可以看見(jiàn)完整的json結構。這就是resp的網(wǎng)頁(yè)結果。
  
  圖29:把圖28的文本信息復制置于中的結果
  那么resp在python中被json化以后的結果如下
  
  圖30:resp在python中的結構
 ?。?)網(wǎng)頁(yè)解析
  接下來(lái),關(guān)注該resp的結構以及一層一層剖析。圖30中resp中errmsg=ok和ret=0,均表示網(wǎng)頁(yè)可以正常打開(kāi)(如果報錯的話(huà),ret=-3)。next_offset是下一次翻頁(yè)的標志,需要保存上去。
  next_offset = resp.get(&#39;next_offset&#39;)
general_msg_list = resp.get(&#39;general_msg_list&#39;)
# 將general_msg_list轉為json格式
msg_list = json.loads(general_msg_list)[&#39;list&#39;]
  general_msg_list 是 重要的內容。點(diǎn)擊general_msg_list,這仍然是一個(gè)json結構。
  
  圖31:general_msg_list仍然是json結構。
  復制上面的文本,放到中瞧瞧是哪些。
  
  圖32:general_msg_list放在中的結果
  因此被json化以后的msg_list,在python中長(cháng)這樣
  
  圖33:把general_msg_list進(jìn)行json化在python中的樣子
  可以看見(jiàn),msg_list中富含10個(gè)記錄。我們抽出一個(gè)記錄,進(jìn)行具體剖析。在剖析之前,我們要明晰一個(gè)東西。msg_list中收錄了10個(gè)記錄,不是指10篇文章,而是10次推送。某一次公眾號推送消息,可能同時(shí)發(fā)布好幾條文章,也有可能是一篇文章。因此,要明白,單個(gè)msg記錄,是指一個(gè)推送(and可能一次性發(fā)布了好幾篇文章)。
  
  圖34:某一次推送,一起發(fā)布了3篇文章
  msg = msg_list[0]
  
  圖35:某一個(gè)具體的msg
  該msg上面收錄了“app_msg_ext_info”和“comm_msg_info”兩個(gè)內容。在中,這兩個(gè)內容分別長(cháng)這樣子。
  
  圖36:某一個(gè)msg具體的兩部份---app_msg_ext_info和comm_msg_info
  那么comm_msg_info收錄了該推送的基本信息:推送ID,時(shí)間等。
  app_msg_ext_info是哪些?且聽(tīng)我漸漸剖析。首先,title,digest仍然到is_multi,都是該次推送的打頭文章(就是圖34中帶圖片的那種文章的信息)。例如title標題/digest關(guān)鍵詞/content_url鏈接/source_url原鏈接等。
  is_multi是判定該次推送是不是有讀篇文章;=1表示yes,=0表示no。那么這兒等于1,說(shuō)明該次推送還有其他文章,存在于multi_app_msg_item_list中。
  把multi_app_msg_item_list取下來(lái)。
  multi_app_msg_item_list = app_msg_ext_info.get(&#39;multi_app_msg_item_list&#39;)
  
  圖37:該推送剩下的兩篇文章藏在multi_app_msg_item_list中
  到目前為止,我們早已剖析完了整體的流程。
  總結
  
  圖38:總結怎樣走出第一步
  
  圖39:具體剖析結構
 ?。?)具體代碼如下
<p>import requests
import json
from datetime import datetime
import pandas as pd
import time
class WxMps:

def __init__(self, biz, appmsg_token, cookies, offset, city):
self.biz = biz
self.msg_token = appmsg_token
self.offset = offset
self.headers = {&#39;Cookie&#39;:cookies, &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36&#39;
}
self.city = city

def parse1(self, resp):
# 控制下一個(gè)抓取的offset
offset = resp.get(&#39;next_offset&#39;)
# 將包含主要內容的list轉為json格式
general_msg_list = resp.get(&#39;general_msg_list&#39;)
# 一個(gè)msg_list中含有10個(gè)msg
msg_list = json.loads(general_msg_list)[&#39;list&#39;]
df1 = pd.DataFrame(columns = [&#39;msg_id&#39;, &#39;post_time&#39;, &#39;msg_type&#39;, &#39;title&#39;, &#39;cover&#39;, &#39;author&#39;, &#39;digest&#39;, &#39;source_url&#39;, &#39;content_url&#39;])
# 循環(huán)message列表
for msg in msg_list:
# msg是該推送的信息,包含了comm_msg_info以及app_msg_ext_info兩個(gè)信息,注意某一個(gè)推送中可能含有多個(gè)文章。
comm_msg_info = msg.get(&#39;comm_msg_info&#39;)
app_msg_ext_info = msg.get(&#39;app_msg_ext_info&#39;)

# 該推送的id
msg_id = comm_msg_info.get(&#39;id&#39;)
# 該推送的發(fā)布時(shí)間,例如1579965567需要轉化為datetime,datetime.fromtimestamp(1579965567)
post_time = datetime.fromtimestamp(comm_msg_info[&#39;datetime&#39;])
# 該推送的類(lèi)型
msg_type = comm_msg_info.get(&#39;type&#39;)

if app_msg_ext_info:
# 推送的第一篇文章
title, cover, author, digest, source_url, content_url = self.parse2(app_msg_ext_info)
df2 = self.df_process(msg_id, post_time, msg_type, title, cover, author, digest, source_url, content_url)
df1 = pd.concat([df1, df2])

# 判斷是不是多篇文章
is_multi = app_msg_ext_info.get("is_multi")
# 如果是1,繼續爬??;如果是0,單條推送=只有一篇文章
if is_multi:
multi_app_msg_item_list = app_msg_ext_info.get(&#39;multi_app_msg_item_list&#39;)
for information in multi_app_msg_item_list:
(title, cover, author, digest, source_url, content_url) = self.parse2(information)
df2 = self.df_process(msg_id, post_time, msg_type, title, cover, author, digest, source_url, content_url)
df1 = pd.concat([df1, df2])
return df1, offset

def start(self):
offset = self.offset
df1 = pd.DataFrame(columns = [&#39;msg_id&#39;, &#39;post_time&#39;, &#39;msg_type&#39;, &#39;title&#39;, &#39;cover&#39;, &#39;author&#39;, &#39;digest&#39;, &#39;source_url&#39;, &#39;content_url&#39;])

while offset

在時(shí)間關(guān)系數據上AutoML:一個(gè)新的前沿

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 221 次瀏覽 ? 2020-08-12 16:31 ? 來(lái)自相關(guān)話(huà)題

  作者:Flytxt
  翻譯:張恬鈺
  校對:李海明
  本文1600字,建議閱讀8分鐘。
  本文介紹了AutoML的發(fā)展歷史及其在時(shí)間關(guān)系數據上的應用方案。
  現實(shí)世界中的機器學(xué)習系統須要數據科學(xué)家和領(lǐng)域專(zhuān)家來(lái)構建和維護,而這樣的人才卻總是供不應求。自動(dòng)化機器學(xué)習(AutoML)由于在建立和維護機器學(xué)習工作流中的關(guān)鍵步驟中所顯露出的廣泛適用性,使得該領(lǐng)域的研究前景一片光明。它減少了人類(lèi)專(zhuān)家的工作負擔,使她們才能專(zhuān)注于復雜、非重復和具有創(chuàng )造性的學(xué)習問(wèn)題。
  AutoML的最新進(jìn)展主要包括從時(shí)間關(guān)系數據庫中手動(dòng)發(fā)覺(jué)有意義的表間關(guān)系的復雜功能合成(例如,深度特點(diǎn)綜合),使用模型手動(dòng)調整進(jìn)行概念漂移(例如,AutoGBT),以及深度學(xué)習模型的手動(dòng)設計(例如,神經(jīng)結構搜索),如圖1所示。這些研究進(jìn)展提升了數據科學(xué)家的生產(chǎn)力,從而明顯增強了AutoML系統的實(shí)用性,并促使非機器學(xué)習專(zhuān)家也才能處理現實(shí)中不同領(lǐng)域的數據科學(xué)問(wèn)題。
  
  圖1 AutoML進(jìn)化史
  在時(shí)間關(guān)系數據庫中使用AutoML
  在例如在線(xiàn)廣告,推薦系統,自動(dòng)與顧客交流等機器學(xué)習應用中,數據集可以跨越多個(gè)具有時(shí)間戳的相關(guān)表來(lái)顯示風(fēng)波的時(shí)間安排。而傳統方法則須要專(zhuān)家們通過(guò)冗長(cháng)的試錯法自動(dòng)組合表格來(lái)獲取有意義的特點(diǎn)。用于處理動(dòng)詞關(guān)系數據的AutoML考慮了相關(guān)關(guān)鍵數組的臨時(shí)聯(lián)接,并通過(guò)手動(dòng)發(fā)覺(jué)重要的表間關(guān)系來(lái)手動(dòng)進(jìn)行特點(diǎn)合成。
  在沒(méi)有域信息的情況下,實(shí)現基于動(dòng)詞關(guān)系數據的真實(shí)世界的AutoML案例包括手動(dòng)生成有用的動(dòng)詞信息和跨多個(gè)子表格有效合并特點(diǎn),且不會(huì )造成數據泄漏。除了這種困難外,還須要手動(dòng)選擇最佳的學(xué)習模型和受資源約束的超參數集,以讓解決方案足夠通用,并且符合時(shí)間和內容預算。
  有趣的是,今年的KDD杯舉辦了以AutoML為主題的挑戰賽,邀請了全世界AI / ML領(lǐng)域的研究和從業(yè)人員為動(dòng)詞關(guān)系數據庫開(kāi)發(fā)最新的AutoML。
  我們的解決方式
  我們的工作流程包括預處理,跨關(guān)系表的手動(dòng)特點(diǎn)合成,模型學(xué)習和預測這種步驟。預處理包括對于偏移校準的特點(diǎn)變換以及平方和三次特點(diǎn)的提高。它還包括分類(lèi)特點(diǎn)的頻率編碼,而特點(diǎn)是使用子表中聚合指標的時(shí)間連接手動(dòng)合成的。多數類(lèi)的實(shí)例將進(jìn)行下述取樣以保持1:3的百分比。漸進(jìn)式?jīng)Q策樹(shù)(GBDT)的Catboost實(shí)現可用于學(xué)習算法,交叉驗證則可用于參數調整來(lái)決定最佳樹(shù)的數目。圖2概括地描述了我們的工作流程:
  
  圖2 我們的模型管線(xiàn)
  時(shí)態(tài)數據聚合
  當動(dòng)詞關(guān)系數據跨越多個(gè)表格時(shí),找出表間的重要關(guān)系之后以最佳方法執行數據聚合將有助于特點(diǎn)提取。為了提取正確的特點(diǎn)表示,可對數字特點(diǎn)使用均值、求和等聚合運算,而對分類(lèi)特點(diǎn)則采用計數、眾數等運算。求頻度,聚合指標的估算須要在適當的時(shí)間窗口上使用交叉驗證完成。
  特征處理
  連接多個(gè)數據庫的表會(huì )形成高度偏移的特點(diǎn)。我們的特點(diǎn)預處理步驟包括偏移校準以及特點(diǎn)變換和提高。特征提高包括添加具有周期性的數字特點(diǎn)的平方和三次方變換以及正則或正切,日期時(shí)間特點(diǎn)的變換(例如,月,時(shí)和分)來(lái)豐富特點(diǎn)空間。還可對分類(lèi)特點(diǎn)進(jìn)行頻率編碼來(lái)進(jìn)一步擴大特點(diǎn)空間。
  模型選擇
  在估算和儲存方面,嘗試幾種線(xiàn)性和非線(xiàn)性模型的成本可能會(huì )十分高昂。由于梯度提高決策樹(shù)在處理分類(lèi)特點(diǎn)和可擴展性方面的魯棒性,我們將模型組合限制在CatBoost的實(shí)現上。同時(shí)使用交叉驗證對超參數(例如樹(shù)的數目)進(jìn)行調整,以防止過(guò)度擬合。
  我們的解決方案拓展了現有的AutoML研究項目組合,允許使用涉及不定式關(guān)系數據庫學(xué)習的用例??梢栽L(fǎng)問(wèn)Github儲存庫來(lái)查看我們的解決方案。
  AutoML趨勢
  隨著(zhù)行業(yè)越來(lái)越關(guān)注從AI中快速獲取價(jià)值并降低機器學(xué)習模型從原型到生產(chǎn)布署的周期時(shí)間,能夠增加AI準入門(mén)檻并實(shí)現AI工作流程自動(dòng)化的AutoML已成為重要推動(dòng)力。AutoML社區越來(lái)越關(guān)注于支持真實(shí)案例的使用,包括從結構化和非結構化數據、時(shí)態(tài)關(guān)系數據庫以及受概念甩尾影響的數據流中學(xué)習。
  盡管AutoML最初專(zhuān)注于最佳機器學(xué)習管線(xiàn)的手動(dòng)建立,隨著(zhù)時(shí)間的推移,對此類(lèi)管線(xiàn)手動(dòng)維護處理它的范圍正在擴大,模型自治性進(jìn)一步降低。AutoML的進(jìn)步和強悍的估算基礎設施的可借助性將促進(jìn)人機智能的融合,使得人類(lèi)專(zhuān)家才能更好地將精力集中在學(xué)習復雜的,非重復和創(chuàng )造性的問(wèn)題上,從而獲得更優(yōu)的解決方案。
  原文標題:
  AutoMLfor Temporal Relational Data: A New Frontier
  原文鏈接: 查看全部

  作者:Flytxt
  翻譯:張恬鈺
  校對:李海明
  本文1600字,建議閱讀8分鐘。
  本文介紹了AutoML的發(fā)展歷史及其在時(shí)間關(guān)系數據上的應用方案。
  現實(shí)世界中的機器學(xué)習系統須要數據科學(xué)家和領(lǐng)域專(zhuān)家來(lái)構建和維護,而這樣的人才卻總是供不應求。自動(dòng)化機器學(xué)習(AutoML)由于在建立和維護機器學(xué)習工作流中的關(guān)鍵步驟中所顯露出的廣泛適用性,使得該領(lǐng)域的研究前景一片光明。它減少了人類(lèi)專(zhuān)家的工作負擔,使她們才能專(zhuān)注于復雜、非重復和具有創(chuàng )造性的學(xué)習問(wèn)題。
  AutoML的最新進(jìn)展主要包括從時(shí)間關(guān)系數據庫中手動(dòng)發(fā)覺(jué)有意義的表間關(guān)系的復雜功能合成(例如,深度特點(diǎn)綜合),使用模型手動(dòng)調整進(jìn)行概念漂移(例如,AutoGBT),以及深度學(xué)習模型的手動(dòng)設計(例如,神經(jīng)結構搜索),如圖1所示。這些研究進(jìn)展提升了數據科學(xué)家的生產(chǎn)力,從而明顯增強了AutoML系統的實(shí)用性,并促使非機器學(xué)習專(zhuān)家也才能處理現實(shí)中不同領(lǐng)域的數據科學(xué)問(wèn)題。
  
  圖1 AutoML進(jìn)化史
  在時(shí)間關(guān)系數據庫中使用AutoML
  在例如在線(xiàn)廣告,推薦系統,自動(dòng)與顧客交流等機器學(xué)習應用中,數據集可以跨越多個(gè)具有時(shí)間戳的相關(guān)表來(lái)顯示風(fēng)波的時(shí)間安排。而傳統方法則須要專(zhuān)家們通過(guò)冗長(cháng)的試錯法自動(dòng)組合表格來(lái)獲取有意義的特點(diǎn)。用于處理動(dòng)詞關(guān)系數據的AutoML考慮了相關(guān)關(guān)鍵數組的臨時(shí)聯(lián)接,并通過(guò)手動(dòng)發(fā)覺(jué)重要的表間關(guān)系來(lái)手動(dòng)進(jìn)行特點(diǎn)合成。
  在沒(méi)有域信息的情況下,實(shí)現基于動(dòng)詞關(guān)系數據的真實(shí)世界的AutoML案例包括手動(dòng)生成有用的動(dòng)詞信息和跨多個(gè)子表格有效合并特點(diǎn),且不會(huì )造成數據泄漏。除了這種困難外,還須要手動(dòng)選擇最佳的學(xué)習模型和受資源約束的超參數集,以讓解決方案足夠通用,并且符合時(shí)間和內容預算。
  有趣的是,今年的KDD杯舉辦了以AutoML為主題的挑戰賽,邀請了全世界AI / ML領(lǐng)域的研究和從業(yè)人員為動(dòng)詞關(guān)系數據庫開(kāi)發(fā)最新的AutoML。
  我們的解決方式
  我們的工作流程包括預處理,跨關(guān)系表的手動(dòng)特點(diǎn)合成,模型學(xué)習和預測這種步驟。預處理包括對于偏移校準的特點(diǎn)變換以及平方和三次特點(diǎn)的提高。它還包括分類(lèi)特點(diǎn)的頻率編碼,而特點(diǎn)是使用子表中聚合指標的時(shí)間連接手動(dòng)合成的。多數類(lèi)的實(shí)例將進(jìn)行下述取樣以保持1:3的百分比。漸進(jìn)式?jīng)Q策樹(shù)(GBDT)的Catboost實(shí)現可用于學(xué)習算法,交叉驗證則可用于參數調整來(lái)決定最佳樹(shù)的數目。圖2概括地描述了我們的工作流程:
  
  圖2 我們的模型管線(xiàn)
  時(shí)態(tài)數據聚合
  當動(dòng)詞關(guān)系數據跨越多個(gè)表格時(shí),找出表間的重要關(guān)系之后以最佳方法執行數據聚合將有助于特點(diǎn)提取。為了提取正確的特點(diǎn)表示,可對數字特點(diǎn)使用均值、求和等聚合運算,而對分類(lèi)特點(diǎn)則采用計數、眾數等運算。求頻度,聚合指標的估算須要在適當的時(shí)間窗口上使用交叉驗證完成。
  特征處理
  連接多個(gè)數據庫的表會(huì )形成高度偏移的特點(diǎn)。我們的特點(diǎn)預處理步驟包括偏移校準以及特點(diǎn)變換和提高。特征提高包括添加具有周期性的數字特點(diǎn)的平方和三次方變換以及正則或正切,日期時(shí)間特點(diǎn)的變換(例如,月,時(shí)和分)來(lái)豐富特點(diǎn)空間。還可對分類(lèi)特點(diǎn)進(jìn)行頻率編碼來(lái)進(jìn)一步擴大特點(diǎn)空間。
  模型選擇
  在估算和儲存方面,嘗試幾種線(xiàn)性和非線(xiàn)性模型的成本可能會(huì )十分高昂。由于梯度提高決策樹(shù)在處理分類(lèi)特點(diǎn)和可擴展性方面的魯棒性,我們將模型組合限制在CatBoost的實(shí)現上。同時(shí)使用交叉驗證對超參數(例如樹(shù)的數目)進(jìn)行調整,以防止過(guò)度擬合。
  我們的解決方案拓展了現有的AutoML研究項目組合,允許使用涉及不定式關(guān)系數據庫學(xué)習的用例??梢栽L(fǎng)問(wèn)Github儲存庫來(lái)查看我們的解決方案。
  AutoML趨勢
  隨著(zhù)行業(yè)越來(lái)越關(guān)注從AI中快速獲取價(jià)值并降低機器學(xué)習模型從原型到生產(chǎn)布署的周期時(shí)間,能夠增加AI準入門(mén)檻并實(shí)現AI工作流程自動(dòng)化的AutoML已成為重要推動(dòng)力。AutoML社區越來(lái)越關(guān)注于支持真實(shí)案例的使用,包括從結構化和非結構化數據、時(shí)態(tài)關(guān)系數據庫以及受概念甩尾影響的數據流中學(xué)習。
  盡管AutoML最初專(zhuān)注于最佳機器學(xué)習管線(xiàn)的手動(dòng)建立,隨著(zhù)時(shí)間的推移,對此類(lèi)管線(xiàn)手動(dòng)維護處理它的范圍正在擴大,模型自治性進(jìn)一步降低。AutoML的進(jìn)步和強悍的估算基礎設施的可借助性將促進(jìn)人機智能的融合,使得人類(lèi)專(zhuān)家才能更好地將精力集中在學(xué)習復雜的,非重復和創(chuàng )造性的問(wèn)題上,從而獲得更優(yōu)的解決方案。
  原文標題:
  AutoMLfor Temporal Relational Data: A New Frontier
  原文鏈接:

基于主題爬蟲(chóng)與文本分類(lèi)的微博資訊智能生成策略研究

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 162 次瀏覽 ? 2020-08-11 13:57 ? 來(lái)自相關(guān)話(huà)題

  【摘要】:隨著(zhù)聯(lián)通互聯(lián)網(wǎng)的快速發(fā)展,中國手機網(wǎng)民數目早已趕超PC,各種手機應用層出不窮,其中手機微博早已成為使用率增速最快的手機應用。越來(lái)越多的人們使用微博進(jìn)行交流互動(dòng),尤其是在面向垂直細分領(lǐng)域的專(zhuān)業(yè)微博中,用戶(hù)有強烈的獲取權威資訊信息的需求。但是,傳統的微博欠缺良好的信息查詢(xún)與推送功能,難以滿(mǎn)足不同人群的信息獲取須要。因此,根據不同行業(yè)主題,利用微博平臺將互聯(lián)網(wǎng)上豐富的行業(yè)資訊信息進(jìn)行手動(dòng)采集推送,具有重要的理論研究和實(shí)際應用價(jià)值。在基于主題爬蟲(chóng)與文本分類(lèi)的微博資訊智能生成策略中,利用主題爬蟲(chóng)技術(shù)和文本分類(lèi)技術(shù)將互聯(lián)網(wǎng)上豐富的行業(yè)信息按主題進(jìn)行采集分類(lèi)并通過(guò)手機微博客戶(hù)端向特定用戶(hù)群體提供資訊查詢(xún)和推送服務(wù)。首先,在針對主題信息的采集中提出了一種面向特定領(lǐng)域的主題式爬取策略,通過(guò)對開(kāi)源爬蟲(chóng)框架Heritrix進(jìn)行主題模塊的擴充,使爬蟲(chóng)只抓取與特定主題相關(guān)的最新行業(yè)信息。其次,在網(wǎng)頁(yè)數據處理過(guò)程中通過(guò)改進(jìn)文本分類(lèi)算法,設計了一種英文網(wǎng)頁(yè)文本分類(lèi)器,對抓取的網(wǎng)頁(yè)按行業(yè)主題進(jìn)行手動(dòng)細分類(lèi)并提取數據生成有價(jià)值資訊信息。然后,通過(guò)手機微博平臺將分類(lèi)的信息通過(guò)設定的不同微博頻道或則智能帳號進(jìn)行動(dòng)態(tài)展示與發(fā)布。最后,以農業(yè)主題為例將基于主題爬蟲(chóng)與文本分類(lèi)的微博資訊智能生成策略應用在廣東手機農業(yè)微博中進(jìn)行農務(wù)資訊的生成與推送。在廣東手機農業(yè)微博中實(shí)現農業(yè)微博資訊的智能生成,并對微博資訊生成策略進(jìn)行了相關(guān)的功能和性能測試。實(shí)驗結果表明:這種微博資訊生成策略才能及時(shí)獲取最新行業(yè)相關(guān)資訊,進(jìn)行詳盡確切的信息分類(lèi)并提供便捷的查詢(xún)與推送服務(wù)。其中主題爬蟲(chóng)抓取的主題準確率達到87%以上,網(wǎng)頁(yè)文本分類(lèi)器的整體評估指數達到85%左右。 查看全部

  【摘要】:隨著(zhù)聯(lián)通互聯(lián)網(wǎng)的快速發(fā)展,中國手機網(wǎng)民數目早已趕超PC,各種手機應用層出不窮,其中手機微博早已成為使用率增速最快的手機應用。越來(lái)越多的人們使用微博進(jìn)行交流互動(dòng),尤其是在面向垂直細分領(lǐng)域的專(zhuān)業(yè)微博中,用戶(hù)有強烈的獲取權威資訊信息的需求。但是,傳統的微博欠缺良好的信息查詢(xún)與推送功能,難以滿(mǎn)足不同人群的信息獲取須要。因此,根據不同行業(yè)主題,利用微博平臺將互聯(lián)網(wǎng)上豐富的行業(yè)資訊信息進(jìn)行手動(dòng)采集推送,具有重要的理論研究和實(shí)際應用價(jià)值。在基于主題爬蟲(chóng)與文本分類(lèi)的微博資訊智能生成策略中,利用主題爬蟲(chóng)技術(shù)和文本分類(lèi)技術(shù)將互聯(lián)網(wǎng)上豐富的行業(yè)信息按主題進(jìn)行采集分類(lèi)并通過(guò)手機微博客戶(hù)端向特定用戶(hù)群體提供資訊查詢(xún)和推送服務(wù)。首先,在針對主題信息的采集中提出了一種面向特定領(lǐng)域的主題式爬取策略,通過(guò)對開(kāi)源爬蟲(chóng)框架Heritrix進(jìn)行主題模塊的擴充,使爬蟲(chóng)只抓取與特定主題相關(guān)的最新行業(yè)信息。其次,在網(wǎng)頁(yè)數據處理過(guò)程中通過(guò)改進(jìn)文本分類(lèi)算法,設計了一種英文網(wǎng)頁(yè)文本分類(lèi)器,對抓取的網(wǎng)頁(yè)按行業(yè)主題進(jìn)行手動(dòng)細分類(lèi)并提取數據生成有價(jià)值資訊信息。然后,通過(guò)手機微博平臺將分類(lèi)的信息通過(guò)設定的不同微博頻道或則智能帳號進(jìn)行動(dòng)態(tài)展示與發(fā)布。最后,以農業(yè)主題為例將基于主題爬蟲(chóng)與文本分類(lèi)的微博資訊智能生成策略應用在廣東手機農業(yè)微博中進(jìn)行農務(wù)資訊的生成與推送。在廣東手機農業(yè)微博中實(shí)現農業(yè)微博資訊的智能生成,并對微博資訊生成策略進(jìn)行了相關(guān)的功能和性能測試。實(shí)驗結果表明:這種微博資訊生成策略才能及時(shí)獲取最新行業(yè)相關(guān)資訊,進(jìn)行詳盡確切的信息分類(lèi)并提供便捷的查詢(xún)與推送服務(wù)。其中主題爬蟲(chóng)抓取的主題準確率達到87%以上,網(wǎng)頁(yè)文本分類(lèi)器的整體評估指數達到85%左右。

USB免驅攝像頭采集圖像【VS2012+opencv+directShow(Cc

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 510 次瀏覽 ? 2020-08-10 23:03 ? 來(lái)自相關(guān)話(huà)題

  在Opencv英文網(wǎng)站上有關(guān)于directShow和opencv結合采集圖像的教程,地址:%e4%bd%bf%e7%94%a8DirectShow%e9%87%87%e9%9b%86%e5%9b%be%e5%83%8f
  但是該配置比較老,本文述說(shuō)怎樣基于該教程在 VS2012和opencv2.4.9上進(jìn)行配置和更改,完成USB攝像頭的驅動(dòng)。
  博主的USB免驅攝像頭如下:
  
  文末有完整代碼的下載地址
  1.環(huán)境配置
  在Opencv英文網(wǎng)站上有關(guān)于directShow和opencv結合采集圖像的教程,地址:%e4%bd%bf%e7%94%a8DirectShow%e9%87%87%e9%9b%86%e5%9b%be%e5%83%8f
  但說(shuō)明中的“本文檔介紹的CCameraDS類(lèi)調用采集函數可直接返回IplImage,使用更方便,且集成了DirectShow,勿需安裝龐大的DirectX/Platform SDK”并不靠譜,DirectShow 似乎早已開(kāi)始被谷歌給淘汰了,最后存在是在多年前的 DirectX 9.0b 包里。
  注意這兒并不需要下載DirectX 9.0包,下面介紹在VS2012和opencv2.4.9下的配置過(guò)程。
  1.1 配置VS2012和opencv環(huán)境
  按照網(wǎng)上流行的配置即可,如 。配置好以后嘗試運行一個(gè)打開(kāi)圖片的小程序檢查opencv環(huán)境是否配置成功。
  1.2 配置DirectX環(huán)境
  新建工程,配置好Opencv環(huán)境,隨后將從Opencv英文網(wǎng)上下載的 CameraDS.h 和 CameraDS.cpp 文件分別添加到項目的頭文件和源文件中。
  VS2012旗艦版是自帶了 SDK 的,在 C:\Program Files (x86)\Microsoft SDKs\Windows\v7.1A\Include。
  打開(kāi)構建的VS2012項目的屬性頁(yè),找到“VC++目錄”,在“收錄目錄”里添加 (FrameworkSDKDir)Include,在“庫目錄”里添加(FrameworkSDKDir)Lib。
  發(fā)現#include “qedit.h”報錯,原因是現今的版本早已沒(méi)有qedit.h這個(gè)頭文件了,從網(wǎng)址: 中下載該文件,添加到項目的頭文件中。
  2. 運行
  環(huán)境配置好以后,可以用 Opencv英文網(wǎng) 上下載的main.cpp運行,運行過(guò)程可能碰到const char* 無(wú)法轉換的問(wèn)題,將此處的代碼除去即可。
  下面是本人編撰的main函數,提供了USB單反的打開(kāi)、監視、圖像捕獲功能。
  2.1 查看系統的所有攝像頭狀態(tài)(initAllCameras函數)
  參數是 CCameraDS 類(lèi)的對象。該函數獲取單反的數量而且顯示單反名稱(chēng)。從輸出中我們可以找到USB單反的編號,一般情況下編號為1。
  //獲取當前可用的攝像頭并打開(kāi)USB攝像頭
int initAllCameras(CCameraDS &m_CamDS){
//僅僅獲取攝像頭數目
int m_iCamCount = CCameraDS::CameraCount();
printf("There are %d cameras.\n", m_iCamCount);
if(m_iCamCount == 0)
{
return -1;
}
//獲取所有攝像頭的名稱(chēng)
for(int i = 0; i < m_iCamCount; i++)
{
char szCamName[1024];
int retval = m_CamDS.CameraName(i, szCamName, sizeof(szCamName));
if(retval >0)
{
printf("Camera #%d's Name is '%s'.\n", i, szCamName);
}
else
{
printf("Can not get Camera #%d's name.\n", i);
}
}
return m_iCamCount;
}
  運行結果如下所示:
  There are 3 cameras.
Camera #0's Name is 'Lenovo EasyCamera'.
Camera #1's Name is '3D Camera'.
Camera #2's Name is 'Basler GenICam Source'.
  從運行結果中可以看出,使用的3D相機的編號為1。
  2.2 打開(kāi)USB單反(openUsbCam函數)
  函數有四個(gè)參數,第一個(gè)參數為CcameraDS類(lèi)的對象,camNum設置為1,表明如今要打開(kāi)的USB單反,而不是筆記本自帶單反。camWidth和camHeight按照自己所使用單反的情況進(jìn)行設置,設置為圖象的長(cháng)度和高度。
  代碼如下:
<p>// 打開(kāi) USB 相機 !! 在調用 camDisplay 和 camCapPic 之前必須調用該函數
// camNum = 1; // 攝像頭編號為1,表示當前要使用的是 USB 攝像頭
// camWidth = 2560; // 圖片寬度
// camHeight = 720; // 圖片高度
int openUsbCam(CCameraDS &m_CamDS, const int camNum=1, const int camWidth=2560, const int camHeight = 720){
// 獲取當前可用的相機個(gè)數
// 在所有的相機中,一般編號為 0 的為電腦自帶攝像頭,編號為 1 的為要使用的 USB 攝像頭
int m_iCamCount = initAllCameras(m_CamDS);
if(m_iCamCount == -1){
cout 查看全部

  在Opencv英文網(wǎng)站上有關(guān)于directShow和opencv結合采集圖像的教程,地址:%e4%bd%bf%e7%94%a8DirectShow%e9%87%87%e9%9b%86%e5%9b%be%e5%83%8f
  但是該配置比較老,本文述說(shuō)怎樣基于該教程在 VS2012和opencv2.4.9上進(jìn)行配置和更改,完成USB攝像頭的驅動(dòng)。
  博主的USB免驅攝像頭如下:
  
  文末有完整代碼的下載地址
  1.環(huán)境配置
  在Opencv英文網(wǎng)站上有關(guān)于directShow和opencv結合采集圖像的教程,地址:%e4%bd%bf%e7%94%a8DirectShow%e9%87%87%e9%9b%86%e5%9b%be%e5%83%8f
  但說(shuō)明中的“本文檔介紹的CCameraDS類(lèi)調用采集函數可直接返回IplImage,使用更方便,且集成了DirectShow,勿需安裝龐大的DirectX/Platform SDK”并不靠譜,DirectShow 似乎早已開(kāi)始被谷歌給淘汰了,最后存在是在多年前的 DirectX 9.0b 包里。
  注意這兒并不需要下載DirectX 9.0包,下面介紹在VS2012和opencv2.4.9下的配置過(guò)程。
  1.1 配置VS2012和opencv環(huán)境
  按照網(wǎng)上流行的配置即可,如 。配置好以后嘗試運行一個(gè)打開(kāi)圖片的小程序檢查opencv環(huán)境是否配置成功。
  1.2 配置DirectX環(huán)境
  新建工程,配置好Opencv環(huán)境,隨后將從Opencv英文網(wǎng)上下載的 CameraDS.h 和 CameraDS.cpp 文件分別添加到項目的頭文件和源文件中。
  VS2012旗艦版是自帶了 SDK 的,在 C:\Program Files (x86)\Microsoft SDKs\Windows\v7.1A\Include。
  打開(kāi)構建的VS2012項目的屬性頁(yè),找到“VC++目錄”,在“收錄目錄”里添加 (FrameworkSDKDir)Include,在“庫目錄”里添加(FrameworkSDKDir)Lib。
  發(fā)現#include “qedit.h”報錯,原因是現今的版本早已沒(méi)有qedit.h這個(gè)頭文件了,從網(wǎng)址: 中下載該文件,添加到項目的頭文件中。
  2. 運行
  環(huán)境配置好以后,可以用 Opencv英文網(wǎng) 上下載的main.cpp運行,運行過(guò)程可能碰到const char* 無(wú)法轉換的問(wèn)題,將此處的代碼除去即可。
  下面是本人編撰的main函數,提供了USB單反的打開(kāi)、監視、圖像捕獲功能。
  2.1 查看系統的所有攝像頭狀態(tài)(initAllCameras函數)
  參數是 CCameraDS 類(lèi)的對象。該函數獲取單反的數量而且顯示單反名稱(chēng)。從輸出中我們可以找到USB單反的編號,一般情況下編號為1。
  //獲取當前可用的攝像頭并打開(kāi)USB攝像頭
int initAllCameras(CCameraDS &m_CamDS){
//僅僅獲取攝像頭數目
int m_iCamCount = CCameraDS::CameraCount();
printf("There are %d cameras.\n", m_iCamCount);
if(m_iCamCount == 0)
{
return -1;
}
//獲取所有攝像頭的名稱(chēng)
for(int i = 0; i < m_iCamCount; i++)
{
char szCamName[1024];
int retval = m_CamDS.CameraName(i, szCamName, sizeof(szCamName));
if(retval >0)
{
printf("Camera #%d's Name is '%s'.\n", i, szCamName);
}
else
{
printf("Can not get Camera #%d's name.\n", i);
}
}
return m_iCamCount;
}
  運行結果如下所示:
  There are 3 cameras.
Camera #0's Name is 'Lenovo EasyCamera'.
Camera #1's Name is '3D Camera'.
Camera #2's Name is 'Basler GenICam Source'.
  從運行結果中可以看出,使用的3D相機的編號為1。
  2.2 打開(kāi)USB單反(openUsbCam函數)
  函數有四個(gè)參數,第一個(gè)參數為CcameraDS類(lèi)的對象,camNum設置為1,表明如今要打開(kāi)的USB單反,而不是筆記本自帶單反。camWidth和camHeight按照自己所使用單反的情況進(jìn)行設置,設置為圖象的長(cháng)度和高度。
  代碼如下:
<p>// 打開(kāi) USB 相機 !! 在調用 camDisplay 和 camCapPic 之前必須調用該函數
// camNum = 1; // 攝像頭編號為1,表示當前要使用的是 USB 攝像頭
// camWidth = 2560; // 圖片寬度
// camHeight = 720; // 圖片高度
int openUsbCam(CCameraDS &m_CamDS, const int camNum=1, const int camWidth=2560, const int camHeight = 720){
// 獲取當前可用的相機個(gè)數
// 在所有的相機中,一般編號為 0 的為電腦自帶攝像頭,編號為 1 的為要使用的 USB 攝像頭
int m_iCamCount = initAllCameras(m_CamDS);
if(m_iCamCount == -1){
cout

被動(dòng)信息搜集----指紋辨識(CMS辨識)

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 214 次瀏覽 ? 2020-08-10 21:24 ? 來(lái)自相關(guān)話(huà)題

  一、指紋辨識
  1.指紋識別介紹
  指紋因為其具有不變性、唯一性和方便性,使其可以被惟一的標示。而對于每位網(wǎng)站來(lái)說(shuō),他們也具有可標識性,我們通常通過(guò)網(wǎng)站CMS辨識、計算機操作系統辨識以及web容器辨識來(lái)標示網(wǎng)站。
  2.指紋辨識的目的
  在滲透測試中,對目標服務(wù)器進(jìn)行指紋辨識是十分有必要的,因為只有辨識出相應的web容器或則CMS,才能查看與其相關(guān)的漏洞,然后借助可用的漏洞進(jìn)行相應的滲透測試。
  二、CMS介紹
  CMS(Content Management System)又稱(chēng)整站系統或文章系統。在2004年以前,如果想進(jìn)行網(wǎng)站內容管理,基本上須要靠自動(dòng)維護,但在信息爆燃的時(shí)代,完全靠手工維護都會(huì )相當苦悶。所以就出現了CMS,開(kāi)發(fā)者只須要給顧客一個(gè)軟件包,客戶(hù)自己安裝配置好,就可以定期更新數據來(lái)維護網(wǎng)站,節省了大量的人力和物力。
  三、常見(jiàn)CMS介紹
  php類(lèi)cms系統:dedeCMS、帝國CMS、php168、phpCMS、cmstop、discuz、phpwind等
  asp類(lèi)cms系統:zblog、KingCMS等
  .net類(lèi)cms系統:EoyooCMS等
  國外的知名cms系統:joomla、WordPress 、magento、drupal 、mambo等
  (1):DedeCMS(織夢(mèng))
  織夢(mèng)內容管理系統(DedeCMS)以簡(jiǎn)單、實(shí)用、開(kāi)源而享譽(yù),是國外最著(zhù)名的PHP開(kāi)源網(wǎng)站管理系統,也是使用用戶(hù)最多的PHP類(lèi)CMS系統。DedeCMS免費版主要目標鎖定在個(gè)人站長(cháng),功能愈發(fā)專(zhuān)注于個(gè)人網(wǎng)站或中小型門(mén)戶(hù)的建立,當然也有企業(yè)用戶(hù)和中學(xué)等在使用本系統。
  (2):Discuz
  Crossday Discuz! Board(簡(jiǎn)稱(chēng)Discuz!)是康盛創(chuàng )想(北京)科技有限公司推出的一套通用的社區峰會(huì )軟件系統,用戶(hù)可以在不需要任何編程的基礎上,通過(guò)簡(jiǎn)單的設置和安裝,在互聯(lián)網(wǎng)上搭建起具備建立功能、很強負載能力和可高度訂制的峰會(huì )服務(wù)。Discuz! 的基礎構架采用世界上最流行的web編程組合PHP+MySQL實(shí)現,是一個(gè)經(jīng)過(guò)建立設計,適用于各類(lèi)服務(wù)器環(huán)境的高效峰會(huì )系統解決方案。
  (3):帝國CMS
  帝國CMS又稱(chēng)為Empire CMS,簡(jiǎn)稱(chēng)Ecms,它是基于B/S結構而且功能強悍而易用的網(wǎng)站管理系統。它采用了系統模型功能:用戶(hù)通過(guò)此功能可直接在后臺擴充與實(shí)現各類(lèi)系統,因此又被稱(chēng)為是萬(wàn)能建站工具。帝國CMS具有強悍的功能,并且現今早已全部開(kāi)源。
  (4):WordPress
  WordPress是使用PHP語(yǔ)言開(kāi)發(fā)的博客平臺,用戶(hù)可以在支持PHP和MySQL數據庫的服務(wù)器上架設屬于自己的網(wǎng)站,WordPress也被當做一個(gè)內容管理系統(CMS)。WordPress是一款個(gè)人博客系統,使用PHP和MySQL語(yǔ)言進(jìn)行開(kāi)發(fā)的。
  四、判斷CMS的方式
  1.查看robots.txt文件
  robots.txt文件中儲存的是一些嚴禁被爬蟲(chóng)爬取的目錄,因此有些robots.txt文件中都會(huì )儲存一些關(guān)于CMS的敏感信息。例如假如robots.txt文件中存在wp-admin目錄,那么就表名這個(gè)CMS是WordPress。
  
  2.查看網(wǎng)頁(yè)源代碼
  在有些網(wǎng)站中的源代碼中會(huì )儲存著(zhù)網(wǎng)站的CMS信息和相應的版本信息,通過(guò)查看源代碼可以發(fā)覺(jué)使用的CMS類(lèi)別。 查看全部

  一、指紋辨識
  1.指紋識別介紹
  指紋因為其具有不變性、唯一性和方便性,使其可以被惟一的標示。而對于每位網(wǎng)站來(lái)說(shuō),他們也具有可標識性,我們通常通過(guò)網(wǎng)站CMS辨識、計算機操作系統辨識以及web容器辨識來(lái)標示網(wǎng)站。
  2.指紋辨識的目的
  在滲透測試中,對目標服務(wù)器進(jìn)行指紋辨識是十分有必要的,因為只有辨識出相應的web容器或則CMS,才能查看與其相關(guān)的漏洞,然后借助可用的漏洞進(jìn)行相應的滲透測試。
  二、CMS介紹
  CMS(Content Management System)又稱(chēng)整站系統或文章系統。在2004年以前,如果想進(jìn)行網(wǎng)站內容管理,基本上須要靠自動(dòng)維護,但在信息爆燃的時(shí)代,完全靠手工維護都會(huì )相當苦悶。所以就出現了CMS,開(kāi)發(fā)者只須要給顧客一個(gè)軟件包,客戶(hù)自己安裝配置好,就可以定期更新數據來(lái)維護網(wǎng)站,節省了大量的人力和物力。
  三、常見(jiàn)CMS介紹
  php類(lèi)cms系統:dedeCMS、帝國CMS、php168、phpCMS、cmstop、discuz、phpwind等
  asp類(lèi)cms系統:zblog、KingCMS等
  .net類(lèi)cms系統:EoyooCMS等
  國外的知名cms系統:joomla、WordPress 、magento、drupal 、mambo等
  (1):DedeCMS(織夢(mèng))
  織夢(mèng)內容管理系統(DedeCMS)以簡(jiǎn)單、實(shí)用、開(kāi)源而享譽(yù),是國外最著(zhù)名的PHP開(kāi)源網(wǎng)站管理系統,也是使用用戶(hù)最多的PHP類(lèi)CMS系統。DedeCMS免費版主要目標鎖定在個(gè)人站長(cháng),功能愈發(fā)專(zhuān)注于個(gè)人網(wǎng)站或中小型門(mén)戶(hù)的建立,當然也有企業(yè)用戶(hù)和中學(xué)等在使用本系統。
  (2):Discuz
  Crossday Discuz! Board(簡(jiǎn)稱(chēng)Discuz!)是康盛創(chuàng )想(北京)科技有限公司推出的一套通用的社區峰會(huì )軟件系統,用戶(hù)可以在不需要任何編程的基礎上,通過(guò)簡(jiǎn)單的設置和安裝,在互聯(lián)網(wǎng)上搭建起具備建立功能、很強負載能力和可高度訂制的峰會(huì )服務(wù)。Discuz! 的基礎構架采用世界上最流行的web編程組合PHP+MySQL實(shí)現,是一個(gè)經(jīng)過(guò)建立設計,適用于各類(lèi)服務(wù)器環(huán)境的高效峰會(huì )系統解決方案。
  (3):帝國CMS
  帝國CMS又稱(chēng)為Empire CMS,簡(jiǎn)稱(chēng)Ecms,它是基于B/S結構而且功能強悍而易用的網(wǎng)站管理系統。它采用了系統模型功能:用戶(hù)通過(guò)此功能可直接在后臺擴充與實(shí)現各類(lèi)系統,因此又被稱(chēng)為是萬(wàn)能建站工具。帝國CMS具有強悍的功能,并且現今早已全部開(kāi)源。
  (4):WordPress
  WordPress是使用PHP語(yǔ)言開(kāi)發(fā)的博客平臺,用戶(hù)可以在支持PHP和MySQL數據庫的服務(wù)器上架設屬于自己的網(wǎng)站,WordPress也被當做一個(gè)內容管理系統(CMS)。WordPress是一款個(gè)人博客系統,使用PHP和MySQL語(yǔ)言進(jìn)行開(kāi)發(fā)的。
  四、判斷CMS的方式
  1.查看robots.txt文件
  robots.txt文件中儲存的是一些嚴禁被爬蟲(chóng)爬取的目錄,因此有些robots.txt文件中都會(huì )儲存一些關(guān)于CMS的敏感信息。例如假如robots.txt文件中存在wp-admin目錄,那么就表名這個(gè)CMS是WordPress。
  
  2.查看網(wǎng)頁(yè)源代碼
  在有些網(wǎng)站中的源代碼中會(huì )儲存著(zhù)網(wǎng)站的CMS信息和相應的版本信息,通過(guò)查看源代碼可以發(fā)覺(jué)使用的CMS類(lèi)別。

優(yōu)采云QQ群聊天消息文章生成器下載 1.7.0.1 試用版

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 179 次瀏覽 ? 2020-08-10 12:39 ? 來(lái)自相關(guān)話(huà)題

  優(yōu)采云QQ群聊天消息文章生成器是一款可以將QQ聊天,尤其是群聊天的大量原創(chuàng )內容,進(jìn)行處理后生產(chǎn)出原創(chuàng )文章來(lái),雖然個(gè)他人會(huì )復制文章來(lái)粘貼,但它們的特點(diǎn)很容易辨識,往往是篇幅很大的,這時(shí)你可以設定單條消息字數超過(guò)某甲字數就忽視。
  
  工作流程:
  1、分析QQ導入的TXT格式聊天消息記錄文件,得到精確的每條消息
  2、將每條消息進(jìn)行過(guò)濾、插入前后綴文字等修飾后,按設定的數目進(jìn)行組合(如一個(gè)消息文件有1萬(wàn)條記錄,按100條消息一篇的組合,能生產(chǎn)100篇原創(chuàng )文章)
  3、可以對組合的結果插入關(guān)鍵詞或該消息文件的文件名
  4、一篇篇純原創(chuàng )的文章就此誕生!
  功能特性:
  1、分析QQ消息文件,精確獲取每一條消息文本
  2、全局攪亂消息
  3、內置過(guò)濾(如過(guò)濾網(wǎng)址、郵箱等)
  4、內置屏蔽詞替換(QQ聊天時(shí)常常說(shuō)到好多敏感詞句)
  5、自動(dòng)消除多余標點(diǎn)符號(多個(gè)標點(diǎn)符號相連時(shí),只保留一個(gè),讓文章看起來(lái)更真實(shí)和順眼)
  6、消息支持合縱連橫組合。(連橫,即多條原創(chuàng )消息連在一起作為單條消息,以合并符分隔,合縱,即多個(gè)單條消息組合為一篇原創(chuàng )文章)
  7、單條消息支持前后綴插入,如常見(jiàn)的段落網(wǎng)頁(yè)標簽”《p》《/p》“
  8、支持插入詞到標題,支持插入隨機詞到文章(更可手動(dòng)組合錨文本)
  9、文章標題智能提取組合的結果中的隨機一句。
  10、批量選擇多個(gè)QQ消息文件,一鍵處理,大功告成,文章滾滾來(lái)??!
  更新日志:
  改造為支持OEM代理
  官方網(wǎng)站:
  相關(guān)搜索:QQ聊天記錄 查看全部

  優(yōu)采云QQ群聊天消息文章生成器是一款可以將QQ聊天,尤其是群聊天的大量原創(chuàng )內容,進(jìn)行處理后生產(chǎn)出原創(chuàng )文章來(lái),雖然個(gè)他人會(huì )復制文章來(lái)粘貼,但它們的特點(diǎn)很容易辨識,往往是篇幅很大的,這時(shí)你可以設定單條消息字數超過(guò)某甲字數就忽視。
  
  工作流程:
  1、分析QQ導入的TXT格式聊天消息記錄文件,得到精確的每條消息
  2、將每條消息進(jìn)行過(guò)濾、插入前后綴文字等修飾后,按設定的數目進(jìn)行組合(如一個(gè)消息文件有1萬(wàn)條記錄,按100條消息一篇的組合,能生產(chǎn)100篇原創(chuàng )文章)
  3、可以對組合的結果插入關(guān)鍵詞或該消息文件的文件名
  4、一篇篇純原創(chuàng )的文章就此誕生!
  功能特性:
  1、分析QQ消息文件,精確獲取每一條消息文本
  2、全局攪亂消息
  3、內置過(guò)濾(如過(guò)濾網(wǎng)址、郵箱等)
  4、內置屏蔽詞替換(QQ聊天時(shí)常常說(shuō)到好多敏感詞句)
  5、自動(dòng)消除多余標點(diǎn)符號(多個(gè)標點(diǎn)符號相連時(shí),只保留一個(gè),讓文章看起來(lái)更真實(shí)和順眼)
  6、消息支持合縱連橫組合。(連橫,即多條原創(chuàng )消息連在一起作為單條消息,以合并符分隔,合縱,即多個(gè)單條消息組合為一篇原創(chuàng )文章)
  7、單條消息支持前后綴插入,如常見(jiàn)的段落網(wǎng)頁(yè)標簽”《p》《/p》“
  8、支持插入詞到標題,支持插入隨機詞到文章(更可手動(dòng)組合錨文本)
  9、文章標題智能提取組合的結果中的隨機一句。
  10、批量選擇多個(gè)QQ消息文件,一鍵處理,大功告成,文章滾滾來(lái)??!
  更新日志:
  改造為支持OEM代理
  官方網(wǎng)站:
  相關(guān)搜索:QQ聊天記錄

人工智能+工程師的組合,或將滿(mǎn)足日漸下降的網(wǎng)路安全需求

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 198 次瀏覽 ? 2020-08-10 02:25 ? 來(lái)自相關(guān)話(huà)題

  哪怕堪稱(chēng)網(wǎng)路最安全的日本,也躲不過(guò)黑客的功擊。那么為什么不將人工智能和工程師結合,實(shí)現更完善的網(wǎng)路安全。
  北京時(shí)間10月22日凌晨,美國域名服務(wù)器管理服務(wù)供應商Dyn宣布,該公司在當地時(shí)間周五早上遭到了DDoS(分布式拒絕服務(wù))攻擊,這一情況造成許多網(wǎng)站在英國東海岸地區宕機。Twitter、Tumblr、Netflix、Amazon、PayPal等眾多人氣網(wǎng)站無(wú)一幸免。
  
  許多受此影響的公司都在Twitter上發(fā)布消息,向其用戶(hù)發(fā)出了網(wǎng)站宕機的通知,亞馬遜報告報稱(chēng)有一次服務(wù)中斷,午后已解決問(wèn)題。由于影響范圍太廣,著(zhù)名的科技博客Gizmodo甚至表示半個(gè)互聯(lián)網(wǎng)都關(guān)掉了,而按照網(wǎng)友們反饋,此次黑客攻擊造成83家網(wǎng)站受影響。
  三波網(wǎng)路功擊,來(lái)自上千萬(wàn)IP地址
  根據Dyn的說(shuō)法,最早的一次功擊源于周五早上7點(diǎn)(北京時(shí)間周五晚上7點(diǎn))過(guò)后,此次功擊干擾干擾了Dyn運作約兩小時(shí)。隨即,工作人員進(jìn)行了搶險,在當天上午9點(diǎn)半左右恢復了營(yíng)運。但是僅在幾小時(shí)后,Dyn就受到第二次功擊,運營(yíng)再度遭到干擾。北京時(shí)間今天凌晨4點(diǎn)30分左右Dyn又受到第三次功擊。
  
  Dyn是日本最主要的DNS服務(wù)商,他們的主要職責就是將域名解析為IP地址,將網(wǎng)友引入正確的網(wǎng)站。此次Dyn遭到功擊以后,會(huì )導致日本大部分地區網(wǎng)民在懇求鏈接某網(wǎng)站的時(shí)侯會(huì )失敗,即使你按F5不斷刷新也沒(méi)有用。
  很顯然,這是一次有組織有蓄謀的網(wǎng)路功擊行為,攻擊行為來(lái)自超過(guò)一千萬(wàn)IP來(lái)源。此外,Dyn也表示這當中有幾百萬(wàn)惡意功擊的源頭是物聯(lián)網(wǎng)聯(lián)系的所謂“智能”家居產(chǎn)品。Dyn的首席策略官Kyle York在電話(huà)會(huì )議上甚至說(shuō),黑客們“真正在做的是用每次功擊撼動(dòng)世界?!?br />   單獨借助人工智能或則工程師難以做到維護網(wǎng)路安全
  網(wǎng)絡(luò )安全的維護一般都是由工程師們完成的,但是一次又一次的網(wǎng)路黑客侵襲風(fēng)波證明了,工程師們并沒(méi)有絕對的掌握保障網(wǎng)路安全。那么假如由人工智能來(lái)接替工程師,是否能夠保障網(wǎng)路安全呢?答案也是否定的。哪怕是新型混雜式系統,基于人工智能(AI)梳理數據,并將當前可疑行為遞交給剖析人員,也僅才能測量85%的功擊。
  
  人工智能在維護網(wǎng)路安全上可以做到的自動(dòng)化和漏洞修復技術(shù)包括:動(dòng)態(tài)剖析(Dynamic Analysis)、靜態(tài)剖析(Static Analysis)、符號執行(Symbolic Execution)、約束求解、數據流跟蹤技術(shù)(Data Flow Tracking)以及模糊測試(Fuzz Testing)等,并和其他半自動(dòng)化技術(shù)搭配,形成一整套全手動(dòng)的網(wǎng)路決策推理系統(Cyber Reasoning System,CRS)。
  很明顯,人工智能才能在改善聯(lián)通安全和網(wǎng)路安全方面發(fā)揮作用,做好避免網(wǎng)路恐嚇逼搶和網(wǎng)路安全防御舉措。但是,人工智能也只能測量到85%的功擊,而并非100%。
  由此可見(jiàn),如果單獨借助單獨借助人工智能或則工程師,無(wú)法做到百分百的網(wǎng)路安全。
  人工智能+工程師,合作以后或將構建更強大的網(wǎng)路安全
  既然工程師和人工智能都難以單獨在網(wǎng)路安全維護工作上取得壓倒性成功,為什么不試著(zhù)把三者整合上去呢?
  在網(wǎng)路安全的世界里,以人為主的技術(shù)主要依賴(lài)專(zhuān)業(yè)人員完善的規則,因此不符合規則的功擊就被錯過(guò)。而初期網(wǎng)路安全方面的機器學(xué)習則依賴(lài)于異常檢查,因此常常容易誤報,“狼來(lái)了”太多,最終造成其并不被看好。
  
  但是,隨著(zhù)人工智能技術(shù)的日漸發(fā)展,在現今的網(wǎng)路安全領(lǐng)域,它可以是一個(gè)虛擬的分析員,在發(fā)覺(jué)黑客攻擊以后,第一時(shí)間交由人類(lèi)分析員來(lái)判斷,之后系統再把判定結果整合到模型中,作為下一個(gè)數據集的測量標準,然后不斷循環(huán)這個(gè)過(guò)程。這也就意味著(zhù),在保證極大地提高檢測率的同時(shí),還可以提高未來(lái)的預測準確率。
  因此,使用人工智能來(lái)學(xué)習并找到最有可能是功擊的風(fēng)波,然后交給人類(lèi)專(zhuān)家去判定,并且協(xié)助人類(lèi)工程師進(jìn)行網(wǎng)路安全防護,是一個(gè)結合二者優(yōu)勢以后最有效的辦法。
  世界上并沒(méi)有絕對的網(wǎng)路安全,防患于未然只是更好的選擇
  俗話(huà)說(shuō)的好“魔高一尺道高一丈”,先有魔,后有道。如今的“道”,已經(jīng)實(shí)現人工智能的廣泛應用,而“魔”呢?黑客雖然已經(jīng)實(shí)現完全自動(dòng)化了......攻擊的投放、發(fā)起、滲透,只是在其中幾個(gè)小的步驟才須要人工介入,通過(guò)一個(gè)可視化界面管理著(zhù)被滲透的全世界幾十萬(wàn)臺服務(wù)器。
  
  其實(shí)面對現今的網(wǎng)路安全方式,每日就會(huì )有成百上千的崩潰報告、DDoS攻擊、數據泄漏等功擊行為,我們不應渴望“完美的防御”,而應當盡量提升功擊成功率的門(mén)檻,降低功擊成功率或是減短防御響應時(shí)間,形成正確的“安全觀(guān)”。最后提醒你們,被功擊只是時(shí)間而已,現在沒(méi)有發(fā)生,未來(lái)必然發(fā)生。 查看全部

  哪怕堪稱(chēng)網(wǎng)路最安全的日本,也躲不過(guò)黑客的功擊。那么為什么不將人工智能和工程師結合,實(shí)現更完善的網(wǎng)路安全。
  北京時(shí)間10月22日凌晨,美國域名服務(wù)器管理服務(wù)供應商Dyn宣布,該公司在當地時(shí)間周五早上遭到了DDoS(分布式拒絕服務(wù))攻擊,這一情況造成許多網(wǎng)站在英國東海岸地區宕機。Twitter、Tumblr、Netflix、Amazon、PayPal等眾多人氣網(wǎng)站無(wú)一幸免。
  
  許多受此影響的公司都在Twitter上發(fā)布消息,向其用戶(hù)發(fā)出了網(wǎng)站宕機的通知,亞馬遜報告報稱(chēng)有一次服務(wù)中斷,午后已解決問(wèn)題。由于影響范圍太廣,著(zhù)名的科技博客Gizmodo甚至表示半個(gè)互聯(lián)網(wǎng)都關(guān)掉了,而按照網(wǎng)友們反饋,此次黑客攻擊造成83家網(wǎng)站受影響。
  三波網(wǎng)路功擊,來(lái)自上千萬(wàn)IP地址
  根據Dyn的說(shuō)法,最早的一次功擊源于周五早上7點(diǎn)(北京時(shí)間周五晚上7點(diǎn))過(guò)后,此次功擊干擾干擾了Dyn運作約兩小時(shí)。隨即,工作人員進(jìn)行了搶險,在當天上午9點(diǎn)半左右恢復了營(yíng)運。但是僅在幾小時(shí)后,Dyn就受到第二次功擊,運營(yíng)再度遭到干擾。北京時(shí)間今天凌晨4點(diǎn)30分左右Dyn又受到第三次功擊。
  
  Dyn是日本最主要的DNS服務(wù)商,他們的主要職責就是將域名解析為IP地址,將網(wǎng)友引入正確的網(wǎng)站。此次Dyn遭到功擊以后,會(huì )導致日本大部分地區網(wǎng)民在懇求鏈接某網(wǎng)站的時(shí)侯會(huì )失敗,即使你按F5不斷刷新也沒(méi)有用。
  很顯然,這是一次有組織有蓄謀的網(wǎng)路功擊行為,攻擊行為來(lái)自超過(guò)一千萬(wàn)IP來(lái)源。此外,Dyn也表示這當中有幾百萬(wàn)惡意功擊的源頭是物聯(lián)網(wǎng)聯(lián)系的所謂“智能”家居產(chǎn)品。Dyn的首席策略官Kyle York在電話(huà)會(huì )議上甚至說(shuō),黑客們“真正在做的是用每次功擊撼動(dòng)世界?!?br />   單獨借助人工智能或則工程師難以做到維護網(wǎng)路安全
  網(wǎng)絡(luò )安全的維護一般都是由工程師們完成的,但是一次又一次的網(wǎng)路黑客侵襲風(fēng)波證明了,工程師們并沒(méi)有絕對的掌握保障網(wǎng)路安全。那么假如由人工智能來(lái)接替工程師,是否能夠保障網(wǎng)路安全呢?答案也是否定的。哪怕是新型混雜式系統,基于人工智能(AI)梳理數據,并將當前可疑行為遞交給剖析人員,也僅才能測量85%的功擊。
  
  人工智能在維護網(wǎng)路安全上可以做到的自動(dòng)化和漏洞修復技術(shù)包括:動(dòng)態(tài)剖析(Dynamic Analysis)、靜態(tài)剖析(Static Analysis)、符號執行(Symbolic Execution)、約束求解、數據流跟蹤技術(shù)(Data Flow Tracking)以及模糊測試(Fuzz Testing)等,并和其他半自動(dòng)化技術(shù)搭配,形成一整套全手動(dòng)的網(wǎng)路決策推理系統(Cyber Reasoning System,CRS)。
  很明顯,人工智能才能在改善聯(lián)通安全和網(wǎng)路安全方面發(fā)揮作用,做好避免網(wǎng)路恐嚇逼搶和網(wǎng)路安全防御舉措。但是,人工智能也只能測量到85%的功擊,而并非100%。
  由此可見(jiàn),如果單獨借助單獨借助人工智能或則工程師,無(wú)法做到百分百的網(wǎng)路安全。
  人工智能+工程師,合作以后或將構建更強大的網(wǎng)路安全
  既然工程師和人工智能都難以單獨在網(wǎng)路安全維護工作上取得壓倒性成功,為什么不試著(zhù)把三者整合上去呢?
  在網(wǎng)路安全的世界里,以人為主的技術(shù)主要依賴(lài)專(zhuān)業(yè)人員完善的規則,因此不符合規則的功擊就被錯過(guò)。而初期網(wǎng)路安全方面的機器學(xué)習則依賴(lài)于異常檢查,因此常常容易誤報,“狼來(lái)了”太多,最終造成其并不被看好。
  
  但是,隨著(zhù)人工智能技術(shù)的日漸發(fā)展,在現今的網(wǎng)路安全領(lǐng)域,它可以是一個(gè)虛擬的分析員,在發(fā)覺(jué)黑客攻擊以后,第一時(shí)間交由人類(lèi)分析員來(lái)判斷,之后系統再把判定結果整合到模型中,作為下一個(gè)數據集的測量標準,然后不斷循環(huán)這個(gè)過(guò)程。這也就意味著(zhù),在保證極大地提高檢測率的同時(shí),還可以提高未來(lái)的預測準確率。
  因此,使用人工智能來(lái)學(xué)習并找到最有可能是功擊的風(fēng)波,然后交給人類(lèi)專(zhuān)家去判定,并且協(xié)助人類(lèi)工程師進(jìn)行網(wǎng)路安全防護,是一個(gè)結合二者優(yōu)勢以后最有效的辦法。
  世界上并沒(méi)有絕對的網(wǎng)路安全,防患于未然只是更好的選擇
  俗話(huà)說(shuō)的好“魔高一尺道高一丈”,先有魔,后有道。如今的“道”,已經(jīng)實(shí)現人工智能的廣泛應用,而“魔”呢?黑客雖然已經(jīng)實(shí)現完全自動(dòng)化了......攻擊的投放、發(fā)起、滲透,只是在其中幾個(gè)小的步驟才須要人工介入,通過(guò)一個(gè)可視化界面管理著(zhù)被滲透的全世界幾十萬(wàn)臺服務(wù)器。
  
  其實(shí)面對現今的網(wǎng)路安全方式,每日就會(huì )有成百上千的崩潰報告、DDoS攻擊、數據泄漏等功擊行為,我們不應渴望“完美的防御”,而應當盡量提升功擊成功率的門(mén)檻,降低功擊成功率或是減短防御響應時(shí)間,形成正確的“安全觀(guān)”。最后提醒你們,被功擊只是時(shí)間而已,現在沒(méi)有發(fā)生,未來(lái)必然發(fā)生。

您對晝夜使用的智能推薦系統了解多少? [Aix Smart]

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 180 次瀏覽 ? 2020-08-08 20:29 ? 來(lái)自相關(guān)話(huà)題

 ?。?)推薦算法
  我們知道推薦結果是通過(guò)推薦系統所需數據??進(jìn)行計算和處理的結果,并且計算和處理過(guò)程使用推薦算法. 如果我們將推薦系統所需的數據視為原材料,則推薦算法是裝配線(xiàn)上的工人,根據程序對原材料進(jìn)行處理和包裝,然后將其存儲在倉庫(緩存層)中. 那么,更廣泛使用的推薦算法是什么?
  1. 基于神經(jīng)網(wǎng)絡(luò )的文本語(yǔ)義推薦算法
  CB(基于內容的推薦),即根據用戶(hù)的歷史采集內容(項目),向用戶(hù)推薦與其歷史采集內容相似或相關(guān)的內容. 例如,在汽車(chē)信息場(chǎng)景中,用戶(hù)閱讀了很多有關(guān)“寶馬”汽車(chē)的文章,然后該列表還將推薦類(lèi)似于“寶馬”汽車(chē)的文章. 值得注意的是,基于相似內容的推薦不僅涉及標題,而且還收錄所有被認為具有計算價(jià)值的文本的相似性
  2. 基于協(xié)同過(guò)濾的推薦算法
  基于內容的推薦算法將帶來(lái)一系列問(wèn)題. 例如,它將允許用戶(hù)進(jìn)入信息繭室而不能執行冷啟動(dòng)(新用戶(hù))建議. 因此,在大多數業(yè)務(wù)場(chǎng)景中,需要將智能推薦應用于基于協(xié)作推薦算法(CF),并與CB推薦相結合. (CF)是一種算法,它指的是對哪種類(lèi)型的數據進(jìn)行協(xié)調,以及完成協(xié)作后如何進(jìn)行過(guò)濾. 這些是(CF)算法的關(guān)鍵點(diǎn).
  協(xié)作推薦算法(CF)背后的邏輯是,每個(gè)人對自己利益的看法都是單方面的,并且是無(wú)知的. 即使您還沒(méi)有看到任何東西,每個(gè)人都不知道也不知道他們是否會(huì )喜歡. 因此,CF依靠“群體共性”和“群體智慧”來(lái)挖掘出用戶(hù)可能喜歡的那些潛在內容并將其推薦給用戶(hù). CF算法也是最早,最經(jīng)典的推薦算法之一. 可以說(shuō)CF算法是推薦算法的發(fā)起者. 我們的許多后續推薦算法都基于基于CF的協(xié)作過(guò)濾思想. 基于協(xié)作的推薦算法有兩種: 基于用戶(hù)的協(xié)作過(guò)濾算法和基于項目的協(xié)作過(guò)濾算法.
  3. 基于用戶(hù)行為的深度學(xué)習模型
  隨著(zhù)技術(shù)的發(fā)展,深度學(xué)習的應用場(chǎng)景變得越來(lái)越廣泛,并且已經(jīng)進(jìn)行了許多嘗試將深度學(xué)習應用于行業(yè)中的推薦系統. 基于用戶(hù)行為的深度學(xué)習模型首先被應用于中小型計算廣告系統. 出于成本考慮,由于龐大的吞吐量和低延遲要求,大型計算廣告系統通常使用簡(jiǎn)單的回歸算法.
  深度學(xué)習模型在推薦系統中有兩個(gè)主要應用: 一是使用更精確的語(yǔ)義模型來(lái)進(jìn)行項目相似度計算;二是將深度學(xué)習模型應用于推薦項目. 另一種是抽象用戶(hù)行為并提取特征以預測點(diǎn)擊概率;
  4. 基于關(guān)聯(lián)規則的推薦
  在電子商務(wù)領(lǐng)域中廣泛使用的另一種推薦算法是基于關(guān)聯(lián)規則的推薦. 從本質(zhì)上講,它與協(xié)作過(guò)濾算法相似,不同之處在于它與用戶(hù)自己的購買(mǎi)記錄進(jìn)行協(xié)作. 典型的故事是啤酒和尿布的故事. 盡管故事的來(lái)源不再可用,但它是當前最廣泛認可的數據帶來(lái)的好處的案例.
  故事的內容是: 經(jīng)過(guò)數據分析,北美的超市運營(yíng)商發(fā)現,啤酒和尿布更有可能以相同的順序出現. 因此,我進(jìn)一步研究發(fā)現,家庭中購買(mǎi)尿布的大部分事情都是由家庭中的男人完成的,男人在購買(mǎi)尿布時(shí)總是會(huì )帶幾罐啤酒. 因此,通過(guò)調整貨架位置,將尿布和啤酒放在一起,以便更多的男人在購買(mǎi)尿布時(shí)可以帶一打啤酒. 結果,銷(xiāo)售額大大增加了.
  這個(gè)故事本身不能接受審查. 例如,尿布和啤酒總是總是一起買(mǎi)的,所以你不應該把它們放在一起,而要保持一定距離. 在移動(dòng)線(xiàn)設計中,讓用戶(hù)瀏覽兩種商品的過(guò)程,并放置其他一些男人會(huì )隨身攜帶的商品,回報率可能更高. 我們暫時(shí)不會(huì )討論這個(gè)故事的可信度. 這個(gè)故事反映了關(guān)聯(lián)規則推薦背后的最簡(jiǎn)單邏輯: 我應該需要其他用戶(hù)經(jīng)常一起購買(mǎi)哪些產(chǎn)品.
  通常,作為一種智能的內容分發(fā)平臺,其內容分發(fā)方法多種多樣. 內容平臺包括算法分發(fā),編輯(手動(dòng))分發(fā),社交分發(fā)等,內容平臺將根據自身特點(diǎn)選擇高分發(fā)效率的分發(fā)方式. 總體來(lái)說(shuō),內容平臺中存在多種分發(fā)方式.
  例如,在新聞場(chǎng)景中,可能需要在指定位置顯示固定類(lèi)型的新聞,而其他推薦位置將使用算法進(jìn)行分發(fā). 例如,微博的熱點(diǎn)是算法的分布,而以下各節的算法是純粹基于訂閱的社交分布. 還是在業(yè)務(wù)場(chǎng)景中,各種分配方法都以權重的形式參與了最終結果的表示. 例如,電子商務(wù)搜索部分不僅使用基于語(yǔ)義和用戶(hù)行為的個(gè)性化搜索排名,而且還增加了主要產(chǎn)品,流量產(chǎn)品等的權重,因此這些產(chǎn)品在分發(fā)過(guò)程. 最上面的一個(gè)顯示在用戶(hù)的屏幕上. 當平臺內容量大,用戶(hù)規模達數千萬(wàn)甚至數千萬(wàn)時(shí),信息和用戶(hù)的有效匹配就顯得尤為重要,它將自然通過(guò)各種方法提高分發(fā)效率.
  3. 智能推薦與分類(lèi)和搜索引擎有什么區別
  在當今的互聯(lián)網(wǎng)時(shí)代,我們大致經(jīng)歷了三種獲取信息的方式: 目錄,搜索引擎和智能推薦. 他們還催生了提供三種類(lèi)型的信息獲取服務(wù)的成功公司. 類(lèi)別包括: Yahoo,Sina;搜索引擎: 谷歌,百度;明智的建議: ByteDance.
  類(lèi)別目錄所涵蓋的信息量是有限的,并且用戶(hù)不容易找到不同類(lèi)別的信息. 搜索引擎覆蓋范圍廣,操作簡(jiǎn)單,但是用戶(hù)必須提供準確的關(guān)鍵字. . 在當今的信息爆炸時(shí)代,用戶(hù)依靠上述兩種方法來(lái)準確地獲取所需內容并不容易,尤其是當他們不了解所需內容的具體分類(lèi)和精確關(guān)鍵字時(shí). 明智的建議是通過(guò)計算用戶(hù)行為數據,將最需要的信息主動(dòng)推送給用戶(hù). 它與目錄和搜索引擎之間的區別體現在這里.
  推薦系統根據用戶(hù)的靜態(tài)屬性和用戶(hù)行為數據來(lái)匹配信息. 因為每個(gè)用戶(hù)都有各自的差異,所以每個(gè)用戶(hù)獲得的信息都是不同的且個(gè)性化的,并且推薦系統傳遞的信息是主動(dòng)而非被動(dòng)的過(guò)程.
  我們每個(gè)人都不能沒(méi)有的在線(xiàn)購物向我們展示了明智推薦的優(yōu)勢和必要性. 有數千萬(wàn)種產(chǎn)品,搜索詞也多種多樣. 如果我們不依靠智能推薦系統為我們提供便利,那么我們可能很難找到我們真正想要的產(chǎn)品.
  四個(gè). 明智的推薦勢在必行
  無(wú)論它是什么平臺,都必須構建一個(gè)智能的推薦系統,幫助用戶(hù)發(fā)現內容并克服信息過(guò)載. 智能推薦系統正在潛移默化地影響著(zhù)我們的生活,無(wú)論我們是否注意到它,我們都無(wú)法離開(kāi)智能推薦系統. 作為您最了解您的“人”,它正在您和我周?chē)钴S,不僅使該平臺有利可圖,而且為每個(gè)用戶(hù)提供了更多便利.
  這種積極推薦人們喜歡和需要的產(chǎn)品和信息的方式,可以迎合人類(lèi)固有的慣性. 人們喜歡被動(dòng)接收而不是主動(dòng)搜索,特別是當信息是我們感興趣的信息時(shí). 如今,聰明的建議無(wú)處不在. 購物平臺上的商品推薦,短視頻平臺上的視頻推薦,娛樂(lè )平臺上的音樂(lè )和電影推薦,新聞信息平臺上的信息推薦,甚至社交平臺上的朋友卡推薦,都依賴(lài)于此. 簡(jiǎn)而言之,在不同用戶(hù)手中,每個(gè)應用程序可以相同或完全不同. 一切都會(huì )根據您的個(gè)性和喜好進(jìn)行定義. 這是智能推薦的本質(zhì). 查看全部

 ?。?)推薦算法
  我們知道推薦結果是通過(guò)推薦系統所需數據??進(jìn)行計算和處理的結果,并且計算和處理過(guò)程使用推薦算法. 如果我們將推薦系統所需的數據視為原材料,則推薦算法是裝配線(xiàn)上的工人,根據程序對原材料進(jìn)行處理和包裝,然后將其存儲在倉庫(緩存層)中. 那么,更廣泛使用的推薦算法是什么?
  1. 基于神經(jīng)網(wǎng)絡(luò )的文本語(yǔ)義推薦算法
  CB(基于內容的推薦),即根據用戶(hù)的歷史采集內容(項目),向用戶(hù)推薦與其歷史采集內容相似或相關(guān)的內容. 例如,在汽車(chē)信息場(chǎng)景中,用戶(hù)閱讀了很多有關(guān)“寶馬”汽車(chē)的文章,然后該列表還將推薦類(lèi)似于“寶馬”汽車(chē)的文章. 值得注意的是,基于相似內容的推薦不僅涉及標題,而且還收錄所有被認為具有計算價(jià)值的文本的相似性
  2. 基于協(xié)同過(guò)濾的推薦算法
  基于內容的推薦算法將帶來(lái)一系列問(wèn)題. 例如,它將允許用戶(hù)進(jìn)入信息繭室而不能執行冷啟動(dòng)(新用戶(hù))建議. 因此,在大多數業(yè)務(wù)場(chǎng)景中,需要將智能推薦應用于基于協(xié)作推薦算法(CF),并與CB推薦相結合. (CF)是一種算法,它指的是對哪種類(lèi)型的數據進(jìn)行協(xié)調,以及完成協(xié)作后如何進(jìn)行過(guò)濾. 這些是(CF)算法的關(guān)鍵點(diǎn).
  協(xié)作推薦算法(CF)背后的邏輯是,每個(gè)人對自己利益的看法都是單方面的,并且是無(wú)知的. 即使您還沒(méi)有看到任何東西,每個(gè)人都不知道也不知道他們是否會(huì )喜歡. 因此,CF依靠“群體共性”和“群體智慧”來(lái)挖掘出用戶(hù)可能喜歡的那些潛在內容并將其推薦給用戶(hù). CF算法也是最早,最經(jīng)典的推薦算法之一. 可以說(shuō)CF算法是推薦算法的發(fā)起者. 我們的許多后續推薦算法都基于基于CF的協(xié)作過(guò)濾思想. 基于協(xié)作的推薦算法有兩種: 基于用戶(hù)的協(xié)作過(guò)濾算法和基于項目的協(xié)作過(guò)濾算法.
  3. 基于用戶(hù)行為的深度學(xué)習模型
  隨著(zhù)技術(shù)的發(fā)展,深度學(xué)習的應用場(chǎng)景變得越來(lái)越廣泛,并且已經(jīng)進(jìn)行了許多嘗試將深度學(xué)習應用于行業(yè)中的推薦系統. 基于用戶(hù)行為的深度學(xué)習模型首先被應用于中小型計算廣告系統. 出于成本考慮,由于龐大的吞吐量和低延遲要求,大型計算廣告系統通常使用簡(jiǎn)單的回歸算法.
  深度學(xué)習模型在推薦系統中有兩個(gè)主要應用: 一是使用更精確的語(yǔ)義模型來(lái)進(jìn)行項目相似度計算;二是將深度學(xué)習模型應用于推薦項目. 另一種是抽象用戶(hù)行為并提取特征以預測點(diǎn)擊概率;
  4. 基于關(guān)聯(lián)規則的推薦
  在電子商務(wù)領(lǐng)域中廣泛使用的另一種推薦算法是基于關(guān)聯(lián)規則的推薦. 從本質(zhì)上講,它與協(xié)作過(guò)濾算法相似,不同之處在于它與用戶(hù)自己的購買(mǎi)記錄進(jìn)行協(xié)作. 典型的故事是啤酒和尿布的故事. 盡管故事的來(lái)源不再可用,但它是當前最廣泛認可的數據帶來(lái)的好處的案例.
  故事的內容是: 經(jīng)過(guò)數據分析,北美的超市運營(yíng)商發(fā)現,啤酒和尿布更有可能以相同的順序出現. 因此,我進(jìn)一步研究發(fā)現,家庭中購買(mǎi)尿布的大部分事情都是由家庭中的男人完成的,男人在購買(mǎi)尿布時(shí)總是會(huì )帶幾罐啤酒. 因此,通過(guò)調整貨架位置,將尿布和啤酒放在一起,以便更多的男人在購買(mǎi)尿布時(shí)可以帶一打啤酒. 結果,銷(xiāo)售額大大增加了.
  這個(gè)故事本身不能接受審查. 例如,尿布和啤酒總是總是一起買(mǎi)的,所以你不應該把它們放在一起,而要保持一定距離. 在移動(dòng)線(xiàn)設計中,讓用戶(hù)瀏覽兩種商品的過(guò)程,并放置其他一些男人會(huì )隨身攜帶的商品,回報率可能更高. 我們暫時(shí)不會(huì )討論這個(gè)故事的可信度. 這個(gè)故事反映了關(guān)聯(lián)規則推薦背后的最簡(jiǎn)單邏輯: 我應該需要其他用戶(hù)經(jīng)常一起購買(mǎi)哪些產(chǎn)品.
  通常,作為一種智能的內容分發(fā)平臺,其內容分發(fā)方法多種多樣. 內容平臺包括算法分發(fā),編輯(手動(dòng))分發(fā),社交分發(fā)等,內容平臺將根據自身特點(diǎn)選擇高分發(fā)效率的分發(fā)方式. 總體來(lái)說(shuō),內容平臺中存在多種分發(fā)方式.
  例如,在新聞場(chǎng)景中,可能需要在指定位置顯示固定類(lèi)型的新聞,而其他推薦位置將使用算法進(jìn)行分發(fā). 例如,微博的熱點(diǎn)是算法的分布,而以下各節的算法是純粹基于訂閱的社交分布. 還是在業(yè)務(wù)場(chǎng)景中,各種分配方法都以權重的形式參與了最終結果的表示. 例如,電子商務(wù)搜索部分不僅使用基于語(yǔ)義和用戶(hù)行為的個(gè)性化搜索排名,而且還增加了主要產(chǎn)品,流量產(chǎn)品等的權重,因此這些產(chǎn)品在分發(fā)過(guò)程. 最上面的一個(gè)顯示在用戶(hù)的屏幕上. 當平臺內容量大,用戶(hù)規模達數千萬(wàn)甚至數千萬(wàn)時(shí),信息和用戶(hù)的有效匹配就顯得尤為重要,它將自然通過(guò)各種方法提高分發(fā)效率.
  3. 智能推薦與分類(lèi)和搜索引擎有什么區別
  在當今的互聯(lián)網(wǎng)時(shí)代,我們大致經(jīng)歷了三種獲取信息的方式: 目錄,搜索引擎和智能推薦. 他們還催生了提供三種類(lèi)型的信息獲取服務(wù)的成功公司. 類(lèi)別包括: Yahoo,Sina;搜索引擎: 谷歌,百度;明智的建議: ByteDance.
  類(lèi)別目錄所涵蓋的信息量是有限的,并且用戶(hù)不容易找到不同類(lèi)別的信息. 搜索引擎覆蓋范圍廣,操作簡(jiǎn)單,但是用戶(hù)必須提供準確的關(guān)鍵字. . 在當今的信息爆炸時(shí)代,用戶(hù)依靠上述兩種方法來(lái)準確地獲取所需內容并不容易,尤其是當他們不了解所需內容的具體分類(lèi)和精確關(guān)鍵字時(shí). 明智的建議是通過(guò)計算用戶(hù)行為數據,將最需要的信息主動(dòng)推送給用戶(hù). 它與目錄和搜索引擎之間的區別體現在這里.
  推薦系統根據用戶(hù)的靜態(tài)屬性和用戶(hù)行為數據來(lái)匹配信息. 因為每個(gè)用戶(hù)都有各自的差異,所以每個(gè)用戶(hù)獲得的信息都是不同的且個(gè)性化的,并且推薦系統傳遞的信息是主動(dòng)而非被動(dòng)的過(guò)程.
  我們每個(gè)人都不能沒(méi)有的在線(xiàn)購物向我們展示了明智推薦的優(yōu)勢和必要性. 有數千萬(wàn)種產(chǎn)品,搜索詞也多種多樣. 如果我們不依靠智能推薦系統為我們提供便利,那么我們可能很難找到我們真正想要的產(chǎn)品.
  四個(gè). 明智的推薦勢在必行
  無(wú)論它是什么平臺,都必須構建一個(gè)智能的推薦系統,幫助用戶(hù)發(fā)現內容并克服信息過(guò)載. 智能推薦系統正在潛移默化地影響著(zhù)我們的生活,無(wú)論我們是否注意到它,我們都無(wú)法離開(kāi)智能推薦系統. 作為您最了解您的“人”,它正在您和我周?chē)钴S,不僅使該平臺有利可圖,而且為每個(gè)用戶(hù)提供了更多便利.
  這種積極推薦人們喜歡和需要的產(chǎn)品和信息的方式,可以迎合人類(lèi)固有的慣性. 人們喜歡被動(dòng)接收而不是主動(dòng)搜索,特別是當信息是我們感興趣的信息時(shí). 如今,聰明的建議無(wú)處不在. 購物平臺上的商品推薦,短視頻平臺上的視頻推薦,娛樂(lè )平臺上的音樂(lè )和電影推薦,新聞信息平臺上的信息推薦,甚至社交平臺上的朋友卡推薦,都依賴(lài)于此. 簡(jiǎn)而言之,在不同用戶(hù)手中,每個(gè)應用程序可以相同或完全不同. 一切都會(huì )根據您的個(gè)性和喜好進(jìn)行定義. 這是智能推薦的本質(zhì).

Python學(xué)習筆記(20)自動(dòng)點(diǎn)擊京東產(chǎn)品的價(jià)格狀況并智能地采集價(jià)格數據

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 552 次瀏覽 ? 2020-08-07 19:49 ? 來(lái)自相關(guān)話(huà)題

  **注意: **如果在執行操作之前和之后網(wǎng)頁(yè)結構沒(méi)有變化,則可以通過(guò)一條規則來(lái)完成;如果網(wǎng)頁(yè)結構在前后變化,則必須通過(guò)兩個(gè)或更多規則來(lái)完成;另外,如果涉及翻頁(yè),則分為兩個(gè)或更多規則. 有關(guān)連續操作的規則數量,請參閱“計劃獲取過(guò)程”一文.
  1. 建立第一級主題以獲取目標信息
  建立第一級主題的規則,然后將所需的信息映射到排序框. 建議在完成內容映射后,還應進(jìn)行定位標記映射,以提高定位精度和規則適應性.
  **注意: **如果您設置了連續操作規則,則無(wú)需構建排序框. 例如,方案2的第一級主題不需要構建排序框,而是使用排序框來(lái)獲取一些數據(選擇頁(yè)面一定會(huì )顯示該信息)供爬蟲(chóng)程序確定是否執行采集,否則可能會(huì )錯過(guò)網(wǎng)頁(yè).
  
  二,設置連續動(dòng)作
  單擊“新建”按鈕創(chuàng )建一個(gè)新動(dòng)作,每個(gè)動(dòng)作的設置方法相同,基本操作如下:
  2.1輸入目標主題名稱(chēng)
  連續動(dòng)作指向同一目標對象. 如果有多個(gè)操作,并且您要指向不同的主題,請將它們分成多個(gè)規則并分別設置連續的操作.
  2.2選擇操作類(lèi)型
  這種情況是單擊操作,并且不同操作的應用范圍不同. 請根據實(shí)際操作情況選擇動(dòng)作類(lèi)型.
  2.3將位于動(dòng)作對象的xpath填充到定位表達式中
  2.4輸入動(dòng)作名稱(chēng)
  告訴自己該步驟的用途,以便稍后進(jìn)行修改.
  2.5高級設置
  不必先設置它,以后在調試連續動(dòng)作時(shí)將使用它,這可以擴大適用的動(dòng)作范圍. 如果要捕獲操作對象的信息,請使用xpath在高級設置的內容表達式中找到操作對象的信息. 請根據需要進(jìn)行設置.
  **注: **是否選擇了動(dòng)作類(lèi)型以及xpath定位是否正確,請確定連續動(dòng)作是否可以成功執行. Xpath是用于定位html節點(diǎn)的標準語(yǔ)言. 使用連續動(dòng)作功能之前,請先掌握xpath.
  
  根據人工步驟,我們還需要選擇版本,購買(mǎi)方式1,購買(mǎi)方式2,因此我們將繼續創(chuàng )建3個(gè)新操作并重復上述步驟.
  
  
  
  三,調試規則
  完成上述步驟后,單擊“保存規則”,然后單擊“爬網(wǎng)數據”按鈕以開(kāi)始試用捕獲. 采集期間報告了一個(gè)錯誤: 無(wú)法找到節點(diǎn)***. 觀(guān)察瀏覽器窗口,發(fā)現單擊第一步后,未加載其他信息. 加載信息后,發(fā)現單擊購買(mǎi)方法2后,無(wú)法返回執行四步單擊的頁(yè)面,從而導致連續執行連續動(dòng)作.
  
  
  鑒于上述情況,我們的解決方案是刪除第四步. 因為無(wú)論您是否單擊購買(mǎi)方法2,它都不會(huì )影響產(chǎn)品的價(jià)格. 因此,可以刪除不必要的干擾步驟.
  修改后,嘗試再次捕獲. 將提取的xml轉換為excel后,我發(fā)現價(jià)格和累積評估數據被捕獲或捕獲不正確. 這是因為網(wǎng)頁(yè)太大,加載速度太慢,并且單擊后的數據將必須等待一段時(shí)間才能加載.
  
  為了捕獲所有數據,您需要延長(cháng)等待時(shí)間并分別為每個(gè)操作設置延遲. 單擊操作步驟->高級設置->額外延遲,然后輸入以秒為單位的正整數. 請根據實(shí)際情況進(jìn)行調試.
  此外,如果不是頂部窗口,則在采集時(shí)將反復單擊它. 這是因為京東網(wǎng)站上有一些防爬措施,這些措施必須是當前的窗口操作才能生效. 因此,請檢查該窗口在高級設置中是否可見(jiàn),并且在采集過(guò)程中該窗口將位于頂部. 請根據實(shí)際情況進(jìn)行設置.
  
  
  四個(gè). 如何將捕獲的信息與操作步驟一一對應?
  如果要將捕獲的信息與操作步驟一一對應,則必須提取操作對象的信息. 有兩種方法:
  4.1使用xpath在連續操作的高級設置的內容表達式中找到操作對象的信息節點(diǎn).
  在將定位表達式定位到動(dòng)作對象的整個(gè)操作范圍之后,它還收錄其自己的信息. 因此,內容表達僅需要從定位的動(dòng)作對象開(kāi)始,并繼續定位到其信息. 采集時(shí),此步驟的信息將記錄在actionvalue中,該值對應于actionno,后者記錄該步驟的執行次數.
  
  
  4.2在整理框中獲取動(dòng)作對象的信息,這里也使用xpath進(jìn)行定位.
  執行動(dòng)作對象時(shí),其dom結構將更改. 找到網(wǎng)頁(yè)更改的結構特征,使用xpath精確定位節點(diǎn),并在通過(guò)驗證后,可以設置自定義xpath.
   查看全部

  **注意: **如果在執行操作之前和之后網(wǎng)頁(yè)結構沒(méi)有變化,則可以通過(guò)一條規則來(lái)完成;如果網(wǎng)頁(yè)結構在前后變化,則必須通過(guò)兩個(gè)或更多規則來(lái)完成;另外,如果涉及翻頁(yè),則分為兩個(gè)或更多規則. 有關(guān)連續操作的規則數量,請參閱“計劃獲取過(guò)程”一文.
  1. 建立第一級主題以獲取目標信息
  建立第一級主題的規則,然后將所需的信息映射到排序框. 建議在完成內容映射后,還應進(jìn)行定位標記映射,以提高定位精度和規則適應性.
  **注意: **如果您設置了連續操作規則,則無(wú)需構建排序框. 例如,方案2的第一級主題不需要構建排序框,而是使用排序框來(lái)獲取一些數據(選擇頁(yè)面一定會(huì )顯示該信息)供爬蟲(chóng)程序確定是否執行采集,否則可能會(huì )錯過(guò)網(wǎng)頁(yè).
  
  二,設置連續動(dòng)作
  單擊“新建”按鈕創(chuàng )建一個(gè)新動(dòng)作,每個(gè)動(dòng)作的設置方法相同,基本操作如下:
  2.1輸入目標主題名稱(chēng)
  連續動(dòng)作指向同一目標對象. 如果有多個(gè)操作,并且您要指向不同的主題,請將它們分成多個(gè)規則并分別設置連續的操作.
  2.2選擇操作類(lèi)型
  這種情況是單擊操作,并且不同操作的應用范圍不同. 請根據實(shí)際操作情況選擇動(dòng)作類(lèi)型.
  2.3將位于動(dòng)作對象的xpath填充到定位表達式中
  2.4輸入動(dòng)作名稱(chēng)
  告訴自己該步驟的用途,以便稍后進(jìn)行修改.
  2.5高級設置
  不必先設置它,以后在調試連續動(dòng)作時(shí)將使用它,這可以擴大適用的動(dòng)作范圍. 如果要捕獲操作對象的信息,請使用xpath在高級設置的內容表達式中找到操作對象的信息. 請根據需要進(jìn)行設置.
  **注: **是否選擇了動(dòng)作類(lèi)型以及xpath定位是否正確,請確定連續動(dòng)作是否可以成功執行. Xpath是用于定位html節點(diǎn)的標準語(yǔ)言. 使用連續動(dòng)作功能之前,請先掌握xpath.
  
  根據人工步驟,我們還需要選擇版本,購買(mǎi)方式1,購買(mǎi)方式2,因此我們將繼續創(chuàng )建3個(gè)新操作并重復上述步驟.
  
  
  
  三,調試規則
  完成上述步驟后,單擊“保存規則”,然后單擊“爬網(wǎng)數據”按鈕以開(kāi)始試用捕獲. 采集期間報告了一個(gè)錯誤: 無(wú)法找到節點(diǎn)***. 觀(guān)察瀏覽器窗口,發(fā)現單擊第一步后,未加載其他信息. 加載信息后,發(fā)現單擊購買(mǎi)方法2后,無(wú)法返回執行四步單擊的頁(yè)面,從而導致連續執行連續動(dòng)作.
  
  
  鑒于上述情況,我們的解決方案是刪除第四步. 因為無(wú)論您是否單擊購買(mǎi)方法2,它都不會(huì )影響產(chǎn)品的價(jià)格. 因此,可以刪除不必要的干擾步驟.
  修改后,嘗試再次捕獲. 將提取的xml轉換為excel后,我發(fā)現價(jià)格和累積評估數據被捕獲或捕獲不正確. 這是因為網(wǎng)頁(yè)太大,加載速度太慢,并且單擊后的數據將必須等待一段時(shí)間才能加載.
  
  為了捕獲所有數據,您需要延長(cháng)等待時(shí)間并分別為每個(gè)操作設置延遲. 單擊操作步驟->高級設置->額外延遲,然后輸入以秒為單位的正整數. 請根據實(shí)際情況進(jìn)行調試.
  此外,如果不是頂部窗口,則在采集時(shí)將反復單擊它. 這是因為京東網(wǎng)站上有一些防爬措施,這些措施必須是當前的窗口操作才能生效. 因此,請檢查該窗口在高級設置中是否可見(jiàn),并且在采集過(guò)程中該窗口將位于頂部. 請根據實(shí)際情況進(jìn)行設置.
  
  
  四個(gè). 如何將捕獲的信息與操作步驟一一對應?
  如果要將捕獲的信息與操作步驟一一對應,則必須提取操作對象的信息. 有兩種方法:
  4.1使用xpath在連續操作的高級設置的內容表達式中找到操作對象的信息節點(diǎn).
  在將定位表達式定位到動(dòng)作對象的整個(gè)操作范圍之后,它還收錄其自己的信息. 因此,內容表達僅需要從定位的動(dòng)作對象開(kāi)始,并繼續定位到其信息. 采集時(shí),此步驟的信息將記錄在actionvalue中,該值對應于actionno,后者記錄該步驟的執行次數.
  
  
  4.2在整理框中獲取動(dòng)作對象的信息,這里也使用xpath進(jìn)行定位.
  執行動(dòng)作對象時(shí),其dom結構將更改. 找到網(wǎng)頁(yè)更改的結構特征,使用xpath精確定位節點(diǎn),并在通過(guò)驗證后,可以設置自定義xpath.
  

煤礦安全隱患智能采集與智能決策系統

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 525 次瀏覽 ? 2020-08-06 23:12 ? 來(lái)自相關(guān)話(huà)題

  [摘要]: 分析和處理煤礦中的隱患對安全有效地生產(chǎn)煤礦非常重要,并受到許多煤礦企業(yè)的高度評價(jià). 但是,大多數煤礦企業(yè)使用手動(dòng)方法采集隱患數據并編寫(xiě)安全生產(chǎn)簡(jiǎn)報. 這種方法存在工作量大,效率低,輸入信息混亂,輸入信息不準確等問(wèn)題. 一些煤礦企業(yè)還使用計算機軟件來(lái)輔助數據處理,但是其基本數據存儲還不夠標準化,并且數據分析能力相對不足. 針對上述問(wèn)題,本文應用卷積神經(jīng)網(wǎng)絡(luò )(CNN)語(yǔ)義映射算法,并對深蟻群算法(ACO)進(jìn)行了改進(jìn),設計了煤礦安全隱患智能采集與智能決策系統. 該系統具有實(shí)時(shí)數據存儲,跟蹤和處理,風(fēng)險管理與控制,分析和預警以及科學(xué)決策等功能. 本文首先介紹了煤礦安全隱患智能采集與決策系統的研究背景和意義,以及煤礦相關(guān)領(lǐng)域的國內外研究現狀,分析了煤礦安全存在的問(wèn)題. 從多方面,多角度的生產(chǎn)過(guò)程,并深入分析煤礦企業(yè)的實(shí)際情況,對項目的功能要求,建立煤礦安全隱患智能采集與智能決策系統框架進(jìn)行研究. 根據要求,建立了煤礦安全隱患智能采集與決策系統數據庫,并確定了數據表的詳細字段. 在此基礎上,將改進(jìn)的CNN技術(shù)應用于煤礦隱患的智能采集領(lǐng)域,建立了基于CNN的智能采集模型,并應用ACO改進(jìn)了隱患的智能檢索和決策模型. 在煤礦中,以及從安全風(fēng)險中使用C#等編程語(yǔ)言的方法七個(gè)功能模塊,包括數據管理,安全隱患風(fēng)險管理和控制以及煤礦文件管理,已經(jīng)開(kāi)發(fā)了智能采集和智能決策煤礦安全隱患系統. 最后,通過(guò)多次測試和實(shí)際應用,表明隱患智能采集與智能決策系統顯著(zhù)提高了隱患調查的效率和準確性,顯著(zhù)降低了煤礦安全隱患的發(fā)生頻率,為煤礦安全隱患提供了保障. 煤礦安全生產(chǎn). 圖[61]表[8]參考. [52] 查看全部

  [摘要]: 分析和處理煤礦中的隱患對安全有效地生產(chǎn)煤礦非常重要,并受到許多煤礦企業(yè)的高度評價(jià). 但是,大多數煤礦企業(yè)使用手動(dòng)方法采集隱患數據并編寫(xiě)安全生產(chǎn)簡(jiǎn)報. 這種方法存在工作量大,效率低,輸入信息混亂,輸入信息不準確等問(wèn)題. 一些煤礦企業(yè)還使用計算機軟件來(lái)輔助數據處理,但是其基本數據存儲還不夠標準化,并且數據分析能力相對不足. 針對上述問(wèn)題,本文應用卷積神經(jīng)網(wǎng)絡(luò )(CNN)語(yǔ)義映射算法,并對深蟻群算法(ACO)進(jìn)行了改進(jìn),設計了煤礦安全隱患智能采集與智能決策系統. 該系統具有實(shí)時(shí)數據存儲,跟蹤和處理,風(fēng)險管理與控制,分析和預警以及科學(xué)決策等功能. 本文首先介紹了煤礦安全隱患智能采集與決策系統的研究背景和意義,以及煤礦相關(guān)領(lǐng)域的國內外研究現狀,分析了煤礦安全存在的問(wèn)題. 從多方面,多角度的生產(chǎn)過(guò)程,并深入分析煤礦企業(yè)的實(shí)際情況,對項目的功能要求,建立煤礦安全隱患智能采集與智能決策系統框架進(jìn)行研究. 根據要求,建立了煤礦安全隱患智能采集與決策系統數據庫,并確定了數據表的詳細字段. 在此基礎上,將改進(jìn)的CNN技術(shù)應用于煤礦隱患的智能采集領(lǐng)域,建立了基于CNN的智能采集模型,并應用ACO改進(jìn)了隱患的智能檢索和決策模型. 在煤礦中,以及從安全風(fēng)險中使用C#等編程語(yǔ)言的方法七個(gè)功能模塊,包括數據管理,安全隱患風(fēng)險管理和控制以及煤礦文件管理,已經(jīng)開(kāi)發(fā)了智能采集和智能決策煤礦安全隱患系統. 最后,通過(guò)多次測試和實(shí)際應用,表明隱患智能采集與智能決策系統顯著(zhù)提高了隱患調查的效率和準確性,顯著(zhù)降低了煤礦安全隱患的發(fā)生頻率,為煤礦安全隱患提供了保障. 煤礦安全生產(chǎn). 圖[61]表[8]參考. [52]

[語(yǔ)音記錄](méi)金融云業(yè)務(wù)網(wǎng)絡(luò )智能搜集與綜合分析實(shí)戰

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 260 次瀏覽 ? 2020-08-06 18:20 ? 來(lái)自相關(guān)話(huà)題

  大家好,讓我先自我介紹. 我是云山網(wǎng)絡(luò )公司的吳玉華. 今天,我想與您分享有關(guān)金融云業(yè)務(wù)網(wǎng)絡(luò )的采集,分析和分發(fā)的實(shí)用故事. 在開(kāi)始討論之前,我想與您討論一個(gè)問(wèn)題: 為什么我們需要采集虛擬網(wǎng)絡(luò )流量.
  ▌為什么要談?wù)撎摂M網(wǎng)絡(luò )采集
  云山網(wǎng)絡(luò )從2008年開(kāi)始做SDN. 它已經(jīng)探索了十年. 在云計算和云網(wǎng)絡(luò )中,我們已經(jīng)進(jìn)行了研究和實(shí)踐. 在此期間,我們看到了兩個(gè)明顯的網(wǎng)絡(luò )變化. 第一: 網(wǎng)絡(luò )流量模式的變化. 過(guò)去,該網(wǎng)絡(luò )是具有南北向流量的煙囪架構. 現在,它已成為東西向交通. 據統計,數據中心網(wǎng)絡(luò )中約80%的流量是東西向流量. 可以看出,東西方交通已成為主要交通方式.
  
  第二個(gè): 網(wǎng)絡(luò )與企業(yè)脫節. 為什么這么說(shuō)并不是說(shuō)網(wǎng)絡(luò )不再能夠滿(mǎn)足業(yè)務(wù)需求,而是網(wǎng)絡(luò )與業(yè)務(wù)之間的關(guān)系越來(lái)越遠. 那是什么意思?例如,在舊的傳統網(wǎng)絡(luò )中,我們可以從網(wǎng)絡(luò )中提取流量,然后通過(guò)協(xié)議可以大致了解應用程序. 但是現在,由于存在一個(gè)底層網(wǎng)絡(luò )和一個(gè)覆蓋網(wǎng)絡(luò ),因此我們遵循舊方法,并從提取的流量中看到了VXLAN封裝和數據包. 即使解開(kāi)封裝,里面也有重復的IP.
  因此,實(shí)際上很難發(fā)現當今云網(wǎng)絡(luò )中運行的服務(wù)類(lèi)型,因此該網(wǎng)絡(luò )逐漸被邊緣化. 在這種發(fā)展趨勢下,日常網(wǎng)絡(luò )使用以及運維將面臨哪些挑戰?接下來(lái),我將分享兩個(gè)典型示例.
  每天發(fā)生的事件: 業(yè)務(wù)部門(mén)報告業(yè)務(wù)應用程序響應速度慢,并且網(wǎng)絡(luò )存在問(wèn)題,但是網(wǎng)絡(luò )部門(mén)認為網(wǎng)絡(luò )沒(méi)有問(wèn)題. 當然,業(yè)務(wù)部門(mén)不會(huì )批準它. 在那之后,有無(wú)休止的辯論,但是問(wèn)題仍然沒(méi)有解決之道,那么問(wèn)題出在哪里?
  讓我們看一下網(wǎng)絡(luò )的橫截面. 對于網(wǎng)絡(luò )部門(mén)來(lái)說(shuō),他們的視野是在底層網(wǎng)絡(luò )中. 他們看到了交換機和鏈接,但是業(yè)務(wù)專(zhuān)注于虛擬機中的應用程序,因此這里存在一個(gè)很大的管理盲點(diǎn),包括OVS,VGW,VFW和VLB. 這些都是非常重要的網(wǎng)絡(luò )節點(diǎn). 如果看不到內部網(wǎng)絡(luò )狀態(tài),如何找到問(wèn)題根源?或確定報告是否是網(wǎng)絡(luò )問(wèn)題. 此事件提醒我們,這是清楚了解虛擬網(wǎng)絡(luò )中正在發(fā)生的事情的關(guān)鍵.
  第二個(gè)例子發(fā)生在一家著(zhù)名的證券公司. 眾所周知,證券行業(yè)具有一系列安全要求,例如證券和證券監管. 因此,安全部門(mén)對網(wǎng)絡(luò )部門(mén)提出了一個(gè)要求: 核心業(yè)務(wù)系統中關(guān)鍵業(yè)務(wù)組件的網(wǎng)絡(luò )流量被導出以進(jìn)行安全分析,數據審核等.
  接下來(lái),為了滿(mǎn)足這一需求,網(wǎng)絡(luò )部門(mén)制定了一個(gè)計劃,通過(guò)流表來(lái)鏡像虛擬網(wǎng)絡(luò ). 但是,在POC過(guò)程中,結果并不理想. 流鏡像與流表混合在一起,編排非常復雜. 此外,在遷移虛擬機時(shí),無(wú)法自動(dòng)更新鏡像策略,無(wú)法實(shí)施最終解決方案,需求也就消失了.
  后來(lái),發(fā)生了更嚴重的事情. 該公司發(fā)生了事故,導致用戶(hù)信息泄漏. 這種事件可謂是證券業(yè)的重大失敗. 此時(shí),安全部門(mén)必須負責. 同時(shí),網(wǎng)絡(luò )部門(mén)不滿(mǎn)意. 安全部門(mén)的需求,網(wǎng)絡(luò )部門(mén)和安全部門(mén)都負責整個(gè)事件.
  
  結合以上兩個(gè)示例,不難看出在云網(wǎng)絡(luò )中,業(yè)務(wù)網(wǎng)絡(luò )的采集,分析和分發(fā)已成為云網(wǎng)絡(luò )構建的標準配置,如果要采集虛擬網(wǎng)絡(luò )流量,所有的采集方法和解決方案都必須安全可靠,而且不影響生產(chǎn).
  ▌?dòng)媱澓蛢r(jià)值
  
  如何解決上述問(wèn)題,是云山DeepFlow數據中心虛擬網(wǎng)絡(luò )流量采集分析平臺(以下簡(jiǎn)稱(chēng)DeepFlow)所能做的. 這張照片是最左邊的采集部分. 我們知道目前的業(yè)務(wù)范圍非常廣泛. 它可能涉及私有云和公共云. 云杉DeepFlow同時(shí)涵蓋了這些環(huán)境. 通過(guò)部署DeepFlow,您可以幫助您查看所有業(yè)務(wù). 對于所有VPC網(wǎng)絡(luò )狀態(tài),管理員等效于站在高處從多個(gè)維度查看云網(wǎng)絡(luò )的全景,這更便于管理. 同時(shí),您也可以關(guān)注業(yè)務(wù),例如右上角的圖,轉到某個(gè)VPC網(wǎng)絡(luò ),觀(guān)察數據中有多少個(gè)網(wǎng)絡(luò )組件,并根據每個(gè)點(diǎn)查看相應的網(wǎng)絡(luò )信息. 和線(xiàn).
  我們還對采集技術(shù)的安全性和可靠性進(jìn)行了許多優(yōu)化. 首先,DeepFlow采集器支持500個(gè)節點(diǎn)以覆蓋大多數數據中心.
  第二個(gè)是高性能,單個(gè)采集點(diǎn)支持10G流量采集. 安全可靠. 特殊閾值用于控制CPU,內存和網(wǎng)絡(luò )資源的消耗,因此不會(huì )影響生產(chǎn)網(wǎng)絡(luò ). 當發(fā)生遷移時(shí),我們的策略也可以及時(shí)更新,而不會(huì )中斷采集到的流量.
  簡(jiǎn)而言之,Spruce DeepFlow采集的虛擬網(wǎng)絡(luò )流量使我們能夠查看虛擬網(wǎng)絡(luò )上正在發(fā)生的事情,涵蓋管理盲點(diǎn). 一旦發(fā)生故障,我們可以快速定位,同時(shí),我們可以快速推斷出問(wèn)題的根本原因,并提高操作和維護效率. 其次,采集虛擬網(wǎng)絡(luò )流量后,您不僅可以自己對其進(jìn)行分析,還可以將其分發(fā)給第三方工具,以幫助數據審核滿(mǎn)足安全合規性要求. 第三,從運營(yíng)商的角度來(lái)看整個(gè)云網(wǎng)絡(luò ).
  ▌應用實(shí)踐
  我想再告訴您兩個(gè)DeepFlow數據中心虛擬網(wǎng)絡(luò )流量采集,分析和分發(fā)的示例. 首先是故障定位事件. 使用DeepFlow回溯分析功能可以輕松找到問(wèn)題的根本原因. 怎么做?將事件發(fā)生時(shí)的虛擬網(wǎng)絡(luò )流量與正常時(shí)間的虛擬網(wǎng)絡(luò )流量進(jìn)行比較,結果發(fā)現存在明顯的異常網(wǎng)絡(luò )指示,大量網(wǎng)絡(luò )數據包,非常大的網(wǎng)絡(luò )延遲等. 導致異?,F象的原因是誰(shuí)?
  
  通過(guò)Spruce DeepFlow的細粒度采集功能,發(fā)現數據庫將大量流量發(fā)送到某個(gè)IP地址. 看到這種現象后,立即采取回測措施. 回測意味著(zhù)這種異?,F象是過(guò)去偶然發(fā)生的. 它是經(jīng)常發(fā)生還是定期發(fā)生?經(jīng)過(guò)這一系列步驟之后,我們最終得出結論,為什么數據庫不斷發(fā)送數據,實(shí)際上是因為最近已安裝了新的數據庫備份系統,但是當配置了該策略時(shí),時(shí)間參數是錯誤的,通常是一天時(shí)間備份,由于時(shí)間錯誤,導致每小時(shí)備份一次,因此數據庫連續發(fā)送出去,數據庫信息不斷備份,占用了實(shí)際的生產(chǎn)資源,最終導致運行緩慢的現象業(yè)務(wù).
  在其他情況下,我看到了一些有趣的問(wèn)題. 有時(shí),負載平衡配置不正確,這會(huì )導致背面的資源不平衡. 服務(wù)器可能有很多虛擬機流量,而其他服務(wù)器則是免費的. 或將數據設置為由特定服務(wù)器處理,但是由于負載平衡配置錯誤,固定流量將被散列.
  
  在討論第二個(gè)示例之前,請回顧一下安全部門(mén)剛才向網(wǎng)絡(luò )部門(mén)提出的要求,以導出虛擬機的流量以進(jìn)行安全審核和分析. 實(shí)際上,此問(wèn)題可以在部署DeepFlow之后輕松地采集虛擬網(wǎng)絡(luò )流量,并將其同時(shí)分發(fā)到兩個(gè)后端分析工具資源池. 為什么我們兩個(gè)?實(shí)際上,它可以用作備份,因為數據對于安全,審計和分析部門(mén)非常重要.
  ▌?wù)?br />   
  DeepFlow擁有專(zhuān)利的虛擬流采集技術(shù)具有大規模,零干擾,無(wú)依賴(lài)性,過(guò)載保護和預處理的優(yōu)點(diǎn). 支持VMware和OpenStack平臺,沒(méi)有版本依賴(lài)性. 一個(gè)控制器可以管理500個(gè)采集點(diǎn),而無(wú)需在生產(chǎn)網(wǎng)絡(luò )的虛擬交換機上進(jìn)行其他策略配置. 它支持數據包的重復數據刪除,過(guò)濾和截斷等操作,并支持用戶(hù)配置采集器的資源使用情況,以確保生產(chǎn)環(huán)境的穩定性.
  
  云山網(wǎng)絡(luò )已經(jīng)對SDN云網(wǎng)絡(luò )進(jìn)行了相應的研究和應用,并在過(guò)去十年中得到了資本和客戶(hù)的認可. 目前,Spruce Network的融資額超過(guò)1億美元,并且有許多成功的財富500強客戶(hù)案例. 它已部署在金融,電信,電力和教育行業(yè)的近100家企業(yè)中,其中包括平安科技,工業(yè)數字金融,甜橙金融,中國移動(dòng),國家電網(wǎng),蘇州國家科學(xué)數據中心以及其他基準客戶(hù). 成為企業(yè)云數據中心網(wǎng)絡(luò )穩定高效運行的典范.
  
 ??! !福利! !下載“金融云業(yè)務(wù)網(wǎng)絡(luò )的智能采集和集成分析”的語(yǔ)音PPT,可以通過(guò)在微信背景中回復“語(yǔ)音PPT”獲得.
  ◆◆◆
  相關(guān)閱讀 查看全部

  大家好,讓我先自我介紹. 我是云山網(wǎng)絡(luò )公司的吳玉華. 今天,我想與您分享有關(guān)金融云業(yè)務(wù)網(wǎng)絡(luò )的采集,分析和分發(fā)的實(shí)用故事. 在開(kāi)始討論之前,我想與您討論一個(gè)問(wèn)題: 為什么我們需要采集虛擬網(wǎng)絡(luò )流量.
  ▌為什么要談?wù)撎摂M網(wǎng)絡(luò )采集
  云山網(wǎng)絡(luò )從2008年開(kāi)始做SDN. 它已經(jīng)探索了十年. 在云計算和云網(wǎng)絡(luò )中,我們已經(jīng)進(jìn)行了研究和實(shí)踐. 在此期間,我們看到了兩個(gè)明顯的網(wǎng)絡(luò )變化. 第一: 網(wǎng)絡(luò )流量模式的變化. 過(guò)去,該網(wǎng)絡(luò )是具有南北向流量的煙囪架構. 現在,它已成為東西向交通. 據統計,數據中心網(wǎng)絡(luò )中約80%的流量是東西向流量. 可以看出,東西方交通已成為主要交通方式.
  
  第二個(gè): 網(wǎng)絡(luò )與企業(yè)脫節. 為什么這么說(shuō)并不是說(shuō)網(wǎng)絡(luò )不再能夠滿(mǎn)足業(yè)務(wù)需求,而是網(wǎng)絡(luò )與業(yè)務(wù)之間的關(guān)系越來(lái)越遠. 那是什么意思?例如,在舊的傳統網(wǎng)絡(luò )中,我們可以從網(wǎng)絡(luò )中提取流量,然后通過(guò)協(xié)議可以大致了解應用程序. 但是現在,由于存在一個(gè)底層網(wǎng)絡(luò )和一個(gè)覆蓋網(wǎng)絡(luò ),因此我們遵循舊方法,并從提取的流量中看到了VXLAN封裝和數據包. 即使解開(kāi)封裝,里面也有重復的IP.
  因此,實(shí)際上很難發(fā)現當今云網(wǎng)絡(luò )中運行的服務(wù)類(lèi)型,因此該網(wǎng)絡(luò )逐漸被邊緣化. 在這種發(fā)展趨勢下,日常網(wǎng)絡(luò )使用以及運維將面臨哪些挑戰?接下來(lái),我將分享兩個(gè)典型示例.
  每天發(fā)生的事件: 業(yè)務(wù)部門(mén)報告業(yè)務(wù)應用程序響應速度慢,并且網(wǎng)絡(luò )存在問(wèn)題,但是網(wǎng)絡(luò )部門(mén)認為網(wǎng)絡(luò )沒(méi)有問(wèn)題. 當然,業(yè)務(wù)部門(mén)不會(huì )批準它. 在那之后,有無(wú)休止的辯論,但是問(wèn)題仍然沒(méi)有解決之道,那么問(wèn)題出在哪里?
  讓我們看一下網(wǎng)絡(luò )的橫截面. 對于網(wǎng)絡(luò )部門(mén)來(lái)說(shuō),他們的視野是在底層網(wǎng)絡(luò )中. 他們看到了交換機和鏈接,但是業(yè)務(wù)專(zhuān)注于虛擬機中的應用程序,因此這里存在一個(gè)很大的管理盲點(diǎn),包括OVS,VGW,VFW和VLB. 這些都是非常重要的網(wǎng)絡(luò )節點(diǎn). 如果看不到內部網(wǎng)絡(luò )狀態(tài),如何找到問(wèn)題根源?或確定報告是否是網(wǎng)絡(luò )問(wèn)題. 此事件提醒我們,這是清楚了解虛擬網(wǎng)絡(luò )中正在發(fā)生的事情的關(guān)鍵.
  第二個(gè)例子發(fā)生在一家著(zhù)名的證券公司. 眾所周知,證券行業(yè)具有一系列安全要求,例如證券和證券監管. 因此,安全部門(mén)對網(wǎng)絡(luò )部門(mén)提出了一個(gè)要求: 核心業(yè)務(wù)系統中關(guān)鍵業(yè)務(wù)組件的網(wǎng)絡(luò )流量被導出以進(jìn)行安全分析,數據審核等.
  接下來(lái),為了滿(mǎn)足這一需求,網(wǎng)絡(luò )部門(mén)制定了一個(gè)計劃,通過(guò)流表來(lái)鏡像虛擬網(wǎng)絡(luò ). 但是,在POC過(guò)程中,結果并不理想. 流鏡像與流表混合在一起,編排非常復雜. 此外,在遷移虛擬機時(shí),無(wú)法自動(dòng)更新鏡像策略,無(wú)法實(shí)施最終解決方案,需求也就消失了.
  后來(lái),發(fā)生了更嚴重的事情. 該公司發(fā)生了事故,導致用戶(hù)信息泄漏. 這種事件可謂是證券業(yè)的重大失敗. 此時(shí),安全部門(mén)必須負責. 同時(shí),網(wǎng)絡(luò )部門(mén)不滿(mǎn)意. 安全部門(mén)的需求,網(wǎng)絡(luò )部門(mén)和安全部門(mén)都負責整個(gè)事件.
  
  結合以上兩個(gè)示例,不難看出在云網(wǎng)絡(luò )中,業(yè)務(wù)網(wǎng)絡(luò )的采集,分析和分發(fā)已成為云網(wǎng)絡(luò )構建的標準配置,如果要采集虛擬網(wǎng)絡(luò )流量,所有的采集方法和解決方案都必須安全可靠,而且不影響生產(chǎn).
  ▌?dòng)媱澓蛢r(jià)值
  
  如何解決上述問(wèn)題,是云山DeepFlow數據中心虛擬網(wǎng)絡(luò )流量采集分析平臺(以下簡(jiǎn)稱(chēng)DeepFlow)所能做的. 這張照片是最左邊的采集部分. 我們知道目前的業(yè)務(wù)范圍非常廣泛. 它可能涉及私有云和公共云. 云杉DeepFlow同時(shí)涵蓋了這些環(huán)境. 通過(guò)部署DeepFlow,您可以幫助您查看所有業(yè)務(wù). 對于所有VPC網(wǎng)絡(luò )狀態(tài),管理員等效于站在高處從多個(gè)維度查看云網(wǎng)絡(luò )的全景,這更便于管理. 同時(shí),您也可以關(guān)注業(yè)務(wù),例如右上角的圖,轉到某個(gè)VPC網(wǎng)絡(luò ),觀(guān)察數據中有多少個(gè)網(wǎng)絡(luò )組件,并根據每個(gè)點(diǎn)查看相應的網(wǎng)絡(luò )信息. 和線(xiàn).
  我們還對采集技術(shù)的安全性和可靠性進(jìn)行了許多優(yōu)化. 首先,DeepFlow采集器支持500個(gè)節點(diǎn)以覆蓋大多數數據中心.
  第二個(gè)是高性能,單個(gè)采集點(diǎn)支持10G流量采集. 安全可靠. 特殊閾值用于控制CPU,內存和網(wǎng)絡(luò )資源的消耗,因此不會(huì )影響生產(chǎn)網(wǎng)絡(luò ). 當發(fā)生遷移時(shí),我們的策略也可以及時(shí)更新,而不會(huì )中斷采集到的流量.
  簡(jiǎn)而言之,Spruce DeepFlow采集的虛擬網(wǎng)絡(luò )流量使我們能夠查看虛擬網(wǎng)絡(luò )上正在發(fā)生的事情,涵蓋管理盲點(diǎn). 一旦發(fā)生故障,我們可以快速定位,同時(shí),我們可以快速推斷出問(wèn)題的根本原因,并提高操作和維護效率. 其次,采集虛擬網(wǎng)絡(luò )流量后,您不僅可以自己對其進(jìn)行分析,還可以將其分發(fā)給第三方工具,以幫助數據審核滿(mǎn)足安全合規性要求. 第三,從運營(yíng)商的角度來(lái)看整個(gè)云網(wǎng)絡(luò ).
  ▌應用實(shí)踐
  我想再告訴您兩個(gè)DeepFlow數據中心虛擬網(wǎng)絡(luò )流量采集,分析和分發(fā)的示例. 首先是故障定位事件. 使用DeepFlow回溯分析功能可以輕松找到問(wèn)題的根本原因. 怎么做?將事件發(fā)生時(shí)的虛擬網(wǎng)絡(luò )流量與正常時(shí)間的虛擬網(wǎng)絡(luò )流量進(jìn)行比較,結果發(fā)現存在明顯的異常網(wǎng)絡(luò )指示,大量網(wǎng)絡(luò )數據包,非常大的網(wǎng)絡(luò )延遲等. 導致異?,F象的原因是誰(shuí)?
  
  通過(guò)Spruce DeepFlow的細粒度采集功能,發(fā)現數據庫將大量流量發(fā)送到某個(gè)IP地址. 看到這種現象后,立即采取回測措施. 回測意味著(zhù)這種異?,F象是過(guò)去偶然發(fā)生的. 它是經(jīng)常發(fā)生還是定期發(fā)生?經(jīng)過(guò)這一系列步驟之后,我們最終得出結論,為什么數據庫不斷發(fā)送數據,實(shí)際上是因為最近已安裝了新的數據庫備份系統,但是當配置了該策略時(shí),時(shí)間參數是錯誤的,通常是一天時(shí)間備份,由于時(shí)間錯誤,導致每小時(shí)備份一次,因此數據庫連續發(fā)送出去,數據庫信息不斷備份,占用了實(shí)際的生產(chǎn)資源,最終導致運行緩慢的現象業(yè)務(wù).
  在其他情況下,我看到了一些有趣的問(wèn)題. 有時(shí),負載平衡配置不正確,這會(huì )導致背面的資源不平衡. 服務(wù)器可能有很多虛擬機流量,而其他服務(wù)器則是免費的. 或將數據設置為由特定服務(wù)器處理,但是由于負載平衡配置錯誤,固定流量將被散列.
  
  在討論第二個(gè)示例之前,請回顧一下安全部門(mén)剛才向網(wǎng)絡(luò )部門(mén)提出的要求,以導出虛擬機的流量以進(jìn)行安全審核和分析. 實(shí)際上,此問(wèn)題可以在部署DeepFlow之后輕松地采集虛擬網(wǎng)絡(luò )流量,并將其同時(shí)分發(fā)到兩個(gè)后端分析工具資源池. 為什么我們兩個(gè)?實(shí)際上,它可以用作備份,因為數據對于安全,審計和分析部門(mén)非常重要.
  ▌?wù)?br />   
  DeepFlow擁有專(zhuān)利的虛擬流采集技術(shù)具有大規模,零干擾,無(wú)依賴(lài)性,過(guò)載保護和預處理的優(yōu)點(diǎn). 支持VMware和OpenStack平臺,沒(méi)有版本依賴(lài)性. 一個(gè)控制器可以管理500個(gè)采集點(diǎn),而無(wú)需在生產(chǎn)網(wǎng)絡(luò )的虛擬交換機上進(jìn)行其他策略配置. 它支持數據包的重復數據刪除,過(guò)濾和截斷等操作,并支持用戶(hù)配置采集器的資源使用情況,以確保生產(chǎn)環(huán)境的穩定性.
  
  云山網(wǎng)絡(luò )已經(jīng)對SDN云網(wǎng)絡(luò )進(jìn)行了相應的研究和應用,并在過(guò)去十年中得到了資本和客戶(hù)的認可. 目前,Spruce Network的融資額超過(guò)1億美元,并且有許多成功的財富500強客戶(hù)案例. 它已部署在金融,電信,電力和教育行業(yè)的近100家企業(yè)中,其中包括平安科技,工業(yè)數字金融,甜橙金融,中國移動(dòng),國家電網(wǎng),蘇州國家科學(xué)數據中心以及其他基準客戶(hù). 成為企業(yè)云數據中心網(wǎng)絡(luò )穩定高效運行的典范.
  
 ??! !福利! !下載“金融云業(yè)務(wù)網(wǎng)絡(luò )的智能采集和集成分析”的語(yǔ)音PPT,可以通過(guò)在微信背景中回復“語(yǔ)音PPT”獲得.
  ◆◆◆
  相關(guān)閱讀

AI文章智能處理軟件版本

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 212 次瀏覽 ? 2020-08-06 09:11 ? 來(lái)自相關(guān)話(huà)題

  AI文章智能處理軟件提供了20多種功能來(lái)幫助用戶(hù)處理文章. 您可以直接在軟件界面中修改文章,檢測修改后文章的原創(chuàng )性,并可以翻譯復制的英語(yǔ)內容和文章內容. Acquisition允許軟件自動(dòng)編輯詩(shī)歌和散文. 有許多內置功能. 打開(kāi)軟件,您可以查看所有功能,以便用戶(hù)在處理文章時(shí)可以獲得更多操作. 該軟件仍然非常易于使用. 多數功能一鍵即可使用,沒(méi)有復雜的設置內容,需要注意的是用戶(hù)需要登錄官方注冊帳戶(hù)!
  
  軟件功能
  1. 人工智能寫(xiě)詩(shī)
  使用AI技術(shù)讓機器學(xué)習很多詩(shī)歌寫(xiě)作技巧,然后根據用戶(hù)輸入的指導句子創(chuàng )建原創(chuàng )詩(shī)歌
  2,人工智能寫(xiě)散文
  允許機器通過(guò)AI技術(shù)學(xué)習很多散文寫(xiě)作技巧,然后根據用戶(hù)輸入的指導句子創(chuàng )建原創(chuàng )散文
  3. 文章采集
  常規文章采集: 自己編寫(xiě)采集規則,采集指定的文章,采集穩定且不會(huì )卡住,支持獲取和發(fā)布采集,編寫(xiě)規則簡(jiǎn)單易操作.
  4. 一鍵式采集(無(wú)需編寫(xiě)規則即可采集文章)
  門(mén)戶(hù)新聞: 支持搜狐新聞,騰訊新聞,新浪新聞,鳳凰新聞和網(wǎng)易新聞的一鍵式采集.
  5. 文章組合
  材料智能組合: 通過(guò)提供不同的文章材料,該軟件提取核心內容,然后根據內容將其組合為文章.
  6. 原創(chuàng )性?xún)?yōu)化(用于處理以提高文章的原創(chuàng )性)
  批次獨創(chuàng )性?xún)?yōu)化: 批量改進(jìn)文章獨創(chuàng )性操作.
  7. 流量點(diǎn)擊優(yōu)化
  通過(guò)模擬手動(dòng)搜索和查看流量不同的網(wǎng)站,模擬真實(shí)流量以?xún)?yōu)化網(wǎng)站排名.
  軟件功能
  1. AI文章智能處理軟件具有豐富的功能,可幫助用戶(hù)快速處理其文章
  2,您可以在軟件中編輯文章,可以在軟件中快速修改文章
  3. 支持文章比較,檢查導入文章是否有差異
  4. 支持和比較Internet上的文章,以分析當前文章是否重復
  5. 支持網(wǎng)站優(yōu)化,可以增加您的網(wǎng)站流量
  6. 支持文字統計,將文章粘貼到軟件中即可立即對字數進(jìn)行計數
  7. 您還可以查看網(wǎng)站排名,還可以查詢(xún)文章排名
  8,您可以快速編輯散文,可以快速編輯詩(shī)歌
  使用說(shuō)明
  1. 雙擊aiV2.2.exe進(jìn)行安裝,安裝完成后,打開(kāi)AI文章智能處理軟件.exe
  
  2. 提示登錄,在軟件界面中輸入您的帳戶(hù)登錄
  
  3. 顯然,我沒(méi)有該軟件的帳戶(hù),因此無(wú)法登錄. 您可以轉到官方網(wǎng)站獲取帳戶(hù)
  
  4. 進(jìn)入官方網(wǎng)站,點(diǎn)擊右上角進(jìn)入注冊界面. 編輯者訪(fǎng)問(wèn)時(shí),提示“抱歉,該站點(diǎn)當前禁止新用戶(hù)注冊”
  
  5. 非年度版本將具有一些功能限制,例如“ AI Write Poetry”和“ AI Write Prose”. 非年度版本的用戶(hù)每天只能生成100篇文章.
  
  6. 如果您可以輸入軟件,則顯示的界面是這樣的,您可以在軟件中找到所需的功能
  
  7. 收錄查詢(xún)功能,查詢(xún)您在軟件界面中收錄的內容
  
  8. 圖片下載功能,在軟件界面下載所需圖片,搜索后下載
  
  9. 源代碼查看功能,在軟件界面中查看采集的源代碼內容,并輸入地址以采集源代碼
  
  10. 文本統計功能,在軟件底部顯示當前文本數,您可以檢查輸入了多少個(gè)單詞
  
  11. 熱門(mén)詞查看功能,您可以在軟件界面中查看百度搜索詞并查看360個(gè)熱門(mén)詞
  
  12. 文本加密功能,如果需要對編輯的文本進(jìn)行加密,可以在此處進(jìn)行操作,輸入密碼以獲取密文
  
  13. 文字轉碼功能,如果需要轉換文字編碼,可以在這里操作
  
  14. 支持優(yōu)化功能,可以在軟件界面中優(yōu)化網(wǎng)站,可以選擇優(yōu)化關(guān)鍵字
  
  15. 在此處顯示與優(yōu)化相關(guān)的設置,您可以選擇瀏覽器優(yōu)化,可以選擇搜索引擎優(yōu)化
  
  16. 也可以在軟件界面上查看百度的推送功能,輸入地址并單擊以開(kāi)始提交
  
  17. 關(guān)鍵字查看功能,在軟件中輸入關(guān)鍵字即可立即顯示排名
  
  18. 網(wǎng)站排名功能,如果需要了解網(wǎng)站的排名,可以在軟件界面中輸入
  
  19. 發(fā)布功能,您可以在軟件界面中設置文章的自動(dòng)更新方法,并在軟件下設置發(fā)布時(shí)間
  
  20. 發(fā)布文章的基本設置功能,在軟件中檢查網(wǎng)站地址,并在底部檢查需要發(fā)布的內容
  
  21. 摘要提取功能,將文章復制到軟件中以立即對其進(jìn)行提取,然后軟件會(huì )自動(dòng)識別摘要內容
  
  22. 原創(chuàng )檢測功能,如果需要分析當前復制的文章是否為原創(chuàng ),可以在軟件界面中找到
  
  23. 分析之后,您可以選擇導出HTML或TXT
  
  24. 單一文章檢測功能,您可以通過(guò)在軟件界面中輸入文章內容立即分析文章內容是否與在線(xiàn)內容重復
  
  25. AI文章智能處理軟件具有非常強大的功能. 我不會(huì )在這里介紹. 如果需要,請下載! 查看全部

  AI文章智能處理軟件提供了20多種功能來(lái)幫助用戶(hù)處理文章. 您可以直接在軟件界面中修改文章,檢測修改后文章的原創(chuàng )性,并可以翻譯復制的英語(yǔ)內容和文章內容. Acquisition允許軟件自動(dòng)編輯詩(shī)歌和散文. 有許多內置功能. 打開(kāi)軟件,您可以查看所有功能,以便用戶(hù)在處理文章時(shí)可以獲得更多操作. 該軟件仍然非常易于使用. 多數功能一鍵即可使用,沒(méi)有復雜的設置內容,需要注意的是用戶(hù)需要登錄官方注冊帳戶(hù)!
  
  軟件功能
  1. 人工智能寫(xiě)詩(shī)
  使用AI技術(shù)讓機器學(xué)習很多詩(shī)歌寫(xiě)作技巧,然后根據用戶(hù)輸入的指導句子創(chuàng )建原創(chuàng )詩(shī)歌
  2,人工智能寫(xiě)散文
  允許機器通過(guò)AI技術(shù)學(xué)習很多散文寫(xiě)作技巧,然后根據用戶(hù)輸入的指導句子創(chuàng )建原創(chuàng )散文
  3. 文章采集
  常規文章采集: 自己編寫(xiě)采集規則,采集指定的文章,采集穩定且不會(huì )卡住,支持獲取和發(fā)布采集,編寫(xiě)規則簡(jiǎn)單易操作.
  4. 一鍵式采集(無(wú)需編寫(xiě)規則即可采集文章)
  門(mén)戶(hù)新聞: 支持搜狐新聞,騰訊新聞,新浪新聞,鳳凰新聞和網(wǎng)易新聞的一鍵式采集.
  5. 文章組合
  材料智能組合: 通過(guò)提供不同的文章材料,該軟件提取核心內容,然后根據內容將其組合為文章.
  6. 原創(chuàng )性?xún)?yōu)化(用于處理以提高文章的原創(chuàng )性)
  批次獨創(chuàng )性?xún)?yōu)化: 批量改進(jìn)文章獨創(chuàng )性操作.
  7. 流量點(diǎn)擊優(yōu)化
  通過(guò)模擬手動(dòng)搜索和查看流量不同的網(wǎng)站,模擬真實(shí)流量以?xún)?yōu)化網(wǎng)站排名.
  軟件功能
  1. AI文章智能處理軟件具有豐富的功能,可幫助用戶(hù)快速處理其文章
  2,您可以在軟件中編輯文章,可以在軟件中快速修改文章
  3. 支持文章比較,檢查導入文章是否有差異
  4. 支持和比較Internet上的文章,以分析當前文章是否重復
  5. 支持網(wǎng)站優(yōu)化,可以增加您的網(wǎng)站流量
  6. 支持文字統計,將文章粘貼到軟件中即可立即對字數進(jìn)行計數
  7. 您還可以查看網(wǎng)站排名,還可以查詢(xún)文章排名
  8,您可以快速編輯散文,可以快速編輯詩(shī)歌
  使用說(shuō)明
  1. 雙擊aiV2.2.exe進(jìn)行安裝,安裝完成后,打開(kāi)AI文章智能處理軟件.exe
  
  2. 提示登錄,在軟件界面中輸入您的帳戶(hù)登錄
  
  3. 顯然,我沒(méi)有該軟件的帳戶(hù),因此無(wú)法登錄. 您可以轉到官方網(wǎng)站獲取帳戶(hù)
  
  4. 進(jìn)入官方網(wǎng)站,點(diǎn)擊右上角進(jìn)入注冊界面. 編輯者訪(fǎng)問(wèn)時(shí),提示“抱歉,該站點(diǎn)當前禁止新用戶(hù)注冊”
  
  5. 非年度版本將具有一些功能限制,例如“ AI Write Poetry”和“ AI Write Prose”. 非年度版本的用戶(hù)每天只能生成100篇文章.
  
  6. 如果您可以輸入軟件,則顯示的界面是這樣的,您可以在軟件中找到所需的功能
  
  7. 收錄查詢(xún)功能,查詢(xún)您在軟件界面中收錄的內容
  
  8. 圖片下載功能,在軟件界面下載所需圖片,搜索后下載
  
  9. 源代碼查看功能,在軟件界面中查看采集的源代碼內容,并輸入地址以采集源代碼
  
  10. 文本統計功能,在軟件底部顯示當前文本數,您可以檢查輸入了多少個(gè)單詞
  
  11. 熱門(mén)詞查看功能,您可以在軟件界面中查看百度搜索詞并查看360個(gè)熱門(mén)詞
  
  12. 文本加密功能,如果需要對編輯的文本進(jìn)行加密,可以在此處進(jìn)行操作,輸入密碼以獲取密文
  
  13. 文字轉碼功能,如果需要轉換文字編碼,可以在這里操作
  
  14. 支持優(yōu)化功能,可以在軟件界面中優(yōu)化網(wǎng)站,可以選擇優(yōu)化關(guān)鍵字
  
  15. 在此處顯示與優(yōu)化相關(guān)的設置,您可以選擇瀏覽器優(yōu)化,可以選擇搜索引擎優(yōu)化
  
  16. 也可以在軟件界面上查看百度的推送功能,輸入地址并單擊以開(kāi)始提交
  
  17. 關(guān)鍵字查看功能,在軟件中輸入關(guān)鍵字即可立即顯示排名
  
  18. 網(wǎng)站排名功能,如果需要了解網(wǎng)站的排名,可以在軟件界面中輸入
  
  19. 發(fā)布功能,您可以在軟件界面中設置文章的自動(dòng)更新方法,并在軟件下設置發(fā)布時(shí)間
  
  20. 發(fā)布文章的基本設置功能,在軟件中檢查網(wǎng)站地址,并在底部檢查需要發(fā)布的內容
  
  21. 摘要提取功能,將文章復制到軟件中以立即對其進(jìn)行提取,然后軟件會(huì )自動(dòng)識別摘要內容
  
  22. 原創(chuàng )檢測功能,如果需要分析當前復制的文章是否為原創(chuàng ),可以在軟件界面中找到
  
  23. 分析之后,您可以選擇導出HTML或TXT
  
  24. 單一文章檢測功能,您可以通過(guò)在軟件界面中輸入文章內容立即分析文章內容是否與在線(xiàn)內容重復
  
  25. AI文章智能處理軟件具有非常強大的功能. 我不會(huì )在這里介紹. 如果需要,請下載!

我們如何談?wù)撝悄苤圃欤?/a>

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 209 次瀏覽 ? 2020-08-05 23:04 ? 來(lái)自相關(guān)話(huà)題

  無(wú)論是轉向智能制造還是使用優(yōu)化生產(chǎn)過(guò)程的MES系統,都需要一個(gè)主要前提,即,需要采集工業(yè)設備的數據,然后才能在下次使用和分析數據之前步驟.
  根據不完全統計,制造業(yè)的信息孤島被打破了. 至少有60-70%的信息孤島存在于離散行業(yè)中,而在連續的平滑行業(yè)中,信息孤島現象約占50%. 從這個(gè)角度來(lái)看,可以修改和利用的數據采集和傳輸空間確實(shí)太大了,我們無(wú)法想象. 當然,肯定會(huì )有很多制造人員抱怨: “我們都知道數據采集的重要性,并且還在用你的話(huà)說(shuō)嗎?但是問(wèn)題在于如何采集數據,我們無(wú)從下手. ”
  這是我今天要談?wù)摰膯?wèn)題,如何采集和傳輸數據. 問(wèn)題在于,許多國內工廠(chǎng)使用的生產(chǎn)設備要么設備比較舊,要么多個(gè)供應商使用的設備沒(méi)有標準的統一接口,而且多個(gè)設備使用的系統也大不相同. 這樣,關(guān)于數據的采集就更加困難. 統一轉換后,能否使用統一的行業(yè)數據標準對獲取的標準數據進(jìn)行處理?這些問(wèn)題使我們感到困擾. 實(shí)際上,國外的制造商也遇到了麻煩,因此在這里我們不得不提及這樣一個(gè)國際組織-OPC基金會(huì ). 我們對中國的這個(gè)組織有點(diǎn)陌生,但國外長(cháng)期以來(lái)一直積極支持這種組織. OPC基金會(huì )有220多個(gè)國際成員. 它的成員遍布世界各地,包括世界上所有主要的自動(dòng)化控制系統,儀器和過(guò)程控制系統公司. 這種組織的真正誕生在于對OPC標準的管理(用于過(guò)程控制的OLE,用于過(guò)程控制的OLE是統一的工業(yè)交互性標準). OPC包括用于過(guò)程控制和制造自動(dòng)化系統的一組標準接口,屬性和方法. OPC可以理解為一種平臺技術(shù),因此無(wú)論客戶(hù)端是誰(shuí),只要客戶(hù)端的軟件程序可以理解OPC,就可以順利地從設備中采集和傳輸數據.
  為什么選擇OPC UA?
  德國工業(yè)4.0,美國工業(yè)互聯(lián)網(wǎng)到中國的智能制造,政府已正式推薦將OPC協(xié)議作為統一的工業(yè)交互標準. 在成功應用OPC Classic之后,OPC基金會(huì )于2008年發(fā)布了OPC統一體系結構(UA)統一體系結構. OPCUA涵蓋了OPC實(shí)時(shí)數據訪(fǎng)問(wèn)規范(OPC DA),OPC歷史數據訪(fǎng)問(wèn)規范(OPC HDA),在OPC警報事件訪(fǎng)問(wèn)規范(OPC A&E)和OPC安全協(xié)議(OPC Security)的不同方面,OPC UA將每個(gè)OPC Classic規范的所有功能集成到一個(gè)可擴展的框架中,該框架是獨立于平臺且面向服務(wù)的. 在當前市場(chǎng)中,除了主流自動(dòng)化供應商之外,微軟,華為和思科等IT領(lǐng)域都已成為OPC UA的積極支持者,那么為什么每個(gè)人都選擇OPC UA?首先,OPC UA解決了不同系統之間的語(yǔ)義互操作,OPC UA是獨立的國際標準. 它可以建立一定的信息模型,即插即用,并且具有強大的安全保護,因此這種技術(shù)無(wú)疑是選擇的充分理由.
  以下圖片更清楚,更全面地說(shuō)明了選擇的原因:
  
  由于市場(chǎng)上有太多有關(guān)OPC技術(shù)的軟件提供商,我只想提及Matrikon,他是在OPC技術(shù)上取得了巨大成就的ace制造商. 該制造商基本上是OPC. 該基金會(huì )同時(shí)成立,并且也是該基金會(huì )中最強大的成員. 其產(chǎn)品擁有60%的市場(chǎng)份額. 這個(gè)數字也相當驚人(幾乎是壟斷). 他們的Matrikon OPC UA現在是王牌的主要產(chǎn)品. 為了避免懷疑廣告,每個(gè)人都想最大程度地了解OPC UA或OPC的技術(shù)細節,例如技術(shù)架構和相關(guān)產(chǎn)品,請自行單擊以下鏈接: / product / 4056
  到目前為止,超過(guò)4,200個(gè)供應商已經(jīng)在超過(guò)1,700萬(wàn)個(gè)應用領(lǐng)域中生產(chǎn)了35,000多種不同類(lèi)型的OPC產(chǎn)品,僅在工程資源上就節省了數十億美元. 因此,如果您真的想實(shí)現智能制造,則應從工業(yè)數據采集和傳輸開(kāi)始. 認為OPC技術(shù)為我們提供了最方便,最全面的技術(shù)支持,對工業(yè)制造的優(yōu)化和改造確實(shí)是一項偉大的壯舉. 查看全部

  無(wú)論是轉向智能制造還是使用優(yōu)化生產(chǎn)過(guò)程的MES系統,都需要一個(gè)主要前提,即,需要采集工業(yè)設備的數據,然后才能在下次使用和分析數據之前步驟.
  根據不完全統計,制造業(yè)的信息孤島被打破了. 至少有60-70%的信息孤島存在于離散行業(yè)中,而在連續的平滑行業(yè)中,信息孤島現象約占50%. 從這個(gè)角度來(lái)看,可以修改和利用的數據采集和傳輸空間確實(shí)太大了,我們無(wú)法想象. 當然,肯定會(huì )有很多制造人員抱怨: “我們都知道數據采集的重要性,并且還在用你的話(huà)說(shuō)嗎?但是問(wèn)題在于如何采集數據,我們無(wú)從下手. ”
  這是我今天要談?wù)摰膯?wèn)題,如何采集和傳輸數據. 問(wèn)題在于,許多國內工廠(chǎng)使用的生產(chǎn)設備要么設備比較舊,要么多個(gè)供應商使用的設備沒(méi)有標準的統一接口,而且多個(gè)設備使用的系統也大不相同. 這樣,關(guān)于數據的采集就更加困難. 統一轉換后,能否使用統一的行業(yè)數據標準對獲取的標準數據進(jìn)行處理?這些問(wèn)題使我們感到困擾. 實(shí)際上,國外的制造商也遇到了麻煩,因此在這里我們不得不提及這樣一個(gè)國際組織-OPC基金會(huì ). 我們對中國的這個(gè)組織有點(diǎn)陌生,但國外長(cháng)期以來(lái)一直積極支持這種組織. OPC基金會(huì )有220多個(gè)國際成員. 它的成員遍布世界各地,包括世界上所有主要的自動(dòng)化控制系統,儀器和過(guò)程控制系統公司. 這種組織的真正誕生在于對OPC標準的管理(用于過(guò)程控制的OLE,用于過(guò)程控制的OLE是統一的工業(yè)交互性標準). OPC包括用于過(guò)程控制和制造自動(dòng)化系統的一組標準接口,屬性和方法. OPC可以理解為一種平臺技術(shù),因此無(wú)論客戶(hù)端是誰(shuí),只要客戶(hù)端的軟件程序可以理解OPC,就可以順利地從設備中采集和傳輸數據.
  為什么選擇OPC UA?
  德國工業(yè)4.0,美國工業(yè)互聯(lián)網(wǎng)到中國的智能制造,政府已正式推薦將OPC協(xié)議作為統一的工業(yè)交互標準. 在成功應用OPC Classic之后,OPC基金會(huì )于2008年發(fā)布了OPC統一體系結構(UA)統一體系結構. OPCUA涵蓋了OPC實(shí)時(shí)數據訪(fǎng)問(wèn)規范(OPC DA),OPC歷史數據訪(fǎng)問(wèn)規范(OPC HDA),在OPC警報事件訪(fǎng)問(wèn)規范(OPC A&E)和OPC安全協(xié)議(OPC Security)的不同方面,OPC UA將每個(gè)OPC Classic規范的所有功能集成到一個(gè)可擴展的框架中,該框架是獨立于平臺且面向服務(wù)的. 在當前市場(chǎng)中,除了主流自動(dòng)化供應商之外,微軟,華為和思科等IT領(lǐng)域都已成為OPC UA的積極支持者,那么為什么每個(gè)人都選擇OPC UA?首先,OPC UA解決了不同系統之間的語(yǔ)義互操作,OPC UA是獨立的國際標準. 它可以建立一定的信息模型,即插即用,并且具有強大的安全保護,因此這種技術(shù)無(wú)疑是選擇的充分理由.
  以下圖片更清楚,更全面地說(shuō)明了選擇的原因:
  
  由于市場(chǎng)上有太多有關(guān)OPC技術(shù)的軟件提供商,我只想提及Matrikon,他是在OPC技術(shù)上取得了巨大成就的ace制造商. 該制造商基本上是OPC. 該基金會(huì )同時(shí)成立,并且也是該基金會(huì )中最強大的成員. 其產(chǎn)品擁有60%的市場(chǎng)份額. 這個(gè)數字也相當驚人(幾乎是壟斷). 他們的Matrikon OPC UA現在是王牌的主要產(chǎn)品. 為了避免懷疑廣告,每個(gè)人都想最大程度地了解OPC UA或OPC的技術(shù)細節,例如技術(shù)架構和相關(guān)產(chǎn)品,請自行單擊以下鏈接: / product / 4056
  到目前為止,超過(guò)4,200個(gè)供應商已經(jīng)在超過(guò)1,700萬(wàn)個(gè)應用領(lǐng)域中生產(chǎn)了35,000多種不同類(lèi)型的OPC產(chǎn)品,僅在工程資源上就節省了數十億美元. 因此,如果您真的想實(shí)現智能制造,則應從工業(yè)數據采集和傳輸開(kāi)始. 認為OPC技術(shù)為我們提供了最方便,最全面的技術(shù)支持,對工業(yè)制造的優(yōu)化和改造確實(shí)是一項偉大的壯舉.

AI文章智能處理軟件 V2.1 最新版

采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 196 次瀏覽 ? 2020-08-04 19:03 ? 來(lái)自相關(guān)話(huà)題

  AI文章智能處理軟件(文章智能AI組合工具)是一款非常優(yōu)秀好用的文章偽原創(chuàng )輔助工具。這款AI文章智能處理硬件功能強大全面,簡(jiǎn)單易用,使用后可以幫助用戶(hù)輕松的進(jìn)行文章智能AI組合。用戶(hù)可以使用該硬件重新組合文章并將其轉換為新文章,這相當適合媒體用戶(hù)。有必須的同學(xué)快來(lái)下載使用吧!
  主要功能:
  1.智能偽原創(chuàng ):利用人工智能中的自然語(yǔ)言處理技術(shù)實(shí)現文章的偽原創(chuàng )處理。核心功能是“智能偽原創(chuàng )”,“同義替換偽原始”,“反義替換偽原始”,“隨機插入關(guān)鍵詞與html代碼”,“句子重組”等,處理過(guò)的文章既有創(chuàng )意包含率在80%以上。有關(guān)更多功能,請下載軟件試用版。
  2,門(mén)戶(hù)文章集:一鍵搜索集相關(guān)門(mén)戶(hù)新聞文章,該網(wǎng)站有搜狐,騰訊,新浪,網(wǎng)易,今日新聞,新藍,聯(lián)合晚報,光明網(wǎng)站,網(wǎng)站管理員。 com,新文化網(wǎng)路等,用戶(hù)可以輸入行業(yè)關(guān)鍵詞來(lái)搜索所需的行業(yè)文章。該模塊的特征是它不需要編寫(xiě)采集規則跟一鍵操作。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  3,百度新聞采訪(fǎng):一鍵搜索各類(lèi)行業(yè)新聞文章,數據源到百度新聞搜索引擎,資源豐富,操作靈活,不需要寫(xiě)任何收集規則,但缺點(diǎn)是收集文章不一定完整,但可以滿(mǎn)足大多數用戶(hù)的需求。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  4,行業(yè)文章集:一鍵搜索相關(guān)行業(yè)網(wǎng)站文章,網(wǎng)站行業(yè)有裝飾家具產(chǎn)業(yè),機械市場(chǎng),建材產(chǎn)業(yè),家電市場(chǎng),五金產(chǎn)業(yè),美容行業(yè),幼兒行業(yè),金融市場(chǎng),游戲產(chǎn)業(yè), SEO行業(yè),女性健康產(chǎn)業(yè)等。網(wǎng)站上有數十個(gè)網(wǎng)站,資源豐富。此模塊可能難以滿(mǎn)足所有客戶(hù)的需求,但客戶(hù)可以提出請求,我們將改進(jìn)和更新模塊資源。該模塊的特征是它不需要編寫(xiě)采集規則跟一鍵操作。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  5,寫(xiě)規則集合:自己撰寫(xiě)集合規則,集合規則符合通常正則表達式,寫(xiě)集合規則必須知道一些html代碼跟正則表達式規則,如果你有其他商家的書(shū)面收集規則,那么需要我們將編寫(xiě)我們軟件的搜集規則,我們有文檔提供撰寫(xiě)收集的規則。我們不幫客戶(hù)寫(xiě)收集規則,如果必須寫(xiě),10元的收購規則。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  6,外鏈文章材料:該模塊是通過(guò)大量的市場(chǎng)語(yǔ)料庫,通過(guò)算法隨機組合的語(yǔ)料庫制作相關(guān)產(chǎn)業(yè)文章,該模塊文章僅適用于文章質(zhì)量要求不高,為外部鏈促銷(xiāo)用戶(hù),模塊的特性,資源豐富,原創(chuàng )性高,但缺點(diǎn)是文章可讀性差,用戶(hù)在使用時(shí)可以選擇性地使用。
  7.批量生產(chǎn)標題:有兩個(gè)功能,一個(gè)是按關(guān)鍵字和規則組合批量生產(chǎn)標題,二是通過(guò)收集網(wǎng)絡(luò )大數據獲取標題。自動(dòng)生成的促銷(xiāo)準確性很高,捕獲的標題是可讀的,每個(gè)都有特點(diǎn)跟缺點(diǎn)。
  8,文章界面公布:通過(guò)簡(jiǎn)單的配置,生成的文章發(fā)布至您自己的網(wǎng)站。目前支持的網(wǎng)站有,Discuz Portal,DedeCms,Empire ECMS(新聞),PHMCMS,Zibo CMS,PHP168,diypage,phpwind門(mén)戶(hù)。
  9,SEO批量查詢(xún)工具:權重批量查詢(xún),排序批量查詢(xún),包含批量查詢(xún),長(cháng)尾詞挖掘,代碼批量轉換,文本加密和解密。 查看全部

  AI文章智能處理軟件(文章智能AI組合工具)是一款非常優(yōu)秀好用的文章偽原創(chuàng )輔助工具。這款AI文章智能處理硬件功能強大全面,簡(jiǎn)單易用,使用后可以幫助用戶(hù)輕松的進(jìn)行文章智能AI組合。用戶(hù)可以使用該硬件重新組合文章并將其轉換為新文章,這相當適合媒體用戶(hù)。有必須的同學(xué)快來(lái)下載使用吧!
  主要功能:
  1.智能偽原創(chuàng ):利用人工智能中的自然語(yǔ)言處理技術(shù)實(shí)現文章的偽原創(chuàng )處理。核心功能是“智能偽原創(chuàng )”,“同義替換偽原始”,“反義替換偽原始”,“隨機插入關(guān)鍵詞與html代碼”,“句子重組”等,處理過(guò)的文章既有創(chuàng )意包含率在80%以上。有關(guān)更多功能,請下載軟件試用版。
  2,門(mén)戶(hù)文章集:一鍵搜索集相關(guān)門(mén)戶(hù)新聞文章,該網(wǎng)站有搜狐,騰訊,新浪,網(wǎng)易,今日新聞,新藍,聯(lián)合晚報,光明網(wǎng)站,網(wǎng)站管理員。 com,新文化網(wǎng)路等,用戶(hù)可以輸入行業(yè)關(guān)鍵詞來(lái)搜索所需的行業(yè)文章。該模塊的特征是它不需要編寫(xiě)采集規則跟一鍵操作。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  3,百度新聞采訪(fǎng):一鍵搜索各類(lèi)行業(yè)新聞文章,數據源到百度新聞搜索引擎,資源豐富,操作靈活,不需要寫(xiě)任何收集規則,但缺點(diǎn)是收集文章不一定完整,但可以滿(mǎn)足大多數用戶(hù)的需求。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  4,行業(yè)文章集:一鍵搜索相關(guān)行業(yè)網(wǎng)站文章,網(wǎng)站行業(yè)有裝飾家具產(chǎn)業(yè),機械市場(chǎng),建材產(chǎn)業(yè),家電市場(chǎng),五金產(chǎn)業(yè),美容行業(yè),幼兒行業(yè),金融市場(chǎng),游戲產(chǎn)業(yè), SEO行業(yè),女性健康產(chǎn)業(yè)等。網(wǎng)站上有數十個(gè)網(wǎng)站,資源豐富。此模塊可能難以滿(mǎn)足所有客戶(hù)的需求,但客戶(hù)可以提出請求,我們將改進(jìn)和更新模塊資源。該模塊的特征是它不需要編寫(xiě)采集規則跟一鍵操作。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  5,寫(xiě)規則集合:自己撰寫(xiě)集合規則,集合規則符合通常正則表達式,寫(xiě)集合規則必須知道一些html代碼跟正則表達式規則,如果你有其他商家的書(shū)面收集規則,那么需要我們將編寫(xiě)我們軟件的搜集規則,我們有文檔提供撰寫(xiě)收集的規則。我們不幫客戶(hù)寫(xiě)收集規則,如果必須寫(xiě),10元的收購規則。友情提示:請在使用本文時(shí)注明文章的來(lái)源并尊重原始版權。
  6,外鏈文章材料:該模塊是通過(guò)大量的市場(chǎng)語(yǔ)料庫,通過(guò)算法隨機組合的語(yǔ)料庫制作相關(guān)產(chǎn)業(yè)文章,該模塊文章僅適用于文章質(zhì)量要求不高,為外部鏈促銷(xiāo)用戶(hù),模塊的特性,資源豐富,原創(chuàng )性高,但缺點(diǎn)是文章可讀性差,用戶(hù)在使用時(shí)可以選擇性地使用。
  7.批量生產(chǎn)標題:有兩個(gè)功能,一個(gè)是按關(guān)鍵字和規則組合批量生產(chǎn)標題,二是通過(guò)收集網(wǎng)絡(luò )大數據獲取標題。自動(dòng)生成的促銷(xiāo)準確性很高,捕獲的標題是可讀的,每個(gè)都有特點(diǎn)跟缺點(diǎn)。
  8,文章界面公布:通過(guò)簡(jiǎn)單的配置,生成的文章發(fā)布至您自己的網(wǎng)站。目前支持的網(wǎng)站有,Discuz Portal,DedeCms,Empire ECMS(新聞),PHMCMS,Zibo CMS,PHP168,diypage,phpwind門(mén)戶(hù)。
  9,SEO批量查詢(xún)工具:權重批量查詢(xún),排序批量查詢(xún),包含批量查詢(xún),長(cháng)尾詞挖掘,代碼批量轉換,文本加密和解密。

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区