在時(shí)間關(guān)系數據上AutoML:一個(gè)新的前沿
優(yōu)采云 發(fā)布時(shí)間: 2020-08-12 16:31作者:Flytxt
翻譯:張恬鈺
校對:李海明
本文1600字,建議閱讀8分鐘。
本文介紹了AutoML的發(fā)展歷史及其在時(shí)間關(guān)系數據上的應用方案。
現實(shí)世界中的機器學(xué)習系統須要數據科學(xué)家和領(lǐng)域專(zhuān)家來(lái)構建和維護,而這樣的人才卻總是供不應求。自動(dòng)化機器學(xué)習(AutoML)由于在建立和維護機器學(xué)習工作流中的關(guān)鍵步驟中所顯露出的廣泛適用性,使得該領(lǐng)域的研究前景一片光明。它減少了人類(lèi)專(zhuān)家的工作負擔,使她們才能專(zhuān)注于復雜、非重復和具有創(chuàng )造性的學(xué)習問(wèn)題。
AutoML的最新進(jìn)展主要包括從時(shí)間關(guān)系數據庫中手動(dòng)發(fā)覺(jué)有意義的表間關(guān)系的復雜功能合成(例如,深度特點(diǎn)綜合),使用模型手動(dòng)調整進(jìn)行概念漂移(例如,AutoGBT),以及深度學(xué)習模型的手動(dòng)設計(例如,神經(jīng)結構搜索),如圖1所示。這些研究進(jìn)展提升了數據科學(xué)家的生產(chǎn)力,從而明顯增強了AutoML系統的實(shí)用性,并促使非機器學(xué)習專(zhuān)家也才能處理現實(shí)中不同領(lǐng)域的數據科學(xué)問(wèn)題。
圖1 AutoML進(jìn)化史
在時(shí)間關(guān)系數據庫中使用AutoML
在例如在線(xiàn)廣告,推薦系統,自動(dòng)與顧客交流等機器學(xué)習應用中,數據集可以跨越多個(gè)具有時(shí)間戳的相關(guān)表來(lái)顯示風(fēng)波的時(shí)間安排。而傳統方法則須要專(zhuān)家們通過(guò)冗長(cháng)的試錯法自動(dòng)組合表格來(lái)獲取有意義的特點(diǎn)。用于處理動(dòng)詞關(guān)系數據的AutoML考慮了相關(guān)關(guān)鍵數組的臨時(shí)聯(lián)接,并通過(guò)手動(dòng)發(fā)覺(jué)重要的表間關(guān)系來(lái)手動(dòng)進(jìn)行特點(diǎn)合成。
在沒(méi)有域信息的情況下,實(shí)現基于動(dòng)詞關(guān)系數據的真實(shí)世界的AutoML案例包括手動(dòng)生成有用的動(dòng)詞信息和跨多個(gè)子表格有效合并特點(diǎn),且不會(huì )造成數據泄漏。除了這種困難外,還須要手動(dòng)選擇最佳的學(xué)習模型和受資源約束的超參數集,以讓解決方案足夠通用,并且符合時(shí)間和內容預算。
有趣的是,今年的KDD杯舉辦了以AutoML為主題的挑戰賽,邀請了全世界AI / ML領(lǐng)域的研究和從業(yè)人員為動(dòng)詞關(guān)系數據庫開(kāi)發(fā)最新的AutoML。
我們的解決方式
我們的工作流程包括預處理,跨關(guān)系表的手動(dòng)特點(diǎn)合成,模型學(xué)習和預測這種步驟。預處理包括對于偏移校準的特點(diǎn)變換以及平方和三次特點(diǎn)的提高。它還包括分類(lèi)特點(diǎn)的頻率編碼,而特點(diǎn)是使用子表中聚合指標的時(shí)間連接手動(dòng)合成的。多數類(lèi)的實(shí)例將進(jìn)行下述取樣以保持1:3的百分比。漸進(jìn)式?jīng)Q策樹(shù)(GBDT)的Catboost實(shí)現可用于學(xué)習算法,交叉驗證則可用于參數調整來(lái)決定最佳樹(shù)的數目。圖2概括地描述了我們的工作流程:
圖2 我們的模型管線(xiàn)
時(shí)態(tài)數據聚合
當動(dòng)詞關(guān)系數據跨越多個(gè)表格時(shí),找出表間的重要關(guān)系之后以最佳方法執行數據聚合將有助于特點(diǎn)提取。為了提取正確的特點(diǎn)表示,可對數字特點(diǎn)使用均值、求和等聚合運算,而對分類(lèi)特點(diǎn)則采用計數、眾數等運算。求頻度,聚合指標的估算須要在適當的時(shí)間窗口上使用交叉驗證完成。
特征處理
連接多個(gè)數據庫的表會(huì )形成高度偏移的特點(diǎn)。我們的特點(diǎn)預處理步驟包括偏移校準以及特點(diǎn)變換和提高。特征提高包括添加具有周期性的數字特點(diǎn)的平方和三次方變換以及正則或正切,日期時(shí)間特點(diǎn)的變換(例如,月,時(shí)和分)來(lái)豐富特點(diǎn)空間。還可對分類(lèi)特點(diǎn)進(jìn)行頻率編碼來(lái)進(jìn)一步擴大特點(diǎn)空間。
模型選擇
在估算和儲存方面,嘗試幾種線(xiàn)性和非線(xiàn)性模型的成本可能會(huì )十分高昂。由于梯度提高決策樹(shù)在處理分類(lèi)特點(diǎn)和可擴展性方面的魯棒性,我們將模型組合限制在CatBoost的實(shí)現上。同時(shí)使用交叉驗證對超參數(例如樹(shù)的數目)進(jìn)行調整,以防止過(guò)度擬合。
我們的解決方案拓展了現有的AutoML研究項目組合,允許使用涉及不定式關(guān)系數據庫學(xué)習的用例??梢栽L(fǎng)問(wèn)Github儲存庫來(lái)查看我們的解決方案。
AutoML趨勢
隨著(zhù)行業(yè)越來(lái)越關(guān)注從AI中快速獲取價(jià)值并降低機器學(xué)習模型從原型到生產(chǎn)布署的周期時(shí)間,能夠增加AI準入門(mén)檻并實(shí)現AI工作流程自動(dòng)化的AutoML已成為重要推動(dòng)力。AutoML社區越來(lái)越關(guān)注于支持真實(shí)案例的使用,包括從結構化和非結構化數據、時(shí)態(tài)關(guān)系數據庫以及受概念甩尾影響的數據流中學(xué)習。
盡管AutoML最初專(zhuān)注于最佳機器學(xué)習管線(xiàn)的手動(dòng)建立,隨著(zhù)時(shí)間的推移,對此類(lèi)管線(xiàn)手動(dòng)維護處理它的范圍正在擴大,模型自治性進(jìn)一步降低。AutoML的進(jìn)步和強悍的估算基礎設施的可借助性將促進(jìn)人機智能的融合,使得人類(lèi)專(zhuān)家才能更好地將精力集中在學(xué)習復雜的,非重復和創(chuàng )造性的問(wèn)題上,從而獲得更優(yōu)的解決方案。
原文標題:
AutoMLfor Temporal Relational Data: A New Frontier
原文鏈接: