NLP技術(shù)在金融資管領(lǐng)域的落地實(shí)踐
優(yōu)采云 發(fā)布時(shí)間: 2020-08-09 14:36在數字化浪潮的大背景下,金融資管行業(yè)的先行者正在積極探求將人工智能、大數據等先進(jìn)技術(shù)用于建立面向未來(lái)的智能化投資研究平臺。本文將從金融資管領(lǐng)域對于數據智能的需求入手,詳細介紹自然語(yǔ)言處理技術(shù)在金融資管領(lǐng)域的典型落地實(shí)踐。針對海量文本的信息挖掘場(chǎng)景,我們借助Transformer、CNN等最新研究成果以及團隊自研的 tag2vec 等技術(shù),構建了端到端的文本大數據剖析系統,收錄了從海量文本智能化采集、文本數據結構化到輔助投資決策的全流程,實(shí)*敏*感*詞*融輿情監控系統,幫助金融資管顧客實(shí)現從數據負債到數據資產(chǎn)的跨越,從中獲取前瞻的商業(yè)洞察,贏(yíng)得先機。
本文的主要內容包括:
01
背景及技術(shù)構架
1. 非結構化數據快速下降
信息不對稱(chēng)是金融行業(yè)的本質(zhì)特點(diǎn)與競爭焦點(diǎn)。如上圖,是一張來(lái)自IDC的報告,表明近來(lái)幾年全球新增的數據有80%來(lái)自非結構化數據。所以大量及時(shí)有效的信息分布在非結構化的文本數據中,如研報、新聞資訊、twitter 中,金融機構須要利用自然語(yǔ)言處理技術(shù)從中高效、準確地挖掘出結構化信息,從中獲取前瞻的商業(yè)洞察。
我們團隊運用遷移學(xué)習、少樣本學(xué)習、無(wú)監督學(xué)習等人工智能領(lǐng)域最新思想和技術(shù),已經(jīng)建立起建立的自然語(yǔ)言處理技術(shù)構架,提供端到端的海量文本剖析和監控系統,幫助金融資管顧客跨越非結構化文本到結構化數據的鴻溝,進(jìn)而輔助顧客進(jìn)行快速的行業(yè)剖析、投資決策。
接下來(lái)我們看下NLP技術(shù)怎么嵌入到行業(yè)剖析和投資決策的:
2. 智能投研流程
智能化的投研流程包括:
最終這三個(gè)階段產(chǎn)生了一個(gè)完整的從數據獲取->數據處理->數據建模->邏輯推理的鏈條。這個(gè)鏈條構成了一個(gè)完全自動(dòng)化、工業(yè)化、24小時(shí)不停機的智能化投研系統。
為了實(shí)現智能投研系統的目標,我們來(lái)看下自然語(yǔ)言處理技術(shù)的構架是什么樣的:
3. 自然語(yǔ)言處理技術(shù)構架
我們的自然語(yǔ)言處理技術(shù)構架分為:應用層、組件層和意料層。
應用層:直接對接業(yè)務(wù)邏輯,目前熵簡(jiǎn)科技30 端到端文本剖析系統,服務(wù)于20 金融資管和咨詢(xún)領(lǐng)域的機構,累計30 業(yè)務(wù)應用場(chǎng)景。
組件層:提供自然語(yǔ)言處理中的基礎算法組件,包括智能動(dòng)詞組件、詞性標明、依存句型剖析、詞向量、語(yǔ)義相似度、命名實(shí)體辨識組件。
語(yǔ)料層:語(yǔ)料層提供基礎層中各算法組件、應用層中各算法模塊的訓練和測試語(yǔ)料。
通過(guò)這些方法建立的自然語(yǔ)言處理構架有兩個(gè)顯而易見(jiàn)的益處:
接下來(lái)介紹兩個(gè)比較典型的應用場(chǎng)景:招投標文本剖析系統和金融輿情監控系統。
其中:
通過(guò)這兩個(gè)典型的金融應用場(chǎng)景,來(lái)分享我們在實(shí)際實(shí)踐的過(guò)程中遇見(jiàn)的一些問(wèn)題和解決思路。
02
端到端的招投標文本剖析系統
什么是招投標數據?
公司在采購軟硬件時(shí),一般會(huì )發(fā)布一個(gè)招標公告,供應商聽(tīng)到公告后,撰寫(xiě)并遞交自己的投標書(shū),甲方評估后發(fā)布中標公告,告知你們誰(shuí)中標。
招投標數據為何重要?
對于一家上市公司而言,如果主營(yíng)業(yè)務(wù)是toB的模式,我們可以通過(guò)招投標的數據來(lái)預測公司的營(yíng)業(yè)收入,比如一家公司中標了一個(gè)大單,我們可以通過(guò)招投標數據提早預知。
如上圖的案例:
左邊是一家公司披露的中標公告,中標金額6.5億,公告的發(fā)布時(shí)間是17年的10月17日;中間是我們在互聯(lián)網(wǎng)公開(kāi)數據中采集到的中標公告,無(wú)論是項目名稱(chēng)、中標單位、中標金額,都和右邊的內容是一致的,唯一不同的是時(shí)間,我們采集到數據的時(shí)間比公司披露的時(shí)間,早了16天,這就可以幫助我們在獲得關(guān)鍵信息上占有優(yōu)勢。
1. 招投標大數據剖析系統技術(shù)構架圖
為了實(shí)現全網(wǎng)的招投標數據監控,我們研制了端到端的智能化招投標文本剖析系統,實(shí)現了千萬(wàn)級招投標文本的流式處理。主要包括:智能化網(wǎng)頁(yè)抽取系統、招投標文本剖析服務(wù)和數據展示。 首先我們的招投標文本剖析系統會(huì )從外部海量的招投標網(wǎng)站上采集最原創(chuàng )的招投標標書(shū),接下來(lái)用招投標文本剖析服務(wù)對標書(shū)進(jìn)行結構化的處理,把其中最關(guān)鍵的信息提取下來(lái),最終借助數據展示、分析面板對數據進(jìn)行二次的剖析和展示,方便業(yè)務(wù)人員使用。
下面為你們介紹其中最核心的兩個(gè)算法組件,智能網(wǎng)頁(yè)抽取系統和招投標信息抽取模型。
2. 智能網(wǎng)頁(yè)抽取系統
常規的數據采集步驟包括:
由于須要采集的網(wǎng)站非常多,需要大量的人力,導致成本十分高,效率低下。所以我們須要一套智能化的信息抽取引擎??梢詮暮A烤W(wǎng)頁(yè)類(lèi)文本數據中自動(dòng)化地抽取出特定區域、特定用途的文本片斷,即從招投標網(wǎng)頁(yè)數據中抽取標書(shū)標題、標書(shū)正文。
難點(diǎn):
網(wǎng)頁(yè)抽取的物理模型:
每一個(gè)網(wǎng)頁(yè)可以等價(jià)成帶有各種信息的樹(shù),新聞?wù)牡奈谋?、圖片、超鏈接分布在樹(shù)上的各個(gè)黑色節點(diǎn),因此須要剔除無(wú)關(guān)節點(diǎn),再根據節點(diǎn)位置信息進(jìn)行序列化,這里的難點(diǎn)是怎樣高精度的剔除無(wú)關(guān)節點(diǎn)。
構建 Tag embedding:
我們首先要解決的問(wèn)題是把網(wǎng)頁(yè)中的html編碼的標簽和屬性進(jìn)行數值化的表示。針對這個(gè)問(wèn)題,受到 word2vec 的 Skip-gram 思想啟發(fā),我們提出了 tag embedding 的算法模型,目標函數如上。其關(guān)鍵思想是用當前節點(diǎn)的 tag 去預測父節點(diǎn)的 tag 和子節點(diǎn)的 tag。
Tag embedding模型的特征:
基于全聯(lián)接網(wǎng)路的二分類(lèi)器:
有了Tag embedding以后,我們進(jìn)一步提出了基于三層前饋神經(jīng)網(wǎng)絡(luò )的二分類(lèi)器,主要拿來(lái)判定節點(diǎn)是否保留。
如上圖,輸入特點(diǎn)主要包括:父節點(diǎn)的標簽信息、子節點(diǎn)的標簽信息、當前節點(diǎn)的標簽信息,以及當前節點(diǎn)在其它方面的特點(diǎn),比如當前節點(diǎn)收錄文本的寬度是多少、超鏈接的數量是多少。
模型性能:
使用相對簡(jiǎn)單的三層前饋神經(jīng)網(wǎng)絡(luò )的緣由,主要是:
同時(shí),這種模型的思想還可以推廣到其它任務(wù):
目前,我們早已實(shí)現了海量招投標文本的采集,接下來(lái)我們須要把文本數據進(jìn)行結構化,得到我們想要的數據數組。
3. 招投標信息抽取模型
?、?提取目標:
我們招投標信息提取模型的目標是從海量的招投標標書(shū)中,提取關(guān)鍵信息,如招標單位、中標單位、中標金額、產(chǎn)品類(lèi)型 等等。
這其中的難點(diǎn)是招投標文件完全由撰寫(xiě)人來(lái)制定,沒(méi)有規范統一的格式,無(wú)法通過(guò)統一化的規則處理:
?、?特定實(shí)體類(lèi)抽取方案:
我們把這個(gè)任務(wù)具象以后,跟命名實(shí)體識別十分類(lèi)似,在我們的處理框架中,把它定義為特定實(shí)體類(lèi)抽取,其結構包括:預處理層、實(shí)體提取層、實(shí)體判斷層、選舉決策層。這里重點(diǎn)介紹下實(shí)體提取層和實(shí)體判斷層:
通過(guò)這些兩階段處理,多模型融合。第一階段不依賴(lài)于領(lǐng)域語(yǔ)料,采用通用命名實(shí)體辨識語(yǔ)料訓練。第二階段在少量招投標專(zhuān)業(yè)語(yǔ)料訓練即可。同時(shí)實(shí)現了高召回和高精度。
接下來(lái)詳盡介紹下這兩階段中的核心模塊,通用命名實(shí)體辨識和CNN判定器。
?、?基于改進(jìn)Transformer的命名實(shí)體辨識
對于通用命名實(shí)體辨識組件,我們團隊先后迭代了幾個(gè)版本,目前最新的方案參考了復旦大學(xué)邱老師團隊在19年提出的模型。在這個(gè)模型中我們主要是以改進(jìn)的Transformer模型為主要的特點(diǎn)提取器,再結合CRF層,引入全局約束信息來(lái)實(shí)現命名實(shí)體辨識任務(wù)。左圖為整個(gè)方案的*敏*感*詞*,右圖為原生的Transformer結構,用來(lái)做對比。
我們的方案相對于原生的Transformer主要做了兩個(gè)方面改進(jìn):
具體的實(shí)驗療效如下:
?、?基于卷積神經(jīng)網(wǎng)絡(luò )的實(shí)體裁定
這里我們采用TextCNN作為核心組件,整個(gè)網(wǎng)路由Embedding層、卷積層和前向網(wǎng)路層構成。
招投標信息抽取模型的測試結果:
我們在5000條招投標數據上的測試結果如上,簡(jiǎn)單總結如下:
4. 端到端招投標大數據剖析系統
基于上面的成果,我們可以建立起招投標大數據剖析系統,這一系統收錄了從海量標書(shū)智能化采集、文本數據結構化到輔助投資決策的全流程,實(shí)現千萬(wàn)級文本數據的采集和快速剖析,幫助顧客預測跟蹤 toB行業(yè)與公司的發(fā)展狀況及競爭格局。
5. 招投標大數據剖析系統部份功能展示
這里展示了怎樣運用招投標數據對??低曔M(jìn)行公司發(fā)展狀況剖析和業(yè)績(jì)預測。比如,通過(guò)歷史數據回測,我們發(fā)覺(jué)中標數據與公司定期公布的季度收入高度相關(guān),因此這一數據可以作為未來(lái)業(yè)績(jì)預測的一項重要參考基準。另外,利用地域剖析,我們可以了解到??低曉诓煌貐^的競爭格局和產(chǎn)值狀況,從而更深入地了解這家公司的經(jīng)營(yíng)狀況。
6. 小節
03
少樣本場(chǎng)景下的金融輿情監控系統
1. 金融輿情監控系統
在金融領(lǐng)域,存在兩類(lèi)機構,一類(lèi)是賣(mài)方,一類(lèi)是買(mǎi)方。買(mǎi)方通常直接操作股票的買(mǎi)賣(mài),如公募基金、私募基金等;賣(mài)方主要進(jìn)行股票的剖析和研究,為賣(mài)方提供咨詢(xún)和建議,主要包括券商和獨立的研究機構等。通常一家賣(mài)方機構,往往會(huì )對接多家買(mǎi)方機構為其服務(wù)。我們曉得,微信已然成為了一個(gè)工作平臺,因此微信群成了買(mǎi)方服務(wù)的重要場(chǎng)景,一個(gè)分析師常常會(huì )有幾十個(gè)買(mǎi)方服務(wù)群,每時(shí)每刻都可能收到來(lái)自那些群的信息轟炸。這一場(chǎng)景主要面臨的疼點(diǎn)有:
針對那些疼點(diǎn),我們提出了金融輿情監控系統的解決方案,可以做到:
金融輿情監控系統的流程:
首先把微信群中的信息,如文本信息、鏈接、文件等抽取成公司、行業(yè)、機構等3類(lèi)標簽,然后進(jìn)行業(yè)務(wù)分類(lèi),目前有4個(gè)大類(lèi),11個(gè)小類(lèi),同時(shí)我們的系統都會(huì )把結構化的文本提取下來(lái),如文章作者、會(huì )議時(shí)間等等。這樣就可以做好多有價(jià)值的應用:如熱點(diǎn)追蹤、分類(lèi)匯總、報告檢索、事件發(fā)覺(jué)、投研月歷等等。
2. 金融輿情監控系統技術(shù)構架圖
金融輿情監控系統技術(shù)構架包括3層服務(wù):金融輿情文本剖析服務(wù)、數據清洗服務(wù)、展示服務(wù)。
其中,金融輿情文本剖析服務(wù)最關(guān)鍵的三個(gè)組件是:信息類(lèi)型分類(lèi)、一級行業(yè)分類(lèi)和特定實(shí)體提取。
3. 少樣本窘境
在實(shí)踐中,很多與金融領(lǐng)域內的問(wèn)題都與特定的場(chǎng)景相關(guān),金融公司一般面臨的少樣本窘境主要包括:
針對少樣本窘境,常用的路徑有:遷移學(xué)習、數據提高、無(wú)監督學(xué)習、半監督學(xué)習。接下來(lái),我們通過(guò)介紹金融輿情中兩類(lèi)主要算法組件的實(shí)現方法,來(lái)分享我們解決少樣本問(wèn)題的思路。
4. 微信信息分類(lèi)模型
微信信息分類(lèi)模型的目標:對微信群里的文本信息、文件、鏈接消息等消息進(jìn)行分類(lèi),分為公司深度、公司點(diǎn)評、行業(yè)深度、行業(yè)點(diǎn)評、宏觀(guān)策略報告、固收報告、調研紀要、會(huì )議紀要、調研約請、會(huì )議約請及其他,共11個(gè)類(lèi)別。
整個(gè)模型是以TextCNN網(wǎng)路和Fasttext作為兩個(gè)基本模型,再通過(guò)XGBoost將兩個(gè)模型集成上去。這里用到的TextCNN網(wǎng)路與后面的招投標網(wǎng)路基本是一致的,除了在Embedding層,我們把位置向量除去了。其益處有:
5. 文本提高技術(shù)
文本提高技術(shù)是一類(lèi)低成本的數據杠桿,可以在不引入新數據下,有效撬動(dòng)模型性能,尤其在少樣本場(chǎng)景下。
常用的場(chǎng)景包括:
總的來(lái)說(shuō),由于文本提高技術(shù)可以提升模型的魯棒性,除非數據量十分豐富,通??梢圆捎梦谋咎岣呒夹g(shù)進(jìn)行嘗試,一般都有正向的療效。
典型的文本提高技術(shù)有:
關(guān)于文本提高技術(shù)的詳盡介紹,可參考我們團隊之前的一篇文章:
6. 數據提高的實(shí)驗結果
樣本集情況:
實(shí)驗結果見(jiàn)下圖,總結如下:
最終的實(shí)驗結果見(jiàn)上圖,通過(guò)本文提高技術(shù)以及一些其它方式,我們基本解決了少樣本問(wèn)題。
文本提高技術(shù)為何可以在沒(méi)有引入額外數據的情況下,起到如此好的療效?