bit talk直播回顧|為什么內容理解能力在百度萬(wàn)億級網(wǎng)頁(yè)搜索中如此重要
優(yōu)采云 發(fā)布時(shí)間: 2022-06-27 21:33bit talk直播回顧|為什么內容理解能力在百度萬(wàn)億級網(wǎng)頁(yè)搜索中如此重要
5月10日晚,百度技術(shù)培訓中心聯(lián)合百度內容策略部共同舉辦bit talk直播活動(dòng),活動(dòng)主題為“為什么內容理解能力在百度萬(wàn)億級網(wǎng)頁(yè)搜索中如此重要”,本次活動(dòng)嘉賓是百度資深算法工程師、內容策略部網(wǎng)頁(yè)內容理解、搜索資源垂類(lèi)負責人王德瑞
在B站搜索【百度技術(shù)培訓中心】用戶(hù)賬號,獲取直播回放視頻
關(guān)注【百度技術(shù)培訓中心】B站賬號
不錯過(guò)每一次直播!
bit talk欄目介紹
bit talk欄目是由百度技術(shù)培訓中心主辦,面向重點(diǎn)高校師生及開(kāi)發(fā)者,邀請百度內部工程師及專(zhuān)家,圍繞百度戰略熱點(diǎn)、前沿研究、技術(shù)趨勢、熱點(diǎn)事件的技術(shù)/案例、產(chǎn)品突破等方向進(jìn)行分享的欄目,會(huì )定期通過(guò)“百度技術(shù)培訓中心“官方微信公眾號進(jìn)行宣傳并通過(guò)”百度技術(shù)培訓中心“B站賬號播出
直播主要內容回顧
01
內容理解在百度使用的場(chǎng)景
內容發(fā)現與收錄
百度作為全球最大的中文搜索引擎,收錄超過(guò)萬(wàn)億量級的網(wǎng)頁(yè)內容
1
內容發(fā)現
面對萬(wàn)億海量數據,領(lǐng)先的內容發(fā)現/調度算法,并且保證了內容快速且全面的抓取和收錄
2
內容甄別
目標是做到快速有效,對全網(wǎng)有價(jià)值內容進(jìn)行甄別和分級,保障優(yōu)質(zhì)內容的充分高效的供給
3
內容生態(tài)
我們有超*敏*感*詞*的圖網(wǎng)絡(luò )的應用,深層次的挖掘網(wǎng)頁(yè)和站點(diǎn)之間的關(guān)系,打壓黑灰產(chǎn)凈化生態(tài),構建全面的一個(gè)站點(diǎn)的權益體系
什么是內容理解?是分類(lèi)打標簽這種任務(wù)嗎?
是的,粗略可以這么理解,但是不僅局限于此,對一個(gè)內容進(jìn)行深度的理解分類(lèi),打標簽只是一個(gè)基礎,更進(jìn)一步實(shí)際上是對理解出來(lái)的東西進(jìn)行匯聚,整合為上層應用供給適合的理解信號。
下方的例子是一個(gè)針對百家號文章的識別,標題是上海正式實(shí)施新垃圾分類(lèi)管理條例
1
分類(lèi)
從內容上看,這是一篇社會(huì )事件的文章
2
標簽
可以理解成這篇文章的主題主要是在關(guān)注什么,這個(gè)標簽不是一個(gè)有限的集合,因為不同的文章主題如果聚焦到一起有粗細不均勻的問(wèn)題,這篇文章來(lái)看,我們把它理解成垃圾分類(lèi),環(huán)境保護。這里的應用其實(shí)也比較明確,如果在推薦場(chǎng)景中,一個(gè)人經(jīng)??瓷鐣?huì )事件,同時(shí)關(guān)注垃圾分類(lèi)的文章,我們可以把相同的這類(lèi)文章推給他,這對用戶(hù)體驗是非常好的
3
地域識別
這篇文章主要講的是上海的一個(gè)垃圾分類(lèi)事件,那么我們會(huì )識別出來(lái)這篇文章涉及談到的地域是上海,它更適合分發(fā)給上海的一些朋友們去吸引他們的眼球,因為本地域的人其實(shí)更想看到本地域的文章或者視頻
4
時(shí)效性問(wèn)題
我們會(huì )判斷這篇文章適合在百度APP上分發(fā)多久,有些當天的新聞如果第三天看到會(huì )覺(jué)得更新有問(wèn)題,會(huì )覺(jué)得這篇文章我之前看過(guò),現在為什么我還在看
5
事件聚簇
另外針對一些熱點(diǎn)的事件,常見(jiàn)的現象是多個(gè)賬號會(huì )同時(shí)報道一個(gè)事情。拿上海垃圾分類(lèi)報道為例,這件事當時(shí)在社會(huì )上應該有很大的反響,會(huì )有很多相關(guān)的報道。那么在展出這條新聞的時(shí)候,我們最好能從多個(gè)角度把不同維度的報道展現給大家,而不能把兩篇一模一樣的文章推給公眾去閱讀,這是一個(gè)非常壞的體驗。因此我們需要對這類(lèi)文章進(jìn)行聚簇對同一事件不同維度的報道進(jìn)行展出
02
內容理解中的核心算法能力解讀
什么是網(wǎng)頁(yè)分類(lèi)
文章頁(yè):主體是一篇圖文內容,可能含有圖片,視頻,一般包含一段不短的文字,具體形式可以是新聞、博客、公告、自媒體文章等。
問(wèn)答頁(yè):頁(yè)面主題是一個(gè)評論和若干個(gè)(0~N個(gè))回答
……
網(wǎng)頁(yè)分類(lèi)的難點(diǎn)
?。?)站點(diǎn)繁多,半結構化的頁(yè)面pattern復雜,無(wú)法窮舉
這個(gè)站點(diǎn)非常多的半結構化的頁(yè)面,pattern非常復雜,無(wú)法窮舉,要求模型泛化性要強
?。?)結構信息與語(yǔ)義信息并存,分類(lèi)難度大
結構化信息和語(yǔ)義信息都是需要考慮的了,并且可能還會(huì )互相干擾。比如一個(gè)商品頁(yè)和商品列表頁(yè),很多語(yǔ)義元素和結構元素就是相近的,如下圖中語(yǔ)義信息和結構信息會(huì )互相干擾
?。?)pc和wise端均需要覆蓋
模型需要同時(shí)覆蓋 pc頁(yè)和wise頁(yè),這里指的就是電腦端和手機端,同一個(gè)URL在不同的網(wǎng)頁(yè)下,然后可能會(huì )差異很大,指的是內容和結構。如下圖相同url在不同agent(pc/wise)下顯示效果不同
?。?)存在大量未渲染頁(yè)面
可以看到我們正常一個(gè)網(wǎng)頁(yè)是有 css和js的布局信息,通過(guò)css和js會(huì )有一個(gè)具體的網(wǎng)頁(yè)的展示,但是由于一些網(wǎng)頁(yè)不能進(jìn)行渲染,它首先會(huì )丟掉一些布局信息,然后這在我們網(wǎng)頁(yè)分類(lèi)中造成了一定的困難。如下圖中非渲染頁(yè)面css/js布局信息丟失
網(wǎng)頁(yè)區域分類(lèi)
網(wǎng)頁(yè)區域分類(lèi)前面我說(shuō)的分塊,我們是將網(wǎng)頁(yè)拆解成各個(gè)區域,如圖所示分別是問(wèn)題回答、相關(guān)推薦、提問(wèn)功能等等。網(wǎng)頁(yè)最上面是通常的一個(gè)導航區域,問(wèn)題區域一般是在回答區域之前,所以可以想到這類(lèi)問(wèn)題和網(wǎng)頁(yè)分類(lèi)屬于同樣的結構,語(yǔ)義混合分類(lèi)問(wèn)題,兩者其實(shí)是有異曲同工之妙的
進(jìn)一步細粒度信息抽取
可以看上方圖中這個(gè)例子是截取的一個(gè)中華消化病與影像雜志的這樣一篇論文,它的題目是多層螺旋CT在女性盆腔非生殖源性腫瘤定位診斷中的應用價(jià)值,可以感受到缺乏相關(guān)專(zhuān)業(yè)知識的話(huà)對句子的劃分還是有很大難度的。那么如果在搜索結果展現上,我們一定要對這個(gè)垂類(lèi)進(jìn)行更精細的理解,才能進(jìn)行精準的匹配,滿(mǎn)足廣大用戶(hù)在百度搜索相關(guān)知識時(shí)的需求
下圖中我們列舉了我們對文字的信息抽取的結果。當一段話(huà)被切分的如此細碎之后,之后的應用應該是十分便捷的,不管是去提取知識或者是想做細粒度的匹配,我們都有足量的信息和理解信號,能夠提供給任何業(yè)務(wù)去使用,這也是我們內容理解的一個(gè)核心價(jià)值
03
自然語(yǔ)言處理在內容理解中存在什么樣的經(jīng)驗和問(wèn)題
對信息抽取的理解
是從自然語(yǔ)言文本中抽取指定類(lèi)型的實(shí)體、關(guān)系、事件等信息
命名實(shí)體識別
傳統的命名實(shí)體識別主要是識別人名地名和機構名,但由于傳統命名實(shí)體識別是類(lèi)別優(yōu)先,不能完全滿(mǎn)足自然語(yǔ)言處理領(lǐng)域其他任務(wù)的需求
細粒度命名實(shí)體識別 我們可以多定義一些專(zhuān)門(mén)類(lèi)型,例如就一篇簡(jiǎn)歷中,我們可以識別出細粒度的學(xué)校專(zhuān)業(yè)畢業(yè)時(shí)間、項目名稱(chēng)、技能點(diǎn)等
開(kāi)放域的命名實(shí)體識別 具備類(lèi)別更多且不固定,類(lèi)別更細且有層次這樣一個(gè)要求,也導致這一個(gè)任務(wù)的復雜度顯著(zhù)提升。它面臨著(zhù)的問(wèn)題可能是沒(méi)有足量的標注的序列語(yǔ)料,同一個(gè)命名實(shí)體屬于多個(gè)不同粒度的類(lèi)別,這些挑戰就是無(wú)法用傳統的這樣一個(gè)序列標注的問(wèn)題來(lái)解決
04
基于知識圖譜的優(yōu)質(zhì)文章識別
在移動(dòng)互聯(lián)網(wǎng)大數據的時(shí)代背景下,各類(lèi)的自媒體文章呈爆發(fā)式的增長(cháng),在搜索和推薦信息流分發(fā)場(chǎng)景下,甄別出優(yōu)質(zhì)文章,并分發(fā)給用戶(hù),具有重要的研究意義和實(shí)際的應用價(jià)值
任務(wù)發(fā)布
我們將任務(wù)發(fā)布在CCKS2022上,要求參賽者利用文章的知識圖譜進(jìn)行建模,實(shí)現優(yōu)質(zhì)文章分類(lèi)。除了文章本身的寫(xiě)作質(zhì)量以外,我們將把任務(wù)聚焦在兩個(gè)點(diǎn)上,一個(gè)是文章的深度,另外是文章的新穎性。掃描下方二維碼,獲取活動(dòng)信息
豐厚獎勵等你來(lái)拿!
第一名:*敏*感*詞*10000元
第二名:*敏*感*詞*3000元
第三名:*敏*感*詞*2000元
技術(shù)創(chuàng )新獎:*敏*感*詞*5000元
備注:技術(shù)創(chuàng )新獎和前三名可以兼得
任務(wù)組織者:
曹自強 (蘇州大學(xué))
王德瑞 (百度內容策略部)
徐揚 (百度內容策略部)
謝文睿 (百度內容策略部)
任務(wù)聯(lián)系人:
QQ群:471919965
曹自強:
王德瑞:
徐揚: