互聯(lián)網(wǎng)機構如何利用數據優(yōu)化內容?——數據為內容帶來(lái)了什么?(中)
優(yōu)采云 發(fā)布時(shí)間: 2022-05-08 23:18互聯(lián)網(wǎng)機構如何利用數據優(yōu)化內容?——數據為內容帶來(lái)了什么?(中)
編者按:本月主題旨在探討數據與媒體中的內容關(guān)系,本文系《媒介雜志》4月號封面文章,全文深入淺出地剖析了數據與內容之間的關(guān)系,分為“數據與內容生產(chǎn)”、“數據與內容優(yōu)化”以及“數據與內容市場(chǎng)”三部分。因原文較長(cháng),考慮到微信閱讀體驗,故分篇推送,本篇系“數據與內容優(yōu)化”。
當前媒體面臨怎樣的時(shí)代?技術(shù)升級、場(chǎng)景變遷、產(chǎn)品迭代、社交遷徙......在這樣的環(huán)境下,昨天還只是寓居于想象的未來(lái)蜃景,今天能夠迅速具象為可感現實(shí)。但無(wú)論媒體產(chǎn)業(yè)如何發(fā)展、技術(shù)如何迭代,我們發(fā)現,“內容”始終是這條產(chǎn)業(yè)鏈中重要的一環(huán)。
內容產(chǎn)業(yè)似乎從傳統時(shí)代走來(lái),卻也被這個(gè)新的時(shí)代賦予了新的能量。所以,當前的內容運營(yíng)者面對的似乎是一個(gè)既光怪陸離又一脈相承的時(shí)代,它似乎輕車(chē)熟路又遍地希望,卻也時(shí)常讓人充滿(mǎn)無(wú)力感與困惑。
那內容行業(yè)該如何解決這份痛點(diǎn)?目前,內容的概念包括得更加寬泛,除了常規意義上的新聞、劇集、圖片等,社交內容、廣告、搜索頁(yè)面、交互信息都是我們界定的整體內容行業(yè)所能涵蓋的范疇。而內容運營(yíng)的智能化、數據化、程序化等發(fā)展的基礎也在于對數據的長(cháng)期積累、挖掘和運用。那么,數據技術(shù)是否會(huì )成為未來(lái)內容行業(yè)中的執牛耳者?數據究竟能為內容帶來(lái)什么?我們需要從行業(yè)的實(shí)踐中找到方向。
從有到優(yōu)
標簽與算法優(yōu)化內容分發(fā)與管理監察
如果說(shuō),數據工具在內容生產(chǎn)環(huán)節是提供素材渠道與模版,那么在生產(chǎn)的基礎上,在分發(fā)、管理等優(yōu)化環(huán)節,數據就更加能大施拳腳。在從有到優(yōu)的環(huán)節,生產(chǎn)專(zhuān)業(yè)性上的壁壘被打破,互聯(lián)網(wǎng)平臺涉入其中,通過(guò)其數據算法等的積累,為內容產(chǎn)業(yè)延伸出越來(lái)越豐富的優(yōu)化管理平臺。
1分發(fā)精準化:數據標簽算法實(shí)現內容與人的匹配
新聞推薦、社交推薦、廣告投放、文娛內容推薦、智能互動(dòng)等方面,生產(chǎn)出來(lái)的內容如何更快速、精準地抵達讀者,又如何爭取讀者更多的注意力資源,是各大機構正在努力用技術(shù)革新回答的問(wèn)題。
其中以全球最大的社交平臺之一Facebook為例,Facebook借助算法收集用戶(hù)、企業(yè)等信息,調整用戶(hù)首頁(yè)展示內容,影響了用戶(hù)的在線(xiàn)行為習慣,甚至改變歐美新聞分發(fā)和社交媒體盈利的模式。
Facebook也有自己的排序規則——Facebook EdgeRank。Facebook收集每位用戶(hù)發(fā)布的內容(包括分享的內容),關(guān)注好友的狀態(tài)更新,加入的群組,點(diǎn)贊、評論、分享等行為信息。根據權重(早期標準有:互動(dòng)/親密度/時(shí)間等)對監測數據進(jìn)行評級,展示信息流排名評級高的內容推送用戶(hù),也即用戶(hù)最感興趣的內容。
后來(lái),Facebook在原來(lái) EdgeRank 的基礎上,更加細致地定義了不同層級的親密度。用深度神經(jīng)網(wǎng)絡(luò )理解圖片內容和文字內容,從而可以知道相片中的物體是不是用戶(hù)感興趣的。隨著(zhù)產(chǎn)品迭代,也加入了更多產(chǎn)品特征,諸如閱讀時(shí)間長(cháng)短、視頻內容、鏈接內容;取關(guān)、隱藏等。
Facebook EdgeRank
2017年上半年,《紐約時(shí)報》對其網(wǎng)站和App進(jìn)行個(gè)性化改造,被用戶(hù)稱(chēng)為“模仿Facebook”。在后續的幾個(gè)月里,它陸續進(jìn)行了一些個(gè)性化實(shí)驗,比如根據用戶(hù)的閱讀習慣、訪(fǎng)問(wèn)時(shí)間、地理定位來(lái)決定推送內容,最終希望達到的是,在傳統報紙編輯選薦與網(wǎng)絡(luò )個(gè)性化模式之間達到平衡。
在國內,今日頭條的推薦算法是其產(chǎn)品的靈魂。頭條用機器給文章打標簽,追蹤用戶(hù)的閱讀行為和習慣,再用算法完成兩者之間的匹配,根據用戶(hù)關(guān)注的內容分類(lèi)進(jìn)行推薦。數據積累到一定程度,最終想達到的效果就是系統越來(lái)越了解用戶(hù)的品味,推薦的內容用戶(hù)都喜歡看。
頭條的標簽基本有兩種方式,一種是機器判定,一種是人工添加,目前機器判定的比例更高。以電影為例,一部電影可以細分出影片類(lèi)型、年代、演員、導演等等多種元素。用戶(hù)標注了某一部電影,算法就會(huì )為他推薦同一導演的作品。這樣的推薦模式大多被適用于識別結構化數據——算法并不知道文章、影片中到底說(shuō)了什么,只能根據結構化數據標注判斷。這個(gè)結構化數據,也就是關(guān)鍵詞。社會(huì )和娛樂(lè )這兩大標簽是受眾最為廣泛的標簽。
頭條會(huì )對關(guān)鍵詞進(jìn)行收集和整合,如果發(fā)現這些關(guān)鍵詞熱度比較高,就會(huì )生成一定的頻道。比如體育底下其實(shí)還是包含很多的子頻道。這也算對用戶(hù)定制的一種反饋,更便于網(wǎng)民能夠直接查看相關(guān)的文章。
不過(guò)關(guān)鍵詞的不精準也帶來(lái)了一些問(wèn)題。隨著(zhù)資訊類(lèi)平臺中的內容越來(lái)越豐富,短消息、圖文、問(wèn)答都有。關(guān)鍵詞標注只能對內容進(jìn)行浮于表面的理解,而內容中暗含的情緒往往會(huì )冒犯到用戶(hù)。在流量的誘惑下,很多創(chuàng )作者會(huì )更傾向于生產(chǎn)具有刺激性情緒的內容,這就增加了用戶(hù)被冒犯的幾率。
基于算法推薦機制的個(gè)性化分發(fā)嘗試一如既往,算法所代表的精準滿(mǎn)足信息需求、擴展細分市場(chǎng)的概念起初非常理想,所以很多媒體紛紛做出相應嘗試。但熱趨勢中,算法正在面臨讀者“過(guò)濾氣泡”、“信息繭房”等質(zhì)疑,難以達到預期效果。近期,哈佛尼曼實(shí)驗室的一篇報告詳細地探討了這一技術(shù)機制,承認個(gè)性化算法的力量,但也不能只將個(gè)性化留給算法,“你仍然需要一個(gè)人類(lèi)編輯”。
2管理與監察數據化:促進(jìn)機構走向規模與成熟
當內容發(fā)展到一定規模之后,內容本身就成長(cháng)為有一定規模的數據庫。如何實(shí)現內容的數據化管理?以及如何識別因數據的中立性而帶來(lái)的虛假和錯誤?也是媒體機構承擔社會(huì )責任,完善用戶(hù)體驗的重要環(huán)節。
被Google并購后,YouTube對內容版權問(wèn)題越來(lái)越被重視。為了提供一套可行的版權及內容管理方式,Google于2011年上線(xiàn)了ContentID。Content ID為版權所有者提供免費的內容數據管理方式,并提供封鎖、追蹤和獲利三種方式,讓版權所有者自行決定所擁有的版權內容以何種形式出現在YouTube上。YouTube Content ID功能包含了影片ID(VideoID)和音頻ID(AudioID)兩種數據標簽化管理功能,分別具有比對視頻、音頻是否侵權的功能。
YouTubeContend ID以熱圖(Heat map)的數據處理方式比對影片,因此即使不是完全符合的影片,如內容包含加框、影音歪斜、左右鏡象、水印、質(zhì)量不佳的影片,一樣可進(jìn)行比對是否侵權。Heat map用顏色變化來(lái)反映二維矩陣或表格中的數據信息,它可以直觀(guān)地將數據值的大小以定義的顏色深淺表示出來(lái)。常根據需要將數據進(jìn)行樣品間豐度相似性的聚類(lèi),將聚類(lèi)后數據表示在Heat map 圖上,可將高豐度和低豐度的樣品分塊聚集,通過(guò)顏色梯度及相似程度來(lái)反映多個(gè)樣品的相似性和差異性。
YouTube 熱圖(Heat map)
另外,YouTube也會(huì )篩選監察自身的內容,如果使用者有重復侵權的情況,帳號還可能被終止。藉由 Content ID 的禁播功能設定,可以讓包含侵權內容的影片可在特定的區域中觀(guān)看,如此可以符合版權擁有者的區域利益,也不致讓所有的使用者都看不到影片的內容。
將內容也視為一種數據,并利用工具為內容制定考量的標簽和標準,讓內容實(shí)現數據化管理,幾乎成為所有形成規模的媒體機構的必修課。其中還包括Facebook的反垃圾系統Sigma和Immune、今日頭條的內容攔截算法等都是媒體內容管理與監察開(kāi)始趨于完善的重要標志。