最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

內部信息源與外部信息源搜索引擎優(yōu)化方法的異同

內部信息源與外部信息源搜索引擎優(yōu)化方法的異同

內容分享:SEO搜索引擎優(yōu)化涉及的內容非常廣泛

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 169 次瀏覽 ? 2022-09-24 19:15 ? 來(lái)自相關(guān)話(huà)題

  內容分享:SEO搜索引擎優(yōu)化涉及的內容非常廣泛
  SEO搜索引擎優(yōu)化涉及的內容范圍非常廣泛,絕不是在頁(yè)面上堆放幾個(gè)關(guān)鍵詞那么簡(jiǎn)單。進(jìn)行關(guān)鍵字研究以了解學(xué)習者對主題內容的需求,網(wǎng)站內容已被擴展以更好地滿(mǎn)足學(xué)習者的需求。
  良好的網(wǎng)站結構和內鏈有助于提升用戶(hù)體驗,頁(yè)面優(yōu)化也讓用戶(hù)更容易掌握關(guān)鍵內容。 網(wǎng)站流量分析和策略改進(jìn)基于強調用戶(hù)體驗優(yōu)化的基本原則網(wǎng)站。與相關(guān)主題學(xué)習網(wǎng)站建立良好的外鏈關(guān)系,有助于相同或相似主題網(wǎng)站的用戶(hù)更有效地互動(dòng),豐富和拓展學(xué)習者更有效、更便捷地獲取主題知識掌握??梢哉f(shuō),專(zhuān)業(yè)學(xué)習網(wǎng)站SEO的全過(guò)程就是為了讓網(wǎng)站更好更強。
  
  可能有人認為專(zhuān)門(mén)學(xué)習的SEO網(wǎng)站違反了搜索引擎自主選擇資源的原則。事實(shí)上,合理合法的白帽 SEO 是搜索引擎的“最佳伴侶搜索引擎”。為了給在線(xiàn)學(xué)習者提供有效的學(xué)習資源,有必要尋找信息來(lái)源?;谥黝}的學(xué)習網(wǎng)站旨在對搜索引擎友好、易于收錄、內容豐富、主題突出,可以為SEO搜索引擎獲取信息源提供便利,滿(mǎn)足學(xué)習者的信息需求。及時(shí)。搜索引擎的有效性和實(shí)用價(jià)值會(huì )得到學(xué)習者的信任和肯定。相反,如果一個(gè)特定的研究網(wǎng)站是用不容易收錄創(chuàng )建的技術(shù)構建的,搜索引擎也可能會(huì )陷入混亂。
  各大SEO搜索引擎從來(lái)沒(méi)有反對過(guò)網(wǎng)站SEO。谷歌非常支持白帽搜索引擎優(yōu)化,專(zhuān)門(mén)安排了一批員工在博客、論壇和社交網(wǎng)絡(luò )上發(fā)布信息和回答問(wèn)題,并積極參與搜索引擎營(yíng)銷(xiāo)行業(yè)會(huì )議,以各種方式指導站長(cháng)。搜索引擎SEO優(yōu)化。
  近年來(lái)各大門(mén)戶(hù)網(wǎng)站網(wǎng)站對SEO優(yōu)化人員的需求和肯定都增加了。對此,服務(wù)于在線(xiàn)學(xué)習的專(zhuān)題學(xué)習網(wǎng)站也應以符合SEO要求、體現專(zhuān)題學(xué)習策略的方式進(jìn)行優(yōu)化構建,更好地發(fā)揮其學(xué)習價(jià)值,而專(zhuān)題學(xué)習 設計公司,網(wǎng)站制作公司,全站優(yōu)化!
  最新版本:SEO搜索引擎優(yōu)化:基礎、案例與實(shí)戰(第2版)
  本書(shū)系統地介紹了搜索引擎優(yōu)化(SEO)的方法。全書(shū)共分11章,包括SEO概述、搜索引擎概述、SEO準備工作、網(wǎng)站關(guān)鍵詞的優(yōu)化、網(wǎng)站的結構優(yōu)化、網(wǎng)站@的頁(yè)面優(yōu)化>、網(wǎng)站內容優(yōu)化、網(wǎng)站優(yōu)化、常用SEO工具、數據監控分析、移動(dòng)網(wǎng)站SEO。本書(shū)內容豐富,實(shí)戰性強。以數據思維為指導,用成功的實(shí)際案例進(jìn)行講解。不僅可以讓讀者了解SEO的基本知識,還可以幫助讀者掌握SEO的使用方法,提高網(wǎng)站的排名和排名。流動(dòng)的方法。
  
  【推薦】
  1.根據網(wǎng)站優(yōu)化實(shí)施的思路和核心流程展示,全面介紹有效的SEO實(shí)戰技術(shù),精選知識內容。 2. 專(zhuān)注實(shí)戰。沒(méi)有長(cháng)篇的理論描述,更多的是寫(xiě)實(shí)操技巧。 3. 豐富的例子和練習,易教易學(xué)。 4. 大量圖標和視頻,一目了然,通俗易懂。
  
  【作者】
  楊仁、程鵬、姚亞峰(主編)羅世軒、閆涵(副主編)。作者的團隊既有長(cháng)期從事高職電子商務(wù)專(zhuān)業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)教學(xué)的教師,也有具有豐富實(shí)踐經(jīng)驗的搜索引擎優(yōu)化人員。 查看全部

  內容分享:SEO搜索引擎優(yōu)化涉及的內容非常廣泛
  SEO搜索引擎優(yōu)化涉及的內容范圍非常廣泛,絕不是在頁(yè)面上堆放幾個(gè)關(guān)鍵詞那么簡(jiǎn)單。進(jìn)行關(guān)鍵字研究以了解學(xué)習者對主題內容的需求,網(wǎng)站內容已被擴展以更好地滿(mǎn)足學(xué)習者的需求。
  良好的網(wǎng)站結構和內鏈有助于提升用戶(hù)體驗,頁(yè)面優(yōu)化也讓用戶(hù)更容易掌握關(guān)鍵內容。 網(wǎng)站流量分析和策略改進(jìn)基于強調用戶(hù)體驗優(yōu)化的基本原則網(wǎng)站。與相關(guān)主題學(xué)習網(wǎng)站建立良好的外鏈關(guān)系,有助于相同或相似主題網(wǎng)站的用戶(hù)更有效地互動(dòng),豐富和拓展學(xué)習者更有效、更便捷地獲取主題知識掌握??梢哉f(shuō),專(zhuān)業(yè)學(xué)習網(wǎng)站SEO的全過(guò)程就是為了讓網(wǎng)站更好更強。
  
  可能有人認為專(zhuān)門(mén)學(xué)習的SEO網(wǎng)站違反了搜索引擎自主選擇資源的原則。事實(shí)上,合理合法的白帽 SEO 是搜索引擎的“最佳伴侶搜索引擎”。為了給在線(xiàn)學(xué)習者提供有效的學(xué)習資源,有必要尋找信息來(lái)源?;谥黝}的學(xué)習網(wǎng)站旨在對搜索引擎友好、易于收錄、內容豐富、主題突出,可以為SEO搜索引擎獲取信息源提供便利,滿(mǎn)足學(xué)習者的信息需求。及時(shí)。搜索引擎的有效性和實(shí)用價(jià)值會(huì )得到學(xué)習者的信任和肯定。相反,如果一個(gè)特定的研究網(wǎng)站是用不容易收錄創(chuàng )建的技術(shù)構建的,搜索引擎也可能會(huì )陷入混亂。
  各大SEO搜索引擎從來(lái)沒(méi)有反對過(guò)網(wǎng)站SEO。谷歌非常支持白帽搜索引擎優(yōu)化,專(zhuān)門(mén)安排了一批員工在博客、論壇和社交網(wǎng)絡(luò )上發(fā)布信息和回答問(wèn)題,并積極參與搜索引擎營(yíng)銷(xiāo)行業(yè)會(huì )議,以各種方式指導站長(cháng)。搜索引擎SEO優(yōu)化。
  近年來(lái)各大門(mén)戶(hù)網(wǎng)站網(wǎng)站對SEO優(yōu)化人員的需求和肯定都增加了。對此,服務(wù)于在線(xiàn)學(xué)習的專(zhuān)題學(xué)習網(wǎng)站也應以符合SEO要求、體現專(zhuān)題學(xué)習策略的方式進(jìn)行優(yōu)化構建,更好地發(fā)揮其學(xué)習價(jià)值,而專(zhuān)題學(xué)習 設計公司,網(wǎng)站制作公司,全站優(yōu)化!
  最新版本:SEO搜索引擎優(yōu)化:基礎、案例與實(shí)戰(第2版)
  本書(shū)系統地介紹了搜索引擎優(yōu)化(SEO)的方法。全書(shū)共分11章,包括SEO概述、搜索引擎概述、SEO準備工作、網(wǎng)站關(guān)鍵詞的優(yōu)化、網(wǎng)站的結構優(yōu)化、網(wǎng)站@的頁(yè)面優(yōu)化>、網(wǎng)站內容優(yōu)化、網(wǎng)站優(yōu)化、常用SEO工具、數據監控分析、移動(dòng)網(wǎng)站SEO。本書(shū)內容豐富,實(shí)戰性強。以數據思維為指導,用成功的實(shí)際案例進(jìn)行講解。不僅可以讓讀者了解SEO的基本知識,還可以幫助讀者掌握SEO的使用方法,提高網(wǎng)站的排名和排名。流動(dòng)的方法。
  
  【推薦】
  1.根據網(wǎng)站優(yōu)化實(shí)施的思路和核心流程展示,全面介紹有效的SEO實(shí)戰技術(shù),精選知識內容。 2. 專(zhuān)注實(shí)戰。沒(méi)有長(cháng)篇的理論描述,更多的是寫(xiě)實(shí)操技巧。 3. 豐富的例子和練習,易教易學(xué)。 4. 大量圖標和視頻,一目了然,通俗易懂。
  
  【作者】
  楊仁、程鵬、姚亞峰(主編)羅世軒、閆涵(副主編)。作者的團隊既有長(cháng)期從事高職電子商務(wù)專(zhuān)業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)教學(xué)的教師,也有具有豐富實(shí)踐經(jīng)驗的搜索引擎優(yōu)化人員。

建房產(chǎn)找中介加上大單位銷(xiāo)售人員,百度的視頻課程

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 96 次瀏覽 ? 2022-09-02 15:03 ? 來(lái)自相關(guān)話(huà)題

  建房產(chǎn)找中介加上大單位銷(xiāo)售人員,百度的視頻課程
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同百度的視頻課程課件/julaolai/523577457.html?frm=real-estate+veteran和正規中介機構合作你所在城市有沒(méi)有中介機構總部,如果有的話(huà),百度搜索“這家”,聯(lián)系他們,填寫(xiě)你的銷(xiāo)售地址與真實(shí)姓名,確定靠譜以后會(huì )給你一個(gè)官方網(wǎng)站的(這個(gè),很多中介機構進(jìn)網(wǎng)門(mén)檻相對較低,造成機構濫用市場(chǎng)資源)。
  
  有些中介,會(huì )自行搜索,去一些專(zhuān)業(yè)社區里面發(fā)布資源,免費發(fā)布的,作用大一些。via建房產(chǎn)找中介加上大單位銷(xiāo)售人員。
  您好!我們有個(gè)大單位的銷(xiāo)售人員,合作過(guò)一次,但不是很多,可以加微信,詳細了解一下。
  
  上海潤筑建筑設計有限公司,
  對于找中介是大家普遍遇到的問(wèn)題,給大家談一下心得體會(huì ):1.花錢(qián)找個(gè)專(zhuān)業(yè)公司幫助看房肯定會(huì )省心省力,但是大部分中介公司都是提前銷(xiāo)售一樓的樓棟,客戶(hù)在購房成功后才會(huì )跟你溝通你報的小區情況2.在網(wǎng)上找一個(gè)口碑可靠的,售后服務(wù)相對可靠一些,如果你因為個(gè)人原因看不了房了,是可以及時(shí)跟中介溝通的;3.自己對房產(chǎn)也不是非常了解,也不知道找一個(gè)真正的銷(xiāo)售是否靠譜,中介不是說(shuō)靠譜不靠譜,銷(xiāo)售看他們的素質(zhì),你不要輕易相信的你不懂的信息,要對他們有個(gè)基本的了解,比如剛需購房者,必須真正合適你的才是最好的,其次品牌性的的中介公司肯定比小作坊質(zhì)量好一些,畢竟是國家認證的4.中介費其實(shí)現在一直都沒(méi)有漲到讓人無(wú)法接受的地步,小幾萬(wàn)甚至幾萬(wàn)都可以接受,畢竟現在開(kāi)發(fā)商收你中介費基本上都是找中介公司代理你去簽約;5.現在金融信貸已經(jīng)比較普遍,貸款的額度還是很大的,可以通過(guò)貸款來(lái)解決這個(gè)問(wèn)題,按揭買(mǎi)房必須要找正規中介公司,一旦找到不靠譜的就糟心啦,肯定會(huì )拒絕你的,可以一定要親自過(guò)去看看。 查看全部

  建房產(chǎn)找中介加上大單位銷(xiāo)售人員,百度的視頻課程
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同百度的視頻課程課件/julaolai/523577457.html?frm=real-estate+veteran和正規中介機構合作你所在城市有沒(méi)有中介機構總部,如果有的話(huà),百度搜索“這家”,聯(lián)系他們,填寫(xiě)你的銷(xiāo)售地址與真實(shí)姓名,確定靠譜以后會(huì )給你一個(gè)官方網(wǎng)站的(這個(gè),很多中介機構進(jìn)網(wǎng)門(mén)檻相對較低,造成機構濫用市場(chǎng)資源)。
  
  有些中介,會(huì )自行搜索,去一些專(zhuān)業(yè)社區里面發(fā)布資源,免費發(fā)布的,作用大一些。via建房產(chǎn)找中介加上大單位銷(xiāo)售人員。
  您好!我們有個(gè)大單位的銷(xiāo)售人員,合作過(guò)一次,但不是很多,可以加微信,詳細了解一下。
  
  上海潤筑建筑設計有限公司,
  對于找中介是大家普遍遇到的問(wèn)題,給大家談一下心得體會(huì ):1.花錢(qián)找個(gè)專(zhuān)業(yè)公司幫助看房肯定會(huì )省心省力,但是大部分中介公司都是提前銷(xiāo)售一樓的樓棟,客戶(hù)在購房成功后才會(huì )跟你溝通你報的小區情況2.在網(wǎng)上找一個(gè)口碑可靠的,售后服務(wù)相對可靠一些,如果你因為個(gè)人原因看不了房了,是可以及時(shí)跟中介溝通的;3.自己對房產(chǎn)也不是非常了解,也不知道找一個(gè)真正的銷(xiāo)售是否靠譜,中介不是說(shuō)靠譜不靠譜,銷(xiāo)售看他們的素質(zhì),你不要輕易相信的你不懂的信息,要對他們有個(gè)基本的了解,比如剛需購房者,必須真正合適你的才是最好的,其次品牌性的的中介公司肯定比小作坊質(zhì)量好一些,畢竟是國家認證的4.中介費其實(shí)現在一直都沒(méi)有漲到讓人無(wú)法接受的地步,小幾萬(wàn)甚至幾萬(wàn)都可以接受,畢竟現在開(kāi)發(fā)商收你中介費基本上都是找中介公司代理你去簽約;5.現在金融信貸已經(jīng)比較普遍,貸款的額度還是很大的,可以通過(guò)貸款來(lái)解決這個(gè)問(wèn)題,按揭買(mǎi)房必須要找正規中介公司,一旦找到不靠譜的就糟心啦,肯定會(huì )拒絕你的,可以一定要親自過(guò)去看看。

seo信息優(yōu)化方法的異同性搜索引擎優(yōu)化師內部信息源大曝光!

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2022-08-21 13:03 ? 來(lái)自相關(guān)話(huà)題

  seo信息優(yōu)化方法的異同性搜索引擎優(yōu)化師內部信息源大曝光!
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同性搜索引擎優(yōu)化師內部信息源大曝光!(seo信息優(yōu)化網(wǎng)站建設成本要投入多少錢(qián)/seo培訓機構現在的價(jià)格/seo優(yōu)化客戶(hù)之間該怎么選擇/如何花最少的錢(qián)快速提升站點(diǎn)的排名)
  
  odera不可信,作弊太多,相比的話(huà)google優(yōu)化還是可靠的。
  我個(gè)人認為,國內可信度最高的還是百度。不過(guò)全中國只有一家的效果就是非常不好。這個(gè)數據沒(méi)有任何意義,數據說(shuō)明不了什么。
  
  我來(lái)說(shuō)一個(gè)成功的案例吧,我今年春節期間在常州學(xué)習的一個(gè)微信公眾號公開(kāi)課。然后錄制了一整套教學(xué)視頻。公開(kāi)課所有嘉賓都會(huì )學(xué)習一遍教程,然后我聽(tīng)了一遍,只記得好像是有一個(gè)叫什么卓越加分點(diǎn)咨詢(xún)的工作人員,在職位我記得是一個(gè)高級seo專(zhuān)家。好像是,我看了一下,好像說(shuō)3天內來(lái)到我們公司工作的學(xué)員,就可以獲得他們的推薦,會(huì )得到他們的傭金。
 ?。ɡ蠈?shí)說(shuō)他們公司老板真的很豪爽,他們說(shuō)幫他們招生賺100w)如果真的這么好賺,為什么會(huì )在某些行業(yè)發(fā)現很多機會(huì ),而有些行業(yè)不賺錢(qián)呢?說(shuō)實(shí)話(huà),市場(chǎng)很大,你真的一點(diǎn)機會(huì )都沒(méi)有。分割線(xiàn)---。 查看全部

  seo信息優(yōu)化方法的異同性搜索引擎優(yōu)化師內部信息源大曝光!
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同性搜索引擎優(yōu)化師內部信息源大曝光!(seo信息優(yōu)化網(wǎng)站建設成本要投入多少錢(qián)/seo培訓機構現在的價(jià)格/seo優(yōu)化客戶(hù)之間該怎么選擇/如何花最少的錢(qián)快速提升站點(diǎn)的排名)
  
  odera不可信,作弊太多,相比的話(huà)google優(yōu)化還是可靠的。
  我個(gè)人認為,國內可信度最高的還是百度。不過(guò)全中國只有一家的效果就是非常不好。這個(gè)數據沒(méi)有任何意義,數據說(shuō)明不了什么。
  
  我來(lái)說(shuō)一個(gè)成功的案例吧,我今年春節期間在常州學(xué)習的一個(gè)微信公眾號公開(kāi)課。然后錄制了一整套教學(xué)視頻。公開(kāi)課所有嘉賓都會(huì )學(xué)習一遍教程,然后我聽(tīng)了一遍,只記得好像是有一個(gè)叫什么卓越加分點(diǎn)咨詢(xún)的工作人員,在職位我記得是一個(gè)高級seo專(zhuān)家。好像是,我看了一下,好像說(shuō)3天內來(lái)到我們公司工作的學(xué)員,就可以獲得他們的推薦,會(huì )得到他們的傭金。
 ?。ɡ蠈?shí)說(shuō)他們公司老板真的很豪爽,他們說(shuō)幫他們招生賺100w)如果真的這么好賺,為什么會(huì )在某些行業(yè)發(fā)現很多機會(huì ),而有些行業(yè)不賺錢(qián)呢?說(shuō)實(shí)話(huà),市場(chǎng)很大,你真的一點(diǎn)機會(huì )都沒(méi)有。分割線(xiàn)---。

內部信息源與外部信息搜索引擎優(yōu)化方法的異同

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 84 次瀏覽 ? 2022-08-13 12:23 ? 來(lái)自相關(guān)話(huà)題

  內部信息源與外部信息搜索引擎優(yōu)化方法的異同
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同我們常用的詞匯做seo,就需要首先了解seo需要了解什么知識,就需要了解什么是詞匯,什么是我們要了解的其他的詞匯。那么我就一一的來(lái)介紹下:chinesecentralknowledge是中國的一些基本知識titlewords:因為我們要分析了解很多關(guān)鍵詞都是怎么搜的,所以用這個(gè)來(lái)表示。
  
  有什么好處呢?就是可以我們可以從詞匯的深度挖掘來(lái)進(jìn)行采集。我們一般都是通過(guò)關(guān)鍵詞然后結合我們的產(chǎn)品或者標簽來(lái)進(jìn)行一個(gè)詞匯的搜索。這個(gè)是最基本的玩法,比如關(guān)鍵詞:內容。我們搜索的詞匯都是一些虛擬的相關(guān)的內容,其他的類(lèi)型,比如體育,我們發(fā)現有很多的相關(guān)的可以進(jìn)行采集。所以說(shuō)如果是想做關(guān)鍵詞,我們一定要通過(guò)這種搜索方式,很多時(shí)候通過(guò)搜索,是可以發(fā)現一些東西。
  2.brazilianknowledge(bk):來(lái)自香港的一些基本知識whois查詢(xún)。來(lái)自::比如網(wǎng)站是來(lái)自怎么樣的一個(gè)域名,網(wǎng)站的com域名是怎么樣的一個(gè)是。根據我們的網(wǎng)站去whois我們可以去發(fā)現一些信息。也可以根據很多的平臺去發(fā)現一些聯(lián)系方式等等。3.redirectlink(rtl):看網(wǎng)站一些引用別人網(wǎng)站的鏈接,來(lái)來(lái)源的一些頭銜是怎么樣的網(wǎng)站。
  
  一般都是可以去發(fā)現網(wǎng)站的一些引用的一些渠道。再一個(gè)就是百度在做搜索推廣的時(shí)候也會(huì )跟我們的搜索有很多的聯(lián)系。也是需要關(guān)注那些內容來(lái)源以及來(lái)源方式,百度一般不會(huì )被查詢(xún)到。我們這邊就說(shuō)到了一些,不好意思不排除一些,有些客戶(hù)實(shí)際上會(huì )問(wèn)我一些細節,比如說(shuō)你能不能去谷歌里面面試,是不是可以就是看你的whois可不可以去認證。
  這個(gè)是非常的正常的一個(gè),有的時(shí)候是確實(shí)是這樣子的。最后總結下來(lái)我們要了解很多的基本知識,然后去分析用戶(hù)的一些關(guān)鍵詞的一些需求,再去去篩選一些網(wǎng)站的相關(guān)內容,最后我們確定怎么樣的方法的一個(gè)優(yōu)化方式。大家最好都去加一下學(xué)習公開(kāi)課等等,用到seo的一些相關(guān)方面,才可以更加有針對性,從而更加的有效果。感謝看到這篇文章的朋友,您能夠幫忙轉發(fā),添加一下小編的微信,所有的知識在帶領(lǐng)大家學(xué)習!。 查看全部

  內部信息源與外部信息搜索引擎優(yōu)化方法的異同
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同我們常用的詞匯做seo,就需要首先了解seo需要了解什么知識,就需要了解什么是詞匯,什么是我們要了解的其他的詞匯。那么我就一一的來(lái)介紹下:chinesecentralknowledge是中國的一些基本知識titlewords:因為我們要分析了解很多關(guān)鍵詞都是怎么搜的,所以用這個(gè)來(lái)表示。
  
  有什么好處呢?就是可以我們可以從詞匯的深度挖掘來(lái)進(jìn)行采集。我們一般都是通過(guò)關(guān)鍵詞然后結合我們的產(chǎn)品或者標簽來(lái)進(jìn)行一個(gè)詞匯的搜索。這個(gè)是最基本的玩法,比如關(guān)鍵詞:內容。我們搜索的詞匯都是一些虛擬的相關(guān)的內容,其他的類(lèi)型,比如體育,我們發(fā)現有很多的相關(guān)的可以進(jìn)行采集。所以說(shuō)如果是想做關(guān)鍵詞,我們一定要通過(guò)這種搜索方式,很多時(shí)候通過(guò)搜索,是可以發(fā)現一些東西。
  2.brazilianknowledge(bk):來(lái)自香港的一些基本知識whois查詢(xún)。來(lái)自::比如網(wǎng)站是來(lái)自怎么樣的一個(gè)域名,網(wǎng)站的com域名是怎么樣的一個(gè)是。根據我們的網(wǎng)站去whois我們可以去發(fā)現一些信息。也可以根據很多的平臺去發(fā)現一些聯(lián)系方式等等。3.redirectlink(rtl):看網(wǎng)站一些引用別人網(wǎng)站的鏈接,來(lái)來(lái)源的一些頭銜是怎么樣的網(wǎng)站。
  
  一般都是可以去發(fā)現網(wǎng)站的一些引用的一些渠道。再一個(gè)就是百度在做搜索推廣的時(shí)候也會(huì )跟我們的搜索有很多的聯(lián)系。也是需要關(guān)注那些內容來(lái)源以及來(lái)源方式,百度一般不會(huì )被查詢(xún)到。我們這邊就說(shuō)到了一些,不好意思不排除一些,有些客戶(hù)實(shí)際上會(huì )問(wèn)我一些細節,比如說(shuō)你能不能去谷歌里面面試,是不是可以就是看你的whois可不可以去認證。
  這個(gè)是非常的正常的一個(gè),有的時(shí)候是確實(shí)是這樣子的。最后總結下來(lái)我們要了解很多的基本知識,然后去分析用戶(hù)的一些關(guān)鍵詞的一些需求,再去去篩選一些網(wǎng)站的相關(guān)內容,最后我們確定怎么樣的方法的一個(gè)優(yōu)化方式。大家最好都去加一下學(xué)習公開(kāi)課等等,用到seo的一些相關(guān)方面,才可以更加有針對性,從而更加的有效果。感謝看到這篇文章的朋友,您能夠幫忙轉發(fā),添加一下小編的微信,所有的知識在帶領(lǐng)大家學(xué)習!。

XLNet : 運行機制及和 Bert 的異同比較

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-07-31 19:37 ? 來(lái)自相關(guān)話(huà)題

  XLNet : 運行機制及和 Bert 的異同比較
  出品社區:DataFun
  注:文末有驚喜,等你呦。
  這兩天,XLNet 貌似也引起了 NLP 圈的極大關(guān)注,從實(shí)驗數據看,在某些場(chǎng)景下,確實(shí) XLNet 相對 Bert 有很大幅度的提升。就像我們之前說(shuō)的,感覺(jué) Bert 打開(kāi)兩階段模式的魔法盒開(kāi)關(guān)后,在這條路上,會(huì )有越來(lái)越多的同行者,而 XLNet 就是其中比較引人注目的一位。當然,我估計很快我們會(huì )看到更多的這個(gè)模式下的新工作。未來(lái)兩年,在兩階段新模式 ( 預訓練 + Finetuning ) 下,應該會(huì )有更多的好工作涌現出來(lái)。根本原因在于:這個(gè)模式的潛力還沒(méi)有被充分挖掘,貌似還有很大的提升空間。當然,這也意味著(zhù) NLP 在未來(lái)兩年會(huì )有各種技術(shù)或者應用的突破,現在其實(shí)是進(jìn)入 NLP 領(lǐng)域非常好的時(shí)機。原因有兩個(gè),一個(gè)是 NLP 正面臨一個(gè)技術(shù)棧大的改朝換代的時(shí)刻,有很多空白等著(zhù)你去填補,容易出成績(jì);另外一點(diǎn),貌似 Bert+Transformer 有統一 NLP 各個(gè)應用領(lǐng)域的趨向,這意味著(zhù)此時(shí)進(jìn)入 NLP 領(lǐng)域,具備學(xué)習成本非常低的好處,和之前相比,投入產(chǎn)出比非常合算。這是兩個(gè)原因。當然,即使如此,想要學(xué)好 NLP ,持續的精力投入是必不可少的。有句老話(huà)說(shuō)得好:“永恒的愛(ài)大約持續三個(gè)月”,這句話(huà)其實(shí)對于很多對 NLP 感興趣的同學(xué)也成立:“對 NLP 的永恒的熱情大約能夠持續3到5天”,希望真的有興趣的同學(xué)能堅持一下,起碼持續7到8天,湊夠一個(gè)星期…..
  那么 XLNet 和 Bert 比,有什么異同?有什么模型方面的改進(jìn)?在哪些場(chǎng)景下特別有效?原因又是什么?本文通過(guò)論文思想解讀及實(shí)驗結果分析,試圖回答上述問(wèn)題。
  首先,XLNet 引入了自回歸語(yǔ)言模型以及自編碼語(yǔ)言模型的提法,這個(gè)思維框架我覺(jué)得挺好的,可以先簡(jiǎn)單說(shuō)明下。
  自回歸語(yǔ)言模型 ( Autoregressive LM )
  在 ELMO / BERT 出來(lái)之前,大家通常講的語(yǔ)言模型其實(shí)是根據上文內容預測下一個(gè)可能跟隨的單詞,就是常說(shuō)的自左向右的語(yǔ)言模型任務(wù),或者反過(guò)來(lái)也行,就是根據下文預測前面的單詞,這種類(lèi)型的 LM 被稱(chēng)為自回歸語(yǔ)言模型。GPT 就是典型的自回歸語(yǔ)言模型。ELMO 盡管看上去利用了上文,也利用了下文,但是本質(zhì)上仍然是自回歸 LM ,這個(gè)跟模型具體怎么實(shí)現有關(guān)系。ELMO 是做了兩個(gè)方向 ( 從左到右以及從右到左兩個(gè)方向的語(yǔ)言模型 ) ,但是是分別有兩個(gè)方向的自回歸 LM ,然后把 LSTM 的兩個(gè)方向的隱節點(diǎn)狀態(tài)拼接到一起,來(lái)體現雙向語(yǔ)言模型這個(gè)事情的。所以其實(shí)是兩個(gè)自回歸語(yǔ)言模型的拼接,本質(zhì)上仍然是自回歸語(yǔ)言模型。
  自回歸語(yǔ)言模型有優(yōu)點(diǎn)有缺點(diǎn),缺點(diǎn)是只能利用上文或者下文的信息,不能同時(shí)利用上文和下文的信息,當然,貌似 ELMO 這種雙向都做,然后拼接看上去能夠解決這個(gè)問(wèn)題,因為融合模式過(guò)于簡(jiǎn)單,所以效果其實(shí)并不是太好。它的優(yōu)點(diǎn),其實(shí)跟下游 NLP 任務(wù)有關(guān),比如生成類(lèi) NLP 任務(wù),比如文本摘要,機器翻譯等,在實(shí)際生成內容的時(shí)候,就是從左向右的,自回歸語(yǔ)言模型天然匹配這個(gè)過(guò)程。而 Bert 這種 DAE 模式,在生成類(lèi) NLP 任務(wù)中,就面臨訓練過(guò)程和應用過(guò)程不一致的問(wèn)題,導致生成類(lèi)的 NLP 任務(wù)到目前為止都做不太好。
  自編碼語(yǔ)言模型 ( Autoencoder LM )
  自回歸語(yǔ)言模型只能根據上文預測下一個(gè)單詞,或者反過(guò)來(lái),只能根據下文預測前面一個(gè)單詞。相比而言,Bert 通過(guò)在輸入 X 中隨機 Mask 掉一部分單詞,然后預訓練過(guò)程的主要任務(wù)之一是根據上下文單詞來(lái)預測這些被 Mask 掉的單詞,如果你對 Denoising Autoencoder 比較熟悉的話(huà),會(huì )看出,這確實(shí)是典型的 DAE 的思路。那些被 Mask 掉的單詞就是在輸入側加入的所謂噪音。類(lèi)似Bert這種預訓練模式,被稱(chēng)為 DAE LM 。
  這種 DAE LM 的優(yōu)缺點(diǎn)正好和自回歸 LM 反過(guò)來(lái),它能比較自然地融入雙向語(yǔ)言模型,同時(shí)看到被預測單詞的上文和下文,這是好處。缺點(diǎn)是啥呢?主要在輸入側引入 [Mask] 標記,導致預訓練階段和 Fine-tuning 階段不一致的問(wèn)題,因為 Fine-tuning 階段是看不到 [Mask] 標記的。DAE 嗎,就要引入噪音,[Mask] 標記就是引入噪音的手段,這個(gè)正常。
  XLNet 的出發(fā)點(diǎn)就是:能否融合自回歸 LM 和 DAE LM 兩者的優(yōu)點(diǎn)。就是說(shuō)如果站在自回歸 LM 的角度,如何引入和雙向語(yǔ)言模型等價(jià)的效果;如果站在 DAE LM 的角度看,它本身是融入雙向語(yǔ)言模型的,如何拋掉表面的那個(gè) [Mask] 標記,讓預訓練和 Fine-tuning 保持一致。當然,XLNet 還講到了一個(gè) Bert 被 Mask 單詞之間相互獨立的問(wèn)題,我相信這個(gè)不太重要,原因后面會(huì )說(shuō)。當然,我認為這點(diǎn)不重要的事情,純粹是個(gè)人觀(guān)點(diǎn),出錯難免,看看就完了,不用較真。
  XLNet 做了些什么
  上文說(shuō)過(guò),Bert 這種自編碼語(yǔ)言模型的好處是:能夠同時(shí)利用上文和下文,所以信息利用充分。對于很多 NLP 任務(wù)而言,典型的比如閱讀理解,在解決問(wèn)題的時(shí)候,是能夠同時(shí)看到上文和下文的,所以當然應該把下文利用起來(lái)。在 Bert 原始論文中,與 GPT1.0 的實(shí)驗對比分析也可以看出來(lái),BERT 相對 GPT 1.0 的性能提升,主要來(lái)自于雙向語(yǔ)言模型與單向語(yǔ)言模型的差異。這是 Bert 的好處,很明顯,Bert 之后的改進(jìn)模型,如果不能把雙向語(yǔ)言模型用起來(lái),那明顯是很吃虧的。當然,GPT 2.0 的作者不信這個(gè)邪,堅持沿用 GPT 1.0 單向語(yǔ)言模型的舊瓶,裝進(jìn)去了更高質(zhì)量更大規模預訓練數據的新酒,而它的實(shí)驗結果也說(shuō)明了,如果想改善預訓練語(yǔ)言模型,走這條擴充預序列模型訓練數據的路子,是個(gè)多快好但是不省錢(qián)的方向。這也進(jìn)一步說(shuō)明了,預訓練 LM 這條路,還遠遠沒(méi)有走完,還有很大的提升空間,比如最簡(jiǎn)單的提升方法就是加大數據規模,提升數據質(zhì)量。
  但是 Bert 的自編碼語(yǔ)言模型也有對應的缺點(diǎn),就是 XLNet 在文中指出的,第一個(gè)預訓練階段因為采取引入 [Mask] 標記來(lái) Mask 掉部分單詞的訓練模式,而 Fine-tuning 階段是看不到這種被強行加入的 Mask 標記的,所以?xún)蓚€(gè)階段存在使用模式不一致的情形,這可能會(huì )帶來(lái)一定的性能損失;另外一個(gè)是,Bert 在第一個(gè)預訓練階段,假設句子中多個(gè)單詞被 Mask 掉,這些被 Mask 掉的單詞之間沒(méi)有任何關(guān)系,是條件獨立的,而有時(shí)候這些單詞之間是有關(guān)系的,XLNet 則考慮了這種關(guān)系(關(guān)于這點(diǎn)原因是否可靠,后面會(huì )專(zhuān)門(mén)分析)。
  上面兩點(diǎn)是 XLNet 在第一個(gè)預訓練階段,相對 Bert 來(lái)說(shuō)要解決的兩個(gè)問(wèn)題。
  其實(shí)從另外一個(gè)角度更好理解 XLNet 的初衷和做法,我覺(jué)得這個(gè)估計是 XLNet 作者真正的思考出發(fā)點(diǎn),是啥呢?就是說(shuō)自回歸語(yǔ)言模型有個(gè)缺點(diǎn),要么從左到右,要么從右到左,盡管可以類(lèi)似 ELMO 兩個(gè)都做,然后再拼接的方式。但是跟 Bert 比,效果明顯不足夠好(這里面有 RNN 弱于 Transformer 的因素,也有雙向語(yǔ)言模型怎么做的因素)。那么,能不能類(lèi)似 Bert 那樣,比較充分地在自回歸語(yǔ)言模型中,引入雙向語(yǔ)言模型呢?因為 Bert 已經(jīng)證明了這是非常關(guān)鍵的一點(diǎn)。這一點(diǎn),想法簡(jiǎn)單,但是看上去貌似不太好做,因為從左向右的語(yǔ)言模型,如果我們當前根據上文,要預測某個(gè)單詞 Ti ,那么看上去它沒(méi)法看到下文的內容。具體怎么做才能讓這個(gè)模型:看上去仍然是從左向右的輸入和預測模式,但是其實(shí)內部已經(jīng)引入了當前單詞的下文信息呢?XLNet 在模型方面的主要貢獻其實(shí)是在這里。
  那么 XLNet 是怎么做到這一點(diǎn)的呢?其實(shí)思路也比較簡(jiǎn)潔,可以這么思考:XLNet 仍然遵循兩階段的過(guò)程,第一個(gè)階段是語(yǔ)言模型預訓練階段;第二階段是任務(wù)數據 Fine-tuning 階段。它主要希望改動(dòng)第一個(gè)階段,就是說(shuō)不像 Bert 那種帶 Mask 符號的 Denoising-autoencoder 的模式,而是采用自回歸 LM 的模式。就是說(shuō),看上去輸入句子 X 仍然是自左向右的輸入,看到 Ti 單詞的上文 Context_before ,來(lái)預測 Ti 這個(gè)單詞。但是又希望在 Context_before 里,不僅僅看到上文單詞,也能看到 Ti 單詞后面的下文 Context_after 里的下文單詞,這樣的話(huà),Bert 里面預訓練階段引入的 Mask 符號就不需要了,于是在預訓練階段,看上去是個(gè)標準的從左向右過(guò)程,Fine-tuning 當然也是這個(gè)過(guò)程,于是兩個(gè)環(huán)節就統一起來(lái)。當然,這是目標。剩下是怎么做到這一點(diǎn)的問(wèn)題。
  那么,怎么能夠在單詞 Ti 的上文中 Contenxt_before 中揉入下文 Context_after 的內容呢?你可以想想。XLNet 是這么做的,在預訓練階段,引入 Permutation Language Model 的訓練目標。什么意思呢?就是說(shuō),比如包含單詞 Ti 的當前輸入的句子 X ,由順序的幾個(gè)單詞構成,比如 x1,x2,x3,x4 四個(gè)單詞順序構成。我們假設,其中,要預測的單詞 Ti 是 x3 ,位置在 Position 3 ,要想讓它能夠在上文 Context_before 中,也就是 Position 1 或者 Position 2 的位置看到 Position 4 的單詞 x4 ??梢赃@么做:假設我們固定住 x3 所在位置,就是它仍然在 Position 3 ,之后隨機排列組合句子中的4個(gè)單詞,在隨機排列組合后的各種可能里,再選擇一部分作為模型預訓練的輸入 X 。比如隨機排列組合后,抽取出 x4,x2,x3,x1 這一個(gè)排列組合作為模型的輸入 X 。于是,x3 就能同時(shí)看到上文 x2 ,以及下文 x4 的內容了。這就是 XLNet 的基本思想,所以說(shuō),看了這個(gè)就可以理解上面講的它的初衷了吧:看上去仍然是個(gè)自回歸的從左到右的語(yǔ)言模型,但是其實(shí)通過(guò)對句子中單詞排列組合,把一部分 Ti 下文的單詞排到 Ti 的上文位置中,于是,就看到了上文和下文,但是形式上看上去仍然是從左到右在預測后一個(gè)單詞。
  當然,上面講的仍然是基本思想。難點(diǎn)其實(shí)在于具體怎么做才能實(shí)現上述思想。首先,需要強調一點(diǎn),盡管上面講的是把句子 X 的單詞排列組合后,再隨機抽取例子作為輸入,但是,實(shí)際上你是不能這么做的,因為 Fine-tuning 階段你不可能也去排列組合原始輸入。所以,就必須讓預訓練階段的輸入部分,看上去仍然是 x1,x2,x3,x4 這個(gè)輸入順序,但是可以在 Transformer 部分做些工作,來(lái)達成我們希望的目標。具體而言,XLNet 采取了 Attention 掩碼的機制,你可以理解為,當前的輸入句子是 X ,要預測的單詞 Ti 是第 i 個(gè)單詞,前面1到 i-1 個(gè)單詞,在輸入部分觀(guān)察,并沒(méi)發(fā)生變化,該是誰(shuí)還是誰(shuí)。但是在 Transformer 內部,通過(guò) Attention 掩碼,從 X 的輸入單詞里面,也就是 Ti 的上文和下文單詞中,隨機選擇 i-1 個(gè),放到 Ti 的上文位置中,把其它單詞的輸入通過(guò) Attention 掩碼隱藏掉,于是就能夠達成我們期望的目標(當然這個(gè)所謂放到 Ti 的上文位置,只是一種形象的說(shuō)法,其實(shí)在內部,就是通過(guò) Attention Mask ,把其它沒(méi)有被選到的單詞 Mask 掉,不讓它們在預測單詞 Ti 的時(shí)候發(fā)生作用,如此而已??粗?zhù)就類(lèi)似于把這些被選中的單詞放到了上文 Context_before 的位置了)。具體實(shí)現的時(shí)候,XLNet 是用“雙流自注意力模型”實(shí)現的,細節可以參考論文,但是基本思想就如上所述,雙流自注意力機制只是實(shí)現這個(gè)思想的具體方式,理論上,你可以想出其它具體實(shí)現方式來(lái)實(shí)現這個(gè)基本思想,也能達成讓Ti看到下文單詞的目標。
  
  這里簡(jiǎn)單說(shuō)下“雙流自注意力機制”,一個(gè)是內容流自注意力,其實(shí)就是標準的 Transformer 的計算過(guò)程;主要是引入了 Query 流自注意力,這個(gè)是干嘛的呢?其實(shí)就是用來(lái)代替 Bert 的那個(gè) [Mask] 標記的,因為 XLNet 希望拋掉 [Mask] 標記符號,但是比如知道上文單詞 x1,x2 ,要預測單詞 x3 ,此時(shí)在 x3 對應位置的 Transformer 最高層去預測這個(gè)單詞,但是輸入側不能看到要預測的單詞 x3 ,Bert 其實(shí)是直接引入 [Mask] 標記來(lái)覆蓋掉單詞 x3 的內容的,等于說(shuō) [Mask] 是個(gè)通用的占位符號。而 XLNet 因為要拋掉 [Mask] 標記,但是又不能看到 x3 的輸入,于是 Query 流,就直接忽略掉 x3 輸入了,只保留這個(gè)位置信息,用參數 w 來(lái)代表位置的 embedding 編碼。其實(shí) XLNet 只是扔了表面的 [Mask] 占位符號,內部還是引入 Query 流來(lái)忽略掉被 Mask 的這個(gè)單詞。和 Bert 比,只是實(shí)現方式不同而已。
  上面說(shuō)的 Attention 掩碼,我估計你還是沒(méi)了解它的意思,我再用例子解釋一下。Attention Mask 的機制,核心就是說(shuō),盡管當前輸入看上去仍然是 x1->x2->x3->x4 ,但是我們已經(jīng)改成隨機排列組合的另外一個(gè)順序 x3->x2->x4->x1 了,如果用這個(gè)例子用來(lái)從左到右訓練 LM ,意味著(zhù)當預測 x2 的時(shí)候,它只能看到上文 x3 ;當預測 x4 的時(shí)候,只能看到上文 x1 和 x2 ,以此類(lèi)推……這樣,比如對于 x2 來(lái)說(shuō),就看到了下文 x3 了。這種在輸入側維持表面的 X 句子單詞順序,但是其實(shí)在 Transformer 內部,看到的已經(jīng)是被重新排列組合后的順序,是通過(guò) Attention 掩碼來(lái)實(shí)現的。如上圖所示,輸入看上去仍然是 x1,x2,x3,x4 ,可以通過(guò)不同的掩碼矩陣,讓當前單詞 Xi 只能看到被排列組合后的順序 x3->x2->x4->x1 中自己前面的單詞。這樣就在內部改成了被預測單詞同時(shí)看到上下文單詞,但是輸入側看上去仍然維持原先的單詞順序了。關(guān)鍵要看明白上圖右側那個(gè)掩碼矩陣,我相信很多人剛開(kāi)始沒(méi)看明白,因為我剛開(kāi)始也沒(méi)看明白,因為沒(méi)有標出掩碼矩陣的單詞坐標,它的坐標是1-2-3-4,就是表面那個(gè) X 的單詞順序,通過(guò)掩碼矩陣,就能改成你想要的排列組合,并讓當前單詞看到它該看到的所謂上文,其實(shí)是摻雜了上文和下文的內容。這是 attention mask 來(lái)實(shí)現排列組合的背后的意思。
  上面講的 Permutation Language Model 是 XLNet 的主要理論創(chuàng )新,所以介紹的比較多,從模型角度講,這個(gè)創(chuàng )新還是挺有意思的,因為它開(kāi)啟了自回歸語(yǔ)言模型如何引入下文的一個(gè)思路,相信對于后續工作會(huì )有啟發(fā)。當然,XLNet 不僅僅做了這些,它還引入了其它的因素,也算是一個(gè)當前有效技術(shù)的集成體。感覺(jué) XLNet 就是 Bert、GPT 2.0 和 Transformer XL 的綜合體變身,首先,它通過(guò) PLM 預訓練目標,吸收了 Bert 的雙向語(yǔ)言模型;然后,GPT2.0 的核心其實(shí)是更多更高質(zhì)量的預訓練數據,這個(gè)明顯也被 XLNet 吸收進(jìn)來(lái)了;再然后,Transformer XL 的主要思想也被吸收進(jìn)來(lái),它的主要目標是解決 Transformer 對于長(cháng)文檔 NLP 應用不夠友好的問(wèn)題。
  以上是 XLNet 的幾個(gè)主要改進(jìn)點(diǎn),有模型創(chuàng )新方面的,有其它模型引入方面的,也有數據擴充方面的。那么,這些因素各自起到了什么作用呢?在后面我們會(huì )談。在談不同因素各自作用之前,我們先分析下 XLNet 和 Bert 的異同問(wèn)題。
  與 Bert 的預訓練過(guò)程的異同問(wèn)題
  盡管看上去,XLNet 在預訓練機制引入的 Permutation Language Model 這種新的預訓練目標,和 Bert 采用 Mask 標記這種方式,有很大不同。其實(shí)你深入思考一下,會(huì )發(fā)現,兩者本質(zhì)是類(lèi)似的。區別主要在于:Bert 是直接在輸入端顯示地通過(guò)引入 Mask 標記,在輸入側隱藏掉一部分單詞,讓這些單詞在預測的時(shí)候不發(fā)揮作用,要求利用上下文中其它單詞去預測某個(gè)被 Mask 掉的單詞;而 XLNet 則拋棄掉輸入側的 Mask 標記,通過(guò) Attention Mask 機制,在 Transformer 內部隨機 Mask 掉一部分單詞(這個(gè)被 Mask 掉的單詞比例跟當前單詞在句子中的位置有關(guān)系,位置越靠前,被 Mask 掉的比例越高,位置越靠后,被 Mask 掉的比例越低),讓這些被 Mask 掉的單詞在預測某個(gè)單詞的時(shí)候不發(fā)生作用。所以,本質(zhì)上兩者并沒(méi)什么太大的不同,只是 Mask 的位置,Bert 更表面化一些,XLNet 則把這個(gè)過(guò)程隱藏在了 Transformer 內部而已。這樣,就可以?huà)伒舯砻娴?[Mask] 標記,解決它所說(shuō)的預訓練里帶有 [Mask] 標記導致的和 Fine-tuning 過(guò)程不一致的問(wèn)題。至于說(shuō) XLNet 說(shuō)的,Bert 里面被 Mask 掉單詞的相互獨立問(wèn)題,也就是說(shuō),在預測某個(gè)被 Mask 單詞的時(shí)候,其它被 Mask 單詞不起作用,這個(gè)問(wèn)題,你深入思考一下,其實(shí)是不重要的,因為 XLNet 在內部 Attention Mask 的時(shí)候,也會(huì ) Mask 掉一定比例的上下文單詞,只要有一部分被 Mask 掉的單詞,其實(shí)就面臨這個(gè)問(wèn)題。而如果訓練數據足夠大,其實(shí)不靠當前這個(gè)例子,靠其它例子,也能彌補被 Mask 單詞直接的相互關(guān)系問(wèn)題,因為總有其它例子能夠學(xué)會(huì )這些單詞的相互依賴(lài)關(guān)系。
  我相信,通過(guò)改造 Bert 的預訓練過(guò)程,其實(shí)是可以模擬 XLNet 的 Permutation Language Model 過(guò)程的:Bert 目前的做法是,給定輸入句子 X ,隨機 Mask 掉15%的單詞,然后要求利用剩下的85%的單詞去預測任意一個(gè)被 Mask 掉的單詞,被 Mask 掉的單詞在這個(gè)過(guò)程中相互之間沒(méi)有發(fā)揮作用。如果我們把 Bert 的預訓練過(guò)程改造成:對于輸入句子,隨機選擇其中任意一個(gè)單詞 Ti ,只把這個(gè)單詞改成 Mask 標記,假設 Ti 在句子中是第 i 個(gè)單詞,那么此時(shí)隨機選擇 X 中的任意 i 個(gè)單詞,只用這 i 個(gè)單詞去預測被 Mask 掉的單詞。當然,這個(gè)過(guò)程理論上也可以在 Transformer 內采用 attention mask 來(lái)實(shí)現。如果是這樣,其實(shí) Bert 的預訓練模式就和 XLNet 是基本等價(jià)的了。
  或者換個(gè)角度思考,假設仍然利用 Bert 目前的 Mask 機制,但是把 Mask 掉15%這個(gè)條件極端化,改成,每次一個(gè)句子只 Mask 掉一個(gè)單詞,利用剩下的單詞來(lái)預測被 Mask 掉的單詞。那么,這個(gè)過(guò)程其實(shí)跟 XLNet 的 PLM 也是比較相像的,區別主要在于每次預測被 Mask 掉的單詞的時(shí)候,利用的上下文更多一些(XLNet 在實(shí)現的時(shí)候,為了提升效率,其實(shí)也是選擇每個(gè)句子最后末尾的 1/K 單詞被預測,假設 K=7 ,意味著(zhù)一個(gè)句子 X ,只有末尾的 1/7 的單詞會(huì )被預測,這意味著(zhù)什么呢?意味著(zhù)至少保留了 6/7 的 Context 單詞去預測某個(gè)單詞,對于最末尾的單詞,意味著(zhù)保留了所有的句子中 X 的其它單詞,這其實(shí)和上面提到的 Bert 只保留一個(gè)被 Mask 單詞是一樣的)?;蛘呶覀冋驹?Bert 預訓練的角度來(lái)考慮 XLNet ,如果 XLNet 改成對于句子 X ,只需要預測句子中最后一個(gè)單詞,而不是最后的 1/K ( 就是假設 K 特別大的情況 ) ,那么其實(shí)和 Bert 每個(gè)輸入句子只 Mask 掉一個(gè)單詞,兩者基本是等價(jià)的。
  當然,XLNet 這種改造,維持了表面看上去的自回歸語(yǔ)言模型的從左向右的模式,這個(gè) Bert 做不到,這個(gè)有明顯的好處,就是對于生成類(lèi)的任務(wù),能夠在維持表面從左向右的生成過(guò)程前提下,模型里隱含了上下文的信息。所以看上去,XLNet 貌似應該對于生成類(lèi)型的 NLP 任務(wù),會(huì )比 Bert 有明顯優(yōu)勢。另外,因為 XLNet 還引入了 Transformer XL 的機制,所以對于長(cháng)文檔輸入類(lèi)型的 NLP 任務(wù),也會(huì )比 Bert 有明顯優(yōu)勢。
  哪些因素在起作用?
  如上分析,XLNet 有個(gè)好處,但是感覺(jué)同時(shí)也是個(gè)問(wèn)題,那就是:XLNet 其實(shí)同時(shí)引入了很多因素在模型里。說(shuō)是好處,因為實(shí)驗證明了這樣效果確實(shí)好,即使是跟 Bert_Large 這種非常強的基準模型比也是,尤其是長(cháng)文檔任務(wù),這個(gè)效果提升比較明顯;說(shuō)是問(wèn)題,是因為其實(shí)應該在實(shí)驗部分充分說(shuō)明,如果模型起了作用,這些因素各自發(fā)揮了多大作用,尤其是在跟 Bert 進(jìn)行對比的時(shí)候,感覺(jué)應該把數據規模這個(gè)變量磨平進(jìn)行比較,因為這才是單純的模型差異導致的性能差異,而不是訓練數據量引發(fā)的差異。當然,XLNet 最后一組實(shí)驗是把這個(gè)預訓練數據規模差異磨平后,和 Bert 比較的,所以信息含量更大些。而前面的幾組實(shí)驗,因為天然存在預訓練數據量的差異,所以模型導致的差異到底有多大,看得不太明顯。引入了 Transformer-XL 的主要思路:相對位置編碼以及分段 RNN 機制。實(shí)踐已經(jīng)證明這兩點(diǎn)對于長(cháng)文檔任務(wù)是很有幫助的。
  我們上文提到過(guò),XLNet 起作用的,如果宏觀(guān)歸納一下,共有三個(gè)因素;
  1. 與 Bert 采取 De-noising Autoencoder 方式不同的新的預訓練目標:Permutation Language Model ( 簡(jiǎn)稱(chēng) PLM ) ;這個(gè)可以理解為在自回歸 LM 模式下,如何采取具體手段,來(lái)融入雙向語(yǔ)言模型。這個(gè)是 XLNet 在模型角度比較大的貢獻,確實(shí)也打開(kāi)了 NLP 中兩階段模式潮流的一個(gè)新思路。
  2. 引入了 Transformer-XL 的主要思路:相對位置編碼以及分段 RNN 機制。實(shí)踐已經(jīng)證明這兩點(diǎn)對于長(cháng)文檔任務(wù)是很有幫助的;
  加大增加了預訓練階段使用的數據規模;Bert 使用的預訓練數據是 BooksCorpus 和英文 Wiki 數據,大小 13G 。XLNet 除了使用這些數據外,另外引入了 Giga5,ClueWeb 以及 Common Crawl 數據,并排掉了其中的一些低質(zhì)量數據,大小分別是 16G,19G 和 78G ??梢钥闯?,在預訓練階段極大擴充了數據規模,并對質(zhì)量進(jìn)行了篩選過(guò)濾。這個(gè)明顯走的是 GPT2.0 的路線(xiàn)。
  所以實(shí)驗部分需要仔細分析,提升到底是上述哪個(gè)因素或者是哪幾個(gè)因素導致的性能提升?
  我們把實(shí)驗分成幾個(gè)部分來(lái)分析。
  首先,給人最大的印象是:XLNet 對于閱讀理解類(lèi)任務(wù),相對 Bert ,性能有極大幅度地提升。下面是論文報道的實(shí)驗結果:
  其中,RACE 和 SQuAD 2.0 是文檔長(cháng)度較長(cháng)的閱讀理解任務(wù),任務(wù)難度也相對高??梢钥闯?,在這兩個(gè)任務(wù)中,XLNet 相對 Bert_Large ,確實(shí)有大幅性能提升 ( Race 提升13.5%,SQuAD 2.0 F1 指標提升8.6 ) 。在 Squad1.1 上提升盡管稍微小些,F1 提升3.9%,但是因為基準高,所以提升也比較明顯。
  
  說(shuō) XLNet 在閱讀理解,尤其是長(cháng)文檔的閱讀理解中,性能大幅超過(guò) Bert ,這個(gè)是沒(méi)疑問(wèn)的。但是,因為 XLNet 融入了上文說(shuō)的三個(gè)因素,所以不確定每個(gè)因素在其中起的作用有多大,而對于長(cháng)文檔,Transformer XL 的引入肯定起了比較大的作用,Bert 天然在這種類(lèi)型任務(wù)中有缺點(diǎn),其它兩類(lèi)因素的作用不清楚。感覺(jué)這里應該增加一個(gè)基準,就是 Bert 用與 XLNet 相同大小的預訓練數據做,這樣抹平數據量差異,更好比較模型差異帶來(lái)的效果差異。當然,我覺(jué)得即使是這樣,XLNet 應該仍然是比 Bert 效果好的,只是可能不會(huì )差距這么大,因為 XLNet 的長(cháng)文檔優(yōu)勢肯定會(huì )起作用。
  下面我們看下其它類(lèi)型的 NLP 任務(wù)。
  GLUE 是個(gè)綜合的 NLP 任務(wù)集合,包含各種類(lèi)型的任務(wù),因為 ensemble 模式里面包含了各種花式的 trick ,所以重點(diǎn)看上面一組實(shí)驗,這里比較單純。從實(shí)驗數據看,XLNet 相對 Bert 也有性能提升,當然不像閱讀理解提升那么大,而且性能提升比較大的集中在 RTE ,MNLI 和 COLA 數據集合,其它任務(wù)提升效果還好。而我一直覺(jué)得,RTE 在 GLUE 里,是個(gè)神奇的存在,如果沒(méi)有它,很多論文的效果可能沒(méi)法看,這個(gè)是閑話(huà),先不講了,后面我會(huì )單說(shuō)。
  當然,仍然不確定這種性能提升主要來(lái)自于 XLNet 的哪個(gè)因素,或者哪幾個(gè)因素各自的貢獻,尤其是如果 Bert 加大預訓練數據規模后,兩者性能差異有多大。感覺(jué)這里 Transformer XL 的因素可能發(fā)揮的作用不會(huì )太大,其它兩個(gè)因素在起作用,但是作用未知,這里感覺(jué)應該補充其它實(shí)驗。
  上面是文本分類(lèi)任務(wù)和信息檢索任務(wù),可以看出,相對 Bert,XLNet 效果有提升,但是幅度不算大。仍然是上面的考慮,起作用的三個(gè)因素,到底哪個(gè)發(fā)揮多大作用,從數據方面看不太出來(lái)。
  下面一組實(shí)驗可以仔細分析一下,這組實(shí)驗是排除掉上述第三個(gè)數據規模因素的實(shí)驗的對比,就是說(shuō) XLNet 用的是和 Bert 相同規模的預訓練數據,所以與 Bert 對比更具備模型方面的可比較性,而沒(méi)有數據規模的影響。實(shí)驗結果如下:
  如果仔細分析實(shí)驗數據,實(shí)驗結果說(shuō)明:
  因為和 Bert 比較,XLNet 使用相同的預訓練數據。所以?xún)烧叩男阅懿町悂?lái)自于:Permutation Language Model 預訓練目標以及 Transformer XL 的長(cháng)文檔因素。而從中可以看出,DAE+Transformer XL 體現的是長(cháng)文檔因素的差異,和 Bert 比,Race 提升1個(gè)點(diǎn),SQuAD F1 提升3個(gè)點(diǎn),MNLI 提升0.5個(gè)點(diǎn),SST-2 性能稍微下降。這是 Transformer XL 因素解決長(cháng)文檔因素帶來(lái)的收益,很明顯,長(cháng)文檔閱讀理解任務(wù)提升比較明顯,其它任務(wù)提升不太明顯。
  而通過(guò) XLNet 進(jìn)一步和 DAE+Transformer XL 及 Bert 比,這一點(diǎn)應該拆解出 Permutation Language Model 和 Mask 的方式差異??梢钥闯觯篨LNet 相對 DAE+Transformer XL 來(lái)說(shuō),Race 進(jìn)一步提升1個(gè)點(diǎn)左右;SQuAD 進(jìn)一步提升1.8個(gè)點(diǎn)左右,NMLI 提升1個(gè)點(diǎn)左右,SST-B 提升不到1個(gè)點(diǎn)。雖然不精準,但是大致是能說(shuō)明問(wèn)題的,這個(gè)應該大致是 PLM 帶來(lái)的模型收益??梢钥闯?,PLM 還是普遍有效的,但是提升幅度并非特別巨大。
  如果我們結合前面 Race 和 SQuAD 的實(shí)驗結果看(上面兩組實(shí)驗是三個(gè)因素的作用,后面是排除掉數據量差異的結果,所以?xún)烧叩牟罹?,很可能就是第三個(gè)因素:數據規模導致的差異,當然,因為一個(gè)是 Bert_base ,一個(gè)是 Bert_Large ,所以不具備完全可比性,但是大致估計不會(huì )偏離真實(shí)結論太遠),Race 數據集合三因素同時(shí)具備的 XLNet ,超過(guò) Bert 絕對值大約9個(gè)多百分點(diǎn),Transformer 因素 +PLM 因素估計貢獻大約在2到4個(gè)點(diǎn)之間,那么意味著(zhù)預訓練數據量導致的差異大概在4到5個(gè)點(diǎn)左右;類(lèi)似的,可以看出,SQuAD 2.0 中,預訓練數據量導致的差異大約在2到3個(gè)點(diǎn)左右,也就是說(shuō),估計訓練數據量帶來(lái)的提升,在閱讀理解任務(wù)中大約占比30%到40%左右。
  如果從實(shí)驗結果歸納一下的話(huà),可以看出:XLNet 綜合而言,效果是優(yōu)于 Bert 的,尤其是在長(cháng)文檔類(lèi)型任務(wù),效果提升明顯。如果進(jìn)一步拆解的話(huà),因為對比實(shí)驗不足,只能做個(gè)粗略的結論:預訓練數據量的提升,大概帶來(lái)30%左右的性能提升,其它兩個(gè)模型因素帶來(lái)剩余的大約70%的性能提升。當然,這個(gè)主要指的是 XLNet 性能提升比較明顯的閱讀理解類(lèi)任務(wù)而言。對于其它類(lèi)型任務(wù),感覺(jué) Transformer XL 的因素貢獻估計不會(huì )太大,主要應該是其它兩個(gè)因素在起作用。
  對 NLP 應用任務(wù)的影響
  XLNet 其實(shí)本質(zhì)上還是 ELMO/GPT/Bert 這一系列兩階段模型的進(jìn)一步延伸。在將自回歸 LM 方向引入雙向語(yǔ)言模型方面,感覺(jué)打開(kāi)了一個(gè)新思路,這點(diǎn)還是非常對人有啟發(fā)的。當然,如果深入思考,其實(shí)和 Bert 并沒(méi)有太大的不同。
  如果讓我推論下 XLNet 的出現,對后續 NLP 工作的影響,我覺(jué)得跟 Bert 比,最直接的影響應該有兩個(gè),一個(gè)是對于 Bert 長(cháng)文檔的應用,因為 Transformer 天然對長(cháng)文檔任務(wù)處理有弱點(diǎn),所以 XLNet 對于長(cháng)文檔 NLP 任務(wù)相比 Bert 應該有直接且比較明顯的性能提升作用,它在論文中也證明了這點(diǎn)。所以,以后長(cháng)文檔類(lèi)型的 NLP 應用,XLNet 明顯跟 Bert 比占優(yōu)勢。當然,你說(shuō)我把 Transformer XL 的因素引入 Bert ,然后繼續在 Bert 上做改進(jìn),明顯這也是可以的。
  第二點(diǎn),對于生成類(lèi)的 NLP 任務(wù),到目前為止,盡管出了一些改進(jìn)模型,但是從效果看,Bert 仍然不能很好地處理。而因為 XLNet 的預訓練模式天然符合下游任務(wù)序列生成結果,所以按理說(shuō)能夠直接通過(guò)引入 XLNet 來(lái)改進(jìn)生成類(lèi) NLP 任務(wù)的效果。所以,這點(diǎn)估計是 XLNet 會(huì )明顯占優(yōu)勢的一個(gè)領(lǐng)域。
  可以預計的是,很快我們就會(huì )看到 XLNet 在文本摘要,機器翻譯,信息檢索…..等符合上述 XLNet 應用領(lǐng)域特點(diǎn)和優(yōu)勢領(lǐng)域的應用結果,以及在這些任務(wù)上的進(jìn)一步改進(jìn)模型。當然,這個(gè)有點(diǎn)比手速的意思,有意者請盡快動(dòng)手把結果扔出來(lái)。
  又給你了一個(gè)拼手速的機會(huì ),加油吧,少年!
  作者介紹:
  張俊林,中國中文信息學(xué)會(huì )理事,中科院軟件所博士。目前在新浪微博 AI Lab 擔任資深算法專(zhuān)家。在此之前,張俊林曾經(jīng)在阿里巴巴任資深技術(shù)專(zhuān)家并負責新技術(shù)團隊,以及在百度和用友擔任技術(shù)經(jīng)理及技術(shù)總監等職務(wù)。同時(shí)他是技術(shù)書(shū)籍《這就是搜索引擎:核心技術(shù)詳解》(該書(shū)榮獲全國第十二屆優(yōu)秀圖書(shū)獎)、《大數據日知錄:架構與算法》的作者。 查看全部

  XLNet : 運行機制及和 Bert 的異同比較
  出品社區:DataFun
  注:文末有驚喜,等你呦。
  這兩天,XLNet 貌似也引起了 NLP 圈的極大關(guān)注,從實(shí)驗數據看,在某些場(chǎng)景下,確實(shí) XLNet 相對 Bert 有很大幅度的提升。就像我們之前說(shuō)的,感覺(jué) Bert 打開(kāi)兩階段模式的魔法盒開(kāi)關(guān)后,在這條路上,會(huì )有越來(lái)越多的同行者,而 XLNet 就是其中比較引人注目的一位。當然,我估計很快我們會(huì )看到更多的這個(gè)模式下的新工作。未來(lái)兩年,在兩階段新模式 ( 預訓練 + Finetuning ) 下,應該會(huì )有更多的好工作涌現出來(lái)。根本原因在于:這個(gè)模式的潛力還沒(méi)有被充分挖掘,貌似還有很大的提升空間。當然,這也意味著(zhù) NLP 在未來(lái)兩年會(huì )有各種技術(shù)或者應用的突破,現在其實(shí)是進(jìn)入 NLP 領(lǐng)域非常好的時(shí)機。原因有兩個(gè),一個(gè)是 NLP 正面臨一個(gè)技術(shù)棧大的改朝換代的時(shí)刻,有很多空白等著(zhù)你去填補,容易出成績(jì);另外一點(diǎn),貌似 Bert+Transformer 有統一 NLP 各個(gè)應用領(lǐng)域的趨向,這意味著(zhù)此時(shí)進(jìn)入 NLP 領(lǐng)域,具備學(xué)習成本非常低的好處,和之前相比,投入產(chǎn)出比非常合算。這是兩個(gè)原因。當然,即使如此,想要學(xué)好 NLP ,持續的精力投入是必不可少的。有句老話(huà)說(shuō)得好:“永恒的愛(ài)大約持續三個(gè)月”,這句話(huà)其實(shí)對于很多對 NLP 感興趣的同學(xué)也成立:“對 NLP 的永恒的熱情大約能夠持續3到5天”,希望真的有興趣的同學(xué)能堅持一下,起碼持續7到8天,湊夠一個(gè)星期…..
  那么 XLNet 和 Bert 比,有什么異同?有什么模型方面的改進(jìn)?在哪些場(chǎng)景下特別有效?原因又是什么?本文通過(guò)論文思想解讀及實(shí)驗結果分析,試圖回答上述問(wèn)題。
  首先,XLNet 引入了自回歸語(yǔ)言模型以及自編碼語(yǔ)言模型的提法,這個(gè)思維框架我覺(jué)得挺好的,可以先簡(jiǎn)單說(shuō)明下。
  自回歸語(yǔ)言模型 ( Autoregressive LM )
  在 ELMO / BERT 出來(lái)之前,大家通常講的語(yǔ)言模型其實(shí)是根據上文內容預測下一個(gè)可能跟隨的單詞,就是常說(shuō)的自左向右的語(yǔ)言模型任務(wù),或者反過(guò)來(lái)也行,就是根據下文預測前面的單詞,這種類(lèi)型的 LM 被稱(chēng)為自回歸語(yǔ)言模型。GPT 就是典型的自回歸語(yǔ)言模型。ELMO 盡管看上去利用了上文,也利用了下文,但是本質(zhì)上仍然是自回歸 LM ,這個(gè)跟模型具體怎么實(shí)現有關(guān)系。ELMO 是做了兩個(gè)方向 ( 從左到右以及從右到左兩個(gè)方向的語(yǔ)言模型 ) ,但是是分別有兩個(gè)方向的自回歸 LM ,然后把 LSTM 的兩個(gè)方向的隱節點(diǎn)狀態(tài)拼接到一起,來(lái)體現雙向語(yǔ)言模型這個(gè)事情的。所以其實(shí)是兩個(gè)自回歸語(yǔ)言模型的拼接,本質(zhì)上仍然是自回歸語(yǔ)言模型。
  自回歸語(yǔ)言模型有優(yōu)點(diǎn)有缺點(diǎn),缺點(diǎn)是只能利用上文或者下文的信息,不能同時(shí)利用上文和下文的信息,當然,貌似 ELMO 這種雙向都做,然后拼接看上去能夠解決這個(gè)問(wèn)題,因為融合模式過(guò)于簡(jiǎn)單,所以效果其實(shí)并不是太好。它的優(yōu)點(diǎn),其實(shí)跟下游 NLP 任務(wù)有關(guān),比如生成類(lèi) NLP 任務(wù),比如文本摘要,機器翻譯等,在實(shí)際生成內容的時(shí)候,就是從左向右的,自回歸語(yǔ)言模型天然匹配這個(gè)過(guò)程。而 Bert 這種 DAE 模式,在生成類(lèi) NLP 任務(wù)中,就面臨訓練過(guò)程和應用過(guò)程不一致的問(wèn)題,導致生成類(lèi)的 NLP 任務(wù)到目前為止都做不太好。
  自編碼語(yǔ)言模型 ( Autoencoder LM )
  自回歸語(yǔ)言模型只能根據上文預測下一個(gè)單詞,或者反過(guò)來(lái),只能根據下文預測前面一個(gè)單詞。相比而言,Bert 通過(guò)在輸入 X 中隨機 Mask 掉一部分單詞,然后預訓練過(guò)程的主要任務(wù)之一是根據上下文單詞來(lái)預測這些被 Mask 掉的單詞,如果你對 Denoising Autoencoder 比較熟悉的話(huà),會(huì )看出,這確實(shí)是典型的 DAE 的思路。那些被 Mask 掉的單詞就是在輸入側加入的所謂噪音。類(lèi)似Bert這種預訓練模式,被稱(chēng)為 DAE LM 。
  這種 DAE LM 的優(yōu)缺點(diǎn)正好和自回歸 LM 反過(guò)來(lái),它能比較自然地融入雙向語(yǔ)言模型,同時(shí)看到被預測單詞的上文和下文,這是好處。缺點(diǎn)是啥呢?主要在輸入側引入 [Mask] 標記,導致預訓練階段和 Fine-tuning 階段不一致的問(wèn)題,因為 Fine-tuning 階段是看不到 [Mask] 標記的。DAE 嗎,就要引入噪音,[Mask] 標記就是引入噪音的手段,這個(gè)正常。
  XLNet 的出發(fā)點(diǎn)就是:能否融合自回歸 LM 和 DAE LM 兩者的優(yōu)點(diǎn)。就是說(shuō)如果站在自回歸 LM 的角度,如何引入和雙向語(yǔ)言模型等價(jià)的效果;如果站在 DAE LM 的角度看,它本身是融入雙向語(yǔ)言模型的,如何拋掉表面的那個(gè) [Mask] 標記,讓預訓練和 Fine-tuning 保持一致。當然,XLNet 還講到了一個(gè) Bert 被 Mask 單詞之間相互獨立的問(wèn)題,我相信這個(gè)不太重要,原因后面會(huì )說(shuō)。當然,我認為這點(diǎn)不重要的事情,純粹是個(gè)人觀(guān)點(diǎn),出錯難免,看看就完了,不用較真。
  XLNet 做了些什么
  上文說(shuō)過(guò),Bert 這種自編碼語(yǔ)言模型的好處是:能夠同時(shí)利用上文和下文,所以信息利用充分。對于很多 NLP 任務(wù)而言,典型的比如閱讀理解,在解決問(wèn)題的時(shí)候,是能夠同時(shí)看到上文和下文的,所以當然應該把下文利用起來(lái)。在 Bert 原始論文中,與 GPT1.0 的實(shí)驗對比分析也可以看出來(lái),BERT 相對 GPT 1.0 的性能提升,主要來(lái)自于雙向語(yǔ)言模型與單向語(yǔ)言模型的差異。這是 Bert 的好處,很明顯,Bert 之后的改進(jìn)模型,如果不能把雙向語(yǔ)言模型用起來(lái),那明顯是很吃虧的。當然,GPT 2.0 的作者不信這個(gè)邪,堅持沿用 GPT 1.0 單向語(yǔ)言模型的舊瓶,裝進(jìn)去了更高質(zhì)量更大規模預訓練數據的新酒,而它的實(shí)驗結果也說(shuō)明了,如果想改善預訓練語(yǔ)言模型,走這條擴充預序列模型訓練數據的路子,是個(gè)多快好但是不省錢(qián)的方向。這也進(jìn)一步說(shuō)明了,預訓練 LM 這條路,還遠遠沒(méi)有走完,還有很大的提升空間,比如最簡(jiǎn)單的提升方法就是加大數據規模,提升數據質(zhì)量。
  但是 Bert 的自編碼語(yǔ)言模型也有對應的缺點(diǎn),就是 XLNet 在文中指出的,第一個(gè)預訓練階段因為采取引入 [Mask] 標記來(lái) Mask 掉部分單詞的訓練模式,而 Fine-tuning 階段是看不到這種被強行加入的 Mask 標記的,所以?xún)蓚€(gè)階段存在使用模式不一致的情形,這可能會(huì )帶來(lái)一定的性能損失;另外一個(gè)是,Bert 在第一個(gè)預訓練階段,假設句子中多個(gè)單詞被 Mask 掉,這些被 Mask 掉的單詞之間沒(méi)有任何關(guān)系,是條件獨立的,而有時(shí)候這些單詞之間是有關(guān)系的,XLNet 則考慮了這種關(guān)系(關(guān)于這點(diǎn)原因是否可靠,后面會(huì )專(zhuān)門(mén)分析)。
  上面兩點(diǎn)是 XLNet 在第一個(gè)預訓練階段,相對 Bert 來(lái)說(shuō)要解決的兩個(gè)問(wèn)題。
  其實(shí)從另外一個(gè)角度更好理解 XLNet 的初衷和做法,我覺(jué)得這個(gè)估計是 XLNet 作者真正的思考出發(fā)點(diǎn),是啥呢?就是說(shuō)自回歸語(yǔ)言模型有個(gè)缺點(diǎn),要么從左到右,要么從右到左,盡管可以類(lèi)似 ELMO 兩個(gè)都做,然后再拼接的方式。但是跟 Bert 比,效果明顯不足夠好(這里面有 RNN 弱于 Transformer 的因素,也有雙向語(yǔ)言模型怎么做的因素)。那么,能不能類(lèi)似 Bert 那樣,比較充分地在自回歸語(yǔ)言模型中,引入雙向語(yǔ)言模型呢?因為 Bert 已經(jīng)證明了這是非常關(guān)鍵的一點(diǎn)。這一點(diǎn),想法簡(jiǎn)單,但是看上去貌似不太好做,因為從左向右的語(yǔ)言模型,如果我們當前根據上文,要預測某個(gè)單詞 Ti ,那么看上去它沒(méi)法看到下文的內容。具體怎么做才能讓這個(gè)模型:看上去仍然是從左向右的輸入和預測模式,但是其實(shí)內部已經(jīng)引入了當前單詞的下文信息呢?XLNet 在模型方面的主要貢獻其實(shí)是在這里。
  那么 XLNet 是怎么做到這一點(diǎn)的呢?其實(shí)思路也比較簡(jiǎn)潔,可以這么思考:XLNet 仍然遵循兩階段的過(guò)程,第一個(gè)階段是語(yǔ)言模型預訓練階段;第二階段是任務(wù)數據 Fine-tuning 階段。它主要希望改動(dòng)第一個(gè)階段,就是說(shuō)不像 Bert 那種帶 Mask 符號的 Denoising-autoencoder 的模式,而是采用自回歸 LM 的模式。就是說(shuō),看上去輸入句子 X 仍然是自左向右的輸入,看到 Ti 單詞的上文 Context_before ,來(lái)預測 Ti 這個(gè)單詞。但是又希望在 Context_before 里,不僅僅看到上文單詞,也能看到 Ti 單詞后面的下文 Context_after 里的下文單詞,這樣的話(huà),Bert 里面預訓練階段引入的 Mask 符號就不需要了,于是在預訓練階段,看上去是個(gè)標準的從左向右過(guò)程,Fine-tuning 當然也是這個(gè)過(guò)程,于是兩個(gè)環(huán)節就統一起來(lái)。當然,這是目標。剩下是怎么做到這一點(diǎn)的問(wèn)題。
  那么,怎么能夠在單詞 Ti 的上文中 Contenxt_before 中揉入下文 Context_after 的內容呢?你可以想想。XLNet 是這么做的,在預訓練階段,引入 Permutation Language Model 的訓練目標。什么意思呢?就是說(shuō),比如包含單詞 Ti 的當前輸入的句子 X ,由順序的幾個(gè)單詞構成,比如 x1,x2,x3,x4 四個(gè)單詞順序構成。我們假設,其中,要預測的單詞 Ti 是 x3 ,位置在 Position 3 ,要想讓它能夠在上文 Context_before 中,也就是 Position 1 或者 Position 2 的位置看到 Position 4 的單詞 x4 ??梢赃@么做:假設我們固定住 x3 所在位置,就是它仍然在 Position 3 ,之后隨機排列組合句子中的4個(gè)單詞,在隨機排列組合后的各種可能里,再選擇一部分作為模型預訓練的輸入 X 。比如隨機排列組合后,抽取出 x4,x2,x3,x1 這一個(gè)排列組合作為模型的輸入 X 。于是,x3 就能同時(shí)看到上文 x2 ,以及下文 x4 的內容了。這就是 XLNet 的基本思想,所以說(shuō),看了這個(gè)就可以理解上面講的它的初衷了吧:看上去仍然是個(gè)自回歸的從左到右的語(yǔ)言模型,但是其實(shí)通過(guò)對句子中單詞排列組合,把一部分 Ti 下文的單詞排到 Ti 的上文位置中,于是,就看到了上文和下文,但是形式上看上去仍然是從左到右在預測后一個(gè)單詞。
  當然,上面講的仍然是基本思想。難點(diǎn)其實(shí)在于具體怎么做才能實(shí)現上述思想。首先,需要強調一點(diǎn),盡管上面講的是把句子 X 的單詞排列組合后,再隨機抽取例子作為輸入,但是,實(shí)際上你是不能這么做的,因為 Fine-tuning 階段你不可能也去排列組合原始輸入。所以,就必須讓預訓練階段的輸入部分,看上去仍然是 x1,x2,x3,x4 這個(gè)輸入順序,但是可以在 Transformer 部分做些工作,來(lái)達成我們希望的目標。具體而言,XLNet 采取了 Attention 掩碼的機制,你可以理解為,當前的輸入句子是 X ,要預測的單詞 Ti 是第 i 個(gè)單詞,前面1到 i-1 個(gè)單詞,在輸入部分觀(guān)察,并沒(méi)發(fā)生變化,該是誰(shuí)還是誰(shuí)。但是在 Transformer 內部,通過(guò) Attention 掩碼,從 X 的輸入單詞里面,也就是 Ti 的上文和下文單詞中,隨機選擇 i-1 個(gè),放到 Ti 的上文位置中,把其它單詞的輸入通過(guò) Attention 掩碼隱藏掉,于是就能夠達成我們期望的目標(當然這個(gè)所謂放到 Ti 的上文位置,只是一種形象的說(shuō)法,其實(shí)在內部,就是通過(guò) Attention Mask ,把其它沒(méi)有被選到的單詞 Mask 掉,不讓它們在預測單詞 Ti 的時(shí)候發(fā)生作用,如此而已??粗?zhù)就類(lèi)似于把這些被選中的單詞放到了上文 Context_before 的位置了)。具體實(shí)現的時(shí)候,XLNet 是用“雙流自注意力模型”實(shí)現的,細節可以參考論文,但是基本思想就如上所述,雙流自注意力機制只是實(shí)現這個(gè)思想的具體方式,理論上,你可以想出其它具體實(shí)現方式來(lái)實(shí)現這個(gè)基本思想,也能達成讓Ti看到下文單詞的目標。
  
  這里簡(jiǎn)單說(shuō)下“雙流自注意力機制”,一個(gè)是內容流自注意力,其實(shí)就是標準的 Transformer 的計算過(guò)程;主要是引入了 Query 流自注意力,這個(gè)是干嘛的呢?其實(shí)就是用來(lái)代替 Bert 的那個(gè) [Mask] 標記的,因為 XLNet 希望拋掉 [Mask] 標記符號,但是比如知道上文單詞 x1,x2 ,要預測單詞 x3 ,此時(shí)在 x3 對應位置的 Transformer 最高層去預測這個(gè)單詞,但是輸入側不能看到要預測的單詞 x3 ,Bert 其實(shí)是直接引入 [Mask] 標記來(lái)覆蓋掉單詞 x3 的內容的,等于說(shuō) [Mask] 是個(gè)通用的占位符號。而 XLNet 因為要拋掉 [Mask] 標記,但是又不能看到 x3 的輸入,于是 Query 流,就直接忽略掉 x3 輸入了,只保留這個(gè)位置信息,用參數 w 來(lái)代表位置的 embedding 編碼。其實(shí) XLNet 只是扔了表面的 [Mask] 占位符號,內部還是引入 Query 流來(lái)忽略掉被 Mask 的這個(gè)單詞。和 Bert 比,只是實(shí)現方式不同而已。
  上面說(shuō)的 Attention 掩碼,我估計你還是沒(méi)了解它的意思,我再用例子解釋一下。Attention Mask 的機制,核心就是說(shuō),盡管當前輸入看上去仍然是 x1->x2->x3->x4 ,但是我們已經(jīng)改成隨機排列組合的另外一個(gè)順序 x3->x2->x4->x1 了,如果用這個(gè)例子用來(lái)從左到右訓練 LM ,意味著(zhù)當預測 x2 的時(shí)候,它只能看到上文 x3 ;當預測 x4 的時(shí)候,只能看到上文 x1 和 x2 ,以此類(lèi)推……這樣,比如對于 x2 來(lái)說(shuō),就看到了下文 x3 了。這種在輸入側維持表面的 X 句子單詞順序,但是其實(shí)在 Transformer 內部,看到的已經(jīng)是被重新排列組合后的順序,是通過(guò) Attention 掩碼來(lái)實(shí)現的。如上圖所示,輸入看上去仍然是 x1,x2,x3,x4 ,可以通過(guò)不同的掩碼矩陣,讓當前單詞 Xi 只能看到被排列組合后的順序 x3->x2->x4->x1 中自己前面的單詞。這樣就在內部改成了被預測單詞同時(shí)看到上下文單詞,但是輸入側看上去仍然維持原先的單詞順序了。關(guān)鍵要看明白上圖右側那個(gè)掩碼矩陣,我相信很多人剛開(kāi)始沒(méi)看明白,因為我剛開(kāi)始也沒(méi)看明白,因為沒(méi)有標出掩碼矩陣的單詞坐標,它的坐標是1-2-3-4,就是表面那個(gè) X 的單詞順序,通過(guò)掩碼矩陣,就能改成你想要的排列組合,并讓當前單詞看到它該看到的所謂上文,其實(shí)是摻雜了上文和下文的內容。這是 attention mask 來(lái)實(shí)現排列組合的背后的意思。
  上面講的 Permutation Language Model 是 XLNet 的主要理論創(chuàng )新,所以介紹的比較多,從模型角度講,這個(gè)創(chuàng )新還是挺有意思的,因為它開(kāi)啟了自回歸語(yǔ)言模型如何引入下文的一個(gè)思路,相信對于后續工作會(huì )有啟發(fā)。當然,XLNet 不僅僅做了這些,它還引入了其它的因素,也算是一個(gè)當前有效技術(shù)的集成體。感覺(jué) XLNet 就是 Bert、GPT 2.0 和 Transformer XL 的綜合體變身,首先,它通過(guò) PLM 預訓練目標,吸收了 Bert 的雙向語(yǔ)言模型;然后,GPT2.0 的核心其實(shí)是更多更高質(zhì)量的預訓練數據,這個(gè)明顯也被 XLNet 吸收進(jìn)來(lái)了;再然后,Transformer XL 的主要思想也被吸收進(jìn)來(lái),它的主要目標是解決 Transformer 對于長(cháng)文檔 NLP 應用不夠友好的問(wèn)題。
  以上是 XLNet 的幾個(gè)主要改進(jìn)點(diǎn),有模型創(chuàng )新方面的,有其它模型引入方面的,也有數據擴充方面的。那么,這些因素各自起到了什么作用呢?在后面我們會(huì )談。在談不同因素各自作用之前,我們先分析下 XLNet 和 Bert 的異同問(wèn)題。
  與 Bert 的預訓練過(guò)程的異同問(wèn)題
  盡管看上去,XLNet 在預訓練機制引入的 Permutation Language Model 這種新的預訓練目標,和 Bert 采用 Mask 標記這種方式,有很大不同。其實(shí)你深入思考一下,會(huì )發(fā)現,兩者本質(zhì)是類(lèi)似的。區別主要在于:Bert 是直接在輸入端顯示地通過(guò)引入 Mask 標記,在輸入側隱藏掉一部分單詞,讓這些單詞在預測的時(shí)候不發(fā)揮作用,要求利用上下文中其它單詞去預測某個(gè)被 Mask 掉的單詞;而 XLNet 則拋棄掉輸入側的 Mask 標記,通過(guò) Attention Mask 機制,在 Transformer 內部隨機 Mask 掉一部分單詞(這個(gè)被 Mask 掉的單詞比例跟當前單詞在句子中的位置有關(guān)系,位置越靠前,被 Mask 掉的比例越高,位置越靠后,被 Mask 掉的比例越低),讓這些被 Mask 掉的單詞在預測某個(gè)單詞的時(shí)候不發(fā)生作用。所以,本質(zhì)上兩者并沒(méi)什么太大的不同,只是 Mask 的位置,Bert 更表面化一些,XLNet 則把這個(gè)過(guò)程隱藏在了 Transformer 內部而已。這樣,就可以?huà)伒舯砻娴?[Mask] 標記,解決它所說(shuō)的預訓練里帶有 [Mask] 標記導致的和 Fine-tuning 過(guò)程不一致的問(wèn)題。至于說(shuō) XLNet 說(shuō)的,Bert 里面被 Mask 掉單詞的相互獨立問(wèn)題,也就是說(shuō),在預測某個(gè)被 Mask 單詞的時(shí)候,其它被 Mask 單詞不起作用,這個(gè)問(wèn)題,你深入思考一下,其實(shí)是不重要的,因為 XLNet 在內部 Attention Mask 的時(shí)候,也會(huì ) Mask 掉一定比例的上下文單詞,只要有一部分被 Mask 掉的單詞,其實(shí)就面臨這個(gè)問(wèn)題。而如果訓練數據足夠大,其實(shí)不靠當前這個(gè)例子,靠其它例子,也能彌補被 Mask 單詞直接的相互關(guān)系問(wèn)題,因為總有其它例子能夠學(xué)會(huì )這些單詞的相互依賴(lài)關(guān)系。
  我相信,通過(guò)改造 Bert 的預訓練過(guò)程,其實(shí)是可以模擬 XLNet 的 Permutation Language Model 過(guò)程的:Bert 目前的做法是,給定輸入句子 X ,隨機 Mask 掉15%的單詞,然后要求利用剩下的85%的單詞去預測任意一個(gè)被 Mask 掉的單詞,被 Mask 掉的單詞在這個(gè)過(guò)程中相互之間沒(méi)有發(fā)揮作用。如果我們把 Bert 的預訓練過(guò)程改造成:對于輸入句子,隨機選擇其中任意一個(gè)單詞 Ti ,只把這個(gè)單詞改成 Mask 標記,假設 Ti 在句子中是第 i 個(gè)單詞,那么此時(shí)隨機選擇 X 中的任意 i 個(gè)單詞,只用這 i 個(gè)單詞去預測被 Mask 掉的單詞。當然,這個(gè)過(guò)程理論上也可以在 Transformer 內采用 attention mask 來(lái)實(shí)現。如果是這樣,其實(shí) Bert 的預訓練模式就和 XLNet 是基本等價(jià)的了。
  或者換個(gè)角度思考,假設仍然利用 Bert 目前的 Mask 機制,但是把 Mask 掉15%這個(gè)條件極端化,改成,每次一個(gè)句子只 Mask 掉一個(gè)單詞,利用剩下的單詞來(lái)預測被 Mask 掉的單詞。那么,這個(gè)過(guò)程其實(shí)跟 XLNet 的 PLM 也是比較相像的,區別主要在于每次預測被 Mask 掉的單詞的時(shí)候,利用的上下文更多一些(XLNet 在實(shí)現的時(shí)候,為了提升效率,其實(shí)也是選擇每個(gè)句子最后末尾的 1/K 單詞被預測,假設 K=7 ,意味著(zhù)一個(gè)句子 X ,只有末尾的 1/7 的單詞會(huì )被預測,這意味著(zhù)什么呢?意味著(zhù)至少保留了 6/7 的 Context 單詞去預測某個(gè)單詞,對于最末尾的單詞,意味著(zhù)保留了所有的句子中 X 的其它單詞,這其實(shí)和上面提到的 Bert 只保留一個(gè)被 Mask 單詞是一樣的)?;蛘呶覀冋驹?Bert 預訓練的角度來(lái)考慮 XLNet ,如果 XLNet 改成對于句子 X ,只需要預測句子中最后一個(gè)單詞,而不是最后的 1/K ( 就是假設 K 特別大的情況 ) ,那么其實(shí)和 Bert 每個(gè)輸入句子只 Mask 掉一個(gè)單詞,兩者基本是等價(jià)的。
  當然,XLNet 這種改造,維持了表面看上去的自回歸語(yǔ)言模型的從左向右的模式,這個(gè) Bert 做不到,這個(gè)有明顯的好處,就是對于生成類(lèi)的任務(wù),能夠在維持表面從左向右的生成過(guò)程前提下,模型里隱含了上下文的信息。所以看上去,XLNet 貌似應該對于生成類(lèi)型的 NLP 任務(wù),會(huì )比 Bert 有明顯優(yōu)勢。另外,因為 XLNet 還引入了 Transformer XL 的機制,所以對于長(cháng)文檔輸入類(lèi)型的 NLP 任務(wù),也會(huì )比 Bert 有明顯優(yōu)勢。
  哪些因素在起作用?
  如上分析,XLNet 有個(gè)好處,但是感覺(jué)同時(shí)也是個(gè)問(wèn)題,那就是:XLNet 其實(shí)同時(shí)引入了很多因素在模型里。說(shuō)是好處,因為實(shí)驗證明了這樣效果確實(shí)好,即使是跟 Bert_Large 這種非常強的基準模型比也是,尤其是長(cháng)文檔任務(wù),這個(gè)效果提升比較明顯;說(shuō)是問(wèn)題,是因為其實(shí)應該在實(shí)驗部分充分說(shuō)明,如果模型起了作用,這些因素各自發(fā)揮了多大作用,尤其是在跟 Bert 進(jìn)行對比的時(shí)候,感覺(jué)應該把數據規模這個(gè)變量磨平進(jìn)行比較,因為這才是單純的模型差異導致的性能差異,而不是訓練數據量引發(fā)的差異。當然,XLNet 最后一組實(shí)驗是把這個(gè)預訓練數據規模差異磨平后,和 Bert 比較的,所以信息含量更大些。而前面的幾組實(shí)驗,因為天然存在預訓練數據量的差異,所以模型導致的差異到底有多大,看得不太明顯。引入了 Transformer-XL 的主要思路:相對位置編碼以及分段 RNN 機制。實(shí)踐已經(jīng)證明這兩點(diǎn)對于長(cháng)文檔任務(wù)是很有幫助的。
  我們上文提到過(guò),XLNet 起作用的,如果宏觀(guān)歸納一下,共有三個(gè)因素;
  1. 與 Bert 采取 De-noising Autoencoder 方式不同的新的預訓練目標:Permutation Language Model ( 簡(jiǎn)稱(chēng) PLM ) ;這個(gè)可以理解為在自回歸 LM 模式下,如何采取具體手段,來(lái)融入雙向語(yǔ)言模型。這個(gè)是 XLNet 在模型角度比較大的貢獻,確實(shí)也打開(kāi)了 NLP 中兩階段模式潮流的一個(gè)新思路。
  2. 引入了 Transformer-XL 的主要思路:相對位置編碼以及分段 RNN 機制。實(shí)踐已經(jīng)證明這兩點(diǎn)對于長(cháng)文檔任務(wù)是很有幫助的;
  加大增加了預訓練階段使用的數據規模;Bert 使用的預訓練數據是 BooksCorpus 和英文 Wiki 數據,大小 13G 。XLNet 除了使用這些數據外,另外引入了 Giga5,ClueWeb 以及 Common Crawl 數據,并排掉了其中的一些低質(zhì)量數據,大小分別是 16G,19G 和 78G ??梢钥闯?,在預訓練階段極大擴充了數據規模,并對質(zhì)量進(jìn)行了篩選過(guò)濾。這個(gè)明顯走的是 GPT2.0 的路線(xiàn)。
  所以實(shí)驗部分需要仔細分析,提升到底是上述哪個(gè)因素或者是哪幾個(gè)因素導致的性能提升?
  我們把實(shí)驗分成幾個(gè)部分來(lái)分析。
  首先,給人最大的印象是:XLNet 對于閱讀理解類(lèi)任務(wù),相對 Bert ,性能有極大幅度地提升。下面是論文報道的實(shí)驗結果:
  其中,RACE 和 SQuAD 2.0 是文檔長(cháng)度較長(cháng)的閱讀理解任務(wù),任務(wù)難度也相對高??梢钥闯?,在這兩個(gè)任務(wù)中,XLNet 相對 Bert_Large ,確實(shí)有大幅性能提升 ( Race 提升13.5%,SQuAD 2.0 F1 指標提升8.6 ) 。在 Squad1.1 上提升盡管稍微小些,F1 提升3.9%,但是因為基準高,所以提升也比較明顯。
  
  說(shuō) XLNet 在閱讀理解,尤其是長(cháng)文檔的閱讀理解中,性能大幅超過(guò) Bert ,這個(gè)是沒(méi)疑問(wèn)的。但是,因為 XLNet 融入了上文說(shuō)的三個(gè)因素,所以不確定每個(gè)因素在其中起的作用有多大,而對于長(cháng)文檔,Transformer XL 的引入肯定起了比較大的作用,Bert 天然在這種類(lèi)型任務(wù)中有缺點(diǎn),其它兩類(lèi)因素的作用不清楚。感覺(jué)這里應該增加一個(gè)基準,就是 Bert 用與 XLNet 相同大小的預訓練數據做,這樣抹平數據量差異,更好比較模型差異帶來(lái)的效果差異。當然,我覺(jué)得即使是這樣,XLNet 應該仍然是比 Bert 效果好的,只是可能不會(huì )差距這么大,因為 XLNet 的長(cháng)文檔優(yōu)勢肯定會(huì )起作用。
  下面我們看下其它類(lèi)型的 NLP 任務(wù)。
  GLUE 是個(gè)綜合的 NLP 任務(wù)集合,包含各種類(lèi)型的任務(wù),因為 ensemble 模式里面包含了各種花式的 trick ,所以重點(diǎn)看上面一組實(shí)驗,這里比較單純。從實(shí)驗數據看,XLNet 相對 Bert 也有性能提升,當然不像閱讀理解提升那么大,而且性能提升比較大的集中在 RTE ,MNLI 和 COLA 數據集合,其它任務(wù)提升效果還好。而我一直覺(jué)得,RTE 在 GLUE 里,是個(gè)神奇的存在,如果沒(méi)有它,很多論文的效果可能沒(méi)法看,這個(gè)是閑話(huà),先不講了,后面我會(huì )單說(shuō)。
  當然,仍然不確定這種性能提升主要來(lái)自于 XLNet 的哪個(gè)因素,或者哪幾個(gè)因素各自的貢獻,尤其是如果 Bert 加大預訓練數據規模后,兩者性能差異有多大。感覺(jué)這里 Transformer XL 的因素可能發(fā)揮的作用不會(huì )太大,其它兩個(gè)因素在起作用,但是作用未知,這里感覺(jué)應該補充其它實(shí)驗。
  上面是文本分類(lèi)任務(wù)和信息檢索任務(wù),可以看出,相對 Bert,XLNet 效果有提升,但是幅度不算大。仍然是上面的考慮,起作用的三個(gè)因素,到底哪個(gè)發(fā)揮多大作用,從數據方面看不太出來(lái)。
  下面一組實(shí)驗可以仔細分析一下,這組實(shí)驗是排除掉上述第三個(gè)數據規模因素的實(shí)驗的對比,就是說(shuō) XLNet 用的是和 Bert 相同規模的預訓練數據,所以與 Bert 對比更具備模型方面的可比較性,而沒(méi)有數據規模的影響。實(shí)驗結果如下:
  如果仔細分析實(shí)驗數據,實(shí)驗結果說(shuō)明:
  因為和 Bert 比較,XLNet 使用相同的預訓練數據。所以?xún)烧叩男阅懿町悂?lái)自于:Permutation Language Model 預訓練目標以及 Transformer XL 的長(cháng)文檔因素。而從中可以看出,DAE+Transformer XL 體現的是長(cháng)文檔因素的差異,和 Bert 比,Race 提升1個(gè)點(diǎn),SQuAD F1 提升3個(gè)點(diǎn),MNLI 提升0.5個(gè)點(diǎn),SST-2 性能稍微下降。這是 Transformer XL 因素解決長(cháng)文檔因素帶來(lái)的收益,很明顯,長(cháng)文檔閱讀理解任務(wù)提升比較明顯,其它任務(wù)提升不太明顯。
  而通過(guò) XLNet 進(jìn)一步和 DAE+Transformer XL 及 Bert 比,這一點(diǎn)應該拆解出 Permutation Language Model 和 Mask 的方式差異??梢钥闯觯篨LNet 相對 DAE+Transformer XL 來(lái)說(shuō),Race 進(jìn)一步提升1個(gè)點(diǎn)左右;SQuAD 進(jìn)一步提升1.8個(gè)點(diǎn)左右,NMLI 提升1個(gè)點(diǎn)左右,SST-B 提升不到1個(gè)點(diǎn)。雖然不精準,但是大致是能說(shuō)明問(wèn)題的,這個(gè)應該大致是 PLM 帶來(lái)的模型收益??梢钥闯?,PLM 還是普遍有效的,但是提升幅度并非特別巨大。
  如果我們結合前面 Race 和 SQuAD 的實(shí)驗結果看(上面兩組實(shí)驗是三個(gè)因素的作用,后面是排除掉數據量差異的結果,所以?xún)烧叩牟罹?,很可能就是第三個(gè)因素:數據規模導致的差異,當然,因為一個(gè)是 Bert_base ,一個(gè)是 Bert_Large ,所以不具備完全可比性,但是大致估計不會(huì )偏離真實(shí)結論太遠),Race 數據集合三因素同時(shí)具備的 XLNet ,超過(guò) Bert 絕對值大約9個(gè)多百分點(diǎn),Transformer 因素 +PLM 因素估計貢獻大約在2到4個(gè)點(diǎn)之間,那么意味著(zhù)預訓練數據量導致的差異大概在4到5個(gè)點(diǎn)左右;類(lèi)似的,可以看出,SQuAD 2.0 中,預訓練數據量導致的差異大約在2到3個(gè)點(diǎn)左右,也就是說(shuō),估計訓練數據量帶來(lái)的提升,在閱讀理解任務(wù)中大約占比30%到40%左右。
  如果從實(shí)驗結果歸納一下的話(huà),可以看出:XLNet 綜合而言,效果是優(yōu)于 Bert 的,尤其是在長(cháng)文檔類(lèi)型任務(wù),效果提升明顯。如果進(jìn)一步拆解的話(huà),因為對比實(shí)驗不足,只能做個(gè)粗略的結論:預訓練數據量的提升,大概帶來(lái)30%左右的性能提升,其它兩個(gè)模型因素帶來(lái)剩余的大約70%的性能提升。當然,這個(gè)主要指的是 XLNet 性能提升比較明顯的閱讀理解類(lèi)任務(wù)而言。對于其它類(lèi)型任務(wù),感覺(jué) Transformer XL 的因素貢獻估計不會(huì )太大,主要應該是其它兩個(gè)因素在起作用。
  對 NLP 應用任務(wù)的影響
  XLNet 其實(shí)本質(zhì)上還是 ELMO/GPT/Bert 這一系列兩階段模型的進(jìn)一步延伸。在將自回歸 LM 方向引入雙向語(yǔ)言模型方面,感覺(jué)打開(kāi)了一個(gè)新思路,這點(diǎn)還是非常對人有啟發(fā)的。當然,如果深入思考,其實(shí)和 Bert 并沒(méi)有太大的不同。
  如果讓我推論下 XLNet 的出現,對后續 NLP 工作的影響,我覺(jué)得跟 Bert 比,最直接的影響應該有兩個(gè),一個(gè)是對于 Bert 長(cháng)文檔的應用,因為 Transformer 天然對長(cháng)文檔任務(wù)處理有弱點(diǎn),所以 XLNet 對于長(cháng)文檔 NLP 任務(wù)相比 Bert 應該有直接且比較明顯的性能提升作用,它在論文中也證明了這點(diǎn)。所以,以后長(cháng)文檔類(lèi)型的 NLP 應用,XLNet 明顯跟 Bert 比占優(yōu)勢。當然,你說(shuō)我把 Transformer XL 的因素引入 Bert ,然后繼續在 Bert 上做改進(jìn),明顯這也是可以的。
  第二點(diǎn),對于生成類(lèi)的 NLP 任務(wù),到目前為止,盡管出了一些改進(jìn)模型,但是從效果看,Bert 仍然不能很好地處理。而因為 XLNet 的預訓練模式天然符合下游任務(wù)序列生成結果,所以按理說(shuō)能夠直接通過(guò)引入 XLNet 來(lái)改進(jìn)生成類(lèi) NLP 任務(wù)的效果。所以,這點(diǎn)估計是 XLNet 會(huì )明顯占優(yōu)勢的一個(gè)領(lǐng)域。
  可以預計的是,很快我們就會(huì )看到 XLNet 在文本摘要,機器翻譯,信息檢索…..等符合上述 XLNet 應用領(lǐng)域特點(diǎn)和優(yōu)勢領(lǐng)域的應用結果,以及在這些任務(wù)上的進(jìn)一步改進(jìn)模型。當然,這個(gè)有點(diǎn)比手速的意思,有意者請盡快動(dòng)手把結果扔出來(lái)。
  又給你了一個(gè)拼手速的機會(huì ),加油吧,少年!
  作者介紹:
  張俊林,中國中文信息學(xué)會(huì )理事,中科院軟件所博士。目前在新浪微博 AI Lab 擔任資深算法專(zhuān)家。在此之前,張俊林曾經(jīng)在阿里巴巴任資深技術(shù)專(zhuān)家并負責新技術(shù)團隊,以及在百度和用友擔任技術(shù)經(jīng)理及技術(shù)總監等職務(wù)。同時(shí)他是技術(shù)書(shū)籍《這就是搜索引擎:核心技術(shù)詳解》(該書(shū)榮獲全國第十二屆優(yōu)秀圖書(shū)獎)、《大數據日知錄:架構與算法》的作者。

內部信息源與外部源搜索引擎優(yōu)化方法的異同

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 89 次瀏覽 ? 2022-07-26 19:08 ? 來(lái)自相關(guān)話(huà)題

  內部信息源與外部源搜索引擎優(yōu)化方法的異同
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同對我們的整體優(yōu)化計劃有著(zhù)非常重要的影響,下面我們就來(lái)對它們分別做一個(gè)分析。本文分為三步說(shuō)明信息源與外部信息源搜索引擎優(yōu)化方法的異同。第一步:確定作為參考的信息源對搜索引擎優(yōu)化有沒(méi)有重要的影響一般來(lái)說(shuō),由于搜索引擎受谷歌seo規則影響,它主要是取決于谷歌seo規則的適應性,如果谷歌seo規則適應度低,谷歌就不會(huì )采用或者沒(méi)有可采用的檢索方式來(lái)告訴你在搜索引擎上只能取這些信息(即不能采用中文來(lái)進(jìn)行檢索),而與之相比較,在seo模型中的其他模塊,如網(wǎng)站托管、搜索引擎優(yōu)化等模塊都是對網(wǎng)站的整體優(yōu)化起到推動(dòng)作用的,都可以來(lái)使得網(wǎng)站的整體形象與質(zhì)量更高一些。
  
  因此,我們在優(yōu)化一個(gè)網(wǎng)站的時(shí)候,一般而言,優(yōu)化思路總是以指導給谷歌seo規則適當的引導為目標來(lái)進(jìn)行整體優(yōu)化的。第二步:由某個(gè)頁(yè)面或全部頁(yè)面,快速搜尋到公司的網(wǎng)址如果您在某一個(gè)頁(yè)面或所有頁(yè)面上,均可以輕松的找到我們的網(wǎng)址,那么這樣的信息源就是比較好的搜索引擎優(yōu)化方法。第三步:找到與產(chǎn)品相關(guān)性較高的網(wǎng)址(至少是與其產(chǎn)品相關(guān))大多數的搜索引擎優(yōu)化方法都不允許從谷歌搜索引擎結果中直接尋找企業(yè)網(wǎng)址,就算你已經(jīng)在谷歌優(yōu)化很久了。
  因此,您必須在為公司的網(wǎng)站提供關(guān)于你公司產(chǎn)品的信息時(shí),找到與該產(chǎn)品相關(guān)性較高的網(wǎng)址,以方便將來(lái)提供該產(chǎn)品的相關(guān)信息(根據搜索引擎優(yōu)化規則,如果你的公司曾經(jīng)在其他百度搜索引擎有過(guò)相關(guān)網(wǎng)址,那么就請使用自己的百度網(wǎng)址導航站以方便其他的搜索引擎在搜索這個(gè)搜索時(shí)得到更精確、更有價(jià)值的信息)。另外,我們也需要在谷歌搜索引擎檢索網(wǎng)站時(shí),不能僅僅以谷歌的網(wǎng)址導航來(lái)搜索,還要結合谷歌seo的標準與谷歌的算法是否按照相關(guān)性來(lái)進(jìn)行排名。
  
  尋找對公司網(wǎng)站影響最大的主要權威,名人甚至明星網(wǎng)站上。大家可以通過(guò)搜索您網(wǎng)站的標題來(lái)搜索對該網(wǎng)站有效的關(guān)鍵詞,看看哪些詞匯讓我們的企業(yè)搜索引擎排名上升。特別提醒:如果你的網(wǎng)站的搜索引擎排名不怎么樣,我們盡量不要在百度平臺進(jìn)行長(cháng)期的優(yōu)化;而在國內做seo優(yōu)化對于谷歌的利用率要高得多,如果我們必須去谷歌優(yōu)化而不可能使用百度,那么我們可以考慮通過(guò)加速搜索引擎優(yōu)化方法來(lái)提高我們的谷歌排名。
  以上只是給大家一個(gè)參考,真正實(shí)施的時(shí)候還是需要根據實(shí)際情況來(lái)定?!疚挠汕Ш叹W(wǎng)絡(luò )成都分公司根據多年的互聯(lián)網(wǎng)優(yōu)化經(jīng)驗所寫(xiě)。專(zhuān)注于網(wǎng)站seo的專(zhuān)業(yè)團隊,積累了豐富的谷歌seo優(yōu)化經(jīng)驗。我們希望更多的有能力的公司都能利用我們的資源為網(wǎng)站和搜索引擎做好推廣。 查看全部

  內部信息源與外部源搜索引擎優(yōu)化方法的異同
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同對我們的整體優(yōu)化計劃有著(zhù)非常重要的影響,下面我們就來(lái)對它們分別做一個(gè)分析。本文分為三步說(shuō)明信息源與外部信息源搜索引擎優(yōu)化方法的異同。第一步:確定作為參考的信息源對搜索引擎優(yōu)化有沒(méi)有重要的影響一般來(lái)說(shuō),由于搜索引擎受谷歌seo規則影響,它主要是取決于谷歌seo規則的適應性,如果谷歌seo規則適應度低,谷歌就不會(huì )采用或者沒(méi)有可采用的檢索方式來(lái)告訴你在搜索引擎上只能取這些信息(即不能采用中文來(lái)進(jìn)行檢索),而與之相比較,在seo模型中的其他模塊,如網(wǎng)站托管、搜索引擎優(yōu)化等模塊都是對網(wǎng)站的整體優(yōu)化起到推動(dòng)作用的,都可以來(lái)使得網(wǎng)站的整體形象與質(zhì)量更高一些。
  
  因此,我們在優(yōu)化一個(gè)網(wǎng)站的時(shí)候,一般而言,優(yōu)化思路總是以指導給谷歌seo規則適當的引導為目標來(lái)進(jìn)行整體優(yōu)化的。第二步:由某個(gè)頁(yè)面或全部頁(yè)面,快速搜尋到公司的網(wǎng)址如果您在某一個(gè)頁(yè)面或所有頁(yè)面上,均可以輕松的找到我們的網(wǎng)址,那么這樣的信息源就是比較好的搜索引擎優(yōu)化方法。第三步:找到與產(chǎn)品相關(guān)性較高的網(wǎng)址(至少是與其產(chǎn)品相關(guān))大多數的搜索引擎優(yōu)化方法都不允許從谷歌搜索引擎結果中直接尋找企業(yè)網(wǎng)址,就算你已經(jīng)在谷歌優(yōu)化很久了。
  因此,您必須在為公司的網(wǎng)站提供關(guān)于你公司產(chǎn)品的信息時(shí),找到與該產(chǎn)品相關(guān)性較高的網(wǎng)址,以方便將來(lái)提供該產(chǎn)品的相關(guān)信息(根據搜索引擎優(yōu)化規則,如果你的公司曾經(jīng)在其他百度搜索引擎有過(guò)相關(guān)網(wǎng)址,那么就請使用自己的百度網(wǎng)址導航站以方便其他的搜索引擎在搜索這個(gè)搜索時(shí)得到更精確、更有價(jià)值的信息)。另外,我們也需要在谷歌搜索引擎檢索網(wǎng)站時(shí),不能僅僅以谷歌的網(wǎng)址導航來(lái)搜索,還要結合谷歌seo的標準與谷歌的算法是否按照相關(guān)性來(lái)進(jìn)行排名。
  
  尋找對公司網(wǎng)站影響最大的主要權威,名人甚至明星網(wǎng)站上。大家可以通過(guò)搜索您網(wǎng)站的標題來(lái)搜索對該網(wǎng)站有效的關(guān)鍵詞,看看哪些詞匯讓我們的企業(yè)搜索引擎排名上升。特別提醒:如果你的網(wǎng)站的搜索引擎排名不怎么樣,我們盡量不要在百度平臺進(jìn)行長(cháng)期的優(yōu)化;而在國內做seo優(yōu)化對于谷歌的利用率要高得多,如果我們必須去谷歌優(yōu)化而不可能使用百度,那么我們可以考慮通過(guò)加速搜索引擎優(yōu)化方法來(lái)提高我們的谷歌排名。
  以上只是給大家一個(gè)參考,真正實(shí)施的時(shí)候還是需要根據實(shí)際情況來(lái)定?!疚挠汕Ш叹W(wǎng)絡(luò )成都分公司根據多年的互聯(lián)網(wǎng)優(yōu)化經(jīng)驗所寫(xiě)。專(zhuān)注于網(wǎng)站seo的專(zhuān)業(yè)團隊,積累了豐富的谷歌seo優(yōu)化經(jīng)驗。我們希望更多的有能力的公司都能利用我們的資源為網(wǎng)站和搜索引擎做好推廣。

是誰(shuí)給你的自信,讓你上網(wǎng)搜索一下就覺(jué)得“我啥都懂”的?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 87 次瀏覽 ? 2022-06-30 22:26 ? 來(lái)自相關(guān)話(huà)題

  是誰(shuí)給你的自信,讓你上網(wǎng)搜索一下就覺(jué)得“我啥都懂”的?
  現在,只要求助于萬(wàn)能的互聯(lián)網(wǎng),很多問(wèn)題都可以輕松地找到答案。不過(guò),這樣便捷的手段也可能帶來(lái)一些負面作用。發(fā)表在《實(shí)驗心理學(xué)雜志:綜合版》(Journal of Experimental Psychology: General)的一項研究[1]就發(fā)現,在使用互聯(lián)網(wǎng)搜索之后,人們可能會(huì )產(chǎn)生“掌握知識”的錯覺(jué),從而對自己的能力產(chǎn)生過(guò)高的估計。
  依賴(lài)互聯(lián)網(wǎng),對我們的記憶是好是壞?圖片來(lái)源:
  互聯(lián)網(wǎng):
  史上最好記憶搭檔
  在一個(gè)相互合作的團隊當中,人們對信息的處理方式會(huì )與單槍匹馬時(shí)有所不同。合作者們會(huì )共同組成交互記憶系統(transactive memory systems)——每個(gè)人都只需要掌握一部分知識或技能,然后彼此互相依賴(lài),在需要時(shí)進(jìn)行信息交換即可。在這樣的系統中,人們需要擁有兩種記憶:內部記憶(“我知道些什么”)和外部記憶(“誰(shuí)知道什么”)。擁有這兩種記憶,人們就能夠在團隊中貢獻自己的力量,并且高效地獲取外部信息來(lái)解決問(wèn)題。
  而隨著(zhù)科技的發(fā)展,交互記憶系統也加入了新的成員。除了人與人之外,人與互聯(lián)網(wǎng)等外部信息來(lái)源之間也可以建立類(lèi)似的關(guān)系?;ヂ?lián)網(wǎng)上的信息非常豐富,檢索起來(lái)也異常便捷,這使得它一躍成為了人類(lèi)最全能的記憶交互搭檔。
  不僅如此,互聯(lián)網(wǎng)還是個(gè)“甘于奉獻不求回報”的隊友。和它一起工作時(shí),人們可以不用給自己分配任何內部記憶的任務(wù),只需要記住搜索方法,剩下的任務(wù)就都可以交給互聯(lián)網(wǎng)了。這些特性也使得人們越來(lái)越依賴(lài)互聯(lián)網(wǎng)強大的工作能力,減少了自己儲存知識的過(guò)程?;ヂ?lián)網(wǎng)上的信息檢索正在改變人們的思維方式,我們所記住的只是找到信息的方法,而對知識本身的記憶則隨之減少[2]。
  好搭檔帶來(lái)的
  認識偏差
  除了改變人們的記憶方式之外,便捷的互聯(lián)網(wǎng)工具也可能讓我們對自己的知識儲備產(chǎn)生認識上的偏差。有學(xué)者指出,使用互聯(lián)網(wǎng)查找答案會(huì )使人產(chǎn)生一種“我也擁有這些知識”的錯覺(jué)。
  試想,當你想要了解一個(gè)學(xué)術(shù)問(wèn)題的答案時(shí),去圖書(shū)館尋找可能是一個(gè)相對漫長(cháng)而痛苦的過(guò)程。這個(gè)漫長(cháng)的過(guò)程時(shí)刻提醒著(zhù)你“我并不知道這個(gè)問(wèn)題的答案,所以我要尋找”。而在網(wǎng)上,只要輸入關(guān)鍵詞,你想要的答案可能立即就會(huì )呈現在你眼前。這樣輕松獲得詳盡答案的過(guò)程并不是一個(gè)“自然”的過(guò)程,人們可能會(huì )因此將搜索到的知識與自己的內部記憶“合并”,產(chǎn)生自己懂得這些知識的錯覺(jué)。
  為了驗證這一設想,耶魯大學(xué)的心理學(xué)研究者設計了一系列實(shí)驗。
  首先,研究者找來(lái)202名被試,把他們分成了“有網(wǎng)組”和“無(wú)網(wǎng)組”。兩組被試都要回答一組自然科學(xué)類(lèi)小問(wèn)題(例如“打火機是如何工作的”),不同的是“有網(wǎng)組”可以上網(wǎng)檢索幫助答題,而“無(wú)網(wǎng)組”只能靠自己既有的知識進(jìn)行回答。在答題之后,研究者又給出了一些其他不相干領(lǐng)域的題目,要求被試預測自己回答這些問(wèn)題的表現。
  
  實(shí)驗結果發(fā)現,使用了互聯(lián)網(wǎng)的被試在不相干的領(lǐng)域也表現出了顯著(zhù)高于“無(wú)網(wǎng)組”的自信。有意思的是,即使研究者給“無(wú)網(wǎng)組”被試看過(guò)“有網(wǎng)組”被試可以查到的資料之后,上述差異依然存在。由此看來(lái),上網(wǎng)搜索似乎確實(shí)讓人們產(chǎn)生了自己“更有學(xué)問(wèn)”的錯覺(jué)。
  你的許多信息, 是不是已經(jīng)存在云端了?然后你就忘了。圖片來(lái)源:
  為了確保結果可靠,研究者們又改變評估方式重新進(jìn)行了實(shí)驗,并特意提醒被試在預測答題能力時(shí)“不要考慮任何外部資源”。而這一次的實(shí)驗結果依然相同:“有網(wǎng)組”被試依然相信自己擁有更多的知識,可以更好地回答各種問(wèn)題。
  錯覺(jué)從何而來(lái)?
  那么,產(chǎn)生這種現象的原因究竟是什么?是人們真的產(chǎn)生了對知識儲備的錯覺(jué),還是有其他影響因素?對此,研究者提出了若干種假設。
  首先,研究者提出,互聯(lián)網(wǎng)的運用或許并不是影響了人們對知識儲備的認識,而是帶來(lái)了全面的自信心提升。不過(guò),后續的研究發(fā)現,在知識性問(wèn)題以外的方面,兩組被試對答題能力的預測并沒(méi)有差別。對于那些不能在互聯(lián)網(wǎng)上找到答案的問(wèn)題,被試的自我認知并沒(méi)有發(fā)生膨脹。
  此后,研究者將注意力轉移到了“主動(dòng)尋找答案”這個(gè)過(guò)程上。在實(shí)驗中,“有網(wǎng)組”被試可以主動(dòng)地上網(wǎng)搜索,而“無(wú)網(wǎng)組”一直被動(dòng)地接受材料,這或許就是造成差異的原因。于是,研究者又重新設計了實(shí)驗:他們讓“無(wú)網(wǎng)組”被試也上網(wǎng)獲取答案,但他們不需要自己搜索,而是可以直接獲取包含答案的網(wǎng)站鏈接。實(shí)驗結果顯示,“有網(wǎng)組”被試對自己知識儲備的評價(jià)再一次超過(guò)了“無(wú)網(wǎng)組”。在此之后,研究者又對實(shí)驗中的搜索引擎動(dòng)了手腳——一組被試所用的搜索引擎會(huì )將結果完全屏蔽,而另一組只能搜到近一周公布的信息。結果發(fā)現,即使是在搜索中遇到困難的被試,他們對自身知識的評價(jià)也會(huì )顯著(zhù)高于沒(méi)有經(jīng)過(guò)檢索的人。
  至此,研究者已經(jīng)對1712名被試進(jìn)行了一系列實(shí)驗,他們終于得出了自己的結論——在使用互聯(lián)網(wǎng)時(shí),人們主動(dòng)搜索信息的過(guò)程會(huì )使他們高估了自己的知識儲備和答題能力。
  我們如何理解
  這項漫長(cháng)的研究?
  不能否認,我們已將互聯(lián)網(wǎng)當作親密無(wú)間的“記憶伙伴”,而這項研究也提醒我們,互聯(lián)網(wǎng)可能使我們產(chǎn)生“掌握知識”的錯覺(jué)。
  在互聯(lián)網(wǎng)之前,人們也會(huì )依賴(lài)書(shū)籍、專(zhuān)家來(lái)進(jìn)行信息的交互。但是這些資源并不是立即可得的。而互聯(lián)網(wǎng)的便捷性、信息的廣泛性則模糊了內部和外部資源的邊界,增強了對自我知識儲備的錯覺(jué)。
  這一影響看似微不足道,卻可能會(huì )在決策中產(chǎn)生致命影響。當我們在進(jìn)行高風(fēng)險決策時(shí),正確評估自己的能力是十分重要的。錯誤的高估自己會(huì )導致過(guò)度自信,從而帶來(lái)盲目的決定。誠然互聯(lián)網(wǎng)有著(zhù)數不清的優(yōu)點(diǎn),但在依賴(lài)它的同時(shí),也有必要認真審視它對我們產(chǎn)生的影響。(編輯:窗敲雨)
  參考資料:
  
  Fisher, M., Goddu, M. K., & Keil, F. C. (2015, March 30). Searching for Explanations: How the Internet Inflates Estimates of Internal Knowledge. Journal of Experimental Psychology: General. Advance online publication.
  Sparrow, B., Liu, J., & Wegner, D. M. (2011). Google effects on memory: Cognitive consequences of having information at our fingertips. science,333(6043), 776-778.
  一個(gè)AI
  這種名為“我啥都懂”的疾病有三個(gè)階段:
  1,我搜到了,我就覺(jué)得我會(huì )了;
  2,我知道去哪搜,我就覺(jué)得我會(huì )了;
  3,我不懂,我也不知道怎么搜,但我就是覺(jué)得自己啥都會(huì )!
  歡迎對號入座。
  果殼網(wǎng)
  ID:Guokr42
  為什么這樣的二維碼也能掃出來(lái)?
  長(cháng)按它,向果殼發(fā)送【二維碼】
  獲得答案!
  本文來(lái)自果殼網(wǎng),謝絕轉載
  如有需要請聯(lián)系
 ?。g迎轉發(fā)到朋友圈~) 查看全部

  是誰(shuí)給你的自信,讓你上網(wǎng)搜索一下就覺(jué)得“我啥都懂”的?
  現在,只要求助于萬(wàn)能的互聯(lián)網(wǎng),很多問(wèn)題都可以輕松地找到答案。不過(guò),這樣便捷的手段也可能帶來(lái)一些負面作用。發(fā)表在《實(shí)驗心理學(xué)雜志:綜合版》(Journal of Experimental Psychology: General)的一項研究[1]就發(fā)現,在使用互聯(lián)網(wǎng)搜索之后,人們可能會(huì )產(chǎn)生“掌握知識”的錯覺(jué),從而對自己的能力產(chǎn)生過(guò)高的估計。
  依賴(lài)互聯(lián)網(wǎng),對我們的記憶是好是壞?圖片來(lái)源:
  互聯(lián)網(wǎng):
  史上最好記憶搭檔
  在一個(gè)相互合作的團隊當中,人們對信息的處理方式會(huì )與單槍匹馬時(shí)有所不同。合作者們會(huì )共同組成交互記憶系統(transactive memory systems)——每個(gè)人都只需要掌握一部分知識或技能,然后彼此互相依賴(lài),在需要時(shí)進(jìn)行信息交換即可。在這樣的系統中,人們需要擁有兩種記憶:內部記憶(“我知道些什么”)和外部記憶(“誰(shuí)知道什么”)。擁有這兩種記憶,人們就能夠在團隊中貢獻自己的力量,并且高效地獲取外部信息來(lái)解決問(wèn)題。
  而隨著(zhù)科技的發(fā)展,交互記憶系統也加入了新的成員。除了人與人之外,人與互聯(lián)網(wǎng)等外部信息來(lái)源之間也可以建立類(lèi)似的關(guān)系?;ヂ?lián)網(wǎng)上的信息非常豐富,檢索起來(lái)也異常便捷,這使得它一躍成為了人類(lèi)最全能的記憶交互搭檔。
  不僅如此,互聯(lián)網(wǎng)還是個(gè)“甘于奉獻不求回報”的隊友。和它一起工作時(shí),人們可以不用給自己分配任何內部記憶的任務(wù),只需要記住搜索方法,剩下的任務(wù)就都可以交給互聯(lián)網(wǎng)了。這些特性也使得人們越來(lái)越依賴(lài)互聯(lián)網(wǎng)強大的工作能力,減少了自己儲存知識的過(guò)程?;ヂ?lián)網(wǎng)上的信息檢索正在改變人們的思維方式,我們所記住的只是找到信息的方法,而對知識本身的記憶則隨之減少[2]。
  好搭檔帶來(lái)的
  認識偏差
  除了改變人們的記憶方式之外,便捷的互聯(lián)網(wǎng)工具也可能讓我們對自己的知識儲備產(chǎn)生認識上的偏差。有學(xué)者指出,使用互聯(lián)網(wǎng)查找答案會(huì )使人產(chǎn)生一種“我也擁有這些知識”的錯覺(jué)。
  試想,當你想要了解一個(gè)學(xué)術(shù)問(wèn)題的答案時(shí),去圖書(shū)館尋找可能是一個(gè)相對漫長(cháng)而痛苦的過(guò)程。這個(gè)漫長(cháng)的過(guò)程時(shí)刻提醒著(zhù)你“我并不知道這個(gè)問(wèn)題的答案,所以我要尋找”。而在網(wǎng)上,只要輸入關(guān)鍵詞,你想要的答案可能立即就會(huì )呈現在你眼前。這樣輕松獲得詳盡答案的過(guò)程并不是一個(gè)“自然”的過(guò)程,人們可能會(huì )因此將搜索到的知識與自己的內部記憶“合并”,產(chǎn)生自己懂得這些知識的錯覺(jué)。
  為了驗證這一設想,耶魯大學(xué)的心理學(xué)研究者設計了一系列實(shí)驗。
  首先,研究者找來(lái)202名被試,把他們分成了“有網(wǎng)組”和“無(wú)網(wǎng)組”。兩組被試都要回答一組自然科學(xué)類(lèi)小問(wèn)題(例如“打火機是如何工作的”),不同的是“有網(wǎng)組”可以上網(wǎng)檢索幫助答題,而“無(wú)網(wǎng)組”只能靠自己既有的知識進(jìn)行回答。在答題之后,研究者又給出了一些其他不相干領(lǐng)域的題目,要求被試預測自己回答這些問(wèn)題的表現。
  
  實(shí)驗結果發(fā)現,使用了互聯(lián)網(wǎng)的被試在不相干的領(lǐng)域也表現出了顯著(zhù)高于“無(wú)網(wǎng)組”的自信。有意思的是,即使研究者給“無(wú)網(wǎng)組”被試看過(guò)“有網(wǎng)組”被試可以查到的資料之后,上述差異依然存在。由此看來(lái),上網(wǎng)搜索似乎確實(shí)讓人們產(chǎn)生了自己“更有學(xué)問(wèn)”的錯覺(jué)。
  你的許多信息, 是不是已經(jīng)存在云端了?然后你就忘了。圖片來(lái)源:
  為了確保結果可靠,研究者們又改變評估方式重新進(jìn)行了實(shí)驗,并特意提醒被試在預測答題能力時(shí)“不要考慮任何外部資源”。而這一次的實(shí)驗結果依然相同:“有網(wǎng)組”被試依然相信自己擁有更多的知識,可以更好地回答各種問(wèn)題。
  錯覺(jué)從何而來(lái)?
  那么,產(chǎn)生這種現象的原因究竟是什么?是人們真的產(chǎn)生了對知識儲備的錯覺(jué),還是有其他影響因素?對此,研究者提出了若干種假設。
  首先,研究者提出,互聯(lián)網(wǎng)的運用或許并不是影響了人們對知識儲備的認識,而是帶來(lái)了全面的自信心提升。不過(guò),后續的研究發(fā)現,在知識性問(wèn)題以外的方面,兩組被試對答題能力的預測并沒(méi)有差別。對于那些不能在互聯(lián)網(wǎng)上找到答案的問(wèn)題,被試的自我認知并沒(méi)有發(fā)生膨脹。
  此后,研究者將注意力轉移到了“主動(dòng)尋找答案”這個(gè)過(guò)程上。在實(shí)驗中,“有網(wǎng)組”被試可以主動(dòng)地上網(wǎng)搜索,而“無(wú)網(wǎng)組”一直被動(dòng)地接受材料,這或許就是造成差異的原因。于是,研究者又重新設計了實(shí)驗:他們讓“無(wú)網(wǎng)組”被試也上網(wǎng)獲取答案,但他們不需要自己搜索,而是可以直接獲取包含答案的網(wǎng)站鏈接。實(shí)驗結果顯示,“有網(wǎng)組”被試對自己知識儲備的評價(jià)再一次超過(guò)了“無(wú)網(wǎng)組”。在此之后,研究者又對實(shí)驗中的搜索引擎動(dòng)了手腳——一組被試所用的搜索引擎會(huì )將結果完全屏蔽,而另一組只能搜到近一周公布的信息。結果發(fā)現,即使是在搜索中遇到困難的被試,他們對自身知識的評價(jià)也會(huì )顯著(zhù)高于沒(méi)有經(jīng)過(guò)檢索的人。
  至此,研究者已經(jīng)對1712名被試進(jìn)行了一系列實(shí)驗,他們終于得出了自己的結論——在使用互聯(lián)網(wǎng)時(shí),人們主動(dòng)搜索信息的過(guò)程會(huì )使他們高估了自己的知識儲備和答題能力。
  我們如何理解
  這項漫長(cháng)的研究?
  不能否認,我們已將互聯(lián)網(wǎng)當作親密無(wú)間的“記憶伙伴”,而這項研究也提醒我們,互聯(lián)網(wǎng)可能使我們產(chǎn)生“掌握知識”的錯覺(jué)。
  在互聯(lián)網(wǎng)之前,人們也會(huì )依賴(lài)書(shū)籍、專(zhuān)家來(lái)進(jìn)行信息的交互。但是這些資源并不是立即可得的。而互聯(lián)網(wǎng)的便捷性、信息的廣泛性則模糊了內部和外部資源的邊界,增強了對自我知識儲備的錯覺(jué)。
  這一影響看似微不足道,卻可能會(huì )在決策中產(chǎn)生致命影響。當我們在進(jìn)行高風(fēng)險決策時(shí),正確評估自己的能力是十分重要的。錯誤的高估自己會(huì )導致過(guò)度自信,從而帶來(lái)盲目的決定。誠然互聯(lián)網(wǎng)有著(zhù)數不清的優(yōu)點(diǎn),但在依賴(lài)它的同時(shí),也有必要認真審視它對我們產(chǎn)生的影響。(編輯:窗敲雨)
  參考資料:
  
  Fisher, M., Goddu, M. K., & Keil, F. C. (2015, March 30). Searching for Explanations: How the Internet Inflates Estimates of Internal Knowledge. Journal of Experimental Psychology: General. Advance online publication.
  Sparrow, B., Liu, J., & Wegner, D. M. (2011). Google effects on memory: Cognitive consequences of having information at our fingertips. science,333(6043), 776-778.
  一個(gè)AI
  這種名為“我啥都懂”的疾病有三個(gè)階段:
  1,我搜到了,我就覺(jué)得我會(huì )了;
  2,我知道去哪搜,我就覺(jué)得我會(huì )了;
  3,我不懂,我也不知道怎么搜,但我就是覺(jué)得自己啥都會(huì )!
  歡迎對號入座。
  果殼網(wǎng)
  ID:Guokr42
  為什么這樣的二維碼也能掃出來(lái)?
  長(cháng)按它,向果殼發(fā)送【二維碼】
  獲得答案!
  本文來(lái)自果殼網(wǎng),謝絕轉載
  如有需要請聯(lián)系
 ?。g迎轉發(fā)到朋友圈~)

如何進(jìn)行內部信息源搜索引擎優(yōu)化方法的異同簡(jiǎn)單來(lái)說(shuō)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 106 次瀏覽 ? 2022-06-26 06:00 ? 來(lái)自相關(guān)話(huà)題

  如何進(jìn)行內部信息源搜索引擎優(yōu)化方法的異同簡(jiǎn)單來(lái)說(shuō)
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同簡(jiǎn)單來(lái)說(shuō)的話(huà),主要是需要進(jìn)行互補。內部搜索引擎優(yōu)化主要是想通過(guò)傳播網(wǎng)頁(yè),或者圖片,軟文等形式吸引用戶(hù),進(jìn)而有效的提高頁(yè)面的點(diǎn)擊量.而外部信息源,是通過(guò)上傳頁(yè)面鏈接等進(jìn)行文字,圖片甚至音頻等形式對頁(yè)面進(jìn)行推廣.當然,我們的目的也是為了提高頁(yè)面的質(zhì)量。他們兩者的優(yōu)缺點(diǎn)是不同的。
  
  外部信息源:成本低,效果顯著(zhù),但用戶(hù)體驗會(huì )受到影響。內部搜索引擎優(yōu)化:成本低,但獲得的回報不如外部信息源。如何進(jìn)行內部搜索引擎優(yōu)化?外部信息源:大部分在百度新聞源,大家可以查看搜狐新聞源,騰訊新聞源,各大門(mén)戶(hù)網(wǎng)站搜索引擎都會(huì )在頁(yè)面里面發(fā)布各種各樣的文章.內部搜索引擎優(yōu)化:在垂直網(wǎng)站發(fā)布文章,內容,影片,教程,文獻,小說(shuō),文章,等內容。
  這種策略對于一個(gè)網(wǎng)站進(jìn)行排名,搜索引擎認可,會(huì )給網(wǎng)站建議度,分享度等等.對于seo新手來(lái)說(shuō),是一個(gè)好事,可以短時(shí)間內,快速積累一定量的內容。如何進(jìn)行內部搜索引擎優(yōu)化?準備:一個(gè)好的logo,主要說(shuō)的就是網(wǎng)站名稱(chēng),網(wǎng)站服務(wù)器,域名.網(wǎng)站本身要進(jìn)行seo優(yōu)化,必須要具備好的內部數據源.外部信息源:大部分在百度新聞源,大家可以查看搜狐新聞源,騰訊新聞源,各大門(mén)戶(hù)網(wǎng)站搜索引擎都會(huì )在頁(yè)面里面發(fā)布各種各樣的文章.內部搜索引擎優(yōu)化:在垂直網(wǎng)站發(fā)布文章,內容,影片,教程,文獻,小說(shuō),文章,等內容。
  這種策略對于一個(gè)網(wǎng)站進(jìn)行排名,搜索引擎認可,會(huì )給網(wǎng)站建議度,分享度等等.對于seo新手來(lái)說(shuō),是一個(gè)好事,可以短時(shí)間內,快速積累一定量的內容。 查看全部

  如何進(jìn)行內部信息源搜索引擎優(yōu)化方法的異同簡(jiǎn)單來(lái)說(shuō)
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同簡(jiǎn)單來(lái)說(shuō)的話(huà),主要是需要進(jìn)行互補。內部搜索引擎優(yōu)化主要是想通過(guò)傳播網(wǎng)頁(yè),或者圖片,軟文等形式吸引用戶(hù),進(jìn)而有效的提高頁(yè)面的點(diǎn)擊量.而外部信息源,是通過(guò)上傳頁(yè)面鏈接等進(jìn)行文字,圖片甚至音頻等形式對頁(yè)面進(jìn)行推廣.當然,我們的目的也是為了提高頁(yè)面的質(zhì)量。他們兩者的優(yōu)缺點(diǎn)是不同的。
  
  外部信息源:成本低,效果顯著(zhù),但用戶(hù)體驗會(huì )受到影響。內部搜索引擎優(yōu)化:成本低,但獲得的回報不如外部信息源。如何進(jìn)行內部搜索引擎優(yōu)化?外部信息源:大部分在百度新聞源,大家可以查看搜狐新聞源,騰訊新聞源,各大門(mén)戶(hù)網(wǎng)站搜索引擎都會(huì )在頁(yè)面里面發(fā)布各種各樣的文章.內部搜索引擎優(yōu)化:在垂直網(wǎng)站發(fā)布文章,內容,影片,教程,文獻,小說(shuō),文章,等內容。
  這種策略對于一個(gè)網(wǎng)站進(jìn)行排名,搜索引擎認可,會(huì )給網(wǎng)站建議度,分享度等等.對于seo新手來(lái)說(shuō),是一個(gè)好事,可以短時(shí)間內,快速積累一定量的內容。如何進(jìn)行內部搜索引擎優(yōu)化?準備:一個(gè)好的logo,主要說(shuō)的就是網(wǎng)站名稱(chēng),網(wǎng)站服務(wù)器,域名.網(wǎng)站本身要進(jìn)行seo優(yōu)化,必須要具備好的內部數據源.外部信息源:大部分在百度新聞源,大家可以查看搜狐新聞源,騰訊新聞源,各大門(mén)戶(hù)網(wǎng)站搜索引擎都會(huì )在頁(yè)面里面發(fā)布各種各樣的文章.內部搜索引擎優(yōu)化:在垂直網(wǎng)站發(fā)布文章,內容,影片,教程,文獻,小說(shuō),文章,等內容。
  這種策略對于一個(gè)網(wǎng)站進(jìn)行排名,搜索引擎認可,會(huì )給網(wǎng)站建議度,分享度等等.對于seo新手來(lái)說(shuō),是一個(gè)好事,可以短時(shí)間內,快速積累一定量的內容。

彼得·比勒金等 | Dacura平臺——歷史學(xué)研究的數據收集和知識提取新途徑

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 136 次瀏覽 ? 2022-06-25 22:54 ? 來(lái)自相關(guān)話(huà)題

  彼得·比勒金等 | Dacura平臺——歷史學(xué)研究的數據收集和知識提取新途徑
  當前計算機技術(shù)的發(fā)展為學(xué)者們提供了新的途徑對來(lái)自互聯(lián)網(wǎng)的數據進(jìn)行收集、儲存和檢索,這為歷史科學(xué)領(lǐng)域里進(jìn)行文獻綜述以及數據收集方法的轉型提供了可能。作為一個(gè)數據綜合維護平臺,Dacura系統突出地反映了這一發(fā)展趨勢的三個(gè)方面:第一,它是一種基于知識圖譜的數據模型,從而區別于標準的用行與列表達的數據結構;第二,使用網(wǎng)絡(luò )本體語(yǔ)言(Web Ontology Language,OWL)對數據進(jìn)行定義;第三,具有基于語(yǔ)義推理的自動(dòng)處理進(jìn)程,以篩選掉成千上萬(wàn)與研究議題不相關(guān)或者準確度存疑的在線(xiàn)和數據庫點(diǎn)擊量。Ducara的建立與Seshat數據庫處于伴生關(guān)系,后者的組建旨在協(xié)調量化歷史和考古學(xué)數據,以此用統計方法對歷史動(dòng)態(tài)模型進(jìn)行測試。以下我們將提供具體的范例來(lái)介紹Dacura和Seshat數據庫,以說(shuō)明上文述及的計算機科學(xué)的進(jìn)步從哪些方面能夠惠及歷史研究者的工作。
  對于史學(xué)研究者來(lái)說(shuō),未經(jīng)審核的數據過(guò)剩是一個(gè)基本問(wèn)題,而Dacura平臺旨在為學(xué)者們提供解決方案。舉例來(lái)說(shuō),假設研究者打算收集量化數據來(lái)回答某個(gè)特定問(wèn)題,比如夏威夷島上的人口增長(cháng)是否先于1500年左右國家的出現,一個(gè)簡(jiǎn)易的人口壓力模型就能做出預測。如果她僅僅在谷歌搜索引擎輸入“古代夏威夷人口”,將會(huì )得到接近250000個(gè)搜索結果(其中一些涉及現代人口統計數據),而且她也沒(méi)有簡(jiǎn)單省力的方法去弄清楚,搜索引擎提供的這么多有關(guān)古代夏威夷的信息中,哪些信息是她需要的,哪些信息是可靠的(例如,“古代夏威夷人口”的維基百科頁(yè)面僅僅提供了估算數據,而且明顯地源于單一的信息源;而無(wú)法明確地鑒別數據來(lái)源本身就是一個(gè)嚴重的問(wèn)題)。如果這個(gè)研究者代之以谷歌學(xué)術(shù),檢索的結果數量會(huì )減少到大約165000條,盡管她可以指望結果的質(zhì)量更好,不過(guò)鑒別這些論文和學(xué)術(shù)專(zhuān)著(zhù)是否與她的問(wèn)題旨趣直接相關(guān),仍然是個(gè)令人生畏的工作。甚至使用JSTOR,這一質(zhì)量有保證的數據庫,也將提供大約60000篇論文給研究者的篩選工作制造障礙。
  上述例子表明目前史學(xué)研究者所面臨的一個(gè)中心問(wèn)題,互聯(lián)網(wǎng)和出版資源的開(kāi)放獲取為史學(xué)工作者們感興趣的任何研究議題,提供了豐富的信息和材料,然而這些信息沒(méi)有質(zhì)量保證,即便是有質(zhì)量保障的信息源(比如同行評議的開(kāi)源出版物),信息量也是過(guò)剩的。因此對于研究者來(lái)說(shuō),希望出現這樣一種工具:允許研究者建立自己的高質(zhì)量的、結構化的數據集,為研究者提供解決問(wèn)題所需要的材料。這種工具要求一種層級結構的(本體)設計,從而讓研究者可以較為容易地挖掘出與他們的研究直接相關(guān)的檢索結果。這個(gè)檢索工具應該能精確對結果進(jìn)行索引,研究者檢索夏威夷人口的估算值時(shí)——正如我們虛構的研究者試圖嘗試的那樣——不僅可以檢索到所有與夏威夷人口估算有關(guān)的結果,同時(shí)也不會(huì )檢索到與研究題目不相關(guān)的其他統計數據和地點(diǎn)信息。簡(jiǎn)而言之,這樣的檢索工具必須能夠應用集成的詞庫或詞庫集作為基本的檢索程序的一部分。
  除此之外,還有不少檢索工具能夠提供這種功能:進(jìn)行跨領(lǐng)域的快速檢索特定的、高質(zhì)量的信息。僅就考古學(xué)領(lǐng)域的檢索工具(它的第一位創(chuàng )建者是一名考古學(xué)家)而言,eHRAF(Human Relations Area Files; )就是業(yè)內的一個(gè)典范。它提供兩個(gè)文件檔案庫(分別是民族志檔案和考古學(xué)檔案),使用高精確度的本體——世界文化概覽和考古傳統概覽(the Outline of World Cultures and Outline of Archaeological Traditions),以及豐富的詞庫集——文化史料概覽(the Outline of Cultural Materials)。因此eHRAF可以從來(lái)自將近45萬(wàn)頁(yè)的考古、民族志原始和二手史料中實(shí)現句段檢索,能夠使用層級結構和布爾搜索策略,輕易地實(shí)現信息的搜索和重構。這些檢索結果是具體的,并具有極高的質(zhì)量和專(zhuān)門(mén)性,研究者也可以對之進(jìn)行數量管理。然而,其檢索結果的范圍僅限于eHRAF數據庫囊括的資料。eHRAF之所以能夠提供如此高質(zhì)量的信息檢索,是因為其進(jìn)行了廣泛的信息預處理,擁有博士學(xué)位的考古學(xué)家對每個(gè)文檔、甚至每個(gè)段落都用本體進(jìn)行了編碼。簡(jiǎn)要來(lái)說(shuō),該平臺提供的簡(jiǎn)易的高質(zhì)量信息搜索和檢索,其背后卻要求巨大的工作量。這一方面意味著(zhù)eHRAF平臺數據擴充比較緩慢,另一方面平臺必須要向用戶(hù)收費。
  tDAF(the Digital Archaeological Record; )平臺則是另一個(gè)檢索工具,像前述的eHRAF一樣,它也可以提供迅捷的、特定的、高質(zhì)量的跨領(lǐng)域信息檢索服務(wù)。包括原始數據集、shapefiles格式的文件和其他類(lèi)似的數據資料,都能夠在tDAF平臺上獲得,它們被基本的本體組織起來(lái)。不同于eHRAF平臺,這些信息不是由tDAF的運營(yíng)人員處理的(盡管他們會(huì )進(jìn)行審核以確保進(jìn)程的正確性),而主要依賴(lài)個(gè)體研究者,由他們向平臺提交處理好的元數據結構。這一特點(diǎn)令tDAR平臺中的信息、檔案、文獻的數量能相對快速地增長(cháng),用戶(hù)也能夠免費使用tDAR平臺的信息檢索功能,不過(guò)為了鼓勵提供文獻,平臺還是會(huì )收取少許費用。然而,因為用戶(hù)提供數據本體和索引,致使材料的細節和精確度存在差異,這意味著(zhù)搜索的結果可能無(wú)法包含所有相關(guān)的文檔信息。此外,和eHRAF一樣,這個(gè)平臺可供檢索的信息也局限在平臺數據集中。
  OpenContext()則是類(lèi)似于tDAR的另一個(gè)優(yōu)秀數據庫,不過(guò)它有一些附加功能,讓數據庫的檢索范圍超越了考古學(xué)領(lǐng)域。與tDAF類(lèi)似,考古數據的使用需要一些費用。但不同于tDAF,OC平臺的編輯者們同資源貢獻者們會(huì )一起創(chuàng )建元數據、清理數據以便在網(wǎng)絡(luò )上發(fā)布,而數據資源自身的意義會(huì )在這一過(guò)程中得到雙方的評估;換言之,并不是所有數據都會(huì )在平臺公開(kāi)發(fā)布,只有那些接受過(guò)同行評審、有廣泛應用前景的數據才會(huì )被發(fā)布。一旦與Open Context對接,數據資源就通過(guò)關(guān)聯(lián)數據標準(Linked Data standards)與互聯(lián)網(wǎng)上的數據實(shí)現鏈接。這使得Open Context平臺的檢索范圍超出了檔案庫的數據,從而克服了eHRAF和tDAR兩大平臺的局限,同時(shí)同行審核又對那些由Open Context直接貢獻的信息提供了質(zhì)量保證,不過(guò)審核流程中的信息是基于OC平臺的,而非直接鏈接到的原始信息源,我們認為這是一個(gè)較為嚴重的局限。
  我們在這里介紹的,即是比上述三種平臺(當然還有許多其他優(yōu)秀的數據庫項目和數據儲存平臺可供征引介紹)更具有綜合性的解決方案:Dacura(dacura. cs.tcd.ie)。這一平臺可以跨領(lǐng)域檢索特定的高質(zhì)量信息,它是集數據收集、評估、整理和輸出為一體的綜合平臺,也是Seshat數據庫(seshatdatabank. info)的管理系統,后者的功能、特性我們會(huì )在下文詳述。通過(guò)大數據研究的多種新方案的協(xié)同開(kāi)發(fā)和運作,Dacura平臺在持續的問(wèn)題和缺陷發(fā)現機制的運行中獲得助益,并匯集和解決了大量、復雜的歷史信息檢索、收集過(guò)程中面臨的問(wèn)題和需求,因此可以作為一個(gè)優(yōu)秀的研究資源,惠及學(xué)院派的史學(xué)工作者。
  知識圖譜技術(shù)在諸如谷歌和臉譜等互聯(lián)網(wǎng)企業(yè)的海量和多樣信息資源——企業(yè)內部會(huì )對之加以綜合處理和管理——的管理和結構化中,發(fā)揮著(zhù)越來(lái)越大的作用。傳統的基于表格和行列排列組合的SQL儲存解決方案已經(jīng)不能勝任企業(yè)管理的復雜信息的結構及其蘊含的語(yǔ)義,也無(wú)法呈現事物間的復雜關(guān)系。然而對于數據來(lái)說(shuō),除了體量龐大和具有技術(shù)實(shí)力的企業(yè)外,知識圖譜技術(shù)的使用仍然需要專(zhuān)門(mén)且難度較高的技術(shù)門(mén)檻。Dacura設計的目標便是開(kāi)辟一條路徑,讓歷史研究者們不需要掌握大量的專(zhuān)業(yè)知識就可以使用知識圖譜技術(shù)。Dacura通過(guò)以下兩個(gè)方面來(lái)實(shí)現這些目標,即它可以自動(dòng)運行諸多數據——它們來(lái)自該平臺設置的語(yǔ)義分析模塊——的收集和綜合處理軟件,同時(shí)也為用戶(hù)提供簡(jiǎn)易的操作工具和界面——而不需要了解隱藏在背后的技術(shù)原理。
  本文并不旨在為Dacura平臺打小廣告,毋寧說(shuō)我們是通過(guò)介紹Dacura來(lái)進(jìn)一步闡明一種收集、評估和檢索來(lái)自互聯(lián)網(wǎng)和任何一批大數據資源(得益于計算機技術(shù)的進(jìn)步)的途徑和方法。我們確信這將為歷史科學(xué)帶來(lái)影響深遠的沖擊。
  Dacura平臺
  Dacura是一個(gè)數據綜合處理平臺。它的設計目的在于,協(xié)助歷史學(xué)者利用豐富的語(yǔ)義知識圖譜來(lái)建立并管理高質(zhì)量的數據庫?!昂?jiǎn)明易用”即是該平臺創(chuàng )設的一個(gè)基礎性理念——史學(xué)工作者可以對意圖收集的數據結構自行定義。該平臺運用這些信息結構來(lái)進(jìn)一步支持用戶(hù)發(fā)現、收集、過(guò)濾、校正、精煉和分析源于互聯(lián)網(wǎng)的數據,進(jìn)而整理出高質(zhì)量的信息。以下這些具體和詳細的信息需要研究者提供給Dacura以開(kāi)啟自動(dòng)處理的進(jìn)程:學(xué)者與他們研究議題相關(guān)的基本信息實(shí)體(比如“夏威夷”)的定義;它們的具體內容和特征(如人口估算值)、數據類(lèi)型和每個(gè)屬性的計量單位(如數值型)、與數據組內部以及其他數據集其他實(shí)體的關(guān)系(如夏威夷位于波利尼西亞)。
  這一工具的優(yōu)勢之一在于,它能夠界定學(xué)者意圖獲取的信息或數據的結構。所有歷史科學(xué)家都清楚,在史料能被使用之前,其屬性和有效性必須得到批判和反思。由于Dacura在執行一次搜索命令以前,處理進(jìn)程要求所需的數據的一些基本的、精確的屬性參數。因此這一運作邏輯鼓勵研究者們仔細思考以下問(wèn)題:當他們展開(kāi)數據收集工作以前,所需的數據、史料的本質(zhì)是什么?同時(shí)他們采用什么樣的視野和方法來(lái)提出自己的問(wèn)題?這樣的準備工作為歷史學(xué)家節省了時(shí)間和精力,而辨明有用的信息來(lái)源通常也是歷史研究中最為困難的任務(wù)。Dacura簡(jiǎn)明和友好的用戶(hù)交互界面(下文會(huì )展開(kāi)說(shuō)明)令明確數據界限的工作流程容易起來(lái),同時(shí)由于Dacura提供一種靈活的搜索結構,搜索進(jìn)程能夠動(dòng)態(tài)適應,會(huì )隨著(zhù)數據被審視的方式,以及聚焦的問(wèn)題相應地產(chǎn)生變化。
  Dacura可以把研究者界定的數據集的結構編譯為一種語(yǔ)義網(wǎng)絡(luò )本體結構。這種本體結構根據萬(wàn)維網(wǎng)聯(lián)盟(W3C,互聯(lián)網(wǎng)國際標準的主要制定者)的網(wǎng)絡(luò )本體語(yǔ)言(OWL)標準制式進(jìn)行編碼。作為一種豐富而靈活的本體語(yǔ)言標準,OWL可以令廣泛而多樣的約束條件和推理規則被研究者指定到數據收集進(jìn)程中去,如一個(gè)城鎮的人口不應該比它所在地區的人口更為龐大。因而與非結構化的自然語(yǔ)言字符串——它們是驅動(dòng)大多數搜索引擎的結果——形成對比,高度體系化和精確化界定出的本體結構的數據集,其屬性參數能夠被計算機充分利用,從而為研究者獲取特征更為鮮明的檢索結果。由此,史學(xué)研究者輸入和界定的信息結構及其屬性參數越豐富,Dacura系統對數據的自動(dòng)收集和用以分析、優(yōu)化和管理數據工具的生成也就越容易。
  Dacura平臺的運行還基于一種語(yǔ)義網(wǎng)絡(luò )技術(shù)。其核心內容是一種資源描述框架(Resource Description Framework, RDF),是一種三元數據庫結構(不是那種二維的行與列組成的電子表格),呈現為類(lèi)似“夏威夷處于波利尼西亞”、“夏威夷擁有島嶼”或是“波利尼西亞擁有島嶼”這樣的主謂賓句式結構(subject-predicate-object structure)。這種主謂賓句式結構可以被理解為結點(diǎn)-邊-屬性(nodes-edges-properties)這樣的語(yǔ)義結構,形成一種呈現和儲存數據信息的三維視圖表格。RDF作為三元存儲圖形數據結構能夠實(shí)現無(wú)索引的鏈接,每一個(gè)主謂賓句式詞串可以直接鏈接到對應的主謂賓三元組合中去,不需要索引查找。結合上文提及的“夏威夷人口”這一假設的問(wèn)題語(yǔ)境,波利尼西亞、夏威夷和島嶼這些關(guān)鍵詞會(huì )被全部鏈接起來(lái),使得系統不需要索引搜索就可以確定夏威夷是波利尼西亞群島中的一個(gè)。
  Dacura平臺運用OWL本體來(lái)確保語(yǔ)義推理過(guò)程中的質(zhì)量管理以及數據收集工作的正常進(jìn)行;具體來(lái)說(shuō),如果上文提及的三元組合存在沖突,Dacura會(huì )將之識別出來(lái)并作為一個(gè)沖突項加以標記以供研究者進(jìn)一步評估。Dacura被設計成在開(kāi)放關(guān)聯(lián)數據的原則下生產(chǎn)和使用數據。這一設計理念讓以下活動(dòng)變得更為便利:比如從現有的結構化信息資源里輸入信息,通過(guò)數據集之間的互通以擴充研究者管理的數據集,這里的互通是經(jīng)由關(guān)聯(lián)數據鏈接到公共數據資源(如DBpedia或維基數據,它是維基百科的關(guān)聯(lián)數據版本),同時(shí)那些由Dacura組織起來(lái)的數據集也能通過(guò)類(lèi)似的方式簡(jiǎn)易地關(guān)聯(lián)起來(lái)。我們在Youtube視頻網(wǎng)站上提供了Dacura鏈接不同資源的視頻范例。Dacura平臺的一個(gè)核心功能即數據收集,包括通過(guò)關(guān)聯(lián)數據采集數據,而且作為系統工作流的一部分,平臺會(huì )通過(guò)自動(dòng)和人工的方式對數據的質(zhì)量進(jìn)行評估。因此Dacura不僅能夠快捷和便利地收集信息,也能夠對信息的質(zhì)量進(jìn)行評定。
  Dacura平臺的工作流把數據的創(chuàng )建和管理分為四個(gè)階段,如圖一所示。第一個(gè)階段是數據的收集:確定用于填充研究者數據集的高質(zhì)量信息的來(lái)源。Dacura支持多種方式進(jìn)行數據收集:它可以在公共數據資源識別出與學(xué)者研究相關(guān)的數據,也可以部署自動(dòng)代理進(jìn)行互聯(lián)網(wǎng)搜索,再到通過(guò)人工力量對信息來(lái)源做進(jìn)一步規范。這套系統的目標在于盡可能大的實(shí)現處理進(jìn)程的自動(dòng)化,而識別和界定信息來(lái)源是為了擴充學(xué)者數據集的需要。在這個(gè)階段,系統的目標不在于尋找到那些與研究者感興趣的研究議題有關(guān)的內容實(shí)體,而是為了尋找到明確的信息來(lái)源,可以用于擴充數據的屬性和關(guān)系,即那些研究者已經(jīng)在數據規范中加以定義的屬性和關(guān)系。
  Dacura數據創(chuàng )建和管理進(jìn)程的第二個(gè)步驟是知識提取。這個(gè)階段會(huì )從收集的數據來(lái)源中提取出精確的信息,并將之納入到研究者的數據規范所需要的結構中去。盡管自然語(yǔ)言處理和其他的人工智能技術(shù)仍然在持續發(fā)展,但它們還是很容易出錯,因而在通常情況下為了保證數據的高質(zhì)量,投入一些人力來(lái)過(guò)濾程序誤報也是必須的。Dacura平臺采用的工具在篩選、過(guò)濾、改進(jìn)、注釋和鏈接候選信息記錄等方面,支持人工用戶(hù)和自主代理產(chǎn)出知識報告;換言之,信息來(lái)源里包含有相關(guān)知識的權威解釋?zhuān)⑼ㄟ^(guò)鏈接到網(wǎng)絡(luò )數據而得到更廣泛的擴充。
  Dacura數據處理進(jìn)程的第三個(gè)階段或許是為保證數據質(zhì)量最為重要的階段:專(zhuān)家分析。Dacura平臺的一大長(cháng)處便是聚焦數據質(zhì)量,基于自動(dòng)代理工具和人工處理確保收集來(lái)的數據在準確度和完整性上符合研究者先前提供給平臺的數據規范要求。平臺首先通過(guò)基于語(yǔ)義一致性和有效性測試技術(shù)的自動(dòng)處理工具,對收集來(lái)的原始數據加以處理,將不同數據指向并合并到一個(gè)綜合解釋中去,該解釋體現了自動(dòng)處理工具對權威數據——它們準確地反映了真實(shí)的狀況——最精確的預估。這些綜合解釋進(jìn)一步由領(lǐng)域專(zhuān)家——就像本文假設的對夏威夷人口問(wèn)題感興趣的學(xué)者——來(lái)評估,這一步驟允許專(zhuān)家校正訛誤繼而確認專(zhuān)家意見(jiàn)與自動(dòng)處理工具之間的不一致。專(zhuān)家們可以編纂具有個(gè)人色彩的數據解釋?zhuān)ū热缣貏e指明只有某個(gè)特定的信息來(lái)源是可信的),并在數據集上把這條解釋覆蓋上去,進(jìn)而創(chuàng )建一個(gè)自定義的數據集,以呈現他們對某些數據的看法。
  至于Seshat平臺的領(lǐng)域專(zhuān)家,由該平臺的管理團隊負責征集,主要根據他們在需要評估的相關(guān)領(lǐng)域內的出版記錄。這些專(zhuān)家都具有相應學(xué)術(shù)領(lǐng)域的博士學(xué)位,相當一部分有學(xué)院派的工作背景。專(zhuān)家也會(huì )被定期評估,以辨別出經(jīng)常輸入與采集到的數據有訛誤的那些人。有人可能會(huì )認為通過(guò)征詢(xún)來(lái)建立一個(gè)專(zhuān)家庫似乎不那么有效率,但是我們在Seshat數據庫公開(kāi)的名單中,可以看到目前作為志愿者參與數據評估的專(zhuān)家們的工作質(zhì)量。本文撰寫(xiě)時(shí)數據庫的專(zhuān)家數量為77名,而這些志愿專(zhuān)家們的專(zhuān)業(yè)領(lǐng)域的覆蓋范圍表明,將專(zhuān)家評估整合到像Dacura平臺這樣的數據收集系統是十分可行的。大部分采用了Dacura平臺的項目,可能不會(huì )有Seshat數據庫這般囊括了廣闊的學(xué)術(shù)視野和范圍,唯一需要對數據進(jìn)行評估的專(zhuān)家,可能就是研究者自己。
  最后,Dacura支持各類(lèi)輸出工具讓數據能夠以不同格式輸出到第三方平臺。Dacura發(fā)布了它作為一種關(guān)聯(lián)數據格式的管理數據,所以其他的用戶(hù)和平臺,如上文述及的Open Context,能夠毫無(wú)困難地訪(fǎng)問(wèn)它。Dacura還提供SPARQL終端——一種針對RDF的查詢(xún)語(yǔ)言——支持數據的復雜過(guò)濾和提取。這便允許智能應用程序以一種之前難以想見(jiàn)的方式實(shí)現與數據的交互。對于個(gè)人用戶(hù)來(lái)說(shuō),Dacura平臺能夠生成圖表、表格、地圖和其他的可視化工具,為用戶(hù)提供便于理解數據的可視化呈現方式。以圖表或其他輸出方式呈現的數據,可以瀏覽、檢索和選定,令用戶(hù)能夠訪(fǎng)問(wèn)其中與他們的研究主題最為貼合的一部分數據。Dacura還可以實(shí)現數據集或它們的子項以更為廣泛的數據格式輸出,從而用于外部分析,其中包括地理信息系統以及諸如SPSS或者R語(yǔ)言的統計格式。
  Dacura的實(shí)施:Seshat數據庫的元數據模型
  作為Dacura在研究實(shí)踐中發(fā)揮作用的范例,圖二向讀者展示了元數據模型如何被運用到Seshat——全球歷史數據庫(Global Historical Databank)。Seshat數據庫()的目的是組建一個(gè)全面而綜合的知識體系,這些知識包括人類(lèi)歷史以及史前史,以實(shí)證檢驗有關(guān)文化演變的假說(shuō),包括宗教、儀式、戰爭、農業(yè)或者其他變量在社會(huì )復雜化進(jìn)程中扮演的角色。迄今為止,Seshat數據庫已經(jīng)被用于區分出一種單一的復雜性維度,可以用來(lái)解釋人類(lèi)社會(huì )組織中大約四分之三的變化;此外它還被用于論證軸心時(shí)代貫穿于歐亞大陸的社會(huì )政治轉型的假說(shuō),超過(guò)了一千年的時(shí)間跨度。運用適當的統計學(xué)技術(shù)來(lái)考察這類(lèi)時(shí)間尺度較大的問(wèn)題需要有效和可靠的數據;這也是說(shuō),數據能夠反映學(xué)者們對問(wèn)題的定義,同時(shí)數據在不同案例中以同樣的標準被度量。
  當Seshat數據庫在計劃籌建階段時(shí),正處于開(kāi)發(fā)狀態(tài)的Dacura被認為對Seshat來(lái)說(shuō)是一個(gè)絕佳的數據處理平臺。兩支團隊決定協(xié)同開(kāi)發(fā)Dacura和Seshat平臺,令雙方實(shí)現信息共享。由于計算機科學(xué)家和歷史學(xué)家以往不會(huì )一同開(kāi)展工作,所以Dacura和Seshat兩大平臺的研究團隊之間的合作證明跨學(xué)科研究能夠取得豐碩的成果,當然前提是Dacura團隊的計算機專(zhuān)家能夠了解歷史學(xué)家的需求,同時(shí)Seshat研究團隊也能夠理解三元數據結構在收集和管理數據層面的可能性和局限性。
  Seshat的運行環(huán)境基于兩個(gè)基本信息:位置信息(Location)和持續時(shí)段(Duration)。具體來(lái)說(shuō),位置信息是地球表面上任意一個(gè)點(diǎn)或者多邊形區域,其實(shí)體被定義為領(lǐng)域(Territory)。Seshat定義了三級結構的領(lǐng)域實(shí)體(在Seshat升級后可能實(shí)現更多層級結構):
 ?。?)自然地理區域(Natural-Geographic Areas,NGA),它指的是一種大約100x100公里的相鄰區域,其中包含有相當均一的生態(tài)環(huán)境區域。
 ?。?)生物群落(Biomes),指的是一種具有連續性的生物圈或是擁有相似氣候條件的區域。
 ?。?)世界性區域(World Regions),它可能是指像民族國家、地區政權或是能以其他特定標準識別的預定義實(shí)體。
  一個(gè)持續時(shí)段可以設定為一個(gè)單個(gè)日期或一個(gè)時(shí)間段。添加一個(gè)持續時(shí)段到領(lǐng)域實(shí)體層級中去,便可以產(chǎn)生兩個(gè)有時(shí)間限制的實(shí)體之一:
 ?。?)人口,指在一個(gè)確定的時(shí)間段內生活在某個(gè)特定領(lǐng)域內的一批人類(lèi)群體;
 ?。?)一個(gè)歷史事件,它被定義為在一個(gè)確定的時(shí)間段內、在某個(gè)特定領(lǐng)域內發(fā)生的事件。
  Seshat數據庫能夠為特定研究問(wèn)題提供人口和歷史事件的實(shí)體類(lèi)。對于人口,目前有以下幾種實(shí)體類(lèi):
 ?。?)傳統,它被定義為人類(lèi)群體“分享相似的日常生活實(shí)踐、技術(shù)以及社會(huì )政治組織,它們在一個(gè)相對大的區域空間內呈現出連續性,并且在一段相對較長(cháng)的時(shí)期里保持了延續性”。對于這個(gè)實(shí)體類(lèi)來(lái)說(shuō),考古學(xué)傳統概覽(the Outline of Archaeological Traditions,下文簡(jiǎn)稱(chēng)OAT)為平臺的案例選擇提供了通用的抽樣范圍;同時(shí),文化資料概覽(the Outline of Cultural Materials,以下簡(jiǎn)稱(chēng)OCM)為數據編碼提供了詞庫。
 ?。?)文化群體,它指的是一類(lèi)人群,他們共享一套規范、信仰、行為、價(jià)值、態(tài)度等等。對于這個(gè)實(shí)體類(lèi)來(lái)說(shuō),主要的抽樣范圍來(lái)自世界文化概覽(the Outline of World Cultures,以下簡(jiǎn)稱(chēng)OWC),詞庫同樣來(lái)自OCM。
  
 ?。?)政治組織,它指的是基于相似的政府管理形成的獨立的政治性聯(lián)合體。這里有一個(gè)用于具體研究項目而創(chuàng )建的實(shí)體類(lèi)范例。圖爾欽等人撰寫(xiě)的論文向讀者展示了一個(gè)由30個(gè)案例組成的樣本,這些案例根據社會(huì )政治組織和地理區域的特點(diǎn)被挑選出來(lái)。OCM為這個(gè)實(shí)體類(lèi)提供了主要的詞庫。
 ?。?)聚落,這個(gè)實(shí)體類(lèi)的物理空間以及物質(zhì)設施范圍很廣,其規模大小和復雜程度的跨度涵蓋了臨時(shí)性營(yíng)地以及大都市。由于能夠被編碼的聚落范圍龐大,該實(shí)體沒(méi)有界定抽樣范圍。主要的詞庫來(lái)源仍然是OCM。
 ?。?)認同群體,具有相同的歸屬感的一群人。跟政治組織類(lèi)似,這個(gè)實(shí)體類(lèi)也是為特定的研究項目創(chuàng )建的,它的抽樣也具有隨機性的特征。對于這一實(shí)體,沒(méi)有正式的詞庫,不過(guò)OCM在一些特定領(lǐng)域也被使用。
 ?。?)語(yǔ)言群體,它是指使用同一種語(yǔ)言的群體。這一實(shí)體類(lèi)使用的抽樣范圍是民族語(yǔ)言志平臺(Ethnologue,),但是它也沒(méi)有正式的詞庫(同樣,OCM在一些特定領(lǐng)域也被使用)。
  此外,子類(lèi)層級也能夠被添加到實(shí)體類(lèi)中去,以為研究者提供屬性更多的數據集。圖三便顯示了為上述提及的實(shí)體類(lèi)創(chuàng )建的實(shí)體子類(lèi)。
  “歷史事件”實(shí)體則明顯地包含近乎無(wú)限可能的實(shí)體類(lèi)和子類(lèi)。故而為了維持一些歷史事件實(shí)體的秩序結構,DBpedia (/server/ontology/classes/)中的事件實(shí)體作為基本的本體得到了使用。正如圖二顯示的,目前實(shí)體類(lèi)中的事件實(shí)體包括:
 ?。?)群體內部沖突,諸如戰爭、決斗、分封等類(lèi)似事件。
 ?。?)社會(huì )-自然性災害,如饑荒或瘟疫。
 ?。?)自然災害,如干旱、洪水、蟲(chóng)害、火山爆發(fā)等等。
 ?。?)社會(huì )崩壞。
 ?。?)交接儀式,如婚禮、加冕、啟動(dòng)儀式等活動(dòng)。
 ?。?)社會(huì )運動(dòng),包括像移民這種身體遷移活動(dòng),還有諸如復興性運動(dòng)、千禧主義、罷工等社會(huì )性運動(dòng)。
 ?。?)技術(shù)性事件,如發(fā)明、發(fā)現、技術(shù)創(chuàng )新等等。
  Seshat的內容獲?。篋acura的工作流
  作為歷史學(xué)家如何應用Dacura獲取數據集的范例,圖四為讀者展示了傳統的實(shí)體類(lèi)數據,如何通過(guò)Dacura填充到Seshat數據庫中去。圖中藍色矩形之內的流程完全可以實(shí)現自動(dòng)化,而藍色矩形之外的區域需要把自動(dòng)分析和專(zhuān)家評估結合起來(lái),確保Seshat數據的有效性和可靠性。我們可以看到,藍色矩形頂部的處理流程,人口這個(gè)實(shí)體是由領(lǐng)域范圍內的持續時(shí)段所定義的。人口實(shí)體的特征會(huì )通過(guò)OAT的詞庫被分配到傳統實(shí)體類(lèi)之中。然后,數據挖掘的工作流會(huì )啟動(dòng)自動(dòng)搜索的進(jìn)程,根據OCM詞庫在互聯(lián)網(wǎng)搜索文化領(lǐng)域的相關(guān)信息。在這個(gè)節點(diǎn),研究者也可以使用Dacura檢索互聯(lián)網(wǎng)或者印刷材料獲取文化領(lǐng)域的數據。Dacura會(huì )在特定的文化領(lǐng)域收集信息,在圖四所示的范例中,我們用考古學(xué)數據作為例子,系統會(huì )對比DBpedia中的數據,以確定關(guān)聯(lián)的數據是否需要納入其他來(lái)源的數據,并且通過(guò)自動(dòng)分析程序評估數據的一致性。前后矛盾的數據(如存在語(yǔ)義矛盾或數值沖突的數據)會(huì )輸出給研究文化群體或文化領(lǐng)域的研究者和專(zhuān)家做進(jìn)一步評估。這些研究者或領(lǐng)域專(zhuān)家要么會(huì )為文化領(lǐng)域確定一個(gè)規范值,要么在沖突無(wú)法解決時(shí),給出一個(gè)非規范值。不管怎么說(shuō),所有收集過(guò)來(lái)的數據都會(huì )囊括進(jìn)Seshat數據庫,并且被標記為規范值或者非規范值,其他研究者可以檢索到這些值并對之加以修正或擴展它們的解釋。規范數值同時(shí)也會(huì )輸出到DBpedia以協(xié)助其他的研究者以及未來(lái)的搜索。
  研究者也可以輸入自己的數據,包括圖片、媒體和shapefile格式文件。數據合并的處理流程可允許其他研究者通過(guò)關(guān)聯(lián)數據來(lái)訪(fǎng)問(wèn)這些共享文件,令之可以被廣泛使用。更為重要的意義在于,那些被整合進(jìn)Seshat或由Dacura生成的數據集中的其他數據,其質(zhì)量能夠不斷得到提升,這正是歸功于Dacura允許研究者對先前合并的數據進(jìn)行評注和再評估。換句話(huà)說(shuō),Dacura不僅可以用于創(chuàng )建和管理巨量數據集,也能確保數據質(zhì)量能夠持續不斷地得到提升。
  使用Seshat數據庫:從Dacura輸出數據
  到了這一步,關(guān)切夏威夷人口估值的研究者便能夠通過(guò)Seshat數據庫——或是她自己利用Dacura生成的數據集——來(lái)迅速地獲得精確并且可以溯源的人口數據。她可以通過(guò)Dacura來(lái)開(kāi)啟Seshat數據庫,接著(zhù)在操作界面中選取夏威夷的自然地理區域模塊,然后選取她所感興趣的某個(gè)歷史時(shí)期的夏威夷居住人口的政治組織子級,之后再選擇人口這個(gè)變量。我們在Youtube上傳了一部視頻供讀者參考。在這個(gè)案例中,這位學(xué)者獲得的有關(guān)人口的數據源自Seshat數據庫,這個(gè)數據是我們上文述及的Dacura數據收集和評估進(jìn)程的產(chǎn)物。但是我們的研究者還能夠使用Dacura創(chuàng )建新本體,以引導她進(jìn)行更具個(gè)性化的搜索,正如我們在上文提到的視頻中揭示的那樣。
  無(wú)論是在Seshat平臺還是她運用Dacura從其他來(lái)源獲取的數據,我們的學(xué)者都能獲得各種類(lèi)型的結果輸出。正如前文述及的那樣,Dacura會(huì )將數據集作為關(guān)聯(lián)數據發(fā)布,并使用SPARQL進(jìn)行輸出。SPARQL是一種RDF的查詢(xún)語(yǔ)言,后者能夠生成文檔和原始數據集,還有像圖表、表格、地圖之類(lèi)的其他可視化信息。另外一點(diǎn)對史學(xué)工作者也至關(guān)重要,即SPARQL與GeoSPARQL能夠協(xié)同運行,這得以讓SPARQL數據集整合進(jìn)入采用了OGC(Open Geospatial Consortium,開(kāi)放地理空間信息聯(lián)盟)查詢(xún)標準(比如GML、WKT等)的地理信息系統中去。此外,Dacura平臺上生成的原始文本、媒體或數字數據,也能夠被瀏覽、搜索和挑選,研究者可以訪(fǎng)問(wèn)對研究最有價(jià)值的那部分文本、圖片、媒體或數據集。Dacura還能夠收集或輸入的材料——或是它們的子級——以更多格式導出來(lái)支持進(jìn)一步的外部分析。例如,研究者可能會(huì )想把有關(guān)人口估算值的數據輸出到統計分析平臺。那么Dacura將會(huì )生成逗號分割文件(comma-delimited file),這個(gè)文件能夠被直接傳輸到電子表格或是統計數據軟件包,如此一來(lái)研究者就可以使用任何數據分析的方法,來(lái)解答自己的問(wèn)題。圖五展示了一個(gè)有關(guān)夏威夷人口估算值的簡(jiǎn)單線(xiàn)性圖表,它的生成有賴(lài)于Dacura和Seshat平臺的數據輸出功能,生成了一個(gè)CSV文件,并使用Excel制作了一張圖表。
  我們的這位研究者最初問(wèn)題的答案是,夏威夷的人口增長(cháng)確實(shí)先于這座島嶼上第一個(gè)國家政權的產(chǎn)生,這也正如人口壓力模型預測的那樣。就答案本身來(lái)說(shuō),這算不上是個(gè)令人印象深刻的結果(實(shí)際上或許也是個(gè)非常簡(jiǎn)單化的結論),但是考慮到我們的研究者通過(guò)Dacura平臺的處理進(jìn)程,可以在幾分鐘里收集數據,同時(shí)對它們的質(zhì)量抱有信心,而且還可以訪(fǎng)問(wèn)與之相關(guān)的所有附加數據,不能不說(shuō)是一次令人嘆服的研究之旅。
  結論
  互聯(lián)網(wǎng)為歷史學(xué)家提供了大量的信息,然而現狀卻是,這些信息經(jīng)常太過(guò)豐富,而且缺少質(zhì)量監控。Dacura便是旨在解決這些問(wèn)題而被設計開(kāi)發(fā)出來(lái)的。它提供一種便捷的、質(zhì)量有保證的途徑,幫助史學(xué)工作者在互聯(lián)網(wǎng)上收集信息,同時(shí)提供一個(gè)可供管理的質(zhì)量控制體系。Dacura具有的精心設計的本體(dacura.scss.tcd.ie/ontologies/ dacura-130317.ttl),進(jìn)而使研究者能夠簡(jiǎn)易地定義和檢索到與他們的研究直接相關(guān)的信息。Dacura的一體化詞庫和RDF三元存儲結構讓用戶(hù)不需要使用在結果中進(jìn)行跨領(lǐng)域的詳細索引,如此一來(lái),有關(guān)給定主題的所有信息,甚至那些相關(guān)性不那么明顯或作為相關(guān)索引的信息,都可以被用戶(hù)檢索到。此外,Dacura提供的用于輸出的數據格式非常廣泛,從文本到可視化形式再到表格。Dacura雖然不是唯一可用的數據收集和管理程序,但是因為它與Seshat數據庫一同被開(kāi)發(fā)出來(lái),因而它為新興的基于計算機技術(shù)的歷史和考古數據處理提供了一個(gè)獨特模型。
  從這個(gè)角度來(lái)說(shuō),Dacura展現了一系列可應用于歷史學(xué)研究的重要新工具。正如肯特在他最近發(fā)表的論文中指出的那樣,“(歷史學(xué)家以及)考古學(xué)家在獲取、管理和分析大量且差異巨大的數據過(guò)程中,日益面臨挑戰?!?Dacura平臺的問(wèn)世為這一系列挑戰提供了數種解決方案。具體來(lái)說(shuō),Dacura平臺嵌入了(1)一個(gè)基于RDF三元存儲的語(yǔ)義知識圖譜技術(shù),同時(shí)運用了(2)網(wǎng)絡(luò )本體語(yǔ)言(OWL)來(lái)進(jìn)行數據定義,它還嵌入了(3)語(yǔ)義推理模塊,該模塊是自動(dòng)進(jìn)行數據評估的基礎,以及(4)它按照關(guān)聯(lián)數據標準實(shí)現結果輸出。
  通過(guò)OWL數據定義和知識圖譜技術(shù),歷史學(xué)家可以把收集到的海量數據,以快捷和簡(jiǎn)易的方式將那些對既定研究主題最為重要的信息精減和篩選出來(lái),并且可以讓這些數據以多樣的格式輸出。語(yǔ)義推理模塊為用戶(hù)提供了一種迅捷的數據評估以及可持續管理的機制。關(guān)聯(lián)數據標準制式下,Dacura允許研究者隨時(shí)訪(fǎng)問(wèn)那些經(jīng)由其他學(xué)者收集來(lái)和評估過(guò)的數據。
  另外,在像Dacura這樣的平臺上,計算機科學(xué)領(lǐng)域最近取得的新進(jìn)展,也為那些非歷史學(xué)領(lǐng)域的學(xué)者提供了可用和精確的歷史數據。長(cháng)期以來(lái),那些有關(guān)文化穩定和變遷的時(shí)空記錄,以及人類(lèi)社會(huì )成功或者失敗的實(shí)踐案例,在考古學(xué)和歷史學(xué)學(xué)科之外沒(méi)有得到廣泛應用,這是令許多史學(xué)工作者倍感沮喪的事情。不過(guò)這也沒(méi)什么好驚訝的,因為對于外行來(lái)說(shuō),歷史數據和材料很難獲取也很難理解。然而,像Dacura這樣的平臺,它們通過(guò)自動(dòng)化方式對歷史數據進(jìn)行收集、評估,對經(jīng)過(guò)檢驗的精確的歷史學(xué)數據進(jìn)行檢索,從而為經(jīng)濟學(xué)家、政治學(xué)家、生態(tài)學(xué)家、地理學(xué)家以及大眾提供了一種獲取數據途徑和模型,讓他們得以探索人類(lèi)歷史長(cháng)河中累積下來(lái)的豐富而寶貴的歷史記錄。
  致謝
  本文作者向參加了于2015年5月4日至6日在圣塔菲研究所舉辦的工作坊的與會(huì )者表示感謝,在這次工作坊上與會(huì )者們討論了有關(guān)數據收集以及高質(zhì)量信息整合的各種需要,以及Seshat元數據模型的開(kāi)發(fā)事宜。我們還要感謝Dacura平臺的研究團隊、博士后工作站人員、顧問(wèn)人員以及專(zhuān)家團隊,他們做出了巨大貢獻。此外,我們的合作伙伴為我們撰寫(xiě)這篇論文提供了無(wú)比寶貴的協(xié)助。更多具體信息,也請讀者登錄Seshat的網(wǎng)頁(yè)()查看公示的詳細清單,包括私人捐贈、合作者、專(zhuān)家、顧問(wèn)以及他們擅長(cháng)的專(zhuān)業(yè)領(lǐng)域。最后,我們向匿名評審專(zhuān)家致以感謝,正是他們深富洞見(jiàn)的評審意見(jiàn)令我們能夠更好地提升論文的質(zhì)量和水準。
  (作者彼得·比勒金[Peter N. Peregrine],勞倫斯大學(xué)人類(lèi)學(xué)系,圣塔菲研究所;羅布·布倫南[Rob Brennan],都柏林大學(xué)三一學(xué)院,統計學(xué)和計算機科學(xué)學(xué)院ADAPT&知識與數據工程項目組;托馬斯·柯里[Thomas Currie],??巳卮髮W(xué)生命科學(xué)系;凱文·費尼[Kevin Feeney],都柏林大學(xué)三一學(xué)院,計算機科學(xué)與統計學(xué)院,知識與數據工程項目組;彼得·弗朗索瓦[Pieter Fran?ois],赫特福德大學(xué)人文學(xué)院,牛津大學(xué)認知與發(fā)展人類(lèi)學(xué)研究所;彼得·特欽[Peter Turchin],康涅狄格大學(xué)生態(tài)與進(jìn)化生物學(xué)系;哈維·懷特霍斯[Harvey Whitehouseg],牛津大學(xué)認知與發(fā)展人類(lèi)學(xué)研究所。譯者紀子凡,南京大學(xué)歷史學(xué)院碩士研究生)
  本文注釋及更多精彩文章請參閱《全球史評論》第十九輯
  首師大全球史中心
  公眾號ID:gh-cnu
  歡迎關(guān)注,謝謝大家~ 查看全部

  彼得·比勒金等 | Dacura平臺——歷史學(xué)研究的數據收集和知識提取新途徑
  當前計算機技術(shù)的發(fā)展為學(xué)者們提供了新的途徑對來(lái)自互聯(lián)網(wǎng)的數據進(jìn)行收集、儲存和檢索,這為歷史科學(xué)領(lǐng)域里進(jìn)行文獻綜述以及數據收集方法的轉型提供了可能。作為一個(gè)數據綜合維護平臺,Dacura系統突出地反映了這一發(fā)展趨勢的三個(gè)方面:第一,它是一種基于知識圖譜的數據模型,從而區別于標準的用行與列表達的數據結構;第二,使用網(wǎng)絡(luò )本體語(yǔ)言(Web Ontology Language,OWL)對數據進(jìn)行定義;第三,具有基于語(yǔ)義推理的自動(dòng)處理進(jìn)程,以篩選掉成千上萬(wàn)與研究議題不相關(guān)或者準確度存疑的在線(xiàn)和數據庫點(diǎn)擊量。Ducara的建立與Seshat數據庫處于伴生關(guān)系,后者的組建旨在協(xié)調量化歷史和考古學(xué)數據,以此用統計方法對歷史動(dòng)態(tài)模型進(jìn)行測試。以下我們將提供具體的范例來(lái)介紹Dacura和Seshat數據庫,以說(shuō)明上文述及的計算機科學(xué)的進(jìn)步從哪些方面能夠惠及歷史研究者的工作。
  對于史學(xué)研究者來(lái)說(shuō),未經(jīng)審核的數據過(guò)剩是一個(gè)基本問(wèn)題,而Dacura平臺旨在為學(xué)者們提供解決方案。舉例來(lái)說(shuō),假設研究者打算收集量化數據來(lái)回答某個(gè)特定問(wèn)題,比如夏威夷島上的人口增長(cháng)是否先于1500年左右國家的出現,一個(gè)簡(jiǎn)易的人口壓力模型就能做出預測。如果她僅僅在谷歌搜索引擎輸入“古代夏威夷人口”,將會(huì )得到接近250000個(gè)搜索結果(其中一些涉及現代人口統計數據),而且她也沒(méi)有簡(jiǎn)單省力的方法去弄清楚,搜索引擎提供的這么多有關(guān)古代夏威夷的信息中,哪些信息是她需要的,哪些信息是可靠的(例如,“古代夏威夷人口”的維基百科頁(yè)面僅僅提供了估算數據,而且明顯地源于單一的信息源;而無(wú)法明確地鑒別數據來(lái)源本身就是一個(gè)嚴重的問(wèn)題)。如果這個(gè)研究者代之以谷歌學(xué)術(shù),檢索的結果數量會(huì )減少到大約165000條,盡管她可以指望結果的質(zhì)量更好,不過(guò)鑒別這些論文和學(xué)術(shù)專(zhuān)著(zhù)是否與她的問(wèn)題旨趣直接相關(guān),仍然是個(gè)令人生畏的工作。甚至使用JSTOR,這一質(zhì)量有保證的數據庫,也將提供大約60000篇論文給研究者的篩選工作制造障礙。
  上述例子表明目前史學(xué)研究者所面臨的一個(gè)中心問(wèn)題,互聯(lián)網(wǎng)和出版資源的開(kāi)放獲取為史學(xué)工作者們感興趣的任何研究議題,提供了豐富的信息和材料,然而這些信息沒(méi)有質(zhì)量保證,即便是有質(zhì)量保障的信息源(比如同行評議的開(kāi)源出版物),信息量也是過(guò)剩的。因此對于研究者來(lái)說(shuō),希望出現這樣一種工具:允許研究者建立自己的高質(zhì)量的、結構化的數據集,為研究者提供解決問(wèn)題所需要的材料。這種工具要求一種層級結構的(本體)設計,從而讓研究者可以較為容易地挖掘出與他們的研究直接相關(guān)的檢索結果。這個(gè)檢索工具應該能精確對結果進(jìn)行索引,研究者檢索夏威夷人口的估算值時(shí)——正如我們虛構的研究者試圖嘗試的那樣——不僅可以檢索到所有與夏威夷人口估算有關(guān)的結果,同時(shí)也不會(huì )檢索到與研究題目不相關(guān)的其他統計數據和地點(diǎn)信息。簡(jiǎn)而言之,這樣的檢索工具必須能夠應用集成的詞庫或詞庫集作為基本的檢索程序的一部分。
  除此之外,還有不少檢索工具能夠提供這種功能:進(jìn)行跨領(lǐng)域的快速檢索特定的、高質(zhì)量的信息。僅就考古學(xué)領(lǐng)域的檢索工具(它的第一位創(chuàng )建者是一名考古學(xué)家)而言,eHRAF(Human Relations Area Files; )就是業(yè)內的一個(gè)典范。它提供兩個(gè)文件檔案庫(分別是民族志檔案和考古學(xué)檔案),使用高精確度的本體——世界文化概覽和考古傳統概覽(the Outline of World Cultures and Outline of Archaeological Traditions),以及豐富的詞庫集——文化史料概覽(the Outline of Cultural Materials)。因此eHRAF可以從來(lái)自將近45萬(wàn)頁(yè)的考古、民族志原始和二手史料中實(shí)現句段檢索,能夠使用層級結構和布爾搜索策略,輕易地實(shí)現信息的搜索和重構。這些檢索結果是具體的,并具有極高的質(zhì)量和專(zhuān)門(mén)性,研究者也可以對之進(jìn)行數量管理。然而,其檢索結果的范圍僅限于eHRAF數據庫囊括的資料。eHRAF之所以能夠提供如此高質(zhì)量的信息檢索,是因為其進(jìn)行了廣泛的信息預處理,擁有博士學(xué)位的考古學(xué)家對每個(gè)文檔、甚至每個(gè)段落都用本體進(jìn)行了編碼。簡(jiǎn)要來(lái)說(shuō),該平臺提供的簡(jiǎn)易的高質(zhì)量信息搜索和檢索,其背后卻要求巨大的工作量。這一方面意味著(zhù)eHRAF平臺數據擴充比較緩慢,另一方面平臺必須要向用戶(hù)收費。
  tDAF(the Digital Archaeological Record; )平臺則是另一個(gè)檢索工具,像前述的eHRAF一樣,它也可以提供迅捷的、特定的、高質(zhì)量的跨領(lǐng)域信息檢索服務(wù)。包括原始數據集、shapefiles格式的文件和其他類(lèi)似的數據資料,都能夠在tDAF平臺上獲得,它們被基本的本體組織起來(lái)。不同于eHRAF平臺,這些信息不是由tDAF的運營(yíng)人員處理的(盡管他們會(huì )進(jìn)行審核以確保進(jìn)程的正確性),而主要依賴(lài)個(gè)體研究者,由他們向平臺提交處理好的元數據結構。這一特點(diǎn)令tDAR平臺中的信息、檔案、文獻的數量能相對快速地增長(cháng),用戶(hù)也能夠免費使用tDAR平臺的信息檢索功能,不過(guò)為了鼓勵提供文獻,平臺還是會(huì )收取少許費用。然而,因為用戶(hù)提供數據本體和索引,致使材料的細節和精確度存在差異,這意味著(zhù)搜索的結果可能無(wú)法包含所有相關(guān)的文檔信息。此外,和eHRAF一樣,這個(gè)平臺可供檢索的信息也局限在平臺數據集中。
  OpenContext()則是類(lèi)似于tDAR的另一個(gè)優(yōu)秀數據庫,不過(guò)它有一些附加功能,讓數據庫的檢索范圍超越了考古學(xué)領(lǐng)域。與tDAF類(lèi)似,考古數據的使用需要一些費用。但不同于tDAF,OC平臺的編輯者們同資源貢獻者們會(huì )一起創(chuàng )建元數據、清理數據以便在網(wǎng)絡(luò )上發(fā)布,而數據資源自身的意義會(huì )在這一過(guò)程中得到雙方的評估;換言之,并不是所有數據都會(huì )在平臺公開(kāi)發(fā)布,只有那些接受過(guò)同行評審、有廣泛應用前景的數據才會(huì )被發(fā)布。一旦與Open Context對接,數據資源就通過(guò)關(guān)聯(lián)數據標準(Linked Data standards)與互聯(lián)網(wǎng)上的數據實(shí)現鏈接。這使得Open Context平臺的檢索范圍超出了檔案庫的數據,從而克服了eHRAF和tDAR兩大平臺的局限,同時(shí)同行審核又對那些由Open Context直接貢獻的信息提供了質(zhì)量保證,不過(guò)審核流程中的信息是基于OC平臺的,而非直接鏈接到的原始信息源,我們認為這是一個(gè)較為嚴重的局限。
  我們在這里介紹的,即是比上述三種平臺(當然還有許多其他優(yōu)秀的數據庫項目和數據儲存平臺可供征引介紹)更具有綜合性的解決方案:Dacura(dacura. cs.tcd.ie)。這一平臺可以跨領(lǐng)域檢索特定的高質(zhì)量信息,它是集數據收集、評估、整理和輸出為一體的綜合平臺,也是Seshat數據庫(seshatdatabank. info)的管理系統,后者的功能、特性我們會(huì )在下文詳述。通過(guò)大數據研究的多種新方案的協(xié)同開(kāi)發(fā)和運作,Dacura平臺在持續的問(wèn)題和缺陷發(fā)現機制的運行中獲得助益,并匯集和解決了大量、復雜的歷史信息檢索、收集過(guò)程中面臨的問(wèn)題和需求,因此可以作為一個(gè)優(yōu)秀的研究資源,惠及學(xué)院派的史學(xué)工作者。
  知識圖譜技術(shù)在諸如谷歌和臉譜等互聯(lián)網(wǎng)企業(yè)的海量和多樣信息資源——企業(yè)內部會(huì )對之加以綜合處理和管理——的管理和結構化中,發(fā)揮著(zhù)越來(lái)越大的作用。傳統的基于表格和行列排列組合的SQL儲存解決方案已經(jīng)不能勝任企業(yè)管理的復雜信息的結構及其蘊含的語(yǔ)義,也無(wú)法呈現事物間的復雜關(guān)系。然而對于數據來(lái)說(shuō),除了體量龐大和具有技術(shù)實(shí)力的企業(yè)外,知識圖譜技術(shù)的使用仍然需要專(zhuān)門(mén)且難度較高的技術(shù)門(mén)檻。Dacura設計的目標便是開(kāi)辟一條路徑,讓歷史研究者們不需要掌握大量的專(zhuān)業(yè)知識就可以使用知識圖譜技術(shù)。Dacura通過(guò)以下兩個(gè)方面來(lái)實(shí)現這些目標,即它可以自動(dòng)運行諸多數據——它們來(lái)自該平臺設置的語(yǔ)義分析模塊——的收集和綜合處理軟件,同時(shí)也為用戶(hù)提供簡(jiǎn)易的操作工具和界面——而不需要了解隱藏在背后的技術(shù)原理。
  本文并不旨在為Dacura平臺打小廣告,毋寧說(shuō)我們是通過(guò)介紹Dacura來(lái)進(jìn)一步闡明一種收集、評估和檢索來(lái)自互聯(lián)網(wǎng)和任何一批大數據資源(得益于計算機技術(shù)的進(jìn)步)的途徑和方法。我們確信這將為歷史科學(xué)帶來(lái)影響深遠的沖擊。
  Dacura平臺
  Dacura是一個(gè)數據綜合處理平臺。它的設計目的在于,協(xié)助歷史學(xué)者利用豐富的語(yǔ)義知識圖譜來(lái)建立并管理高質(zhì)量的數據庫?!昂?jiǎn)明易用”即是該平臺創(chuàng )設的一個(gè)基礎性理念——史學(xué)工作者可以對意圖收集的數據結構自行定義。該平臺運用這些信息結構來(lái)進(jìn)一步支持用戶(hù)發(fā)現、收集、過(guò)濾、校正、精煉和分析源于互聯(lián)網(wǎng)的數據,進(jìn)而整理出高質(zhì)量的信息。以下這些具體和詳細的信息需要研究者提供給Dacura以開(kāi)啟自動(dòng)處理的進(jìn)程:學(xué)者與他們研究議題相關(guān)的基本信息實(shí)體(比如“夏威夷”)的定義;它們的具體內容和特征(如人口估算值)、數據類(lèi)型和每個(gè)屬性的計量單位(如數值型)、與數據組內部以及其他數據集其他實(shí)體的關(guān)系(如夏威夷位于波利尼西亞)。
  這一工具的優(yōu)勢之一在于,它能夠界定學(xué)者意圖獲取的信息或數據的結構。所有歷史科學(xué)家都清楚,在史料能被使用之前,其屬性和有效性必須得到批判和反思。由于Dacura在執行一次搜索命令以前,處理進(jìn)程要求所需的數據的一些基本的、精確的屬性參數。因此這一運作邏輯鼓勵研究者們仔細思考以下問(wèn)題:當他們展開(kāi)數據收集工作以前,所需的數據、史料的本質(zhì)是什么?同時(shí)他們采用什么樣的視野和方法來(lái)提出自己的問(wèn)題?這樣的準備工作為歷史學(xué)家節省了時(shí)間和精力,而辨明有用的信息來(lái)源通常也是歷史研究中最為困難的任務(wù)。Dacura簡(jiǎn)明和友好的用戶(hù)交互界面(下文會(huì )展開(kāi)說(shuō)明)令明確數據界限的工作流程容易起來(lái),同時(shí)由于Dacura提供一種靈活的搜索結構,搜索進(jìn)程能夠動(dòng)態(tài)適應,會(huì )隨著(zhù)數據被審視的方式,以及聚焦的問(wèn)題相應地產(chǎn)生變化。
  Dacura可以把研究者界定的數據集的結構編譯為一種語(yǔ)義網(wǎng)絡(luò )本體結構。這種本體結構根據萬(wàn)維網(wǎng)聯(lián)盟(W3C,互聯(lián)網(wǎng)國際標準的主要制定者)的網(wǎng)絡(luò )本體語(yǔ)言(OWL)標準制式進(jìn)行編碼。作為一種豐富而靈活的本體語(yǔ)言標準,OWL可以令廣泛而多樣的約束條件和推理規則被研究者指定到數據收集進(jìn)程中去,如一個(gè)城鎮的人口不應該比它所在地區的人口更為龐大。因而與非結構化的自然語(yǔ)言字符串——它們是驅動(dòng)大多數搜索引擎的結果——形成對比,高度體系化和精確化界定出的本體結構的數據集,其屬性參數能夠被計算機充分利用,從而為研究者獲取特征更為鮮明的檢索結果。由此,史學(xué)研究者輸入和界定的信息結構及其屬性參數越豐富,Dacura系統對數據的自動(dòng)收集和用以分析、優(yōu)化和管理數據工具的生成也就越容易。
  Dacura平臺的運行還基于一種語(yǔ)義網(wǎng)絡(luò )技術(shù)。其核心內容是一種資源描述框架(Resource Description Framework, RDF),是一種三元數據庫結構(不是那種二維的行與列組成的電子表格),呈現為類(lèi)似“夏威夷處于波利尼西亞”、“夏威夷擁有島嶼”或是“波利尼西亞擁有島嶼”這樣的主謂賓句式結構(subject-predicate-object structure)。這種主謂賓句式結構可以被理解為結點(diǎn)-邊-屬性(nodes-edges-properties)這樣的語(yǔ)義結構,形成一種呈現和儲存數據信息的三維視圖表格。RDF作為三元存儲圖形數據結構能夠實(shí)現無(wú)索引的鏈接,每一個(gè)主謂賓句式詞串可以直接鏈接到對應的主謂賓三元組合中去,不需要索引查找。結合上文提及的“夏威夷人口”這一假設的問(wèn)題語(yǔ)境,波利尼西亞、夏威夷和島嶼這些關(guān)鍵詞會(huì )被全部鏈接起來(lái),使得系統不需要索引搜索就可以確定夏威夷是波利尼西亞群島中的一個(gè)。
  Dacura平臺運用OWL本體來(lái)確保語(yǔ)義推理過(guò)程中的質(zhì)量管理以及數據收集工作的正常進(jìn)行;具體來(lái)說(shuō),如果上文提及的三元組合存在沖突,Dacura會(huì )將之識別出來(lái)并作為一個(gè)沖突項加以標記以供研究者進(jìn)一步評估。Dacura被設計成在開(kāi)放關(guān)聯(lián)數據的原則下生產(chǎn)和使用數據。這一設計理念讓以下活動(dòng)變得更為便利:比如從現有的結構化信息資源里輸入信息,通過(guò)數據集之間的互通以擴充研究者管理的數據集,這里的互通是經(jīng)由關(guān)聯(lián)數據鏈接到公共數據資源(如DBpedia或維基數據,它是維基百科的關(guān)聯(lián)數據版本),同時(shí)那些由Dacura組織起來(lái)的數據集也能通過(guò)類(lèi)似的方式簡(jiǎn)易地關(guān)聯(lián)起來(lái)。我們在Youtube視頻網(wǎng)站上提供了Dacura鏈接不同資源的視頻范例。Dacura平臺的一個(gè)核心功能即數據收集,包括通過(guò)關(guān)聯(lián)數據采集數據,而且作為系統工作流的一部分,平臺會(huì )通過(guò)自動(dòng)和人工的方式對數據的質(zhì)量進(jìn)行評估。因此Dacura不僅能夠快捷和便利地收集信息,也能夠對信息的質(zhì)量進(jìn)行評定。
  Dacura平臺的工作流把數據的創(chuàng )建和管理分為四個(gè)階段,如圖一所示。第一個(gè)階段是數據的收集:確定用于填充研究者數據集的高質(zhì)量信息的來(lái)源。Dacura支持多種方式進(jìn)行數據收集:它可以在公共數據資源識別出與學(xué)者研究相關(guān)的數據,也可以部署自動(dòng)代理進(jìn)行互聯(lián)網(wǎng)搜索,再到通過(guò)人工力量對信息來(lái)源做進(jìn)一步規范。這套系統的目標在于盡可能大的實(shí)現處理進(jìn)程的自動(dòng)化,而識別和界定信息來(lái)源是為了擴充學(xué)者數據集的需要。在這個(gè)階段,系統的目標不在于尋找到那些與研究者感興趣的研究議題有關(guān)的內容實(shí)體,而是為了尋找到明確的信息來(lái)源,可以用于擴充數據的屬性和關(guān)系,即那些研究者已經(jīng)在數據規范中加以定義的屬性和關(guān)系。
  Dacura數據創(chuàng )建和管理進(jìn)程的第二個(gè)步驟是知識提取。這個(gè)階段會(huì )從收集的數據來(lái)源中提取出精確的信息,并將之納入到研究者的數據規范所需要的結構中去。盡管自然語(yǔ)言處理和其他的人工智能技術(shù)仍然在持續發(fā)展,但它們還是很容易出錯,因而在通常情況下為了保證數據的高質(zhì)量,投入一些人力來(lái)過(guò)濾程序誤報也是必須的。Dacura平臺采用的工具在篩選、過(guò)濾、改進(jìn)、注釋和鏈接候選信息記錄等方面,支持人工用戶(hù)和自主代理產(chǎn)出知識報告;換言之,信息來(lái)源里包含有相關(guān)知識的權威解釋?zhuān)⑼ㄟ^(guò)鏈接到網(wǎng)絡(luò )數據而得到更廣泛的擴充。
  Dacura數據處理進(jìn)程的第三個(gè)階段或許是為保證數據質(zhì)量最為重要的階段:專(zhuān)家分析。Dacura平臺的一大長(cháng)處便是聚焦數據質(zhì)量,基于自動(dòng)代理工具和人工處理確保收集來(lái)的數據在準確度和完整性上符合研究者先前提供給平臺的數據規范要求。平臺首先通過(guò)基于語(yǔ)義一致性和有效性測試技術(shù)的自動(dòng)處理工具,對收集來(lái)的原始數據加以處理,將不同數據指向并合并到一個(gè)綜合解釋中去,該解釋體現了自動(dòng)處理工具對權威數據——它們準確地反映了真實(shí)的狀況——最精確的預估。這些綜合解釋進(jìn)一步由領(lǐng)域專(zhuān)家——就像本文假設的對夏威夷人口問(wèn)題感興趣的學(xué)者——來(lái)評估,這一步驟允許專(zhuān)家校正訛誤繼而確認專(zhuān)家意見(jiàn)與自動(dòng)處理工具之間的不一致。專(zhuān)家們可以編纂具有個(gè)人色彩的數據解釋?zhuān)ū热缣貏e指明只有某個(gè)特定的信息來(lái)源是可信的),并在數據集上把這條解釋覆蓋上去,進(jìn)而創(chuàng )建一個(gè)自定義的數據集,以呈現他們對某些數據的看法。
  至于Seshat平臺的領(lǐng)域專(zhuān)家,由該平臺的管理團隊負責征集,主要根據他們在需要評估的相關(guān)領(lǐng)域內的出版記錄。這些專(zhuān)家都具有相應學(xué)術(shù)領(lǐng)域的博士學(xué)位,相當一部分有學(xué)院派的工作背景。專(zhuān)家也會(huì )被定期評估,以辨別出經(jīng)常輸入與采集到的數據有訛誤的那些人。有人可能會(huì )認為通過(guò)征詢(xún)來(lái)建立一個(gè)專(zhuān)家庫似乎不那么有效率,但是我們在Seshat數據庫公開(kāi)的名單中,可以看到目前作為志愿者參與數據評估的專(zhuān)家們的工作質(zhì)量。本文撰寫(xiě)時(shí)數據庫的專(zhuān)家數量為77名,而這些志愿專(zhuān)家們的專(zhuān)業(yè)領(lǐng)域的覆蓋范圍表明,將專(zhuān)家評估整合到像Dacura平臺這樣的數據收集系統是十分可行的。大部分采用了Dacura平臺的項目,可能不會(huì )有Seshat數據庫這般囊括了廣闊的學(xué)術(shù)視野和范圍,唯一需要對數據進(jìn)行評估的專(zhuān)家,可能就是研究者自己。
  最后,Dacura支持各類(lèi)輸出工具讓數據能夠以不同格式輸出到第三方平臺。Dacura發(fā)布了它作為一種關(guān)聯(lián)數據格式的管理數據,所以其他的用戶(hù)和平臺,如上文述及的Open Context,能夠毫無(wú)困難地訪(fǎng)問(wèn)它。Dacura還提供SPARQL終端——一種針對RDF的查詢(xún)語(yǔ)言——支持數據的復雜過(guò)濾和提取。這便允許智能應用程序以一種之前難以想見(jiàn)的方式實(shí)現與數據的交互。對于個(gè)人用戶(hù)來(lái)說(shuō),Dacura平臺能夠生成圖表、表格、地圖和其他的可視化工具,為用戶(hù)提供便于理解數據的可視化呈現方式。以圖表或其他輸出方式呈現的數據,可以瀏覽、檢索和選定,令用戶(hù)能夠訪(fǎng)問(wèn)其中與他們的研究主題最為貼合的一部分數據。Dacura還可以實(shí)現數據集或它們的子項以更為廣泛的數據格式輸出,從而用于外部分析,其中包括地理信息系統以及諸如SPSS或者R語(yǔ)言的統計格式。
  Dacura的實(shí)施:Seshat數據庫的元數據模型
  作為Dacura在研究實(shí)踐中發(fā)揮作用的范例,圖二向讀者展示了元數據模型如何被運用到Seshat——全球歷史數據庫(Global Historical Databank)。Seshat數據庫()的目的是組建一個(gè)全面而綜合的知識體系,這些知識包括人類(lèi)歷史以及史前史,以實(shí)證檢驗有關(guān)文化演變的假說(shuō),包括宗教、儀式、戰爭、農業(yè)或者其他變量在社會(huì )復雜化進(jìn)程中扮演的角色。迄今為止,Seshat數據庫已經(jīng)被用于區分出一種單一的復雜性維度,可以用來(lái)解釋人類(lèi)社會(huì )組織中大約四分之三的變化;此外它還被用于論證軸心時(shí)代貫穿于歐亞大陸的社會(huì )政治轉型的假說(shuō),超過(guò)了一千年的時(shí)間跨度。運用適當的統計學(xué)技術(shù)來(lái)考察這類(lèi)時(shí)間尺度較大的問(wèn)題需要有效和可靠的數據;這也是說(shuō),數據能夠反映學(xué)者們對問(wèn)題的定義,同時(shí)數據在不同案例中以同樣的標準被度量。
  當Seshat數據庫在計劃籌建階段時(shí),正處于開(kāi)發(fā)狀態(tài)的Dacura被認為對Seshat來(lái)說(shuō)是一個(gè)絕佳的數據處理平臺。兩支團隊決定協(xié)同開(kāi)發(fā)Dacura和Seshat平臺,令雙方實(shí)現信息共享。由于計算機科學(xué)家和歷史學(xué)家以往不會(huì )一同開(kāi)展工作,所以Dacura和Seshat兩大平臺的研究團隊之間的合作證明跨學(xué)科研究能夠取得豐碩的成果,當然前提是Dacura團隊的計算機專(zhuān)家能夠了解歷史學(xué)家的需求,同時(shí)Seshat研究團隊也能夠理解三元數據結構在收集和管理數據層面的可能性和局限性。
  Seshat的運行環(huán)境基于兩個(gè)基本信息:位置信息(Location)和持續時(shí)段(Duration)。具體來(lái)說(shuō),位置信息是地球表面上任意一個(gè)點(diǎn)或者多邊形區域,其實(shí)體被定義為領(lǐng)域(Territory)。Seshat定義了三級結構的領(lǐng)域實(shí)體(在Seshat升級后可能實(shí)現更多層級結構):
 ?。?)自然地理區域(Natural-Geographic Areas,NGA),它指的是一種大約100x100公里的相鄰區域,其中包含有相當均一的生態(tài)環(huán)境區域。
 ?。?)生物群落(Biomes),指的是一種具有連續性的生物圈或是擁有相似氣候條件的區域。
 ?。?)世界性區域(World Regions),它可能是指像民族國家、地區政權或是能以其他特定標準識別的預定義實(shí)體。
  一個(gè)持續時(shí)段可以設定為一個(gè)單個(gè)日期或一個(gè)時(shí)間段。添加一個(gè)持續時(shí)段到領(lǐng)域實(shí)體層級中去,便可以產(chǎn)生兩個(gè)有時(shí)間限制的實(shí)體之一:
 ?。?)人口,指在一個(gè)確定的時(shí)間段內生活在某個(gè)特定領(lǐng)域內的一批人類(lèi)群體;
 ?。?)一個(gè)歷史事件,它被定義為在一個(gè)確定的時(shí)間段內、在某個(gè)特定領(lǐng)域內發(fā)生的事件。
  Seshat數據庫能夠為特定研究問(wèn)題提供人口和歷史事件的實(shí)體類(lèi)。對于人口,目前有以下幾種實(shí)體類(lèi):
 ?。?)傳統,它被定義為人類(lèi)群體“分享相似的日常生活實(shí)踐、技術(shù)以及社會(huì )政治組織,它們在一個(gè)相對大的區域空間內呈現出連續性,并且在一段相對較長(cháng)的時(shí)期里保持了延續性”。對于這個(gè)實(shí)體類(lèi)來(lái)說(shuō),考古學(xué)傳統概覽(the Outline of Archaeological Traditions,下文簡(jiǎn)稱(chēng)OAT)為平臺的案例選擇提供了通用的抽樣范圍;同時(shí),文化資料概覽(the Outline of Cultural Materials,以下簡(jiǎn)稱(chēng)OCM)為數據編碼提供了詞庫。
 ?。?)文化群體,它指的是一類(lèi)人群,他們共享一套規范、信仰、行為、價(jià)值、態(tài)度等等。對于這個(gè)實(shí)體類(lèi)來(lái)說(shuō),主要的抽樣范圍來(lái)自世界文化概覽(the Outline of World Cultures,以下簡(jiǎn)稱(chēng)OWC),詞庫同樣來(lái)自OCM。
  
 ?。?)政治組織,它指的是基于相似的政府管理形成的獨立的政治性聯(lián)合體。這里有一個(gè)用于具體研究項目而創(chuàng )建的實(shí)體類(lèi)范例。圖爾欽等人撰寫(xiě)的論文向讀者展示了一個(gè)由30個(gè)案例組成的樣本,這些案例根據社會(huì )政治組織和地理區域的特點(diǎn)被挑選出來(lái)。OCM為這個(gè)實(shí)體類(lèi)提供了主要的詞庫。
 ?。?)聚落,這個(gè)實(shí)體類(lèi)的物理空間以及物質(zhì)設施范圍很廣,其規模大小和復雜程度的跨度涵蓋了臨時(shí)性營(yíng)地以及大都市。由于能夠被編碼的聚落范圍龐大,該實(shí)體沒(méi)有界定抽樣范圍。主要的詞庫來(lái)源仍然是OCM。
 ?。?)認同群體,具有相同的歸屬感的一群人。跟政治組織類(lèi)似,這個(gè)實(shí)體類(lèi)也是為特定的研究項目創(chuàng )建的,它的抽樣也具有隨機性的特征。對于這一實(shí)體,沒(méi)有正式的詞庫,不過(guò)OCM在一些特定領(lǐng)域也被使用。
 ?。?)語(yǔ)言群體,它是指使用同一種語(yǔ)言的群體。這一實(shí)體類(lèi)使用的抽樣范圍是民族語(yǔ)言志平臺(Ethnologue,),但是它也沒(méi)有正式的詞庫(同樣,OCM在一些特定領(lǐng)域也被使用)。
  此外,子類(lèi)層級也能夠被添加到實(shí)體類(lèi)中去,以為研究者提供屬性更多的數據集。圖三便顯示了為上述提及的實(shí)體類(lèi)創(chuàng )建的實(shí)體子類(lèi)。
  “歷史事件”實(shí)體則明顯地包含近乎無(wú)限可能的實(shí)體類(lèi)和子類(lèi)。故而為了維持一些歷史事件實(shí)體的秩序結構,DBpedia (/server/ontology/classes/)中的事件實(shí)體作為基本的本體得到了使用。正如圖二顯示的,目前實(shí)體類(lèi)中的事件實(shí)體包括:
 ?。?)群體內部沖突,諸如戰爭、決斗、分封等類(lèi)似事件。
 ?。?)社會(huì )-自然性災害,如饑荒或瘟疫。
 ?。?)自然災害,如干旱、洪水、蟲(chóng)害、火山爆發(fā)等等。
 ?。?)社會(huì )崩壞。
 ?。?)交接儀式,如婚禮、加冕、啟動(dòng)儀式等活動(dòng)。
 ?。?)社會(huì )運動(dòng),包括像移民這種身體遷移活動(dòng),還有諸如復興性運動(dòng)、千禧主義、罷工等社會(huì )性運動(dòng)。
 ?。?)技術(shù)性事件,如發(fā)明、發(fā)現、技術(shù)創(chuàng )新等等。
  Seshat的內容獲?。篋acura的工作流
  作為歷史學(xué)家如何應用Dacura獲取數據集的范例,圖四為讀者展示了傳統的實(shí)體類(lèi)數據,如何通過(guò)Dacura填充到Seshat數據庫中去。圖中藍色矩形之內的流程完全可以實(shí)現自動(dòng)化,而藍色矩形之外的區域需要把自動(dòng)分析和專(zhuān)家評估結合起來(lái),確保Seshat數據的有效性和可靠性。我們可以看到,藍色矩形頂部的處理流程,人口這個(gè)實(shí)體是由領(lǐng)域范圍內的持續時(shí)段所定義的。人口實(shí)體的特征會(huì )通過(guò)OAT的詞庫被分配到傳統實(shí)體類(lèi)之中。然后,數據挖掘的工作流會(huì )啟動(dòng)自動(dòng)搜索的進(jìn)程,根據OCM詞庫在互聯(lián)網(wǎng)搜索文化領(lǐng)域的相關(guān)信息。在這個(gè)節點(diǎn),研究者也可以使用Dacura檢索互聯(lián)網(wǎng)或者印刷材料獲取文化領(lǐng)域的數據。Dacura會(huì )在特定的文化領(lǐng)域收集信息,在圖四所示的范例中,我們用考古學(xué)數據作為例子,系統會(huì )對比DBpedia中的數據,以確定關(guān)聯(lián)的數據是否需要納入其他來(lái)源的數據,并且通過(guò)自動(dòng)分析程序評估數據的一致性。前后矛盾的數據(如存在語(yǔ)義矛盾或數值沖突的數據)會(huì )輸出給研究文化群體或文化領(lǐng)域的研究者和專(zhuān)家做進(jìn)一步評估。這些研究者或領(lǐng)域專(zhuān)家要么會(huì )為文化領(lǐng)域確定一個(gè)規范值,要么在沖突無(wú)法解決時(shí),給出一個(gè)非規范值。不管怎么說(shuō),所有收集過(guò)來(lái)的數據都會(huì )囊括進(jìn)Seshat數據庫,并且被標記為規范值或者非規范值,其他研究者可以檢索到這些值并對之加以修正或擴展它們的解釋。規范數值同時(shí)也會(huì )輸出到DBpedia以協(xié)助其他的研究者以及未來(lái)的搜索。
  研究者也可以輸入自己的數據,包括圖片、媒體和shapefile格式文件。數據合并的處理流程可允許其他研究者通過(guò)關(guān)聯(lián)數據來(lái)訪(fǎng)問(wèn)這些共享文件,令之可以被廣泛使用。更為重要的意義在于,那些被整合進(jìn)Seshat或由Dacura生成的數據集中的其他數據,其質(zhì)量能夠不斷得到提升,這正是歸功于Dacura允許研究者對先前合并的數據進(jìn)行評注和再評估。換句話(huà)說(shuō),Dacura不僅可以用于創(chuàng )建和管理巨量數據集,也能確保數據質(zhì)量能夠持續不斷地得到提升。
  使用Seshat數據庫:從Dacura輸出數據
  到了這一步,關(guān)切夏威夷人口估值的研究者便能夠通過(guò)Seshat數據庫——或是她自己利用Dacura生成的數據集——來(lái)迅速地獲得精確并且可以溯源的人口數據。她可以通過(guò)Dacura來(lái)開(kāi)啟Seshat數據庫,接著(zhù)在操作界面中選取夏威夷的自然地理區域模塊,然后選取她所感興趣的某個(gè)歷史時(shí)期的夏威夷居住人口的政治組織子級,之后再選擇人口這個(gè)變量。我們在Youtube上傳了一部視頻供讀者參考。在這個(gè)案例中,這位學(xué)者獲得的有關(guān)人口的數據源自Seshat數據庫,這個(gè)數據是我們上文述及的Dacura數據收集和評估進(jìn)程的產(chǎn)物。但是我們的研究者還能夠使用Dacura創(chuàng )建新本體,以引導她進(jìn)行更具個(gè)性化的搜索,正如我們在上文提到的視頻中揭示的那樣。
  無(wú)論是在Seshat平臺還是她運用Dacura從其他來(lái)源獲取的數據,我們的學(xué)者都能獲得各種類(lèi)型的結果輸出。正如前文述及的那樣,Dacura會(huì )將數據集作為關(guān)聯(lián)數據發(fā)布,并使用SPARQL進(jìn)行輸出。SPARQL是一種RDF的查詢(xún)語(yǔ)言,后者能夠生成文檔和原始數據集,還有像圖表、表格、地圖之類(lèi)的其他可視化信息。另外一點(diǎn)對史學(xué)工作者也至關(guān)重要,即SPARQL與GeoSPARQL能夠協(xié)同運行,這得以讓SPARQL數據集整合進(jìn)入采用了OGC(Open Geospatial Consortium,開(kāi)放地理空間信息聯(lián)盟)查詢(xún)標準(比如GML、WKT等)的地理信息系統中去。此外,Dacura平臺上生成的原始文本、媒體或數字數據,也能夠被瀏覽、搜索和挑選,研究者可以訪(fǎng)問(wèn)對研究最有價(jià)值的那部分文本、圖片、媒體或數據集。Dacura還能夠收集或輸入的材料——或是它們的子級——以更多格式導出來(lái)支持進(jìn)一步的外部分析。例如,研究者可能會(huì )想把有關(guān)人口估算值的數據輸出到統計分析平臺。那么Dacura將會(huì )生成逗號分割文件(comma-delimited file),這個(gè)文件能夠被直接傳輸到電子表格或是統計數據軟件包,如此一來(lái)研究者就可以使用任何數據分析的方法,來(lái)解答自己的問(wèn)題。圖五展示了一個(gè)有關(guān)夏威夷人口估算值的簡(jiǎn)單線(xiàn)性圖表,它的生成有賴(lài)于Dacura和Seshat平臺的數據輸出功能,生成了一個(gè)CSV文件,并使用Excel制作了一張圖表。
  我們的這位研究者最初問(wèn)題的答案是,夏威夷的人口增長(cháng)確實(shí)先于這座島嶼上第一個(gè)國家政權的產(chǎn)生,這也正如人口壓力模型預測的那樣。就答案本身來(lái)說(shuō),這算不上是個(gè)令人印象深刻的結果(實(shí)際上或許也是個(gè)非常簡(jiǎn)單化的結論),但是考慮到我們的研究者通過(guò)Dacura平臺的處理進(jìn)程,可以在幾分鐘里收集數據,同時(shí)對它們的質(zhì)量抱有信心,而且還可以訪(fǎng)問(wèn)與之相關(guān)的所有附加數據,不能不說(shuō)是一次令人嘆服的研究之旅。
  結論
  互聯(lián)網(wǎng)為歷史學(xué)家提供了大量的信息,然而現狀卻是,這些信息經(jīng)常太過(guò)豐富,而且缺少質(zhì)量監控。Dacura便是旨在解決這些問(wèn)題而被設計開(kāi)發(fā)出來(lái)的。它提供一種便捷的、質(zhì)量有保證的途徑,幫助史學(xué)工作者在互聯(lián)網(wǎng)上收集信息,同時(shí)提供一個(gè)可供管理的質(zhì)量控制體系。Dacura具有的精心設計的本體(dacura.scss.tcd.ie/ontologies/ dacura-130317.ttl),進(jìn)而使研究者能夠簡(jiǎn)易地定義和檢索到與他們的研究直接相關(guān)的信息。Dacura的一體化詞庫和RDF三元存儲結構讓用戶(hù)不需要使用在結果中進(jìn)行跨領(lǐng)域的詳細索引,如此一來(lái),有關(guān)給定主題的所有信息,甚至那些相關(guān)性不那么明顯或作為相關(guān)索引的信息,都可以被用戶(hù)檢索到。此外,Dacura提供的用于輸出的數據格式非常廣泛,從文本到可視化形式再到表格。Dacura雖然不是唯一可用的數據收集和管理程序,但是因為它與Seshat數據庫一同被開(kāi)發(fā)出來(lái),因而它為新興的基于計算機技術(shù)的歷史和考古數據處理提供了一個(gè)獨特模型。
  從這個(gè)角度來(lái)說(shuō),Dacura展現了一系列可應用于歷史學(xué)研究的重要新工具。正如肯特在他最近發(fā)表的論文中指出的那樣,“(歷史學(xué)家以及)考古學(xué)家在獲取、管理和分析大量且差異巨大的數據過(guò)程中,日益面臨挑戰?!?Dacura平臺的問(wèn)世為這一系列挑戰提供了數種解決方案。具體來(lái)說(shuō),Dacura平臺嵌入了(1)一個(gè)基于RDF三元存儲的語(yǔ)義知識圖譜技術(shù),同時(shí)運用了(2)網(wǎng)絡(luò )本體語(yǔ)言(OWL)來(lái)進(jìn)行數據定義,它還嵌入了(3)語(yǔ)義推理模塊,該模塊是自動(dòng)進(jìn)行數據評估的基礎,以及(4)它按照關(guān)聯(lián)數據標準實(shí)現結果輸出。
  通過(guò)OWL數據定義和知識圖譜技術(shù),歷史學(xué)家可以把收集到的海量數據,以快捷和簡(jiǎn)易的方式將那些對既定研究主題最為重要的信息精減和篩選出來(lái),并且可以讓這些數據以多樣的格式輸出。語(yǔ)義推理模塊為用戶(hù)提供了一種迅捷的數據評估以及可持續管理的機制。關(guān)聯(lián)數據標準制式下,Dacura允許研究者隨時(shí)訪(fǎng)問(wèn)那些經(jīng)由其他學(xué)者收集來(lái)和評估過(guò)的數據。
  另外,在像Dacura這樣的平臺上,計算機科學(xué)領(lǐng)域最近取得的新進(jìn)展,也為那些非歷史學(xué)領(lǐng)域的學(xué)者提供了可用和精確的歷史數據。長(cháng)期以來(lái),那些有關(guān)文化穩定和變遷的時(shí)空記錄,以及人類(lèi)社會(huì )成功或者失敗的實(shí)踐案例,在考古學(xué)和歷史學(xué)學(xué)科之外沒(méi)有得到廣泛應用,這是令許多史學(xué)工作者倍感沮喪的事情。不過(guò)這也沒(méi)什么好驚訝的,因為對于外行來(lái)說(shuō),歷史數據和材料很難獲取也很難理解。然而,像Dacura這樣的平臺,它們通過(guò)自動(dòng)化方式對歷史數據進(jìn)行收集、評估,對經(jīng)過(guò)檢驗的精確的歷史學(xué)數據進(jìn)行檢索,從而為經(jīng)濟學(xué)家、政治學(xué)家、生態(tài)學(xué)家、地理學(xué)家以及大眾提供了一種獲取數據途徑和模型,讓他們得以探索人類(lèi)歷史長(cháng)河中累積下來(lái)的豐富而寶貴的歷史記錄。
  致謝
  本文作者向參加了于2015年5月4日至6日在圣塔菲研究所舉辦的工作坊的與會(huì )者表示感謝,在這次工作坊上與會(huì )者們討論了有關(guān)數據收集以及高質(zhì)量信息整合的各種需要,以及Seshat元數據模型的開(kāi)發(fā)事宜。我們還要感謝Dacura平臺的研究團隊、博士后工作站人員、顧問(wèn)人員以及專(zhuān)家團隊,他們做出了巨大貢獻。此外,我們的合作伙伴為我們撰寫(xiě)這篇論文提供了無(wú)比寶貴的協(xié)助。更多具體信息,也請讀者登錄Seshat的網(wǎng)頁(yè)()查看公示的詳細清單,包括私人捐贈、合作者、專(zhuān)家、顧問(wèn)以及他們擅長(cháng)的專(zhuān)業(yè)領(lǐng)域。最后,我們向匿名評審專(zhuān)家致以感謝,正是他們深富洞見(jiàn)的評審意見(jiàn)令我們能夠更好地提升論文的質(zhì)量和水準。
  (作者彼得·比勒金[Peter N. Peregrine],勞倫斯大學(xué)人類(lèi)學(xué)系,圣塔菲研究所;羅布·布倫南[Rob Brennan],都柏林大學(xué)三一學(xué)院,統計學(xué)和計算機科學(xué)學(xué)院ADAPT&知識與數據工程項目組;托馬斯·柯里[Thomas Currie],??巳卮髮W(xué)生命科學(xué)系;凱文·費尼[Kevin Feeney],都柏林大學(xué)三一學(xué)院,計算機科學(xué)與統計學(xué)院,知識與數據工程項目組;彼得·弗朗索瓦[Pieter Fran?ois],赫特福德大學(xué)人文學(xué)院,牛津大學(xué)認知與發(fā)展人類(lèi)學(xué)研究所;彼得·特欽[Peter Turchin],康涅狄格大學(xué)生態(tài)與進(jìn)化生物學(xué)系;哈維·懷特霍斯[Harvey Whitehouseg],牛津大學(xué)認知與發(fā)展人類(lèi)學(xué)研究所。譯者紀子凡,南京大學(xué)歷史學(xué)院碩士研究生)
  本文注釋及更多精彩文章請參閱《全球史評論》第十九輯
  首師大全球史中心
  公眾號ID:gh-cnu
  歡迎關(guān)注,謝謝大家~

裴?。核阉鹘灾悄?,智能皆搜索

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2022-06-18 01:11 ? 來(lái)自相關(guān)話(huà)題

  裴?。核阉鹘灾悄?,智能皆搜索
  
  作者 | 陳大鑫
  編輯 | 叢 末
  6月23日,加拿大西門(mén)菲莎大學(xué)教授裴健在第二屆北京智源大會(huì )上做了《智能搜索:從工具到思維方式和心智》的報告。
  
  裴老師最近當選為加拿大工程院院士,現在是加拿大皇家科學(xué)院和加拿大工程院的兩院院士。裴老師是國際著(zhù)名的數據科學(xué)、數據挖掘和數據管理專(zhuān)家,專(zhuān)長(cháng)于通過(guò)數據戰略制定、數據資產(chǎn)管理、數據資源整合和數據產(chǎn)品設計研發(fā)把數據和技術(shù)轉化為業(yè)務(wù)能力和效益。他同時(shí)是多家企業(yè)的顧問(wèn),提供高端戰略咨詢(xún)和技術(shù)咨詢(xún)服務(wù)。其論著(zhù)被引用九萬(wàn)七千多次。有關(guān)裴健老師的更多獨家信息,請移步 一文。北京智源大會(huì )是智源研究院主辦的年度國際性人工智能高端學(xué)術(shù)交流活動(dòng),2019年舉辦了首屆大會(huì ),今年為第二屆。大會(huì )參會(huì )官網(wǎng):。裴健老師在這次的演講中提出了三個(gè)核心觀(guān)點(diǎn):第一,搜索皆智能,搜索以人為核心,以滿(mǎn)足人的信息需求為目的,所以它天然就包含了智能成分。第二,智能皆搜索,我們要做到智能必須要用到搜索的方法,目前人工智能的很多應用都是搜索任務(wù),智能和搜索同行。第三,智能搜索不僅是一個(gè)單純的技術(shù)問(wèn)題,更是一個(gè)與人相關(guān)的問(wèn)題,我們必須要一起努力,使得每個(gè)人都不會(huì )被落下,讓智能搜索服務(wù)全人類(lèi)。在演講最后,中國人民大學(xué)教授、智源首席科學(xué)家文繼榮與裴健老師進(jìn)行了精彩的問(wèn)答互動(dòng):智能搜索和智能推薦可能比我們想象中更深刻地影響到我們每天的生活,比如你有一個(gè)問(wèn)題,你的第一反應是不是去搜一下?或者說(shuō)你想獲取什么信息,你會(huì )第一時(shí)間打開(kāi)如頭條、微博、知乎這樣的一些APP,然后去看它給你推薦了一些什么?做搜索、推薦、數據分析的人責任是非常重大的,如果這方面做得不好,在極端情況下就有可能改變我們下一代甚至改變人類(lèi)的思維方式,改變我們對世界的看法,因為一個(gè)人對整個(gè)世界的看法更多地是由他接收到的信息、他的經(jīng)歷所塑造的。
  如果我們的信息推送和用戶(hù)檢索到的信息是有問(wèn)題的,比如剛剛提到的信息是有偏見(jiàn)的,比如我看什么就給我推薦什么,那我就進(jìn)入了信息減法的世界,我可能會(huì )失去了解這個(gè)世界的更多可能性。通過(guò)這次精彩的演講和問(wèn)答互動(dòng),我們可以從智能推薦或者個(gè)性化推薦等技術(shù)中看到一些人文關(guān)懷和哲學(xué)反思。人文關(guān)懷:老人會(huì )不會(huì )因為不會(huì )用智能手機、不會(huì )用電腦而享受不了智能搜索帶來(lái)的紅利?比如說(shuō)殘疾人和在偏遠地區、經(jīng)濟不發(fā)達地區的人會(huì )不會(huì )因為達不到智能搜索的入門(mén)門(mén)檻而被慢慢拋棄?我們應該如何解決這些問(wèn)題?哲學(xué)反思:隨著(zhù)我們越來(lái)越依靠智能搜索、個(gè)性化推薦,我們是否會(huì )失去了解這個(gè)世界的更多可能性?我們是否會(huì )失去一部分原有的“自由意志”?究竟是我們馴化了這個(gè)信息流世界還是被其馴化?以下為裴健演講正文:今天我報告的題目是智能搜索:從技術(shù)工具到思維心智。首先,讓我們來(lái)簡(jiǎn)單回顧一下搜索的基本概念。在搜索當中,我們假定用戶(hù)有信息需求。用戶(hù)的信息需求往往不能直接被搜索系統直接理解,于是用戶(hù)把信息需求轉化為搜索系統的查詢(xún)。搜索系統得到用戶(hù)的查詢(xún),找到相應的結果,可能是一些文檔、圖片、圖像或者是生成的內容,返回給用戶(hù)。用戶(hù)可以根據這些是否是所需要的,產(chǎn)生相應的反饋,搜索系統根據用戶(hù)的反饋來(lái)決定是否需要去對搜索進(jìn)行增強。這樣一個(gè)過(guò)程不斷循環(huán),直到用戶(hù)信息需求得到了滿(mǎn)足,整個(gè)搜索過(guò)程就結束了。
  
  這個(gè)過(guò)程聽(tīng)起來(lái)非常得完美,很簡(jiǎn)潔。但在實(shí)際當中,搜索并不是那么簡(jiǎn)單,要比這個(gè)復雜得多。
  1
  搜索皆智能在實(shí)際生活當中,“用戶(hù)信息需求是固定的”這個(gè)假設命題其實(shí)是個(gè)偽命題。在很多情況下,用戶(hù)的信息需求不斷變化。更麻煩的是,用戶(hù)本身可能并不清楚自己的信息需求到底是什么。舉個(gè)例子來(lái)說(shuō),比如我聽(tīng)說(shuō)某個(gè)小區有新型肺炎的新感染案例,發(fā)出一個(gè)“新冠肺炎感染病例”的查詢(xún),那么這個(gè)查詢(xún)到底是想問(wèn)什么呢?用戶(hù)自己可能并不清楚,在很多時(shí)候用戶(hù)可能是發(fā)出一個(gè)查詢(xún)先問(wèn)一下,看搜索引擎給返回什么樣的信息。用戶(hù)和搜索引擎的交互過(guò)程就是一個(gè)探索的過(guò)程,用戶(hù)的信息需求在不斷變化。在“新冠肺炎感染病例”的例子里,用戶(hù)可能想問(wèn)的是這個(gè)感染病例是不是得到了治療?感染病例的具體情況是怎樣的?看到搜索引擎的回答后,用戶(hù)可能馬上想到這個(gè)感染案例對小區的生活,如出行、購物等,有什么影響?大家可以看到信息需求是不斷變化的,我們在搜索過(guò)程中不能假定用戶(hù)的信息需求是不變的。信息系統必須想辦法去理解用戶(hù)的真實(shí)信息需求,為用戶(hù)提供探索的工具。因此,搜索本身從一開(kāi)始就是智能的,因為它把人擺在了整個(gè)過(guò)程的中心。
  
  下面舉個(gè)例子來(lái)講一下搜索過(guò)程為什么是一個(gè)探索的過(guò)程。在VLDB-2019的會(huì )議上,我的研究小組發(fā)表了一篇社團搜索的文章。和很多已有的社團搜索工作不太一樣,我們假定在每一個(gè)網(wǎng)絡(luò )節點(diǎn)上都有一個(gè)數據庫。如果這個(gè)網(wǎng)絡(luò )結點(diǎn)是一個(gè)人,那么這個(gè)數據庫就可以是這個(gè)人以往購買(mǎi)東西的整個(gè)歷史。如果這個(gè)網(wǎng)絡(luò )結點(diǎn)是一個(gè)論文作者,那這個(gè)數據庫就是他以前發(fā)表的所有論文的集合。我們關(guān)心在這樣一個(gè)網(wǎng)絡(luò )里面怎樣找到社團?
  
  我們希望社團內成員之間不但有很密切的網(wǎng)絡(luò )連接關(guān)系,還能在數據庫上又有非常相似的模式。這樣社團有什么用呢?舉例來(lái)說(shuō),在論文作者的數據網(wǎng)絡(luò )上,用戶(hù)可能關(guān)心的是能不能找到那些用數據挖掘方法來(lái)研究人臉識別和圖象檢索的社團?我們的搜索首先形成了一個(gè)查詢(xún)模式a1。
  
  同時(shí),我們的搜索算法還能夠提供針對a1的各種細化,比如b1、b2、直到b8。在這些細化當中我們會(huì )專(zhuān)門(mén)看各個(gè)具體的分支,包括算法具體分支和問(wèn)題具體分支。這些分支給用戶(hù)帶來(lái)探索方向和探索方便。這種探索可以進(jìn)一步往下走。比如說(shuō)b8可以進(jìn)一步探索到c1、c2兩種具體的情況。整個(gè)過(guò)程是一個(gè)不斷深入、不斷嘗試、不斷修正的探索過(guò)程。
  2
  智能皆搜索搜索皆智能,搜索要用到大量的人工智能技術(shù),所以我們要通過(guò)人工智能技術(shù)去理解用戶(hù)的信息需求。同時(shí),智能很復雜,智能的每一個(gè)任務(wù)都需要多多少少用到搜索技術(shù)。什么是智能?智能是關(guān)于連接的,我們需要把不同的數據、不同的知識點(diǎn)連接起來(lái);智能是關(guān)于推理的,我們需要對數據、對知識進(jìn)行相應的推理;智能是關(guān)于泛化的,我們有具體的觀(guān)察,我們希望通過(guò)若干具體的觀(guān)察、具體的例子來(lái)泛化來(lái)概括成通用的規律;智能還需要去做具體化,我們有一些通用的原則,要把它用到具體的事例里面,提高具體事例處理的效率和效果。所有這些都需要搜索相應的數據,搜索相應的知識,搜索相應的連接。所以智能皆搜索,智能離不開(kāi)搜索,智能必須通過(guò)搜索來(lái)實(shí)現。
  
  下面舉個(gè)一個(gè)我們KDD 2016論文中的例子來(lái)介紹我們怎么通過(guò)搜索來(lái)達到知識發(fā)現。我們可以在WordNet的網(wǎng)絡(luò )上面找到很有意思的一些社團,每一個(gè)社團內部非常相似,社團成員之間有很強的關(guān)聯(lián),同時(shí),社團之間非常對立,有非常大的差異。
  
  當我們把這個(gè)問(wèn)題用在形容詞網(wǎng)絡(luò )里面,我們就找到了大家在膠片上看到的Group1和Group2這樣對立的社團,所以我們把它叫做gangs in war。大家仔細看,每一個(gè)社團內部是一組同義組,Group1和Group2之間是反義詞關(guān)系。我們用智能搜索帶給我們新知識,我們可以在詞的網(wǎng)絡(luò )上自動(dòng)發(fā)現同義詞和反義詞。
  
  剛才我們講了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者緊密結合,搜索和智能同行。這里包括兩個(gè)意思,第一,我們需要用搜索的技術(shù)來(lái)達到更好的人工智能。像我剛才舉的例子,我們可以通過(guò)很好的搜索來(lái)自動(dòng)的發(fā)現知識,同時(shí)我們需要用很多的智能技術(shù)和計算來(lái)使得搜索更加有效。這里的智能不單單只是人工智能,還包括了很多真正的人的智能,因為我們最終的搜索是為人服務(wù)的。
  
  這里舉一個(gè)例子,這是我們最近剛剛完成的一個(gè)論文,我們研究的是基于Web-scale的多語(yǔ)言問(wèn)答系統。問(wèn)答系統有很多,在很多商用的搜索引擎里面都有相應的問(wèn)答功能。當一個(gè)用戶(hù)給出一個(gè)問(wèn)題,例如說(shuō)想知道感冒癥狀,搜索引擎可以總結出像下圖左邊的信息卡,這個(gè)信息卡上會(huì )列出相應的感冒的癥狀甚至是治療的方法。這給用戶(hù)帶來(lái)了很多的便利,在一定程度上這也是對知識的抽取和總結。
  
  當搜索引擎給出這樣一個(gè)答案時(shí),這個(gè)答案是否滿(mǎn)足了用戶(hù)的信息需求?這個(gè)答案的知識是否正確?是否有用?我們希望能夠得到用戶(hù)的反饋,我們希望用戶(hù)用人的智能來(lái)幫助機器進(jìn)行學(xué)習。這里有一個(gè)挑戰。很多情況下,用戶(hù)看過(guò)答案但并不一定給出一個(gè)顯式的反饋,理解人的反饋是一個(gè)非常復雜的過(guò)程。在這篇論文里面,我們系統地研究了如何觀(guān)察、推理用戶(hù)對搜索引擎所給出的問(wèn)答信息的反饋,如何對用戶(hù)的行為進(jìn)行挖掘,抽取相應的反饋信號,用這些信號來(lái)改進(jìn)我們的QA系統。
  
  上圖是在一個(gè)全球化商業(yè)搜索引擎數據集上面所做的實(shí)驗結果。當我們的系統考慮了用戶(hù)真正的已知反饋之后,整個(gè)搜索效果比不用這個(gè)反饋的系統好得多。同時(shí),我們可以看到一個(gè)非常有意思的現象:這種智能搜索所發(fā)現的知識可以在不同的領(lǐng)域進(jìn)行遷移。
  
  舉個(gè)例子來(lái)說(shuō),在整個(gè)模型建立的過(guò)程中,我們用的是英語(yǔ)數據,在英語(yǔ)數據里面,我們抽取了相應的問(wèn)答和相應的用戶(hù)反饋。英語(yǔ)里發(fā)現的知識完全是可以往別的語(yǔ)言遷移,如德語(yǔ)和法語(yǔ)。遷移的效果很好,在法語(yǔ)的數據集上面我們用了很少的大概5K的數據就能夠達到如果沒(méi)有跨語(yǔ)言的遷移、沒(méi)有反饋的時(shí)候需要用50K的數據才能達到的效果。也就是說(shuō),通過(guò)應用用戶(hù)的反饋,我們能夠大大減少相應的數據需求,我們的確可以通過(guò)智能化的方法理解用戶(hù),并讓用戶(hù)把人類(lèi)智能來(lái)幫助我們的機器。我們的技術(shù)已經(jīng)在一個(gè)大型商用搜索引擎的多語(yǔ)言服務(wù)中上線(xiàn)應用。
  3
  智能搜索,與人相關(guān)因為搜索的主體是人,所以搜索并不簡(jiǎn)單是一個(gè)技術(shù)問(wèn)題。最近在《紐約時(shí)報》有一篇很好的文章,題目就是Tech is global. right?:技術(shù)是全球化的,對嗎?對,技術(shù)是全球化的。
  
  這篇文章談到了很多先進(jìn)的美國企業(yè)把相應的技術(shù)和平臺用到別的國家和地區效果不好。這里面涉及到很多因素,特別是很多與人有關(guān)的因素,例如說(shuō)本地化、可理解性、文化、公平性、隱私保護、模型的復雜性、安全性等等。如果我們要把智能搜索做好,就必須密切考慮人的因素。其中,深度學(xué)習模型的復雜性是一個(gè)重要的因素。我們最近剛剛完成了一篇KDD2020的論文在這方面做了一些探索。模型復雜性本身是一個(gè)很復雜的問(wèn)題。在很多場(chǎng)合下,人們可能只是簡(jiǎn)單地比較兩個(gè)模型之間的準確度或者別的一些性能指標,但哪怕兩個(gè)模型的性能在測試集上是完全一樣的,并不意味著(zhù)這兩個(gè)模型的本質(zhì)是一樣的,也不意味著(zhù)它們捕捉了同樣的客觀(guān)現實(shí)。
  
  舉個(gè)具體例子,上圖這兩個(gè)模型在相應的數據點(diǎn)上是完全一致的,但是這兩個(gè)模型其實(shí)差得非常遠。因此我們需要有一個(gè)系統的方法來(lái)衡量模型的復雜度、來(lái)衡量模型到底有沒(méi)有對數據過(guò)擬合。我們的KDD2020上的論文就在這方面給出了一些新的方法。與模型和搜索方法很相關(guān)的另外一個(gè)問(wèn)題是可解釋性,一個(gè)模型要獲得大家的信任,它必須有良好的可解釋性。我們認為,模型的可解釋性一定要滿(mǎn)足兩個(gè)原則。第一是準確性:如果我用一個(gè)模型來(lái)解釋另外一個(gè)模型,那這兩個(gè)模型必須在數學(xué)上等價(jià)。如果不等價(jià),解釋就可能會(huì )有問(wèn)題。第二,模型的解釋必須是一致的。一致是什么意思呢?如果我有兩個(gè)非常相似的樣例,它們相應的解釋也應該非常相似,這才能夠符合人的直覺(jué)??山忉屝詥?wèn)題的核心是把一個(gè)黑盒子轉化為一個(gè)白盒子。
  
  我們KDD2018的論文通過(guò)把一個(gè)深度網(wǎng)絡(luò )轉化為一個(gè)基于內部神經(jīng)元狀態(tài)的向量,給出基于多胞體(polytope)的解釋。這樣所得到的解釋是精確的:從數學(xué)上解釋的模型和原來(lái)的深度網(wǎng)絡(luò )等價(jià)。同時(shí),解釋也是是一致的:如果兩個(gè)點(diǎn)很相近,它們落在同一個(gè)多胞體里面,它們就會(huì )遵從相應的相同的線(xiàn)性分類(lèi)器,所以它們的相應解釋也會(huì )是一樣的。
  
  在今年的ICDE論文中,我們把解釋模型推到了云端。以往的解釋工具往往需要知道整個(gè)模型的參數,甚至要知道相應的很多訓練數據。在今年的ICDE論文里,我們提出可以把整個(gè)模型作為一個(gè)黑盒,然后給出準確和一致的解釋?zhuān)恍枰滥P偷膮岛陀柧殧祿?。這里核心的想法是:如果我們有若干的樣例,這些樣例落在同一個(gè)多胞體里面,它們就應該遵循同一個(gè)線(xiàn)性分類(lèi)器,于是我們可以建造一個(gè)線(xiàn)性方程式系統,用此來(lái)為我們提供相應的解釋。關(guān)于怎么樣把智能搜索做好,我們講了很多。但是我們應該要充分認識到一點(diǎn),智能搜索也在不斷地改變我們的心智。
  
  在國外大家經(jīng)常說(shuō)這句話(huà):如果你遇到一個(gè)不了解的事情怎么辦?用搜索引擎查一下(google it)。在國內也有俗語(yǔ)叫:內事問(wèn)度娘,外事問(wèn)谷歌。搜索的過(guò)程和結果很深刻地改變了人類(lèi)的思維和學(xué)習方式。在某些方面搜索拓寬了我們獲取信息的渠道和速度,使得我們更聰明。但在另一些方面,我們可能會(huì )過(guò)度依賴(lài)智能搜索,在很多地方會(huì )變得笨了。這里,信息的準確性和公平性變得非常重要。在這次的疫情當中,我們都知道虛假信息是非常嚴重的一個(gè)問(wèn)題。很多小道消息、虛假消息通過(guò)社交媒體傳播產(chǎn)生了很壞的作用。最近推特干了一件很有意思的事情,他們用了一個(gè)簡(jiǎn)單聰明的辦法來(lái)對付虛假消息。他們觀(guān)測到有很多人在社交媒體里面看到一個(gè)有意思的標題就轉發(fā)了,但并沒(méi)有看過(guò)那個(gè)文章。于是推特在你轉發(fā)一個(gè)沒(méi)有看過(guò)內容的推特時(shí),提示用戶(hù)其實(shí)沒(méi)有看過(guò)這篇文章。這個(gè)提示對于降低虛假消息的傳播會(huì )有很大的幫助。但是這種幫助是有代價(jià)的,它需要我們犧牲一定的隱私。推特需要知道你看過(guò)什么才知道你有沒(méi)有看過(guò)自己轉發(fā)的東西。這里有一個(gè)挑戰性的均衡:我們到底需要保留什么樣的隱私,怎么樣制止虛假消息的傳播。
  
  我們知道抖音在國內外都非常成功,已經(jīng)出現了一代新的人類(lèi)叫作Tik TOK Generation。它們通過(guò)智能的搜索和推薦技術(shù)把人與人連接起來(lái),把內容和內容連接起來(lái)。在內容創(chuàng )造上Tik TOK Generation以及這類(lèi)新媒體有一些重要的特點(diǎn)。其中之一就是媒體內容本身不是那么重要,反而對媒體的評論和媒體的跟進(jìn)會(huì )更重要。大家經(jīng)常跑到很多新媒體上并不是看它真正的內容,而是看后面跟著(zhù)的評論。由于智能搜索和智能推薦技術(shù)的發(fā)展使得人與人之間的連接、內容與內容之間的連接、人與內容之間的連接更加容易、更加廣泛。很多人原來(lái)并不需要互相認識,但是通過(guò)這個(gè)智能搜索和智能推薦他們會(huì )聯(lián)系在一起,形成長(cháng)期的交互,這就導致了我們現在面臨著(zhù)新一代所謂的熱情經(jīng)濟。
  
  跟傳統的零工經(jīng)濟經(jīng)濟相比,熱情經(jīng)濟有一系列新特點(diǎn)。舉例來(lái)說(shuō),熱情經(jīng)濟從業(yè)者不斷地產(chǎn)生新內容,不斷地吸引更多的觀(guān)眾獲得相應的營(yíng)收,這是以往很多經(jīng)濟模式不具備的。同時(shí)由于智能搜索、智能推薦和平臺的連接作用使受眾面會(huì )大大提高,更多有創(chuàng )意的產(chǎn)品和服務(wù)可以以更低的成本推向服務(wù)市場(chǎng),這些也給我們帶來(lái)很多新機會(huì )和新挑戰。熱情經(jīng)濟完全是基于新的技術(shù)、新的軟件、新的媒體。智能搜索是熱情經(jīng)濟的核心技術(shù),通過(guò)技術(shù)的進(jìn)步使得平臺更加有效、內容開(kāi)發(fā)更加方便、創(chuàng )業(yè)更加快捷、創(chuàng )業(yè)者和受眾的聯(lián)系更加緊密、交互更加方便。智能搜索徹底改變了我們的生活??梢哉f(shuō)智能搜索已經(jīng)變成了我們無(wú)時(shí)無(wú)刻、無(wú)處不在的需求和工具。智能搜索同時(shí)也會(huì )產(chǎn)生很多新的挑戰。其中一個(gè)核心的挑戰是我們怎么確保智能搜索服務(wù)于社會(huì )的每一個(gè)人,沒(méi)有人因為各種限制而被智能搜索遺棄。
  
  舉個(gè)例子來(lái)說(shuō),老人們會(huì )不會(huì )因為不會(huì )用智能手機而享受不了智能搜索帶來(lái)的紅利?又比如說(shuō),殘疾人、偏遠地區和經(jīng)濟不發(fā)達地區的人們會(huì )不會(huì )因為達不到智能搜索的基礎設施入門(mén)門(mén)檻而被拋棄?這些都是我們需要考慮的問(wèn)題。我們都知道現在醫院掛號經(jīng)常需要用智能手機來(lái)預約,但是很多老人,特別是那些七八十歲、八九十歲的老人,并不會(huì )使用智能手機,用起來(lái)也很不方便。他們怎么才能獲得信息渠道并消費這些信息?這些都是我們做智能搜索的人需要認真考慮和抓緊行動(dòng)的方向。我個(gè)人認為智能搜索遠遠不僅僅是一個(gè)技術(shù)問(wèn)題,也遠遠不僅僅是一個(gè)人工智能的問(wèn)題,它是一個(gè)非常復雜的全社會(huì )的系統工程。
  問(wèn)答環(huán)節 文繼榮:對智能搜索和智能推薦來(lái)說(shuō),所謂的智能就是越來(lái)越了解你,以人為中心來(lái)了解你,它給你的信息越來(lái)越趨近于你過(guò)去的興趣和經(jīng)歷,但是這樣會(huì )不會(huì )使你失去了解這個(gè)世界多樣性的可能?在整個(gè)大的框架方面或者在整個(gè)研究方向上面,有沒(méi)有更多的深刻思考?裴?。褐悄芩阉骰?、智能推薦已經(jīng)成為下一代人類(lèi)重要的信息入口,也是非常重要的信息出口。只能搜索把握了這一進(jìn)一出,對未來(lái)的人類(lèi)有很大的塑造能力。這也許是大家做技術(shù)的時(shí)候并沒(méi)有特別深思的一個(gè)問(wèn)題。我們一點(diǎn)一滴的技術(shù)貢獻會(huì )怎樣改變未來(lái)人類(lèi)學(xué)習的方式、思考的方式和所知所行。這里面涉及很多問(wèn)題。例如說(shuō)我們可以通過(guò)可適應性使得我們的教育效率提高,使得一個(gè)人更容易學(xué)習。但是可適應性在一定程度下又可能有缺陷。我們如果過(guò)分遷就人類(lèi)的惰性,就可能會(huì )使一部分最聰明的人失去了挑戰更高高度的機會(huì )。再例如,到底讓智能搜索受眾學(xué)什么?怎么保證整個(gè)環(huán)境公平性?大家開(kāi)始去思考,但是遠遠沒(méi)有答案。我在演講的最后也強調了這不是簡(jiǎn)單的技術(shù)問(wèn)題,這是全社會(huì )的很復雜的問(wèn)題。觀(guān)眾發(fā)問(wèn):感覺(jué)像谷歌、百度這些巨頭已經(jīng)形成了壟斷,其它的搜索引擎或者其它的新的搜索工具經(jīng)歷了多年都沒(méi)有成長(cháng)起來(lái)。請問(wèn)這些研究智能搜索方向的人除了到這些巨頭公司工作以外,還有沒(méi)有更好的出路?裴?。核阉魅栽诓粩嗟貏?chuàng )新,現在所有商用搜索引擎最頭疼的事情是越來(lái)越多的高質(zhì)量信息不在公開(kāi)的互聯(lián)網(wǎng)上,而在相對封閉的社交媒體上。
  例如說(shuō)在朋友圈有很多質(zhì)量高的信息源,但這種信息源是通用搜索引擎查不到的。怎樣把這些信息源整合起來(lái)形成一種更強大的搜索能力?這是一個(gè)有意思的研究方向?,F在很多的搜索跟廣告、商業(yè)模式結合起來(lái),是商業(yè)驅動(dòng)、利潤引導。最近原谷歌的兩位高管創(chuàng )辦了一個(gè)新公司,這個(gè)公司做的搜索引擎Neeva號稱(chēng)不會(huì )有廣告,而且要打通一些社交媒體,使得搜索的面更廣。這些新業(yè)務(wù)模式不管成功與否都是非常有意義的嘗試。智能搜索從就業(yè)、創(chuàng )業(yè)的角度來(lái)說(shuō)有很廣闊的前景。同時(shí)智能搜索會(huì )涉及到我們生活中的方方面面,例如說(shuō)在IOT環(huán)境下怎么做智能搜索?這些都是現有的面向通用web搜索所不能涵蓋的,也會(huì )是很有意思的方面。文繼榮:現在搜索引擎不管從主要的核心功能還是到形態(tài)上已經(jīng)幾十年沒(méi)有變化了,實(shí)際上現在很多東西都在變,比如說(shuō)裴老師講的熱情經(jīng)濟,還有國內的一個(gè)網(wǎng)紅經(jīng)濟,現在都是影響非常大的。我昨天看了一個(gè)新聞?wù)f(shuō)的非常好玩,浙江余姚區網(wǎng)紅可以評為國家級創(chuàng )新人才,不知道真的假的。實(shí)際上這個(gè)世界在飛速的變化,可能很多時(shí)候你認為沒(méi)有變化空間的時(shí)候就是會(huì )開(kāi)始很大變化的時(shí)期。就搜索來(lái)說(shuō),我覺(jué)得就直觀(guān)感受而言還遠遠達不到我們真正想要了解的世界。這次新冠病毒期間,我覺(jué)得甚至可以開(kāi)一個(gè)研討會(huì )來(lái)討論一下這中間的很多問(wèn)題,人們在獲取信息時(shí)出現了很多問(wèn)題,有虛假信息問(wèn)題也有信息多樣性問(wèn)題。這些信息對大家的影響是巨大的,你可以經(jīng)常感覺(jué)到整個(gè)朋友圈都在轉發(fā)和討論一個(gè)信息。尤其大家在家里沒(méi)辦法面對面交談,你可以通過(guò)控制信息來(lái)控制大家的觀(guān)點(diǎn)和情緒,這個(gè)事情我覺(jué)得是非常重要的。我們人類(lèi)將來(lái)會(huì )走向更加數字化的階段,從搜索和推薦的角度對信息進(jìn)行獲取和處理,我覺(jué)得我們到了一個(gè)全新的時(shí)期,我們需要去探索。
   查看全部

  裴?。核阉鹘灾悄?,智能皆搜索
  
  作者 | 陳大鑫
  編輯 | 叢 末
  6月23日,加拿大西門(mén)菲莎大學(xué)教授裴健在第二屆北京智源大會(huì )上做了《智能搜索:從工具到思維方式和心智》的報告。
  
  裴老師最近當選為加拿大工程院院士,現在是加拿大皇家科學(xué)院和加拿大工程院的兩院院士。裴老師是國際著(zhù)名的數據科學(xué)、數據挖掘和數據管理專(zhuān)家,專(zhuān)長(cháng)于通過(guò)數據戰略制定、數據資產(chǎn)管理、數據資源整合和數據產(chǎn)品設計研發(fā)把數據和技術(shù)轉化為業(yè)務(wù)能力和效益。他同時(shí)是多家企業(yè)的顧問(wèn),提供高端戰略咨詢(xún)和技術(shù)咨詢(xún)服務(wù)。其論著(zhù)被引用九萬(wàn)七千多次。有關(guān)裴健老師的更多獨家信息,請移步 一文。北京智源大會(huì )是智源研究院主辦的年度國際性人工智能高端學(xué)術(shù)交流活動(dòng),2019年舉辦了首屆大會(huì ),今年為第二屆。大會(huì )參會(huì )官網(wǎng):。裴健老師在這次的演講中提出了三個(gè)核心觀(guān)點(diǎn):第一,搜索皆智能,搜索以人為核心,以滿(mǎn)足人的信息需求為目的,所以它天然就包含了智能成分。第二,智能皆搜索,我們要做到智能必須要用到搜索的方法,目前人工智能的很多應用都是搜索任務(wù),智能和搜索同行。第三,智能搜索不僅是一個(gè)單純的技術(shù)問(wèn)題,更是一個(gè)與人相關(guān)的問(wèn)題,我們必須要一起努力,使得每個(gè)人都不會(huì )被落下,讓智能搜索服務(wù)全人類(lèi)。在演講最后,中國人民大學(xué)教授、智源首席科學(xué)家文繼榮與裴健老師進(jìn)行了精彩的問(wèn)答互動(dòng):智能搜索和智能推薦可能比我們想象中更深刻地影響到我們每天的生活,比如你有一個(gè)問(wèn)題,你的第一反應是不是去搜一下?或者說(shuō)你想獲取什么信息,你會(huì )第一時(shí)間打開(kāi)如頭條、微博、知乎這樣的一些APP,然后去看它給你推薦了一些什么?做搜索、推薦、數據分析的人責任是非常重大的,如果這方面做得不好,在極端情況下就有可能改變我們下一代甚至改變人類(lèi)的思維方式,改變我們對世界的看法,因為一個(gè)人對整個(gè)世界的看法更多地是由他接收到的信息、他的經(jīng)歷所塑造的。
  如果我們的信息推送和用戶(hù)檢索到的信息是有問(wèn)題的,比如剛剛提到的信息是有偏見(jiàn)的,比如我看什么就給我推薦什么,那我就進(jìn)入了信息減法的世界,我可能會(huì )失去了解這個(gè)世界的更多可能性。通過(guò)這次精彩的演講和問(wèn)答互動(dòng),我們可以從智能推薦或者個(gè)性化推薦等技術(shù)中看到一些人文關(guān)懷和哲學(xué)反思。人文關(guān)懷:老人會(huì )不會(huì )因為不會(huì )用智能手機、不會(huì )用電腦而享受不了智能搜索帶來(lái)的紅利?比如說(shuō)殘疾人和在偏遠地區、經(jīng)濟不發(fā)達地區的人會(huì )不會(huì )因為達不到智能搜索的入門(mén)門(mén)檻而被慢慢拋棄?我們應該如何解決這些問(wèn)題?哲學(xué)反思:隨著(zhù)我們越來(lái)越依靠智能搜索、個(gè)性化推薦,我們是否會(huì )失去了解這個(gè)世界的更多可能性?我們是否會(huì )失去一部分原有的“自由意志”?究竟是我們馴化了這個(gè)信息流世界還是被其馴化?以下為裴健演講正文:今天我報告的題目是智能搜索:從技術(shù)工具到思維心智。首先,讓我們來(lái)簡(jiǎn)單回顧一下搜索的基本概念。在搜索當中,我們假定用戶(hù)有信息需求。用戶(hù)的信息需求往往不能直接被搜索系統直接理解,于是用戶(hù)把信息需求轉化為搜索系統的查詢(xún)。搜索系統得到用戶(hù)的查詢(xún),找到相應的結果,可能是一些文檔、圖片、圖像或者是生成的內容,返回給用戶(hù)。用戶(hù)可以根據這些是否是所需要的,產(chǎn)生相應的反饋,搜索系統根據用戶(hù)的反饋來(lái)決定是否需要去對搜索進(jìn)行增強。這樣一個(gè)過(guò)程不斷循環(huán),直到用戶(hù)信息需求得到了滿(mǎn)足,整個(gè)搜索過(guò)程就結束了。
  
  這個(gè)過(guò)程聽(tīng)起來(lái)非常得完美,很簡(jiǎn)潔。但在實(shí)際當中,搜索并不是那么簡(jiǎn)單,要比這個(gè)復雜得多。
  1
  搜索皆智能在實(shí)際生活當中,“用戶(hù)信息需求是固定的”這個(gè)假設命題其實(shí)是個(gè)偽命題。在很多情況下,用戶(hù)的信息需求不斷變化。更麻煩的是,用戶(hù)本身可能并不清楚自己的信息需求到底是什么。舉個(gè)例子來(lái)說(shuō),比如我聽(tīng)說(shuō)某個(gè)小區有新型肺炎的新感染案例,發(fā)出一個(gè)“新冠肺炎感染病例”的查詢(xún),那么這個(gè)查詢(xún)到底是想問(wèn)什么呢?用戶(hù)自己可能并不清楚,在很多時(shí)候用戶(hù)可能是發(fā)出一個(gè)查詢(xún)先問(wèn)一下,看搜索引擎給返回什么樣的信息。用戶(hù)和搜索引擎的交互過(guò)程就是一個(gè)探索的過(guò)程,用戶(hù)的信息需求在不斷變化。在“新冠肺炎感染病例”的例子里,用戶(hù)可能想問(wèn)的是這個(gè)感染病例是不是得到了治療?感染病例的具體情況是怎樣的?看到搜索引擎的回答后,用戶(hù)可能馬上想到這個(gè)感染案例對小區的生活,如出行、購物等,有什么影響?大家可以看到信息需求是不斷變化的,我們在搜索過(guò)程中不能假定用戶(hù)的信息需求是不變的。信息系統必須想辦法去理解用戶(hù)的真實(shí)信息需求,為用戶(hù)提供探索的工具。因此,搜索本身從一開(kāi)始就是智能的,因為它把人擺在了整個(gè)過(guò)程的中心。
  
  下面舉個(gè)例子來(lái)講一下搜索過(guò)程為什么是一個(gè)探索的過(guò)程。在VLDB-2019的會(huì )議上,我的研究小組發(fā)表了一篇社團搜索的文章。和很多已有的社團搜索工作不太一樣,我們假定在每一個(gè)網(wǎng)絡(luò )節點(diǎn)上都有一個(gè)數據庫。如果這個(gè)網(wǎng)絡(luò )結點(diǎn)是一個(gè)人,那么這個(gè)數據庫就可以是這個(gè)人以往購買(mǎi)東西的整個(gè)歷史。如果這個(gè)網(wǎng)絡(luò )結點(diǎn)是一個(gè)論文作者,那這個(gè)數據庫就是他以前發(fā)表的所有論文的集合。我們關(guān)心在這樣一個(gè)網(wǎng)絡(luò )里面怎樣找到社團?
  
  我們希望社團內成員之間不但有很密切的網(wǎng)絡(luò )連接關(guān)系,還能在數據庫上又有非常相似的模式。這樣社團有什么用呢?舉例來(lái)說(shuō),在論文作者的數據網(wǎng)絡(luò )上,用戶(hù)可能關(guān)心的是能不能找到那些用數據挖掘方法來(lái)研究人臉識別和圖象檢索的社團?我們的搜索首先形成了一個(gè)查詢(xún)模式a1。
  
  同時(shí),我們的搜索算法還能夠提供針對a1的各種細化,比如b1、b2、直到b8。在這些細化當中我們會(huì )專(zhuān)門(mén)看各個(gè)具體的分支,包括算法具體分支和問(wèn)題具體分支。這些分支給用戶(hù)帶來(lái)探索方向和探索方便。這種探索可以進(jìn)一步往下走。比如說(shuō)b8可以進(jìn)一步探索到c1、c2兩種具體的情況。整個(gè)過(guò)程是一個(gè)不斷深入、不斷嘗試、不斷修正的探索過(guò)程。
  2
  智能皆搜索搜索皆智能,搜索要用到大量的人工智能技術(shù),所以我們要通過(guò)人工智能技術(shù)去理解用戶(hù)的信息需求。同時(shí),智能很復雜,智能的每一個(gè)任務(wù)都需要多多少少用到搜索技術(shù)。什么是智能?智能是關(guān)于連接的,我們需要把不同的數據、不同的知識點(diǎn)連接起來(lái);智能是關(guān)于推理的,我們需要對數據、對知識進(jìn)行相應的推理;智能是關(guān)于泛化的,我們有具體的觀(guān)察,我們希望通過(guò)若干具體的觀(guān)察、具體的例子來(lái)泛化來(lái)概括成通用的規律;智能還需要去做具體化,我們有一些通用的原則,要把它用到具體的事例里面,提高具體事例處理的效率和效果。所有這些都需要搜索相應的數據,搜索相應的知識,搜索相應的連接。所以智能皆搜索,智能離不開(kāi)搜索,智能必須通過(guò)搜索來(lái)實(shí)現。
  
  下面舉個(gè)一個(gè)我們KDD 2016論文中的例子來(lái)介紹我們怎么通過(guò)搜索來(lái)達到知識發(fā)現。我們可以在WordNet的網(wǎng)絡(luò )上面找到很有意思的一些社團,每一個(gè)社團內部非常相似,社團成員之間有很強的關(guān)聯(lián),同時(shí),社團之間非常對立,有非常大的差異。
  
  當我們把這個(gè)問(wèn)題用在形容詞網(wǎng)絡(luò )里面,我們就找到了大家在膠片上看到的Group1和Group2這樣對立的社團,所以我們把它叫做gangs in war。大家仔細看,每一個(gè)社團內部是一組同義組,Group1和Group2之間是反義詞關(guān)系。我們用智能搜索帶給我們新知識,我們可以在詞的網(wǎng)絡(luò )上自動(dòng)發(fā)現同義詞和反義詞。
  
  剛才我們講了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者緊密結合,搜索和智能同行。這里包括兩個(gè)意思,第一,我們需要用搜索的技術(shù)來(lái)達到更好的人工智能。像我剛才舉的例子,我們可以通過(guò)很好的搜索來(lái)自動(dòng)的發(fā)現知識,同時(shí)我們需要用很多的智能技術(shù)和計算來(lái)使得搜索更加有效。這里的智能不單單只是人工智能,還包括了很多真正的人的智能,因為我們最終的搜索是為人服務(wù)的。
  
  這里舉一個(gè)例子,這是我們最近剛剛完成的一個(gè)論文,我們研究的是基于Web-scale的多語(yǔ)言問(wèn)答系統。問(wèn)答系統有很多,在很多商用的搜索引擎里面都有相應的問(wèn)答功能。當一個(gè)用戶(hù)給出一個(gè)問(wèn)題,例如說(shuō)想知道感冒癥狀,搜索引擎可以總結出像下圖左邊的信息卡,這個(gè)信息卡上會(huì )列出相應的感冒的癥狀甚至是治療的方法。這給用戶(hù)帶來(lái)了很多的便利,在一定程度上這也是對知識的抽取和總結。
  
  當搜索引擎給出這樣一個(gè)答案時(shí),這個(gè)答案是否滿(mǎn)足了用戶(hù)的信息需求?這個(gè)答案的知識是否正確?是否有用?我們希望能夠得到用戶(hù)的反饋,我們希望用戶(hù)用人的智能來(lái)幫助機器進(jìn)行學(xué)習。這里有一個(gè)挑戰。很多情況下,用戶(hù)看過(guò)答案但并不一定給出一個(gè)顯式的反饋,理解人的反饋是一個(gè)非常復雜的過(guò)程。在這篇論文里面,我們系統地研究了如何觀(guān)察、推理用戶(hù)對搜索引擎所給出的問(wèn)答信息的反饋,如何對用戶(hù)的行為進(jìn)行挖掘,抽取相應的反饋信號,用這些信號來(lái)改進(jìn)我們的QA系統。
  
  上圖是在一個(gè)全球化商業(yè)搜索引擎數據集上面所做的實(shí)驗結果。當我們的系統考慮了用戶(hù)真正的已知反饋之后,整個(gè)搜索效果比不用這個(gè)反饋的系統好得多。同時(shí),我們可以看到一個(gè)非常有意思的現象:這種智能搜索所發(fā)現的知識可以在不同的領(lǐng)域進(jìn)行遷移。
  
  舉個(gè)例子來(lái)說(shuō),在整個(gè)模型建立的過(guò)程中,我們用的是英語(yǔ)數據,在英語(yǔ)數據里面,我們抽取了相應的問(wèn)答和相應的用戶(hù)反饋。英語(yǔ)里發(fā)現的知識完全是可以往別的語(yǔ)言遷移,如德語(yǔ)和法語(yǔ)。遷移的效果很好,在法語(yǔ)的數據集上面我們用了很少的大概5K的數據就能夠達到如果沒(méi)有跨語(yǔ)言的遷移、沒(méi)有反饋的時(shí)候需要用50K的數據才能達到的效果。也就是說(shuō),通過(guò)應用用戶(hù)的反饋,我們能夠大大減少相應的數據需求,我們的確可以通過(guò)智能化的方法理解用戶(hù),并讓用戶(hù)把人類(lèi)智能來(lái)幫助我們的機器。我們的技術(shù)已經(jīng)在一個(gè)大型商用搜索引擎的多語(yǔ)言服務(wù)中上線(xiàn)應用。
  3
  智能搜索,與人相關(guān)因為搜索的主體是人,所以搜索并不簡(jiǎn)單是一個(gè)技術(shù)問(wèn)題。最近在《紐約時(shí)報》有一篇很好的文章,題目就是Tech is global. right?:技術(shù)是全球化的,對嗎?對,技術(shù)是全球化的。
  
  這篇文章談到了很多先進(jìn)的美國企業(yè)把相應的技術(shù)和平臺用到別的國家和地區效果不好。這里面涉及到很多因素,特別是很多與人有關(guān)的因素,例如說(shuō)本地化、可理解性、文化、公平性、隱私保護、模型的復雜性、安全性等等。如果我們要把智能搜索做好,就必須密切考慮人的因素。其中,深度學(xué)習模型的復雜性是一個(gè)重要的因素。我們最近剛剛完成了一篇KDD2020的論文在這方面做了一些探索。模型復雜性本身是一個(gè)很復雜的問(wèn)題。在很多場(chǎng)合下,人們可能只是簡(jiǎn)單地比較兩個(gè)模型之間的準確度或者別的一些性能指標,但哪怕兩個(gè)模型的性能在測試集上是完全一樣的,并不意味著(zhù)這兩個(gè)模型的本質(zhì)是一樣的,也不意味著(zhù)它們捕捉了同樣的客觀(guān)現實(shí)。
  
  舉個(gè)具體例子,上圖這兩個(gè)模型在相應的數據點(diǎn)上是完全一致的,但是這兩個(gè)模型其實(shí)差得非常遠。因此我們需要有一個(gè)系統的方法來(lái)衡量模型的復雜度、來(lái)衡量模型到底有沒(méi)有對數據過(guò)擬合。我們的KDD2020上的論文就在這方面給出了一些新的方法。與模型和搜索方法很相關(guān)的另外一個(gè)問(wèn)題是可解釋性,一個(gè)模型要獲得大家的信任,它必須有良好的可解釋性。我們認為,模型的可解釋性一定要滿(mǎn)足兩個(gè)原則。第一是準確性:如果我用一個(gè)模型來(lái)解釋另外一個(gè)模型,那這兩個(gè)模型必須在數學(xué)上等價(jià)。如果不等價(jià),解釋就可能會(huì )有問(wèn)題。第二,模型的解釋必須是一致的。一致是什么意思呢?如果我有兩個(gè)非常相似的樣例,它們相應的解釋也應該非常相似,這才能夠符合人的直覺(jué)??山忉屝詥?wèn)題的核心是把一個(gè)黑盒子轉化為一個(gè)白盒子。
  
  我們KDD2018的論文通過(guò)把一個(gè)深度網(wǎng)絡(luò )轉化為一個(gè)基于內部神經(jīng)元狀態(tài)的向量,給出基于多胞體(polytope)的解釋。這樣所得到的解釋是精確的:從數學(xué)上解釋的模型和原來(lái)的深度網(wǎng)絡(luò )等價(jià)。同時(shí),解釋也是是一致的:如果兩個(gè)點(diǎn)很相近,它們落在同一個(gè)多胞體里面,它們就會(huì )遵從相應的相同的線(xiàn)性分類(lèi)器,所以它們的相應解釋也會(huì )是一樣的。
  
  在今年的ICDE論文中,我們把解釋模型推到了云端。以往的解釋工具往往需要知道整個(gè)模型的參數,甚至要知道相應的很多訓練數據。在今年的ICDE論文里,我們提出可以把整個(gè)模型作為一個(gè)黑盒,然后給出準確和一致的解釋?zhuān)恍枰滥P偷膮岛陀柧殧祿?。這里核心的想法是:如果我們有若干的樣例,這些樣例落在同一個(gè)多胞體里面,它們就應該遵循同一個(gè)線(xiàn)性分類(lèi)器,于是我們可以建造一個(gè)線(xiàn)性方程式系統,用此來(lái)為我們提供相應的解釋。關(guān)于怎么樣把智能搜索做好,我們講了很多。但是我們應該要充分認識到一點(diǎn),智能搜索也在不斷地改變我們的心智。
  
  在國外大家經(jīng)常說(shuō)這句話(huà):如果你遇到一個(gè)不了解的事情怎么辦?用搜索引擎查一下(google it)。在國內也有俗語(yǔ)叫:內事問(wèn)度娘,外事問(wèn)谷歌。搜索的過(guò)程和結果很深刻地改變了人類(lèi)的思維和學(xué)習方式。在某些方面搜索拓寬了我們獲取信息的渠道和速度,使得我們更聰明。但在另一些方面,我們可能會(huì )過(guò)度依賴(lài)智能搜索,在很多地方會(huì )變得笨了。這里,信息的準確性和公平性變得非常重要。在這次的疫情當中,我們都知道虛假信息是非常嚴重的一個(gè)問(wèn)題。很多小道消息、虛假消息通過(guò)社交媒體傳播產(chǎn)生了很壞的作用。最近推特干了一件很有意思的事情,他們用了一個(gè)簡(jiǎn)單聰明的辦法來(lái)對付虛假消息。他們觀(guān)測到有很多人在社交媒體里面看到一個(gè)有意思的標題就轉發(fā)了,但并沒(méi)有看過(guò)那個(gè)文章。于是推特在你轉發(fā)一個(gè)沒(méi)有看過(guò)內容的推特時(shí),提示用戶(hù)其實(shí)沒(méi)有看過(guò)這篇文章。這個(gè)提示對于降低虛假消息的傳播會(huì )有很大的幫助。但是這種幫助是有代價(jià)的,它需要我們犧牲一定的隱私。推特需要知道你看過(guò)什么才知道你有沒(méi)有看過(guò)自己轉發(fā)的東西。這里有一個(gè)挑戰性的均衡:我們到底需要保留什么樣的隱私,怎么樣制止虛假消息的傳播。
  
  我們知道抖音在國內外都非常成功,已經(jīng)出現了一代新的人類(lèi)叫作Tik TOK Generation。它們通過(guò)智能的搜索和推薦技術(shù)把人與人連接起來(lái),把內容和內容連接起來(lái)。在內容創(chuàng )造上Tik TOK Generation以及這類(lèi)新媒體有一些重要的特點(diǎn)。其中之一就是媒體內容本身不是那么重要,反而對媒體的評論和媒體的跟進(jìn)會(huì )更重要。大家經(jīng)常跑到很多新媒體上并不是看它真正的內容,而是看后面跟著(zhù)的評論。由于智能搜索和智能推薦技術(shù)的發(fā)展使得人與人之間的連接、內容與內容之間的連接、人與內容之間的連接更加容易、更加廣泛。很多人原來(lái)并不需要互相認識,但是通過(guò)這個(gè)智能搜索和智能推薦他們會(huì )聯(lián)系在一起,形成長(cháng)期的交互,這就導致了我們現在面臨著(zhù)新一代所謂的熱情經(jīng)濟。
  
  跟傳統的零工經(jīng)濟經(jīng)濟相比,熱情經(jīng)濟有一系列新特點(diǎn)。舉例來(lái)說(shuō),熱情經(jīng)濟從業(yè)者不斷地產(chǎn)生新內容,不斷地吸引更多的觀(guān)眾獲得相應的營(yíng)收,這是以往很多經(jīng)濟模式不具備的。同時(shí)由于智能搜索、智能推薦和平臺的連接作用使受眾面會(huì )大大提高,更多有創(chuàng )意的產(chǎn)品和服務(wù)可以以更低的成本推向服務(wù)市場(chǎng),這些也給我們帶來(lái)很多新機會(huì )和新挑戰。熱情經(jīng)濟完全是基于新的技術(shù)、新的軟件、新的媒體。智能搜索是熱情經(jīng)濟的核心技術(shù),通過(guò)技術(shù)的進(jìn)步使得平臺更加有效、內容開(kāi)發(fā)更加方便、創(chuàng )業(yè)更加快捷、創(chuàng )業(yè)者和受眾的聯(lián)系更加緊密、交互更加方便。智能搜索徹底改變了我們的生活??梢哉f(shuō)智能搜索已經(jīng)變成了我們無(wú)時(shí)無(wú)刻、無(wú)處不在的需求和工具。智能搜索同時(shí)也會(huì )產(chǎn)生很多新的挑戰。其中一個(gè)核心的挑戰是我們怎么確保智能搜索服務(wù)于社會(huì )的每一個(gè)人,沒(méi)有人因為各種限制而被智能搜索遺棄。
  
  舉個(gè)例子來(lái)說(shuō),老人們會(huì )不會(huì )因為不會(huì )用智能手機而享受不了智能搜索帶來(lái)的紅利?又比如說(shuō),殘疾人、偏遠地區和經(jīng)濟不發(fā)達地區的人們會(huì )不會(huì )因為達不到智能搜索的基礎設施入門(mén)門(mén)檻而被拋棄?這些都是我們需要考慮的問(wèn)題。我們都知道現在醫院掛號經(jīng)常需要用智能手機來(lái)預約,但是很多老人,特別是那些七八十歲、八九十歲的老人,并不會(huì )使用智能手機,用起來(lái)也很不方便。他們怎么才能獲得信息渠道并消費這些信息?這些都是我們做智能搜索的人需要認真考慮和抓緊行動(dòng)的方向。我個(gè)人認為智能搜索遠遠不僅僅是一個(gè)技術(shù)問(wèn)題,也遠遠不僅僅是一個(gè)人工智能的問(wèn)題,它是一個(gè)非常復雜的全社會(huì )的系統工程。
  問(wèn)答環(huán)節 文繼榮:對智能搜索和智能推薦來(lái)說(shuō),所謂的智能就是越來(lái)越了解你,以人為中心來(lái)了解你,它給你的信息越來(lái)越趨近于你過(guò)去的興趣和經(jīng)歷,但是這樣會(huì )不會(huì )使你失去了解這個(gè)世界多樣性的可能?在整個(gè)大的框架方面或者在整個(gè)研究方向上面,有沒(méi)有更多的深刻思考?裴?。褐悄芩阉骰?、智能推薦已經(jīng)成為下一代人類(lèi)重要的信息入口,也是非常重要的信息出口。只能搜索把握了這一進(jìn)一出,對未來(lái)的人類(lèi)有很大的塑造能力。這也許是大家做技術(shù)的時(shí)候并沒(méi)有特別深思的一個(gè)問(wèn)題。我們一點(diǎn)一滴的技術(shù)貢獻會(huì )怎樣改變未來(lái)人類(lèi)學(xué)習的方式、思考的方式和所知所行。這里面涉及很多問(wèn)題。例如說(shuō)我們可以通過(guò)可適應性使得我們的教育效率提高,使得一個(gè)人更容易學(xué)習。但是可適應性在一定程度下又可能有缺陷。我們如果過(guò)分遷就人類(lèi)的惰性,就可能會(huì )使一部分最聰明的人失去了挑戰更高高度的機會(huì )。再例如,到底讓智能搜索受眾學(xué)什么?怎么保證整個(gè)環(huán)境公平性?大家開(kāi)始去思考,但是遠遠沒(méi)有答案。我在演講的最后也強調了這不是簡(jiǎn)單的技術(shù)問(wèn)題,這是全社會(huì )的很復雜的問(wèn)題。觀(guān)眾發(fā)問(wèn):感覺(jué)像谷歌、百度這些巨頭已經(jīng)形成了壟斷,其它的搜索引擎或者其它的新的搜索工具經(jīng)歷了多年都沒(méi)有成長(cháng)起來(lái)。請問(wèn)這些研究智能搜索方向的人除了到這些巨頭公司工作以外,還有沒(méi)有更好的出路?裴?。核阉魅栽诓粩嗟貏?chuàng )新,現在所有商用搜索引擎最頭疼的事情是越來(lái)越多的高質(zhì)量信息不在公開(kāi)的互聯(lián)網(wǎng)上,而在相對封閉的社交媒體上。
  例如說(shuō)在朋友圈有很多質(zhì)量高的信息源,但這種信息源是通用搜索引擎查不到的。怎樣把這些信息源整合起來(lái)形成一種更強大的搜索能力?這是一個(gè)有意思的研究方向?,F在很多的搜索跟廣告、商業(yè)模式結合起來(lái),是商業(yè)驅動(dòng)、利潤引導。最近原谷歌的兩位高管創(chuàng )辦了一個(gè)新公司,這個(gè)公司做的搜索引擎Neeva號稱(chēng)不會(huì )有廣告,而且要打通一些社交媒體,使得搜索的面更廣。這些新業(yè)務(wù)模式不管成功與否都是非常有意義的嘗試。智能搜索從就業(yè)、創(chuàng )業(yè)的角度來(lái)說(shuō)有很廣闊的前景。同時(shí)智能搜索會(huì )涉及到我們生活中的方方面面,例如說(shuō)在IOT環(huán)境下怎么做智能搜索?這些都是現有的面向通用web搜索所不能涵蓋的,也會(huì )是很有意思的方面。文繼榮:現在搜索引擎不管從主要的核心功能還是到形態(tài)上已經(jīng)幾十年沒(méi)有變化了,實(shí)際上現在很多東西都在變,比如說(shuō)裴老師講的熱情經(jīng)濟,還有國內的一個(gè)網(wǎng)紅經(jīng)濟,現在都是影響非常大的。我昨天看了一個(gè)新聞?wù)f(shuō)的非常好玩,浙江余姚區網(wǎng)紅可以評為國家級創(chuàng )新人才,不知道真的假的。實(shí)際上這個(gè)世界在飛速的變化,可能很多時(shí)候你認為沒(méi)有變化空間的時(shí)候就是會(huì )開(kāi)始很大變化的時(shí)期。就搜索來(lái)說(shuō),我覺(jué)得就直觀(guān)感受而言還遠遠達不到我們真正想要了解的世界。這次新冠病毒期間,我覺(jué)得甚至可以開(kāi)一個(gè)研討會(huì )來(lái)討論一下這中間的很多問(wèn)題,人們在獲取信息時(shí)出現了很多問(wèn)題,有虛假信息問(wèn)題也有信息多樣性問(wèn)題。這些信息對大家的影響是巨大的,你可以經(jīng)常感覺(jué)到整個(gè)朋友圈都在轉發(fā)和討論一個(gè)信息。尤其大家在家里沒(méi)辦法面對面交談,你可以通過(guò)控制信息來(lái)控制大家的觀(guān)點(diǎn)和情緒,這個(gè)事情我覺(jué)得是非常重要的。我們人類(lèi)將來(lái)會(huì )走向更加數字化的階段,從搜索和推薦的角度對信息進(jìn)行獲取和處理,我覺(jué)得我們到了一個(gè)全新的時(shí)期,我們需要去探索。
  

直通車(chē)推廣精準人群組合這些點(diǎn)一起介紹一下

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 111 次瀏覽 ? 2022-06-05 00:01 ? 來(lái)自相關(guān)話(huà)題

  直通車(chē)推廣精準人群組合這些點(diǎn)一起介紹一下
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同天貓和京東平臺直通車(chē)/鉆展/直通車(chē)推廣精準人群組合這些點(diǎn)一起介紹一下國內的一些直通車(chē)推廣渠道:廣告最大的特點(diǎn)是,流量獲取的對象比較單一,更多是廣告位,展示次數/個(gè)數、廣告位競價(jià)等,其次是轉化率。站外廣告渠道:百度信息流、頭條信息流、站外扶持廣告。站內廣告渠道:除了公域流量,廣告主主要需要的是靠站內的自然搜索來(lái)提升流量。
  站外推廣渠道:線(xiàn)下廣告和戶(hù)外。廣告優(yōu)化:在具體賬戶(hù)建設過(guò)程中,出價(jià)策略和素材選擇是可以根據不同市場(chǎng)進(jìn)行區分。直通車(chē)推廣優(yōu)化是基于數據分析進(jìn)行操作和優(yōu)化,以ppc最小精準人群來(lái)實(shí)現所在賬戶(hù)的最佳定位。策略是在整個(gè)過(guò)程中最具操作性的方面,策略既可以短期通過(guò)行業(yè)預估和實(shí)際效果的對比,進(jìn)行分析,優(yōu)化人群,也可以長(cháng)期全面優(yōu)化。
  如人群偏好,價(jià)格預估,興趣點(diǎn),創(chuàng )意點(diǎn)擊率轉化率等。廣告渠道淘寶平臺:搜索渠道,女裝、男裝、包包、女包、包包、男包、鞋、包、筆記本等。其他行業(yè)也可作為一個(gè)參考。信息流渠道:百家號,東方頭條,優(yōu)看電商,斗魚(yú),游族網(wǎng)等等。百度信息流:北京大學(xué)清華大學(xué)上海交通大學(xué)浙江大學(xué)北京航空航天大學(xué)等985高校和普通高校等。
  頭條信息流:當前主要以生活娛樂(lè )場(chǎng)景為主。同時(shí)作為廣告主打的信息流可以投放醫療相關(guān),社保相關(guān)等。廣告渠道是非常多的,為什么我們不將這些渠道優(yōu)化分開(kāi),綜合推廣,例如一套賬戶(hù)下有主推產(chǎn)品有廣告優(yōu)化人群,而有了產(chǎn)品、人群、素材,不僅可以操作全類(lèi)目,也可以操作針對性強的投放渠道,全面,系統,高效的為廣告主打造產(chǎn)品和整體賬戶(hù)打造品牌效應。ppc推廣渠道內容出價(jià)優(yōu)化(。
  一)計算廣告推廣渠道測試
  1、哪些行業(yè)可以放大推廣力度?比如男裝很多小類(lèi)目可以少量放大點(diǎn)擊數和點(diǎn)擊率,但是北上廣有幾百萬(wàn)件上千萬(wàn)件的客戶(hù)群體,那單點(diǎn)投放就是幾百萬(wàn)個(gè)億,如果少量放大就可以超過(guò)幾百萬(wàn)個(gè)億的數量級。
  2、不同行業(yè)怎么計算cpc?非地域型地域類(lèi)推廣,同一類(lèi)投放同一產(chǎn)品可以同一行業(yè)投放這樣的投放方式。其次是由于產(chǎn)品和地域定位有異,比如3c的產(chǎn)品可以放大點(diǎn)擊率和轉化率等,地域類(lèi)的產(chǎn)品或者潛在用戶(hù)定位城市,那么同一地域相同行業(yè)投放定位城市,都會(huì )覺(jué)得cpc比較高。地域類(lèi)可以理解為雙定位,一定產(chǎn)品或者某一段區域投放相同產(chǎn)品比如一個(gè)城市定位1萬(wàn),另一個(gè)城市定位1萬(wàn)5,而定位一個(gè)城市1萬(wàn)5和定位某個(gè)城市1萬(wàn)5的cpc就相當了。不同定位,需要投放的cpc有差異。另外不同類(lèi)型推廣在同一城市或者異地不同定位,cpc有相差很大的。 查看全部

  直通車(chē)推廣精準人群組合這些點(diǎn)一起介紹一下
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同天貓和京東平臺直通車(chē)/鉆展/直通車(chē)推廣精準人群組合這些點(diǎn)一起介紹一下國內的一些直通車(chē)推廣渠道:廣告最大的特點(diǎn)是,流量獲取的對象比較單一,更多是廣告位,展示次數/個(gè)數、廣告位競價(jià)等,其次是轉化率。站外廣告渠道:百度信息流、頭條信息流、站外扶持廣告。站內廣告渠道:除了公域流量,廣告主主要需要的是靠站內的自然搜索來(lái)提升流量。
  站外推廣渠道:線(xiàn)下廣告和戶(hù)外。廣告優(yōu)化:在具體賬戶(hù)建設過(guò)程中,出價(jià)策略和素材選擇是可以根據不同市場(chǎng)進(jìn)行區分。直通車(chē)推廣優(yōu)化是基于數據分析進(jìn)行操作和優(yōu)化,以ppc最小精準人群來(lái)實(shí)現所在賬戶(hù)的最佳定位。策略是在整個(gè)過(guò)程中最具操作性的方面,策略既可以短期通過(guò)行業(yè)預估和實(shí)際效果的對比,進(jìn)行分析,優(yōu)化人群,也可以長(cháng)期全面優(yōu)化。
  如人群偏好,價(jià)格預估,興趣點(diǎn),創(chuàng )意點(diǎn)擊率轉化率等。廣告渠道淘寶平臺:搜索渠道,女裝、男裝、包包、女包、包包、男包、鞋、包、筆記本等。其他行業(yè)也可作為一個(gè)參考。信息流渠道:百家號,東方頭條,優(yōu)看電商,斗魚(yú),游族網(wǎng)等等。百度信息流:北京大學(xué)清華大學(xué)上海交通大學(xué)浙江大學(xué)北京航空航天大學(xué)等985高校和普通高校等。
  頭條信息流:當前主要以生活娛樂(lè )場(chǎng)景為主。同時(shí)作為廣告主打的信息流可以投放醫療相關(guān),社保相關(guān)等。廣告渠道是非常多的,為什么我們不將這些渠道優(yōu)化分開(kāi),綜合推廣,例如一套賬戶(hù)下有主推產(chǎn)品有廣告優(yōu)化人群,而有了產(chǎn)品、人群、素材,不僅可以操作全類(lèi)目,也可以操作針對性強的投放渠道,全面,系統,高效的為廣告主打造產(chǎn)品和整體賬戶(hù)打造品牌效應。ppc推廣渠道內容出價(jià)優(yōu)化(。
  一)計算廣告推廣渠道測試
  1、哪些行業(yè)可以放大推廣力度?比如男裝很多小類(lèi)目可以少量放大點(diǎn)擊數和點(diǎn)擊率,但是北上廣有幾百萬(wàn)件上千萬(wàn)件的客戶(hù)群體,那單點(diǎn)投放就是幾百萬(wàn)個(gè)億,如果少量放大就可以超過(guò)幾百萬(wàn)個(gè)億的數量級。
  2、不同行業(yè)怎么計算cpc?非地域型地域類(lèi)推廣,同一類(lèi)投放同一產(chǎn)品可以同一行業(yè)投放這樣的投放方式。其次是由于產(chǎn)品和地域定位有異,比如3c的產(chǎn)品可以放大點(diǎn)擊率和轉化率等,地域類(lèi)的產(chǎn)品或者潛在用戶(hù)定位城市,那么同一地域相同行業(yè)投放定位城市,都會(huì )覺(jué)得cpc比較高。地域類(lèi)可以理解為雙定位,一定產(chǎn)品或者某一段區域投放相同產(chǎn)品比如一個(gè)城市定位1萬(wàn),另一個(gè)城市定位1萬(wàn)5,而定位一個(gè)城市1萬(wàn)5和定位某個(gè)城市1萬(wàn)5的cpc就相當了。不同定位,需要投放的cpc有差異。另外不同類(lèi)型推廣在同一城市或者異地不同定位,cpc有相差很大的。

整站優(yōu)化與SEO優(yōu)化有什么區別呢?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2022-05-14 19:37 ? 來(lái)自相關(guān)話(huà)題

  整站優(yōu)化與SEO優(yōu)化有什么區別呢?
  
  
  seo優(yōu)化和整站優(yōu)化的區別
  整站優(yōu)化與SEO優(yōu)化的區別有哪些??jì)?yōu)化網(wǎng)站seo的方法有很多,但是很多人會(huì )把整個(gè)網(wǎng)站優(yōu)化和關(guān)鍵詞優(yōu)化混在一起,但是優(yōu)化的方式完全不同。整站點(diǎn)優(yōu)化和關(guān)鍵詞優(yōu)化有關(guān)。兩者都是根據搜索引擎發(fā)布網(wǎng)站內容,推廣網(wǎng)站,實(shí)現用戶(hù)體驗,增加訪(fǎng)問(wèn)量和排名,但也有很大不同。
  關(guān)鍵詞優(yōu)化:主要是指為網(wǎng)站選擇合適的目標關(guān)鍵詞,然后對這些目標關(guān)鍵詞進(jìn)行排序和優(yōu)化。這個(gè)過(guò)程就是關(guān)鍵詞優(yōu)化,我們也可以把關(guān)鍵詞優(yōu)化定義為網(wǎng)站關(guān)鍵詞排序過(guò)程。
  全網(wǎng)站優(yōu)化:所謂全網(wǎng)站優(yōu)化是網(wǎng)站搜索引擎優(yōu)化(SEO)的高級應用,是更高層次的網(wǎng)站營(yíng)銷(xiāo)策略。全網(wǎng)站優(yōu)化服務(wù)并不是針對特定的關(guān)鍵詞,而是著(zhù)眼于增強網(wǎng)站搜索引擎的友好性。通過(guò)提高網(wǎng)站質(zhì)量,可以獲得更好的排名權重和搜索流量。
  
  1、查找引擎友好度
  整站優(yōu)化:通過(guò)批改不利于查找引擎的弊端要素以及對網(wǎng)站整體結構的調整來(lái)取得查找引擎的友好度;
  關(guān)鍵詞排名優(yōu)化:側重于網(wǎng)頁(yè)中關(guān)鍵詞堆砌與外部鏈接建造,不對網(wǎng)站結構與網(wǎng)站內部是否存在一些不利于查找引擎的要素進(jìn)行批改優(yōu)化;
  2、優(yōu)化辦法不同
  整站優(yōu)化:是通過(guò)對網(wǎng)站的整體優(yōu)化來(lái)達到前進(jìn)網(wǎng)站整體關(guān)鍵詞排名,包括搶手關(guān)鍵詞、產(chǎn)品關(guān)鍵詞以及更多長(cháng)尾詞的排名;
  關(guān)鍵詞排名優(yōu)化:依據客戶(hù)供給的少數幾個(gè)關(guān)鍵詞進(jìn)行優(yōu)化,通過(guò)批改登陸頁(yè)以及增加劇多外部鏈接來(lái)達到前進(jìn)關(guān)鍵詞排名;
  3、優(yōu)化效果不一樣
  整站優(yōu)化:更合適網(wǎng)站的可持續性展開(kāi),通過(guò)合理地優(yōu)化網(wǎng)站結構層次,利于網(wǎng)站辦理與用戶(hù)對網(wǎng)站的認知,而且整站優(yōu)化的效果是累積有用,是不斷地良性展開(kāi);
  關(guān)鍵詞排名優(yōu)化:只針對單個(gè)網(wǎng)站的批改優(yōu)化,優(yōu)化效果不能持續,一起存在必定的風(fēng)險性。
  4、查核辦法不同
  整站優(yōu)化:以前進(jìn)網(wǎng)站流量/轉化率等作為優(yōu)化效果的查核標準;
  關(guān)鍵詞排名優(yōu)化:以指定關(guān)鍵詞在查找引擎的排名作為查核標準;
  5、出資回報率不一樣
  整站優(yōu)化:是前進(jìn)網(wǎng)站整體關(guān)鍵詞排名效果,所吸引到的網(wǎng)站閱讀者更具有針對性,更利于效果轉化;
  關(guān)鍵詞排名優(yōu)化:只針對少數關(guān)鍵詞進(jìn)行優(yōu)化,所吸引到的網(wǎng)站閱讀者局限大,不利于效果轉化;
  其實(shí)從專(zhuān)業(yè)的角度而言,關(guān)鍵詞排名其實(shí)包含在整站優(yōu)化之中,關(guān)鍵詞所需要的優(yōu)化時(shí)間會(huì )比較短、見(jiàn)效快;而整站優(yōu)化則需要一個(gè)長(cháng)期持續的優(yōu)化時(shí)間,通過(guò)長(cháng)時(shí)間的積累,能更加穩定企業(yè)需求的營(yíng)銷(xiāo)效果。
  以上就是關(guān)于“整站優(yōu)化與SEO優(yōu)化的區別有哪些?”的相關(guān)內容,希望對您有幫助,若您對SEO感興趣,歡迎隨時(shí)咨詢(xún)我司。
  end 查看全部

  整站優(yōu)化與SEO優(yōu)化有什么區別呢?
  
  
  seo優(yōu)化和整站優(yōu)化的區別
  整站優(yōu)化與SEO優(yōu)化的區別有哪些??jì)?yōu)化網(wǎng)站seo的方法有很多,但是很多人會(huì )把整個(gè)網(wǎng)站優(yōu)化和關(guān)鍵詞優(yōu)化混在一起,但是優(yōu)化的方式完全不同。整站點(diǎn)優(yōu)化和關(guān)鍵詞優(yōu)化有關(guān)。兩者都是根據搜索引擎發(fā)布網(wǎng)站內容,推廣網(wǎng)站,實(shí)現用戶(hù)體驗,增加訪(fǎng)問(wèn)量和排名,但也有很大不同。
  關(guān)鍵詞優(yōu)化:主要是指為網(wǎng)站選擇合適的目標關(guān)鍵詞,然后對這些目標關(guān)鍵詞進(jìn)行排序和優(yōu)化。這個(gè)過(guò)程就是關(guān)鍵詞優(yōu)化,我們也可以把關(guān)鍵詞優(yōu)化定義為網(wǎng)站關(guān)鍵詞排序過(guò)程。
  全網(wǎng)站優(yōu)化:所謂全網(wǎng)站優(yōu)化是網(wǎng)站搜索引擎優(yōu)化(SEO)的高級應用,是更高層次的網(wǎng)站營(yíng)銷(xiāo)策略。全網(wǎng)站優(yōu)化服務(wù)并不是針對特定的關(guān)鍵詞,而是著(zhù)眼于增強網(wǎng)站搜索引擎的友好性。通過(guò)提高網(wǎng)站質(zhì)量,可以獲得更好的排名權重和搜索流量。
  
  1、查找引擎友好度
  整站優(yōu)化:通過(guò)批改不利于查找引擎的弊端要素以及對網(wǎng)站整體結構的調整來(lái)取得查找引擎的友好度;
  關(guān)鍵詞排名優(yōu)化:側重于網(wǎng)頁(yè)中關(guān)鍵詞堆砌與外部鏈接建造,不對網(wǎng)站結構與網(wǎng)站內部是否存在一些不利于查找引擎的要素進(jìn)行批改優(yōu)化;
  2、優(yōu)化辦法不同
  整站優(yōu)化:是通過(guò)對網(wǎng)站的整體優(yōu)化來(lái)達到前進(jìn)網(wǎng)站整體關(guān)鍵詞排名,包括搶手關(guān)鍵詞、產(chǎn)品關(guān)鍵詞以及更多長(cháng)尾詞的排名;
  關(guān)鍵詞排名優(yōu)化:依據客戶(hù)供給的少數幾個(gè)關(guān)鍵詞進(jìn)行優(yōu)化,通過(guò)批改登陸頁(yè)以及增加劇多外部鏈接來(lái)達到前進(jìn)關(guān)鍵詞排名;
  3、優(yōu)化效果不一樣
  整站優(yōu)化:更合適網(wǎng)站的可持續性展開(kāi),通過(guò)合理地優(yōu)化網(wǎng)站結構層次,利于網(wǎng)站辦理與用戶(hù)對網(wǎng)站的認知,而且整站優(yōu)化的效果是累積有用,是不斷地良性展開(kāi);
  關(guān)鍵詞排名優(yōu)化:只針對單個(gè)網(wǎng)站的批改優(yōu)化,優(yōu)化效果不能持續,一起存在必定的風(fēng)險性。
  4、查核辦法不同
  整站優(yōu)化:以前進(jìn)網(wǎng)站流量/轉化率等作為優(yōu)化效果的查核標準;
  關(guān)鍵詞排名優(yōu)化:以指定關(guān)鍵詞在查找引擎的排名作為查核標準;
  5、出資回報率不一樣
  整站優(yōu)化:是前進(jìn)網(wǎng)站整體關(guān)鍵詞排名效果,所吸引到的網(wǎng)站閱讀者更具有針對性,更利于效果轉化;
  關(guān)鍵詞排名優(yōu)化:只針對少數關(guān)鍵詞進(jìn)行優(yōu)化,所吸引到的網(wǎng)站閱讀者局限大,不利于效果轉化;
  其實(shí)從專(zhuān)業(yè)的角度而言,關(guān)鍵詞排名其實(shí)包含在整站優(yōu)化之中,關(guān)鍵詞所需要的優(yōu)化時(shí)間會(huì )比較短、見(jiàn)效快;而整站優(yōu)化則需要一個(gè)長(cháng)期持續的優(yōu)化時(shí)間,通過(guò)長(cháng)時(shí)間的積累,能更加穩定企業(yè)需求的營(yíng)銷(xiāo)效果。
  以上就是關(guān)于“整站優(yōu)化與SEO優(yōu)化的區別有哪些?”的相關(guān)內容,希望對您有幫助,若您對SEO感興趣,歡迎隨時(shí)咨詢(xún)我司。
  end

白帽、黑帽、灰帽SEO優(yōu)化的對比區別

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 85 次瀏覽 ? 2022-05-13 20:47 ? 來(lái)自相關(guān)話(huà)題

  白帽、黑帽、灰帽SEO優(yōu)化的對比區別
  
  點(diǎn)擊上方“輸贏(yíng)” →點(diǎn)擊右上角“...”
  →點(diǎn)選“設為星標★”為輸贏(yíng)加上星標。
  很多新人對于seo也許不是很了解,但在互聯(lián)網(wǎng)上seo卻處處可見(jiàn),我們平時(shí)瀏覽的新聞、視頻、網(wǎng)頁(yè)等等,都是與SEO技術(shù)有關(guān)的,很多大型的網(wǎng)站都有SEO技術(shù)人員,他們的目標就是為網(wǎng)站帶來(lái)流量和知名度,從而進(jìn)行變現。
  
  一、白帽SEO
  白帽SEO顧名思義就是一種公正的手法,是一種符合主流搜索引擎的思維方法,它與黑帽是相反的,白帽SEO一直被這個(gè)行業(yè)內認為是最好的SEO優(yōu)化手法,它采用符合主流的SEO思維,合理的去優(yōu)化網(wǎng)站,合理的與其他網(wǎng)站建立鏈接,提高用戶(hù)體驗。白帽SEO關(guān)注的是長(cháng)遠利益,一般通過(guò)這種方法提升的排名時(shí)間更長(cháng)、更穩定。
  二、黑帽SEO
  黑帽SEO說(shuō)白了就是使用一些搜索引擎禁止的方式,快速的增加網(wǎng)站的排名,它能夠在短期內提升你網(wǎng)站的排名,但是不夠穩定,隨時(shí)都可能因為搜索引擎算法的改變而面臨懲罰。
  一、白帽SEO的常用手法:
  1、架構設計
  要做好白帽SEO,網(wǎng)站的整體架構肯定是重要的,是要符合搜索引擎規則的,鏈接結構、頁(yè)面、404、500、首頁(yè)文章的版塊、內頁(yè)的文章等等,這些東西在做網(wǎng)站前都要規劃好。一個(gè)好的網(wǎng)站架構能夠幫助搜索引擎蜘蛛更好的進(jìn)行抓取和收錄。用戶(hù)的體驗也會(huì )更好。
  下圖是一些架構設計沒(méi)有做好的網(wǎng)站,就會(huì )出現下面的一些問(wèn)題,這樣的網(wǎng)站是不會(huì )被搜索引擎收錄的。
  
  
  2、TKD設置
  TKD就是我們常說(shuō)的網(wǎng)站的標題,關(guān)鍵詞和描述。你要優(yōu)化關(guān)鍵詞的數量在你設置TKD的時(shí)候一定要想好。一般來(lái)說(shuō),首頁(yè)的權重最高,關(guān)鍵詞建議做主詞,然后是欄目頁(yè)和詳情頁(yè),可以做長(cháng)尾詞或者拓展詞。各個(gè)頁(yè)面的TKD不要做一樣的。不能惡意的堆積,這樣不利于搜索引擎的識別,也不利于用戶(hù)的體驗。
  下圖是一個(gè)設置好的TDK:
  
  3、內容質(zhì)量
  白帽的重心就是做好內容的質(zhì)量,給用戶(hù)提供他所需要的,能解決他問(wèn)題的,高質(zhì)量的內容是關(guān)鍵。用戶(hù)搜索的是他想解決的問(wèn)題,如果千篇一律都是重復的,沒(méi)用的。他就不會(huì )繼續看下去了。所以原創(chuàng )的內容很重要,一般來(lái)說(shuō),原創(chuàng )內容的比重要占到80%左右,這樣能夠更好的被收錄。
  如果你的內容不是原創(chuàng ),或者抄襲的過(guò)多,就會(huì )像下圖一樣,你覺(jué)得如果你是搜索引擎你會(huì )收錄這樣的內容嗎?
  
  二、黑帽SEO的常用手法:
  1、關(guān)鍵詞堆積
  很多人優(yōu)化網(wǎng)站的時(shí)候,堆積了大量的關(guān)鍵詞,讓搜索引擎認為網(wǎng)頁(yè)是有相關(guān)性的,關(guān)鍵詞的堆積技術(shù)是利于一串很長(cháng)的重復性的關(guān)鍵詞來(lái)迷惑搜索引擎。實(shí)際上這些關(guān)鍵詞有時(shí)候與網(wǎng)頁(yè)內容并沒(méi)有關(guān)系。這類(lèi)辦法很少能有用處。
  下圖就是一個(gè)關(guān)鍵詞堆積的例子:
  
  2、隱藏文字
  隱藏文字是這網(wǎng)頁(yè)的HTML中放入有關(guān)鍵詞的文章,這些字不會(huì )被用戶(hù)所看到,只能被搜索引擎所看到。有幾種常見(jiàn)的形式,如超小號的文字,跟網(wǎng)頁(yè)背景相同顏色的文字,放著(zhù)表格標簽里面的文字等等。
  3、頁(yè)面跳轉
  通過(guò)JavaScript等技術(shù),讓用戶(hù)在進(jìn)入到這個(gè)頁(yè)面之后迅速跳轉到另一個(gè)頁(yè)面。
  三、灰帽SEO的介紹:
  簡(jiǎn)單理解:游走于白帽與黑帽之間,一直屬于擦邊球,很多時(shí)候是無(wú)法鑒定的?;颐盨EO而言是做一部分站點(diǎn)基礎的,甚至于白帽一樣用心做站點(diǎn)基礎也有很多。為了加快速度排名,再結合一些作弊的手法來(lái)進(jìn)行快速排名。這里建議大家尤其新手,剛入門(mén)的時(shí)候不要想著(zhù)什么黑帽SEO、灰帽SEO,就老老實(shí)實(shí)做白帽吧。白帽是任何形式SEO基礎,只有很強的白帽基礎才有可能延伸出來(lái)黑帽與灰帽。按照搜索引擎這兩年的發(fā)展,只要安安心心做內容,解決用戶(hù)搜索需求,即使光寫(xiě)文章,排名依然是指日可待的。
  那么白帽SEO技術(shù)怎么做?
  一、初步準備:
  1.服務(wù)器選擇
  總之,要選擇快速穩定的云服務(wù)器,盡量是建立獨立的IP空間,這是不容易坐在搜索引擎,因為其他網(wǎng)站的問(wèn)題。
  2.網(wǎng)站備案
  域名由工業(yè)和信息化部備案,以提高搜索引擎的信任度。
  3.網(wǎng)站目錄設置搜索引擎蜘蛛目錄以查看爬行軌跡。
  4.百度站長(cháng)工具、搜狗站長(cháng)工具和360站長(cháng)工具都是盡可能多的添加,方便以后各種搜索引擎的優(yōu)化和調整,背景非常強大。
  5.進(jìn)行安全掃描,如360網(wǎng)站安全工具等。
  二、站內優(yōu)化:
  1.官方網(wǎng)站設計,盡量采用平面結構,使用面包屑導航,便于蜘蛛掌握分層。
  2.使用robot.txt文件。主要內容是盡可能被搜索引擎抓取。如果有站點(diǎn)地圖,可以直接在此處設置站點(diǎn)地圖地址,也可以在主控形狀的背景下提交。
  3.301永久重定向,集中域名權重。
  4.404個(gè)錯誤頁(yè)。
  5.Favicon圖標設置。
  6、標題、關(guān)鍵詞、描述設置、關(guān)鍵詞布局密度分布等。
  7.站內代碼優(yōu)化、標簽優(yōu)化、冗余代碼處理、JS和CSS代碼封裝、nofollow、h標記使用等。
  8.站點(diǎn)地圖設置(站點(diǎn)地圖、百度地圖)
  9.URL設置,網(wǎng)站比較合適的深度不超過(guò)三層,URL盡可能靜態(tài)
  10.圖片優(yōu)化,盡量不要對圖片使用PNG,透明圖片除外。圖片使用alt和標題標簽來(lái)增加搜索引擎抓取的概率。
  11.文章內容中重要關(guān)鍵詞的內鏈設置
  12.文章內容的偽原創(chuàng )性?xún)?yōu)于60%。盡量修改文章的開(kāi)頭和結尾,然后合并長(cháng)尾關(guān)鍵字。
  13.應盡可能使用target=“_blank”在新頁(yè)面上打開(kāi)外部鏈接,以避免客戶(hù)因關(guān)閉而失去官方網(wǎng)站。
  三、站外優(yōu)化:
  1.百度、搜狗、360、神馬、谷歌、必應、有道等搜索引擎提交網(wǎng)站。
  2.友情鏈接交換與第三方垂直行業(yè)網(wǎng)站包容應用
  3.第三方媒體軟文本加鏈接和錨文本(外鏈掌握數量和頻率)
  4.百度搜索口碑業(yè)務(wù)提交、相應評論、第三方行業(yè)知名信息評論、消息等。 查看全部

  白帽、黑帽、灰帽SEO優(yōu)化的對比區別
  
  點(diǎn)擊上方“輸贏(yíng)” →點(diǎn)擊右上角“...”
  →點(diǎn)選“設為星標★”為輸贏(yíng)加上星標。
  很多新人對于seo也許不是很了解,但在互聯(lián)網(wǎng)上seo卻處處可見(jiàn),我們平時(shí)瀏覽的新聞、視頻、網(wǎng)頁(yè)等等,都是與SEO技術(shù)有關(guān)的,很多大型的網(wǎng)站都有SEO技術(shù)人員,他們的目標就是為網(wǎng)站帶來(lái)流量和知名度,從而進(jìn)行變現。
  
  一、白帽SEO
  白帽SEO顧名思義就是一種公正的手法,是一種符合主流搜索引擎的思維方法,它與黑帽是相反的,白帽SEO一直被這個(gè)行業(yè)內認為是最好的SEO優(yōu)化手法,它采用符合主流的SEO思維,合理的去優(yōu)化網(wǎng)站,合理的與其他網(wǎng)站建立鏈接,提高用戶(hù)體驗。白帽SEO關(guān)注的是長(cháng)遠利益,一般通過(guò)這種方法提升的排名時(shí)間更長(cháng)、更穩定。
  二、黑帽SEO
  黑帽SEO說(shuō)白了就是使用一些搜索引擎禁止的方式,快速的增加網(wǎng)站的排名,它能夠在短期內提升你網(wǎng)站的排名,但是不夠穩定,隨時(shí)都可能因為搜索引擎算法的改變而面臨懲罰。
  一、白帽SEO的常用手法:
  1、架構設計
  要做好白帽SEO,網(wǎng)站的整體架構肯定是重要的,是要符合搜索引擎規則的,鏈接結構、頁(yè)面、404、500、首頁(yè)文章的版塊、內頁(yè)的文章等等,這些東西在做網(wǎng)站前都要規劃好。一個(gè)好的網(wǎng)站架構能夠幫助搜索引擎蜘蛛更好的進(jìn)行抓取和收錄。用戶(hù)的體驗也會(huì )更好。
  下圖是一些架構設計沒(méi)有做好的網(wǎng)站,就會(huì )出現下面的一些問(wèn)題,這樣的網(wǎng)站是不會(huì )被搜索引擎收錄的。
  
  
  2、TKD設置
  TKD就是我們常說(shuō)的網(wǎng)站的標題,關(guān)鍵詞和描述。你要優(yōu)化關(guān)鍵詞的數量在你設置TKD的時(shí)候一定要想好。一般來(lái)說(shuō),首頁(yè)的權重最高,關(guān)鍵詞建議做主詞,然后是欄目頁(yè)和詳情頁(yè),可以做長(cháng)尾詞或者拓展詞。各個(gè)頁(yè)面的TKD不要做一樣的。不能惡意的堆積,這樣不利于搜索引擎的識別,也不利于用戶(hù)的體驗。
  下圖是一個(gè)設置好的TDK:
  
  3、內容質(zhì)量
  白帽的重心就是做好內容的質(zhì)量,給用戶(hù)提供他所需要的,能解決他問(wèn)題的,高質(zhì)量的內容是關(guān)鍵。用戶(hù)搜索的是他想解決的問(wèn)題,如果千篇一律都是重復的,沒(méi)用的。他就不會(huì )繼續看下去了。所以原創(chuàng )的內容很重要,一般來(lái)說(shuō),原創(chuàng )內容的比重要占到80%左右,這樣能夠更好的被收錄。
  如果你的內容不是原創(chuàng ),或者抄襲的過(guò)多,就會(huì )像下圖一樣,你覺(jué)得如果你是搜索引擎你會(huì )收錄這樣的內容嗎?
  
  二、黑帽SEO的常用手法:
  1、關(guān)鍵詞堆積
  很多人優(yōu)化網(wǎng)站的時(shí)候,堆積了大量的關(guān)鍵詞,讓搜索引擎認為網(wǎng)頁(yè)是有相關(guān)性的,關(guān)鍵詞的堆積技術(shù)是利于一串很長(cháng)的重復性的關(guān)鍵詞來(lái)迷惑搜索引擎。實(shí)際上這些關(guān)鍵詞有時(shí)候與網(wǎng)頁(yè)內容并沒(méi)有關(guān)系。這類(lèi)辦法很少能有用處。
  下圖就是一個(gè)關(guān)鍵詞堆積的例子:
  
  2、隱藏文字
  隱藏文字是這網(wǎng)頁(yè)的HTML中放入有關(guān)鍵詞的文章,這些字不會(huì )被用戶(hù)所看到,只能被搜索引擎所看到。有幾種常見(jiàn)的形式,如超小號的文字,跟網(wǎng)頁(yè)背景相同顏色的文字,放著(zhù)表格標簽里面的文字等等。
  3、頁(yè)面跳轉
  通過(guò)JavaScript等技術(shù),讓用戶(hù)在進(jìn)入到這個(gè)頁(yè)面之后迅速跳轉到另一個(gè)頁(yè)面。
  三、灰帽SEO的介紹:
  簡(jiǎn)單理解:游走于白帽與黑帽之間,一直屬于擦邊球,很多時(shí)候是無(wú)法鑒定的?;颐盨EO而言是做一部分站點(diǎn)基礎的,甚至于白帽一樣用心做站點(diǎn)基礎也有很多。為了加快速度排名,再結合一些作弊的手法來(lái)進(jìn)行快速排名。這里建議大家尤其新手,剛入門(mén)的時(shí)候不要想著(zhù)什么黑帽SEO、灰帽SEO,就老老實(shí)實(shí)做白帽吧。白帽是任何形式SEO基礎,只有很強的白帽基礎才有可能延伸出來(lái)黑帽與灰帽。按照搜索引擎這兩年的發(fā)展,只要安安心心做內容,解決用戶(hù)搜索需求,即使光寫(xiě)文章,排名依然是指日可待的。
  那么白帽SEO技術(shù)怎么做?
  一、初步準備:
  1.服務(wù)器選擇
  總之,要選擇快速穩定的云服務(wù)器,盡量是建立獨立的IP空間,這是不容易坐在搜索引擎,因為其他網(wǎng)站的問(wèn)題。
  2.網(wǎng)站備案
  域名由工業(yè)和信息化部備案,以提高搜索引擎的信任度。
  3.網(wǎng)站目錄設置搜索引擎蜘蛛目錄以查看爬行軌跡。
  4.百度站長(cháng)工具、搜狗站長(cháng)工具和360站長(cháng)工具都是盡可能多的添加,方便以后各種搜索引擎的優(yōu)化和調整,背景非常強大。
  5.進(jìn)行安全掃描,如360網(wǎng)站安全工具等。
  二、站內優(yōu)化:
  1.官方網(wǎng)站設計,盡量采用平面結構,使用面包屑導航,便于蜘蛛掌握分層。
  2.使用robot.txt文件。主要內容是盡可能被搜索引擎抓取。如果有站點(diǎn)地圖,可以直接在此處設置站點(diǎn)地圖地址,也可以在主控形狀的背景下提交。
  3.301永久重定向,集中域名權重。
  4.404個(gè)錯誤頁(yè)。
  5.Favicon圖標設置。
  6、標題、關(guān)鍵詞、描述設置、關(guān)鍵詞布局密度分布等。
  7.站內代碼優(yōu)化、標簽優(yōu)化、冗余代碼處理、JS和CSS代碼封裝、nofollow、h標記使用等。
  8.站點(diǎn)地圖設置(站點(diǎn)地圖、百度地圖)
  9.URL設置,網(wǎng)站比較合適的深度不超過(guò)三層,URL盡可能靜態(tài)
  10.圖片優(yōu)化,盡量不要對圖片使用PNG,透明圖片除外。圖片使用alt和標題標簽來(lái)增加搜索引擎抓取的概率。
  11.文章內容中重要關(guān)鍵詞的內鏈設置
  12.文章內容的偽原創(chuàng )性?xún)?yōu)于60%。盡量修改文章的開(kāi)頭和結尾,然后合并長(cháng)尾關(guān)鍵字。
  13.應盡可能使用target=“_blank”在新頁(yè)面上打開(kāi)外部鏈接,以避免客戶(hù)因關(guān)閉而失去官方網(wǎng)站。
  三、站外優(yōu)化:
  1.百度、搜狗、360、神馬、谷歌、必應、有道等搜索引擎提交網(wǎng)站。
  2.友情鏈接交換與第三方垂直行業(yè)網(wǎng)站包容應用
  3.第三方媒體軟文本加鏈接和錨文本(外鏈掌握數量和頻率)
  4.百度搜索口碑業(yè)務(wù)提交、相應評論、第三方行業(yè)知名信息評論、消息等。

探究搜索引擎結果頁(yè)信息檢索模式:基于過(guò)程數據

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 132 次瀏覽 ? 2022-05-05 17:19 ? 來(lái)自相關(guān)話(huà)題

  探究搜索引擎結果頁(yè)信息檢索模式:基于過(guò)程數據
  導讀
  近日,一項基于過(guò)程數據探究搜索引擎結果頁(yè)信息檢索模式的文章發(fā)表于Computers in Human Behavior (SSCI JCR Q1, 2020 IF 6.829)。論文作者為阿爾伯塔大學(xué)博士生高一珠(第一作者兼通訊作者)、教授崔迎、副教授Okan Bulut,以及喬治亞大學(xué)助理教授翟小銘和澳門(mén)大學(xué)助理教授陳孚,具體信息如下:
  Gao, Y., Cui, Y., Bulut, O., Zhai, X., & Chen, F. (2022). Examining adults’ web navigation patterns in multi-layered hypertext environments. Computers in Human Behavior, 129, 1–17.
  
  背景介紹
  當前,搜索引擎已成為最常用的信息問(wèn)題解決的工具,而網(wǎng)絡(luò )信息搜索也成為信息技術(shù)時(shí)代的必要技能之一。當用戶(hù)在搜索引擎輸入關(guān)鍵詞,搜索引擎完成搜索后,在搜索引擎結果頁(yè) (search engine result page, SERP)上往往會(huì )呈現出龐大的、差異化的信息源 (information source)。此時(shí),用戶(hù)常常需要通過(guò)檢索信息源內的信息來(lái)獲得目標信息。每個(gè)信息源可視為一個(gè)信息塊 (information patch),而對于嵌套于信息塊內信息的檢索以及不同信息塊的檢索則直接影響著(zhù)信息問(wèn)題解決。
  研究者們聚焦于單層超文本 (single-layered hypertexts) 構成的信息環(huán)境,提出了一些信息檢索理論,并完成了許多信息檢索模式的研究。例如,Pirolli和Card (1999) 提出著(zhù)名的信息檢索理論 (information foraging theory, IFT) ,該理論認為用戶(hù)對搜索引擎結果頁(yè)上信息塊的檢索類(lèi)似于人類(lèi)祖先的覓食行為,并表示當訪(fǎng)問(wèn)某個(gè)信息塊時(shí),用戶(hù)會(huì )持續權衡其信息收益和認知消耗,當信息收益低于認知消耗時(shí),該用戶(hù)便退出當前信息塊,返回到搜索引擎結果頁(yè)檢索其它信息塊或者結束當前信息檢索任務(wù)?;谠摾碚?,Reader 和 Payne (2007) 總結了兩種信息檢索模式:Sampling 和 Satisficing 。Sampling的模式是指用戶(hù)瀏覽盡可能多信息塊,而Satisficing的模式則是指用戶(hù)會(huì )依次瀏覽搜索引擎結果頁(yè)上的信息塊,當檢索到能夠解決其信息問(wèn)題的信息塊時(shí)便不再瀏覽其它信息塊。
  然而,現實(shí)場(chǎng)景中,信息普遍以多層超文本 (multi-layered hypertexts) 的形式嵌套于信息空間中,單層超文本的研究顯然無(wú)法很好解答信息檢索模式的問(wèn)題。因此,少量研究者開(kāi)始關(guān)注多層超文本信息環(huán)境下的信息檢索模式。Jenkins et al. (2003) 采用出聲思維方法挖掘出 Breadth-first 和 Depth-first 兩種模式 (表1)。Juvina 和 van Oostendorp (2006) 對過(guò)程數據中提取的single-unit measures (如路徑長(cháng)度) 進(jìn)行主成分分析辨別出 Flimsy, Content-focus, Laborious, 和 Divergent四種模式(表1)。但是這些研究存在一些局限:首先,這些研究的樣本量太小 (Jenkins et al. [2003]: N = 18 和 Juvina & van Oostendorp [2006]: N = 30), 導致結果具有比較低的外部效度;其次,single-unit measures 并不利用過(guò)程數據中事件序列信息,因此一些檢索模式 (i.e., Laborious) 對信息問(wèn)題解決的影響仍然是不清楚的;最后,不同類(lèi)型的信息問(wèn)題會(huì )影響到用戶(hù)信息檢索模式,但是以往研究并未考慮信息問(wèn)題的類(lèi)型。
  Table 1 Explanations of web navigation patterns in multi-layered hypertext environments
  
  本研究通過(guò)對用戶(hù)在解決信息定位問(wèn)題 (explicit information-locating task) 以及信息評價(jià)問(wèn)題 (amorphous information-evaluating task) 產(chǎn)生的過(guò)程數據進(jìn)行分析,來(lái)探究多層超文本信息環(huán)境下用戶(hù)在搜索引擎結果頁(yè)的信息檢索模式。因此,本研究的目的主要包括:1)挖掘信息定位問(wèn)題和信息評價(jià)問(wèn)題的信息檢索模式;2)比較不同檢索模式在解決信息定位問(wèn)題和信息評價(jià)問(wèn)題的有效性。
  研究方法
  本研究采用2012年P(guān)IAAC中PSTRE (problem-solving in technology-rich environments) 測驗的兩道題目:購買(mǎi)圖書(shū)和可靠性網(wǎng)頁(yè),它們分別屬于信息定位問(wèn)題和信息評價(jià)問(wèn)題,具體而言,購買(mǎi)圖書(shū)題目要求用戶(hù)找到滿(mǎn)足條件的圖書(shū),并且題干中清晰地界定了目標圖書(shū)條件(價(jià)格、郵寄日期等),可靠性網(wǎng)頁(yè)題目要求用戶(hù)找到提供最可靠的治療關(guān)節扭傷方法的網(wǎng)頁(yè),但題干中并未對信息可靠性進(jìn)行定義,用戶(hù)需要依據自身經(jīng)驗評價(jià)網(wǎng)頁(yè)信息可靠性。對于購買(mǎi)圖書(shū)題目,搜索引擎結果頁(yè)顯示六個(gè)信息塊,其中五個(gè)包括嵌套頁(yè),對于可靠性網(wǎng)頁(yè)題目,搜索引擎結果頁(yè)展現五個(gè)信息塊,其中三個(gè)包括嵌套頁(yè)(表2),嵌套頁(yè)信息對正確解決這兩道題目都是必要的。本研究分別對美國和英國兩個(gè)國家的數據進(jìn)行潛在類(lèi)別分析 (Latent Class Analysis, LCA) 和全路徑序列分析 (full-path sequence analysis) ,LCA分析基于被試對每個(gè)網(wǎng)頁(yè)(即主頁(yè)和嵌套頁(yè))的瀏覽次數,依據相對擬合和絕對擬合指標,歸類(lèi)概率以及LMR等將被試分類(lèi),全路徑序列分析旨在刻畫(huà)各組代表性的信息檢索模式。
  Table 2 The links structure and the corresponding web pages for the two tasks
  
  Note. H indicates the homepage. N denotes the nested web page.
  研究結果與討論
  由于英國的分析結果與美國的結果類(lèi)似,在此僅呈現美國的分析結果。對于信息定位問(wèn)題而言, LCA分析顯示五類(lèi)別模型與數據擬合最好,同時(shí),通過(guò)分組進(jìn)行全路徑序列分析,可以辨別出 Breadth-first, Sampling, Laborious, Flimsy, Satisficing 的信息檢索模式(圖1),例如,盡管嵌套頁(yè)內的信息對于解決該任務(wù)是必要的,但組1(圖1)并不關(guān)注嵌套頁(yè)內信息,而是僅僅瀏覽主頁(yè)信息。
  
  Figure 1 Representative sequences selected for the five classes of the explicit information-locating task
  Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
  對于信息評價(jià)問(wèn)題而言, 綜合LCA各模型指標,四類(lèi)別模型與數據擬合最好。針對分類(lèi)參與者進(jìn)行全路徑序列分析,可辨別出Sampling, Breadth-first, Laborious, Flimsy 信息檢索模式(圖2)。
  
  Figure 2 Representative sequences selected for the four classes of the amorphous information-evaluating task
  Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
  對比兩類(lèi)信息問(wèn)題發(fā)現,Flimsy, Breadth-first, Laborious, 和Sampling 模式普遍存在于信息定位問(wèn)題和信息評價(jià)問(wèn)題中,但Satisficing 模式只出現在信息定位問(wèn)題中。進(jìn)一步Pearson’s 檢驗表明,Sampling模式組在信息評價(jià)任務(wù)中表現最好,Satisficing 模式組則在信息定位任務(wù)中表現最好。
  本研究的結果增進(jìn)了我們對信息檢索過(guò)程的認識。具體來(lái)說(shuō),Sampling 和 Satisficing 同樣適用于多層超文本構成的信息環(huán)境,Satisficing模式在信息定位問(wèn)題中的特異性表明,當目標信息被清晰界定后, Satisficing 模式便足夠獲取全局最優(yōu)信息塊,而當目標信息模糊不定時(shí),用戶(hù)則需要通過(guò)盡可能多地瀏覽不同信息塊 (Sampling) 來(lái)獲取最優(yōu)信息塊。因此,當用戶(hù)檢索引擎結果頁(yè)信息時(shí),信息可接受標準和信息收益/認知消耗間的權衡共同影響用戶(hù)的信息檢索模式。
  
  征稿啟事
  為增進(jìn)學(xué)會(huì )內部的學(xué)術(shù)交流,也為提升公眾對教育統計測量領(lǐng)域的認知,學(xué)會(huì )將定期通過(guò)本公眾號發(fā)布各類(lèi)專(zhuān)題文章,特邀請學(xué)會(huì )同仁們參與投稿。
  稿件內容:
  與教育統計測量相關(guān)的理論,方法,技術(shù)、應用和創(chuàng )新
  稿件形式:
  1.論文速遞:將您最新發(fā)表的論文,寫(xiě)成通俗易懂的科普短文。
  2.研究前沿:將您認為有價(jià)值的本領(lǐng)域國內外研究,整理成介紹短文。
  稿件字數:
  2000字左右,圖表不限
  收稿郵箱:

  注意事項:
  1.稿件使用word文件,注明作者和所在單位,以及原文出處。
  2.我們將根據投稿的選題和質(zhì)量安排稿件發(fā)布的時(shí)間。如需修改,我們會(huì )進(jìn)一步與您溝通。 查看全部

  探究搜索引擎結果頁(yè)信息檢索模式:基于過(guò)程數據
  導讀
  近日,一項基于過(guò)程數據探究搜索引擎結果頁(yè)信息檢索模式的文章發(fā)表于Computers in Human Behavior (SSCI JCR Q1, 2020 IF 6.829)。論文作者為阿爾伯塔大學(xué)博士生高一珠(第一作者兼通訊作者)、教授崔迎、副教授Okan Bulut,以及喬治亞大學(xué)助理教授翟小銘和澳門(mén)大學(xué)助理教授陳孚,具體信息如下:
  Gao, Y., Cui, Y., Bulut, O., Zhai, X., & Chen, F. (2022). Examining adults’ web navigation patterns in multi-layered hypertext environments. Computers in Human Behavior, 129, 1–17.
  
  背景介紹
  當前,搜索引擎已成為最常用的信息問(wèn)題解決的工具,而網(wǎng)絡(luò )信息搜索也成為信息技術(shù)時(shí)代的必要技能之一。當用戶(hù)在搜索引擎輸入關(guān)鍵詞,搜索引擎完成搜索后,在搜索引擎結果頁(yè) (search engine result page, SERP)上往往會(huì )呈現出龐大的、差異化的信息源 (information source)。此時(shí),用戶(hù)常常需要通過(guò)檢索信息源內的信息來(lái)獲得目標信息。每個(gè)信息源可視為一個(gè)信息塊 (information patch),而對于嵌套于信息塊內信息的檢索以及不同信息塊的檢索則直接影響著(zhù)信息問(wèn)題解決。
  研究者們聚焦于單層超文本 (single-layered hypertexts) 構成的信息環(huán)境,提出了一些信息檢索理論,并完成了許多信息檢索模式的研究。例如,Pirolli和Card (1999) 提出著(zhù)名的信息檢索理論 (information foraging theory, IFT) ,該理論認為用戶(hù)對搜索引擎結果頁(yè)上信息塊的檢索類(lèi)似于人類(lèi)祖先的覓食行為,并表示當訪(fǎng)問(wèn)某個(gè)信息塊時(shí),用戶(hù)會(huì )持續權衡其信息收益和認知消耗,當信息收益低于認知消耗時(shí),該用戶(hù)便退出當前信息塊,返回到搜索引擎結果頁(yè)檢索其它信息塊或者結束當前信息檢索任務(wù)?;谠摾碚?,Reader 和 Payne (2007) 總結了兩種信息檢索模式:Sampling 和 Satisficing 。Sampling的模式是指用戶(hù)瀏覽盡可能多信息塊,而Satisficing的模式則是指用戶(hù)會(huì )依次瀏覽搜索引擎結果頁(yè)上的信息塊,當檢索到能夠解決其信息問(wèn)題的信息塊時(shí)便不再瀏覽其它信息塊。
  然而,現實(shí)場(chǎng)景中,信息普遍以多層超文本 (multi-layered hypertexts) 的形式嵌套于信息空間中,單層超文本的研究顯然無(wú)法很好解答信息檢索模式的問(wèn)題。因此,少量研究者開(kāi)始關(guān)注多層超文本信息環(huán)境下的信息檢索模式。Jenkins et al. (2003) 采用出聲思維方法挖掘出 Breadth-first 和 Depth-first 兩種模式 (表1)。Juvina 和 van Oostendorp (2006) 對過(guò)程數據中提取的single-unit measures (如路徑長(cháng)度) 進(jìn)行主成分分析辨別出 Flimsy, Content-focus, Laborious, 和 Divergent四種模式(表1)。但是這些研究存在一些局限:首先,這些研究的樣本量太小 (Jenkins et al. [2003]: N = 18 和 Juvina & van Oostendorp [2006]: N = 30), 導致結果具有比較低的外部效度;其次,single-unit measures 并不利用過(guò)程數據中事件序列信息,因此一些檢索模式 (i.e., Laborious) 對信息問(wèn)題解決的影響仍然是不清楚的;最后,不同類(lèi)型的信息問(wèn)題會(huì )影響到用戶(hù)信息檢索模式,但是以往研究并未考慮信息問(wèn)題的類(lèi)型。
  Table 1 Explanations of web navigation patterns in multi-layered hypertext environments
  
  本研究通過(guò)對用戶(hù)在解決信息定位問(wèn)題 (explicit information-locating task) 以及信息評價(jià)問(wèn)題 (amorphous information-evaluating task) 產(chǎn)生的過(guò)程數據進(jìn)行分析,來(lái)探究多層超文本信息環(huán)境下用戶(hù)在搜索引擎結果頁(yè)的信息檢索模式。因此,本研究的目的主要包括:1)挖掘信息定位問(wèn)題和信息評價(jià)問(wèn)題的信息檢索模式;2)比較不同檢索模式在解決信息定位問(wèn)題和信息評價(jià)問(wèn)題的有效性。
  研究方法
  本研究采用2012年P(guān)IAAC中PSTRE (problem-solving in technology-rich environments) 測驗的兩道題目:購買(mǎi)圖書(shū)和可靠性網(wǎng)頁(yè),它們分別屬于信息定位問(wèn)題和信息評價(jià)問(wèn)題,具體而言,購買(mǎi)圖書(shū)題目要求用戶(hù)找到滿(mǎn)足條件的圖書(shū),并且題干中清晰地界定了目標圖書(shū)條件(價(jià)格、郵寄日期等),可靠性網(wǎng)頁(yè)題目要求用戶(hù)找到提供最可靠的治療關(guān)節扭傷方法的網(wǎng)頁(yè),但題干中并未對信息可靠性進(jìn)行定義,用戶(hù)需要依據自身經(jīng)驗評價(jià)網(wǎng)頁(yè)信息可靠性。對于購買(mǎi)圖書(shū)題目,搜索引擎結果頁(yè)顯示六個(gè)信息塊,其中五個(gè)包括嵌套頁(yè),對于可靠性網(wǎng)頁(yè)題目,搜索引擎結果頁(yè)展現五個(gè)信息塊,其中三個(gè)包括嵌套頁(yè)(表2),嵌套頁(yè)信息對正確解決這兩道題目都是必要的。本研究分別對美國和英國兩個(gè)國家的數據進(jìn)行潛在類(lèi)別分析 (Latent Class Analysis, LCA) 和全路徑序列分析 (full-path sequence analysis) ,LCA分析基于被試對每個(gè)網(wǎng)頁(yè)(即主頁(yè)和嵌套頁(yè))的瀏覽次數,依據相對擬合和絕對擬合指標,歸類(lèi)概率以及LMR等將被試分類(lèi),全路徑序列分析旨在刻畫(huà)各組代表性的信息檢索模式。
  Table 2 The links structure and the corresponding web pages for the two tasks
  
  Note. H indicates the homepage. N denotes the nested web page.
  研究結果與討論
  由于英國的分析結果與美國的結果類(lèi)似,在此僅呈現美國的分析結果。對于信息定位問(wèn)題而言, LCA分析顯示五類(lèi)別模型與數據擬合最好,同時(shí),通過(guò)分組進(jìn)行全路徑序列分析,可以辨別出 Breadth-first, Sampling, Laborious, Flimsy, Satisficing 的信息檢索模式(圖1),例如,盡管嵌套頁(yè)內的信息對于解決該任務(wù)是必要的,但組1(圖1)并不關(guān)注嵌套頁(yè)內信息,而是僅僅瀏覽主頁(yè)信息。
  
  Figure 1 Representative sequences selected for the five classes of the explicit information-locating task
  Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
  對于信息評價(jià)問(wèn)題而言, 綜合LCA各模型指標,四類(lèi)別模型與數據擬合最好。針對分類(lèi)參與者進(jìn)行全路徑序列分析,可辨別出Sampling, Breadth-first, Laborious, Flimsy 信息檢索模式(圖2)。
  
  Figure 2 Representative sequences selected for the four classes of the amorphous information-evaluating task
  Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
  對比兩類(lèi)信息問(wèn)題發(fā)現,Flimsy, Breadth-first, Laborious, 和Sampling 模式普遍存在于信息定位問(wèn)題和信息評價(jià)問(wèn)題中,但Satisficing 模式只出現在信息定位問(wèn)題中。進(jìn)一步Pearson’s 檢驗表明,Sampling模式組在信息評價(jià)任務(wù)中表現最好,Satisficing 模式組則在信息定位任務(wù)中表現最好。
  本研究的結果增進(jìn)了我們對信息檢索過(guò)程的認識。具體來(lái)說(shuō),Sampling 和 Satisficing 同樣適用于多層超文本構成的信息環(huán)境,Satisficing模式在信息定位問(wèn)題中的特異性表明,當目標信息被清晰界定后, Satisficing 模式便足夠獲取全局最優(yōu)信息塊,而當目標信息模糊不定時(shí),用戶(hù)則需要通過(guò)盡可能多地瀏覽不同信息塊 (Sampling) 來(lái)獲取最優(yōu)信息塊。因此,當用戶(hù)檢索引擎結果頁(yè)信息時(shí),信息可接受標準和信息收益/認知消耗間的權衡共同影響用戶(hù)的信息檢索模式。
  
  征稿啟事
  為增進(jìn)學(xué)會(huì )內部的學(xué)術(shù)交流,也為提升公眾對教育統計測量領(lǐng)域的認知,學(xué)會(huì )將定期通過(guò)本公眾號發(fā)布各類(lèi)專(zhuān)題文章,特邀請學(xué)會(huì )同仁們參與投稿。
  稿件內容:
  與教育統計測量相關(guān)的理論,方法,技術(shù)、應用和創(chuàng )新
  稿件形式:
  1.論文速遞:將您最新發(fā)表的論文,寫(xiě)成通俗易懂的科普短文。
  2.研究前沿:將您認為有價(jià)值的本領(lǐng)域國內外研究,整理成介紹短文。
  稿件字數:
  2000字左右,圖表不限
  收稿郵箱:

  注意事項:
  1.稿件使用word文件,注明作者和所在單位,以及原文出處。
  2.我們將根據投稿的選題和質(zhì)量安排稿件發(fā)布的時(shí)間。如需修改,我們會(huì )進(jìn)一步與您溝通。

App Store上的應用怎么做SEO/ASO?seo與aso的區別

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 99 次瀏覽 ? 2022-05-05 17:15 ? 來(lái)自相關(guān)話(huà)題

  App Store上的應用怎么做SEO/ASO?seo與aso的區別
  
  APP Store Optimization也稱(chēng)ASO,即應用商店優(yōu)化,廣義指蘋(píng)果App Store商店優(yōu)化,安卓Google Play商店優(yōu)化,也包括國內豌豆莢,應用寶和海外一些第三方的應用平臺優(yōu)化。旨在提升商店排名,提高應用下載量和應用收入(內購+廣告)
  
  簡(jiǎn)單的從以下幾個(gè)方面介紹一下ASO。
  1.ASO與SEO?
  ASO與人們常說(shuō)的SEO有什么區別?其實(shí)ASO是SEO的一種特殊形式,SEO泛指所有搜索引擎的優(yōu)化,通過(guò)對內容和TDK的優(yōu)化,使網(wǎng)站在目標搜索引擎(谷歌,百度,bing等)中獲得更高的排名和流量,而ASO特指在應用商店對app優(yōu)化以提升App的排名。
  SEO 數據維度:關(guān)鍵詞數據包括站內搜索、網(wǎng)站瀏覽路徑、來(lái)源關(guān)鍵詞及搜索引擎等。作用在于了解用戶(hù)搜索行為,為產(chǎn)品、設計及 SEO 策略指導方向,提供目標。
  ASO 數據維度:關(guān)鍵詞數據包括關(guān)鍵詞覆蓋及排名數據、搜索結果數、關(guān)鍵詞熱度、關(guān)鍵詞搜索指數。作用在于了解關(guān)鍵詞的情況,明確前期優(yōu)化方向,并在優(yōu)化中后期根據數據變動(dòng)及時(shí)調整優(yōu)化策略。
  SEO 優(yōu)化效果:搜索結果、展示量、點(diǎn)擊量和展示位置;索引情況:被搜索引擎檢索的情況;流量:網(wǎng)站流量的提升,包括 PV、UV、注冊用戶(hù);收益:網(wǎng)站參與度、付費用戶(hù)、ROI。
  ASO 優(yōu)化效果:搜索結果、搜索展示量;排名情況:榜單排名,及關(guān)鍵詞搜索排名;流量:自然流量(新增下載)的提升;收益:app 注冊、活躍、留存、付費。
  2.為什么做ASO?
  ASO是官方認可,合理合規的App優(yōu)化手段,在A(yíng)SO面前,眾生平等。只要你切中了關(guān)鍵詞,新發(fā)行的App也可以在短期內沖到前三。
  ASO是不需要任何費用的,當然有預算買(mǎi)量會(huì )起到催化效果,不過(guò)催化劑不一定都是正向的。
  3.ASO包括哪些內容?
 ?、倩A
  通過(guò)編輯商店中的內容,標題,副標題,描述等信息來(lái)覆蓋關(guān)鍵詞。通過(guò)商店內的版本更新,伴隨著(zhù)描述更新,從而在規則合理的前提下實(shí)現關(guān)鍵詞覆蓋增多。
  權重:標題 > 副標題 > App關(guān)鍵詞
  另外,通過(guò)不同語(yǔ)言來(lái)增強關(guān)鍵詞覆蓋。
  例如,對于中國市場(chǎng),可以準備中文(簡(jiǎn)體),英文(英國),英文(澳大利亞)三個(gè)版本的關(guān)鍵詞,能夠提升關(guān)鍵詞排名,但版本間關(guān)鍵詞無(wú)法相互組詞。不過(guò)覆蓋關(guān)鍵詞多了,可能會(huì )分攤權重,這種情況下重點(diǎn)關(guān)鍵詞需要多次重復。 查看全部

  App Store上的應用怎么做SEO/ASO?seo與aso的區別
  
  APP Store Optimization也稱(chēng)ASO,即應用商店優(yōu)化,廣義指蘋(píng)果App Store商店優(yōu)化,安卓Google Play商店優(yōu)化,也包括國內豌豆莢,應用寶和海外一些第三方的應用平臺優(yōu)化。旨在提升商店排名,提高應用下載量和應用收入(內購+廣告)
  
  簡(jiǎn)單的從以下幾個(gè)方面介紹一下ASO。
  1.ASO與SEO?
  ASO與人們常說(shuō)的SEO有什么區別?其實(shí)ASO是SEO的一種特殊形式,SEO泛指所有搜索引擎的優(yōu)化,通過(guò)對內容和TDK的優(yōu)化,使網(wǎng)站在目標搜索引擎(谷歌,百度,bing等)中獲得更高的排名和流量,而ASO特指在應用商店對app優(yōu)化以提升App的排名。
  SEO 數據維度:關(guān)鍵詞數據包括站內搜索、網(wǎng)站瀏覽路徑、來(lái)源關(guān)鍵詞及搜索引擎等。作用在于了解用戶(hù)搜索行為,為產(chǎn)品、設計及 SEO 策略指導方向,提供目標。
  ASO 數據維度:關(guān)鍵詞數據包括關(guān)鍵詞覆蓋及排名數據、搜索結果數、關(guān)鍵詞熱度、關(guān)鍵詞搜索指數。作用在于了解關(guān)鍵詞的情況,明確前期優(yōu)化方向,并在優(yōu)化中后期根據數據變動(dòng)及時(shí)調整優(yōu)化策略。
  SEO 優(yōu)化效果:搜索結果、展示量、點(diǎn)擊量和展示位置;索引情況:被搜索引擎檢索的情況;流量:網(wǎng)站流量的提升,包括 PV、UV、注冊用戶(hù);收益:網(wǎng)站參與度、付費用戶(hù)、ROI。
  ASO 優(yōu)化效果:搜索結果、搜索展示量;排名情況:榜單排名,及關(guān)鍵詞搜索排名;流量:自然流量(新增下載)的提升;收益:app 注冊、活躍、留存、付費。
  2.為什么做ASO?
  ASO是官方認可,合理合規的App優(yōu)化手段,在A(yíng)SO面前,眾生平等。只要你切中了關(guān)鍵詞,新發(fā)行的App也可以在短期內沖到前三。
  ASO是不需要任何費用的,當然有預算買(mǎi)量會(huì )起到催化效果,不過(guò)催化劑不一定都是正向的。
  3.ASO包括哪些內容?
 ?、倩A
  通過(guò)編輯商店中的內容,標題,副標題,描述等信息來(lái)覆蓋關(guān)鍵詞。通過(guò)商店內的版本更新,伴隨著(zhù)描述更新,從而在規則合理的前提下實(shí)現關(guān)鍵詞覆蓋增多。
  權重:標題 > 副標題 > App關(guān)鍵詞
  另外,通過(guò)不同語(yǔ)言來(lái)增強關(guān)鍵詞覆蓋。
  例如,對于中國市場(chǎng),可以準備中文(簡(jiǎn)體),英文(英國),英文(澳大利亞)三個(gè)版本的關(guān)鍵詞,能夠提升關(guān)鍵詞排名,但版本間關(guān)鍵詞無(wú)法相互組詞。不過(guò)覆蓋關(guān)鍵詞多了,可能會(huì )分攤權重,這種情況下重點(diǎn)關(guān)鍵詞需要多次重復。

r+10萬(wàn)計劃讓網(wǎng)站具有非常好的競爭力

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 89 次瀏覽 ? 2022-05-02 19:01 ? 來(lái)自相關(guān)話(huà)題

  r+10萬(wàn)計劃讓網(wǎng)站具有非常好的競爭力
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同和對比展開(kāi)一下。對于在京東搜索商品,大部分情況下,買(mǎi)家是想知道商品的基本信息,因此只關(guān)注內部信息源。如一些網(wǎng)站和郵件,非常積極的開(kāi)發(fā)和推廣外部信息源,然而到底對搜索引擎優(yōu)化提高了什么價(jià)值?上圖是主要的幾家在線(xiàn)購物平臺對比。左邊是京東,右邊是天貓。下面進(jìn)行圖文分析:京東在前端頁(yè)面不到一半的時(shí)間點(diǎn)進(jìn)行主動(dòng)主營(yíng)信息源營(yíng)銷(xiāo),這非常重要,否則不僅影響轉化率,也影響搜索。
  網(wǎng)上各種傳言有云,京東在上線(xiàn)iab2014百萬(wàn)計劃的時(shí)候,要花大力氣在這方面推廣。不過(guò),個(gè)人不看好。網(wǎng)上有人說(shuō)京東要賺取微利營(yíng)銷(xiāo),這沒(méi)有一個(gè)可靠的說(shuō)法。在2012年已經(jīng)在r+10萬(wàn)計劃,2013年京東確認對供應商進(jìn)行了促銷(xiāo),并且正在補貼。2014年初,對經(jīng)銷(xiāo)商要求零售品達到r+10萬(wàn)計劃,而不是1萬(wàn)計劃,顯然r+10萬(wàn)計劃并不適合。
  而對于大品牌來(lái)說(shuō),r+10萬(wàn)計劃至少會(huì )讓網(wǎng)站具有非常好的競爭力。實(shí)際上,2014年初的大促,r+10萬(wàn)計劃也被買(mǎi)斷了。我沒(méi)有不相信一些供應商是大品牌,但是缺乏說(shuō)服力。再者,一個(gè)有效的計劃,必須是試銷(xiāo),而不是發(fā)大財,發(fā)了大財公司肯定不會(huì )管你。即使前期投入了大量資金做內部引流,后期仍然需要全面投入,并收效甚微。
  天貓通過(guò)內部廣告推廣提高了網(wǎng)站認知度,搜索優(yōu)化提高了流量。這實(shí)際上是很少見(jiàn)的。天貓的目標是挖掘商品中的潛在流量。除了專(zhuān)門(mén)針對大品牌的搜索營(yíng)銷(xiāo)之外,在大型促銷(xiāo)后,天貓還開(kāi)始主動(dòng)營(yíng)銷(xiāo)。從用戶(hù)數據來(lái)看,信息源營(yíng)銷(xiāo)促進(jìn)網(wǎng)站發(fā)展的速度也是很快的。其中有個(gè)例子如果看這里:該如何告訴競爭對手你的預算呢?京東從2013年開(kāi)始推動(dòng)其內部信息源營(yíng)銷(xiāo),并在2014年投入了大約9億。
  在京東2014百萬(wàn)大促中,經(jīng)過(guò)專(zhuān)家研討,個(gè)人認為這一算法是可靠的。但是從天貓的表現來(lái)看,京東的投入似乎有所虧損。然而搜索優(yōu)化是做對搜索而言有作用的營(yíng)銷(xiāo)。大數據分析促進(jìn)轉化率提高,對價(jià)格敏感的用戶(hù)轉化率提高,以及最后也提高了品牌在搜索中的曝光率。但是搜索優(yōu)化本身對網(wǎng)站產(chǎn)生的價(jià)值無(wú)法估量。需要重視:2.內部搜索優(yōu)化與外部搜索優(yōu)化是由同一個(gè)專(zhuān)業(yè)團隊組成,具有同樣的目標,將同一種在搜索引擎上采用策略。
  顯然,對于京東來(lái)說(shuō),從一開(kāi)始京東對供應商就有足夠高的要求,那么可靠的內部搜索優(yōu)化應該是可以起到鼓勵效果的。2015-8-11。 查看全部

  r+10萬(wàn)計劃讓網(wǎng)站具有非常好的競爭力
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同和對比展開(kāi)一下。對于在京東搜索商品,大部分情況下,買(mǎi)家是想知道商品的基本信息,因此只關(guān)注內部信息源。如一些網(wǎng)站和郵件,非常積極的開(kāi)發(fā)和推廣外部信息源,然而到底對搜索引擎優(yōu)化提高了什么價(jià)值?上圖是主要的幾家在線(xiàn)購物平臺對比。左邊是京東,右邊是天貓。下面進(jìn)行圖文分析:京東在前端頁(yè)面不到一半的時(shí)間點(diǎn)進(jìn)行主動(dòng)主營(yíng)信息源營(yíng)銷(xiāo),這非常重要,否則不僅影響轉化率,也影響搜索。
  網(wǎng)上各種傳言有云,京東在上線(xiàn)iab2014百萬(wàn)計劃的時(shí)候,要花大力氣在這方面推廣。不過(guò),個(gè)人不看好。網(wǎng)上有人說(shuō)京東要賺取微利營(yíng)銷(xiāo),這沒(méi)有一個(gè)可靠的說(shuō)法。在2012年已經(jīng)在r+10萬(wàn)計劃,2013年京東確認對供應商進(jìn)行了促銷(xiāo),并且正在補貼。2014年初,對經(jīng)銷(xiāo)商要求零售品達到r+10萬(wàn)計劃,而不是1萬(wàn)計劃,顯然r+10萬(wàn)計劃并不適合。
  而對于大品牌來(lái)說(shuō),r+10萬(wàn)計劃至少會(huì )讓網(wǎng)站具有非常好的競爭力。實(shí)際上,2014年初的大促,r+10萬(wàn)計劃也被買(mǎi)斷了。我沒(méi)有不相信一些供應商是大品牌,但是缺乏說(shuō)服力。再者,一個(gè)有效的計劃,必須是試銷(xiāo),而不是發(fā)大財,發(fā)了大財公司肯定不會(huì )管你。即使前期投入了大量資金做內部引流,后期仍然需要全面投入,并收效甚微。
  天貓通過(guò)內部廣告推廣提高了網(wǎng)站認知度,搜索優(yōu)化提高了流量。這實(shí)際上是很少見(jiàn)的。天貓的目標是挖掘商品中的潛在流量。除了專(zhuān)門(mén)針對大品牌的搜索營(yíng)銷(xiāo)之外,在大型促銷(xiāo)后,天貓還開(kāi)始主動(dòng)營(yíng)銷(xiāo)。從用戶(hù)數據來(lái)看,信息源營(yíng)銷(xiāo)促進(jìn)網(wǎng)站發(fā)展的速度也是很快的。其中有個(gè)例子如果看這里:該如何告訴競爭對手你的預算呢?京東從2013年開(kāi)始推動(dòng)其內部信息源營(yíng)銷(xiāo),并在2014年投入了大約9億。
  在京東2014百萬(wàn)大促中,經(jīng)過(guò)專(zhuān)家研討,個(gè)人認為這一算法是可靠的。但是從天貓的表現來(lái)看,京東的投入似乎有所虧損。然而搜索優(yōu)化是做對搜索而言有作用的營(yíng)銷(xiāo)。大數據分析促進(jìn)轉化率提高,對價(jià)格敏感的用戶(hù)轉化率提高,以及最后也提高了品牌在搜索中的曝光率。但是搜索優(yōu)化本身對網(wǎng)站產(chǎn)生的價(jià)值無(wú)法估量。需要重視:2.內部搜索優(yōu)化與外部搜索優(yōu)化是由同一個(gè)專(zhuān)業(yè)團隊組成,具有同樣的目標,將同一種在搜索引擎上采用策略。
  顯然,對于京東來(lái)說(shuō),從一開(kāi)始京東對供應商就有足夠高的要求,那么可靠的內部搜索優(yōu)化應該是可以起到鼓勵效果的。2015-8-11。

12 個(gè)優(yōu)化 Docker 鏡像安全性的技巧

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 86 次瀏覽 ? 2022-05-02 03:19 ? 來(lái)自相關(guān)話(huà)題

  12 個(gè)優(yōu)化 Docker 鏡像安全性的技巧
  
  作者 |Marius出品|
  本文介紹了 12 個(gè)優(yōu)化 Docker 鏡像安全性的技巧。每個(gè)技巧都解釋了底層的攻擊載體,以及一個(gè)或多個(gè)緩解方法。這些技巧包括了避免泄露構建密鑰、以非 root 用戶(hù)身份運行,或如何確保使用最新的依賴(lài)和更新等。
  1前言
  當你是剛開(kāi)始使用 Docker 的新手時(shí),你很可能會(huì )創(chuàng )建不安全的 Docker 鏡像,使攻擊者很容易借此接管容器,甚至可能接管整個(gè)主機,然后滲透到你公司的其他基礎設施中。
  可以被濫用來(lái)接管你的系統的攻擊向量有很多,例如:
  下面的各個(gè)章節講解了能夠優(yōu)化你的鏡像安全性的各種方法。它們是按重要性 / 影響程度排序的,也就是說(shuō)排名靠前的方法更重要。
  2避免泄露構建密鑰
  構建密鑰是只在構建 Docker 鏡像時(shí)需要的憑證(不是在運行時(shí))。例如,你可能想在你的鏡像中包含某個(gè)應用程序的一個(gè)編譯版本,這個(gè)應用的源代碼是閉源的,并且其 Git 存儲庫是有訪(fǎng)問(wèn)保護的。在構建鏡像時(shí),你需要克隆 Git 存儲庫(這需要構建密鑰,例如該存儲庫的 SSH 訪(fǎng)問(wèn)密鑰),從源代碼構建應用程序,然后再刪除源代碼(和密鑰)。
  “泄露“構建密鑰是說(shuō)你不小心把這種密鑰烘焙到了你的鏡像的某個(gè)層中。這種情況很?chē)乐?,因為拉取你的鏡像的所有人都可以檢索到這些機密。這個(gè)問(wèn)題源于這樣一個(gè)事實(shí),即 Docker 鏡像是以純粹的加法方式逐層構建的。你在一個(gè)層中刪除的文件只是被“標記”為已刪除,但拉取你鏡像的人們仍然可以使用高級工具訪(fǎng)問(wèn)它們。
  可以使用以下兩種方法之一來(lái)避免泄露構建密鑰。
  多階段構建
  Docker 多階段構建(官方文檔)有許多用例,例如加快你的鏡像構建速度,或減少鏡像大小。本系列的其他文章會(huì )詳細介紹其他用例??傊?,你也可以通過(guò)多階段構建來(lái)避免泄露構建密鑰,如下所示:
  BuildKit 的密鑰背景知識如果你使用 docker build 進(jìn)行構建,可以實(shí)際執行構建的后端選項不止一個(gè)。其中較新和較快的后端是 BuildKit,你需要在 Linux 上設置環(huán)境變量 DOCKER_BUILDKIT=1 來(lái)顯式啟用它。注意,BuildKit 在 Windows/MacOS 的 Docker for Desktop 上是默認啟用的。
  正如這里的文檔所解釋的(閱讀它們以了解更多細節),BuildKit 構建引擎支持 Dockerfile 中的額外語(yǔ)法。要使用構建密鑰,請在你的 Dockerfile 中放入類(lèi)似下面這樣的內容:
  RUN --mount=type=secret,id=mysecret,dst=/foobar
  當 RUN 語(yǔ)句被執行時(shí),密鑰將對這個(gè)構建容器可用,但不會(huì )將密鑰本身(這里是:/foobar 文件夾)放入構建的鏡像中。你需要在運行 docker build 命令時(shí)指定密鑰的源文件 / 文件夾(位于主機上)的路徑,例如:
  docker build --secret id=mysecret,src=mysecret.txt -t sometag
  不過(guò)有一點(diǎn)需要注意:你不能通過(guò) docker-compose up --build 來(lái)構建需要密鑰的鏡像,因為 Docker-compose 還不支持用于構建的 --secret 參數,見(jiàn) GitHub 問(wèn)題。如果你依賴(lài) docker-compose 的構建,請使用方法 1(多階段構建)。
  題外話(huà):不要推送在開(kāi)發(fā)機上構建的鏡像
  你應該一直在一個(gè)干凈的環(huán)境中構建和推送鏡像(例如 CI/CD 管道),其中構建代理會(huì )將你的存儲庫克隆到一個(gè)新目錄。
  使用本地開(kāi)發(fā)機器進(jìn)行構建的問(wèn)題是,你的本地 Git 存儲庫的“工作樹(shù)“可能是臟的。例如,它可能包含有開(kāi)發(fā)過(guò)程中需要的密鑰文件,例如對中轉甚至生產(chǎn)服務(wù)器的訪(fǎng)問(wèn)密鑰。如果沒(méi)有通過(guò).dockerignore 排除這些文件,那么 Dockerfile 中的“COPY . .“等語(yǔ)句可能會(huì )意外導致這些密鑰泄露到最終鏡像中。
  3以非 root 用戶(hù)身份運行
  默認情況下,當有人通過(guò)“docker runyourImage:yourTag“運行你的鏡像時(shí),這個(gè)容器(以及你在 ENTRYPOINT/CMD 中的程序)會(huì )以 root 用戶(hù)身份運行(在容器和主機上)。這給了一個(gè)使用某種漏洞在你的運行容器中獲得 shell 權限的攻擊者以下權力:
  為了避免這種情況,你應該以非 root 用戶(hù)(你在 docker build 過(guò)程中創(chuàng )建的一些用戶(hù))的身份運行你的應用程序。在你的 Dockerfile 中的某個(gè)地方(通常是在結尾處)放置以下語(yǔ)句:
  # Create a new user (including a home-directory, which is optional)RUN useradd --create-home appuser# Switch to this userUSER appuser
  Dockerfile 中所有在 USER appuser 語(yǔ)句之后的命令(如 RUN、CMD 或 ENTRYPOINT)都將以這個(gè)用戶(hù)運行。這里有一些需要注意的地方:
  4使用最新的基礎鏡像構建和更新系統包
  如果你使用的基礎鏡像包含了某個(gè)真正的 Linux 發(fā)行版(如 Debian、Ubuntu 或 alpine 鏡像)的全部工具集,其中包括一個(gè)軟件包管理器,建議使用該軟件包管理器來(lái)安裝所有可用的軟件包更新。
  背景知識基礎鏡像是由某人維護的,他配置了 CI/CD 管道計劃來(lái)構建基礎鏡像,并定期推送到 Docker Hub。你無(wú)法控制這個(gè)時(shí)間間隔,而且經(jīng)常發(fā)生的情況是,在該管道將更新的 Docker 鏡像推送到 Docker Hub 之前,Linux 發(fā)行版的包注冊表(例如通過(guò) apt)中已經(jīng)有了安全補丁。例如,即使基礎鏡像每周推送一次,也有可能在最近的鏡像發(fā)布幾小時(shí)或幾天后出現安全更新。
  因此,最好總是運行更新本地軟件包數據庫和安裝更新的包管理器命令,采用無(wú)人值守模式(不需要用戶(hù)確認)。每個(gè) Linux 發(fā)行版的這個(gè)命令都不一樣。
  例如,對于 Ubuntu、Debian 或衍生的發(fā)行版,使用 RUN apt-get update && apt-get -y upgrade
  另一個(gè)重要的細節是,你需要告訴 Docker(或你使用的任何鏡像構建工具)來(lái)刷新基礎鏡像。否則,如果你引用一個(gè)基礎鏡像,比如 python:3(而 Docker 在其本地鏡像緩存中已經(jīng)有了這樣一個(gè)鏡像),Docker 甚至不會(huì )檢查 Docker Hub 上是否存在更新的 python:3 版本。為了擺脫這種行為,你應該使用這個(gè)命令:
  docker build --pull
  這可以確保 Docker 在構建鏡像之前拉取你的 Dockerfile 中 FROM 語(yǔ)句中提到的鏡像的更新。
  你還應該注意 Docker 的層緩存機制,它會(huì )讓你的鏡像變得陳舊,因為 RUN 命令的層是緩存的,直到基礎鏡像維護者發(fā)布新版本的基礎鏡像才刷新。如果你發(fā)現基礎鏡像的發(fā)布頻率相當低(比如少于一周一次),那么定期(比如每周一次)重建你的鏡像并禁用層緩存是個(gè)好主意。你可以運行以下命令來(lái)做到這一點(diǎn):
  docker build --pull --no-cache
  5定期更新第三方依賴(lài)
  你編寫(xiě)的軟件是基于第三方的依賴(lài),也就是由其他人制作的軟件。這包括了:
  如果你的鏡像中的這些依賴(lài)過(guò)時(shí)了,就會(huì )增加攻擊面,因為過(guò)時(shí)的依賴(lài)往往有可利用的安全漏洞。
  你可以定期使用 SCA(軟件組件分析)工具來(lái)解決這個(gè)問(wèn)題,比如 Renovate Bot。這些工具(半)自動(dòng)將你聲明的第三方依賴(lài)更新為最新版本,例如在你的 Dockerfile、Python 的 requirements.txt、NPM 的 packages.json 等文件中聲明的列表。你需要設計你的 CI 管道,使 SCA 工具所做的更改自動(dòng)觸發(fā)你的鏡像的 re-build。
  這種自動(dòng)觸發(fā)的鏡像重建對于處在只維護模式,但代碼仍將被客戶(hù)在生產(chǎn)環(huán)境中使用(客戶(hù)希望它是安全的)的項目特別有用。在維護期間,你不再開(kāi)發(fā)新的特性,也不會(huì )構建新的鏡像,因為沒(méi)有新的提交(由你做出)來(lái)觸發(fā)新的構建。然而,由 SCA 工具做出的提交確實(shí)會(huì )再次觸發(fā)鏡像構建。
  你可以在我的相關(guān)博文中找到更多關(guān)于 Renovate bot 的細節。
  6對你的鏡像進(jìn)行漏洞掃描
  即使你執行了上述建議,比如說(shuō)你的鏡像總是使用最新的第三方依賴(lài),它仍然可能是不安全的(例如一個(gè)依賴(lài)已經(jīng)被棄用的情況)。在這種情況下,“不安全“意味著(zhù)一個(gè)(或多個(gè))依賴(lài)有已知的安全漏洞(在一些 CVE 數據庫中注冊)。
  出于這個(gè)原因,你可以給你的 Docker 鏡像提供某種工具來(lái)掃描所有包含的文件,以找到這種漏洞。這些工具有兩種形式:
  你顯式調用的 CLI 工具(例如在 CI 管道中),比如說(shuō) Trivy(OSS,在 CI 管道中非常容易使用,見(jiàn) Trivy 文檔)、Clair(OSS,但設置和使用比 Trivy 更復雜),或 Snyk(通過(guò)“docker scan“集成到 Docker CLI 中,見(jiàn) cheat sheet,但只有有限的免費計劃!)
  集成到你推送鏡像的鏡像注冊中心的掃描器,如 Harbor(內部使用 Clair 或 Trivy)。還有一些商業(yè)產(chǎn)品,如 Anchore。
  因為這些掃描器是通用的,它們還試圖覆蓋一大堆包注冊表,所以可能不會(huì )特別為你在自己項目中使用的編程語(yǔ)言或包注冊表定制。有時(shí),你應該調查你的編程語(yǔ)言生態(tài)系統提供了哪些工具。例如,對于 Python 來(lái)說(shuō)就有一個(gè)專(zhuān)門(mén)針對 Python 包的安全工具。
  7掃描你的 Dockerfile 是否違反了最佳實(shí)踐
  有時(shí),問(wèn)題來(lái)自于你在 Dockerfile 中放置的語(yǔ)句,這些語(yǔ)句是不好的實(shí)踐(但你沒(méi)有意識到)。為此可以使用諸如 checkov、Conftest、trivy 或 hadolint 等工具,它們是 Dockerfile 的 linter。為了選擇正確的工具,你需要查看它的默認規則 / 政策。例如,hadolint 比 checkov 或 conftest 提供的規則更多,因為它是專(zhuān)門(mén)針對 Dockerfiles 的。這些工具也是相互補充的,因此在你的 Dockerfiles 上運行多個(gè)工具(如 hadolint 和 trivy)確實(shí)是有意義的。不過(guò)要做好準備,因為你需要維護“忽略文件“,在這個(gè)文件中的規則會(huì )被忽略——可能是由于誤報而有意忽略它們,或者是你準備故意破壞規則。
  8不要對 Docker Hub 使用 Docker 內容信任
  為了驗證你使用的基礎鏡像確實(shí)是由該鏡像背后的公司構建和推送的,你可以使用 Docker 內容信任(見(jiàn)官方文檔)特性。只需在運行 docker build 或 docker pull 時(shí)將 DOCKER_CONTENT_TRUST 環(huán)境變量設為“1“即可啟用該特性。Docker 守護進(jìn)程將拒絕提取沒(méi)有經(jīng)過(guò)發(fā)布者簽名的鏡像。
  不幸的是,大約一年前開(kāi)始社區就不再以這種方式簽名鏡像了。就連 Docker Inc. 也在 2020 年 12 月停止了簽名官方 Docker 鏡像,也沒(méi)有官方解釋。問(wèn)題更大的是如果你使用“docker pull docker:latest”這樣的命令,只會(huì )下載一個(gè)過(guò)時(shí)很久的鏡像。
  你可以查看一下鏡像簽名的其他實(shí)現,比如說(shuō) cosign(不過(guò)我還沒(méi)試過(guò))。
  9掃描你自己的代碼是否有安全問(wèn)題
  安全問(wèn)題通常來(lái)源于其他人的代碼,也就是流行的第三方依賴(lài)。因為它們應用廣泛,所以在黑客那里是“有利可圖“的。然而,有時(shí)是你自己的代碼在作怪。例如,你可能不小心實(shí)現了 SQL 注入的可能性、堆棧溢出的錯誤,等等。
  為了找到這些問(wèn)題,你可以使用所謂的 SAST(靜態(tài)應用安全測試)工具。一方面,有一些特定于編程語(yǔ)言的工具(你必須單獨研究),如 Python 的 bandit,或 Java 的 Checkstyle/Spotbugs。另一方面,還有一些支持多種編程語(yǔ)言和框架的工具套件(其中一些是非免費 / 商業(yè)的),如 SonarQube(對于它還有 SonarLint IDE 插件)。
  在實(shí)踐中,安全掃描有兩種基本方法:
  連續(自動(dòng))掃描:你創(chuàng )建一個(gè) CI 作業(yè),在每次推送時(shí)掃描你的代碼。這可以讓你的代碼安全性保持在一個(gè)較高的水平上,但你必須弄清楚如何忽略誤報(這是一項持續的維護工作)。如果你使用 GitLab,可能還會(huì )發(fā)現 GitLab 的免費 SAST 功能很有趣。
  不定期(手動(dòng))掃描:團隊中一些有安全意識的成員在本地運行安全檢查,例如每月一次或每次發(fā)布前,并手動(dòng)查看結果。
  10使用 docker-slim 來(lái)刪除不必要的文件
  docker-slim 工具可以獲取大型 Docker 鏡像,臨時(shí)運行它們,分析哪些文件在臨時(shí)容器中是被真正使用的,然后生成一個(gè)新的、單層的 Docker 鏡像——其中所有未使用的文件都會(huì )被刪除。這樣做有兩個(gè)好處: 查看全部

  12 個(gè)優(yōu)化 Docker 鏡像安全性的技巧
  
  作者 |Marius出品|
  本文介紹了 12 個(gè)優(yōu)化 Docker 鏡像安全性的技巧。每個(gè)技巧都解釋了底層的攻擊載體,以及一個(gè)或多個(gè)緩解方法。這些技巧包括了避免泄露構建密鑰、以非 root 用戶(hù)身份運行,或如何確保使用最新的依賴(lài)和更新等。
  1前言
  當你是剛開(kāi)始使用 Docker 的新手時(shí),你很可能會(huì )創(chuàng )建不安全的 Docker 鏡像,使攻擊者很容易借此接管容器,甚至可能接管整個(gè)主機,然后滲透到你公司的其他基礎設施中。
  可以被濫用來(lái)接管你的系統的攻擊向量有很多,例如:
  下面的各個(gè)章節講解了能夠優(yōu)化你的鏡像安全性的各種方法。它們是按重要性 / 影響程度排序的,也就是說(shuō)排名靠前的方法更重要。
  2避免泄露構建密鑰
  構建密鑰是只在構建 Docker 鏡像時(shí)需要的憑證(不是在運行時(shí))。例如,你可能想在你的鏡像中包含某個(gè)應用程序的一個(gè)編譯版本,這個(gè)應用的源代碼是閉源的,并且其 Git 存儲庫是有訪(fǎng)問(wèn)保護的。在構建鏡像時(shí),你需要克隆 Git 存儲庫(這需要構建密鑰,例如該存儲庫的 SSH 訪(fǎng)問(wèn)密鑰),從源代碼構建應用程序,然后再刪除源代碼(和密鑰)。
  “泄露“構建密鑰是說(shuō)你不小心把這種密鑰烘焙到了你的鏡像的某個(gè)層中。這種情況很?chē)乐?,因為拉取你的鏡像的所有人都可以檢索到這些機密。這個(gè)問(wèn)題源于這樣一個(gè)事實(shí),即 Docker 鏡像是以純粹的加法方式逐層構建的。你在一個(gè)層中刪除的文件只是被“標記”為已刪除,但拉取你鏡像的人們仍然可以使用高級工具訪(fǎng)問(wèn)它們。
  可以使用以下兩種方法之一來(lái)避免泄露構建密鑰。
  多階段構建
  Docker 多階段構建(官方文檔)有許多用例,例如加快你的鏡像構建速度,或減少鏡像大小。本系列的其他文章會(huì )詳細介紹其他用例??傊?,你也可以通過(guò)多階段構建來(lái)避免泄露構建密鑰,如下所示:
  BuildKit 的密鑰背景知識如果你使用 docker build 進(jìn)行構建,可以實(shí)際執行構建的后端選項不止一個(gè)。其中較新和較快的后端是 BuildKit,你需要在 Linux 上設置環(huán)境變量 DOCKER_BUILDKIT=1 來(lái)顯式啟用它。注意,BuildKit 在 Windows/MacOS 的 Docker for Desktop 上是默認啟用的。
  正如這里的文檔所解釋的(閱讀它們以了解更多細節),BuildKit 構建引擎支持 Dockerfile 中的額外語(yǔ)法。要使用構建密鑰,請在你的 Dockerfile 中放入類(lèi)似下面這樣的內容:
  RUN --mount=type=secret,id=mysecret,dst=/foobar
  當 RUN 語(yǔ)句被執行時(shí),密鑰將對這個(gè)構建容器可用,但不會(huì )將密鑰本身(這里是:/foobar 文件夾)放入構建的鏡像中。你需要在運行 docker build 命令時(shí)指定密鑰的源文件 / 文件夾(位于主機上)的路徑,例如:
  docker build --secret id=mysecret,src=mysecret.txt -t sometag
  不過(guò)有一點(diǎn)需要注意:你不能通過(guò) docker-compose up --build 來(lái)構建需要密鑰的鏡像,因為 Docker-compose 還不支持用于構建的 --secret 參數,見(jiàn) GitHub 問(wèn)題。如果你依賴(lài) docker-compose 的構建,請使用方法 1(多階段構建)。
  題外話(huà):不要推送在開(kāi)發(fā)機上構建的鏡像
  你應該一直在一個(gè)干凈的環(huán)境中構建和推送鏡像(例如 CI/CD 管道),其中構建代理會(huì )將你的存儲庫克隆到一個(gè)新目錄。
  使用本地開(kāi)發(fā)機器進(jìn)行構建的問(wèn)題是,你的本地 Git 存儲庫的“工作樹(shù)“可能是臟的。例如,它可能包含有開(kāi)發(fā)過(guò)程中需要的密鑰文件,例如對中轉甚至生產(chǎn)服務(wù)器的訪(fǎng)問(wèn)密鑰。如果沒(méi)有通過(guò).dockerignore 排除這些文件,那么 Dockerfile 中的“COPY . .“等語(yǔ)句可能會(huì )意外導致這些密鑰泄露到最終鏡像中。
  3以非 root 用戶(hù)身份運行
  默認情況下,當有人通過(guò)“docker runyourImage:yourTag“運行你的鏡像時(shí),這個(gè)容器(以及你在 ENTRYPOINT/CMD 中的程序)會(huì )以 root 用戶(hù)身份運行(在容器和主機上)。這給了一個(gè)使用某種漏洞在你的運行容器中獲得 shell 權限的攻擊者以下權力:
  為了避免這種情況,你應該以非 root 用戶(hù)(你在 docker build 過(guò)程中創(chuàng )建的一些用戶(hù))的身份運行你的應用程序。在你的 Dockerfile 中的某個(gè)地方(通常是在結尾處)放置以下語(yǔ)句:
  # Create a new user (including a home-directory, which is optional)RUN useradd --create-home appuser# Switch to this userUSER appuser
  Dockerfile 中所有在 USER appuser 語(yǔ)句之后的命令(如 RUN、CMD 或 ENTRYPOINT)都將以這個(gè)用戶(hù)運行。這里有一些需要注意的地方:
  4使用最新的基礎鏡像構建和更新系統包
  如果你使用的基礎鏡像包含了某個(gè)真正的 Linux 發(fā)行版(如 Debian、Ubuntu 或 alpine 鏡像)的全部工具集,其中包括一個(gè)軟件包管理器,建議使用該軟件包管理器來(lái)安裝所有可用的軟件包更新。
  背景知識基礎鏡像是由某人維護的,他配置了 CI/CD 管道計劃來(lái)構建基礎鏡像,并定期推送到 Docker Hub。你無(wú)法控制這個(gè)時(shí)間間隔,而且經(jīng)常發(fā)生的情況是,在該管道將更新的 Docker 鏡像推送到 Docker Hub 之前,Linux 發(fā)行版的包注冊表(例如通過(guò) apt)中已經(jīng)有了安全補丁。例如,即使基礎鏡像每周推送一次,也有可能在最近的鏡像發(fā)布幾小時(shí)或幾天后出現安全更新。
  因此,最好總是運行更新本地軟件包數據庫和安裝更新的包管理器命令,采用無(wú)人值守模式(不需要用戶(hù)確認)。每個(gè) Linux 發(fā)行版的這個(gè)命令都不一樣。
  例如,對于 Ubuntu、Debian 或衍生的發(fā)行版,使用 RUN apt-get update && apt-get -y upgrade
  另一個(gè)重要的細節是,你需要告訴 Docker(或你使用的任何鏡像構建工具)來(lái)刷新基礎鏡像。否則,如果你引用一個(gè)基礎鏡像,比如 python:3(而 Docker 在其本地鏡像緩存中已經(jīng)有了這樣一個(gè)鏡像),Docker 甚至不會(huì )檢查 Docker Hub 上是否存在更新的 python:3 版本。為了擺脫這種行為,你應該使用這個(gè)命令:
  docker build --pull
  這可以確保 Docker 在構建鏡像之前拉取你的 Dockerfile 中 FROM 語(yǔ)句中提到的鏡像的更新。
  你還應該注意 Docker 的層緩存機制,它會(huì )讓你的鏡像變得陳舊,因為 RUN 命令的層是緩存的,直到基礎鏡像維護者發(fā)布新版本的基礎鏡像才刷新。如果你發(fā)現基礎鏡像的發(fā)布頻率相當低(比如少于一周一次),那么定期(比如每周一次)重建你的鏡像并禁用層緩存是個(gè)好主意。你可以運行以下命令來(lái)做到這一點(diǎn):
  docker build --pull --no-cache
  5定期更新第三方依賴(lài)
  你編寫(xiě)的軟件是基于第三方的依賴(lài),也就是由其他人制作的軟件。這包括了:
  如果你的鏡像中的這些依賴(lài)過(guò)時(shí)了,就會(huì )增加攻擊面,因為過(guò)時(shí)的依賴(lài)往往有可利用的安全漏洞。
  你可以定期使用 SCA(軟件組件分析)工具來(lái)解決這個(gè)問(wèn)題,比如 Renovate Bot。這些工具(半)自動(dòng)將你聲明的第三方依賴(lài)更新為最新版本,例如在你的 Dockerfile、Python 的 requirements.txt、NPM 的 packages.json 等文件中聲明的列表。你需要設計你的 CI 管道,使 SCA 工具所做的更改自動(dòng)觸發(fā)你的鏡像的 re-build。
  這種自動(dòng)觸發(fā)的鏡像重建對于處在只維護模式,但代碼仍將被客戶(hù)在生產(chǎn)環(huán)境中使用(客戶(hù)希望它是安全的)的項目特別有用。在維護期間,你不再開(kāi)發(fā)新的特性,也不會(huì )構建新的鏡像,因為沒(méi)有新的提交(由你做出)來(lái)觸發(fā)新的構建。然而,由 SCA 工具做出的提交確實(shí)會(huì )再次觸發(fā)鏡像構建。
  你可以在我的相關(guān)博文中找到更多關(guān)于 Renovate bot 的細節。
  6對你的鏡像進(jìn)行漏洞掃描
  即使你執行了上述建議,比如說(shuō)你的鏡像總是使用最新的第三方依賴(lài),它仍然可能是不安全的(例如一個(gè)依賴(lài)已經(jīng)被棄用的情況)。在這種情況下,“不安全“意味著(zhù)一個(gè)(或多個(gè))依賴(lài)有已知的安全漏洞(在一些 CVE 數據庫中注冊)。
  出于這個(gè)原因,你可以給你的 Docker 鏡像提供某種工具來(lái)掃描所有包含的文件,以找到這種漏洞。這些工具有兩種形式:
  你顯式調用的 CLI 工具(例如在 CI 管道中),比如說(shuō) Trivy(OSS,在 CI 管道中非常容易使用,見(jiàn) Trivy 文檔)、Clair(OSS,但設置和使用比 Trivy 更復雜),或 Snyk(通過(guò)“docker scan“集成到 Docker CLI 中,見(jiàn) cheat sheet,但只有有限的免費計劃!)
  集成到你推送鏡像的鏡像注冊中心的掃描器,如 Harbor(內部使用 Clair 或 Trivy)。還有一些商業(yè)產(chǎn)品,如 Anchore。
  因為這些掃描器是通用的,它們還試圖覆蓋一大堆包注冊表,所以可能不會(huì )特別為你在自己項目中使用的編程語(yǔ)言或包注冊表定制。有時(shí),你應該調查你的編程語(yǔ)言生態(tài)系統提供了哪些工具。例如,對于 Python 來(lái)說(shuō)就有一個(gè)專(zhuān)門(mén)針對 Python 包的安全工具。
  7掃描你的 Dockerfile 是否違反了最佳實(shí)踐
  有時(shí),問(wèn)題來(lái)自于你在 Dockerfile 中放置的語(yǔ)句,這些語(yǔ)句是不好的實(shí)踐(但你沒(méi)有意識到)。為此可以使用諸如 checkov、Conftest、trivy 或 hadolint 等工具,它們是 Dockerfile 的 linter。為了選擇正確的工具,你需要查看它的默認規則 / 政策。例如,hadolint 比 checkov 或 conftest 提供的規則更多,因為它是專(zhuān)門(mén)針對 Dockerfiles 的。這些工具也是相互補充的,因此在你的 Dockerfiles 上運行多個(gè)工具(如 hadolint 和 trivy)確實(shí)是有意義的。不過(guò)要做好準備,因為你需要維護“忽略文件“,在這個(gè)文件中的規則會(huì )被忽略——可能是由于誤報而有意忽略它們,或者是你準備故意破壞規則。
  8不要對 Docker Hub 使用 Docker 內容信任
  為了驗證你使用的基礎鏡像確實(shí)是由該鏡像背后的公司構建和推送的,你可以使用 Docker 內容信任(見(jiàn)官方文檔)特性。只需在運行 docker build 或 docker pull 時(shí)將 DOCKER_CONTENT_TRUST 環(huán)境變量設為“1“即可啟用該特性。Docker 守護進(jìn)程將拒絕提取沒(méi)有經(jīng)過(guò)發(fā)布者簽名的鏡像。
  不幸的是,大約一年前開(kāi)始社區就不再以這種方式簽名鏡像了。就連 Docker Inc. 也在 2020 年 12 月停止了簽名官方 Docker 鏡像,也沒(méi)有官方解釋。問(wèn)題更大的是如果你使用“docker pull docker:latest”這樣的命令,只會(huì )下載一個(gè)過(guò)時(shí)很久的鏡像。
  你可以查看一下鏡像簽名的其他實(shí)現,比如說(shuō) cosign(不過(guò)我還沒(méi)試過(guò))。
  9掃描你自己的代碼是否有安全問(wèn)題
  安全問(wèn)題通常來(lái)源于其他人的代碼,也就是流行的第三方依賴(lài)。因為它們應用廣泛,所以在黑客那里是“有利可圖“的。然而,有時(shí)是你自己的代碼在作怪。例如,你可能不小心實(shí)現了 SQL 注入的可能性、堆棧溢出的錯誤,等等。
  為了找到這些問(wèn)題,你可以使用所謂的 SAST(靜態(tài)應用安全測試)工具。一方面,有一些特定于編程語(yǔ)言的工具(你必須單獨研究),如 Python 的 bandit,或 Java 的 Checkstyle/Spotbugs。另一方面,還有一些支持多種編程語(yǔ)言和框架的工具套件(其中一些是非免費 / 商業(yè)的),如 SonarQube(對于它還有 SonarLint IDE 插件)。
  在實(shí)踐中,安全掃描有兩種基本方法:
  連續(自動(dòng))掃描:你創(chuàng )建一個(gè) CI 作業(yè),在每次推送時(shí)掃描你的代碼。這可以讓你的代碼安全性保持在一個(gè)較高的水平上,但你必須弄清楚如何忽略誤報(這是一項持續的維護工作)。如果你使用 GitLab,可能還會(huì )發(fā)現 GitLab 的免費 SAST 功能很有趣。
  不定期(手動(dòng))掃描:團隊中一些有安全意識的成員在本地運行安全檢查,例如每月一次或每次發(fā)布前,并手動(dòng)查看結果。
  10使用 docker-slim 來(lái)刪除不必要的文件
  docker-slim 工具可以獲取大型 Docker 鏡像,臨時(shí)運行它們,分析哪些文件在臨時(shí)容器中是被真正使用的,然后生成一個(gè)新的、單層的 Docker 鏡像——其中所有未使用的文件都會(huì )被刪除。這樣做有兩個(gè)好處:

21春南開(kāi)大學(xué)《商務(wù)智能方法與技術(shù)》在線(xiàn)作業(yè)參考答案

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 116 次瀏覽 ? 2022-05-01 15:43 ? 來(lái)自相關(guān)話(huà)題

  21春南開(kāi)大學(xué)《商務(wù)智能方法與技術(shù)》在線(xiàn)作業(yè)參考答案
  1、()是結構化、可以用語(yǔ)言、文字進(jìn)行口頭或書(shū)面表達的。
  A.顯性知識
  B.隱形知識
  C.兩者皆可
  D.兩者都不可
  答案:A
  --------------------------------
  2、選擇供應商一般以滿(mǎn)足時(shí)間約束的條件下()為目標。
  A.最小化物流成本
  B.最大化物流成本
  C.最小化維護成本
  D.最大化維護成本
  答案:A
  --------------------------------
  3、哪種數據庫工具采用矩陣方式來(lái)存儲數據?()
  A.多維數據庫工具(MOLAP)
  B.關(guān)系型數據庫工具(ROLAP)
  C.桌面型數據庫工具
  D.都不是
  答案:A
  --------------------------------
  4、()是一種以規范化的方式構造端到端的業(yè)務(wù)流程為中心,以持續地提高組織績(jì)效為目的的系統化方法。
  A.知識管理
  B.信息化管理
  C.方法管理
  D.業(yè)務(wù)流程管理
  答案:D
  --------------------------------
  5、知識管理將信息處理能力和人的創(chuàng )新能力相互結合,增強組織對環(huán)境的適應能力是哪個(gè)知識管理學(xué)派的說(shuō)法?()
  A.行為學(xué)派
  B.技術(shù)學(xué)派
  C.管理學(xué)派
  D.綜合學(xué)派
  答案:D
  --------------------------------
  6、數據倉庫系統組成中,哪個(gè)部件是把數據從源數據中提取出來(lái),依定義部件的規則將不同數據格式的源數據轉換成數據倉庫的數據格式并裝載進(jìn)數據倉庫?()
  A.元數據庫及元數據管理部件
  B.數據轉換部件
  C.數據集成部件
  D.數據倉庫管理部件
  答案:B
  --------------------------------
  7、()根據文本的不同特征劃分為不同的類(lèi)。
  A.文本概括
  B.文本分類(lèi)
  C.文本聚類(lèi)
  D.都可以
  答案:C
  --------------------------------
  8、OLAP分析屬于哪種驅動(dòng)型發(fā)現?()
  A.驗證驅動(dòng)型
  B.經(jīng)驗驅動(dòng)型
  C.事實(shí)驅動(dòng)型
  D.發(fā)現驅動(dòng)型
  答案:A
  --------------------------------
  9、()針對包括Web頁(yè)面內容、頁(yè)面結構和用戶(hù)訪(fǎng)問(wèn)信息等在內的各種Web數據,應用數據挖掘方法發(fā)現有用的知識幫助人們從大量Web文檔集中發(fā)現隱藏的模式。
  A.內容挖掘
  B.結構挖掘
  C.文本挖掘
  D.使用挖掘
  答案:C
  --------------------------------
  10、()是基于網(wǎng)頁(yè)內容或其描述中抽取知識的過(guò)程。
  A.內容挖掘
  B.結構挖掘
  C.個(gè)性挖掘
  D.使用(日志)挖掘
  答案:A
  --------------------------------
  11、數據倉庫的前端工具集中,哪個(gè)工具是通過(guò)對信息的多種可能的觀(guān)察形式進(jìn)行快速、一致和交互性的存取,便于用戶(hù)對數據進(jìn)行深入的分析和觀(guān)察?()
  A.查詢(xún)/報表工具
  B.數據挖掘工具
  C.OLAP工具
  D.前端開(kāi)發(fā)工具
  答案:C
  --------------------------------
  12、歸咎(imputation)是處理()的一種方法。
  A.數據分析
  B.數據準備
  C.數據質(zhì)量
  D.空缺值
  答案:D
  --------------------------------
  13、多庫系統的限制主要表現在哪些方面?()
  A.可用性
  B.響應速度
  C.系統性能
  D.系統開(kāi)銷(xiāo)
  答案:ABCD
  --------------------------------
  14、數據清理處理包括哪些內容?()
  A.格式標準化
  B.異常數據清除
  C.錯誤糾正
  D.重復數據清除
  答案:ABCD
  --------------------------------
  15、傳統的建模方法注意力主要集中于()兩個(gè)階段。
  A.模型設計
  B.模型實(shí)現
  C.模型運行
  D.模型維護
  答案:AB
  --------------------------------
  16、Web挖掘分類(lèi)為()。
  A.內容挖掘
  B.結構挖掘
  C.個(gè)性挖掘
  D.使用挖掘
  答案:ABD
  --------------------------------
  17、Web挖掘是從大量Web文檔的集合C中發(fā)現()模式P的過(guò)程。
  A.隱含的
  B.明顯的
  C.相關(guān)的
  D.有用的
  答案:AD
  --------------------------------
  18、數據挖掘是指從數據中提取()信息并用它進(jìn)行決策的過(guò)程。
  A.正確的
  B.有用的
  C.未知的
  D.綜合的
  答案:ABCD
  --------------------------------
  19、業(yè)務(wù)流程管理包括()。
  A.流程分析
  B.流程定義與重定義
  C.資源分配
  D.流程質(zhì)量與效率測評和流程優(yōu)化
  答案:ABCD
  --------------------------------
  20、數據預處理包含哪些步驟?()
  A.數據清理
  B.數據集成
  C.數據變換
  D.數據歸約
  答案:ABCD
  --------------------------------
  21、數據導向型決策支持系統,可以用等()分析得到隱藏對決策有用的模式和規則。
  A.統計方法
  B.OLAP
  C.數據挖掘
  D.知識分析
  答案:ABC
  --------------------------------
  22、Web挖掘主要處理()等半結構、非結構化的數據,這些數據分布在Web文檔、Web服務(wù)器的日志、用戶(hù)cookies等。
  A.文本
  B.圖形
  C.圖像
  D.多媒體
  答案:ABC
  --------------------------------
  23、商務(wù)智能技術(shù)可以分析哪些數據類(lèi)型?()
  A.結構化數據
  B.半結構化數據
  C.非結構化數據
  D.靜態(tài)的歷史數據和動(dòng)態(tài)數據流
  答案:ABCD
  --------------------------------
  24、知識網(wǎng)絡(luò )是指人們溝通形成“知識活動(dòng)”的網(wǎng)絡(luò ),它既是知識活動(dòng)的場(chǎng)所,又是知識活動(dòng)的結果。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  25、業(yè)務(wù)流程是知識積累的重要工具,其運作過(guò)程是信息積累并轉變?yōu)橛杏弥R的過(guò)程。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  26、OLAP也可以說(shuō)是多維數據分析工具的集合。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  27、數據倉庫與知識管理系統的結合就是商務(wù)智能系統。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  28、Web數據的復雜性高于傳統的文本文檔。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  29、當一定數量的參與者都有某些權限的組合時(shí),可以把這些權限組合視為一個(gè)備選角色。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  30、知識的收集、加工、傳輸與利用貫穿著(zhù)決策各階段的工作過(guò)程。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  31、Web是一個(gè)動(dòng)態(tài)性較弱的信息源。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  32、隱性知識是指存在于人頭腦中的隱性的、非結構化、不可編碼的知識,是關(guān)于個(gè)人的思想、經(jīng)驗等。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  33、對用戶(hù)的敏感的原始數據進(jìn)行變換,以便數據的使用者不能對用戶(hù)的原始數據進(jìn)行查看,以此保護用戶(hù)的私有數據。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  34、當某屬性出現空缺值時(shí),應丟棄這個(gè)屬性。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  35、數據集市是部門(mén)級數據倉庫。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  36、知識管理是將動(dòng)態(tài)信息轉化為知識、利用這些知識進(jìn)行企業(yè)行為決策,并且在組織內實(shí)現知識共享的過(guò)程。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  37、Web媒體挖掘是指挖掘Web鏈接結構模式,即通過(guò)分析頁(yè)面鏈接的數量和對象,從而建立Web的鏈接結構模式。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  38、數據倉庫的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  39、基于關(guān)聯(lián)挖掘的自適應構件檢索指把關(guān)聯(lián)規則挖掘方法引入構件檢索。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  40、隱性知識可以被當做顯性知識進(jìn)行獲取。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  41、多媒體挖掘包括圖像挖掘、視頻挖掘和音頻挖掘等類(lèi)別。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  42、Web日志挖掘是從用戶(hù)訪(fǎng)問(wèn)日志(包括搜索引擎日志等)中獲取有價(jià)值的信息。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  43、顯性知識是指具有規范化、系統化的特點(diǎn),易于整理、溝通和分享的知識。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  44、信息也是數據,數據是信息的載體, 信息是對數據的解釋。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  45、知識管理是通過(guò)技術(shù)的手段(+)將人(P)與知識(K)充分結合,并通過(guò)知識共享的管理機制和文化(S),使知識的價(jià)值成指數級提升。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  46、構件檢索是構件庫研究中的重要問(wèn)題,有效的構件檢索機制能夠降低構件復用成本。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  47、鉆取、切片和切塊操作是為了完成對真實(shí)數據的匯總分析。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  48、對結果的解釋完全依賴(lài)于數據挖掘步驟的可視化輸出。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  49、流程是運用知識創(chuàng )造顧客價(jià)值的崗位流轉,企業(yè)的核心業(yè)務(wù)、研發(fā)和內部管理等流程都需要知識管理推動(dòng)。()
  A.錯誤
  B.正確
  答案:B
  -------------------------------- 查看全部

  21春南開(kāi)大學(xué)《商務(wù)智能方法與技術(shù)》在線(xiàn)作業(yè)參考答案
  1、()是結構化、可以用語(yǔ)言、文字進(jìn)行口頭或書(shū)面表達的。
  A.顯性知識
  B.隱形知識
  C.兩者皆可
  D.兩者都不可
  答案:A
  --------------------------------
  2、選擇供應商一般以滿(mǎn)足時(shí)間約束的條件下()為目標。
  A.最小化物流成本
  B.最大化物流成本
  C.最小化維護成本
  D.最大化維護成本
  答案:A
  --------------------------------
  3、哪種數據庫工具采用矩陣方式來(lái)存儲數據?()
  A.多維數據庫工具(MOLAP)
  B.關(guān)系型數據庫工具(ROLAP)
  C.桌面型數據庫工具
  D.都不是
  答案:A
  --------------------------------
  4、()是一種以規范化的方式構造端到端的業(yè)務(wù)流程為中心,以持續地提高組織績(jì)效為目的的系統化方法。
  A.知識管理
  B.信息化管理
  C.方法管理
  D.業(yè)務(wù)流程管理
  答案:D
  --------------------------------
  5、知識管理將信息處理能力和人的創(chuàng )新能力相互結合,增強組織對環(huán)境的適應能力是哪個(gè)知識管理學(xué)派的說(shuō)法?()
  A.行為學(xué)派
  B.技術(shù)學(xué)派
  C.管理學(xué)派
  D.綜合學(xué)派
  答案:D
  --------------------------------
  6、數據倉庫系統組成中,哪個(gè)部件是把數據從源數據中提取出來(lái),依定義部件的規則將不同數據格式的源數據轉換成數據倉庫的數據格式并裝載進(jìn)數據倉庫?()
  A.元數據庫及元數據管理部件
  B.數據轉換部件
  C.數據集成部件
  D.數據倉庫管理部件
  答案:B
  --------------------------------
  7、()根據文本的不同特征劃分為不同的類(lèi)。
  A.文本概括
  B.文本分類(lèi)
  C.文本聚類(lèi)
  D.都可以
  答案:C
  --------------------------------
  8、OLAP分析屬于哪種驅動(dòng)型發(fā)現?()
  A.驗證驅動(dòng)型
  B.經(jīng)驗驅動(dòng)型
  C.事實(shí)驅動(dòng)型
  D.發(fā)現驅動(dòng)型
  答案:A
  --------------------------------
  9、()針對包括Web頁(yè)面內容、頁(yè)面結構和用戶(hù)訪(fǎng)問(wèn)信息等在內的各種Web數據,應用數據挖掘方法發(fā)現有用的知識幫助人們從大量Web文檔集中發(fā)現隱藏的模式。
  A.內容挖掘
  B.結構挖掘
  C.文本挖掘
  D.使用挖掘
  答案:C
  --------------------------------
  10、()是基于網(wǎng)頁(yè)內容或其描述中抽取知識的過(guò)程。
  A.內容挖掘
  B.結構挖掘
  C.個(gè)性挖掘
  D.使用(日志)挖掘
  答案:A
  --------------------------------
  11、數據倉庫的前端工具集中,哪個(gè)工具是通過(guò)對信息的多種可能的觀(guān)察形式進(jìn)行快速、一致和交互性的存取,便于用戶(hù)對數據進(jìn)行深入的分析和觀(guān)察?()
  A.查詢(xún)/報表工具
  B.數據挖掘工具
  C.OLAP工具
  D.前端開(kāi)發(fā)工具
  答案:C
  --------------------------------
  12、歸咎(imputation)是處理()的一種方法。
  A.數據分析
  B.數據準備
  C.數據質(zhì)量
  D.空缺值
  答案:D
  --------------------------------
  13、多庫系統的限制主要表現在哪些方面?()
  A.可用性
  B.響應速度
  C.系統性能
  D.系統開(kāi)銷(xiāo)
  答案:ABCD
  --------------------------------
  14、數據清理處理包括哪些內容?()
  A.格式標準化
  B.異常數據清除
  C.錯誤糾正
  D.重復數據清除
  答案:ABCD
  --------------------------------
  15、傳統的建模方法注意力主要集中于()兩個(gè)階段。
  A.模型設計
  B.模型實(shí)現
  C.模型運行
  D.模型維護
  答案:AB
  --------------------------------
  16、Web挖掘分類(lèi)為()。
  A.內容挖掘
  B.結構挖掘
  C.個(gè)性挖掘
  D.使用挖掘
  答案:ABD
  --------------------------------
  17、Web挖掘是從大量Web文檔的集合C中發(fā)現()模式P的過(guò)程。
  A.隱含的
  B.明顯的
  C.相關(guān)的
  D.有用的
  答案:AD
  --------------------------------
  18、數據挖掘是指從數據中提取()信息并用它進(jìn)行決策的過(guò)程。
  A.正確的
  B.有用的
  C.未知的
  D.綜合的
  答案:ABCD
  --------------------------------
  19、業(yè)務(wù)流程管理包括()。
  A.流程分析
  B.流程定義與重定義
  C.資源分配
  D.流程質(zhì)量與效率測評和流程優(yōu)化
  答案:ABCD
  --------------------------------
  20、數據預處理包含哪些步驟?()
  A.數據清理
  B.數據集成
  C.數據變換
  D.數據歸約
  答案:ABCD
  --------------------------------
  21、數據導向型決策支持系統,可以用等()分析得到隱藏對決策有用的模式和規則。
  A.統計方法
  B.OLAP
  C.數據挖掘
  D.知識分析
  答案:ABC
  --------------------------------
  22、Web挖掘主要處理()等半結構、非結構化的數據,這些數據分布在Web文檔、Web服務(wù)器的日志、用戶(hù)cookies等。
  A.文本
  B.圖形
  C.圖像
  D.多媒體
  答案:ABC
  --------------------------------
  23、商務(wù)智能技術(shù)可以分析哪些數據類(lèi)型?()
  A.結構化數據
  B.半結構化數據
  C.非結構化數據
  D.靜態(tài)的歷史數據和動(dòng)態(tài)數據流
  答案:ABCD
  --------------------------------
  24、知識網(wǎng)絡(luò )是指人們溝通形成“知識活動(dòng)”的網(wǎng)絡(luò ),它既是知識活動(dòng)的場(chǎng)所,又是知識活動(dòng)的結果。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  25、業(yè)務(wù)流程是知識積累的重要工具,其運作過(guò)程是信息積累并轉變?yōu)橛杏弥R的過(guò)程。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  26、OLAP也可以說(shuō)是多維數據分析工具的集合。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  27、數據倉庫與知識管理系統的結合就是商務(wù)智能系統。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  28、Web數據的復雜性高于傳統的文本文檔。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  29、當一定數量的參與者都有某些權限的組合時(shí),可以把這些權限組合視為一個(gè)備選角色。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  30、知識的收集、加工、傳輸與利用貫穿著(zhù)決策各階段的工作過(guò)程。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  31、Web是一個(gè)動(dòng)態(tài)性較弱的信息源。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  32、隱性知識是指存在于人頭腦中的隱性的、非結構化、不可編碼的知識,是關(guān)于個(gè)人的思想、經(jīng)驗等。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  33、對用戶(hù)的敏感的原始數據進(jìn)行變換,以便數據的使用者不能對用戶(hù)的原始數據進(jìn)行查看,以此保護用戶(hù)的私有數據。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  34、當某屬性出現空缺值時(shí),應丟棄這個(gè)屬性。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  35、數據集市是部門(mén)級數據倉庫。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  36、知識管理是將動(dòng)態(tài)信息轉化為知識、利用這些知識進(jìn)行企業(yè)行為決策,并且在組織內實(shí)現知識共享的過(guò)程。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  37、Web媒體挖掘是指挖掘Web鏈接結構模式,即通過(guò)分析頁(yè)面鏈接的數量和對象,從而建立Web的鏈接結構模式。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  38、數據倉庫的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  39、基于關(guān)聯(lián)挖掘的自適應構件檢索指把關(guān)聯(lián)規則挖掘方法引入構件檢索。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  40、隱性知識可以被當做顯性知識進(jìn)行獲取。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  41、多媒體挖掘包括圖像挖掘、視頻挖掘和音頻挖掘等類(lèi)別。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  42、Web日志挖掘是從用戶(hù)訪(fǎng)問(wèn)日志(包括搜索引擎日志等)中獲取有價(jià)值的信息。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  43、顯性知識是指具有規范化、系統化的特點(diǎn),易于整理、溝通和分享的知識。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  44、信息也是數據,數據是信息的載體, 信息是對數據的解釋。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  45、知識管理是通過(guò)技術(shù)的手段(+)將人(P)與知識(K)充分結合,并通過(guò)知識共享的管理機制和文化(S),使知識的價(jià)值成指數級提升。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  46、構件檢索是構件庫研究中的重要問(wèn)題,有效的構件檢索機制能夠降低構件復用成本。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  47、鉆取、切片和切塊操作是為了完成對真實(shí)數據的匯總分析。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  48、對結果的解釋完全依賴(lài)于數據挖掘步驟的可視化輸出。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  49、流程是運用知識創(chuàng )造顧客價(jià)值的崗位流轉,企業(yè)的核心業(yè)務(wù)、研發(fā)和內部管理等流程都需要知識管理推動(dòng)。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------

內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(內部信息與外部信息源搜索引擎優(yōu)化方法的異同說(shuō)起)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2022-04-19 03:03 ? 來(lái)自相關(guān)話(huà)題

  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(內部信息與外部信息源搜索引擎優(yōu)化方法的異同說(shuō)起)
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同說(shuō)起優(yōu)化,很多人都認為是內部?jì)?yōu)化外部?jì)?yōu)化,但在我看來(lái),這二者并不一樣。內部?jì)?yōu)化講的是我們改變自己,將產(chǎn)品本身變得更加完善。如何充分認識客戶(hù)是搜索引擎優(yōu)化的主要目標,如何做好客戶(hù)體驗,是我們前期做好內部?jì)?yōu)化的重要目標。外部?jì)?yōu)化講的是我們發(fā)布的信息,如何將信息正確高效地發(fā)送給潛在用戶(hù),其實(shí),外部?jì)?yōu)化更多的是為我們已經(jīng)結果用戶(hù)帶來(lái)價(jià)值。
  外部?jì)?yōu)化更多是提高轉化率。做內部?jì)?yōu)化的重點(diǎn),在于改善我們的產(chǎn)品結構,提高售價(jià),吸引更多的用戶(hù)。但不論做內部?jì)?yōu)化還是外部?jì)?yōu)化,我們都要以客戶(hù)體驗為目標,我們需要獲取到我們能給用戶(hù)帶來(lái)的價(jià)值,提高我們的轉化率。綜上所述,內部?jì)?yōu)化更多的是為客戶(hù)帶來(lái)價(jià)值。所以說(shuō),在內部?jì)?yōu)化這一塊,我們要比外部?jì)?yōu)化要更注重客戶(hù)體驗,才能促進(jìn)轉化率。
  說(shuō)起網(wǎng)絡(luò )優(yōu)化,內部?jì)?yōu)化通常講產(chǎn)品相關(guān)性,外部?jì)?yōu)化主要是針對廣告的。由于站內廣告一般都是站內seo技術(shù)提供商提供的產(chǎn)品,站外的廣告主要是品牌宣傳,相對來(lái)說(shuō),站內廣告主要依賴(lài)搜索引擎,而站外的廣告主要依賴(lài)自己生產(chǎn)廣告位,然后將產(chǎn)品推送給目標客戶(hù)??梢钥吹?,對于不同的廣告主,廣告位的選擇也有很大不同。如果是品牌宣傳,則產(chǎn)品相關(guān)性要求相對高一些,如果是公司自己生產(chǎn)的廣告位則對產(chǎn)品相關(guān)性要求相對要低一些。
  所以,站內廣告與站外廣告的選擇也有很大差別。站內廣告多以seo技術(shù)為主,seo優(yōu)化服務(wù)為輔,站外廣告則多以品牌宣傳為主,更多注重做的是品牌和產(chǎn)品的相關(guān)性,如果站內廣告沒(méi)有做好,就不容易做好站外廣告。對于網(wǎng)絡(luò )優(yōu)化來(lái)說(shuō),外部?jì)?yōu)化也有不同的方式。他們的根本上都是想提高自己企業(yè)的產(chǎn)品銷(xiāo)量。相對來(lái)說(shuō),更多是通過(guò)站外的優(yōu)化,來(lái)提高我們的轉化率。
  這里分為兩種,一種是推送本公司產(chǎn)品相關(guān)的外部廣告。另一種是通過(guò)推送好賣(mài)的產(chǎn)品或其他平臺賣(mài)不出去的產(chǎn)品,來(lái)提高銷(xiāo)量。網(wǎng)絡(luò )優(yōu)化,在整個(gè)互聯(lián)網(wǎng)發(fā)展的近三十年中,變化并不明顯,但在近兩年變化卻很明顯。隨著(zhù)互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的公司主要的客戶(hù)都是傳統行業(yè),網(wǎng)絡(luò )并不是他們第一選擇,但很多網(wǎng)絡(luò )公司或商家都想做互聯(lián)網(wǎng)營(yíng)銷(xiāo),想在互聯(lián)網(wǎng)獲取更多的業(yè)務(wù),于是就出現了網(wǎng)絡(luò )推廣營(yíng)銷(xiāo)。
  但傳統行業(yè)的產(chǎn)品在互聯(lián)網(wǎng)上不好賣(mài),導致發(fā)展受限,所以很多公司不了解如何做好網(wǎng)絡(luò )推廣營(yíng)銷(xiāo)。為此,網(wǎng)絡(luò )營(yíng)銷(xiāo)有了很大變化,分為四種,即網(wǎng)站建設營(yíng)銷(xiāo),內容營(yíng)銷(xiāo),seo營(yíng)銷(xiāo),sem營(yíng)銷(xiāo),這四種營(yíng)銷(xiāo)方式可以相互結合。這里我們主要講一下seo營(yíng)銷(xiāo),網(wǎng)站建設營(yíng)銷(xiāo),內容營(yíng)銷(xiāo)和seo營(yíng)銷(xiāo)。 查看全部

  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(內部信息與外部信息源搜索引擎優(yōu)化方法的異同說(shuō)起)
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同說(shuō)起優(yōu)化,很多人都認為是內部?jì)?yōu)化外部?jì)?yōu)化,但在我看來(lái),這二者并不一樣。內部?jì)?yōu)化講的是我們改變自己,將產(chǎn)品本身變得更加完善。如何充分認識客戶(hù)是搜索引擎優(yōu)化的主要目標,如何做好客戶(hù)體驗,是我們前期做好內部?jì)?yōu)化的重要目標。外部?jì)?yōu)化講的是我們發(fā)布的信息,如何將信息正確高效地發(fā)送給潛在用戶(hù),其實(shí),外部?jì)?yōu)化更多的是為我們已經(jīng)結果用戶(hù)帶來(lái)價(jià)值。
  外部?jì)?yōu)化更多是提高轉化率。做內部?jì)?yōu)化的重點(diǎn),在于改善我們的產(chǎn)品結構,提高售價(jià),吸引更多的用戶(hù)。但不論做內部?jì)?yōu)化還是外部?jì)?yōu)化,我們都要以客戶(hù)體驗為目標,我們需要獲取到我們能給用戶(hù)帶來(lái)的價(jià)值,提高我們的轉化率。綜上所述,內部?jì)?yōu)化更多的是為客戶(hù)帶來(lái)價(jià)值。所以說(shuō),在內部?jì)?yōu)化這一塊,我們要比外部?jì)?yōu)化要更注重客戶(hù)體驗,才能促進(jìn)轉化率。
  說(shuō)起網(wǎng)絡(luò )優(yōu)化,內部?jì)?yōu)化通常講產(chǎn)品相關(guān)性,外部?jì)?yōu)化主要是針對廣告的。由于站內廣告一般都是站內seo技術(shù)提供商提供的產(chǎn)品,站外的廣告主要是品牌宣傳,相對來(lái)說(shuō),站內廣告主要依賴(lài)搜索引擎,而站外的廣告主要依賴(lài)自己生產(chǎn)廣告位,然后將產(chǎn)品推送給目標客戶(hù)??梢钥吹?,對于不同的廣告主,廣告位的選擇也有很大不同。如果是品牌宣傳,則產(chǎn)品相關(guān)性要求相對高一些,如果是公司自己生產(chǎn)的廣告位則對產(chǎn)品相關(guān)性要求相對要低一些。
  所以,站內廣告與站外廣告的選擇也有很大差別。站內廣告多以seo技術(shù)為主,seo優(yōu)化服務(wù)為輔,站外廣告則多以品牌宣傳為主,更多注重做的是品牌和產(chǎn)品的相關(guān)性,如果站內廣告沒(méi)有做好,就不容易做好站外廣告。對于網(wǎng)絡(luò )優(yōu)化來(lái)說(shuō),外部?jì)?yōu)化也有不同的方式。他們的根本上都是想提高自己企業(yè)的產(chǎn)品銷(xiāo)量。相對來(lái)說(shuō),更多是通過(guò)站外的優(yōu)化,來(lái)提高我們的轉化率。
  這里分為兩種,一種是推送本公司產(chǎn)品相關(guān)的外部廣告。另一種是通過(guò)推送好賣(mài)的產(chǎn)品或其他平臺賣(mài)不出去的產(chǎn)品,來(lái)提高銷(xiāo)量。網(wǎng)絡(luò )優(yōu)化,在整個(gè)互聯(lián)網(wǎng)發(fā)展的近三十年中,變化并不明顯,但在近兩年變化卻很明顯。隨著(zhù)互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的公司主要的客戶(hù)都是傳統行業(yè),網(wǎng)絡(luò )并不是他們第一選擇,但很多網(wǎng)絡(luò )公司或商家都想做互聯(lián)網(wǎng)營(yíng)銷(xiāo),想在互聯(lián)網(wǎng)獲取更多的業(yè)務(wù),于是就出現了網(wǎng)絡(luò )推廣營(yíng)銷(xiāo)。
  但傳統行業(yè)的產(chǎn)品在互聯(lián)網(wǎng)上不好賣(mài),導致發(fā)展受限,所以很多公司不了解如何做好網(wǎng)絡(luò )推廣營(yíng)銷(xiāo)。為此,網(wǎng)絡(luò )營(yíng)銷(xiāo)有了很大變化,分為四種,即網(wǎng)站建設營(yíng)銷(xiāo),內容營(yíng)銷(xiāo),seo營(yíng)銷(xiāo),sem營(yíng)銷(xiāo),這四種營(yíng)銷(xiāo)方式可以相互結合。這里我們主要講一下seo營(yíng)銷(xiāo),網(wǎng)站建設營(yíng)銷(xiāo),內容營(yíng)銷(xiāo)和seo營(yíng)銷(xiāo)。

內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(企業(yè)信息發(fā)布(一)_)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 87 次瀏覽 ? 2022-04-17 20:10 ? 來(lái)自相關(guān)話(huà)題

  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(企業(yè)信息發(fā)布(一)_)
  企業(yè)信息發(fā)布在網(wǎng)站,成為網(wǎng)頁(yè)形式的信息源(包括企業(yè)內部信息源和外部信息源)
  搜索引擎推廣的前四個(gè)目標,即通過(guò)流量的增加,可以轉化為企業(yè)最終收入的增加,可以稱(chēng)為轉化層。
  從各種搜索引擎策略到產(chǎn)生收入,期間的中間效應是網(wǎng)站流量增加
  用戶(hù)使用關(guān)鍵詞進(jìn)行搜索(對于分類(lèi)目錄,是分層目錄查詢(xún))
  通過(guò)優(yōu)化客戶(hù)網(wǎng)站的整個(gè)站點(diǎn),選擇一些主要的關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其到達搜索引擎的首頁(yè)位置,同時(shí)增加< @網(wǎng)站,并推動(dòng)更多長(cháng)尾 關(guān)鍵詞 有機排名提升。結合ppc競價(jià),我們可以制定精準的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,為公司帶來(lái)更多的訂單。
  網(wǎng)頁(yè)優(yōu)化中更重要的因素之一是網(wǎng)頁(yè)的標題標簽。編寫(xiě)標題標簽時(shí)通常需要考慮幾個(gè)因素。
  所有網(wǎng)頁(yè)都應該有自己獨特的標題或標簽。有很多 網(wǎng)站 犯了非常低級的錯誤,即所有頁(yè)面的標題都相同??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候來(lái)回復制了整個(gè)模板,所以HTML文件中的頭部信息也被復制了,沒(méi)有改變。
  標題標簽應該足夠吸引用戶(hù)的需求。網(wǎng)頁(yè)在搜索引擎結果中列出,頁(yè)面的標題來(lái)源于標題標簽。
  標題標簽應收錄 關(guān)鍵詞。
  . 轉化層是對前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所達到的效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。
  -/gbaccaf/-
  歡迎來(lái)到網(wǎng)站,我公司位于經(jīng)濟發(fā)達、交通發(fā)達、人口密集的中國經(jīng)濟中心城市深圳。具體地址為龍華街道玉翠社區石頭嶺龍觀(guān)路宏玉大廈13樓09室。負責人是黃宗忠。 查看全部

  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(企業(yè)信息發(fā)布(一)_)
  企業(yè)信息發(fā)布在網(wǎng)站,成為網(wǎng)頁(yè)形式的信息源(包括企業(yè)內部信息源和外部信息源)
  搜索引擎推廣的前四個(gè)目標,即通過(guò)流量的增加,可以轉化為企業(yè)最終收入的增加,可以稱(chēng)為轉化層。
  從各種搜索引擎策略到產(chǎn)生收入,期間的中間效應是網(wǎng)站流量增加
  用戶(hù)使用關(guān)鍵詞進(jìn)行搜索(對于分類(lèi)目錄,是分層目錄查詢(xún))
  通過(guò)優(yōu)化客戶(hù)網(wǎng)站的整個(gè)站點(diǎn),選擇一些主要的關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其到達搜索引擎的首頁(yè)位置,同時(shí)增加< @網(wǎng)站,并推動(dòng)更多長(cháng)尾 關(guān)鍵詞 有機排名提升。結合ppc競價(jià),我們可以制定精準的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,為公司帶來(lái)更多的訂單。
  網(wǎng)頁(yè)優(yōu)化中更重要的因素之一是網(wǎng)頁(yè)的標題標簽。編寫(xiě)標題標簽時(shí)通常需要考慮幾個(gè)因素。
  所有網(wǎng)頁(yè)都應該有自己獨特的標題或標簽。有很多 網(wǎng)站 犯了非常低級的錯誤,即所有頁(yè)面的標題都相同??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候來(lái)回復制了整個(gè)模板,所以HTML文件中的頭部信息也被復制了,沒(méi)有改變。
  標題標簽應該足夠吸引用戶(hù)的需求。網(wǎng)頁(yè)在搜索引擎結果中列出,頁(yè)面的標題來(lái)源于標題標簽。
  標題標簽應收錄 關(guān)鍵詞。
  . 轉化層是對前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所達到的效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。
  -/gbaccaf/-
  歡迎來(lái)到網(wǎng)站,我公司位于經(jīng)濟發(fā)達、交通發(fā)達、人口密集的中國經(jīng)濟中心城市深圳。具體地址為龍華街道玉翠社區石頭嶺龍觀(guān)路宏玉大廈13樓09室。負責人是黃宗忠。

內容分享:SEO搜索引擎優(yōu)化涉及的內容非常廣泛

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 169 次瀏覽 ? 2022-09-24 19:15 ? 來(lái)自相關(guān)話(huà)題

  內容分享:SEO搜索引擎優(yōu)化涉及的內容非常廣泛
  SEO搜索引擎優(yōu)化涉及的內容范圍非常廣泛,絕不是在頁(yè)面上堆放幾個(gè)關(guān)鍵詞那么簡(jiǎn)單。進(jìn)行關(guān)鍵字研究以了解學(xué)習者對主題內容的需求,網(wǎng)站內容已被擴展以更好地滿(mǎn)足學(xué)習者的需求。
  良好的網(wǎng)站結構和內鏈有助于提升用戶(hù)體驗,頁(yè)面優(yōu)化也讓用戶(hù)更容易掌握關(guān)鍵內容。 網(wǎng)站流量分析和策略改進(jìn)基于強調用戶(hù)體驗優(yōu)化的基本原則網(wǎng)站。與相關(guān)主題學(xué)習網(wǎng)站建立良好的外鏈關(guān)系,有助于相同或相似主題網(wǎng)站的用戶(hù)更有效地互動(dòng),豐富和拓展學(xué)習者更有效、更便捷地獲取主題知識掌握??梢哉f(shuō),專(zhuān)業(yè)學(xué)習網(wǎng)站SEO的全過(guò)程就是為了讓網(wǎng)站更好更強。
  
  可能有人認為專(zhuān)門(mén)學(xué)習的SEO網(wǎng)站違反了搜索引擎自主選擇資源的原則。事實(shí)上,合理合法的白帽 SEO 是搜索引擎的“最佳伴侶搜索引擎”。為了給在線(xiàn)學(xué)習者提供有效的學(xué)習資源,有必要尋找信息來(lái)源?;谥黝}的學(xué)習網(wǎng)站旨在對搜索引擎友好、易于收錄、內容豐富、主題突出,可以為SEO搜索引擎獲取信息源提供便利,滿(mǎn)足學(xué)習者的信息需求。及時(shí)。搜索引擎的有效性和實(shí)用價(jià)值會(huì )得到學(xué)習者的信任和肯定。相反,如果一個(gè)特定的研究網(wǎng)站是用不容易收錄創(chuàng )建的技術(shù)構建的,搜索引擎也可能會(huì )陷入混亂。
  各大SEO搜索引擎從來(lái)沒(méi)有反對過(guò)網(wǎng)站SEO。谷歌非常支持白帽搜索引擎優(yōu)化,專(zhuān)門(mén)安排了一批員工在博客、論壇和社交網(wǎng)絡(luò )上發(fā)布信息和回答問(wèn)題,并積極參與搜索引擎營(yíng)銷(xiāo)行業(yè)會(huì )議,以各種方式指導站長(cháng)。搜索引擎SEO優(yōu)化。
  近年來(lái)各大門(mén)戶(hù)網(wǎng)站網(wǎng)站對SEO優(yōu)化人員的需求和肯定都增加了。對此,服務(wù)于在線(xiàn)學(xué)習的專(zhuān)題學(xué)習網(wǎng)站也應以符合SEO要求、體現專(zhuān)題學(xué)習策略的方式進(jìn)行優(yōu)化構建,更好地發(fā)揮其學(xué)習價(jià)值,而專(zhuān)題學(xué)習 設計公司,網(wǎng)站制作公司,全站優(yōu)化!
  最新版本:SEO搜索引擎優(yōu)化:基礎、案例與實(shí)戰(第2版)
  本書(shū)系統地介紹了搜索引擎優(yōu)化(SEO)的方法。全書(shū)共分11章,包括SEO概述、搜索引擎概述、SEO準備工作、網(wǎng)站關(guān)鍵詞的優(yōu)化、網(wǎng)站的結構優(yōu)化、網(wǎng)站@的頁(yè)面優(yōu)化>、網(wǎng)站內容優(yōu)化、網(wǎng)站優(yōu)化、常用SEO工具、數據監控分析、移動(dòng)網(wǎng)站SEO。本書(shū)內容豐富,實(shí)戰性強。以數據思維為指導,用成功的實(shí)際案例進(jìn)行講解。不僅可以讓讀者了解SEO的基本知識,還可以幫助讀者掌握SEO的使用方法,提高網(wǎng)站的排名和排名。流動(dòng)的方法。
  
  【推薦】
  1.根據網(wǎng)站優(yōu)化實(shí)施的思路和核心流程展示,全面介紹有效的SEO實(shí)戰技術(shù),精選知識內容。 2. 專(zhuān)注實(shí)戰。沒(méi)有長(cháng)篇的理論描述,更多的是寫(xiě)實(shí)操技巧。 3. 豐富的例子和練習,易教易學(xué)。 4. 大量圖標和視頻,一目了然,通俗易懂。
  
  【作者】
  楊仁、程鵬、姚亞峰(主編)羅世軒、閆涵(副主編)。作者的團隊既有長(cháng)期從事高職電子商務(wù)專(zhuān)業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)教學(xué)的教師,也有具有豐富實(shí)踐經(jīng)驗的搜索引擎優(yōu)化人員。 查看全部

  內容分享:SEO搜索引擎優(yōu)化涉及的內容非常廣泛
  SEO搜索引擎優(yōu)化涉及的內容范圍非常廣泛,絕不是在頁(yè)面上堆放幾個(gè)關(guān)鍵詞那么簡(jiǎn)單。進(jìn)行關(guān)鍵字研究以了解學(xué)習者對主題內容的需求,網(wǎng)站內容已被擴展以更好地滿(mǎn)足學(xué)習者的需求。
  良好的網(wǎng)站結構和內鏈有助于提升用戶(hù)體驗,頁(yè)面優(yōu)化也讓用戶(hù)更容易掌握關(guān)鍵內容。 網(wǎng)站流量分析和策略改進(jìn)基于強調用戶(hù)體驗優(yōu)化的基本原則網(wǎng)站。與相關(guān)主題學(xué)習網(wǎng)站建立良好的外鏈關(guān)系,有助于相同或相似主題網(wǎng)站的用戶(hù)更有效地互動(dòng),豐富和拓展學(xué)習者更有效、更便捷地獲取主題知識掌握??梢哉f(shuō),專(zhuān)業(yè)學(xué)習網(wǎng)站SEO的全過(guò)程就是為了讓網(wǎng)站更好更強。
  
  可能有人認為專(zhuān)門(mén)學(xué)習的SEO網(wǎng)站違反了搜索引擎自主選擇資源的原則。事實(shí)上,合理合法的白帽 SEO 是搜索引擎的“最佳伴侶搜索引擎”。為了給在線(xiàn)學(xué)習者提供有效的學(xué)習資源,有必要尋找信息來(lái)源?;谥黝}的學(xué)習網(wǎng)站旨在對搜索引擎友好、易于收錄、內容豐富、主題突出,可以為SEO搜索引擎獲取信息源提供便利,滿(mǎn)足學(xué)習者的信息需求。及時(shí)。搜索引擎的有效性和實(shí)用價(jià)值會(huì )得到學(xué)習者的信任和肯定。相反,如果一個(gè)特定的研究網(wǎng)站是用不容易收錄創(chuàng )建的技術(shù)構建的,搜索引擎也可能會(huì )陷入混亂。
  各大SEO搜索引擎從來(lái)沒(méi)有反對過(guò)網(wǎng)站SEO。谷歌非常支持白帽搜索引擎優(yōu)化,專(zhuān)門(mén)安排了一批員工在博客、論壇和社交網(wǎng)絡(luò )上發(fā)布信息和回答問(wèn)題,并積極參與搜索引擎營(yíng)銷(xiāo)行業(yè)會(huì )議,以各種方式指導站長(cháng)。搜索引擎SEO優(yōu)化。
  近年來(lái)各大門(mén)戶(hù)網(wǎng)站網(wǎng)站對SEO優(yōu)化人員的需求和肯定都增加了。對此,服務(wù)于在線(xiàn)學(xué)習的專(zhuān)題學(xué)習網(wǎng)站也應以符合SEO要求、體現專(zhuān)題學(xué)習策略的方式進(jìn)行優(yōu)化構建,更好地發(fā)揮其學(xué)習價(jià)值,而專(zhuān)題學(xué)習 設計公司,網(wǎng)站制作公司,全站優(yōu)化!
  最新版本:SEO搜索引擎優(yōu)化:基礎、案例與實(shí)戰(第2版)
  本書(shū)系統地介紹了搜索引擎優(yōu)化(SEO)的方法。全書(shū)共分11章,包括SEO概述、搜索引擎概述、SEO準備工作、網(wǎng)站關(guān)鍵詞的優(yōu)化、網(wǎng)站的結構優(yōu)化、網(wǎng)站@的頁(yè)面優(yōu)化>、網(wǎng)站內容優(yōu)化、網(wǎng)站優(yōu)化、常用SEO工具、數據監控分析、移動(dòng)網(wǎng)站SEO。本書(shū)內容豐富,實(shí)戰性強。以數據思維為指導,用成功的實(shí)際案例進(jìn)行講解。不僅可以讓讀者了解SEO的基本知識,還可以幫助讀者掌握SEO的使用方法,提高網(wǎng)站的排名和排名。流動(dòng)的方法。
  
  【推薦】
  1.根據網(wǎng)站優(yōu)化實(shí)施的思路和核心流程展示,全面介紹有效的SEO實(shí)戰技術(shù),精選知識內容。 2. 專(zhuān)注實(shí)戰。沒(méi)有長(cháng)篇的理論描述,更多的是寫(xiě)實(shí)操技巧。 3. 豐富的例子和練習,易教易學(xué)。 4. 大量圖標和視頻,一目了然,通俗易懂。
  
  【作者】
  楊仁、程鵬、姚亞峰(主編)羅世軒、閆涵(副主編)。作者的團隊既有長(cháng)期從事高職電子商務(wù)專(zhuān)業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)教學(xué)的教師,也有具有豐富實(shí)踐經(jīng)驗的搜索引擎優(yōu)化人員。

建房產(chǎn)找中介加上大單位銷(xiāo)售人員,百度的視頻課程

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 96 次瀏覽 ? 2022-09-02 15:03 ? 來(lái)自相關(guān)話(huà)題

  建房產(chǎn)找中介加上大單位銷(xiāo)售人員,百度的視頻課程
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同百度的視頻課程課件/julaolai/523577457.html?frm=real-estate+veteran和正規中介機構合作你所在城市有沒(méi)有中介機構總部,如果有的話(huà),百度搜索“這家”,聯(lián)系他們,填寫(xiě)你的銷(xiāo)售地址與真實(shí)姓名,確定靠譜以后會(huì )給你一個(gè)官方網(wǎng)站的(這個(gè),很多中介機構進(jìn)網(wǎng)門(mén)檻相對較低,造成機構濫用市場(chǎng)資源)。
  
  有些中介,會(huì )自行搜索,去一些專(zhuān)業(yè)社區里面發(fā)布資源,免費發(fā)布的,作用大一些。via建房產(chǎn)找中介加上大單位銷(xiāo)售人員。
  您好!我們有個(gè)大單位的銷(xiāo)售人員,合作過(guò)一次,但不是很多,可以加微信,詳細了解一下。
  
  上海潤筑建筑設計有限公司,
  對于找中介是大家普遍遇到的問(wèn)題,給大家談一下心得體會(huì ):1.花錢(qián)找個(gè)專(zhuān)業(yè)公司幫助看房肯定會(huì )省心省力,但是大部分中介公司都是提前銷(xiāo)售一樓的樓棟,客戶(hù)在購房成功后才會(huì )跟你溝通你報的小區情況2.在網(wǎng)上找一個(gè)口碑可靠的,售后服務(wù)相對可靠一些,如果你因為個(gè)人原因看不了房了,是可以及時(shí)跟中介溝通的;3.自己對房產(chǎn)也不是非常了解,也不知道找一個(gè)真正的銷(xiāo)售是否靠譜,中介不是說(shuō)靠譜不靠譜,銷(xiāo)售看他們的素質(zhì),你不要輕易相信的你不懂的信息,要對他們有個(gè)基本的了解,比如剛需購房者,必須真正合適你的才是最好的,其次品牌性的的中介公司肯定比小作坊質(zhì)量好一些,畢竟是國家認證的4.中介費其實(shí)現在一直都沒(méi)有漲到讓人無(wú)法接受的地步,小幾萬(wàn)甚至幾萬(wàn)都可以接受,畢竟現在開(kāi)發(fā)商收你中介費基本上都是找中介公司代理你去簽約;5.現在金融信貸已經(jīng)比較普遍,貸款的額度還是很大的,可以通過(guò)貸款來(lái)解決這個(gè)問(wèn)題,按揭買(mǎi)房必須要找正規中介公司,一旦找到不靠譜的就糟心啦,肯定會(huì )拒絕你的,可以一定要親自過(guò)去看看。 查看全部

  建房產(chǎn)找中介加上大單位銷(xiāo)售人員,百度的視頻課程
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同百度的視頻課程課件/julaolai/523577457.html?frm=real-estate+veteran和正規中介機構合作你所在城市有沒(méi)有中介機構總部,如果有的話(huà),百度搜索“這家”,聯(lián)系他們,填寫(xiě)你的銷(xiāo)售地址與真實(shí)姓名,確定靠譜以后會(huì )給你一個(gè)官方網(wǎng)站的(這個(gè),很多中介機構進(jìn)網(wǎng)門(mén)檻相對較低,造成機構濫用市場(chǎng)資源)。
  
  有些中介,會(huì )自行搜索,去一些專(zhuān)業(yè)社區里面發(fā)布資源,免費發(fā)布的,作用大一些。via建房產(chǎn)找中介加上大單位銷(xiāo)售人員。
  您好!我們有個(gè)大單位的銷(xiāo)售人員,合作過(guò)一次,但不是很多,可以加微信,詳細了解一下。
  
  上海潤筑建筑設計有限公司,
  對于找中介是大家普遍遇到的問(wèn)題,給大家談一下心得體會(huì ):1.花錢(qián)找個(gè)專(zhuān)業(yè)公司幫助看房肯定會(huì )省心省力,但是大部分中介公司都是提前銷(xiāo)售一樓的樓棟,客戶(hù)在購房成功后才會(huì )跟你溝通你報的小區情況2.在網(wǎng)上找一個(gè)口碑可靠的,售后服務(wù)相對可靠一些,如果你因為個(gè)人原因看不了房了,是可以及時(shí)跟中介溝通的;3.自己對房產(chǎn)也不是非常了解,也不知道找一個(gè)真正的銷(xiāo)售是否靠譜,中介不是說(shuō)靠譜不靠譜,銷(xiāo)售看他們的素質(zhì),你不要輕易相信的你不懂的信息,要對他們有個(gè)基本的了解,比如剛需購房者,必須真正合適你的才是最好的,其次品牌性的的中介公司肯定比小作坊質(zhì)量好一些,畢竟是國家認證的4.中介費其實(shí)現在一直都沒(méi)有漲到讓人無(wú)法接受的地步,小幾萬(wàn)甚至幾萬(wàn)都可以接受,畢竟現在開(kāi)發(fā)商收你中介費基本上都是找中介公司代理你去簽約;5.現在金融信貸已經(jīng)比較普遍,貸款的額度還是很大的,可以通過(guò)貸款來(lái)解決這個(gè)問(wèn)題,按揭買(mǎi)房必須要找正規中介公司,一旦找到不靠譜的就糟心啦,肯定會(huì )拒絕你的,可以一定要親自過(guò)去看看。

seo信息優(yōu)化方法的異同性搜索引擎優(yōu)化師內部信息源大曝光!

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 105 次瀏覽 ? 2022-08-21 13:03 ? 來(lái)自相關(guān)話(huà)題

  seo信息優(yōu)化方法的異同性搜索引擎優(yōu)化師內部信息源大曝光!
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同性搜索引擎優(yōu)化師內部信息源大曝光!(seo信息優(yōu)化網(wǎng)站建設成本要投入多少錢(qián)/seo培訓機構現在的價(jià)格/seo優(yōu)化客戶(hù)之間該怎么選擇/如何花最少的錢(qián)快速提升站點(diǎn)的排名)
  
  odera不可信,作弊太多,相比的話(huà)google優(yōu)化還是可靠的。
  我個(gè)人認為,國內可信度最高的還是百度。不過(guò)全中國只有一家的效果就是非常不好。這個(gè)數據沒(méi)有任何意義,數據說(shuō)明不了什么。
  
  我來(lái)說(shuō)一個(gè)成功的案例吧,我今年春節期間在常州學(xué)習的一個(gè)微信公眾號公開(kāi)課。然后錄制了一整套教學(xué)視頻。公開(kāi)課所有嘉賓都會(huì )學(xué)習一遍教程,然后我聽(tīng)了一遍,只記得好像是有一個(gè)叫什么卓越加分點(diǎn)咨詢(xún)的工作人員,在職位我記得是一個(gè)高級seo專(zhuān)家。好像是,我看了一下,好像說(shuō)3天內來(lái)到我們公司工作的學(xué)員,就可以獲得他們的推薦,會(huì )得到他們的傭金。
 ?。ɡ蠈?shí)說(shuō)他們公司老板真的很豪爽,他們說(shuō)幫他們招生賺100w)如果真的這么好賺,為什么會(huì )在某些行業(yè)發(fā)現很多機會(huì ),而有些行業(yè)不賺錢(qián)呢?說(shuō)實(shí)話(huà),市場(chǎng)很大,你真的一點(diǎn)機會(huì )都沒(méi)有。分割線(xiàn)---。 查看全部

  seo信息優(yōu)化方法的異同性搜索引擎優(yōu)化師內部信息源大曝光!
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同性搜索引擎優(yōu)化師內部信息源大曝光!(seo信息優(yōu)化網(wǎng)站建設成本要投入多少錢(qián)/seo培訓機構現在的價(jià)格/seo優(yōu)化客戶(hù)之間該怎么選擇/如何花最少的錢(qián)快速提升站點(diǎn)的排名)
  
  odera不可信,作弊太多,相比的話(huà)google優(yōu)化還是可靠的。
  我個(gè)人認為,國內可信度最高的還是百度。不過(guò)全中國只有一家的效果就是非常不好。這個(gè)數據沒(méi)有任何意義,數據說(shuō)明不了什么。
  
  我來(lái)說(shuō)一個(gè)成功的案例吧,我今年春節期間在常州學(xué)習的一個(gè)微信公眾號公開(kāi)課。然后錄制了一整套教學(xué)視頻。公開(kāi)課所有嘉賓都會(huì )學(xué)習一遍教程,然后我聽(tīng)了一遍,只記得好像是有一個(gè)叫什么卓越加分點(diǎn)咨詢(xún)的工作人員,在職位我記得是一個(gè)高級seo專(zhuān)家。好像是,我看了一下,好像說(shuō)3天內來(lái)到我們公司工作的學(xué)員,就可以獲得他們的推薦,會(huì )得到他們的傭金。
 ?。ɡ蠈?shí)說(shuō)他們公司老板真的很豪爽,他們說(shuō)幫他們招生賺100w)如果真的這么好賺,為什么會(huì )在某些行業(yè)發(fā)現很多機會(huì ),而有些行業(yè)不賺錢(qián)呢?說(shuō)實(shí)話(huà),市場(chǎng)很大,你真的一點(diǎn)機會(huì )都沒(méi)有。分割線(xiàn)---。

內部信息源與外部信息搜索引擎優(yōu)化方法的異同

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 84 次瀏覽 ? 2022-08-13 12:23 ? 來(lái)自相關(guān)話(huà)題

  內部信息源與外部信息搜索引擎優(yōu)化方法的異同
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同我們常用的詞匯做seo,就需要首先了解seo需要了解什么知識,就需要了解什么是詞匯,什么是我們要了解的其他的詞匯。那么我就一一的來(lái)介紹下:chinesecentralknowledge是中國的一些基本知識titlewords:因為我們要分析了解很多關(guān)鍵詞都是怎么搜的,所以用這個(gè)來(lái)表示。
  
  有什么好處呢?就是可以我們可以從詞匯的深度挖掘來(lái)進(jìn)行采集。我們一般都是通過(guò)關(guān)鍵詞然后結合我們的產(chǎn)品或者標簽來(lái)進(jìn)行一個(gè)詞匯的搜索。這個(gè)是最基本的玩法,比如關(guān)鍵詞:內容。我們搜索的詞匯都是一些虛擬的相關(guān)的內容,其他的類(lèi)型,比如體育,我們發(fā)現有很多的相關(guān)的可以進(jìn)行采集。所以說(shuō)如果是想做關(guān)鍵詞,我們一定要通過(guò)這種搜索方式,很多時(shí)候通過(guò)搜索,是可以發(fā)現一些東西。
  2.brazilianknowledge(bk):來(lái)自香港的一些基本知識whois查詢(xún)。來(lái)自::比如網(wǎng)站是來(lái)自怎么樣的一個(gè)域名,網(wǎng)站的com域名是怎么樣的一個(gè)是。根據我們的網(wǎng)站去whois我們可以去發(fā)現一些信息。也可以根據很多的平臺去發(fā)現一些聯(lián)系方式等等。3.redirectlink(rtl):看網(wǎng)站一些引用別人網(wǎng)站的鏈接,來(lái)來(lái)源的一些頭銜是怎么樣的網(wǎng)站。
  
  一般都是可以去發(fā)現網(wǎng)站的一些引用的一些渠道。再一個(gè)就是百度在做搜索推廣的時(shí)候也會(huì )跟我們的搜索有很多的聯(lián)系。也是需要關(guān)注那些內容來(lái)源以及來(lái)源方式,百度一般不會(huì )被查詢(xún)到。我們這邊就說(shuō)到了一些,不好意思不排除一些,有些客戶(hù)實(shí)際上會(huì )問(wèn)我一些細節,比如說(shuō)你能不能去谷歌里面面試,是不是可以就是看你的whois可不可以去認證。
  這個(gè)是非常的正常的一個(gè),有的時(shí)候是確實(shí)是這樣子的。最后總結下來(lái)我們要了解很多的基本知識,然后去分析用戶(hù)的一些關(guān)鍵詞的一些需求,再去去篩選一些網(wǎng)站的相關(guān)內容,最后我們確定怎么樣的方法的一個(gè)優(yōu)化方式。大家最好都去加一下學(xué)習公開(kāi)課等等,用到seo的一些相關(guān)方面,才可以更加有針對性,從而更加的有效果。感謝看到這篇文章的朋友,您能夠幫忙轉發(fā),添加一下小編的微信,所有的知識在帶領(lǐng)大家學(xué)習!。 查看全部

  內部信息源與外部信息搜索引擎優(yōu)化方法的異同
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同我們常用的詞匯做seo,就需要首先了解seo需要了解什么知識,就需要了解什么是詞匯,什么是我們要了解的其他的詞匯。那么我就一一的來(lái)介紹下:chinesecentralknowledge是中國的一些基本知識titlewords:因為我們要分析了解很多關(guān)鍵詞都是怎么搜的,所以用這個(gè)來(lái)表示。
  
  有什么好處呢?就是可以我們可以從詞匯的深度挖掘來(lái)進(jìn)行采集。我們一般都是通過(guò)關(guān)鍵詞然后結合我們的產(chǎn)品或者標簽來(lái)進(jìn)行一個(gè)詞匯的搜索。這個(gè)是最基本的玩法,比如關(guān)鍵詞:內容。我們搜索的詞匯都是一些虛擬的相關(guān)的內容,其他的類(lèi)型,比如體育,我們發(fā)現有很多的相關(guān)的可以進(jìn)行采集。所以說(shuō)如果是想做關(guān)鍵詞,我們一定要通過(guò)這種搜索方式,很多時(shí)候通過(guò)搜索,是可以發(fā)現一些東西。
  2.brazilianknowledge(bk):來(lái)自香港的一些基本知識whois查詢(xún)。來(lái)自::比如網(wǎng)站是來(lái)自怎么樣的一個(gè)域名,網(wǎng)站的com域名是怎么樣的一個(gè)是。根據我們的網(wǎng)站去whois我們可以去發(fā)現一些信息。也可以根據很多的平臺去發(fā)現一些聯(lián)系方式等等。3.redirectlink(rtl):看網(wǎng)站一些引用別人網(wǎng)站的鏈接,來(lái)來(lái)源的一些頭銜是怎么樣的網(wǎng)站。
  
  一般都是可以去發(fā)現網(wǎng)站的一些引用的一些渠道。再一個(gè)就是百度在做搜索推廣的時(shí)候也會(huì )跟我們的搜索有很多的聯(lián)系。也是需要關(guān)注那些內容來(lái)源以及來(lái)源方式,百度一般不會(huì )被查詢(xún)到。我們這邊就說(shuō)到了一些,不好意思不排除一些,有些客戶(hù)實(shí)際上會(huì )問(wèn)我一些細節,比如說(shuō)你能不能去谷歌里面面試,是不是可以就是看你的whois可不可以去認證。
  這個(gè)是非常的正常的一個(gè),有的時(shí)候是確實(shí)是這樣子的。最后總結下來(lái)我們要了解很多的基本知識,然后去分析用戶(hù)的一些關(guān)鍵詞的一些需求,再去去篩選一些網(wǎng)站的相關(guān)內容,最后我們確定怎么樣的方法的一個(gè)優(yōu)化方式。大家最好都去加一下學(xué)習公開(kāi)課等等,用到seo的一些相關(guān)方面,才可以更加有針對性,從而更加的有效果。感謝看到這篇文章的朋友,您能夠幫忙轉發(fā),添加一下小編的微信,所有的知識在帶領(lǐng)大家學(xué)習!。

XLNet : 運行機制及和 Bert 的異同比較

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 109 次瀏覽 ? 2022-07-31 19:37 ? 來(lái)自相關(guān)話(huà)題

  XLNet : 運行機制及和 Bert 的異同比較
  出品社區:DataFun
  注:文末有驚喜,等你呦。
  這兩天,XLNet 貌似也引起了 NLP 圈的極大關(guān)注,從實(shí)驗數據看,在某些場(chǎng)景下,確實(shí) XLNet 相對 Bert 有很大幅度的提升。就像我們之前說(shuō)的,感覺(jué) Bert 打開(kāi)兩階段模式的魔法盒開(kāi)關(guān)后,在這條路上,會(huì )有越來(lái)越多的同行者,而 XLNet 就是其中比較引人注目的一位。當然,我估計很快我們會(huì )看到更多的這個(gè)模式下的新工作。未來(lái)兩年,在兩階段新模式 ( 預訓練 + Finetuning ) 下,應該會(huì )有更多的好工作涌現出來(lái)。根本原因在于:這個(gè)模式的潛力還沒(méi)有被充分挖掘,貌似還有很大的提升空間。當然,這也意味著(zhù) NLP 在未來(lái)兩年會(huì )有各種技術(shù)或者應用的突破,現在其實(shí)是進(jìn)入 NLP 領(lǐng)域非常好的時(shí)機。原因有兩個(gè),一個(gè)是 NLP 正面臨一個(gè)技術(shù)棧大的改朝換代的時(shí)刻,有很多空白等著(zhù)你去填補,容易出成績(jì);另外一點(diǎn),貌似 Bert+Transformer 有統一 NLP 各個(gè)應用領(lǐng)域的趨向,這意味著(zhù)此時(shí)進(jìn)入 NLP 領(lǐng)域,具備學(xué)習成本非常低的好處,和之前相比,投入產(chǎn)出比非常合算。這是兩個(gè)原因。當然,即使如此,想要學(xué)好 NLP ,持續的精力投入是必不可少的。有句老話(huà)說(shuō)得好:“永恒的愛(ài)大約持續三個(gè)月”,這句話(huà)其實(shí)對于很多對 NLP 感興趣的同學(xué)也成立:“對 NLP 的永恒的熱情大約能夠持續3到5天”,希望真的有興趣的同學(xué)能堅持一下,起碼持續7到8天,湊夠一個(gè)星期…..
  那么 XLNet 和 Bert 比,有什么異同?有什么模型方面的改進(jìn)?在哪些場(chǎng)景下特別有效?原因又是什么?本文通過(guò)論文思想解讀及實(shí)驗結果分析,試圖回答上述問(wèn)題。
  首先,XLNet 引入了自回歸語(yǔ)言模型以及自編碼語(yǔ)言模型的提法,這個(gè)思維框架我覺(jué)得挺好的,可以先簡(jiǎn)單說(shuō)明下。
  自回歸語(yǔ)言模型 ( Autoregressive LM )
  在 ELMO / BERT 出來(lái)之前,大家通常講的語(yǔ)言模型其實(shí)是根據上文內容預測下一個(gè)可能跟隨的單詞,就是常說(shuō)的自左向右的語(yǔ)言模型任務(wù),或者反過(guò)來(lái)也行,就是根據下文預測前面的單詞,這種類(lèi)型的 LM 被稱(chēng)為自回歸語(yǔ)言模型。GPT 就是典型的自回歸語(yǔ)言模型。ELMO 盡管看上去利用了上文,也利用了下文,但是本質(zhì)上仍然是自回歸 LM ,這個(gè)跟模型具體怎么實(shí)現有關(guān)系。ELMO 是做了兩個(gè)方向 ( 從左到右以及從右到左兩個(gè)方向的語(yǔ)言模型 ) ,但是是分別有兩個(gè)方向的自回歸 LM ,然后把 LSTM 的兩個(gè)方向的隱節點(diǎn)狀態(tài)拼接到一起,來(lái)體現雙向語(yǔ)言模型這個(gè)事情的。所以其實(shí)是兩個(gè)自回歸語(yǔ)言模型的拼接,本質(zhì)上仍然是自回歸語(yǔ)言模型。
  自回歸語(yǔ)言模型有優(yōu)點(diǎn)有缺點(diǎn),缺點(diǎn)是只能利用上文或者下文的信息,不能同時(shí)利用上文和下文的信息,當然,貌似 ELMO 這種雙向都做,然后拼接看上去能夠解決這個(gè)問(wèn)題,因為融合模式過(guò)于簡(jiǎn)單,所以效果其實(shí)并不是太好。它的優(yōu)點(diǎn),其實(shí)跟下游 NLP 任務(wù)有關(guān),比如生成類(lèi) NLP 任務(wù),比如文本摘要,機器翻譯等,在實(shí)際生成內容的時(shí)候,就是從左向右的,自回歸語(yǔ)言模型天然匹配這個(gè)過(guò)程。而 Bert 這種 DAE 模式,在生成類(lèi) NLP 任務(wù)中,就面臨訓練過(guò)程和應用過(guò)程不一致的問(wèn)題,導致生成類(lèi)的 NLP 任務(wù)到目前為止都做不太好。
  自編碼語(yǔ)言模型 ( Autoencoder LM )
  自回歸語(yǔ)言模型只能根據上文預測下一個(gè)單詞,或者反過(guò)來(lái),只能根據下文預測前面一個(gè)單詞。相比而言,Bert 通過(guò)在輸入 X 中隨機 Mask 掉一部分單詞,然后預訓練過(guò)程的主要任務(wù)之一是根據上下文單詞來(lái)預測這些被 Mask 掉的單詞,如果你對 Denoising Autoencoder 比較熟悉的話(huà),會(huì )看出,這確實(shí)是典型的 DAE 的思路。那些被 Mask 掉的單詞就是在輸入側加入的所謂噪音。類(lèi)似Bert這種預訓練模式,被稱(chēng)為 DAE LM 。
  這種 DAE LM 的優(yōu)缺點(diǎn)正好和自回歸 LM 反過(guò)來(lái),它能比較自然地融入雙向語(yǔ)言模型,同時(shí)看到被預測單詞的上文和下文,這是好處。缺點(diǎn)是啥呢?主要在輸入側引入 [Mask] 標記,導致預訓練階段和 Fine-tuning 階段不一致的問(wèn)題,因為 Fine-tuning 階段是看不到 [Mask] 標記的。DAE 嗎,就要引入噪音,[Mask] 標記就是引入噪音的手段,這個(gè)正常。
  XLNet 的出發(fā)點(diǎn)就是:能否融合自回歸 LM 和 DAE LM 兩者的優(yōu)點(diǎn)。就是說(shuō)如果站在自回歸 LM 的角度,如何引入和雙向語(yǔ)言模型等價(jià)的效果;如果站在 DAE LM 的角度看,它本身是融入雙向語(yǔ)言模型的,如何拋掉表面的那個(gè) [Mask] 標記,讓預訓練和 Fine-tuning 保持一致。當然,XLNet 還講到了一個(gè) Bert 被 Mask 單詞之間相互獨立的問(wèn)題,我相信這個(gè)不太重要,原因后面會(huì )說(shuō)。當然,我認為這點(diǎn)不重要的事情,純粹是個(gè)人觀(guān)點(diǎn),出錯難免,看看就完了,不用較真。
  XLNet 做了些什么
  上文說(shuō)過(guò),Bert 這種自編碼語(yǔ)言模型的好處是:能夠同時(shí)利用上文和下文,所以信息利用充分。對于很多 NLP 任務(wù)而言,典型的比如閱讀理解,在解決問(wèn)題的時(shí)候,是能夠同時(shí)看到上文和下文的,所以當然應該把下文利用起來(lái)。在 Bert 原始論文中,與 GPT1.0 的實(shí)驗對比分析也可以看出來(lái),BERT 相對 GPT 1.0 的性能提升,主要來(lái)自于雙向語(yǔ)言模型與單向語(yǔ)言模型的差異。這是 Bert 的好處,很明顯,Bert 之后的改進(jìn)模型,如果不能把雙向語(yǔ)言模型用起來(lái),那明顯是很吃虧的。當然,GPT 2.0 的作者不信這個(gè)邪,堅持沿用 GPT 1.0 單向語(yǔ)言模型的舊瓶,裝進(jìn)去了更高質(zhì)量更大規模預訓練數據的新酒,而它的實(shí)驗結果也說(shuō)明了,如果想改善預訓練語(yǔ)言模型,走這條擴充預序列模型訓練數據的路子,是個(gè)多快好但是不省錢(qián)的方向。這也進(jìn)一步說(shuō)明了,預訓練 LM 這條路,還遠遠沒(méi)有走完,還有很大的提升空間,比如最簡(jiǎn)單的提升方法就是加大數據規模,提升數據質(zhì)量。
  但是 Bert 的自編碼語(yǔ)言模型也有對應的缺點(diǎn),就是 XLNet 在文中指出的,第一個(gè)預訓練階段因為采取引入 [Mask] 標記來(lái) Mask 掉部分單詞的訓練模式,而 Fine-tuning 階段是看不到這種被強行加入的 Mask 標記的,所以?xún)蓚€(gè)階段存在使用模式不一致的情形,這可能會(huì )帶來(lái)一定的性能損失;另外一個(gè)是,Bert 在第一個(gè)預訓練階段,假設句子中多個(gè)單詞被 Mask 掉,這些被 Mask 掉的單詞之間沒(méi)有任何關(guān)系,是條件獨立的,而有時(shí)候這些單詞之間是有關(guān)系的,XLNet 則考慮了這種關(guān)系(關(guān)于這點(diǎn)原因是否可靠,后面會(huì )專(zhuān)門(mén)分析)。
  上面兩點(diǎn)是 XLNet 在第一個(gè)預訓練階段,相對 Bert 來(lái)說(shuō)要解決的兩個(gè)問(wèn)題。
  其實(shí)從另外一個(gè)角度更好理解 XLNet 的初衷和做法,我覺(jué)得這個(gè)估計是 XLNet 作者真正的思考出發(fā)點(diǎn),是啥呢?就是說(shuō)自回歸語(yǔ)言模型有個(gè)缺點(diǎn),要么從左到右,要么從右到左,盡管可以類(lèi)似 ELMO 兩個(gè)都做,然后再拼接的方式。但是跟 Bert 比,效果明顯不足夠好(這里面有 RNN 弱于 Transformer 的因素,也有雙向語(yǔ)言模型怎么做的因素)。那么,能不能類(lèi)似 Bert 那樣,比較充分地在自回歸語(yǔ)言模型中,引入雙向語(yǔ)言模型呢?因為 Bert 已經(jīng)證明了這是非常關(guān)鍵的一點(diǎn)。這一點(diǎn),想法簡(jiǎn)單,但是看上去貌似不太好做,因為從左向右的語(yǔ)言模型,如果我們當前根據上文,要預測某個(gè)單詞 Ti ,那么看上去它沒(méi)法看到下文的內容。具體怎么做才能讓這個(gè)模型:看上去仍然是從左向右的輸入和預測模式,但是其實(shí)內部已經(jīng)引入了當前單詞的下文信息呢?XLNet 在模型方面的主要貢獻其實(shí)是在這里。
  那么 XLNet 是怎么做到這一點(diǎn)的呢?其實(shí)思路也比較簡(jiǎn)潔,可以這么思考:XLNet 仍然遵循兩階段的過(guò)程,第一個(gè)階段是語(yǔ)言模型預訓練階段;第二階段是任務(wù)數據 Fine-tuning 階段。它主要希望改動(dòng)第一個(gè)階段,就是說(shuō)不像 Bert 那種帶 Mask 符號的 Denoising-autoencoder 的模式,而是采用自回歸 LM 的模式。就是說(shuō),看上去輸入句子 X 仍然是自左向右的輸入,看到 Ti 單詞的上文 Context_before ,來(lái)預測 Ti 這個(gè)單詞。但是又希望在 Context_before 里,不僅僅看到上文單詞,也能看到 Ti 單詞后面的下文 Context_after 里的下文單詞,這樣的話(huà),Bert 里面預訓練階段引入的 Mask 符號就不需要了,于是在預訓練階段,看上去是個(gè)標準的從左向右過(guò)程,Fine-tuning 當然也是這個(gè)過(guò)程,于是兩個(gè)環(huán)節就統一起來(lái)。當然,這是目標。剩下是怎么做到這一點(diǎn)的問(wèn)題。
  那么,怎么能夠在單詞 Ti 的上文中 Contenxt_before 中揉入下文 Context_after 的內容呢?你可以想想。XLNet 是這么做的,在預訓練階段,引入 Permutation Language Model 的訓練目標。什么意思呢?就是說(shuō),比如包含單詞 Ti 的當前輸入的句子 X ,由順序的幾個(gè)單詞構成,比如 x1,x2,x3,x4 四個(gè)單詞順序構成。我們假設,其中,要預測的單詞 Ti 是 x3 ,位置在 Position 3 ,要想讓它能夠在上文 Context_before 中,也就是 Position 1 或者 Position 2 的位置看到 Position 4 的單詞 x4 ??梢赃@么做:假設我們固定住 x3 所在位置,就是它仍然在 Position 3 ,之后隨機排列組合句子中的4個(gè)單詞,在隨機排列組合后的各種可能里,再選擇一部分作為模型預訓練的輸入 X 。比如隨機排列組合后,抽取出 x4,x2,x3,x1 這一個(gè)排列組合作為模型的輸入 X 。于是,x3 就能同時(shí)看到上文 x2 ,以及下文 x4 的內容了。這就是 XLNet 的基本思想,所以說(shuō),看了這個(gè)就可以理解上面講的它的初衷了吧:看上去仍然是個(gè)自回歸的從左到右的語(yǔ)言模型,但是其實(shí)通過(guò)對句子中單詞排列組合,把一部分 Ti 下文的單詞排到 Ti 的上文位置中,于是,就看到了上文和下文,但是形式上看上去仍然是從左到右在預測后一個(gè)單詞。
  當然,上面講的仍然是基本思想。難點(diǎn)其實(shí)在于具體怎么做才能實(shí)現上述思想。首先,需要強調一點(diǎn),盡管上面講的是把句子 X 的單詞排列組合后,再隨機抽取例子作為輸入,但是,實(shí)際上你是不能這么做的,因為 Fine-tuning 階段你不可能也去排列組合原始輸入。所以,就必須讓預訓練階段的輸入部分,看上去仍然是 x1,x2,x3,x4 這個(gè)輸入順序,但是可以在 Transformer 部分做些工作,來(lái)達成我們希望的目標。具體而言,XLNet 采取了 Attention 掩碼的機制,你可以理解為,當前的輸入句子是 X ,要預測的單詞 Ti 是第 i 個(gè)單詞,前面1到 i-1 個(gè)單詞,在輸入部分觀(guān)察,并沒(méi)發(fā)生變化,該是誰(shuí)還是誰(shuí)。但是在 Transformer 內部,通過(guò) Attention 掩碼,從 X 的輸入單詞里面,也就是 Ti 的上文和下文單詞中,隨機選擇 i-1 個(gè),放到 Ti 的上文位置中,把其它單詞的輸入通過(guò) Attention 掩碼隱藏掉,于是就能夠達成我們期望的目標(當然這個(gè)所謂放到 Ti 的上文位置,只是一種形象的說(shuō)法,其實(shí)在內部,就是通過(guò) Attention Mask ,把其它沒(méi)有被選到的單詞 Mask 掉,不讓它們在預測單詞 Ti 的時(shí)候發(fā)生作用,如此而已??粗?zhù)就類(lèi)似于把這些被選中的單詞放到了上文 Context_before 的位置了)。具體實(shí)現的時(shí)候,XLNet 是用“雙流自注意力模型”實(shí)現的,細節可以參考論文,但是基本思想就如上所述,雙流自注意力機制只是實(shí)現這個(gè)思想的具體方式,理論上,你可以想出其它具體實(shí)現方式來(lái)實(shí)現這個(gè)基本思想,也能達成讓Ti看到下文單詞的目標。
  
  這里簡(jiǎn)單說(shuō)下“雙流自注意力機制”,一個(gè)是內容流自注意力,其實(shí)就是標準的 Transformer 的計算過(guò)程;主要是引入了 Query 流自注意力,這個(gè)是干嘛的呢?其實(shí)就是用來(lái)代替 Bert 的那個(gè) [Mask] 標記的,因為 XLNet 希望拋掉 [Mask] 標記符號,但是比如知道上文單詞 x1,x2 ,要預測單詞 x3 ,此時(shí)在 x3 對應位置的 Transformer 最高層去預測這個(gè)單詞,但是輸入側不能看到要預測的單詞 x3 ,Bert 其實(shí)是直接引入 [Mask] 標記來(lái)覆蓋掉單詞 x3 的內容的,等于說(shuō) [Mask] 是個(gè)通用的占位符號。而 XLNet 因為要拋掉 [Mask] 標記,但是又不能看到 x3 的輸入,于是 Query 流,就直接忽略掉 x3 輸入了,只保留這個(gè)位置信息,用參數 w 來(lái)代表位置的 embedding 編碼。其實(shí) XLNet 只是扔了表面的 [Mask] 占位符號,內部還是引入 Query 流來(lái)忽略掉被 Mask 的這個(gè)單詞。和 Bert 比,只是實(shí)現方式不同而已。
  上面說(shuō)的 Attention 掩碼,我估計你還是沒(méi)了解它的意思,我再用例子解釋一下。Attention Mask 的機制,核心就是說(shuō),盡管當前輸入看上去仍然是 x1->x2->x3->x4 ,但是我們已經(jīng)改成隨機排列組合的另外一個(gè)順序 x3->x2->x4->x1 了,如果用這個(gè)例子用來(lái)從左到右訓練 LM ,意味著(zhù)當預測 x2 的時(shí)候,它只能看到上文 x3 ;當預測 x4 的時(shí)候,只能看到上文 x1 和 x2 ,以此類(lèi)推……這樣,比如對于 x2 來(lái)說(shuō),就看到了下文 x3 了。這種在輸入側維持表面的 X 句子單詞順序,但是其實(shí)在 Transformer 內部,看到的已經(jīng)是被重新排列組合后的順序,是通過(guò) Attention 掩碼來(lái)實(shí)現的。如上圖所示,輸入看上去仍然是 x1,x2,x3,x4 ,可以通過(guò)不同的掩碼矩陣,讓當前單詞 Xi 只能看到被排列組合后的順序 x3->x2->x4->x1 中自己前面的單詞。這樣就在內部改成了被預測單詞同時(shí)看到上下文單詞,但是輸入側看上去仍然維持原先的單詞順序了。關(guān)鍵要看明白上圖右側那個(gè)掩碼矩陣,我相信很多人剛開(kāi)始沒(méi)看明白,因為我剛開(kāi)始也沒(méi)看明白,因為沒(méi)有標出掩碼矩陣的單詞坐標,它的坐標是1-2-3-4,就是表面那個(gè) X 的單詞順序,通過(guò)掩碼矩陣,就能改成你想要的排列組合,并讓當前單詞看到它該看到的所謂上文,其實(shí)是摻雜了上文和下文的內容。這是 attention mask 來(lái)實(shí)現排列組合的背后的意思。
  上面講的 Permutation Language Model 是 XLNet 的主要理論創(chuàng )新,所以介紹的比較多,從模型角度講,這個(gè)創(chuàng )新還是挺有意思的,因為它開(kāi)啟了自回歸語(yǔ)言模型如何引入下文的一個(gè)思路,相信對于后續工作會(huì )有啟發(fā)。當然,XLNet 不僅僅做了這些,它還引入了其它的因素,也算是一個(gè)當前有效技術(shù)的集成體。感覺(jué) XLNet 就是 Bert、GPT 2.0 和 Transformer XL 的綜合體變身,首先,它通過(guò) PLM 預訓練目標,吸收了 Bert 的雙向語(yǔ)言模型;然后,GPT2.0 的核心其實(shí)是更多更高質(zhì)量的預訓練數據,這個(gè)明顯也被 XLNet 吸收進(jìn)來(lái)了;再然后,Transformer XL 的主要思想也被吸收進(jìn)來(lái),它的主要目標是解決 Transformer 對于長(cháng)文檔 NLP 應用不夠友好的問(wèn)題。
  以上是 XLNet 的幾個(gè)主要改進(jìn)點(diǎn),有模型創(chuàng )新方面的,有其它模型引入方面的,也有數據擴充方面的。那么,這些因素各自起到了什么作用呢?在后面我們會(huì )談。在談不同因素各自作用之前,我們先分析下 XLNet 和 Bert 的異同問(wèn)題。
  與 Bert 的預訓練過(guò)程的異同問(wèn)題
  盡管看上去,XLNet 在預訓練機制引入的 Permutation Language Model 這種新的預訓練目標,和 Bert 采用 Mask 標記這種方式,有很大不同。其實(shí)你深入思考一下,會(huì )發(fā)現,兩者本質(zhì)是類(lèi)似的。區別主要在于:Bert 是直接在輸入端顯示地通過(guò)引入 Mask 標記,在輸入側隱藏掉一部分單詞,讓這些單詞在預測的時(shí)候不發(fā)揮作用,要求利用上下文中其它單詞去預測某個(gè)被 Mask 掉的單詞;而 XLNet 則拋棄掉輸入側的 Mask 標記,通過(guò) Attention Mask 機制,在 Transformer 內部隨機 Mask 掉一部分單詞(這個(gè)被 Mask 掉的單詞比例跟當前單詞在句子中的位置有關(guān)系,位置越靠前,被 Mask 掉的比例越高,位置越靠后,被 Mask 掉的比例越低),讓這些被 Mask 掉的單詞在預測某個(gè)單詞的時(shí)候不發(fā)生作用。所以,本質(zhì)上兩者并沒(méi)什么太大的不同,只是 Mask 的位置,Bert 更表面化一些,XLNet 則把這個(gè)過(guò)程隱藏在了 Transformer 內部而已。這樣,就可以?huà)伒舯砻娴?[Mask] 標記,解決它所說(shuō)的預訓練里帶有 [Mask] 標記導致的和 Fine-tuning 過(guò)程不一致的問(wèn)題。至于說(shuō) XLNet 說(shuō)的,Bert 里面被 Mask 掉單詞的相互獨立問(wèn)題,也就是說(shuō),在預測某個(gè)被 Mask 單詞的時(shí)候,其它被 Mask 單詞不起作用,這個(gè)問(wèn)題,你深入思考一下,其實(shí)是不重要的,因為 XLNet 在內部 Attention Mask 的時(shí)候,也會(huì ) Mask 掉一定比例的上下文單詞,只要有一部分被 Mask 掉的單詞,其實(shí)就面臨這個(gè)問(wèn)題。而如果訓練數據足夠大,其實(shí)不靠當前這個(gè)例子,靠其它例子,也能彌補被 Mask 單詞直接的相互關(guān)系問(wèn)題,因為總有其它例子能夠學(xué)會(huì )這些單詞的相互依賴(lài)關(guān)系。
  我相信,通過(guò)改造 Bert 的預訓練過(guò)程,其實(shí)是可以模擬 XLNet 的 Permutation Language Model 過(guò)程的:Bert 目前的做法是,給定輸入句子 X ,隨機 Mask 掉15%的單詞,然后要求利用剩下的85%的單詞去預測任意一個(gè)被 Mask 掉的單詞,被 Mask 掉的單詞在這個(gè)過(guò)程中相互之間沒(méi)有發(fā)揮作用。如果我們把 Bert 的預訓練過(guò)程改造成:對于輸入句子,隨機選擇其中任意一個(gè)單詞 Ti ,只把這個(gè)單詞改成 Mask 標記,假設 Ti 在句子中是第 i 個(gè)單詞,那么此時(shí)隨機選擇 X 中的任意 i 個(gè)單詞,只用這 i 個(gè)單詞去預測被 Mask 掉的單詞。當然,這個(gè)過(guò)程理論上也可以在 Transformer 內采用 attention mask 來(lái)實(shí)現。如果是這樣,其實(shí) Bert 的預訓練模式就和 XLNet 是基本等價(jià)的了。
  或者換個(gè)角度思考,假設仍然利用 Bert 目前的 Mask 機制,但是把 Mask 掉15%這個(gè)條件極端化,改成,每次一個(gè)句子只 Mask 掉一個(gè)單詞,利用剩下的單詞來(lái)預測被 Mask 掉的單詞。那么,這個(gè)過(guò)程其實(shí)跟 XLNet 的 PLM 也是比較相像的,區別主要在于每次預測被 Mask 掉的單詞的時(shí)候,利用的上下文更多一些(XLNet 在實(shí)現的時(shí)候,為了提升效率,其實(shí)也是選擇每個(gè)句子最后末尾的 1/K 單詞被預測,假設 K=7 ,意味著(zhù)一個(gè)句子 X ,只有末尾的 1/7 的單詞會(huì )被預測,這意味著(zhù)什么呢?意味著(zhù)至少保留了 6/7 的 Context 單詞去預測某個(gè)單詞,對于最末尾的單詞,意味著(zhù)保留了所有的句子中 X 的其它單詞,這其實(shí)和上面提到的 Bert 只保留一個(gè)被 Mask 單詞是一樣的)?;蛘呶覀冋驹?Bert 預訓練的角度來(lái)考慮 XLNet ,如果 XLNet 改成對于句子 X ,只需要預測句子中最后一個(gè)單詞,而不是最后的 1/K ( 就是假設 K 特別大的情況 ) ,那么其實(shí)和 Bert 每個(gè)輸入句子只 Mask 掉一個(gè)單詞,兩者基本是等價(jià)的。
  當然,XLNet 這種改造,維持了表面看上去的自回歸語(yǔ)言模型的從左向右的模式,這個(gè) Bert 做不到,這個(gè)有明顯的好處,就是對于生成類(lèi)的任務(wù),能夠在維持表面從左向右的生成過(guò)程前提下,模型里隱含了上下文的信息。所以看上去,XLNet 貌似應該對于生成類(lèi)型的 NLP 任務(wù),會(huì )比 Bert 有明顯優(yōu)勢。另外,因為 XLNet 還引入了 Transformer XL 的機制,所以對于長(cháng)文檔輸入類(lèi)型的 NLP 任務(wù),也會(huì )比 Bert 有明顯優(yōu)勢。
  哪些因素在起作用?
  如上分析,XLNet 有個(gè)好處,但是感覺(jué)同時(shí)也是個(gè)問(wèn)題,那就是:XLNet 其實(shí)同時(shí)引入了很多因素在模型里。說(shuō)是好處,因為實(shí)驗證明了這樣效果確實(shí)好,即使是跟 Bert_Large 這種非常強的基準模型比也是,尤其是長(cháng)文檔任務(wù),這個(gè)效果提升比較明顯;說(shuō)是問(wèn)題,是因為其實(shí)應該在實(shí)驗部分充分說(shuō)明,如果模型起了作用,這些因素各自發(fā)揮了多大作用,尤其是在跟 Bert 進(jìn)行對比的時(shí)候,感覺(jué)應該把數據規模這個(gè)變量磨平進(jìn)行比較,因為這才是單純的模型差異導致的性能差異,而不是訓練數據量引發(fā)的差異。當然,XLNet 最后一組實(shí)驗是把這個(gè)預訓練數據規模差異磨平后,和 Bert 比較的,所以信息含量更大些。而前面的幾組實(shí)驗,因為天然存在預訓練數據量的差異,所以模型導致的差異到底有多大,看得不太明顯。引入了 Transformer-XL 的主要思路:相對位置編碼以及分段 RNN 機制。實(shí)踐已經(jīng)證明這兩點(diǎn)對于長(cháng)文檔任務(wù)是很有幫助的。
  我們上文提到過(guò),XLNet 起作用的,如果宏觀(guān)歸納一下,共有三個(gè)因素;
  1. 與 Bert 采取 De-noising Autoencoder 方式不同的新的預訓練目標:Permutation Language Model ( 簡(jiǎn)稱(chēng) PLM ) ;這個(gè)可以理解為在自回歸 LM 模式下,如何采取具體手段,來(lái)融入雙向語(yǔ)言模型。這個(gè)是 XLNet 在模型角度比較大的貢獻,確實(shí)也打開(kāi)了 NLP 中兩階段模式潮流的一個(gè)新思路。
  2. 引入了 Transformer-XL 的主要思路:相對位置編碼以及分段 RNN 機制。實(shí)踐已經(jīng)證明這兩點(diǎn)對于長(cháng)文檔任務(wù)是很有幫助的;
  加大增加了預訓練階段使用的數據規模;Bert 使用的預訓練數據是 BooksCorpus 和英文 Wiki 數據,大小 13G 。XLNet 除了使用這些數據外,另外引入了 Giga5,ClueWeb 以及 Common Crawl 數據,并排掉了其中的一些低質(zhì)量數據,大小分別是 16G,19G 和 78G ??梢钥闯?,在預訓練階段極大擴充了數據規模,并對質(zhì)量進(jìn)行了篩選過(guò)濾。這個(gè)明顯走的是 GPT2.0 的路線(xiàn)。
  所以實(shí)驗部分需要仔細分析,提升到底是上述哪個(gè)因素或者是哪幾個(gè)因素導致的性能提升?
  我們把實(shí)驗分成幾個(gè)部分來(lái)分析。
  首先,給人最大的印象是:XLNet 對于閱讀理解類(lèi)任務(wù),相對 Bert ,性能有極大幅度地提升。下面是論文報道的實(shí)驗結果:
  其中,RACE 和 SQuAD 2.0 是文檔長(cháng)度較長(cháng)的閱讀理解任務(wù),任務(wù)難度也相對高??梢钥闯?,在這兩個(gè)任務(wù)中,XLNet 相對 Bert_Large ,確實(shí)有大幅性能提升 ( Race 提升13.5%,SQuAD 2.0 F1 指標提升8.6 ) 。在 Squad1.1 上提升盡管稍微小些,F1 提升3.9%,但是因為基準高,所以提升也比較明顯。
  
  說(shuō) XLNet 在閱讀理解,尤其是長(cháng)文檔的閱讀理解中,性能大幅超過(guò) Bert ,這個(gè)是沒(méi)疑問(wèn)的。但是,因為 XLNet 融入了上文說(shuō)的三個(gè)因素,所以不確定每個(gè)因素在其中起的作用有多大,而對于長(cháng)文檔,Transformer XL 的引入肯定起了比較大的作用,Bert 天然在這種類(lèi)型任務(wù)中有缺點(diǎn),其它兩類(lèi)因素的作用不清楚。感覺(jué)這里應該增加一個(gè)基準,就是 Bert 用與 XLNet 相同大小的預訓練數據做,這樣抹平數據量差異,更好比較模型差異帶來(lái)的效果差異。當然,我覺(jué)得即使是這樣,XLNet 應該仍然是比 Bert 效果好的,只是可能不會(huì )差距這么大,因為 XLNet 的長(cháng)文檔優(yōu)勢肯定會(huì )起作用。
  下面我們看下其它類(lèi)型的 NLP 任務(wù)。
  GLUE 是個(gè)綜合的 NLP 任務(wù)集合,包含各種類(lèi)型的任務(wù),因為 ensemble 模式里面包含了各種花式的 trick ,所以重點(diǎn)看上面一組實(shí)驗,這里比較單純。從實(shí)驗數據看,XLNet 相對 Bert 也有性能提升,當然不像閱讀理解提升那么大,而且性能提升比較大的集中在 RTE ,MNLI 和 COLA 數據集合,其它任務(wù)提升效果還好。而我一直覺(jué)得,RTE 在 GLUE 里,是個(gè)神奇的存在,如果沒(méi)有它,很多論文的效果可能沒(méi)法看,這個(gè)是閑話(huà),先不講了,后面我會(huì )單說(shuō)。
  當然,仍然不確定這種性能提升主要來(lái)自于 XLNet 的哪個(gè)因素,或者哪幾個(gè)因素各自的貢獻,尤其是如果 Bert 加大預訓練數據規模后,兩者性能差異有多大。感覺(jué)這里 Transformer XL 的因素可能發(fā)揮的作用不會(huì )太大,其它兩個(gè)因素在起作用,但是作用未知,這里感覺(jué)應該補充其它實(shí)驗。
  上面是文本分類(lèi)任務(wù)和信息檢索任務(wù),可以看出,相對 Bert,XLNet 效果有提升,但是幅度不算大。仍然是上面的考慮,起作用的三個(gè)因素,到底哪個(gè)發(fā)揮多大作用,從數據方面看不太出來(lái)。
  下面一組實(shí)驗可以仔細分析一下,這組實(shí)驗是排除掉上述第三個(gè)數據規模因素的實(shí)驗的對比,就是說(shuō) XLNet 用的是和 Bert 相同規模的預訓練數據,所以與 Bert 對比更具備模型方面的可比較性,而沒(méi)有數據規模的影響。實(shí)驗結果如下:
  如果仔細分析實(shí)驗數據,實(shí)驗結果說(shuō)明:
  因為和 Bert 比較,XLNet 使用相同的預訓練數據。所以?xún)烧叩男阅懿町悂?lái)自于:Permutation Language Model 預訓練目標以及 Transformer XL 的長(cháng)文檔因素。而從中可以看出,DAE+Transformer XL 體現的是長(cháng)文檔因素的差異,和 Bert 比,Race 提升1個(gè)點(diǎn),SQuAD F1 提升3個(gè)點(diǎn),MNLI 提升0.5個(gè)點(diǎn),SST-2 性能稍微下降。這是 Transformer XL 因素解決長(cháng)文檔因素帶來(lái)的收益,很明顯,長(cháng)文檔閱讀理解任務(wù)提升比較明顯,其它任務(wù)提升不太明顯。
  而通過(guò) XLNet 進(jìn)一步和 DAE+Transformer XL 及 Bert 比,這一點(diǎn)應該拆解出 Permutation Language Model 和 Mask 的方式差異??梢钥闯觯篨LNet 相對 DAE+Transformer XL 來(lái)說(shuō),Race 進(jìn)一步提升1個(gè)點(diǎn)左右;SQuAD 進(jìn)一步提升1.8個(gè)點(diǎn)左右,NMLI 提升1個(gè)點(diǎn)左右,SST-B 提升不到1個(gè)點(diǎn)。雖然不精準,但是大致是能說(shuō)明問(wèn)題的,這個(gè)應該大致是 PLM 帶來(lái)的模型收益??梢钥闯?,PLM 還是普遍有效的,但是提升幅度并非特別巨大。
  如果我們結合前面 Race 和 SQuAD 的實(shí)驗結果看(上面兩組實(shí)驗是三個(gè)因素的作用,后面是排除掉數據量差異的結果,所以?xún)烧叩牟罹?,很可能就是第三個(gè)因素:數據規模導致的差異,當然,因為一個(gè)是 Bert_base ,一個(gè)是 Bert_Large ,所以不具備完全可比性,但是大致估計不會(huì )偏離真實(shí)結論太遠),Race 數據集合三因素同時(shí)具備的 XLNet ,超過(guò) Bert 絕對值大約9個(gè)多百分點(diǎn),Transformer 因素 +PLM 因素估計貢獻大約在2到4個(gè)點(diǎn)之間,那么意味著(zhù)預訓練數據量導致的差異大概在4到5個(gè)點(diǎn)左右;類(lèi)似的,可以看出,SQuAD 2.0 中,預訓練數據量導致的差異大約在2到3個(gè)點(diǎn)左右,也就是說(shuō),估計訓練數據量帶來(lái)的提升,在閱讀理解任務(wù)中大約占比30%到40%左右。
  如果從實(shí)驗結果歸納一下的話(huà),可以看出:XLNet 綜合而言,效果是優(yōu)于 Bert 的,尤其是在長(cháng)文檔類(lèi)型任務(wù),效果提升明顯。如果進(jìn)一步拆解的話(huà),因為對比實(shí)驗不足,只能做個(gè)粗略的結論:預訓練數據量的提升,大概帶來(lái)30%左右的性能提升,其它兩個(gè)模型因素帶來(lái)剩余的大約70%的性能提升。當然,這個(gè)主要指的是 XLNet 性能提升比較明顯的閱讀理解類(lèi)任務(wù)而言。對于其它類(lèi)型任務(wù),感覺(jué) Transformer XL 的因素貢獻估計不會(huì )太大,主要應該是其它兩個(gè)因素在起作用。
  對 NLP 應用任務(wù)的影響
  XLNet 其實(shí)本質(zhì)上還是 ELMO/GPT/Bert 這一系列兩階段模型的進(jìn)一步延伸。在將自回歸 LM 方向引入雙向語(yǔ)言模型方面,感覺(jué)打開(kāi)了一個(gè)新思路,這點(diǎn)還是非常對人有啟發(fā)的。當然,如果深入思考,其實(shí)和 Bert 并沒(méi)有太大的不同。
  如果讓我推論下 XLNet 的出現,對后續 NLP 工作的影響,我覺(jué)得跟 Bert 比,最直接的影響應該有兩個(gè),一個(gè)是對于 Bert 長(cháng)文檔的應用,因為 Transformer 天然對長(cháng)文檔任務(wù)處理有弱點(diǎn),所以 XLNet 對于長(cháng)文檔 NLP 任務(wù)相比 Bert 應該有直接且比較明顯的性能提升作用,它在論文中也證明了這點(diǎn)。所以,以后長(cháng)文檔類(lèi)型的 NLP 應用,XLNet 明顯跟 Bert 比占優(yōu)勢。當然,你說(shuō)我把 Transformer XL 的因素引入 Bert ,然后繼續在 Bert 上做改進(jìn),明顯這也是可以的。
  第二點(diǎn),對于生成類(lèi)的 NLP 任務(wù),到目前為止,盡管出了一些改進(jìn)模型,但是從效果看,Bert 仍然不能很好地處理。而因為 XLNet 的預訓練模式天然符合下游任務(wù)序列生成結果,所以按理說(shuō)能夠直接通過(guò)引入 XLNet 來(lái)改進(jìn)生成類(lèi) NLP 任務(wù)的效果。所以,這點(diǎn)估計是 XLNet 會(huì )明顯占優(yōu)勢的一個(gè)領(lǐng)域。
  可以預計的是,很快我們就會(huì )看到 XLNet 在文本摘要,機器翻譯,信息檢索…..等符合上述 XLNet 應用領(lǐng)域特點(diǎn)和優(yōu)勢領(lǐng)域的應用結果,以及在這些任務(wù)上的進(jìn)一步改進(jìn)模型。當然,這個(gè)有點(diǎn)比手速的意思,有意者請盡快動(dòng)手把結果扔出來(lái)。
  又給你了一個(gè)拼手速的機會(huì ),加油吧,少年!
  作者介紹:
  張俊林,中國中文信息學(xué)會(huì )理事,中科院軟件所博士。目前在新浪微博 AI Lab 擔任資深算法專(zhuān)家。在此之前,張俊林曾經(jīng)在阿里巴巴任資深技術(shù)專(zhuān)家并負責新技術(shù)團隊,以及在百度和用友擔任技術(shù)經(jīng)理及技術(shù)總監等職務(wù)。同時(shí)他是技術(shù)書(shū)籍《這就是搜索引擎:核心技術(shù)詳解》(該書(shū)榮獲全國第十二屆優(yōu)秀圖書(shū)獎)、《大數據日知錄:架構與算法》的作者。 查看全部

  XLNet : 運行機制及和 Bert 的異同比較
  出品社區:DataFun
  注:文末有驚喜,等你呦。
  這兩天,XLNet 貌似也引起了 NLP 圈的極大關(guān)注,從實(shí)驗數據看,在某些場(chǎng)景下,確實(shí) XLNet 相對 Bert 有很大幅度的提升。就像我們之前說(shuō)的,感覺(jué) Bert 打開(kāi)兩階段模式的魔法盒開(kāi)關(guān)后,在這條路上,會(huì )有越來(lái)越多的同行者,而 XLNet 就是其中比較引人注目的一位。當然,我估計很快我們會(huì )看到更多的這個(gè)模式下的新工作。未來(lái)兩年,在兩階段新模式 ( 預訓練 + Finetuning ) 下,應該會(huì )有更多的好工作涌現出來(lái)。根本原因在于:這個(gè)模式的潛力還沒(méi)有被充分挖掘,貌似還有很大的提升空間。當然,這也意味著(zhù) NLP 在未來(lái)兩年會(huì )有各種技術(shù)或者應用的突破,現在其實(shí)是進(jìn)入 NLP 領(lǐng)域非常好的時(shí)機。原因有兩個(gè),一個(gè)是 NLP 正面臨一個(gè)技術(shù)棧大的改朝換代的時(shí)刻,有很多空白等著(zhù)你去填補,容易出成績(jì);另外一點(diǎn),貌似 Bert+Transformer 有統一 NLP 各個(gè)應用領(lǐng)域的趨向,這意味著(zhù)此時(shí)進(jìn)入 NLP 領(lǐng)域,具備學(xué)習成本非常低的好處,和之前相比,投入產(chǎn)出比非常合算。這是兩個(gè)原因。當然,即使如此,想要學(xué)好 NLP ,持續的精力投入是必不可少的。有句老話(huà)說(shuō)得好:“永恒的愛(ài)大約持續三個(gè)月”,這句話(huà)其實(shí)對于很多對 NLP 感興趣的同學(xué)也成立:“對 NLP 的永恒的熱情大約能夠持續3到5天”,希望真的有興趣的同學(xué)能堅持一下,起碼持續7到8天,湊夠一個(gè)星期…..
  那么 XLNet 和 Bert 比,有什么異同?有什么模型方面的改進(jìn)?在哪些場(chǎng)景下特別有效?原因又是什么?本文通過(guò)論文思想解讀及實(shí)驗結果分析,試圖回答上述問(wèn)題。
  首先,XLNet 引入了自回歸語(yǔ)言模型以及自編碼語(yǔ)言模型的提法,這個(gè)思維框架我覺(jué)得挺好的,可以先簡(jiǎn)單說(shuō)明下。
  自回歸語(yǔ)言模型 ( Autoregressive LM )
  在 ELMO / BERT 出來(lái)之前,大家通常講的語(yǔ)言模型其實(shí)是根據上文內容預測下一個(gè)可能跟隨的單詞,就是常說(shuō)的自左向右的語(yǔ)言模型任務(wù),或者反過(guò)來(lái)也行,就是根據下文預測前面的單詞,這種類(lèi)型的 LM 被稱(chēng)為自回歸語(yǔ)言模型。GPT 就是典型的自回歸語(yǔ)言模型。ELMO 盡管看上去利用了上文,也利用了下文,但是本質(zhì)上仍然是自回歸 LM ,這個(gè)跟模型具體怎么實(shí)現有關(guān)系。ELMO 是做了兩個(gè)方向 ( 從左到右以及從右到左兩個(gè)方向的語(yǔ)言模型 ) ,但是是分別有兩個(gè)方向的自回歸 LM ,然后把 LSTM 的兩個(gè)方向的隱節點(diǎn)狀態(tài)拼接到一起,來(lái)體現雙向語(yǔ)言模型這個(gè)事情的。所以其實(shí)是兩個(gè)自回歸語(yǔ)言模型的拼接,本質(zhì)上仍然是自回歸語(yǔ)言模型。
  自回歸語(yǔ)言模型有優(yōu)點(diǎn)有缺點(diǎn),缺點(diǎn)是只能利用上文或者下文的信息,不能同時(shí)利用上文和下文的信息,當然,貌似 ELMO 這種雙向都做,然后拼接看上去能夠解決這個(gè)問(wèn)題,因為融合模式過(guò)于簡(jiǎn)單,所以效果其實(shí)并不是太好。它的優(yōu)點(diǎn),其實(shí)跟下游 NLP 任務(wù)有關(guān),比如生成類(lèi) NLP 任務(wù),比如文本摘要,機器翻譯等,在實(shí)際生成內容的時(shí)候,就是從左向右的,自回歸語(yǔ)言模型天然匹配這個(gè)過(guò)程。而 Bert 這種 DAE 模式,在生成類(lèi) NLP 任務(wù)中,就面臨訓練過(guò)程和應用過(guò)程不一致的問(wèn)題,導致生成類(lèi)的 NLP 任務(wù)到目前為止都做不太好。
  自編碼語(yǔ)言模型 ( Autoencoder LM )
  自回歸語(yǔ)言模型只能根據上文預測下一個(gè)單詞,或者反過(guò)來(lái),只能根據下文預測前面一個(gè)單詞。相比而言,Bert 通過(guò)在輸入 X 中隨機 Mask 掉一部分單詞,然后預訓練過(guò)程的主要任務(wù)之一是根據上下文單詞來(lái)預測這些被 Mask 掉的單詞,如果你對 Denoising Autoencoder 比較熟悉的話(huà),會(huì )看出,這確實(shí)是典型的 DAE 的思路。那些被 Mask 掉的單詞就是在輸入側加入的所謂噪音。類(lèi)似Bert這種預訓練模式,被稱(chēng)為 DAE LM 。
  這種 DAE LM 的優(yōu)缺點(diǎn)正好和自回歸 LM 反過(guò)來(lái),它能比較自然地融入雙向語(yǔ)言模型,同時(shí)看到被預測單詞的上文和下文,這是好處。缺點(diǎn)是啥呢?主要在輸入側引入 [Mask] 標記,導致預訓練階段和 Fine-tuning 階段不一致的問(wèn)題,因為 Fine-tuning 階段是看不到 [Mask] 標記的。DAE 嗎,就要引入噪音,[Mask] 標記就是引入噪音的手段,這個(gè)正常。
  XLNet 的出發(fā)點(diǎn)就是:能否融合自回歸 LM 和 DAE LM 兩者的優(yōu)點(diǎn)。就是說(shuō)如果站在自回歸 LM 的角度,如何引入和雙向語(yǔ)言模型等價(jià)的效果;如果站在 DAE LM 的角度看,它本身是融入雙向語(yǔ)言模型的,如何拋掉表面的那個(gè) [Mask] 標記,讓預訓練和 Fine-tuning 保持一致。當然,XLNet 還講到了一個(gè) Bert 被 Mask 單詞之間相互獨立的問(wèn)題,我相信這個(gè)不太重要,原因后面會(huì )說(shuō)。當然,我認為這點(diǎn)不重要的事情,純粹是個(gè)人觀(guān)點(diǎn),出錯難免,看看就完了,不用較真。
  XLNet 做了些什么
  上文說(shuō)過(guò),Bert 這種自編碼語(yǔ)言模型的好處是:能夠同時(shí)利用上文和下文,所以信息利用充分。對于很多 NLP 任務(wù)而言,典型的比如閱讀理解,在解決問(wèn)題的時(shí)候,是能夠同時(shí)看到上文和下文的,所以當然應該把下文利用起來(lái)。在 Bert 原始論文中,與 GPT1.0 的實(shí)驗對比分析也可以看出來(lái),BERT 相對 GPT 1.0 的性能提升,主要來(lái)自于雙向語(yǔ)言模型與單向語(yǔ)言模型的差異。這是 Bert 的好處,很明顯,Bert 之后的改進(jìn)模型,如果不能把雙向語(yǔ)言模型用起來(lái),那明顯是很吃虧的。當然,GPT 2.0 的作者不信這個(gè)邪,堅持沿用 GPT 1.0 單向語(yǔ)言模型的舊瓶,裝進(jìn)去了更高質(zhì)量更大規模預訓練數據的新酒,而它的實(shí)驗結果也說(shuō)明了,如果想改善預訓練語(yǔ)言模型,走這條擴充預序列模型訓練數據的路子,是個(gè)多快好但是不省錢(qián)的方向。這也進(jìn)一步說(shuō)明了,預訓練 LM 這條路,還遠遠沒(méi)有走完,還有很大的提升空間,比如最簡(jiǎn)單的提升方法就是加大數據規模,提升數據質(zhì)量。
  但是 Bert 的自編碼語(yǔ)言模型也有對應的缺點(diǎn),就是 XLNet 在文中指出的,第一個(gè)預訓練階段因為采取引入 [Mask] 標記來(lái) Mask 掉部分單詞的訓練模式,而 Fine-tuning 階段是看不到這種被強行加入的 Mask 標記的,所以?xún)蓚€(gè)階段存在使用模式不一致的情形,這可能會(huì )帶來(lái)一定的性能損失;另外一個(gè)是,Bert 在第一個(gè)預訓練階段,假設句子中多個(gè)單詞被 Mask 掉,這些被 Mask 掉的單詞之間沒(méi)有任何關(guān)系,是條件獨立的,而有時(shí)候這些單詞之間是有關(guān)系的,XLNet 則考慮了這種關(guān)系(關(guān)于這點(diǎn)原因是否可靠,后面會(huì )專(zhuān)門(mén)分析)。
  上面兩點(diǎn)是 XLNet 在第一個(gè)預訓練階段,相對 Bert 來(lái)說(shuō)要解決的兩個(gè)問(wèn)題。
  其實(shí)從另外一個(gè)角度更好理解 XLNet 的初衷和做法,我覺(jué)得這個(gè)估計是 XLNet 作者真正的思考出發(fā)點(diǎn),是啥呢?就是說(shuō)自回歸語(yǔ)言模型有個(gè)缺點(diǎn),要么從左到右,要么從右到左,盡管可以類(lèi)似 ELMO 兩個(gè)都做,然后再拼接的方式。但是跟 Bert 比,效果明顯不足夠好(這里面有 RNN 弱于 Transformer 的因素,也有雙向語(yǔ)言模型怎么做的因素)。那么,能不能類(lèi)似 Bert 那樣,比較充分地在自回歸語(yǔ)言模型中,引入雙向語(yǔ)言模型呢?因為 Bert 已經(jīng)證明了這是非常關(guān)鍵的一點(diǎn)。這一點(diǎn),想法簡(jiǎn)單,但是看上去貌似不太好做,因為從左向右的語(yǔ)言模型,如果我們當前根據上文,要預測某個(gè)單詞 Ti ,那么看上去它沒(méi)法看到下文的內容。具體怎么做才能讓這個(gè)模型:看上去仍然是從左向右的輸入和預測模式,但是其實(shí)內部已經(jīng)引入了當前單詞的下文信息呢?XLNet 在模型方面的主要貢獻其實(shí)是在這里。
  那么 XLNet 是怎么做到這一點(diǎn)的呢?其實(shí)思路也比較簡(jiǎn)潔,可以這么思考:XLNet 仍然遵循兩階段的過(guò)程,第一個(gè)階段是語(yǔ)言模型預訓練階段;第二階段是任務(wù)數據 Fine-tuning 階段。它主要希望改動(dòng)第一個(gè)階段,就是說(shuō)不像 Bert 那種帶 Mask 符號的 Denoising-autoencoder 的模式,而是采用自回歸 LM 的模式。就是說(shuō),看上去輸入句子 X 仍然是自左向右的輸入,看到 Ti 單詞的上文 Context_before ,來(lái)預測 Ti 這個(gè)單詞。但是又希望在 Context_before 里,不僅僅看到上文單詞,也能看到 Ti 單詞后面的下文 Context_after 里的下文單詞,這樣的話(huà),Bert 里面預訓練階段引入的 Mask 符號就不需要了,于是在預訓練階段,看上去是個(gè)標準的從左向右過(guò)程,Fine-tuning 當然也是這個(gè)過(guò)程,于是兩個(gè)環(huán)節就統一起來(lái)。當然,這是目標。剩下是怎么做到這一點(diǎn)的問(wèn)題。
  那么,怎么能夠在單詞 Ti 的上文中 Contenxt_before 中揉入下文 Context_after 的內容呢?你可以想想。XLNet 是這么做的,在預訓練階段,引入 Permutation Language Model 的訓練目標。什么意思呢?就是說(shuō),比如包含單詞 Ti 的當前輸入的句子 X ,由順序的幾個(gè)單詞構成,比如 x1,x2,x3,x4 四個(gè)單詞順序構成。我們假設,其中,要預測的單詞 Ti 是 x3 ,位置在 Position 3 ,要想讓它能夠在上文 Context_before 中,也就是 Position 1 或者 Position 2 的位置看到 Position 4 的單詞 x4 ??梢赃@么做:假設我們固定住 x3 所在位置,就是它仍然在 Position 3 ,之后隨機排列組合句子中的4個(gè)單詞,在隨機排列組合后的各種可能里,再選擇一部分作為模型預訓練的輸入 X 。比如隨機排列組合后,抽取出 x4,x2,x3,x1 這一個(gè)排列組合作為模型的輸入 X 。于是,x3 就能同時(shí)看到上文 x2 ,以及下文 x4 的內容了。這就是 XLNet 的基本思想,所以說(shuō),看了這個(gè)就可以理解上面講的它的初衷了吧:看上去仍然是個(gè)自回歸的從左到右的語(yǔ)言模型,但是其實(shí)通過(guò)對句子中單詞排列組合,把一部分 Ti 下文的單詞排到 Ti 的上文位置中,于是,就看到了上文和下文,但是形式上看上去仍然是從左到右在預測后一個(gè)單詞。
  當然,上面講的仍然是基本思想。難點(diǎn)其實(shí)在于具體怎么做才能實(shí)現上述思想。首先,需要強調一點(diǎn),盡管上面講的是把句子 X 的單詞排列組合后,再隨機抽取例子作為輸入,但是,實(shí)際上你是不能這么做的,因為 Fine-tuning 階段你不可能也去排列組合原始輸入。所以,就必須讓預訓練階段的輸入部分,看上去仍然是 x1,x2,x3,x4 這個(gè)輸入順序,但是可以在 Transformer 部分做些工作,來(lái)達成我們希望的目標。具體而言,XLNet 采取了 Attention 掩碼的機制,你可以理解為,當前的輸入句子是 X ,要預測的單詞 Ti 是第 i 個(gè)單詞,前面1到 i-1 個(gè)單詞,在輸入部分觀(guān)察,并沒(méi)發(fā)生變化,該是誰(shuí)還是誰(shuí)。但是在 Transformer 內部,通過(guò) Attention 掩碼,從 X 的輸入單詞里面,也就是 Ti 的上文和下文單詞中,隨機選擇 i-1 個(gè),放到 Ti 的上文位置中,把其它單詞的輸入通過(guò) Attention 掩碼隱藏掉,于是就能夠達成我們期望的目標(當然這個(gè)所謂放到 Ti 的上文位置,只是一種形象的說(shuō)法,其實(shí)在內部,就是通過(guò) Attention Mask ,把其它沒(méi)有被選到的單詞 Mask 掉,不讓它們在預測單詞 Ti 的時(shí)候發(fā)生作用,如此而已??粗?zhù)就類(lèi)似于把這些被選中的單詞放到了上文 Context_before 的位置了)。具體實(shí)現的時(shí)候,XLNet 是用“雙流自注意力模型”實(shí)現的,細節可以參考論文,但是基本思想就如上所述,雙流自注意力機制只是實(shí)現這個(gè)思想的具體方式,理論上,你可以想出其它具體實(shí)現方式來(lái)實(shí)現這個(gè)基本思想,也能達成讓Ti看到下文單詞的目標。
  
  這里簡(jiǎn)單說(shuō)下“雙流自注意力機制”,一個(gè)是內容流自注意力,其實(shí)就是標準的 Transformer 的計算過(guò)程;主要是引入了 Query 流自注意力,這個(gè)是干嘛的呢?其實(shí)就是用來(lái)代替 Bert 的那個(gè) [Mask] 標記的,因為 XLNet 希望拋掉 [Mask] 標記符號,但是比如知道上文單詞 x1,x2 ,要預測單詞 x3 ,此時(shí)在 x3 對應位置的 Transformer 最高層去預測這個(gè)單詞,但是輸入側不能看到要預測的單詞 x3 ,Bert 其實(shí)是直接引入 [Mask] 標記來(lái)覆蓋掉單詞 x3 的內容的,等于說(shuō) [Mask] 是個(gè)通用的占位符號。而 XLNet 因為要拋掉 [Mask] 標記,但是又不能看到 x3 的輸入,于是 Query 流,就直接忽略掉 x3 輸入了,只保留這個(gè)位置信息,用參數 w 來(lái)代表位置的 embedding 編碼。其實(shí) XLNet 只是扔了表面的 [Mask] 占位符號,內部還是引入 Query 流來(lái)忽略掉被 Mask 的這個(gè)單詞。和 Bert 比,只是實(shí)現方式不同而已。
  上面說(shuō)的 Attention 掩碼,我估計你還是沒(méi)了解它的意思,我再用例子解釋一下。Attention Mask 的機制,核心就是說(shuō),盡管當前輸入看上去仍然是 x1->x2->x3->x4 ,但是我們已經(jīng)改成隨機排列組合的另外一個(gè)順序 x3->x2->x4->x1 了,如果用這個(gè)例子用來(lái)從左到右訓練 LM ,意味著(zhù)當預測 x2 的時(shí)候,它只能看到上文 x3 ;當預測 x4 的時(shí)候,只能看到上文 x1 和 x2 ,以此類(lèi)推……這樣,比如對于 x2 來(lái)說(shuō),就看到了下文 x3 了。這種在輸入側維持表面的 X 句子單詞順序,但是其實(shí)在 Transformer 內部,看到的已經(jīng)是被重新排列組合后的順序,是通過(guò) Attention 掩碼來(lái)實(shí)現的。如上圖所示,輸入看上去仍然是 x1,x2,x3,x4 ,可以通過(guò)不同的掩碼矩陣,讓當前單詞 Xi 只能看到被排列組合后的順序 x3->x2->x4->x1 中自己前面的單詞。這樣就在內部改成了被預測單詞同時(shí)看到上下文單詞,但是輸入側看上去仍然維持原先的單詞順序了。關(guān)鍵要看明白上圖右側那個(gè)掩碼矩陣,我相信很多人剛開(kāi)始沒(méi)看明白,因為我剛開(kāi)始也沒(méi)看明白,因為沒(méi)有標出掩碼矩陣的單詞坐標,它的坐標是1-2-3-4,就是表面那個(gè) X 的單詞順序,通過(guò)掩碼矩陣,就能改成你想要的排列組合,并讓當前單詞看到它該看到的所謂上文,其實(shí)是摻雜了上文和下文的內容。這是 attention mask 來(lái)實(shí)現排列組合的背后的意思。
  上面講的 Permutation Language Model 是 XLNet 的主要理論創(chuàng )新,所以介紹的比較多,從模型角度講,這個(gè)創(chuàng )新還是挺有意思的,因為它開(kāi)啟了自回歸語(yǔ)言模型如何引入下文的一個(gè)思路,相信對于后續工作會(huì )有啟發(fā)。當然,XLNet 不僅僅做了這些,它還引入了其它的因素,也算是一個(gè)當前有效技術(shù)的集成體。感覺(jué) XLNet 就是 Bert、GPT 2.0 和 Transformer XL 的綜合體變身,首先,它通過(guò) PLM 預訓練目標,吸收了 Bert 的雙向語(yǔ)言模型;然后,GPT2.0 的核心其實(shí)是更多更高質(zhì)量的預訓練數據,這個(gè)明顯也被 XLNet 吸收進(jìn)來(lái)了;再然后,Transformer XL 的主要思想也被吸收進(jìn)來(lái),它的主要目標是解決 Transformer 對于長(cháng)文檔 NLP 應用不夠友好的問(wèn)題。
  以上是 XLNet 的幾個(gè)主要改進(jìn)點(diǎn),有模型創(chuàng )新方面的,有其它模型引入方面的,也有數據擴充方面的。那么,這些因素各自起到了什么作用呢?在后面我們會(huì )談。在談不同因素各自作用之前,我們先分析下 XLNet 和 Bert 的異同問(wèn)題。
  與 Bert 的預訓練過(guò)程的異同問(wèn)題
  盡管看上去,XLNet 在預訓練機制引入的 Permutation Language Model 這種新的預訓練目標,和 Bert 采用 Mask 標記這種方式,有很大不同。其實(shí)你深入思考一下,會(huì )發(fā)現,兩者本質(zhì)是類(lèi)似的。區別主要在于:Bert 是直接在輸入端顯示地通過(guò)引入 Mask 標記,在輸入側隱藏掉一部分單詞,讓這些單詞在預測的時(shí)候不發(fā)揮作用,要求利用上下文中其它單詞去預測某個(gè)被 Mask 掉的單詞;而 XLNet 則拋棄掉輸入側的 Mask 標記,通過(guò) Attention Mask 機制,在 Transformer 內部隨機 Mask 掉一部分單詞(這個(gè)被 Mask 掉的單詞比例跟當前單詞在句子中的位置有關(guān)系,位置越靠前,被 Mask 掉的比例越高,位置越靠后,被 Mask 掉的比例越低),讓這些被 Mask 掉的單詞在預測某個(gè)單詞的時(shí)候不發(fā)生作用。所以,本質(zhì)上兩者并沒(méi)什么太大的不同,只是 Mask 的位置,Bert 更表面化一些,XLNet 則把這個(gè)過(guò)程隱藏在了 Transformer 內部而已。這樣,就可以?huà)伒舯砻娴?[Mask] 標記,解決它所說(shuō)的預訓練里帶有 [Mask] 標記導致的和 Fine-tuning 過(guò)程不一致的問(wèn)題。至于說(shuō) XLNet 說(shuō)的,Bert 里面被 Mask 掉單詞的相互獨立問(wèn)題,也就是說(shuō),在預測某個(gè)被 Mask 單詞的時(shí)候,其它被 Mask 單詞不起作用,這個(gè)問(wèn)題,你深入思考一下,其實(shí)是不重要的,因為 XLNet 在內部 Attention Mask 的時(shí)候,也會(huì ) Mask 掉一定比例的上下文單詞,只要有一部分被 Mask 掉的單詞,其實(shí)就面臨這個(gè)問(wèn)題。而如果訓練數據足夠大,其實(shí)不靠當前這個(gè)例子,靠其它例子,也能彌補被 Mask 單詞直接的相互關(guān)系問(wèn)題,因為總有其它例子能夠學(xué)會(huì )這些單詞的相互依賴(lài)關(guān)系。
  我相信,通過(guò)改造 Bert 的預訓練過(guò)程,其實(shí)是可以模擬 XLNet 的 Permutation Language Model 過(guò)程的:Bert 目前的做法是,給定輸入句子 X ,隨機 Mask 掉15%的單詞,然后要求利用剩下的85%的單詞去預測任意一個(gè)被 Mask 掉的單詞,被 Mask 掉的單詞在這個(gè)過(guò)程中相互之間沒(méi)有發(fā)揮作用。如果我們把 Bert 的預訓練過(guò)程改造成:對于輸入句子,隨機選擇其中任意一個(gè)單詞 Ti ,只把這個(gè)單詞改成 Mask 標記,假設 Ti 在句子中是第 i 個(gè)單詞,那么此時(shí)隨機選擇 X 中的任意 i 個(gè)單詞,只用這 i 個(gè)單詞去預測被 Mask 掉的單詞。當然,這個(gè)過(guò)程理論上也可以在 Transformer 內采用 attention mask 來(lái)實(shí)現。如果是這樣,其實(shí) Bert 的預訓練模式就和 XLNet 是基本等價(jià)的了。
  或者換個(gè)角度思考,假設仍然利用 Bert 目前的 Mask 機制,但是把 Mask 掉15%這個(gè)條件極端化,改成,每次一個(gè)句子只 Mask 掉一個(gè)單詞,利用剩下的單詞來(lái)預測被 Mask 掉的單詞。那么,這個(gè)過(guò)程其實(shí)跟 XLNet 的 PLM 也是比較相像的,區別主要在于每次預測被 Mask 掉的單詞的時(shí)候,利用的上下文更多一些(XLNet 在實(shí)現的時(shí)候,為了提升效率,其實(shí)也是選擇每個(gè)句子最后末尾的 1/K 單詞被預測,假設 K=7 ,意味著(zhù)一個(gè)句子 X ,只有末尾的 1/7 的單詞會(huì )被預測,這意味著(zhù)什么呢?意味著(zhù)至少保留了 6/7 的 Context 單詞去預測某個(gè)單詞,對于最末尾的單詞,意味著(zhù)保留了所有的句子中 X 的其它單詞,這其實(shí)和上面提到的 Bert 只保留一個(gè)被 Mask 單詞是一樣的)?;蛘呶覀冋驹?Bert 預訓練的角度來(lái)考慮 XLNet ,如果 XLNet 改成對于句子 X ,只需要預測句子中最后一個(gè)單詞,而不是最后的 1/K ( 就是假設 K 特別大的情況 ) ,那么其實(shí)和 Bert 每個(gè)輸入句子只 Mask 掉一個(gè)單詞,兩者基本是等價(jià)的。
  當然,XLNet 這種改造,維持了表面看上去的自回歸語(yǔ)言模型的從左向右的模式,這個(gè) Bert 做不到,這個(gè)有明顯的好處,就是對于生成類(lèi)的任務(wù),能夠在維持表面從左向右的生成過(guò)程前提下,模型里隱含了上下文的信息。所以看上去,XLNet 貌似應該對于生成類(lèi)型的 NLP 任務(wù),會(huì )比 Bert 有明顯優(yōu)勢。另外,因為 XLNet 還引入了 Transformer XL 的機制,所以對于長(cháng)文檔輸入類(lèi)型的 NLP 任務(wù),也會(huì )比 Bert 有明顯優(yōu)勢。
  哪些因素在起作用?
  如上分析,XLNet 有個(gè)好處,但是感覺(jué)同時(shí)也是個(gè)問(wèn)題,那就是:XLNet 其實(shí)同時(shí)引入了很多因素在模型里。說(shuō)是好處,因為實(shí)驗證明了這樣效果確實(shí)好,即使是跟 Bert_Large 這種非常強的基準模型比也是,尤其是長(cháng)文檔任務(wù),這個(gè)效果提升比較明顯;說(shuō)是問(wèn)題,是因為其實(shí)應該在實(shí)驗部分充分說(shuō)明,如果模型起了作用,這些因素各自發(fā)揮了多大作用,尤其是在跟 Bert 進(jìn)行對比的時(shí)候,感覺(jué)應該把數據規模這個(gè)變量磨平進(jìn)行比較,因為這才是單純的模型差異導致的性能差異,而不是訓練數據量引發(fā)的差異。當然,XLNet 最后一組實(shí)驗是把這個(gè)預訓練數據規模差異磨平后,和 Bert 比較的,所以信息含量更大些。而前面的幾組實(shí)驗,因為天然存在預訓練數據量的差異,所以模型導致的差異到底有多大,看得不太明顯。引入了 Transformer-XL 的主要思路:相對位置編碼以及分段 RNN 機制。實(shí)踐已經(jīng)證明這兩點(diǎn)對于長(cháng)文檔任務(wù)是很有幫助的。
  我們上文提到過(guò),XLNet 起作用的,如果宏觀(guān)歸納一下,共有三個(gè)因素;
  1. 與 Bert 采取 De-noising Autoencoder 方式不同的新的預訓練目標:Permutation Language Model ( 簡(jiǎn)稱(chēng) PLM ) ;這個(gè)可以理解為在自回歸 LM 模式下,如何采取具體手段,來(lái)融入雙向語(yǔ)言模型。這個(gè)是 XLNet 在模型角度比較大的貢獻,確實(shí)也打開(kāi)了 NLP 中兩階段模式潮流的一個(gè)新思路。
  2. 引入了 Transformer-XL 的主要思路:相對位置編碼以及分段 RNN 機制。實(shí)踐已經(jīng)證明這兩點(diǎn)對于長(cháng)文檔任務(wù)是很有幫助的;
  加大增加了預訓練階段使用的數據規模;Bert 使用的預訓練數據是 BooksCorpus 和英文 Wiki 數據,大小 13G 。XLNet 除了使用這些數據外,另外引入了 Giga5,ClueWeb 以及 Common Crawl 數據,并排掉了其中的一些低質(zhì)量數據,大小分別是 16G,19G 和 78G ??梢钥闯?,在預訓練階段極大擴充了數據規模,并對質(zhì)量進(jìn)行了篩選過(guò)濾。這個(gè)明顯走的是 GPT2.0 的路線(xiàn)。
  所以實(shí)驗部分需要仔細分析,提升到底是上述哪個(gè)因素或者是哪幾個(gè)因素導致的性能提升?
  我們把實(shí)驗分成幾個(gè)部分來(lái)分析。
  首先,給人最大的印象是:XLNet 對于閱讀理解類(lèi)任務(wù),相對 Bert ,性能有極大幅度地提升。下面是論文報道的實(shí)驗結果:
  其中,RACE 和 SQuAD 2.0 是文檔長(cháng)度較長(cháng)的閱讀理解任務(wù),任務(wù)難度也相對高??梢钥闯?,在這兩個(gè)任務(wù)中,XLNet 相對 Bert_Large ,確實(shí)有大幅性能提升 ( Race 提升13.5%,SQuAD 2.0 F1 指標提升8.6 ) 。在 Squad1.1 上提升盡管稍微小些,F1 提升3.9%,但是因為基準高,所以提升也比較明顯。
  
  說(shuō) XLNet 在閱讀理解,尤其是長(cháng)文檔的閱讀理解中,性能大幅超過(guò) Bert ,這個(gè)是沒(méi)疑問(wèn)的。但是,因為 XLNet 融入了上文說(shuō)的三個(gè)因素,所以不確定每個(gè)因素在其中起的作用有多大,而對于長(cháng)文檔,Transformer XL 的引入肯定起了比較大的作用,Bert 天然在這種類(lèi)型任務(wù)中有缺點(diǎn),其它兩類(lèi)因素的作用不清楚。感覺(jué)這里應該增加一個(gè)基準,就是 Bert 用與 XLNet 相同大小的預訓練數據做,這樣抹平數據量差異,更好比較模型差異帶來(lái)的效果差異。當然,我覺(jué)得即使是這樣,XLNet 應該仍然是比 Bert 效果好的,只是可能不會(huì )差距這么大,因為 XLNet 的長(cháng)文檔優(yōu)勢肯定會(huì )起作用。
  下面我們看下其它類(lèi)型的 NLP 任務(wù)。
  GLUE 是個(gè)綜合的 NLP 任務(wù)集合,包含各種類(lèi)型的任務(wù),因為 ensemble 模式里面包含了各種花式的 trick ,所以重點(diǎn)看上面一組實(shí)驗,這里比較單純。從實(shí)驗數據看,XLNet 相對 Bert 也有性能提升,當然不像閱讀理解提升那么大,而且性能提升比較大的集中在 RTE ,MNLI 和 COLA 數據集合,其它任務(wù)提升效果還好。而我一直覺(jué)得,RTE 在 GLUE 里,是個(gè)神奇的存在,如果沒(méi)有它,很多論文的效果可能沒(méi)法看,這個(gè)是閑話(huà),先不講了,后面我會(huì )單說(shuō)。
  當然,仍然不確定這種性能提升主要來(lái)自于 XLNet 的哪個(gè)因素,或者哪幾個(gè)因素各自的貢獻,尤其是如果 Bert 加大預訓練數據規模后,兩者性能差異有多大。感覺(jué)這里 Transformer XL 的因素可能發(fā)揮的作用不會(huì )太大,其它兩個(gè)因素在起作用,但是作用未知,這里感覺(jué)應該補充其它實(shí)驗。
  上面是文本分類(lèi)任務(wù)和信息檢索任務(wù),可以看出,相對 Bert,XLNet 效果有提升,但是幅度不算大。仍然是上面的考慮,起作用的三個(gè)因素,到底哪個(gè)發(fā)揮多大作用,從數據方面看不太出來(lái)。
  下面一組實(shí)驗可以仔細分析一下,這組實(shí)驗是排除掉上述第三個(gè)數據規模因素的實(shí)驗的對比,就是說(shuō) XLNet 用的是和 Bert 相同規模的預訓練數據,所以與 Bert 對比更具備模型方面的可比較性,而沒(méi)有數據規模的影響。實(shí)驗結果如下:
  如果仔細分析實(shí)驗數據,實(shí)驗結果說(shuō)明:
  因為和 Bert 比較,XLNet 使用相同的預訓練數據。所以?xún)烧叩男阅懿町悂?lái)自于:Permutation Language Model 預訓練目標以及 Transformer XL 的長(cháng)文檔因素。而從中可以看出,DAE+Transformer XL 體現的是長(cháng)文檔因素的差異,和 Bert 比,Race 提升1個(gè)點(diǎn),SQuAD F1 提升3個(gè)點(diǎn),MNLI 提升0.5個(gè)點(diǎn),SST-2 性能稍微下降。這是 Transformer XL 因素解決長(cháng)文檔因素帶來(lái)的收益,很明顯,長(cháng)文檔閱讀理解任務(wù)提升比較明顯,其它任務(wù)提升不太明顯。
  而通過(guò) XLNet 進(jìn)一步和 DAE+Transformer XL 及 Bert 比,這一點(diǎn)應該拆解出 Permutation Language Model 和 Mask 的方式差異??梢钥闯觯篨LNet 相對 DAE+Transformer XL 來(lái)說(shuō),Race 進(jìn)一步提升1個(gè)點(diǎn)左右;SQuAD 進(jìn)一步提升1.8個(gè)點(diǎn)左右,NMLI 提升1個(gè)點(diǎn)左右,SST-B 提升不到1個(gè)點(diǎn)。雖然不精準,但是大致是能說(shuō)明問(wèn)題的,這個(gè)應該大致是 PLM 帶來(lái)的模型收益??梢钥闯?,PLM 還是普遍有效的,但是提升幅度并非特別巨大。
  如果我們結合前面 Race 和 SQuAD 的實(shí)驗結果看(上面兩組實(shí)驗是三個(gè)因素的作用,后面是排除掉數據量差異的結果,所以?xún)烧叩牟罹?,很可能就是第三個(gè)因素:數據規模導致的差異,當然,因為一個(gè)是 Bert_base ,一個(gè)是 Bert_Large ,所以不具備完全可比性,但是大致估計不會(huì )偏離真實(shí)結論太遠),Race 數據集合三因素同時(shí)具備的 XLNet ,超過(guò) Bert 絕對值大約9個(gè)多百分點(diǎn),Transformer 因素 +PLM 因素估計貢獻大約在2到4個(gè)點(diǎn)之間,那么意味著(zhù)預訓練數據量導致的差異大概在4到5個(gè)點(diǎn)左右;類(lèi)似的,可以看出,SQuAD 2.0 中,預訓練數據量導致的差異大約在2到3個(gè)點(diǎn)左右,也就是說(shuō),估計訓練數據量帶來(lái)的提升,在閱讀理解任務(wù)中大約占比30%到40%左右。
  如果從實(shí)驗結果歸納一下的話(huà),可以看出:XLNet 綜合而言,效果是優(yōu)于 Bert 的,尤其是在長(cháng)文檔類(lèi)型任務(wù),效果提升明顯。如果進(jìn)一步拆解的話(huà),因為對比實(shí)驗不足,只能做個(gè)粗略的結論:預訓練數據量的提升,大概帶來(lái)30%左右的性能提升,其它兩個(gè)模型因素帶來(lái)剩余的大約70%的性能提升。當然,這個(gè)主要指的是 XLNet 性能提升比較明顯的閱讀理解類(lèi)任務(wù)而言。對于其它類(lèi)型任務(wù),感覺(jué) Transformer XL 的因素貢獻估計不會(huì )太大,主要應該是其它兩個(gè)因素在起作用。
  對 NLP 應用任務(wù)的影響
  XLNet 其實(shí)本質(zhì)上還是 ELMO/GPT/Bert 這一系列兩階段模型的進(jìn)一步延伸。在將自回歸 LM 方向引入雙向語(yǔ)言模型方面,感覺(jué)打開(kāi)了一個(gè)新思路,這點(diǎn)還是非常對人有啟發(fā)的。當然,如果深入思考,其實(shí)和 Bert 并沒(méi)有太大的不同。
  如果讓我推論下 XLNet 的出現,對后續 NLP 工作的影響,我覺(jué)得跟 Bert 比,最直接的影響應該有兩個(gè),一個(gè)是對于 Bert 長(cháng)文檔的應用,因為 Transformer 天然對長(cháng)文檔任務(wù)處理有弱點(diǎn),所以 XLNet 對于長(cháng)文檔 NLP 任務(wù)相比 Bert 應該有直接且比較明顯的性能提升作用,它在論文中也證明了這點(diǎn)。所以,以后長(cháng)文檔類(lèi)型的 NLP 應用,XLNet 明顯跟 Bert 比占優(yōu)勢。當然,你說(shuō)我把 Transformer XL 的因素引入 Bert ,然后繼續在 Bert 上做改進(jìn),明顯這也是可以的。
  第二點(diǎn),對于生成類(lèi)的 NLP 任務(wù),到目前為止,盡管出了一些改進(jìn)模型,但是從效果看,Bert 仍然不能很好地處理。而因為 XLNet 的預訓練模式天然符合下游任務(wù)序列生成結果,所以按理說(shuō)能夠直接通過(guò)引入 XLNet 來(lái)改進(jìn)生成類(lèi) NLP 任務(wù)的效果。所以,這點(diǎn)估計是 XLNet 會(huì )明顯占優(yōu)勢的一個(gè)領(lǐng)域。
  可以預計的是,很快我們就會(huì )看到 XLNet 在文本摘要,機器翻譯,信息檢索…..等符合上述 XLNet 應用領(lǐng)域特點(diǎn)和優(yōu)勢領(lǐng)域的應用結果,以及在這些任務(wù)上的進(jìn)一步改進(jìn)模型。當然,這個(gè)有點(diǎn)比手速的意思,有意者請盡快動(dòng)手把結果扔出來(lái)。
  又給你了一個(gè)拼手速的機會(huì ),加油吧,少年!
  作者介紹:
  張俊林,中國中文信息學(xué)會(huì )理事,中科院軟件所博士。目前在新浪微博 AI Lab 擔任資深算法專(zhuān)家。在此之前,張俊林曾經(jīng)在阿里巴巴任資深技術(shù)專(zhuān)家并負責新技術(shù)團隊,以及在百度和用友擔任技術(shù)經(jīng)理及技術(shù)總監等職務(wù)。同時(shí)他是技術(shù)書(shū)籍《這就是搜索引擎:核心技術(shù)詳解》(該書(shū)榮獲全國第十二屆優(yōu)秀圖書(shū)獎)、《大數據日知錄:架構與算法》的作者。

內部信息源與外部源搜索引擎優(yōu)化方法的異同

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 89 次瀏覽 ? 2022-07-26 19:08 ? 來(lái)自相關(guān)話(huà)題

  內部信息源與外部源搜索引擎優(yōu)化方法的異同
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同對我們的整體優(yōu)化計劃有著(zhù)非常重要的影響,下面我們就來(lái)對它們分別做一個(gè)分析。本文分為三步說(shuō)明信息源與外部信息源搜索引擎優(yōu)化方法的異同。第一步:確定作為參考的信息源對搜索引擎優(yōu)化有沒(méi)有重要的影響一般來(lái)說(shuō),由于搜索引擎受谷歌seo規則影響,它主要是取決于谷歌seo規則的適應性,如果谷歌seo規則適應度低,谷歌就不會(huì )采用或者沒(méi)有可采用的檢索方式來(lái)告訴你在搜索引擎上只能取這些信息(即不能采用中文來(lái)進(jìn)行檢索),而與之相比較,在seo模型中的其他模塊,如網(wǎng)站托管、搜索引擎優(yōu)化等模塊都是對網(wǎng)站的整體優(yōu)化起到推動(dòng)作用的,都可以來(lái)使得網(wǎng)站的整體形象與質(zhì)量更高一些。
  
  因此,我們在優(yōu)化一個(gè)網(wǎng)站的時(shí)候,一般而言,優(yōu)化思路總是以指導給谷歌seo規則適當的引導為目標來(lái)進(jìn)行整體優(yōu)化的。第二步:由某個(gè)頁(yè)面或全部頁(yè)面,快速搜尋到公司的網(wǎng)址如果您在某一個(gè)頁(yè)面或所有頁(yè)面上,均可以輕松的找到我們的網(wǎng)址,那么這樣的信息源就是比較好的搜索引擎優(yōu)化方法。第三步:找到與產(chǎn)品相關(guān)性較高的網(wǎng)址(至少是與其產(chǎn)品相關(guān))大多數的搜索引擎優(yōu)化方法都不允許從谷歌搜索引擎結果中直接尋找企業(yè)網(wǎng)址,就算你已經(jīng)在谷歌優(yōu)化很久了。
  因此,您必須在為公司的網(wǎng)站提供關(guān)于你公司產(chǎn)品的信息時(shí),找到與該產(chǎn)品相關(guān)性較高的網(wǎng)址,以方便將來(lái)提供該產(chǎn)品的相關(guān)信息(根據搜索引擎優(yōu)化規則,如果你的公司曾經(jīng)在其他百度搜索引擎有過(guò)相關(guān)網(wǎng)址,那么就請使用自己的百度網(wǎng)址導航站以方便其他的搜索引擎在搜索這個(gè)搜索時(shí)得到更精確、更有價(jià)值的信息)。另外,我們也需要在谷歌搜索引擎檢索網(wǎng)站時(shí),不能僅僅以谷歌的網(wǎng)址導航來(lái)搜索,還要結合谷歌seo的標準與谷歌的算法是否按照相關(guān)性來(lái)進(jìn)行排名。
  
  尋找對公司網(wǎng)站影響最大的主要權威,名人甚至明星網(wǎng)站上。大家可以通過(guò)搜索您網(wǎng)站的標題來(lái)搜索對該網(wǎng)站有效的關(guān)鍵詞,看看哪些詞匯讓我們的企業(yè)搜索引擎排名上升。特別提醒:如果你的網(wǎng)站的搜索引擎排名不怎么樣,我們盡量不要在百度平臺進(jìn)行長(cháng)期的優(yōu)化;而在國內做seo優(yōu)化對于谷歌的利用率要高得多,如果我們必須去谷歌優(yōu)化而不可能使用百度,那么我們可以考慮通過(guò)加速搜索引擎優(yōu)化方法來(lái)提高我們的谷歌排名。
  以上只是給大家一個(gè)參考,真正實(shí)施的時(shí)候還是需要根據實(shí)際情況來(lái)定?!疚挠汕Ш叹W(wǎng)絡(luò )成都分公司根據多年的互聯(lián)網(wǎng)優(yōu)化經(jīng)驗所寫(xiě)。專(zhuān)注于網(wǎng)站seo的專(zhuān)業(yè)團隊,積累了豐富的谷歌seo優(yōu)化經(jīng)驗。我們希望更多的有能力的公司都能利用我們的資源為網(wǎng)站和搜索引擎做好推廣。 查看全部

  內部信息源與外部源搜索引擎優(yōu)化方法的異同
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同對我們的整體優(yōu)化計劃有著(zhù)非常重要的影響,下面我們就來(lái)對它們分別做一個(gè)分析。本文分為三步說(shuō)明信息源與外部信息源搜索引擎優(yōu)化方法的異同。第一步:確定作為參考的信息源對搜索引擎優(yōu)化有沒(méi)有重要的影響一般來(lái)說(shuō),由于搜索引擎受谷歌seo規則影響,它主要是取決于谷歌seo規則的適應性,如果谷歌seo規則適應度低,谷歌就不會(huì )采用或者沒(méi)有可采用的檢索方式來(lái)告訴你在搜索引擎上只能取這些信息(即不能采用中文來(lái)進(jìn)行檢索),而與之相比較,在seo模型中的其他模塊,如網(wǎng)站托管、搜索引擎優(yōu)化等模塊都是對網(wǎng)站的整體優(yōu)化起到推動(dòng)作用的,都可以來(lái)使得網(wǎng)站的整體形象與質(zhì)量更高一些。
  
  因此,我們在優(yōu)化一個(gè)網(wǎng)站的時(shí)候,一般而言,優(yōu)化思路總是以指導給谷歌seo規則適當的引導為目標來(lái)進(jìn)行整體優(yōu)化的。第二步:由某個(gè)頁(yè)面或全部頁(yè)面,快速搜尋到公司的網(wǎng)址如果您在某一個(gè)頁(yè)面或所有頁(yè)面上,均可以輕松的找到我們的網(wǎng)址,那么這樣的信息源就是比較好的搜索引擎優(yōu)化方法。第三步:找到與產(chǎn)品相關(guān)性較高的網(wǎng)址(至少是與其產(chǎn)品相關(guān))大多數的搜索引擎優(yōu)化方法都不允許從谷歌搜索引擎結果中直接尋找企業(yè)網(wǎng)址,就算你已經(jīng)在谷歌優(yōu)化很久了。
  因此,您必須在為公司的網(wǎng)站提供關(guān)于你公司產(chǎn)品的信息時(shí),找到與該產(chǎn)品相關(guān)性較高的網(wǎng)址,以方便將來(lái)提供該產(chǎn)品的相關(guān)信息(根據搜索引擎優(yōu)化規則,如果你的公司曾經(jīng)在其他百度搜索引擎有過(guò)相關(guān)網(wǎng)址,那么就請使用自己的百度網(wǎng)址導航站以方便其他的搜索引擎在搜索這個(gè)搜索時(shí)得到更精確、更有價(jià)值的信息)。另外,我們也需要在谷歌搜索引擎檢索網(wǎng)站時(shí),不能僅僅以谷歌的網(wǎng)址導航來(lái)搜索,還要結合谷歌seo的標準與谷歌的算法是否按照相關(guān)性來(lái)進(jìn)行排名。
  
  尋找對公司網(wǎng)站影響最大的主要權威,名人甚至明星網(wǎng)站上。大家可以通過(guò)搜索您網(wǎng)站的標題來(lái)搜索對該網(wǎng)站有效的關(guān)鍵詞,看看哪些詞匯讓我們的企業(yè)搜索引擎排名上升。特別提醒:如果你的網(wǎng)站的搜索引擎排名不怎么樣,我們盡量不要在百度平臺進(jìn)行長(cháng)期的優(yōu)化;而在國內做seo優(yōu)化對于谷歌的利用率要高得多,如果我們必須去谷歌優(yōu)化而不可能使用百度,那么我們可以考慮通過(guò)加速搜索引擎優(yōu)化方法來(lái)提高我們的谷歌排名。
  以上只是給大家一個(gè)參考,真正實(shí)施的時(shí)候還是需要根據實(shí)際情況來(lái)定?!疚挠汕Ш叹W(wǎng)絡(luò )成都分公司根據多年的互聯(lián)網(wǎng)優(yōu)化經(jīng)驗所寫(xiě)。專(zhuān)注于網(wǎng)站seo的專(zhuān)業(yè)團隊,積累了豐富的谷歌seo優(yōu)化經(jīng)驗。我們希望更多的有能力的公司都能利用我們的資源為網(wǎng)站和搜索引擎做好推廣。

是誰(shuí)給你的自信,讓你上網(wǎng)搜索一下就覺(jué)得“我啥都懂”的?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 87 次瀏覽 ? 2022-06-30 22:26 ? 來(lái)自相關(guān)話(huà)題

  是誰(shuí)給你的自信,讓你上網(wǎng)搜索一下就覺(jué)得“我啥都懂”的?
  現在,只要求助于萬(wàn)能的互聯(lián)網(wǎng),很多問(wèn)題都可以輕松地找到答案。不過(guò),這樣便捷的手段也可能帶來(lái)一些負面作用。發(fā)表在《實(shí)驗心理學(xué)雜志:綜合版》(Journal of Experimental Psychology: General)的一項研究[1]就發(fā)現,在使用互聯(lián)網(wǎng)搜索之后,人們可能會(huì )產(chǎn)生“掌握知識”的錯覺(jué),從而對自己的能力產(chǎn)生過(guò)高的估計。
  依賴(lài)互聯(lián)網(wǎng),對我們的記憶是好是壞?圖片來(lái)源:
  互聯(lián)網(wǎng):
  史上最好記憶搭檔
  在一個(gè)相互合作的團隊當中,人們對信息的處理方式會(huì )與單槍匹馬時(shí)有所不同。合作者們會(huì )共同組成交互記憶系統(transactive memory systems)——每個(gè)人都只需要掌握一部分知識或技能,然后彼此互相依賴(lài),在需要時(shí)進(jìn)行信息交換即可。在這樣的系統中,人們需要擁有兩種記憶:內部記憶(“我知道些什么”)和外部記憶(“誰(shuí)知道什么”)。擁有這兩種記憶,人們就能夠在團隊中貢獻自己的力量,并且高效地獲取外部信息來(lái)解決問(wèn)題。
  而隨著(zhù)科技的發(fā)展,交互記憶系統也加入了新的成員。除了人與人之外,人與互聯(lián)網(wǎng)等外部信息來(lái)源之間也可以建立類(lèi)似的關(guān)系?;ヂ?lián)網(wǎng)上的信息非常豐富,檢索起來(lái)也異常便捷,這使得它一躍成為了人類(lèi)最全能的記憶交互搭檔。
  不僅如此,互聯(lián)網(wǎng)還是個(gè)“甘于奉獻不求回報”的隊友。和它一起工作時(shí),人們可以不用給自己分配任何內部記憶的任務(wù),只需要記住搜索方法,剩下的任務(wù)就都可以交給互聯(lián)網(wǎng)了。這些特性也使得人們越來(lái)越依賴(lài)互聯(lián)網(wǎng)強大的工作能力,減少了自己儲存知識的過(guò)程?;ヂ?lián)網(wǎng)上的信息檢索正在改變人們的思維方式,我們所記住的只是找到信息的方法,而對知識本身的記憶則隨之減少[2]。
  好搭檔帶來(lái)的
  認識偏差
  除了改變人們的記憶方式之外,便捷的互聯(lián)網(wǎng)工具也可能讓我們對自己的知識儲備產(chǎn)生認識上的偏差。有學(xué)者指出,使用互聯(lián)網(wǎng)查找答案會(huì )使人產(chǎn)生一種“我也擁有這些知識”的錯覺(jué)。
  試想,當你想要了解一個(gè)學(xué)術(shù)問(wèn)題的答案時(shí),去圖書(shū)館尋找可能是一個(gè)相對漫長(cháng)而痛苦的過(guò)程。這個(gè)漫長(cháng)的過(guò)程時(shí)刻提醒著(zhù)你“我并不知道這個(gè)問(wèn)題的答案,所以我要尋找”。而在網(wǎng)上,只要輸入關(guān)鍵詞,你想要的答案可能立即就會(huì )呈現在你眼前。這樣輕松獲得詳盡答案的過(guò)程并不是一個(gè)“自然”的過(guò)程,人們可能會(huì )因此將搜索到的知識與自己的內部記憶“合并”,產(chǎn)生自己懂得這些知識的錯覺(jué)。
  為了驗證這一設想,耶魯大學(xué)的心理學(xué)研究者設計了一系列實(shí)驗。
  首先,研究者找來(lái)202名被試,把他們分成了“有網(wǎng)組”和“無(wú)網(wǎng)組”。兩組被試都要回答一組自然科學(xué)類(lèi)小問(wèn)題(例如“打火機是如何工作的”),不同的是“有網(wǎng)組”可以上網(wǎng)檢索幫助答題,而“無(wú)網(wǎng)組”只能靠自己既有的知識進(jìn)行回答。在答題之后,研究者又給出了一些其他不相干領(lǐng)域的題目,要求被試預測自己回答這些問(wèn)題的表現。
  
  實(shí)驗結果發(fā)現,使用了互聯(lián)網(wǎng)的被試在不相干的領(lǐng)域也表現出了顯著(zhù)高于“無(wú)網(wǎng)組”的自信。有意思的是,即使研究者給“無(wú)網(wǎng)組”被試看過(guò)“有網(wǎng)組”被試可以查到的資料之后,上述差異依然存在。由此看來(lái),上網(wǎng)搜索似乎確實(shí)讓人們產(chǎn)生了自己“更有學(xué)問(wèn)”的錯覺(jué)。
  你的許多信息, 是不是已經(jīng)存在云端了?然后你就忘了。圖片來(lái)源:
  為了確保結果可靠,研究者們又改變評估方式重新進(jìn)行了實(shí)驗,并特意提醒被試在預測答題能力時(shí)“不要考慮任何外部資源”。而這一次的實(shí)驗結果依然相同:“有網(wǎng)組”被試依然相信自己擁有更多的知識,可以更好地回答各種問(wèn)題。
  錯覺(jué)從何而來(lái)?
  那么,產(chǎn)生這種現象的原因究竟是什么?是人們真的產(chǎn)生了對知識儲備的錯覺(jué),還是有其他影響因素?對此,研究者提出了若干種假設。
  首先,研究者提出,互聯(lián)網(wǎng)的運用或許并不是影響了人們對知識儲備的認識,而是帶來(lái)了全面的自信心提升。不過(guò),后續的研究發(fā)現,在知識性問(wèn)題以外的方面,兩組被試對答題能力的預測并沒(méi)有差別。對于那些不能在互聯(lián)網(wǎng)上找到答案的問(wèn)題,被試的自我認知并沒(méi)有發(fā)生膨脹。
  此后,研究者將注意力轉移到了“主動(dòng)尋找答案”這個(gè)過(guò)程上。在實(shí)驗中,“有網(wǎng)組”被試可以主動(dòng)地上網(wǎng)搜索,而“無(wú)網(wǎng)組”一直被動(dòng)地接受材料,這或許就是造成差異的原因。于是,研究者又重新設計了實(shí)驗:他們讓“無(wú)網(wǎng)組”被試也上網(wǎng)獲取答案,但他們不需要自己搜索,而是可以直接獲取包含答案的網(wǎng)站鏈接。實(shí)驗結果顯示,“有網(wǎng)組”被試對自己知識儲備的評價(jià)再一次超過(guò)了“無(wú)網(wǎng)組”。在此之后,研究者又對實(shí)驗中的搜索引擎動(dòng)了手腳——一組被試所用的搜索引擎會(huì )將結果完全屏蔽,而另一組只能搜到近一周公布的信息。結果發(fā)現,即使是在搜索中遇到困難的被試,他們對自身知識的評價(jià)也會(huì )顯著(zhù)高于沒(méi)有經(jīng)過(guò)檢索的人。
  至此,研究者已經(jīng)對1712名被試進(jìn)行了一系列實(shí)驗,他們終于得出了自己的結論——在使用互聯(lián)網(wǎng)時(shí),人們主動(dòng)搜索信息的過(guò)程會(huì )使他們高估了自己的知識儲備和答題能力。
  我們如何理解
  這項漫長(cháng)的研究?
  不能否認,我們已將互聯(lián)網(wǎng)當作親密無(wú)間的“記憶伙伴”,而這項研究也提醒我們,互聯(lián)網(wǎng)可能使我們產(chǎn)生“掌握知識”的錯覺(jué)。
  在互聯(lián)網(wǎng)之前,人們也會(huì )依賴(lài)書(shū)籍、專(zhuān)家來(lái)進(jìn)行信息的交互。但是這些資源并不是立即可得的。而互聯(lián)網(wǎng)的便捷性、信息的廣泛性則模糊了內部和外部資源的邊界,增強了對自我知識儲備的錯覺(jué)。
  這一影響看似微不足道,卻可能會(huì )在決策中產(chǎn)生致命影響。當我們在進(jìn)行高風(fēng)險決策時(shí),正確評估自己的能力是十分重要的。錯誤的高估自己會(huì )導致過(guò)度自信,從而帶來(lái)盲目的決定。誠然互聯(lián)網(wǎng)有著(zhù)數不清的優(yōu)點(diǎn),但在依賴(lài)它的同時(shí),也有必要認真審視它對我們產(chǎn)生的影響。(編輯:窗敲雨)
  參考資料:
  
  Fisher, M., Goddu, M. K., & Keil, F. C. (2015, March 30). Searching for Explanations: How the Internet Inflates Estimates of Internal Knowledge. Journal of Experimental Psychology: General. Advance online publication.
  Sparrow, B., Liu, J., & Wegner, D. M. (2011). Google effects on memory: Cognitive consequences of having information at our fingertips. science,333(6043), 776-778.
  一個(gè)AI
  這種名為“我啥都懂”的疾病有三個(gè)階段:
  1,我搜到了,我就覺(jué)得我會(huì )了;
  2,我知道去哪搜,我就覺(jué)得我會(huì )了;
  3,我不懂,我也不知道怎么搜,但我就是覺(jué)得自己啥都會(huì )!
  歡迎對號入座。
  果殼網(wǎng)
  ID:Guokr42
  為什么這樣的二維碼也能掃出來(lái)?
  長(cháng)按它,向果殼發(fā)送【二維碼】
  獲得答案!
  本文來(lái)自果殼網(wǎng),謝絕轉載
  如有需要請聯(lián)系
 ?。g迎轉發(fā)到朋友圈~) 查看全部

  是誰(shuí)給你的自信,讓你上網(wǎng)搜索一下就覺(jué)得“我啥都懂”的?
  現在,只要求助于萬(wàn)能的互聯(lián)網(wǎng),很多問(wèn)題都可以輕松地找到答案。不過(guò),這樣便捷的手段也可能帶來(lái)一些負面作用。發(fā)表在《實(shí)驗心理學(xué)雜志:綜合版》(Journal of Experimental Psychology: General)的一項研究[1]就發(fā)現,在使用互聯(lián)網(wǎng)搜索之后,人們可能會(huì )產(chǎn)生“掌握知識”的錯覺(jué),從而對自己的能力產(chǎn)生過(guò)高的估計。
  依賴(lài)互聯(lián)網(wǎng),對我們的記憶是好是壞?圖片來(lái)源:
  互聯(lián)網(wǎng):
  史上最好記憶搭檔
  在一個(gè)相互合作的團隊當中,人們對信息的處理方式會(huì )與單槍匹馬時(shí)有所不同。合作者們會(huì )共同組成交互記憶系統(transactive memory systems)——每個(gè)人都只需要掌握一部分知識或技能,然后彼此互相依賴(lài),在需要時(shí)進(jìn)行信息交換即可。在這樣的系統中,人們需要擁有兩種記憶:內部記憶(“我知道些什么”)和外部記憶(“誰(shuí)知道什么”)。擁有這兩種記憶,人們就能夠在團隊中貢獻自己的力量,并且高效地獲取外部信息來(lái)解決問(wèn)題。
  而隨著(zhù)科技的發(fā)展,交互記憶系統也加入了新的成員。除了人與人之外,人與互聯(lián)網(wǎng)等外部信息來(lái)源之間也可以建立類(lèi)似的關(guān)系?;ヂ?lián)網(wǎng)上的信息非常豐富,檢索起來(lái)也異常便捷,這使得它一躍成為了人類(lèi)最全能的記憶交互搭檔。
  不僅如此,互聯(lián)網(wǎng)還是個(gè)“甘于奉獻不求回報”的隊友。和它一起工作時(shí),人們可以不用給自己分配任何內部記憶的任務(wù),只需要記住搜索方法,剩下的任務(wù)就都可以交給互聯(lián)網(wǎng)了。這些特性也使得人們越來(lái)越依賴(lài)互聯(lián)網(wǎng)強大的工作能力,減少了自己儲存知識的過(guò)程?;ヂ?lián)網(wǎng)上的信息檢索正在改變人們的思維方式,我們所記住的只是找到信息的方法,而對知識本身的記憶則隨之減少[2]。
  好搭檔帶來(lái)的
  認識偏差
  除了改變人們的記憶方式之外,便捷的互聯(lián)網(wǎng)工具也可能讓我們對自己的知識儲備產(chǎn)生認識上的偏差。有學(xué)者指出,使用互聯(lián)網(wǎng)查找答案會(huì )使人產(chǎn)生一種“我也擁有這些知識”的錯覺(jué)。
  試想,當你想要了解一個(gè)學(xué)術(shù)問(wèn)題的答案時(shí),去圖書(shū)館尋找可能是一個(gè)相對漫長(cháng)而痛苦的過(guò)程。這個(gè)漫長(cháng)的過(guò)程時(shí)刻提醒著(zhù)你“我并不知道這個(gè)問(wèn)題的答案,所以我要尋找”。而在網(wǎng)上,只要輸入關(guān)鍵詞,你想要的答案可能立即就會(huì )呈現在你眼前。這樣輕松獲得詳盡答案的過(guò)程并不是一個(gè)“自然”的過(guò)程,人們可能會(huì )因此將搜索到的知識與自己的內部記憶“合并”,產(chǎn)生自己懂得這些知識的錯覺(jué)。
  為了驗證這一設想,耶魯大學(xué)的心理學(xué)研究者設計了一系列實(shí)驗。
  首先,研究者找來(lái)202名被試,把他們分成了“有網(wǎng)組”和“無(wú)網(wǎng)組”。兩組被試都要回答一組自然科學(xué)類(lèi)小問(wèn)題(例如“打火機是如何工作的”),不同的是“有網(wǎng)組”可以上網(wǎng)檢索幫助答題,而“無(wú)網(wǎng)組”只能靠自己既有的知識進(jìn)行回答。在答題之后,研究者又給出了一些其他不相干領(lǐng)域的題目,要求被試預測自己回答這些問(wèn)題的表現。
  
  實(shí)驗結果發(fā)現,使用了互聯(lián)網(wǎng)的被試在不相干的領(lǐng)域也表現出了顯著(zhù)高于“無(wú)網(wǎng)組”的自信。有意思的是,即使研究者給“無(wú)網(wǎng)組”被試看過(guò)“有網(wǎng)組”被試可以查到的資料之后,上述差異依然存在。由此看來(lái),上網(wǎng)搜索似乎確實(shí)讓人們產(chǎn)生了自己“更有學(xué)問(wèn)”的錯覺(jué)。
  你的許多信息, 是不是已經(jīng)存在云端了?然后你就忘了。圖片來(lái)源:
  為了確保結果可靠,研究者們又改變評估方式重新進(jìn)行了實(shí)驗,并特意提醒被試在預測答題能力時(shí)“不要考慮任何外部資源”。而這一次的實(shí)驗結果依然相同:“有網(wǎng)組”被試依然相信自己擁有更多的知識,可以更好地回答各種問(wèn)題。
  錯覺(jué)從何而來(lái)?
  那么,產(chǎn)生這種現象的原因究竟是什么?是人們真的產(chǎn)生了對知識儲備的錯覺(jué),還是有其他影響因素?對此,研究者提出了若干種假設。
  首先,研究者提出,互聯(lián)網(wǎng)的運用或許并不是影響了人們對知識儲備的認識,而是帶來(lái)了全面的自信心提升。不過(guò),后續的研究發(fā)現,在知識性問(wèn)題以外的方面,兩組被試對答題能力的預測并沒(méi)有差別。對于那些不能在互聯(lián)網(wǎng)上找到答案的問(wèn)題,被試的自我認知并沒(méi)有發(fā)生膨脹。
  此后,研究者將注意力轉移到了“主動(dòng)尋找答案”這個(gè)過(guò)程上。在實(shí)驗中,“有網(wǎng)組”被試可以主動(dòng)地上網(wǎng)搜索,而“無(wú)網(wǎng)組”一直被動(dòng)地接受材料,這或許就是造成差異的原因。于是,研究者又重新設計了實(shí)驗:他們讓“無(wú)網(wǎng)組”被試也上網(wǎng)獲取答案,但他們不需要自己搜索,而是可以直接獲取包含答案的網(wǎng)站鏈接。實(shí)驗結果顯示,“有網(wǎng)組”被試對自己知識儲備的評價(jià)再一次超過(guò)了“無(wú)網(wǎng)組”。在此之后,研究者又對實(shí)驗中的搜索引擎動(dòng)了手腳——一組被試所用的搜索引擎會(huì )將結果完全屏蔽,而另一組只能搜到近一周公布的信息。結果發(fā)現,即使是在搜索中遇到困難的被試,他們對自身知識的評價(jià)也會(huì )顯著(zhù)高于沒(méi)有經(jīng)過(guò)檢索的人。
  至此,研究者已經(jīng)對1712名被試進(jìn)行了一系列實(shí)驗,他們終于得出了自己的結論——在使用互聯(lián)網(wǎng)時(shí),人們主動(dòng)搜索信息的過(guò)程會(huì )使他們高估了自己的知識儲備和答題能力。
  我們如何理解
  這項漫長(cháng)的研究?
  不能否認,我們已將互聯(lián)網(wǎng)當作親密無(wú)間的“記憶伙伴”,而這項研究也提醒我們,互聯(lián)網(wǎng)可能使我們產(chǎn)生“掌握知識”的錯覺(jué)。
  在互聯(lián)網(wǎng)之前,人們也會(huì )依賴(lài)書(shū)籍、專(zhuān)家來(lái)進(jìn)行信息的交互。但是這些資源并不是立即可得的。而互聯(lián)網(wǎng)的便捷性、信息的廣泛性則模糊了內部和外部資源的邊界,增強了對自我知識儲備的錯覺(jué)。
  這一影響看似微不足道,卻可能會(huì )在決策中產(chǎn)生致命影響。當我們在進(jìn)行高風(fēng)險決策時(shí),正確評估自己的能力是十分重要的。錯誤的高估自己會(huì )導致過(guò)度自信,從而帶來(lái)盲目的決定。誠然互聯(lián)網(wǎng)有著(zhù)數不清的優(yōu)點(diǎn),但在依賴(lài)它的同時(shí),也有必要認真審視它對我們產(chǎn)生的影響。(編輯:窗敲雨)
  參考資料:
  
  Fisher, M., Goddu, M. K., & Keil, F. C. (2015, March 30). Searching for Explanations: How the Internet Inflates Estimates of Internal Knowledge. Journal of Experimental Psychology: General. Advance online publication.
  Sparrow, B., Liu, J., & Wegner, D. M. (2011). Google effects on memory: Cognitive consequences of having information at our fingertips. science,333(6043), 776-778.
  一個(gè)AI
  這種名為“我啥都懂”的疾病有三個(gè)階段:
  1,我搜到了,我就覺(jué)得我會(huì )了;
  2,我知道去哪搜,我就覺(jué)得我會(huì )了;
  3,我不懂,我也不知道怎么搜,但我就是覺(jué)得自己啥都會(huì )!
  歡迎對號入座。
  果殼網(wǎng)
  ID:Guokr42
  為什么這樣的二維碼也能掃出來(lái)?
  長(cháng)按它,向果殼發(fā)送【二維碼】
  獲得答案!
  本文來(lái)自果殼網(wǎng),謝絕轉載
  如有需要請聯(lián)系
 ?。g迎轉發(fā)到朋友圈~)

如何進(jìn)行內部信息源搜索引擎優(yōu)化方法的異同簡(jiǎn)單來(lái)說(shuō)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 106 次瀏覽 ? 2022-06-26 06:00 ? 來(lái)自相關(guān)話(huà)題

  如何進(jìn)行內部信息源搜索引擎優(yōu)化方法的異同簡(jiǎn)單來(lái)說(shuō)
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同簡(jiǎn)單來(lái)說(shuō)的話(huà),主要是需要進(jìn)行互補。內部搜索引擎優(yōu)化主要是想通過(guò)傳播網(wǎng)頁(yè),或者圖片,軟文等形式吸引用戶(hù),進(jìn)而有效的提高頁(yè)面的點(diǎn)擊量.而外部信息源,是通過(guò)上傳頁(yè)面鏈接等進(jìn)行文字,圖片甚至音頻等形式對頁(yè)面進(jìn)行推廣.當然,我們的目的也是為了提高頁(yè)面的質(zhì)量。他們兩者的優(yōu)缺點(diǎn)是不同的。
  
  外部信息源:成本低,效果顯著(zhù),但用戶(hù)體驗會(huì )受到影響。內部搜索引擎優(yōu)化:成本低,但獲得的回報不如外部信息源。如何進(jìn)行內部搜索引擎優(yōu)化?外部信息源:大部分在百度新聞源,大家可以查看搜狐新聞源,騰訊新聞源,各大門(mén)戶(hù)網(wǎng)站搜索引擎都會(huì )在頁(yè)面里面發(fā)布各種各樣的文章.內部搜索引擎優(yōu)化:在垂直網(wǎng)站發(fā)布文章,內容,影片,教程,文獻,小說(shuō),文章,等內容。
  這種策略對于一個(gè)網(wǎng)站進(jìn)行排名,搜索引擎認可,會(huì )給網(wǎng)站建議度,分享度等等.對于seo新手來(lái)說(shuō),是一個(gè)好事,可以短時(shí)間內,快速積累一定量的內容。如何進(jìn)行內部搜索引擎優(yōu)化?準備:一個(gè)好的logo,主要說(shuō)的就是網(wǎng)站名稱(chēng),網(wǎng)站服務(wù)器,域名.網(wǎng)站本身要進(jìn)行seo優(yōu)化,必須要具備好的內部數據源.外部信息源:大部分在百度新聞源,大家可以查看搜狐新聞源,騰訊新聞源,各大門(mén)戶(hù)網(wǎng)站搜索引擎都會(huì )在頁(yè)面里面發(fā)布各種各樣的文章.內部搜索引擎優(yōu)化:在垂直網(wǎng)站發(fā)布文章,內容,影片,教程,文獻,小說(shuō),文章,等內容。
  這種策略對于一個(gè)網(wǎng)站進(jìn)行排名,搜索引擎認可,會(huì )給網(wǎng)站建議度,分享度等等.對于seo新手來(lái)說(shuō),是一個(gè)好事,可以短時(shí)間內,快速積累一定量的內容。 查看全部

  如何進(jìn)行內部信息源搜索引擎優(yōu)化方法的異同簡(jiǎn)單來(lái)說(shuō)
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同簡(jiǎn)單來(lái)說(shuō)的話(huà),主要是需要進(jìn)行互補。內部搜索引擎優(yōu)化主要是想通過(guò)傳播網(wǎng)頁(yè),或者圖片,軟文等形式吸引用戶(hù),進(jìn)而有效的提高頁(yè)面的點(diǎn)擊量.而外部信息源,是通過(guò)上傳頁(yè)面鏈接等進(jìn)行文字,圖片甚至音頻等形式對頁(yè)面進(jìn)行推廣.當然,我們的目的也是為了提高頁(yè)面的質(zhì)量。他們兩者的優(yōu)缺點(diǎn)是不同的。
  
  外部信息源:成本低,效果顯著(zhù),但用戶(hù)體驗會(huì )受到影響。內部搜索引擎優(yōu)化:成本低,但獲得的回報不如外部信息源。如何進(jìn)行內部搜索引擎優(yōu)化?外部信息源:大部分在百度新聞源,大家可以查看搜狐新聞源,騰訊新聞源,各大門(mén)戶(hù)網(wǎng)站搜索引擎都會(huì )在頁(yè)面里面發(fā)布各種各樣的文章.內部搜索引擎優(yōu)化:在垂直網(wǎng)站發(fā)布文章,內容,影片,教程,文獻,小說(shuō),文章,等內容。
  這種策略對于一個(gè)網(wǎng)站進(jìn)行排名,搜索引擎認可,會(huì )給網(wǎng)站建議度,分享度等等.對于seo新手來(lái)說(shuō),是一個(gè)好事,可以短時(shí)間內,快速積累一定量的內容。如何進(jìn)行內部搜索引擎優(yōu)化?準備:一個(gè)好的logo,主要說(shuō)的就是網(wǎng)站名稱(chēng),網(wǎng)站服務(wù)器,域名.網(wǎng)站本身要進(jìn)行seo優(yōu)化,必須要具備好的內部數據源.外部信息源:大部分在百度新聞源,大家可以查看搜狐新聞源,騰訊新聞源,各大門(mén)戶(hù)網(wǎng)站搜索引擎都會(huì )在頁(yè)面里面發(fā)布各種各樣的文章.內部搜索引擎優(yōu)化:在垂直網(wǎng)站發(fā)布文章,內容,影片,教程,文獻,小說(shuō),文章,等內容。
  這種策略對于一個(gè)網(wǎng)站進(jìn)行排名,搜索引擎認可,會(huì )給網(wǎng)站建議度,分享度等等.對于seo新手來(lái)說(shuō),是一個(gè)好事,可以短時(shí)間內,快速積累一定量的內容。

彼得·比勒金等 | Dacura平臺——歷史學(xué)研究的數據收集和知識提取新途徑

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 136 次瀏覽 ? 2022-06-25 22:54 ? 來(lái)自相關(guān)話(huà)題

  彼得·比勒金等 | Dacura平臺——歷史學(xué)研究的數據收集和知識提取新途徑
  當前計算機技術(shù)的發(fā)展為學(xué)者們提供了新的途徑對來(lái)自互聯(lián)網(wǎng)的數據進(jìn)行收集、儲存和檢索,這為歷史科學(xué)領(lǐng)域里進(jìn)行文獻綜述以及數據收集方法的轉型提供了可能。作為一個(gè)數據綜合維護平臺,Dacura系統突出地反映了這一發(fā)展趨勢的三個(gè)方面:第一,它是一種基于知識圖譜的數據模型,從而區別于標準的用行與列表達的數據結構;第二,使用網(wǎng)絡(luò )本體語(yǔ)言(Web Ontology Language,OWL)對數據進(jìn)行定義;第三,具有基于語(yǔ)義推理的自動(dòng)處理進(jìn)程,以篩選掉成千上萬(wàn)與研究議題不相關(guān)或者準確度存疑的在線(xiàn)和數據庫點(diǎn)擊量。Ducara的建立與Seshat數據庫處于伴生關(guān)系,后者的組建旨在協(xié)調量化歷史和考古學(xué)數據,以此用統計方法對歷史動(dòng)態(tài)模型進(jìn)行測試。以下我們將提供具體的范例來(lái)介紹Dacura和Seshat數據庫,以說(shuō)明上文述及的計算機科學(xué)的進(jìn)步從哪些方面能夠惠及歷史研究者的工作。
  對于史學(xué)研究者來(lái)說(shuō),未經(jīng)審核的數據過(guò)剩是一個(gè)基本問(wèn)題,而Dacura平臺旨在為學(xué)者們提供解決方案。舉例來(lái)說(shuō),假設研究者打算收集量化數據來(lái)回答某個(gè)特定問(wèn)題,比如夏威夷島上的人口增長(cháng)是否先于1500年左右國家的出現,一個(gè)簡(jiǎn)易的人口壓力模型就能做出預測。如果她僅僅在谷歌搜索引擎輸入“古代夏威夷人口”,將會(huì )得到接近250000個(gè)搜索結果(其中一些涉及現代人口統計數據),而且她也沒(méi)有簡(jiǎn)單省力的方法去弄清楚,搜索引擎提供的這么多有關(guān)古代夏威夷的信息中,哪些信息是她需要的,哪些信息是可靠的(例如,“古代夏威夷人口”的維基百科頁(yè)面僅僅提供了估算數據,而且明顯地源于單一的信息源;而無(wú)法明確地鑒別數據來(lái)源本身就是一個(gè)嚴重的問(wèn)題)。如果這個(gè)研究者代之以谷歌學(xué)術(shù),檢索的結果數量會(huì )減少到大約165000條,盡管她可以指望結果的質(zhì)量更好,不過(guò)鑒別這些論文和學(xué)術(shù)專(zhuān)著(zhù)是否與她的問(wèn)題旨趣直接相關(guān),仍然是個(gè)令人生畏的工作。甚至使用JSTOR,這一質(zhì)量有保證的數據庫,也將提供大約60000篇論文給研究者的篩選工作制造障礙。
  上述例子表明目前史學(xué)研究者所面臨的一個(gè)中心問(wèn)題,互聯(lián)網(wǎng)和出版資源的開(kāi)放獲取為史學(xué)工作者們感興趣的任何研究議題,提供了豐富的信息和材料,然而這些信息沒(méi)有質(zhì)量保證,即便是有質(zhì)量保障的信息源(比如同行評議的開(kāi)源出版物),信息量也是過(guò)剩的。因此對于研究者來(lái)說(shuō),希望出現這樣一種工具:允許研究者建立自己的高質(zhì)量的、結構化的數據集,為研究者提供解決問(wèn)題所需要的材料。這種工具要求一種層級結構的(本體)設計,從而讓研究者可以較為容易地挖掘出與他們的研究直接相關(guān)的檢索結果。這個(gè)檢索工具應該能精確對結果進(jìn)行索引,研究者檢索夏威夷人口的估算值時(shí)——正如我們虛構的研究者試圖嘗試的那樣——不僅可以檢索到所有與夏威夷人口估算有關(guān)的結果,同時(shí)也不會(huì )檢索到與研究題目不相關(guān)的其他統計數據和地點(diǎn)信息。簡(jiǎn)而言之,這樣的檢索工具必須能夠應用集成的詞庫或詞庫集作為基本的檢索程序的一部分。
  除此之外,還有不少檢索工具能夠提供這種功能:進(jìn)行跨領(lǐng)域的快速檢索特定的、高質(zhì)量的信息。僅就考古學(xué)領(lǐng)域的檢索工具(它的第一位創(chuàng )建者是一名考古學(xué)家)而言,eHRAF(Human Relations Area Files; )就是業(yè)內的一個(gè)典范。它提供兩個(gè)文件檔案庫(分別是民族志檔案和考古學(xué)檔案),使用高精確度的本體——世界文化概覽和考古傳統概覽(the Outline of World Cultures and Outline of Archaeological Traditions),以及豐富的詞庫集——文化史料概覽(the Outline of Cultural Materials)。因此eHRAF可以從來(lái)自將近45萬(wàn)頁(yè)的考古、民族志原始和二手史料中實(shí)現句段檢索,能夠使用層級結構和布爾搜索策略,輕易地實(shí)現信息的搜索和重構。這些檢索結果是具體的,并具有極高的質(zhì)量和專(zhuān)門(mén)性,研究者也可以對之進(jìn)行數量管理。然而,其檢索結果的范圍僅限于eHRAF數據庫囊括的資料。eHRAF之所以能夠提供如此高質(zhì)量的信息檢索,是因為其進(jìn)行了廣泛的信息預處理,擁有博士學(xué)位的考古學(xué)家對每個(gè)文檔、甚至每個(gè)段落都用本體進(jìn)行了編碼。簡(jiǎn)要來(lái)說(shuō),該平臺提供的簡(jiǎn)易的高質(zhì)量信息搜索和檢索,其背后卻要求巨大的工作量。這一方面意味著(zhù)eHRAF平臺數據擴充比較緩慢,另一方面平臺必須要向用戶(hù)收費。
  tDAF(the Digital Archaeological Record; )平臺則是另一個(gè)檢索工具,像前述的eHRAF一樣,它也可以提供迅捷的、特定的、高質(zhì)量的跨領(lǐng)域信息檢索服務(wù)。包括原始數據集、shapefiles格式的文件和其他類(lèi)似的數據資料,都能夠在tDAF平臺上獲得,它們被基本的本體組織起來(lái)。不同于eHRAF平臺,這些信息不是由tDAF的運營(yíng)人員處理的(盡管他們會(huì )進(jìn)行審核以確保進(jìn)程的正確性),而主要依賴(lài)個(gè)體研究者,由他們向平臺提交處理好的元數據結構。這一特點(diǎn)令tDAR平臺中的信息、檔案、文獻的數量能相對快速地增長(cháng),用戶(hù)也能夠免費使用tDAR平臺的信息檢索功能,不過(guò)為了鼓勵提供文獻,平臺還是會(huì )收取少許費用。然而,因為用戶(hù)提供數據本體和索引,致使材料的細節和精確度存在差異,這意味著(zhù)搜索的結果可能無(wú)法包含所有相關(guān)的文檔信息。此外,和eHRAF一樣,這個(gè)平臺可供檢索的信息也局限在平臺數據集中。
  OpenContext()則是類(lèi)似于tDAR的另一個(gè)優(yōu)秀數據庫,不過(guò)它有一些附加功能,讓數據庫的檢索范圍超越了考古學(xué)領(lǐng)域。與tDAF類(lèi)似,考古數據的使用需要一些費用。但不同于tDAF,OC平臺的編輯者們同資源貢獻者們會(huì )一起創(chuàng )建元數據、清理數據以便在網(wǎng)絡(luò )上發(fā)布,而數據資源自身的意義會(huì )在這一過(guò)程中得到雙方的評估;換言之,并不是所有數據都會(huì )在平臺公開(kāi)發(fā)布,只有那些接受過(guò)同行評審、有廣泛應用前景的數據才會(huì )被發(fā)布。一旦與Open Context對接,數據資源就通過(guò)關(guān)聯(lián)數據標準(Linked Data standards)與互聯(lián)網(wǎng)上的數據實(shí)現鏈接。這使得Open Context平臺的檢索范圍超出了檔案庫的數據,從而克服了eHRAF和tDAR兩大平臺的局限,同時(shí)同行審核又對那些由Open Context直接貢獻的信息提供了質(zhì)量保證,不過(guò)審核流程中的信息是基于OC平臺的,而非直接鏈接到的原始信息源,我們認為這是一個(gè)較為嚴重的局限。
  我們在這里介紹的,即是比上述三種平臺(當然還有許多其他優(yōu)秀的數據庫項目和數據儲存平臺可供征引介紹)更具有綜合性的解決方案:Dacura(dacura. cs.tcd.ie)。這一平臺可以跨領(lǐng)域檢索特定的高質(zhì)量信息,它是集數據收集、評估、整理和輸出為一體的綜合平臺,也是Seshat數據庫(seshatdatabank. info)的管理系統,后者的功能、特性我們會(huì )在下文詳述。通過(guò)大數據研究的多種新方案的協(xié)同開(kāi)發(fā)和運作,Dacura平臺在持續的問(wèn)題和缺陷發(fā)現機制的運行中獲得助益,并匯集和解決了大量、復雜的歷史信息檢索、收集過(guò)程中面臨的問(wèn)題和需求,因此可以作為一個(gè)優(yōu)秀的研究資源,惠及學(xué)院派的史學(xué)工作者。
  知識圖譜技術(shù)在諸如谷歌和臉譜等互聯(lián)網(wǎng)企業(yè)的海量和多樣信息資源——企業(yè)內部會(huì )對之加以綜合處理和管理——的管理和結構化中,發(fā)揮著(zhù)越來(lái)越大的作用。傳統的基于表格和行列排列組合的SQL儲存解決方案已經(jīng)不能勝任企業(yè)管理的復雜信息的結構及其蘊含的語(yǔ)義,也無(wú)法呈現事物間的復雜關(guān)系。然而對于數據來(lái)說(shuō),除了體量龐大和具有技術(shù)實(shí)力的企業(yè)外,知識圖譜技術(shù)的使用仍然需要專(zhuān)門(mén)且難度較高的技術(shù)門(mén)檻。Dacura設計的目標便是開(kāi)辟一條路徑,讓歷史研究者們不需要掌握大量的專(zhuān)業(yè)知識就可以使用知識圖譜技術(shù)。Dacura通過(guò)以下兩個(gè)方面來(lái)實(shí)現這些目標,即它可以自動(dòng)運行諸多數據——它們來(lái)自該平臺設置的語(yǔ)義分析模塊——的收集和綜合處理軟件,同時(shí)也為用戶(hù)提供簡(jiǎn)易的操作工具和界面——而不需要了解隱藏在背后的技術(shù)原理。
  本文并不旨在為Dacura平臺打小廣告,毋寧說(shuō)我們是通過(guò)介紹Dacura來(lái)進(jìn)一步闡明一種收集、評估和檢索來(lái)自互聯(lián)網(wǎng)和任何一批大數據資源(得益于計算機技術(shù)的進(jìn)步)的途徑和方法。我們確信這將為歷史科學(xué)帶來(lái)影響深遠的沖擊。
  Dacura平臺
  Dacura是一個(gè)數據綜合處理平臺。它的設計目的在于,協(xié)助歷史學(xué)者利用豐富的語(yǔ)義知識圖譜來(lái)建立并管理高質(zhì)量的數據庫?!昂?jiǎn)明易用”即是該平臺創(chuàng )設的一個(gè)基礎性理念——史學(xué)工作者可以對意圖收集的數據結構自行定義。該平臺運用這些信息結構來(lái)進(jìn)一步支持用戶(hù)發(fā)現、收集、過(guò)濾、校正、精煉和分析源于互聯(lián)網(wǎng)的數據,進(jìn)而整理出高質(zhì)量的信息。以下這些具體和詳細的信息需要研究者提供給Dacura以開(kāi)啟自動(dòng)處理的進(jìn)程:學(xué)者與他們研究議題相關(guān)的基本信息實(shí)體(比如“夏威夷”)的定義;它們的具體內容和特征(如人口估算值)、數據類(lèi)型和每個(gè)屬性的計量單位(如數值型)、與數據組內部以及其他數據集其他實(shí)體的關(guān)系(如夏威夷位于波利尼西亞)。
  這一工具的優(yōu)勢之一在于,它能夠界定學(xué)者意圖獲取的信息或數據的結構。所有歷史科學(xué)家都清楚,在史料能被使用之前,其屬性和有效性必須得到批判和反思。由于Dacura在執行一次搜索命令以前,處理進(jìn)程要求所需的數據的一些基本的、精確的屬性參數。因此這一運作邏輯鼓勵研究者們仔細思考以下問(wèn)題:當他們展開(kāi)數據收集工作以前,所需的數據、史料的本質(zhì)是什么?同時(shí)他們采用什么樣的視野和方法來(lái)提出自己的問(wèn)題?這樣的準備工作為歷史學(xué)家節省了時(shí)間和精力,而辨明有用的信息來(lái)源通常也是歷史研究中最為困難的任務(wù)。Dacura簡(jiǎn)明和友好的用戶(hù)交互界面(下文會(huì )展開(kāi)說(shuō)明)令明確數據界限的工作流程容易起來(lái),同時(shí)由于Dacura提供一種靈活的搜索結構,搜索進(jìn)程能夠動(dòng)態(tài)適應,會(huì )隨著(zhù)數據被審視的方式,以及聚焦的問(wèn)題相應地產(chǎn)生變化。
  Dacura可以把研究者界定的數據集的結構編譯為一種語(yǔ)義網(wǎng)絡(luò )本體結構。這種本體結構根據萬(wàn)維網(wǎng)聯(lián)盟(W3C,互聯(lián)網(wǎng)國際標準的主要制定者)的網(wǎng)絡(luò )本體語(yǔ)言(OWL)標準制式進(jìn)行編碼。作為一種豐富而靈活的本體語(yǔ)言標準,OWL可以令廣泛而多樣的約束條件和推理規則被研究者指定到數據收集進(jìn)程中去,如一個(gè)城鎮的人口不應該比它所在地區的人口更為龐大。因而與非結構化的自然語(yǔ)言字符串——它們是驅動(dòng)大多數搜索引擎的結果——形成對比,高度體系化和精確化界定出的本體結構的數據集,其屬性參數能夠被計算機充分利用,從而為研究者獲取特征更為鮮明的檢索結果。由此,史學(xué)研究者輸入和界定的信息結構及其屬性參數越豐富,Dacura系統對數據的自動(dòng)收集和用以分析、優(yōu)化和管理數據工具的生成也就越容易。
  Dacura平臺的運行還基于一種語(yǔ)義網(wǎng)絡(luò )技術(shù)。其核心內容是一種資源描述框架(Resource Description Framework, RDF),是一種三元數據庫結構(不是那種二維的行與列組成的電子表格),呈現為類(lèi)似“夏威夷處于波利尼西亞”、“夏威夷擁有島嶼”或是“波利尼西亞擁有島嶼”這樣的主謂賓句式結構(subject-predicate-object structure)。這種主謂賓句式結構可以被理解為結點(diǎn)-邊-屬性(nodes-edges-properties)這樣的語(yǔ)義結構,形成一種呈現和儲存數據信息的三維視圖表格。RDF作為三元存儲圖形數據結構能夠實(shí)現無(wú)索引的鏈接,每一個(gè)主謂賓句式詞串可以直接鏈接到對應的主謂賓三元組合中去,不需要索引查找。結合上文提及的“夏威夷人口”這一假設的問(wèn)題語(yǔ)境,波利尼西亞、夏威夷和島嶼這些關(guān)鍵詞會(huì )被全部鏈接起來(lái),使得系統不需要索引搜索就可以確定夏威夷是波利尼西亞群島中的一個(gè)。
  Dacura平臺運用OWL本體來(lái)確保語(yǔ)義推理過(guò)程中的質(zhì)量管理以及數據收集工作的正常進(jìn)行;具體來(lái)說(shuō),如果上文提及的三元組合存在沖突,Dacura會(huì )將之識別出來(lái)并作為一個(gè)沖突項加以標記以供研究者進(jìn)一步評估。Dacura被設計成在開(kāi)放關(guān)聯(lián)數據的原則下生產(chǎn)和使用數據。這一設計理念讓以下活動(dòng)變得更為便利:比如從現有的結構化信息資源里輸入信息,通過(guò)數據集之間的互通以擴充研究者管理的數據集,這里的互通是經(jīng)由關(guān)聯(lián)數據鏈接到公共數據資源(如DBpedia或維基數據,它是維基百科的關(guān)聯(lián)數據版本),同時(shí)那些由Dacura組織起來(lái)的數據集也能通過(guò)類(lèi)似的方式簡(jiǎn)易地關(guān)聯(lián)起來(lái)。我們在Youtube視頻網(wǎng)站上提供了Dacura鏈接不同資源的視頻范例。Dacura平臺的一個(gè)核心功能即數據收集,包括通過(guò)關(guān)聯(lián)數據采集數據,而且作為系統工作流的一部分,平臺會(huì )通過(guò)自動(dòng)和人工的方式對數據的質(zhì)量進(jìn)行評估。因此Dacura不僅能夠快捷和便利地收集信息,也能夠對信息的質(zhì)量進(jìn)行評定。
  Dacura平臺的工作流把數據的創(chuàng )建和管理分為四個(gè)階段,如圖一所示。第一個(gè)階段是數據的收集:確定用于填充研究者數據集的高質(zhì)量信息的來(lái)源。Dacura支持多種方式進(jìn)行數據收集:它可以在公共數據資源識別出與學(xué)者研究相關(guān)的數據,也可以部署自動(dòng)代理進(jìn)行互聯(lián)網(wǎng)搜索,再到通過(guò)人工力量對信息來(lái)源做進(jìn)一步規范。這套系統的目標在于盡可能大的實(shí)現處理進(jìn)程的自動(dòng)化,而識別和界定信息來(lái)源是為了擴充學(xué)者數據集的需要。在這個(gè)階段,系統的目標不在于尋找到那些與研究者感興趣的研究議題有關(guān)的內容實(shí)體,而是為了尋找到明確的信息來(lái)源,可以用于擴充數據的屬性和關(guān)系,即那些研究者已經(jīng)在數據規范中加以定義的屬性和關(guān)系。
  Dacura數據創(chuàng )建和管理進(jìn)程的第二個(gè)步驟是知識提取。這個(gè)階段會(huì )從收集的數據來(lái)源中提取出精確的信息,并將之納入到研究者的數據規范所需要的結構中去。盡管自然語(yǔ)言處理和其他的人工智能技術(shù)仍然在持續發(fā)展,但它們還是很容易出錯,因而在通常情況下為了保證數據的高質(zhì)量,投入一些人力來(lái)過(guò)濾程序誤報也是必須的。Dacura平臺采用的工具在篩選、過(guò)濾、改進(jìn)、注釋和鏈接候選信息記錄等方面,支持人工用戶(hù)和自主代理產(chǎn)出知識報告;換言之,信息來(lái)源里包含有相關(guān)知識的權威解釋?zhuān)⑼ㄟ^(guò)鏈接到網(wǎng)絡(luò )數據而得到更廣泛的擴充。
  Dacura數據處理進(jìn)程的第三個(gè)階段或許是為保證數據質(zhì)量最為重要的階段:專(zhuān)家分析。Dacura平臺的一大長(cháng)處便是聚焦數據質(zhì)量,基于自動(dòng)代理工具和人工處理確保收集來(lái)的數據在準確度和完整性上符合研究者先前提供給平臺的數據規范要求。平臺首先通過(guò)基于語(yǔ)義一致性和有效性測試技術(shù)的自動(dòng)處理工具,對收集來(lái)的原始數據加以處理,將不同數據指向并合并到一個(gè)綜合解釋中去,該解釋體現了自動(dòng)處理工具對權威數據——它們準確地反映了真實(shí)的狀況——最精確的預估。這些綜合解釋進(jìn)一步由領(lǐng)域專(zhuān)家——就像本文假設的對夏威夷人口問(wèn)題感興趣的學(xué)者——來(lái)評估,這一步驟允許專(zhuān)家校正訛誤繼而確認專(zhuān)家意見(jiàn)與自動(dòng)處理工具之間的不一致。專(zhuān)家們可以編纂具有個(gè)人色彩的數據解釋?zhuān)ū热缣貏e指明只有某個(gè)特定的信息來(lái)源是可信的),并在數據集上把這條解釋覆蓋上去,進(jìn)而創(chuàng )建一個(gè)自定義的數據集,以呈現他們對某些數據的看法。
  至于Seshat平臺的領(lǐng)域專(zhuān)家,由該平臺的管理團隊負責征集,主要根據他們在需要評估的相關(guān)領(lǐng)域內的出版記錄。這些專(zhuān)家都具有相應學(xué)術(shù)領(lǐng)域的博士學(xué)位,相當一部分有學(xué)院派的工作背景。專(zhuān)家也會(huì )被定期評估,以辨別出經(jīng)常輸入與采集到的數據有訛誤的那些人。有人可能會(huì )認為通過(guò)征詢(xún)來(lái)建立一個(gè)專(zhuān)家庫似乎不那么有效率,但是我們在Seshat數據庫公開(kāi)的名單中,可以看到目前作為志愿者參與數據評估的專(zhuān)家們的工作質(zhì)量。本文撰寫(xiě)時(shí)數據庫的專(zhuān)家數量為77名,而這些志愿專(zhuān)家們的專(zhuān)業(yè)領(lǐng)域的覆蓋范圍表明,將專(zhuān)家評估整合到像Dacura平臺這樣的數據收集系統是十分可行的。大部分采用了Dacura平臺的項目,可能不會(huì )有Seshat數據庫這般囊括了廣闊的學(xué)術(shù)視野和范圍,唯一需要對數據進(jìn)行評估的專(zhuān)家,可能就是研究者自己。
  最后,Dacura支持各類(lèi)輸出工具讓數據能夠以不同格式輸出到第三方平臺。Dacura發(fā)布了它作為一種關(guān)聯(lián)數據格式的管理數據,所以其他的用戶(hù)和平臺,如上文述及的Open Context,能夠毫無(wú)困難地訪(fǎng)問(wèn)它。Dacura還提供SPARQL終端——一種針對RDF的查詢(xún)語(yǔ)言——支持數據的復雜過(guò)濾和提取。這便允許智能應用程序以一種之前難以想見(jiàn)的方式實(shí)現與數據的交互。對于個(gè)人用戶(hù)來(lái)說(shuō),Dacura平臺能夠生成圖表、表格、地圖和其他的可視化工具,為用戶(hù)提供便于理解數據的可視化呈現方式。以圖表或其他輸出方式呈現的數據,可以瀏覽、檢索和選定,令用戶(hù)能夠訪(fǎng)問(wèn)其中與他們的研究主題最為貼合的一部分數據。Dacura還可以實(shí)現數據集或它們的子項以更為廣泛的數據格式輸出,從而用于外部分析,其中包括地理信息系統以及諸如SPSS或者R語(yǔ)言的統計格式。
  Dacura的實(shí)施:Seshat數據庫的元數據模型
  作為Dacura在研究實(shí)踐中發(fā)揮作用的范例,圖二向讀者展示了元數據模型如何被運用到Seshat——全球歷史數據庫(Global Historical Databank)。Seshat數據庫()的目的是組建一個(gè)全面而綜合的知識體系,這些知識包括人類(lèi)歷史以及史前史,以實(shí)證檢驗有關(guān)文化演變的假說(shuō),包括宗教、儀式、戰爭、農業(yè)或者其他變量在社會(huì )復雜化進(jìn)程中扮演的角色。迄今為止,Seshat數據庫已經(jīng)被用于區分出一種單一的復雜性維度,可以用來(lái)解釋人類(lèi)社會(huì )組織中大約四分之三的變化;此外它還被用于論證軸心時(shí)代貫穿于歐亞大陸的社會(huì )政治轉型的假說(shuō),超過(guò)了一千年的時(shí)間跨度。運用適當的統計學(xué)技術(shù)來(lái)考察這類(lèi)時(shí)間尺度較大的問(wèn)題需要有效和可靠的數據;這也是說(shuō),數據能夠反映學(xué)者們對問(wèn)題的定義,同時(shí)數據在不同案例中以同樣的標準被度量。
  當Seshat數據庫在計劃籌建階段時(shí),正處于開(kāi)發(fā)狀態(tài)的Dacura被認為對Seshat來(lái)說(shuō)是一個(gè)絕佳的數據處理平臺。兩支團隊決定協(xié)同開(kāi)發(fā)Dacura和Seshat平臺,令雙方實(shí)現信息共享。由于計算機科學(xué)家和歷史學(xué)家以往不會(huì )一同開(kāi)展工作,所以Dacura和Seshat兩大平臺的研究團隊之間的合作證明跨學(xué)科研究能夠取得豐碩的成果,當然前提是Dacura團隊的計算機專(zhuān)家能夠了解歷史學(xué)家的需求,同時(shí)Seshat研究團隊也能夠理解三元數據結構在收集和管理數據層面的可能性和局限性。
  Seshat的運行環(huán)境基于兩個(gè)基本信息:位置信息(Location)和持續時(shí)段(Duration)。具體來(lái)說(shuō),位置信息是地球表面上任意一個(gè)點(diǎn)或者多邊形區域,其實(shí)體被定義為領(lǐng)域(Territory)。Seshat定義了三級結構的領(lǐng)域實(shí)體(在Seshat升級后可能實(shí)現更多層級結構):
 ?。?)自然地理區域(Natural-Geographic Areas,NGA),它指的是一種大約100x100公里的相鄰區域,其中包含有相當均一的生態(tài)環(huán)境區域。
 ?。?)生物群落(Biomes),指的是一種具有連續性的生物圈或是擁有相似氣候條件的區域。
 ?。?)世界性區域(World Regions),它可能是指像民族國家、地區政權或是能以其他特定標準識別的預定義實(shí)體。
  一個(gè)持續時(shí)段可以設定為一個(gè)單個(gè)日期或一個(gè)時(shí)間段。添加一個(gè)持續時(shí)段到領(lǐng)域實(shí)體層級中去,便可以產(chǎn)生兩個(gè)有時(shí)間限制的實(shí)體之一:
 ?。?)人口,指在一個(gè)確定的時(shí)間段內生活在某個(gè)特定領(lǐng)域內的一批人類(lèi)群體;
 ?。?)一個(gè)歷史事件,它被定義為在一個(gè)確定的時(shí)間段內、在某個(gè)特定領(lǐng)域內發(fā)生的事件。
  Seshat數據庫能夠為特定研究問(wèn)題提供人口和歷史事件的實(shí)體類(lèi)。對于人口,目前有以下幾種實(shí)體類(lèi):
 ?。?)傳統,它被定義為人類(lèi)群體“分享相似的日常生活實(shí)踐、技術(shù)以及社會(huì )政治組織,它們在一個(gè)相對大的區域空間內呈現出連續性,并且在一段相對較長(cháng)的時(shí)期里保持了延續性”。對于這個(gè)實(shí)體類(lèi)來(lái)說(shuō),考古學(xué)傳統概覽(the Outline of Archaeological Traditions,下文簡(jiǎn)稱(chēng)OAT)為平臺的案例選擇提供了通用的抽樣范圍;同時(shí),文化資料概覽(the Outline of Cultural Materials,以下簡(jiǎn)稱(chēng)OCM)為數據編碼提供了詞庫。
 ?。?)文化群體,它指的是一類(lèi)人群,他們共享一套規范、信仰、行為、價(jià)值、態(tài)度等等。對于這個(gè)實(shí)體類(lèi)來(lái)說(shuō),主要的抽樣范圍來(lái)自世界文化概覽(the Outline of World Cultures,以下簡(jiǎn)稱(chēng)OWC),詞庫同樣來(lái)自OCM。
  
 ?。?)政治組織,它指的是基于相似的政府管理形成的獨立的政治性聯(lián)合體。這里有一個(gè)用于具體研究項目而創(chuàng )建的實(shí)體類(lèi)范例。圖爾欽等人撰寫(xiě)的論文向讀者展示了一個(gè)由30個(gè)案例組成的樣本,這些案例根據社會(huì )政治組織和地理區域的特點(diǎn)被挑選出來(lái)。OCM為這個(gè)實(shí)體類(lèi)提供了主要的詞庫。
 ?。?)聚落,這個(gè)實(shí)體類(lèi)的物理空間以及物質(zhì)設施范圍很廣,其規模大小和復雜程度的跨度涵蓋了臨時(shí)性營(yíng)地以及大都市。由于能夠被編碼的聚落范圍龐大,該實(shí)體沒(méi)有界定抽樣范圍。主要的詞庫來(lái)源仍然是OCM。
 ?。?)認同群體,具有相同的歸屬感的一群人。跟政治組織類(lèi)似,這個(gè)實(shí)體類(lèi)也是為特定的研究項目創(chuàng )建的,它的抽樣也具有隨機性的特征。對于這一實(shí)體,沒(méi)有正式的詞庫,不過(guò)OCM在一些特定領(lǐng)域也被使用。
 ?。?)語(yǔ)言群體,它是指使用同一種語(yǔ)言的群體。這一實(shí)體類(lèi)使用的抽樣范圍是民族語(yǔ)言志平臺(Ethnologue,),但是它也沒(méi)有正式的詞庫(同樣,OCM在一些特定領(lǐng)域也被使用)。
  此外,子類(lèi)層級也能夠被添加到實(shí)體類(lèi)中去,以為研究者提供屬性更多的數據集。圖三便顯示了為上述提及的實(shí)體類(lèi)創(chuàng )建的實(shí)體子類(lèi)。
  “歷史事件”實(shí)體則明顯地包含近乎無(wú)限可能的實(shí)體類(lèi)和子類(lèi)。故而為了維持一些歷史事件實(shí)體的秩序結構,DBpedia (/server/ontology/classes/)中的事件實(shí)體作為基本的本體得到了使用。正如圖二顯示的,目前實(shí)體類(lèi)中的事件實(shí)體包括:
 ?。?)群體內部沖突,諸如戰爭、決斗、分封等類(lèi)似事件。
 ?。?)社會(huì )-自然性災害,如饑荒或瘟疫。
 ?。?)自然災害,如干旱、洪水、蟲(chóng)害、火山爆發(fā)等等。
 ?。?)社會(huì )崩壞。
 ?。?)交接儀式,如婚禮、加冕、啟動(dòng)儀式等活動(dòng)。
 ?。?)社會(huì )運動(dòng),包括像移民這種身體遷移活動(dòng),還有諸如復興性運動(dòng)、千禧主義、罷工等社會(huì )性運動(dòng)。
 ?。?)技術(shù)性事件,如發(fā)明、發(fā)現、技術(shù)創(chuàng )新等等。
  Seshat的內容獲?。篋acura的工作流
  作為歷史學(xué)家如何應用Dacura獲取數據集的范例,圖四為讀者展示了傳統的實(shí)體類(lèi)數據,如何通過(guò)Dacura填充到Seshat數據庫中去。圖中藍色矩形之內的流程完全可以實(shí)現自動(dòng)化,而藍色矩形之外的區域需要把自動(dòng)分析和專(zhuān)家評估結合起來(lái),確保Seshat數據的有效性和可靠性。我們可以看到,藍色矩形頂部的處理流程,人口這個(gè)實(shí)體是由領(lǐng)域范圍內的持續時(shí)段所定義的。人口實(shí)體的特征會(huì )通過(guò)OAT的詞庫被分配到傳統實(shí)體類(lèi)之中。然后,數據挖掘的工作流會(huì )啟動(dòng)自動(dòng)搜索的進(jìn)程,根據OCM詞庫在互聯(lián)網(wǎng)搜索文化領(lǐng)域的相關(guān)信息。在這個(gè)節點(diǎn),研究者也可以使用Dacura檢索互聯(lián)網(wǎng)或者印刷材料獲取文化領(lǐng)域的數據。Dacura會(huì )在特定的文化領(lǐng)域收集信息,在圖四所示的范例中,我們用考古學(xué)數據作為例子,系統會(huì )對比DBpedia中的數據,以確定關(guān)聯(lián)的數據是否需要納入其他來(lái)源的數據,并且通過(guò)自動(dòng)分析程序評估數據的一致性。前后矛盾的數據(如存在語(yǔ)義矛盾或數值沖突的數據)會(huì )輸出給研究文化群體或文化領(lǐng)域的研究者和專(zhuān)家做進(jìn)一步評估。這些研究者或領(lǐng)域專(zhuān)家要么會(huì )為文化領(lǐng)域確定一個(gè)規范值,要么在沖突無(wú)法解決時(shí),給出一個(gè)非規范值。不管怎么說(shuō),所有收集過(guò)來(lái)的數據都會(huì )囊括進(jìn)Seshat數據庫,并且被標記為規范值或者非規范值,其他研究者可以檢索到這些值并對之加以修正或擴展它們的解釋。規范數值同時(shí)也會(huì )輸出到DBpedia以協(xié)助其他的研究者以及未來(lái)的搜索。
  研究者也可以輸入自己的數據,包括圖片、媒體和shapefile格式文件。數據合并的處理流程可允許其他研究者通過(guò)關(guān)聯(lián)數據來(lái)訪(fǎng)問(wèn)這些共享文件,令之可以被廣泛使用。更為重要的意義在于,那些被整合進(jìn)Seshat或由Dacura生成的數據集中的其他數據,其質(zhì)量能夠不斷得到提升,這正是歸功于Dacura允許研究者對先前合并的數據進(jìn)行評注和再評估。換句話(huà)說(shuō),Dacura不僅可以用于創(chuàng )建和管理巨量數據集,也能確保數據質(zhì)量能夠持續不斷地得到提升。
  使用Seshat數據庫:從Dacura輸出數據
  到了這一步,關(guān)切夏威夷人口估值的研究者便能夠通過(guò)Seshat數據庫——或是她自己利用Dacura生成的數據集——來(lái)迅速地獲得精確并且可以溯源的人口數據。她可以通過(guò)Dacura來(lái)開(kāi)啟Seshat數據庫,接著(zhù)在操作界面中選取夏威夷的自然地理區域模塊,然后選取她所感興趣的某個(gè)歷史時(shí)期的夏威夷居住人口的政治組織子級,之后再選擇人口這個(gè)變量。我們在Youtube上傳了一部視頻供讀者參考。在這個(gè)案例中,這位學(xué)者獲得的有關(guān)人口的數據源自Seshat數據庫,這個(gè)數據是我們上文述及的Dacura數據收集和評估進(jìn)程的產(chǎn)物。但是我們的研究者還能夠使用Dacura創(chuàng )建新本體,以引導她進(jìn)行更具個(gè)性化的搜索,正如我們在上文提到的視頻中揭示的那樣。
  無(wú)論是在Seshat平臺還是她運用Dacura從其他來(lái)源獲取的數據,我們的學(xué)者都能獲得各種類(lèi)型的結果輸出。正如前文述及的那樣,Dacura會(huì )將數據集作為關(guān)聯(lián)數據發(fā)布,并使用SPARQL進(jìn)行輸出。SPARQL是一種RDF的查詢(xún)語(yǔ)言,后者能夠生成文檔和原始數據集,還有像圖表、表格、地圖之類(lèi)的其他可視化信息。另外一點(diǎn)對史學(xué)工作者也至關(guān)重要,即SPARQL與GeoSPARQL能夠協(xié)同運行,這得以讓SPARQL數據集整合進(jìn)入采用了OGC(Open Geospatial Consortium,開(kāi)放地理空間信息聯(lián)盟)查詢(xún)標準(比如GML、WKT等)的地理信息系統中去。此外,Dacura平臺上生成的原始文本、媒體或數字數據,也能夠被瀏覽、搜索和挑選,研究者可以訪(fǎng)問(wèn)對研究最有價(jià)值的那部分文本、圖片、媒體或數據集。Dacura還能夠收集或輸入的材料——或是它們的子級——以更多格式導出來(lái)支持進(jìn)一步的外部分析。例如,研究者可能會(huì )想把有關(guān)人口估算值的數據輸出到統計分析平臺。那么Dacura將會(huì )生成逗號分割文件(comma-delimited file),這個(gè)文件能夠被直接傳輸到電子表格或是統計數據軟件包,如此一來(lái)研究者就可以使用任何數據分析的方法,來(lái)解答自己的問(wèn)題。圖五展示了一個(gè)有關(guān)夏威夷人口估算值的簡(jiǎn)單線(xiàn)性圖表,它的生成有賴(lài)于Dacura和Seshat平臺的數據輸出功能,生成了一個(gè)CSV文件,并使用Excel制作了一張圖表。
  我們的這位研究者最初問(wèn)題的答案是,夏威夷的人口增長(cháng)確實(shí)先于這座島嶼上第一個(gè)國家政權的產(chǎn)生,這也正如人口壓力模型預測的那樣。就答案本身來(lái)說(shuō),這算不上是個(gè)令人印象深刻的結果(實(shí)際上或許也是個(gè)非常簡(jiǎn)單化的結論),但是考慮到我們的研究者通過(guò)Dacura平臺的處理進(jìn)程,可以在幾分鐘里收集數據,同時(shí)對它們的質(zhì)量抱有信心,而且還可以訪(fǎng)問(wèn)與之相關(guān)的所有附加數據,不能不說(shuō)是一次令人嘆服的研究之旅。
  結論
  互聯(lián)網(wǎng)為歷史學(xué)家提供了大量的信息,然而現狀卻是,這些信息經(jīng)常太過(guò)豐富,而且缺少質(zhì)量監控。Dacura便是旨在解決這些問(wèn)題而被設計開(kāi)發(fā)出來(lái)的。它提供一種便捷的、質(zhì)量有保證的途徑,幫助史學(xué)工作者在互聯(lián)網(wǎng)上收集信息,同時(shí)提供一個(gè)可供管理的質(zhì)量控制體系。Dacura具有的精心設計的本體(dacura.scss.tcd.ie/ontologies/ dacura-130317.ttl),進(jìn)而使研究者能夠簡(jiǎn)易地定義和檢索到與他們的研究直接相關(guān)的信息。Dacura的一體化詞庫和RDF三元存儲結構讓用戶(hù)不需要使用在結果中進(jìn)行跨領(lǐng)域的詳細索引,如此一來(lái),有關(guān)給定主題的所有信息,甚至那些相關(guān)性不那么明顯或作為相關(guān)索引的信息,都可以被用戶(hù)檢索到。此外,Dacura提供的用于輸出的數據格式非常廣泛,從文本到可視化形式再到表格。Dacura雖然不是唯一可用的數據收集和管理程序,但是因為它與Seshat數據庫一同被開(kāi)發(fā)出來(lái),因而它為新興的基于計算機技術(shù)的歷史和考古數據處理提供了一個(gè)獨特模型。
  從這個(gè)角度來(lái)說(shuō),Dacura展現了一系列可應用于歷史學(xué)研究的重要新工具。正如肯特在他最近發(fā)表的論文中指出的那樣,“(歷史學(xué)家以及)考古學(xué)家在獲取、管理和分析大量且差異巨大的數據過(guò)程中,日益面臨挑戰?!?Dacura平臺的問(wèn)世為這一系列挑戰提供了數種解決方案。具體來(lái)說(shuō),Dacura平臺嵌入了(1)一個(gè)基于RDF三元存儲的語(yǔ)義知識圖譜技術(shù),同時(shí)運用了(2)網(wǎng)絡(luò )本體語(yǔ)言(OWL)來(lái)進(jìn)行數據定義,它還嵌入了(3)語(yǔ)義推理模塊,該模塊是自動(dòng)進(jìn)行數據評估的基礎,以及(4)它按照關(guān)聯(lián)數據標準實(shí)現結果輸出。
  通過(guò)OWL數據定義和知識圖譜技術(shù),歷史學(xué)家可以把收集到的海量數據,以快捷和簡(jiǎn)易的方式將那些對既定研究主題最為重要的信息精減和篩選出來(lái),并且可以讓這些數據以多樣的格式輸出。語(yǔ)義推理模塊為用戶(hù)提供了一種迅捷的數據評估以及可持續管理的機制。關(guān)聯(lián)數據標準制式下,Dacura允許研究者隨時(shí)訪(fǎng)問(wèn)那些經(jīng)由其他學(xué)者收集來(lái)和評估過(guò)的數據。
  另外,在像Dacura這樣的平臺上,計算機科學(xué)領(lǐng)域最近取得的新進(jìn)展,也為那些非歷史學(xué)領(lǐng)域的學(xué)者提供了可用和精確的歷史數據。長(cháng)期以來(lái),那些有關(guān)文化穩定和變遷的時(shí)空記錄,以及人類(lèi)社會(huì )成功或者失敗的實(shí)踐案例,在考古學(xué)和歷史學(xué)學(xué)科之外沒(méi)有得到廣泛應用,這是令許多史學(xué)工作者倍感沮喪的事情。不過(guò)這也沒(méi)什么好驚訝的,因為對于外行來(lái)說(shuō),歷史數據和材料很難獲取也很難理解。然而,像Dacura這樣的平臺,它們通過(guò)自動(dòng)化方式對歷史數據進(jìn)行收集、評估,對經(jīng)過(guò)檢驗的精確的歷史學(xué)數據進(jìn)行檢索,從而為經(jīng)濟學(xué)家、政治學(xué)家、生態(tài)學(xué)家、地理學(xué)家以及大眾提供了一種獲取數據途徑和模型,讓他們得以探索人類(lèi)歷史長(cháng)河中累積下來(lái)的豐富而寶貴的歷史記錄。
  致謝
  本文作者向參加了于2015年5月4日至6日在圣塔菲研究所舉辦的工作坊的與會(huì )者表示感謝,在這次工作坊上與會(huì )者們討論了有關(guān)數據收集以及高質(zhì)量信息整合的各種需要,以及Seshat元數據模型的開(kāi)發(fā)事宜。我們還要感謝Dacura平臺的研究團隊、博士后工作站人員、顧問(wèn)人員以及專(zhuān)家團隊,他們做出了巨大貢獻。此外,我們的合作伙伴為我們撰寫(xiě)這篇論文提供了無(wú)比寶貴的協(xié)助。更多具體信息,也請讀者登錄Seshat的網(wǎng)頁(yè)()查看公示的詳細清單,包括私人捐贈、合作者、專(zhuān)家、顧問(wèn)以及他們擅長(cháng)的專(zhuān)業(yè)領(lǐng)域。最后,我們向匿名評審專(zhuān)家致以感謝,正是他們深富洞見(jiàn)的評審意見(jiàn)令我們能夠更好地提升論文的質(zhì)量和水準。
  (作者彼得·比勒金[Peter N. Peregrine],勞倫斯大學(xué)人類(lèi)學(xué)系,圣塔菲研究所;羅布·布倫南[Rob Brennan],都柏林大學(xué)三一學(xué)院,統計學(xué)和計算機科學(xué)學(xué)院ADAPT&知識與數據工程項目組;托馬斯·柯里[Thomas Currie],??巳卮髮W(xué)生命科學(xué)系;凱文·費尼[Kevin Feeney],都柏林大學(xué)三一學(xué)院,計算機科學(xué)與統計學(xué)院,知識與數據工程項目組;彼得·弗朗索瓦[Pieter Fran?ois],赫特福德大學(xué)人文學(xué)院,牛津大學(xué)認知與發(fā)展人類(lèi)學(xué)研究所;彼得·特欽[Peter Turchin],康涅狄格大學(xué)生態(tài)與進(jìn)化生物學(xué)系;哈維·懷特霍斯[Harvey Whitehouseg],牛津大學(xué)認知與發(fā)展人類(lèi)學(xué)研究所。譯者紀子凡,南京大學(xué)歷史學(xué)院碩士研究生)
  本文注釋及更多精彩文章請參閱《全球史評論》第十九輯
  首師大全球史中心
  公眾號ID:gh-cnu
  歡迎關(guān)注,謝謝大家~ 查看全部

  彼得·比勒金等 | Dacura平臺——歷史學(xué)研究的數據收集和知識提取新途徑
  當前計算機技術(shù)的發(fā)展為學(xué)者們提供了新的途徑對來(lái)自互聯(lián)網(wǎng)的數據進(jìn)行收集、儲存和檢索,這為歷史科學(xué)領(lǐng)域里進(jìn)行文獻綜述以及數據收集方法的轉型提供了可能。作為一個(gè)數據綜合維護平臺,Dacura系統突出地反映了這一發(fā)展趨勢的三個(gè)方面:第一,它是一種基于知識圖譜的數據模型,從而區別于標準的用行與列表達的數據結構;第二,使用網(wǎng)絡(luò )本體語(yǔ)言(Web Ontology Language,OWL)對數據進(jìn)行定義;第三,具有基于語(yǔ)義推理的自動(dòng)處理進(jìn)程,以篩選掉成千上萬(wàn)與研究議題不相關(guān)或者準確度存疑的在線(xiàn)和數據庫點(diǎn)擊量。Ducara的建立與Seshat數據庫處于伴生關(guān)系,后者的組建旨在協(xié)調量化歷史和考古學(xué)數據,以此用統計方法對歷史動(dòng)態(tài)模型進(jìn)行測試。以下我們將提供具體的范例來(lái)介紹Dacura和Seshat數據庫,以說(shuō)明上文述及的計算機科學(xué)的進(jìn)步從哪些方面能夠惠及歷史研究者的工作。
  對于史學(xué)研究者來(lái)說(shuō),未經(jīng)審核的數據過(guò)剩是一個(gè)基本問(wèn)題,而Dacura平臺旨在為學(xué)者們提供解決方案。舉例來(lái)說(shuō),假設研究者打算收集量化數據來(lái)回答某個(gè)特定問(wèn)題,比如夏威夷島上的人口增長(cháng)是否先于1500年左右國家的出現,一個(gè)簡(jiǎn)易的人口壓力模型就能做出預測。如果她僅僅在谷歌搜索引擎輸入“古代夏威夷人口”,將會(huì )得到接近250000個(gè)搜索結果(其中一些涉及現代人口統計數據),而且她也沒(méi)有簡(jiǎn)單省力的方法去弄清楚,搜索引擎提供的這么多有關(guān)古代夏威夷的信息中,哪些信息是她需要的,哪些信息是可靠的(例如,“古代夏威夷人口”的維基百科頁(yè)面僅僅提供了估算數據,而且明顯地源于單一的信息源;而無(wú)法明確地鑒別數據來(lái)源本身就是一個(gè)嚴重的問(wèn)題)。如果這個(gè)研究者代之以谷歌學(xué)術(shù),檢索的結果數量會(huì )減少到大約165000條,盡管她可以指望結果的質(zhì)量更好,不過(guò)鑒別這些論文和學(xué)術(shù)專(zhuān)著(zhù)是否與她的問(wèn)題旨趣直接相關(guān),仍然是個(gè)令人生畏的工作。甚至使用JSTOR,這一質(zhì)量有保證的數據庫,也將提供大約60000篇論文給研究者的篩選工作制造障礙。
  上述例子表明目前史學(xué)研究者所面臨的一個(gè)中心問(wèn)題,互聯(lián)網(wǎng)和出版資源的開(kāi)放獲取為史學(xué)工作者們感興趣的任何研究議題,提供了豐富的信息和材料,然而這些信息沒(méi)有質(zhì)量保證,即便是有質(zhì)量保障的信息源(比如同行評議的開(kāi)源出版物),信息量也是過(guò)剩的。因此對于研究者來(lái)說(shuō),希望出現這樣一種工具:允許研究者建立自己的高質(zhì)量的、結構化的數據集,為研究者提供解決問(wèn)題所需要的材料。這種工具要求一種層級結構的(本體)設計,從而讓研究者可以較為容易地挖掘出與他們的研究直接相關(guān)的檢索結果。這個(gè)檢索工具應該能精確對結果進(jìn)行索引,研究者檢索夏威夷人口的估算值時(shí)——正如我們虛構的研究者試圖嘗試的那樣——不僅可以檢索到所有與夏威夷人口估算有關(guān)的結果,同時(shí)也不會(huì )檢索到與研究題目不相關(guān)的其他統計數據和地點(diǎn)信息。簡(jiǎn)而言之,這樣的檢索工具必須能夠應用集成的詞庫或詞庫集作為基本的檢索程序的一部分。
  除此之外,還有不少檢索工具能夠提供這種功能:進(jìn)行跨領(lǐng)域的快速檢索特定的、高質(zhì)量的信息。僅就考古學(xué)領(lǐng)域的檢索工具(它的第一位創(chuàng )建者是一名考古學(xué)家)而言,eHRAF(Human Relations Area Files; )就是業(yè)內的一個(gè)典范。它提供兩個(gè)文件檔案庫(分別是民族志檔案和考古學(xué)檔案),使用高精確度的本體——世界文化概覽和考古傳統概覽(the Outline of World Cultures and Outline of Archaeological Traditions),以及豐富的詞庫集——文化史料概覽(the Outline of Cultural Materials)。因此eHRAF可以從來(lái)自將近45萬(wàn)頁(yè)的考古、民族志原始和二手史料中實(shí)現句段檢索,能夠使用層級結構和布爾搜索策略,輕易地實(shí)現信息的搜索和重構。這些檢索結果是具體的,并具有極高的質(zhì)量和專(zhuān)門(mén)性,研究者也可以對之進(jìn)行數量管理。然而,其檢索結果的范圍僅限于eHRAF數據庫囊括的資料。eHRAF之所以能夠提供如此高質(zhì)量的信息檢索,是因為其進(jìn)行了廣泛的信息預處理,擁有博士學(xué)位的考古學(xué)家對每個(gè)文檔、甚至每個(gè)段落都用本體進(jìn)行了編碼。簡(jiǎn)要來(lái)說(shuō),該平臺提供的簡(jiǎn)易的高質(zhì)量信息搜索和檢索,其背后卻要求巨大的工作量。這一方面意味著(zhù)eHRAF平臺數據擴充比較緩慢,另一方面平臺必須要向用戶(hù)收費。
  tDAF(the Digital Archaeological Record; )平臺則是另一個(gè)檢索工具,像前述的eHRAF一樣,它也可以提供迅捷的、特定的、高質(zhì)量的跨領(lǐng)域信息檢索服務(wù)。包括原始數據集、shapefiles格式的文件和其他類(lèi)似的數據資料,都能夠在tDAF平臺上獲得,它們被基本的本體組織起來(lái)。不同于eHRAF平臺,這些信息不是由tDAF的運營(yíng)人員處理的(盡管他們會(huì )進(jìn)行審核以確保進(jìn)程的正確性),而主要依賴(lài)個(gè)體研究者,由他們向平臺提交處理好的元數據結構。這一特點(diǎn)令tDAR平臺中的信息、檔案、文獻的數量能相對快速地增長(cháng),用戶(hù)也能夠免費使用tDAR平臺的信息檢索功能,不過(guò)為了鼓勵提供文獻,平臺還是會(huì )收取少許費用。然而,因為用戶(hù)提供數據本體和索引,致使材料的細節和精確度存在差異,這意味著(zhù)搜索的結果可能無(wú)法包含所有相關(guān)的文檔信息。此外,和eHRAF一樣,這個(gè)平臺可供檢索的信息也局限在平臺數據集中。
  OpenContext()則是類(lèi)似于tDAR的另一個(gè)優(yōu)秀數據庫,不過(guò)它有一些附加功能,讓數據庫的檢索范圍超越了考古學(xué)領(lǐng)域。與tDAF類(lèi)似,考古數據的使用需要一些費用。但不同于tDAF,OC平臺的編輯者們同資源貢獻者們會(huì )一起創(chuàng )建元數據、清理數據以便在網(wǎng)絡(luò )上發(fā)布,而數據資源自身的意義會(huì )在這一過(guò)程中得到雙方的評估;換言之,并不是所有數據都會(huì )在平臺公開(kāi)發(fā)布,只有那些接受過(guò)同行評審、有廣泛應用前景的數據才會(huì )被發(fā)布。一旦與Open Context對接,數據資源就通過(guò)關(guān)聯(lián)數據標準(Linked Data standards)與互聯(lián)網(wǎng)上的數據實(shí)現鏈接。這使得Open Context平臺的檢索范圍超出了檔案庫的數據,從而克服了eHRAF和tDAR兩大平臺的局限,同時(shí)同行審核又對那些由Open Context直接貢獻的信息提供了質(zhì)量保證,不過(guò)審核流程中的信息是基于OC平臺的,而非直接鏈接到的原始信息源,我們認為這是一個(gè)較為嚴重的局限。
  我們在這里介紹的,即是比上述三種平臺(當然還有許多其他優(yōu)秀的數據庫項目和數據儲存平臺可供征引介紹)更具有綜合性的解決方案:Dacura(dacura. cs.tcd.ie)。這一平臺可以跨領(lǐng)域檢索特定的高質(zhì)量信息,它是集數據收集、評估、整理和輸出為一體的綜合平臺,也是Seshat數據庫(seshatdatabank. info)的管理系統,后者的功能、特性我們會(huì )在下文詳述。通過(guò)大數據研究的多種新方案的協(xié)同開(kāi)發(fā)和運作,Dacura平臺在持續的問(wèn)題和缺陷發(fā)現機制的運行中獲得助益,并匯集和解決了大量、復雜的歷史信息檢索、收集過(guò)程中面臨的問(wèn)題和需求,因此可以作為一個(gè)優(yōu)秀的研究資源,惠及學(xué)院派的史學(xué)工作者。
  知識圖譜技術(shù)在諸如谷歌和臉譜等互聯(lián)網(wǎng)企業(yè)的海量和多樣信息資源——企業(yè)內部會(huì )對之加以綜合處理和管理——的管理和結構化中,發(fā)揮著(zhù)越來(lái)越大的作用。傳統的基于表格和行列排列組合的SQL儲存解決方案已經(jīng)不能勝任企業(yè)管理的復雜信息的結構及其蘊含的語(yǔ)義,也無(wú)法呈現事物間的復雜關(guān)系。然而對于數據來(lái)說(shuō),除了體量龐大和具有技術(shù)實(shí)力的企業(yè)外,知識圖譜技術(shù)的使用仍然需要專(zhuān)門(mén)且難度較高的技術(shù)門(mén)檻。Dacura設計的目標便是開(kāi)辟一條路徑,讓歷史研究者們不需要掌握大量的專(zhuān)業(yè)知識就可以使用知識圖譜技術(shù)。Dacura通過(guò)以下兩個(gè)方面來(lái)實(shí)現這些目標,即它可以自動(dòng)運行諸多數據——它們來(lái)自該平臺設置的語(yǔ)義分析模塊——的收集和綜合處理軟件,同時(shí)也為用戶(hù)提供簡(jiǎn)易的操作工具和界面——而不需要了解隱藏在背后的技術(shù)原理。
  本文并不旨在為Dacura平臺打小廣告,毋寧說(shuō)我們是通過(guò)介紹Dacura來(lái)進(jìn)一步闡明一種收集、評估和檢索來(lái)自互聯(lián)網(wǎng)和任何一批大數據資源(得益于計算機技術(shù)的進(jìn)步)的途徑和方法。我們確信這將為歷史科學(xué)帶來(lái)影響深遠的沖擊。
  Dacura平臺
  Dacura是一個(gè)數據綜合處理平臺。它的設計目的在于,協(xié)助歷史學(xué)者利用豐富的語(yǔ)義知識圖譜來(lái)建立并管理高質(zhì)量的數據庫?!昂?jiǎn)明易用”即是該平臺創(chuàng )設的一個(gè)基礎性理念——史學(xué)工作者可以對意圖收集的數據結構自行定義。該平臺運用這些信息結構來(lái)進(jìn)一步支持用戶(hù)發(fā)現、收集、過(guò)濾、校正、精煉和分析源于互聯(lián)網(wǎng)的數據,進(jìn)而整理出高質(zhì)量的信息。以下這些具體和詳細的信息需要研究者提供給Dacura以開(kāi)啟自動(dòng)處理的進(jìn)程:學(xué)者與他們研究議題相關(guān)的基本信息實(shí)體(比如“夏威夷”)的定義;它們的具體內容和特征(如人口估算值)、數據類(lèi)型和每個(gè)屬性的計量單位(如數值型)、與數據組內部以及其他數據集其他實(shí)體的關(guān)系(如夏威夷位于波利尼西亞)。
  這一工具的優(yōu)勢之一在于,它能夠界定學(xué)者意圖獲取的信息或數據的結構。所有歷史科學(xué)家都清楚,在史料能被使用之前,其屬性和有效性必須得到批判和反思。由于Dacura在執行一次搜索命令以前,處理進(jìn)程要求所需的數據的一些基本的、精確的屬性參數。因此這一運作邏輯鼓勵研究者們仔細思考以下問(wèn)題:當他們展開(kāi)數據收集工作以前,所需的數據、史料的本質(zhì)是什么?同時(shí)他們采用什么樣的視野和方法來(lái)提出自己的問(wèn)題?這樣的準備工作為歷史學(xué)家節省了時(shí)間和精力,而辨明有用的信息來(lái)源通常也是歷史研究中最為困難的任務(wù)。Dacura簡(jiǎn)明和友好的用戶(hù)交互界面(下文會(huì )展開(kāi)說(shuō)明)令明確數據界限的工作流程容易起來(lái),同時(shí)由于Dacura提供一種靈活的搜索結構,搜索進(jìn)程能夠動(dòng)態(tài)適應,會(huì )隨著(zhù)數據被審視的方式,以及聚焦的問(wèn)題相應地產(chǎn)生變化。
  Dacura可以把研究者界定的數據集的結構編譯為一種語(yǔ)義網(wǎng)絡(luò )本體結構。這種本體結構根據萬(wàn)維網(wǎng)聯(lián)盟(W3C,互聯(lián)網(wǎng)國際標準的主要制定者)的網(wǎng)絡(luò )本體語(yǔ)言(OWL)標準制式進(jìn)行編碼。作為一種豐富而靈活的本體語(yǔ)言標準,OWL可以令廣泛而多樣的約束條件和推理規則被研究者指定到數據收集進(jìn)程中去,如一個(gè)城鎮的人口不應該比它所在地區的人口更為龐大。因而與非結構化的自然語(yǔ)言字符串——它們是驅動(dòng)大多數搜索引擎的結果——形成對比,高度體系化和精確化界定出的本體結構的數據集,其屬性參數能夠被計算機充分利用,從而為研究者獲取特征更為鮮明的檢索結果。由此,史學(xué)研究者輸入和界定的信息結構及其屬性參數越豐富,Dacura系統對數據的自動(dòng)收集和用以分析、優(yōu)化和管理數據工具的生成也就越容易。
  Dacura平臺的運行還基于一種語(yǔ)義網(wǎng)絡(luò )技術(shù)。其核心內容是一種資源描述框架(Resource Description Framework, RDF),是一種三元數據庫結構(不是那種二維的行與列組成的電子表格),呈現為類(lèi)似“夏威夷處于波利尼西亞”、“夏威夷擁有島嶼”或是“波利尼西亞擁有島嶼”這樣的主謂賓句式結構(subject-predicate-object structure)。這種主謂賓句式結構可以被理解為結點(diǎn)-邊-屬性(nodes-edges-properties)這樣的語(yǔ)義結構,形成一種呈現和儲存數據信息的三維視圖表格。RDF作為三元存儲圖形數據結構能夠實(shí)現無(wú)索引的鏈接,每一個(gè)主謂賓句式詞串可以直接鏈接到對應的主謂賓三元組合中去,不需要索引查找。結合上文提及的“夏威夷人口”這一假設的問(wèn)題語(yǔ)境,波利尼西亞、夏威夷和島嶼這些關(guān)鍵詞會(huì )被全部鏈接起來(lái),使得系統不需要索引搜索就可以確定夏威夷是波利尼西亞群島中的一個(gè)。
  Dacura平臺運用OWL本體來(lái)確保語(yǔ)義推理過(guò)程中的質(zhì)量管理以及數據收集工作的正常進(jìn)行;具體來(lái)說(shuō),如果上文提及的三元組合存在沖突,Dacura會(huì )將之識別出來(lái)并作為一個(gè)沖突項加以標記以供研究者進(jìn)一步評估。Dacura被設計成在開(kāi)放關(guān)聯(lián)數據的原則下生產(chǎn)和使用數據。這一設計理念讓以下活動(dòng)變得更為便利:比如從現有的結構化信息資源里輸入信息,通過(guò)數據集之間的互通以擴充研究者管理的數據集,這里的互通是經(jīng)由關(guān)聯(lián)數據鏈接到公共數據資源(如DBpedia或維基數據,它是維基百科的關(guān)聯(lián)數據版本),同時(shí)那些由Dacura組織起來(lái)的數據集也能通過(guò)類(lèi)似的方式簡(jiǎn)易地關(guān)聯(lián)起來(lái)。我們在Youtube視頻網(wǎng)站上提供了Dacura鏈接不同資源的視頻范例。Dacura平臺的一個(gè)核心功能即數據收集,包括通過(guò)關(guān)聯(lián)數據采集數據,而且作為系統工作流的一部分,平臺會(huì )通過(guò)自動(dòng)和人工的方式對數據的質(zhì)量進(jìn)行評估。因此Dacura不僅能夠快捷和便利地收集信息,也能夠對信息的質(zhì)量進(jìn)行評定。
  Dacura平臺的工作流把數據的創(chuàng )建和管理分為四個(gè)階段,如圖一所示。第一個(gè)階段是數據的收集:確定用于填充研究者數據集的高質(zhì)量信息的來(lái)源。Dacura支持多種方式進(jìn)行數據收集:它可以在公共數據資源識別出與學(xué)者研究相關(guān)的數據,也可以部署自動(dòng)代理進(jìn)行互聯(lián)網(wǎng)搜索,再到通過(guò)人工力量對信息來(lái)源做進(jìn)一步規范。這套系統的目標在于盡可能大的實(shí)現處理進(jìn)程的自動(dòng)化,而識別和界定信息來(lái)源是為了擴充學(xué)者數據集的需要。在這個(gè)階段,系統的目標不在于尋找到那些與研究者感興趣的研究議題有關(guān)的內容實(shí)體,而是為了尋找到明確的信息來(lái)源,可以用于擴充數據的屬性和關(guān)系,即那些研究者已經(jīng)在數據規范中加以定義的屬性和關(guān)系。
  Dacura數據創(chuàng )建和管理進(jìn)程的第二個(gè)步驟是知識提取。這個(gè)階段會(huì )從收集的數據來(lái)源中提取出精確的信息,并將之納入到研究者的數據規范所需要的結構中去。盡管自然語(yǔ)言處理和其他的人工智能技術(shù)仍然在持續發(fā)展,但它們還是很容易出錯,因而在通常情況下為了保證數據的高質(zhì)量,投入一些人力來(lái)過(guò)濾程序誤報也是必須的。Dacura平臺采用的工具在篩選、過(guò)濾、改進(jìn)、注釋和鏈接候選信息記錄等方面,支持人工用戶(hù)和自主代理產(chǎn)出知識報告;換言之,信息來(lái)源里包含有相關(guān)知識的權威解釋?zhuān)⑼ㄟ^(guò)鏈接到網(wǎng)絡(luò )數據而得到更廣泛的擴充。
  Dacura數據處理進(jìn)程的第三個(gè)階段或許是為保證數據質(zhì)量最為重要的階段:專(zhuān)家分析。Dacura平臺的一大長(cháng)處便是聚焦數據質(zhì)量,基于自動(dòng)代理工具和人工處理確保收集來(lái)的數據在準確度和完整性上符合研究者先前提供給平臺的數據規范要求。平臺首先通過(guò)基于語(yǔ)義一致性和有效性測試技術(shù)的自動(dòng)處理工具,對收集來(lái)的原始數據加以處理,將不同數據指向并合并到一個(gè)綜合解釋中去,該解釋體現了自動(dòng)處理工具對權威數據——它們準確地反映了真實(shí)的狀況——最精確的預估。這些綜合解釋進(jìn)一步由領(lǐng)域專(zhuān)家——就像本文假設的對夏威夷人口問(wèn)題感興趣的學(xué)者——來(lái)評估,這一步驟允許專(zhuān)家校正訛誤繼而確認專(zhuān)家意見(jiàn)與自動(dòng)處理工具之間的不一致。專(zhuān)家們可以編纂具有個(gè)人色彩的數據解釋?zhuān)ū热缣貏e指明只有某個(gè)特定的信息來(lái)源是可信的),并在數據集上把這條解釋覆蓋上去,進(jìn)而創(chuàng )建一個(gè)自定義的數據集,以呈現他們對某些數據的看法。
  至于Seshat平臺的領(lǐng)域專(zhuān)家,由該平臺的管理團隊負責征集,主要根據他們在需要評估的相關(guān)領(lǐng)域內的出版記錄。這些專(zhuān)家都具有相應學(xué)術(shù)領(lǐng)域的博士學(xué)位,相當一部分有學(xué)院派的工作背景。專(zhuān)家也會(huì )被定期評估,以辨別出經(jīng)常輸入與采集到的數據有訛誤的那些人。有人可能會(huì )認為通過(guò)征詢(xún)來(lái)建立一個(gè)專(zhuān)家庫似乎不那么有效率,但是我們在Seshat數據庫公開(kāi)的名單中,可以看到目前作為志愿者參與數據評估的專(zhuān)家們的工作質(zhì)量。本文撰寫(xiě)時(shí)數據庫的專(zhuān)家數量為77名,而這些志愿專(zhuān)家們的專(zhuān)業(yè)領(lǐng)域的覆蓋范圍表明,將專(zhuān)家評估整合到像Dacura平臺這樣的數據收集系統是十分可行的。大部分采用了Dacura平臺的項目,可能不會(huì )有Seshat數據庫這般囊括了廣闊的學(xué)術(shù)視野和范圍,唯一需要對數據進(jìn)行評估的專(zhuān)家,可能就是研究者自己。
  最后,Dacura支持各類(lèi)輸出工具讓數據能夠以不同格式輸出到第三方平臺。Dacura發(fā)布了它作為一種關(guān)聯(lián)數據格式的管理數據,所以其他的用戶(hù)和平臺,如上文述及的Open Context,能夠毫無(wú)困難地訪(fǎng)問(wèn)它。Dacura還提供SPARQL終端——一種針對RDF的查詢(xún)語(yǔ)言——支持數據的復雜過(guò)濾和提取。這便允許智能應用程序以一種之前難以想見(jiàn)的方式實(shí)現與數據的交互。對于個(gè)人用戶(hù)來(lái)說(shuō),Dacura平臺能夠生成圖表、表格、地圖和其他的可視化工具,為用戶(hù)提供便于理解數據的可視化呈現方式。以圖表或其他輸出方式呈現的數據,可以瀏覽、檢索和選定,令用戶(hù)能夠訪(fǎng)問(wèn)其中與他們的研究主題最為貼合的一部分數據。Dacura還可以實(shí)現數據集或它們的子項以更為廣泛的數據格式輸出,從而用于外部分析,其中包括地理信息系統以及諸如SPSS或者R語(yǔ)言的統計格式。
  Dacura的實(shí)施:Seshat數據庫的元數據模型
  作為Dacura在研究實(shí)踐中發(fā)揮作用的范例,圖二向讀者展示了元數據模型如何被運用到Seshat——全球歷史數據庫(Global Historical Databank)。Seshat數據庫()的目的是組建一個(gè)全面而綜合的知識體系,這些知識包括人類(lèi)歷史以及史前史,以實(shí)證檢驗有關(guān)文化演變的假說(shuō),包括宗教、儀式、戰爭、農業(yè)或者其他變量在社會(huì )復雜化進(jìn)程中扮演的角色。迄今為止,Seshat數據庫已經(jīng)被用于區分出一種單一的復雜性維度,可以用來(lái)解釋人類(lèi)社會(huì )組織中大約四分之三的變化;此外它還被用于論證軸心時(shí)代貫穿于歐亞大陸的社會(huì )政治轉型的假說(shuō),超過(guò)了一千年的時(shí)間跨度。運用適當的統計學(xué)技術(shù)來(lái)考察這類(lèi)時(shí)間尺度較大的問(wèn)題需要有效和可靠的數據;這也是說(shuō),數據能夠反映學(xué)者們對問(wèn)題的定義,同時(shí)數據在不同案例中以同樣的標準被度量。
  當Seshat數據庫在計劃籌建階段時(shí),正處于開(kāi)發(fā)狀態(tài)的Dacura被認為對Seshat來(lái)說(shuō)是一個(gè)絕佳的數據處理平臺。兩支團隊決定協(xié)同開(kāi)發(fā)Dacura和Seshat平臺,令雙方實(shí)現信息共享。由于計算機科學(xué)家和歷史學(xué)家以往不會(huì )一同開(kāi)展工作,所以Dacura和Seshat兩大平臺的研究團隊之間的合作證明跨學(xué)科研究能夠取得豐碩的成果,當然前提是Dacura團隊的計算機專(zhuān)家能夠了解歷史學(xué)家的需求,同時(shí)Seshat研究團隊也能夠理解三元數據結構在收集和管理數據層面的可能性和局限性。
  Seshat的運行環(huán)境基于兩個(gè)基本信息:位置信息(Location)和持續時(shí)段(Duration)。具體來(lái)說(shuō),位置信息是地球表面上任意一個(gè)點(diǎn)或者多邊形區域,其實(shí)體被定義為領(lǐng)域(Territory)。Seshat定義了三級結構的領(lǐng)域實(shí)體(在Seshat升級后可能實(shí)現更多層級結構):
 ?。?)自然地理區域(Natural-Geographic Areas,NGA),它指的是一種大約100x100公里的相鄰區域,其中包含有相當均一的生態(tài)環(huán)境區域。
 ?。?)生物群落(Biomes),指的是一種具有連續性的生物圈或是擁有相似氣候條件的區域。
 ?。?)世界性區域(World Regions),它可能是指像民族國家、地區政權或是能以其他特定標準識別的預定義實(shí)體。
  一個(gè)持續時(shí)段可以設定為一個(gè)單個(gè)日期或一個(gè)時(shí)間段。添加一個(gè)持續時(shí)段到領(lǐng)域實(shí)體層級中去,便可以產(chǎn)生兩個(gè)有時(shí)間限制的實(shí)體之一:
 ?。?)人口,指在一個(gè)確定的時(shí)間段內生活在某個(gè)特定領(lǐng)域內的一批人類(lèi)群體;
 ?。?)一個(gè)歷史事件,它被定義為在一個(gè)確定的時(shí)間段內、在某個(gè)特定領(lǐng)域內發(fā)生的事件。
  Seshat數據庫能夠為特定研究問(wèn)題提供人口和歷史事件的實(shí)體類(lèi)。對于人口,目前有以下幾種實(shí)體類(lèi):
 ?。?)傳統,它被定義為人類(lèi)群體“分享相似的日常生活實(shí)踐、技術(shù)以及社會(huì )政治組織,它們在一個(gè)相對大的區域空間內呈現出連續性,并且在一段相對較長(cháng)的時(shí)期里保持了延續性”。對于這個(gè)實(shí)體類(lèi)來(lái)說(shuō),考古學(xué)傳統概覽(the Outline of Archaeological Traditions,下文簡(jiǎn)稱(chēng)OAT)為平臺的案例選擇提供了通用的抽樣范圍;同時(shí),文化資料概覽(the Outline of Cultural Materials,以下簡(jiǎn)稱(chēng)OCM)為數據編碼提供了詞庫。
 ?。?)文化群體,它指的是一類(lèi)人群,他們共享一套規范、信仰、行為、價(jià)值、態(tài)度等等。對于這個(gè)實(shí)體類(lèi)來(lái)說(shuō),主要的抽樣范圍來(lái)自世界文化概覽(the Outline of World Cultures,以下簡(jiǎn)稱(chēng)OWC),詞庫同樣來(lái)自OCM。
  
 ?。?)政治組織,它指的是基于相似的政府管理形成的獨立的政治性聯(lián)合體。這里有一個(gè)用于具體研究項目而創(chuàng )建的實(shí)體類(lèi)范例。圖爾欽等人撰寫(xiě)的論文向讀者展示了一個(gè)由30個(gè)案例組成的樣本,這些案例根據社會(huì )政治組織和地理區域的特點(diǎn)被挑選出來(lái)。OCM為這個(gè)實(shí)體類(lèi)提供了主要的詞庫。
 ?。?)聚落,這個(gè)實(shí)體類(lèi)的物理空間以及物質(zhì)設施范圍很廣,其規模大小和復雜程度的跨度涵蓋了臨時(shí)性營(yíng)地以及大都市。由于能夠被編碼的聚落范圍龐大,該實(shí)體沒(méi)有界定抽樣范圍。主要的詞庫來(lái)源仍然是OCM。
 ?。?)認同群體,具有相同的歸屬感的一群人。跟政治組織類(lèi)似,這個(gè)實(shí)體類(lèi)也是為特定的研究項目創(chuàng )建的,它的抽樣也具有隨機性的特征。對于這一實(shí)體,沒(méi)有正式的詞庫,不過(guò)OCM在一些特定領(lǐng)域也被使用。
 ?。?)語(yǔ)言群體,它是指使用同一種語(yǔ)言的群體。這一實(shí)體類(lèi)使用的抽樣范圍是民族語(yǔ)言志平臺(Ethnologue,),但是它也沒(méi)有正式的詞庫(同樣,OCM在一些特定領(lǐng)域也被使用)。
  此外,子類(lèi)層級也能夠被添加到實(shí)體類(lèi)中去,以為研究者提供屬性更多的數據集。圖三便顯示了為上述提及的實(shí)體類(lèi)創(chuàng )建的實(shí)體子類(lèi)。
  “歷史事件”實(shí)體則明顯地包含近乎無(wú)限可能的實(shí)體類(lèi)和子類(lèi)。故而為了維持一些歷史事件實(shí)體的秩序結構,DBpedia (/server/ontology/classes/)中的事件實(shí)體作為基本的本體得到了使用。正如圖二顯示的,目前實(shí)體類(lèi)中的事件實(shí)體包括:
 ?。?)群體內部沖突,諸如戰爭、決斗、分封等類(lèi)似事件。
 ?。?)社會(huì )-自然性災害,如饑荒或瘟疫。
 ?。?)自然災害,如干旱、洪水、蟲(chóng)害、火山爆發(fā)等等。
 ?。?)社會(huì )崩壞。
 ?。?)交接儀式,如婚禮、加冕、啟動(dòng)儀式等活動(dòng)。
 ?。?)社會(huì )運動(dòng),包括像移民這種身體遷移活動(dòng),還有諸如復興性運動(dòng)、千禧主義、罷工等社會(huì )性運動(dòng)。
 ?。?)技術(shù)性事件,如發(fā)明、發(fā)現、技術(shù)創(chuàng )新等等。
  Seshat的內容獲?。篋acura的工作流
  作為歷史學(xué)家如何應用Dacura獲取數據集的范例,圖四為讀者展示了傳統的實(shí)體類(lèi)數據,如何通過(guò)Dacura填充到Seshat數據庫中去。圖中藍色矩形之內的流程完全可以實(shí)現自動(dòng)化,而藍色矩形之外的區域需要把自動(dòng)分析和專(zhuān)家評估結合起來(lái),確保Seshat數據的有效性和可靠性。我們可以看到,藍色矩形頂部的處理流程,人口這個(gè)實(shí)體是由領(lǐng)域范圍內的持續時(shí)段所定義的。人口實(shí)體的特征會(huì )通過(guò)OAT的詞庫被分配到傳統實(shí)體類(lèi)之中。然后,數據挖掘的工作流會(huì )啟動(dòng)自動(dòng)搜索的進(jìn)程,根據OCM詞庫在互聯(lián)網(wǎng)搜索文化領(lǐng)域的相關(guān)信息。在這個(gè)節點(diǎn),研究者也可以使用Dacura檢索互聯(lián)網(wǎng)或者印刷材料獲取文化領(lǐng)域的數據。Dacura會(huì )在特定的文化領(lǐng)域收集信息,在圖四所示的范例中,我們用考古學(xué)數據作為例子,系統會(huì )對比DBpedia中的數據,以確定關(guān)聯(lián)的數據是否需要納入其他來(lái)源的數據,并且通過(guò)自動(dòng)分析程序評估數據的一致性。前后矛盾的數據(如存在語(yǔ)義矛盾或數值沖突的數據)會(huì )輸出給研究文化群體或文化領(lǐng)域的研究者和專(zhuān)家做進(jìn)一步評估。這些研究者或領(lǐng)域專(zhuān)家要么會(huì )為文化領(lǐng)域確定一個(gè)規范值,要么在沖突無(wú)法解決時(shí),給出一個(gè)非規范值。不管怎么說(shuō),所有收集過(guò)來(lái)的數據都會(huì )囊括進(jìn)Seshat數據庫,并且被標記為規范值或者非規范值,其他研究者可以檢索到這些值并對之加以修正或擴展它們的解釋。規范數值同時(shí)也會(huì )輸出到DBpedia以協(xié)助其他的研究者以及未來(lái)的搜索。
  研究者也可以輸入自己的數據,包括圖片、媒體和shapefile格式文件。數據合并的處理流程可允許其他研究者通過(guò)關(guān)聯(lián)數據來(lái)訪(fǎng)問(wèn)這些共享文件,令之可以被廣泛使用。更為重要的意義在于,那些被整合進(jìn)Seshat或由Dacura生成的數據集中的其他數據,其質(zhì)量能夠不斷得到提升,這正是歸功于Dacura允許研究者對先前合并的數據進(jìn)行評注和再評估。換句話(huà)說(shuō),Dacura不僅可以用于創(chuàng )建和管理巨量數據集,也能確保數據質(zhì)量能夠持續不斷地得到提升。
  使用Seshat數據庫:從Dacura輸出數據
  到了這一步,關(guān)切夏威夷人口估值的研究者便能夠通過(guò)Seshat數據庫——或是她自己利用Dacura生成的數據集——來(lái)迅速地獲得精確并且可以溯源的人口數據。她可以通過(guò)Dacura來(lái)開(kāi)啟Seshat數據庫,接著(zhù)在操作界面中選取夏威夷的自然地理區域模塊,然后選取她所感興趣的某個(gè)歷史時(shí)期的夏威夷居住人口的政治組織子級,之后再選擇人口這個(gè)變量。我們在Youtube上傳了一部視頻供讀者參考。在這個(gè)案例中,這位學(xué)者獲得的有關(guān)人口的數據源自Seshat數據庫,這個(gè)數據是我們上文述及的Dacura數據收集和評估進(jìn)程的產(chǎn)物。但是我們的研究者還能夠使用Dacura創(chuàng )建新本體,以引導她進(jìn)行更具個(gè)性化的搜索,正如我們在上文提到的視頻中揭示的那樣。
  無(wú)論是在Seshat平臺還是她運用Dacura從其他來(lái)源獲取的數據,我們的學(xué)者都能獲得各種類(lèi)型的結果輸出。正如前文述及的那樣,Dacura會(huì )將數據集作為關(guān)聯(lián)數據發(fā)布,并使用SPARQL進(jìn)行輸出。SPARQL是一種RDF的查詢(xún)語(yǔ)言,后者能夠生成文檔和原始數據集,還有像圖表、表格、地圖之類(lèi)的其他可視化信息。另外一點(diǎn)對史學(xué)工作者也至關(guān)重要,即SPARQL與GeoSPARQL能夠協(xié)同運行,這得以讓SPARQL數據集整合進(jìn)入采用了OGC(Open Geospatial Consortium,開(kāi)放地理空間信息聯(lián)盟)查詢(xún)標準(比如GML、WKT等)的地理信息系統中去。此外,Dacura平臺上生成的原始文本、媒體或數字數據,也能夠被瀏覽、搜索和挑選,研究者可以訪(fǎng)問(wèn)對研究最有價(jià)值的那部分文本、圖片、媒體或數據集。Dacura還能夠收集或輸入的材料——或是它們的子級——以更多格式導出來(lái)支持進(jìn)一步的外部分析。例如,研究者可能會(huì )想把有關(guān)人口估算值的數據輸出到統計分析平臺。那么Dacura將會(huì )生成逗號分割文件(comma-delimited file),這個(gè)文件能夠被直接傳輸到電子表格或是統計數據軟件包,如此一來(lái)研究者就可以使用任何數據分析的方法,來(lái)解答自己的問(wèn)題。圖五展示了一個(gè)有關(guān)夏威夷人口估算值的簡(jiǎn)單線(xiàn)性圖表,它的生成有賴(lài)于Dacura和Seshat平臺的數據輸出功能,生成了一個(gè)CSV文件,并使用Excel制作了一張圖表。
  我們的這位研究者最初問(wèn)題的答案是,夏威夷的人口增長(cháng)確實(shí)先于這座島嶼上第一個(gè)國家政權的產(chǎn)生,這也正如人口壓力模型預測的那樣。就答案本身來(lái)說(shuō),這算不上是個(gè)令人印象深刻的結果(實(shí)際上或許也是個(gè)非常簡(jiǎn)單化的結論),但是考慮到我們的研究者通過(guò)Dacura平臺的處理進(jìn)程,可以在幾分鐘里收集數據,同時(shí)對它們的質(zhì)量抱有信心,而且還可以訪(fǎng)問(wèn)與之相關(guān)的所有附加數據,不能不說(shuō)是一次令人嘆服的研究之旅。
  結論
  互聯(lián)網(wǎng)為歷史學(xué)家提供了大量的信息,然而現狀卻是,這些信息經(jīng)常太過(guò)豐富,而且缺少質(zhì)量監控。Dacura便是旨在解決這些問(wèn)題而被設計開(kāi)發(fā)出來(lái)的。它提供一種便捷的、質(zhì)量有保證的途徑,幫助史學(xué)工作者在互聯(lián)網(wǎng)上收集信息,同時(shí)提供一個(gè)可供管理的質(zhì)量控制體系。Dacura具有的精心設計的本體(dacura.scss.tcd.ie/ontologies/ dacura-130317.ttl),進(jìn)而使研究者能夠簡(jiǎn)易地定義和檢索到與他們的研究直接相關(guān)的信息。Dacura的一體化詞庫和RDF三元存儲結構讓用戶(hù)不需要使用在結果中進(jìn)行跨領(lǐng)域的詳細索引,如此一來(lái),有關(guān)給定主題的所有信息,甚至那些相關(guān)性不那么明顯或作為相關(guān)索引的信息,都可以被用戶(hù)檢索到。此外,Dacura提供的用于輸出的數據格式非常廣泛,從文本到可視化形式再到表格。Dacura雖然不是唯一可用的數據收集和管理程序,但是因為它與Seshat數據庫一同被開(kāi)發(fā)出來(lái),因而它為新興的基于計算機技術(shù)的歷史和考古數據處理提供了一個(gè)獨特模型。
  從這個(gè)角度來(lái)說(shuō),Dacura展現了一系列可應用于歷史學(xué)研究的重要新工具。正如肯特在他最近發(fā)表的論文中指出的那樣,“(歷史學(xué)家以及)考古學(xué)家在獲取、管理和分析大量且差異巨大的數據過(guò)程中,日益面臨挑戰?!?Dacura平臺的問(wèn)世為這一系列挑戰提供了數種解決方案。具體來(lái)說(shuō),Dacura平臺嵌入了(1)一個(gè)基于RDF三元存儲的語(yǔ)義知識圖譜技術(shù),同時(shí)運用了(2)網(wǎng)絡(luò )本體語(yǔ)言(OWL)來(lái)進(jìn)行數據定義,它還嵌入了(3)語(yǔ)義推理模塊,該模塊是自動(dòng)進(jìn)行數據評估的基礎,以及(4)它按照關(guān)聯(lián)數據標準實(shí)現結果輸出。
  通過(guò)OWL數據定義和知識圖譜技術(shù),歷史學(xué)家可以把收集到的海量數據,以快捷和簡(jiǎn)易的方式將那些對既定研究主題最為重要的信息精減和篩選出來(lái),并且可以讓這些數據以多樣的格式輸出。語(yǔ)義推理模塊為用戶(hù)提供了一種迅捷的數據評估以及可持續管理的機制。關(guān)聯(lián)數據標準制式下,Dacura允許研究者隨時(shí)訪(fǎng)問(wèn)那些經(jīng)由其他學(xué)者收集來(lái)和評估過(guò)的數據。
  另外,在像Dacura這樣的平臺上,計算機科學(xué)領(lǐng)域最近取得的新進(jìn)展,也為那些非歷史學(xué)領(lǐng)域的學(xué)者提供了可用和精確的歷史數據。長(cháng)期以來(lái),那些有關(guān)文化穩定和變遷的時(shí)空記錄,以及人類(lèi)社會(huì )成功或者失敗的實(shí)踐案例,在考古學(xué)和歷史學(xué)學(xué)科之外沒(méi)有得到廣泛應用,這是令許多史學(xué)工作者倍感沮喪的事情。不過(guò)這也沒(méi)什么好驚訝的,因為對于外行來(lái)說(shuō),歷史數據和材料很難獲取也很難理解。然而,像Dacura這樣的平臺,它們通過(guò)自動(dòng)化方式對歷史數據進(jìn)行收集、評估,對經(jīng)過(guò)檢驗的精確的歷史學(xué)數據進(jìn)行檢索,從而為經(jīng)濟學(xué)家、政治學(xué)家、生態(tài)學(xué)家、地理學(xué)家以及大眾提供了一種獲取數據途徑和模型,讓他們得以探索人類(lèi)歷史長(cháng)河中累積下來(lái)的豐富而寶貴的歷史記錄。
  致謝
  本文作者向參加了于2015年5月4日至6日在圣塔菲研究所舉辦的工作坊的與會(huì )者表示感謝,在這次工作坊上與會(huì )者們討論了有關(guān)數據收集以及高質(zhì)量信息整合的各種需要,以及Seshat元數據模型的開(kāi)發(fā)事宜。我們還要感謝Dacura平臺的研究團隊、博士后工作站人員、顧問(wèn)人員以及專(zhuān)家團隊,他們做出了巨大貢獻。此外,我們的合作伙伴為我們撰寫(xiě)這篇論文提供了無(wú)比寶貴的協(xié)助。更多具體信息,也請讀者登錄Seshat的網(wǎng)頁(yè)()查看公示的詳細清單,包括私人捐贈、合作者、專(zhuān)家、顧問(wèn)以及他們擅長(cháng)的專(zhuān)業(yè)領(lǐng)域。最后,我們向匿名評審專(zhuān)家致以感謝,正是他們深富洞見(jiàn)的評審意見(jiàn)令我們能夠更好地提升論文的質(zhì)量和水準。
  (作者彼得·比勒金[Peter N. Peregrine],勞倫斯大學(xué)人類(lèi)學(xué)系,圣塔菲研究所;羅布·布倫南[Rob Brennan],都柏林大學(xué)三一學(xué)院,統計學(xué)和計算機科學(xué)學(xué)院ADAPT&知識與數據工程項目組;托馬斯·柯里[Thomas Currie],??巳卮髮W(xué)生命科學(xué)系;凱文·費尼[Kevin Feeney],都柏林大學(xué)三一學(xué)院,計算機科學(xué)與統計學(xué)院,知識與數據工程項目組;彼得·弗朗索瓦[Pieter Fran?ois],赫特福德大學(xué)人文學(xué)院,牛津大學(xué)認知與發(fā)展人類(lèi)學(xué)研究所;彼得·特欽[Peter Turchin],康涅狄格大學(xué)生態(tài)與進(jìn)化生物學(xué)系;哈維·懷特霍斯[Harvey Whitehouseg],牛津大學(xué)認知與發(fā)展人類(lèi)學(xué)研究所。譯者紀子凡,南京大學(xué)歷史學(xué)院碩士研究生)
  本文注釋及更多精彩文章請參閱《全球史評論》第十九輯
  首師大全球史中心
  公眾號ID:gh-cnu
  歡迎關(guān)注,謝謝大家~

裴?。核阉鹘灾悄?,智能皆搜索

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2022-06-18 01:11 ? 來(lái)自相關(guān)話(huà)題

  裴?。核阉鹘灾悄?,智能皆搜索
  
  作者 | 陳大鑫
  編輯 | 叢 末
  6月23日,加拿大西門(mén)菲莎大學(xué)教授裴健在第二屆北京智源大會(huì )上做了《智能搜索:從工具到思維方式和心智》的報告。
  
  裴老師最近當選為加拿大工程院院士,現在是加拿大皇家科學(xué)院和加拿大工程院的兩院院士。裴老師是國際著(zhù)名的數據科學(xué)、數據挖掘和數據管理專(zhuān)家,專(zhuān)長(cháng)于通過(guò)數據戰略制定、數據資產(chǎn)管理、數據資源整合和數據產(chǎn)品設計研發(fā)把數據和技術(shù)轉化為業(yè)務(wù)能力和效益。他同時(shí)是多家企業(yè)的顧問(wèn),提供高端戰略咨詢(xún)和技術(shù)咨詢(xún)服務(wù)。其論著(zhù)被引用九萬(wàn)七千多次。有關(guān)裴健老師的更多獨家信息,請移步 一文。北京智源大會(huì )是智源研究院主辦的年度國際性人工智能高端學(xué)術(shù)交流活動(dòng),2019年舉辦了首屆大會(huì ),今年為第二屆。大會(huì )參會(huì )官網(wǎng):。裴健老師在這次的演講中提出了三個(gè)核心觀(guān)點(diǎn):第一,搜索皆智能,搜索以人為核心,以滿(mǎn)足人的信息需求為目的,所以它天然就包含了智能成分。第二,智能皆搜索,我們要做到智能必須要用到搜索的方法,目前人工智能的很多應用都是搜索任務(wù),智能和搜索同行。第三,智能搜索不僅是一個(gè)單純的技術(shù)問(wèn)題,更是一個(gè)與人相關(guān)的問(wèn)題,我們必須要一起努力,使得每個(gè)人都不會(huì )被落下,讓智能搜索服務(wù)全人類(lèi)。在演講最后,中國人民大學(xué)教授、智源首席科學(xué)家文繼榮與裴健老師進(jìn)行了精彩的問(wèn)答互動(dòng):智能搜索和智能推薦可能比我們想象中更深刻地影響到我們每天的生活,比如你有一個(gè)問(wèn)題,你的第一反應是不是去搜一下?或者說(shuō)你想獲取什么信息,你會(huì )第一時(shí)間打開(kāi)如頭條、微博、知乎這樣的一些APP,然后去看它給你推薦了一些什么?做搜索、推薦、數據分析的人責任是非常重大的,如果這方面做得不好,在極端情況下就有可能改變我們下一代甚至改變人類(lèi)的思維方式,改變我們對世界的看法,因為一個(gè)人對整個(gè)世界的看法更多地是由他接收到的信息、他的經(jīng)歷所塑造的。
  如果我們的信息推送和用戶(hù)檢索到的信息是有問(wèn)題的,比如剛剛提到的信息是有偏見(jiàn)的,比如我看什么就給我推薦什么,那我就進(jìn)入了信息減法的世界,我可能會(huì )失去了解這個(gè)世界的更多可能性。通過(guò)這次精彩的演講和問(wèn)答互動(dòng),我們可以從智能推薦或者個(gè)性化推薦等技術(shù)中看到一些人文關(guān)懷和哲學(xué)反思。人文關(guān)懷:老人會(huì )不會(huì )因為不會(huì )用智能手機、不會(huì )用電腦而享受不了智能搜索帶來(lái)的紅利?比如說(shuō)殘疾人和在偏遠地區、經(jīng)濟不發(fā)達地區的人會(huì )不會(huì )因為達不到智能搜索的入門(mén)門(mén)檻而被慢慢拋棄?我們應該如何解決這些問(wèn)題?哲學(xué)反思:隨著(zhù)我們越來(lái)越依靠智能搜索、個(gè)性化推薦,我們是否會(huì )失去了解這個(gè)世界的更多可能性?我們是否會(huì )失去一部分原有的“自由意志”?究竟是我們馴化了這個(gè)信息流世界還是被其馴化?以下為裴健演講正文:今天我報告的題目是智能搜索:從技術(shù)工具到思維心智。首先,讓我們來(lái)簡(jiǎn)單回顧一下搜索的基本概念。在搜索當中,我們假定用戶(hù)有信息需求。用戶(hù)的信息需求往往不能直接被搜索系統直接理解,于是用戶(hù)把信息需求轉化為搜索系統的查詢(xún)。搜索系統得到用戶(hù)的查詢(xún),找到相應的結果,可能是一些文檔、圖片、圖像或者是生成的內容,返回給用戶(hù)。用戶(hù)可以根據這些是否是所需要的,產(chǎn)生相應的反饋,搜索系統根據用戶(hù)的反饋來(lái)決定是否需要去對搜索進(jìn)行增強。這樣一個(gè)過(guò)程不斷循環(huán),直到用戶(hù)信息需求得到了滿(mǎn)足,整個(gè)搜索過(guò)程就結束了。
  
  這個(gè)過(guò)程聽(tīng)起來(lái)非常得完美,很簡(jiǎn)潔。但在實(shí)際當中,搜索并不是那么簡(jiǎn)單,要比這個(gè)復雜得多。
  1
  搜索皆智能在實(shí)際生活當中,“用戶(hù)信息需求是固定的”這個(gè)假設命題其實(shí)是個(gè)偽命題。在很多情況下,用戶(hù)的信息需求不斷變化。更麻煩的是,用戶(hù)本身可能并不清楚自己的信息需求到底是什么。舉個(gè)例子來(lái)說(shuō),比如我聽(tīng)說(shuō)某個(gè)小區有新型肺炎的新感染案例,發(fā)出一個(gè)“新冠肺炎感染病例”的查詢(xún),那么這個(gè)查詢(xún)到底是想問(wèn)什么呢?用戶(hù)自己可能并不清楚,在很多時(shí)候用戶(hù)可能是發(fā)出一個(gè)查詢(xún)先問(wèn)一下,看搜索引擎給返回什么樣的信息。用戶(hù)和搜索引擎的交互過(guò)程就是一個(gè)探索的過(guò)程,用戶(hù)的信息需求在不斷變化。在“新冠肺炎感染病例”的例子里,用戶(hù)可能想問(wèn)的是這個(gè)感染病例是不是得到了治療?感染病例的具體情況是怎樣的?看到搜索引擎的回答后,用戶(hù)可能馬上想到這個(gè)感染案例對小區的生活,如出行、購物等,有什么影響?大家可以看到信息需求是不斷變化的,我們在搜索過(guò)程中不能假定用戶(hù)的信息需求是不變的。信息系統必須想辦法去理解用戶(hù)的真實(shí)信息需求,為用戶(hù)提供探索的工具。因此,搜索本身從一開(kāi)始就是智能的,因為它把人擺在了整個(gè)過(guò)程的中心。
  
  下面舉個(gè)例子來(lái)講一下搜索過(guò)程為什么是一個(gè)探索的過(guò)程。在VLDB-2019的會(huì )議上,我的研究小組發(fā)表了一篇社團搜索的文章。和很多已有的社團搜索工作不太一樣,我們假定在每一個(gè)網(wǎng)絡(luò )節點(diǎn)上都有一個(gè)數據庫。如果這個(gè)網(wǎng)絡(luò )結點(diǎn)是一個(gè)人,那么這個(gè)數據庫就可以是這個(gè)人以往購買(mǎi)東西的整個(gè)歷史。如果這個(gè)網(wǎng)絡(luò )結點(diǎn)是一個(gè)論文作者,那這個(gè)數據庫就是他以前發(fā)表的所有論文的集合。我們關(guān)心在這樣一個(gè)網(wǎng)絡(luò )里面怎樣找到社團?
  
  我們希望社團內成員之間不但有很密切的網(wǎng)絡(luò )連接關(guān)系,還能在數據庫上又有非常相似的模式。這樣社團有什么用呢?舉例來(lái)說(shuō),在論文作者的數據網(wǎng)絡(luò )上,用戶(hù)可能關(guān)心的是能不能找到那些用數據挖掘方法來(lái)研究人臉識別和圖象檢索的社團?我們的搜索首先形成了一個(gè)查詢(xún)模式a1。
  
  同時(shí),我們的搜索算法還能夠提供針對a1的各種細化,比如b1、b2、直到b8。在這些細化當中我們會(huì )專(zhuān)門(mén)看各個(gè)具體的分支,包括算法具體分支和問(wèn)題具體分支。這些分支給用戶(hù)帶來(lái)探索方向和探索方便。這種探索可以進(jìn)一步往下走。比如說(shuō)b8可以進(jìn)一步探索到c1、c2兩種具體的情況。整個(gè)過(guò)程是一個(gè)不斷深入、不斷嘗試、不斷修正的探索過(guò)程。
  2
  智能皆搜索搜索皆智能,搜索要用到大量的人工智能技術(shù),所以我們要通過(guò)人工智能技術(shù)去理解用戶(hù)的信息需求。同時(shí),智能很復雜,智能的每一個(gè)任務(wù)都需要多多少少用到搜索技術(shù)。什么是智能?智能是關(guān)于連接的,我們需要把不同的數據、不同的知識點(diǎn)連接起來(lái);智能是關(guān)于推理的,我們需要對數據、對知識進(jìn)行相應的推理;智能是關(guān)于泛化的,我們有具體的觀(guān)察,我們希望通過(guò)若干具體的觀(guān)察、具體的例子來(lái)泛化來(lái)概括成通用的規律;智能還需要去做具體化,我們有一些通用的原則,要把它用到具體的事例里面,提高具體事例處理的效率和效果。所有這些都需要搜索相應的數據,搜索相應的知識,搜索相應的連接。所以智能皆搜索,智能離不開(kāi)搜索,智能必須通過(guò)搜索來(lái)實(shí)現。
  
  下面舉個(gè)一個(gè)我們KDD 2016論文中的例子來(lái)介紹我們怎么通過(guò)搜索來(lái)達到知識發(fā)現。我們可以在WordNet的網(wǎng)絡(luò )上面找到很有意思的一些社團,每一個(gè)社團內部非常相似,社團成員之間有很強的關(guān)聯(lián),同時(shí),社團之間非常對立,有非常大的差異。
  
  當我們把這個(gè)問(wèn)題用在形容詞網(wǎng)絡(luò )里面,我們就找到了大家在膠片上看到的Group1和Group2這樣對立的社團,所以我們把它叫做gangs in war。大家仔細看,每一個(gè)社團內部是一組同義組,Group1和Group2之間是反義詞關(guān)系。我們用智能搜索帶給我們新知識,我們可以在詞的網(wǎng)絡(luò )上自動(dòng)發(fā)現同義詞和反義詞。
  
  剛才我們講了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者緊密結合,搜索和智能同行。這里包括兩個(gè)意思,第一,我們需要用搜索的技術(shù)來(lái)達到更好的人工智能。像我剛才舉的例子,我們可以通過(guò)很好的搜索來(lái)自動(dòng)的發(fā)現知識,同時(shí)我們需要用很多的智能技術(shù)和計算來(lái)使得搜索更加有效。這里的智能不單單只是人工智能,還包括了很多真正的人的智能,因為我們最終的搜索是為人服務(wù)的。
  
  這里舉一個(gè)例子,這是我們最近剛剛完成的一個(gè)論文,我們研究的是基于Web-scale的多語(yǔ)言問(wèn)答系統。問(wèn)答系統有很多,在很多商用的搜索引擎里面都有相應的問(wèn)答功能。當一個(gè)用戶(hù)給出一個(gè)問(wèn)題,例如說(shuō)想知道感冒癥狀,搜索引擎可以總結出像下圖左邊的信息卡,這個(gè)信息卡上會(huì )列出相應的感冒的癥狀甚至是治療的方法。這給用戶(hù)帶來(lái)了很多的便利,在一定程度上這也是對知識的抽取和總結。
  
  當搜索引擎給出這樣一個(gè)答案時(shí),這個(gè)答案是否滿(mǎn)足了用戶(hù)的信息需求?這個(gè)答案的知識是否正確?是否有用?我們希望能夠得到用戶(hù)的反饋,我們希望用戶(hù)用人的智能來(lái)幫助機器進(jìn)行學(xué)習。這里有一個(gè)挑戰。很多情況下,用戶(hù)看過(guò)答案但并不一定給出一個(gè)顯式的反饋,理解人的反饋是一個(gè)非常復雜的過(guò)程。在這篇論文里面,我們系統地研究了如何觀(guān)察、推理用戶(hù)對搜索引擎所給出的問(wèn)答信息的反饋,如何對用戶(hù)的行為進(jìn)行挖掘,抽取相應的反饋信號,用這些信號來(lái)改進(jìn)我們的QA系統。
  
  上圖是在一個(gè)全球化商業(yè)搜索引擎數據集上面所做的實(shí)驗結果。當我們的系統考慮了用戶(hù)真正的已知反饋之后,整個(gè)搜索效果比不用這個(gè)反饋的系統好得多。同時(shí),我們可以看到一個(gè)非常有意思的現象:這種智能搜索所發(fā)現的知識可以在不同的領(lǐng)域進(jìn)行遷移。
  
  舉個(gè)例子來(lái)說(shuō),在整個(gè)模型建立的過(guò)程中,我們用的是英語(yǔ)數據,在英語(yǔ)數據里面,我們抽取了相應的問(wèn)答和相應的用戶(hù)反饋。英語(yǔ)里發(fā)現的知識完全是可以往別的語(yǔ)言遷移,如德語(yǔ)和法語(yǔ)。遷移的效果很好,在法語(yǔ)的數據集上面我們用了很少的大概5K的數據就能夠達到如果沒(méi)有跨語(yǔ)言的遷移、沒(méi)有反饋的時(shí)候需要用50K的數據才能達到的效果。也就是說(shuō),通過(guò)應用用戶(hù)的反饋,我們能夠大大減少相應的數據需求,我們的確可以通過(guò)智能化的方法理解用戶(hù),并讓用戶(hù)把人類(lèi)智能來(lái)幫助我們的機器。我們的技術(shù)已經(jīng)在一個(gè)大型商用搜索引擎的多語(yǔ)言服務(wù)中上線(xiàn)應用。
  3
  智能搜索,與人相關(guān)因為搜索的主體是人,所以搜索并不簡(jiǎn)單是一個(gè)技術(shù)問(wèn)題。最近在《紐約時(shí)報》有一篇很好的文章,題目就是Tech is global. right?:技術(shù)是全球化的,對嗎?對,技術(shù)是全球化的。
  
  這篇文章談到了很多先進(jìn)的美國企業(yè)把相應的技術(shù)和平臺用到別的國家和地區效果不好。這里面涉及到很多因素,特別是很多與人有關(guān)的因素,例如說(shuō)本地化、可理解性、文化、公平性、隱私保護、模型的復雜性、安全性等等。如果我們要把智能搜索做好,就必須密切考慮人的因素。其中,深度學(xué)習模型的復雜性是一個(gè)重要的因素。我們最近剛剛完成了一篇KDD2020的論文在這方面做了一些探索。模型復雜性本身是一個(gè)很復雜的問(wèn)題。在很多場(chǎng)合下,人們可能只是簡(jiǎn)單地比較兩個(gè)模型之間的準確度或者別的一些性能指標,但哪怕兩個(gè)模型的性能在測試集上是完全一樣的,并不意味著(zhù)這兩個(gè)模型的本質(zhì)是一樣的,也不意味著(zhù)它們捕捉了同樣的客觀(guān)現實(shí)。
  
  舉個(gè)具體例子,上圖這兩個(gè)模型在相應的數據點(diǎn)上是完全一致的,但是這兩個(gè)模型其實(shí)差得非常遠。因此我們需要有一個(gè)系統的方法來(lái)衡量模型的復雜度、來(lái)衡量模型到底有沒(méi)有對數據過(guò)擬合。我們的KDD2020上的論文就在這方面給出了一些新的方法。與模型和搜索方法很相關(guān)的另外一個(gè)問(wèn)題是可解釋性,一個(gè)模型要獲得大家的信任,它必須有良好的可解釋性。我們認為,模型的可解釋性一定要滿(mǎn)足兩個(gè)原則。第一是準確性:如果我用一個(gè)模型來(lái)解釋另外一個(gè)模型,那這兩個(gè)模型必須在數學(xué)上等價(jià)。如果不等價(jià),解釋就可能會(huì )有問(wèn)題。第二,模型的解釋必須是一致的。一致是什么意思呢?如果我有兩個(gè)非常相似的樣例,它們相應的解釋也應該非常相似,這才能夠符合人的直覺(jué)??山忉屝詥?wèn)題的核心是把一個(gè)黑盒子轉化為一個(gè)白盒子。
  
  我們KDD2018的論文通過(guò)把一個(gè)深度網(wǎng)絡(luò )轉化為一個(gè)基于內部神經(jīng)元狀態(tài)的向量,給出基于多胞體(polytope)的解釋。這樣所得到的解釋是精確的:從數學(xué)上解釋的模型和原來(lái)的深度網(wǎng)絡(luò )等價(jià)。同時(shí),解釋也是是一致的:如果兩個(gè)點(diǎn)很相近,它們落在同一個(gè)多胞體里面,它們就會(huì )遵從相應的相同的線(xiàn)性分類(lèi)器,所以它們的相應解釋也會(huì )是一樣的。
  
  在今年的ICDE論文中,我們把解釋模型推到了云端。以往的解釋工具往往需要知道整個(gè)模型的參數,甚至要知道相應的很多訓練數據。在今年的ICDE論文里,我們提出可以把整個(gè)模型作為一個(gè)黑盒,然后給出準確和一致的解釋?zhuān)恍枰滥P偷膮岛陀柧殧祿?。這里核心的想法是:如果我們有若干的樣例,這些樣例落在同一個(gè)多胞體里面,它們就應該遵循同一個(gè)線(xiàn)性分類(lèi)器,于是我們可以建造一個(gè)線(xiàn)性方程式系統,用此來(lái)為我們提供相應的解釋。關(guān)于怎么樣把智能搜索做好,我們講了很多。但是我們應該要充分認識到一點(diǎn),智能搜索也在不斷地改變我們的心智。
  
  在國外大家經(jīng)常說(shuō)這句話(huà):如果你遇到一個(gè)不了解的事情怎么辦?用搜索引擎查一下(google it)。在國內也有俗語(yǔ)叫:內事問(wèn)度娘,外事問(wèn)谷歌。搜索的過(guò)程和結果很深刻地改變了人類(lèi)的思維和學(xué)習方式。在某些方面搜索拓寬了我們獲取信息的渠道和速度,使得我們更聰明。但在另一些方面,我們可能會(huì )過(guò)度依賴(lài)智能搜索,在很多地方會(huì )變得笨了。這里,信息的準確性和公平性變得非常重要。在這次的疫情當中,我們都知道虛假信息是非常嚴重的一個(gè)問(wèn)題。很多小道消息、虛假消息通過(guò)社交媒體傳播產(chǎn)生了很壞的作用。最近推特干了一件很有意思的事情,他們用了一個(gè)簡(jiǎn)單聰明的辦法來(lái)對付虛假消息。他們觀(guān)測到有很多人在社交媒體里面看到一個(gè)有意思的標題就轉發(fā)了,但并沒(méi)有看過(guò)那個(gè)文章。于是推特在你轉發(fā)一個(gè)沒(méi)有看過(guò)內容的推特時(shí),提示用戶(hù)其實(shí)沒(méi)有看過(guò)這篇文章。這個(gè)提示對于降低虛假消息的傳播會(huì )有很大的幫助。但是這種幫助是有代價(jià)的,它需要我們犧牲一定的隱私。推特需要知道你看過(guò)什么才知道你有沒(méi)有看過(guò)自己轉發(fā)的東西。這里有一個(gè)挑戰性的均衡:我們到底需要保留什么樣的隱私,怎么樣制止虛假消息的傳播。
  
  我們知道抖音在國內外都非常成功,已經(jīng)出現了一代新的人類(lèi)叫作Tik TOK Generation。它們通過(guò)智能的搜索和推薦技術(shù)把人與人連接起來(lái),把內容和內容連接起來(lái)。在內容創(chuàng )造上Tik TOK Generation以及這類(lèi)新媒體有一些重要的特點(diǎn)。其中之一就是媒體內容本身不是那么重要,反而對媒體的評論和媒體的跟進(jìn)會(huì )更重要。大家經(jīng)常跑到很多新媒體上并不是看它真正的內容,而是看后面跟著(zhù)的評論。由于智能搜索和智能推薦技術(shù)的發(fā)展使得人與人之間的連接、內容與內容之間的連接、人與內容之間的連接更加容易、更加廣泛。很多人原來(lái)并不需要互相認識,但是通過(guò)這個(gè)智能搜索和智能推薦他們會(huì )聯(lián)系在一起,形成長(cháng)期的交互,這就導致了我們現在面臨著(zhù)新一代所謂的熱情經(jīng)濟。
  
  跟傳統的零工經(jīng)濟經(jīng)濟相比,熱情經(jīng)濟有一系列新特點(diǎn)。舉例來(lái)說(shuō),熱情經(jīng)濟從業(yè)者不斷地產(chǎn)生新內容,不斷地吸引更多的觀(guān)眾獲得相應的營(yíng)收,這是以往很多經(jīng)濟模式不具備的。同時(shí)由于智能搜索、智能推薦和平臺的連接作用使受眾面會(huì )大大提高,更多有創(chuàng )意的產(chǎn)品和服務(wù)可以以更低的成本推向服務(wù)市場(chǎng),這些也給我們帶來(lái)很多新機會(huì )和新挑戰。熱情經(jīng)濟完全是基于新的技術(shù)、新的軟件、新的媒體。智能搜索是熱情經(jīng)濟的核心技術(shù),通過(guò)技術(shù)的進(jìn)步使得平臺更加有效、內容開(kāi)發(fā)更加方便、創(chuàng )業(yè)更加快捷、創(chuàng )業(yè)者和受眾的聯(lián)系更加緊密、交互更加方便。智能搜索徹底改變了我們的生活??梢哉f(shuō)智能搜索已經(jīng)變成了我們無(wú)時(shí)無(wú)刻、無(wú)處不在的需求和工具。智能搜索同時(shí)也會(huì )產(chǎn)生很多新的挑戰。其中一個(gè)核心的挑戰是我們怎么確保智能搜索服務(wù)于社會(huì )的每一個(gè)人,沒(méi)有人因為各種限制而被智能搜索遺棄。
  
  舉個(gè)例子來(lái)說(shuō),老人們會(huì )不會(huì )因為不會(huì )用智能手機而享受不了智能搜索帶來(lái)的紅利?又比如說(shuō),殘疾人、偏遠地區和經(jīng)濟不發(fā)達地區的人們會(huì )不會(huì )因為達不到智能搜索的基礎設施入門(mén)門(mén)檻而被拋棄?這些都是我們需要考慮的問(wèn)題。我們都知道現在醫院掛號經(jīng)常需要用智能手機來(lái)預約,但是很多老人,特別是那些七八十歲、八九十歲的老人,并不會(huì )使用智能手機,用起來(lái)也很不方便。他們怎么才能獲得信息渠道并消費這些信息?這些都是我們做智能搜索的人需要認真考慮和抓緊行動(dòng)的方向。我個(gè)人認為智能搜索遠遠不僅僅是一個(gè)技術(shù)問(wèn)題,也遠遠不僅僅是一個(gè)人工智能的問(wèn)題,它是一個(gè)非常復雜的全社會(huì )的系統工程。
  問(wèn)答環(huán)節 文繼榮:對智能搜索和智能推薦來(lái)說(shuō),所謂的智能就是越來(lái)越了解你,以人為中心來(lái)了解你,它給你的信息越來(lái)越趨近于你過(guò)去的興趣和經(jīng)歷,但是這樣會(huì )不會(huì )使你失去了解這個(gè)世界多樣性的可能?在整個(gè)大的框架方面或者在整個(gè)研究方向上面,有沒(méi)有更多的深刻思考?裴?。褐悄芩阉骰?、智能推薦已經(jīng)成為下一代人類(lèi)重要的信息入口,也是非常重要的信息出口。只能搜索把握了這一進(jìn)一出,對未來(lái)的人類(lèi)有很大的塑造能力。這也許是大家做技術(shù)的時(shí)候并沒(méi)有特別深思的一個(gè)問(wèn)題。我們一點(diǎn)一滴的技術(shù)貢獻會(huì )怎樣改變未來(lái)人類(lèi)學(xué)習的方式、思考的方式和所知所行。這里面涉及很多問(wèn)題。例如說(shuō)我們可以通過(guò)可適應性使得我們的教育效率提高,使得一個(gè)人更容易學(xué)習。但是可適應性在一定程度下又可能有缺陷。我們如果過(guò)分遷就人類(lèi)的惰性,就可能會(huì )使一部分最聰明的人失去了挑戰更高高度的機會(huì )。再例如,到底讓智能搜索受眾學(xué)什么?怎么保證整個(gè)環(huán)境公平性?大家開(kāi)始去思考,但是遠遠沒(méi)有答案。我在演講的最后也強調了這不是簡(jiǎn)單的技術(shù)問(wèn)題,這是全社會(huì )的很復雜的問(wèn)題。觀(guān)眾發(fā)問(wèn):感覺(jué)像谷歌、百度這些巨頭已經(jīng)形成了壟斷,其它的搜索引擎或者其它的新的搜索工具經(jīng)歷了多年都沒(méi)有成長(cháng)起來(lái)。請問(wèn)這些研究智能搜索方向的人除了到這些巨頭公司工作以外,還有沒(méi)有更好的出路?裴?。核阉魅栽诓粩嗟貏?chuàng )新,現在所有商用搜索引擎最頭疼的事情是越來(lái)越多的高質(zhì)量信息不在公開(kāi)的互聯(lián)網(wǎng)上,而在相對封閉的社交媒體上。
  例如說(shuō)在朋友圈有很多質(zhì)量高的信息源,但這種信息源是通用搜索引擎查不到的。怎樣把這些信息源整合起來(lái)形成一種更強大的搜索能力?這是一個(gè)有意思的研究方向?,F在很多的搜索跟廣告、商業(yè)模式結合起來(lái),是商業(yè)驅動(dòng)、利潤引導。最近原谷歌的兩位高管創(chuàng )辦了一個(gè)新公司,這個(gè)公司做的搜索引擎Neeva號稱(chēng)不會(huì )有廣告,而且要打通一些社交媒體,使得搜索的面更廣。這些新業(yè)務(wù)模式不管成功與否都是非常有意義的嘗試。智能搜索從就業(yè)、創(chuàng )業(yè)的角度來(lái)說(shuō)有很廣闊的前景。同時(shí)智能搜索會(huì )涉及到我們生活中的方方面面,例如說(shuō)在IOT環(huán)境下怎么做智能搜索?這些都是現有的面向通用web搜索所不能涵蓋的,也會(huì )是很有意思的方面。文繼榮:現在搜索引擎不管從主要的核心功能還是到形態(tài)上已經(jīng)幾十年沒(méi)有變化了,實(shí)際上現在很多東西都在變,比如說(shuō)裴老師講的熱情經(jīng)濟,還有國內的一個(gè)網(wǎng)紅經(jīng)濟,現在都是影響非常大的。我昨天看了一個(gè)新聞?wù)f(shuō)的非常好玩,浙江余姚區網(wǎng)紅可以評為國家級創(chuàng )新人才,不知道真的假的。實(shí)際上這個(gè)世界在飛速的變化,可能很多時(shí)候你認為沒(méi)有變化空間的時(shí)候就是會(huì )開(kāi)始很大變化的時(shí)期。就搜索來(lái)說(shuō),我覺(jué)得就直觀(guān)感受而言還遠遠達不到我們真正想要了解的世界。這次新冠病毒期間,我覺(jué)得甚至可以開(kāi)一個(gè)研討會(huì )來(lái)討論一下這中間的很多問(wèn)題,人們在獲取信息時(shí)出現了很多問(wèn)題,有虛假信息問(wèn)題也有信息多樣性問(wèn)題。這些信息對大家的影響是巨大的,你可以經(jīng)常感覺(jué)到整個(gè)朋友圈都在轉發(fā)和討論一個(gè)信息。尤其大家在家里沒(méi)辦法面對面交談,你可以通過(guò)控制信息來(lái)控制大家的觀(guān)點(diǎn)和情緒,這個(gè)事情我覺(jué)得是非常重要的。我們人類(lèi)將來(lái)會(huì )走向更加數字化的階段,從搜索和推薦的角度對信息進(jìn)行獲取和處理,我覺(jué)得我們到了一個(gè)全新的時(shí)期,我們需要去探索。
   查看全部

  裴?。核阉鹘灾悄?,智能皆搜索
  
  作者 | 陳大鑫
  編輯 | 叢 末
  6月23日,加拿大西門(mén)菲莎大學(xué)教授裴健在第二屆北京智源大會(huì )上做了《智能搜索:從工具到思維方式和心智》的報告。
  
  裴老師最近當選為加拿大工程院院士,現在是加拿大皇家科學(xué)院和加拿大工程院的兩院院士。裴老師是國際著(zhù)名的數據科學(xué)、數據挖掘和數據管理專(zhuān)家,專(zhuān)長(cháng)于通過(guò)數據戰略制定、數據資產(chǎn)管理、數據資源整合和數據產(chǎn)品設計研發(fā)把數據和技術(shù)轉化為業(yè)務(wù)能力和效益。他同時(shí)是多家企業(yè)的顧問(wèn),提供高端戰略咨詢(xún)和技術(shù)咨詢(xún)服務(wù)。其論著(zhù)被引用九萬(wàn)七千多次。有關(guān)裴健老師的更多獨家信息,請移步 一文。北京智源大會(huì )是智源研究院主辦的年度國際性人工智能高端學(xué)術(shù)交流活動(dòng),2019年舉辦了首屆大會(huì ),今年為第二屆。大會(huì )參會(huì )官網(wǎng):。裴健老師在這次的演講中提出了三個(gè)核心觀(guān)點(diǎn):第一,搜索皆智能,搜索以人為核心,以滿(mǎn)足人的信息需求為目的,所以它天然就包含了智能成分。第二,智能皆搜索,我們要做到智能必須要用到搜索的方法,目前人工智能的很多應用都是搜索任務(wù),智能和搜索同行。第三,智能搜索不僅是一個(gè)單純的技術(shù)問(wèn)題,更是一個(gè)與人相關(guān)的問(wèn)題,我們必須要一起努力,使得每個(gè)人都不會(huì )被落下,讓智能搜索服務(wù)全人類(lèi)。在演講最后,中國人民大學(xué)教授、智源首席科學(xué)家文繼榮與裴健老師進(jìn)行了精彩的問(wèn)答互動(dòng):智能搜索和智能推薦可能比我們想象中更深刻地影響到我們每天的生活,比如你有一個(gè)問(wèn)題,你的第一反應是不是去搜一下?或者說(shuō)你想獲取什么信息,你會(huì )第一時(shí)間打開(kāi)如頭條、微博、知乎這樣的一些APP,然后去看它給你推薦了一些什么?做搜索、推薦、數據分析的人責任是非常重大的,如果這方面做得不好,在極端情況下就有可能改變我們下一代甚至改變人類(lèi)的思維方式,改變我們對世界的看法,因為一個(gè)人對整個(gè)世界的看法更多地是由他接收到的信息、他的經(jīng)歷所塑造的。
  如果我們的信息推送和用戶(hù)檢索到的信息是有問(wèn)題的,比如剛剛提到的信息是有偏見(jiàn)的,比如我看什么就給我推薦什么,那我就進(jìn)入了信息減法的世界,我可能會(huì )失去了解這個(gè)世界的更多可能性。通過(guò)這次精彩的演講和問(wèn)答互動(dòng),我們可以從智能推薦或者個(gè)性化推薦等技術(shù)中看到一些人文關(guān)懷和哲學(xué)反思。人文關(guān)懷:老人會(huì )不會(huì )因為不會(huì )用智能手機、不會(huì )用電腦而享受不了智能搜索帶來(lái)的紅利?比如說(shuō)殘疾人和在偏遠地區、經(jīng)濟不發(fā)達地區的人會(huì )不會(huì )因為達不到智能搜索的入門(mén)門(mén)檻而被慢慢拋棄?我們應該如何解決這些問(wèn)題?哲學(xué)反思:隨著(zhù)我們越來(lái)越依靠智能搜索、個(gè)性化推薦,我們是否會(huì )失去了解這個(gè)世界的更多可能性?我們是否會(huì )失去一部分原有的“自由意志”?究竟是我們馴化了這個(gè)信息流世界還是被其馴化?以下為裴健演講正文:今天我報告的題目是智能搜索:從技術(shù)工具到思維心智。首先,讓我們來(lái)簡(jiǎn)單回顧一下搜索的基本概念。在搜索當中,我們假定用戶(hù)有信息需求。用戶(hù)的信息需求往往不能直接被搜索系統直接理解,于是用戶(hù)把信息需求轉化為搜索系統的查詢(xún)。搜索系統得到用戶(hù)的查詢(xún),找到相應的結果,可能是一些文檔、圖片、圖像或者是生成的內容,返回給用戶(hù)。用戶(hù)可以根據這些是否是所需要的,產(chǎn)生相應的反饋,搜索系統根據用戶(hù)的反饋來(lái)決定是否需要去對搜索進(jìn)行增強。這樣一個(gè)過(guò)程不斷循環(huán),直到用戶(hù)信息需求得到了滿(mǎn)足,整個(gè)搜索過(guò)程就結束了。
  
  這個(gè)過(guò)程聽(tīng)起來(lái)非常得完美,很簡(jiǎn)潔。但在實(shí)際當中,搜索并不是那么簡(jiǎn)單,要比這個(gè)復雜得多。
  1
  搜索皆智能在實(shí)際生活當中,“用戶(hù)信息需求是固定的”這個(gè)假設命題其實(shí)是個(gè)偽命題。在很多情況下,用戶(hù)的信息需求不斷變化。更麻煩的是,用戶(hù)本身可能并不清楚自己的信息需求到底是什么。舉個(gè)例子來(lái)說(shuō),比如我聽(tīng)說(shuō)某個(gè)小區有新型肺炎的新感染案例,發(fā)出一個(gè)“新冠肺炎感染病例”的查詢(xún),那么這個(gè)查詢(xún)到底是想問(wèn)什么呢?用戶(hù)自己可能并不清楚,在很多時(shí)候用戶(hù)可能是發(fā)出一個(gè)查詢(xún)先問(wèn)一下,看搜索引擎給返回什么樣的信息。用戶(hù)和搜索引擎的交互過(guò)程就是一個(gè)探索的過(guò)程,用戶(hù)的信息需求在不斷變化。在“新冠肺炎感染病例”的例子里,用戶(hù)可能想問(wèn)的是這個(gè)感染病例是不是得到了治療?感染病例的具體情況是怎樣的?看到搜索引擎的回答后,用戶(hù)可能馬上想到這個(gè)感染案例對小區的生活,如出行、購物等,有什么影響?大家可以看到信息需求是不斷變化的,我們在搜索過(guò)程中不能假定用戶(hù)的信息需求是不變的。信息系統必須想辦法去理解用戶(hù)的真實(shí)信息需求,為用戶(hù)提供探索的工具。因此,搜索本身從一開(kāi)始就是智能的,因為它把人擺在了整個(gè)過(guò)程的中心。
  
  下面舉個(gè)例子來(lái)講一下搜索過(guò)程為什么是一個(gè)探索的過(guò)程。在VLDB-2019的會(huì )議上,我的研究小組發(fā)表了一篇社團搜索的文章。和很多已有的社團搜索工作不太一樣,我們假定在每一個(gè)網(wǎng)絡(luò )節點(diǎn)上都有一個(gè)數據庫。如果這個(gè)網(wǎng)絡(luò )結點(diǎn)是一個(gè)人,那么這個(gè)數據庫就可以是這個(gè)人以往購買(mǎi)東西的整個(gè)歷史。如果這個(gè)網(wǎng)絡(luò )結點(diǎn)是一個(gè)論文作者,那這個(gè)數據庫就是他以前發(fā)表的所有論文的集合。我們關(guān)心在這樣一個(gè)網(wǎng)絡(luò )里面怎樣找到社團?
  
  我們希望社團內成員之間不但有很密切的網(wǎng)絡(luò )連接關(guān)系,還能在數據庫上又有非常相似的模式。這樣社團有什么用呢?舉例來(lái)說(shuō),在論文作者的數據網(wǎng)絡(luò )上,用戶(hù)可能關(guān)心的是能不能找到那些用數據挖掘方法來(lái)研究人臉識別和圖象檢索的社團?我們的搜索首先形成了一個(gè)查詢(xún)模式a1。
  
  同時(shí),我們的搜索算法還能夠提供針對a1的各種細化,比如b1、b2、直到b8。在這些細化當中我們會(huì )專(zhuān)門(mén)看各個(gè)具體的分支,包括算法具體分支和問(wèn)題具體分支。這些分支給用戶(hù)帶來(lái)探索方向和探索方便。這種探索可以進(jìn)一步往下走。比如說(shuō)b8可以進(jìn)一步探索到c1、c2兩種具體的情況。整個(gè)過(guò)程是一個(gè)不斷深入、不斷嘗試、不斷修正的探索過(guò)程。
  2
  智能皆搜索搜索皆智能,搜索要用到大量的人工智能技術(shù),所以我們要通過(guò)人工智能技術(shù)去理解用戶(hù)的信息需求。同時(shí),智能很復雜,智能的每一個(gè)任務(wù)都需要多多少少用到搜索技術(shù)。什么是智能?智能是關(guān)于連接的,我們需要把不同的數據、不同的知識點(diǎn)連接起來(lái);智能是關(guān)于推理的,我們需要對數據、對知識進(jìn)行相應的推理;智能是關(guān)于泛化的,我們有具體的觀(guān)察,我們希望通過(guò)若干具體的觀(guān)察、具體的例子來(lái)泛化來(lái)概括成通用的規律;智能還需要去做具體化,我們有一些通用的原則,要把它用到具體的事例里面,提高具體事例處理的效率和效果。所有這些都需要搜索相應的數據,搜索相應的知識,搜索相應的連接。所以智能皆搜索,智能離不開(kāi)搜索,智能必須通過(guò)搜索來(lái)實(shí)現。
  
  下面舉個(gè)一個(gè)我們KDD 2016論文中的例子來(lái)介紹我們怎么通過(guò)搜索來(lái)達到知識發(fā)現。我們可以在WordNet的網(wǎng)絡(luò )上面找到很有意思的一些社團,每一個(gè)社團內部非常相似,社團成員之間有很強的關(guān)聯(lián),同時(shí),社團之間非常對立,有非常大的差異。
  
  當我們把這個(gè)問(wèn)題用在形容詞網(wǎng)絡(luò )里面,我們就找到了大家在膠片上看到的Group1和Group2這樣對立的社團,所以我們把它叫做gangs in war。大家仔細看,每一個(gè)社團內部是一組同義組,Group1和Group2之間是反義詞關(guān)系。我們用智能搜索帶給我們新知識,我們可以在詞的網(wǎng)絡(luò )上自動(dòng)發(fā)現同義詞和反義詞。
  
  剛才我們講了搜索皆智能,智能皆搜索,所以智能和搜索是密不可分的,二者緊密結合,搜索和智能同行。這里包括兩個(gè)意思,第一,我們需要用搜索的技術(shù)來(lái)達到更好的人工智能。像我剛才舉的例子,我們可以通過(guò)很好的搜索來(lái)自動(dòng)的發(fā)現知識,同時(shí)我們需要用很多的智能技術(shù)和計算來(lái)使得搜索更加有效。這里的智能不單單只是人工智能,還包括了很多真正的人的智能,因為我們最終的搜索是為人服務(wù)的。
  
  這里舉一個(gè)例子,這是我們最近剛剛完成的一個(gè)論文,我們研究的是基于Web-scale的多語(yǔ)言問(wèn)答系統。問(wèn)答系統有很多,在很多商用的搜索引擎里面都有相應的問(wèn)答功能。當一個(gè)用戶(hù)給出一個(gè)問(wèn)題,例如說(shuō)想知道感冒癥狀,搜索引擎可以總結出像下圖左邊的信息卡,這個(gè)信息卡上會(huì )列出相應的感冒的癥狀甚至是治療的方法。這給用戶(hù)帶來(lái)了很多的便利,在一定程度上這也是對知識的抽取和總結。
  
  當搜索引擎給出這樣一個(gè)答案時(shí),這個(gè)答案是否滿(mǎn)足了用戶(hù)的信息需求?這個(gè)答案的知識是否正確?是否有用?我們希望能夠得到用戶(hù)的反饋,我們希望用戶(hù)用人的智能來(lái)幫助機器進(jìn)行學(xué)習。這里有一個(gè)挑戰。很多情況下,用戶(hù)看過(guò)答案但并不一定給出一個(gè)顯式的反饋,理解人的反饋是一個(gè)非常復雜的過(guò)程。在這篇論文里面,我們系統地研究了如何觀(guān)察、推理用戶(hù)對搜索引擎所給出的問(wèn)答信息的反饋,如何對用戶(hù)的行為進(jìn)行挖掘,抽取相應的反饋信號,用這些信號來(lái)改進(jìn)我們的QA系統。
  
  上圖是在一個(gè)全球化商業(yè)搜索引擎數據集上面所做的實(shí)驗結果。當我們的系統考慮了用戶(hù)真正的已知反饋之后,整個(gè)搜索效果比不用這個(gè)反饋的系統好得多。同時(shí),我們可以看到一個(gè)非常有意思的現象:這種智能搜索所發(fā)現的知識可以在不同的領(lǐng)域進(jìn)行遷移。
  
  舉個(gè)例子來(lái)說(shuō),在整個(gè)模型建立的過(guò)程中,我們用的是英語(yǔ)數據,在英語(yǔ)數據里面,我們抽取了相應的問(wèn)答和相應的用戶(hù)反饋。英語(yǔ)里發(fā)現的知識完全是可以往別的語(yǔ)言遷移,如德語(yǔ)和法語(yǔ)。遷移的效果很好,在法語(yǔ)的數據集上面我們用了很少的大概5K的數據就能夠達到如果沒(méi)有跨語(yǔ)言的遷移、沒(méi)有反饋的時(shí)候需要用50K的數據才能達到的效果。也就是說(shuō),通過(guò)應用用戶(hù)的反饋,我們能夠大大減少相應的數據需求,我們的確可以通過(guò)智能化的方法理解用戶(hù),并讓用戶(hù)把人類(lèi)智能來(lái)幫助我們的機器。我們的技術(shù)已經(jīng)在一個(gè)大型商用搜索引擎的多語(yǔ)言服務(wù)中上線(xiàn)應用。
  3
  智能搜索,與人相關(guān)因為搜索的主體是人,所以搜索并不簡(jiǎn)單是一個(gè)技術(shù)問(wèn)題。最近在《紐約時(shí)報》有一篇很好的文章,題目就是Tech is global. right?:技術(shù)是全球化的,對嗎?對,技術(shù)是全球化的。
  
  這篇文章談到了很多先進(jìn)的美國企業(yè)把相應的技術(shù)和平臺用到別的國家和地區效果不好。這里面涉及到很多因素,特別是很多與人有關(guān)的因素,例如說(shuō)本地化、可理解性、文化、公平性、隱私保護、模型的復雜性、安全性等等。如果我們要把智能搜索做好,就必須密切考慮人的因素。其中,深度學(xué)習模型的復雜性是一個(gè)重要的因素。我們最近剛剛完成了一篇KDD2020的論文在這方面做了一些探索。模型復雜性本身是一個(gè)很復雜的問(wèn)題。在很多場(chǎng)合下,人們可能只是簡(jiǎn)單地比較兩個(gè)模型之間的準確度或者別的一些性能指標,但哪怕兩個(gè)模型的性能在測試集上是完全一樣的,并不意味著(zhù)這兩個(gè)模型的本質(zhì)是一樣的,也不意味著(zhù)它們捕捉了同樣的客觀(guān)現實(shí)。
  
  舉個(gè)具體例子,上圖這兩個(gè)模型在相應的數據點(diǎn)上是完全一致的,但是這兩個(gè)模型其實(shí)差得非常遠。因此我們需要有一個(gè)系統的方法來(lái)衡量模型的復雜度、來(lái)衡量模型到底有沒(méi)有對數據過(guò)擬合。我們的KDD2020上的論文就在這方面給出了一些新的方法。與模型和搜索方法很相關(guān)的另外一個(gè)問(wèn)題是可解釋性,一個(gè)模型要獲得大家的信任,它必須有良好的可解釋性。我們認為,模型的可解釋性一定要滿(mǎn)足兩個(gè)原則。第一是準確性:如果我用一個(gè)模型來(lái)解釋另外一個(gè)模型,那這兩個(gè)模型必須在數學(xué)上等價(jià)。如果不等價(jià),解釋就可能會(huì )有問(wèn)題。第二,模型的解釋必須是一致的。一致是什么意思呢?如果我有兩個(gè)非常相似的樣例,它們相應的解釋也應該非常相似,這才能夠符合人的直覺(jué)??山忉屝詥?wèn)題的核心是把一個(gè)黑盒子轉化為一個(gè)白盒子。
  
  我們KDD2018的論文通過(guò)把一個(gè)深度網(wǎng)絡(luò )轉化為一個(gè)基于內部神經(jīng)元狀態(tài)的向量,給出基于多胞體(polytope)的解釋。這樣所得到的解釋是精確的:從數學(xué)上解釋的模型和原來(lái)的深度網(wǎng)絡(luò )等價(jià)。同時(shí),解釋也是是一致的:如果兩個(gè)點(diǎn)很相近,它們落在同一個(gè)多胞體里面,它們就會(huì )遵從相應的相同的線(xiàn)性分類(lèi)器,所以它們的相應解釋也會(huì )是一樣的。
  
  在今年的ICDE論文中,我們把解釋模型推到了云端。以往的解釋工具往往需要知道整個(gè)模型的參數,甚至要知道相應的很多訓練數據。在今年的ICDE論文里,我們提出可以把整個(gè)模型作為一個(gè)黑盒,然后給出準確和一致的解釋?zhuān)恍枰滥P偷膮岛陀柧殧祿?。這里核心的想法是:如果我們有若干的樣例,這些樣例落在同一個(gè)多胞體里面,它們就應該遵循同一個(gè)線(xiàn)性分類(lèi)器,于是我們可以建造一個(gè)線(xiàn)性方程式系統,用此來(lái)為我們提供相應的解釋。關(guān)于怎么樣把智能搜索做好,我們講了很多。但是我們應該要充分認識到一點(diǎn),智能搜索也在不斷地改變我們的心智。
  
  在國外大家經(jīng)常說(shuō)這句話(huà):如果你遇到一個(gè)不了解的事情怎么辦?用搜索引擎查一下(google it)。在國內也有俗語(yǔ)叫:內事問(wèn)度娘,外事問(wèn)谷歌。搜索的過(guò)程和結果很深刻地改變了人類(lèi)的思維和學(xué)習方式。在某些方面搜索拓寬了我們獲取信息的渠道和速度,使得我們更聰明。但在另一些方面,我們可能會(huì )過(guò)度依賴(lài)智能搜索,在很多地方會(huì )變得笨了。這里,信息的準確性和公平性變得非常重要。在這次的疫情當中,我們都知道虛假信息是非常嚴重的一個(gè)問(wèn)題。很多小道消息、虛假消息通過(guò)社交媒體傳播產(chǎn)生了很壞的作用。最近推特干了一件很有意思的事情,他們用了一個(gè)簡(jiǎn)單聰明的辦法來(lái)對付虛假消息。他們觀(guān)測到有很多人在社交媒體里面看到一個(gè)有意思的標題就轉發(fā)了,但并沒(méi)有看過(guò)那個(gè)文章。于是推特在你轉發(fā)一個(gè)沒(méi)有看過(guò)內容的推特時(shí),提示用戶(hù)其實(shí)沒(méi)有看過(guò)這篇文章。這個(gè)提示對于降低虛假消息的傳播會(huì )有很大的幫助。但是這種幫助是有代價(jià)的,它需要我們犧牲一定的隱私。推特需要知道你看過(guò)什么才知道你有沒(méi)有看過(guò)自己轉發(fā)的東西。這里有一個(gè)挑戰性的均衡:我們到底需要保留什么樣的隱私,怎么樣制止虛假消息的傳播。
  
  我們知道抖音在國內外都非常成功,已經(jīng)出現了一代新的人類(lèi)叫作Tik TOK Generation。它們通過(guò)智能的搜索和推薦技術(shù)把人與人連接起來(lái),把內容和內容連接起來(lái)。在內容創(chuàng )造上Tik TOK Generation以及這類(lèi)新媒體有一些重要的特點(diǎn)。其中之一就是媒體內容本身不是那么重要,反而對媒體的評論和媒體的跟進(jìn)會(huì )更重要。大家經(jīng)常跑到很多新媒體上并不是看它真正的內容,而是看后面跟著(zhù)的評論。由于智能搜索和智能推薦技術(shù)的發(fā)展使得人與人之間的連接、內容與內容之間的連接、人與內容之間的連接更加容易、更加廣泛。很多人原來(lái)并不需要互相認識,但是通過(guò)這個(gè)智能搜索和智能推薦他們會(huì )聯(lián)系在一起,形成長(cháng)期的交互,這就導致了我們現在面臨著(zhù)新一代所謂的熱情經(jīng)濟。
  
  跟傳統的零工經(jīng)濟經(jīng)濟相比,熱情經(jīng)濟有一系列新特點(diǎn)。舉例來(lái)說(shuō),熱情經(jīng)濟從業(yè)者不斷地產(chǎn)生新內容,不斷地吸引更多的觀(guān)眾獲得相應的營(yíng)收,這是以往很多經(jīng)濟模式不具備的。同時(shí)由于智能搜索、智能推薦和平臺的連接作用使受眾面會(huì )大大提高,更多有創(chuàng )意的產(chǎn)品和服務(wù)可以以更低的成本推向服務(wù)市場(chǎng),這些也給我們帶來(lái)很多新機會(huì )和新挑戰。熱情經(jīng)濟完全是基于新的技術(shù)、新的軟件、新的媒體。智能搜索是熱情經(jīng)濟的核心技術(shù),通過(guò)技術(shù)的進(jìn)步使得平臺更加有效、內容開(kāi)發(fā)更加方便、創(chuàng )業(yè)更加快捷、創(chuàng )業(yè)者和受眾的聯(lián)系更加緊密、交互更加方便。智能搜索徹底改變了我們的生活??梢哉f(shuō)智能搜索已經(jīng)變成了我們無(wú)時(shí)無(wú)刻、無(wú)處不在的需求和工具。智能搜索同時(shí)也會(huì )產(chǎn)生很多新的挑戰。其中一個(gè)核心的挑戰是我們怎么確保智能搜索服務(wù)于社會(huì )的每一個(gè)人,沒(méi)有人因為各種限制而被智能搜索遺棄。
  
  舉個(gè)例子來(lái)說(shuō),老人們會(huì )不會(huì )因為不會(huì )用智能手機而享受不了智能搜索帶來(lái)的紅利?又比如說(shuō),殘疾人、偏遠地區和經(jīng)濟不發(fā)達地區的人們會(huì )不會(huì )因為達不到智能搜索的基礎設施入門(mén)門(mén)檻而被拋棄?這些都是我們需要考慮的問(wèn)題。我們都知道現在醫院掛號經(jīng)常需要用智能手機來(lái)預約,但是很多老人,特別是那些七八十歲、八九十歲的老人,并不會(huì )使用智能手機,用起來(lái)也很不方便。他們怎么才能獲得信息渠道并消費這些信息?這些都是我們做智能搜索的人需要認真考慮和抓緊行動(dòng)的方向。我個(gè)人認為智能搜索遠遠不僅僅是一個(gè)技術(shù)問(wèn)題,也遠遠不僅僅是一個(gè)人工智能的問(wèn)題,它是一個(gè)非常復雜的全社會(huì )的系統工程。
  問(wèn)答環(huán)節 文繼榮:對智能搜索和智能推薦來(lái)說(shuō),所謂的智能就是越來(lái)越了解你,以人為中心來(lái)了解你,它給你的信息越來(lái)越趨近于你過(guò)去的興趣和經(jīng)歷,但是這樣會(huì )不會(huì )使你失去了解這個(gè)世界多樣性的可能?在整個(gè)大的框架方面或者在整個(gè)研究方向上面,有沒(méi)有更多的深刻思考?裴?。褐悄芩阉骰?、智能推薦已經(jīng)成為下一代人類(lèi)重要的信息入口,也是非常重要的信息出口。只能搜索把握了這一進(jìn)一出,對未來(lái)的人類(lèi)有很大的塑造能力。這也許是大家做技術(shù)的時(shí)候并沒(méi)有特別深思的一個(gè)問(wèn)題。我們一點(diǎn)一滴的技術(shù)貢獻會(huì )怎樣改變未來(lái)人類(lèi)學(xué)習的方式、思考的方式和所知所行。這里面涉及很多問(wèn)題。例如說(shuō)我們可以通過(guò)可適應性使得我們的教育效率提高,使得一個(gè)人更容易學(xué)習。但是可適應性在一定程度下又可能有缺陷。我們如果過(guò)分遷就人類(lèi)的惰性,就可能會(huì )使一部分最聰明的人失去了挑戰更高高度的機會(huì )。再例如,到底讓智能搜索受眾學(xué)什么?怎么保證整個(gè)環(huán)境公平性?大家開(kāi)始去思考,但是遠遠沒(méi)有答案。我在演講的最后也強調了這不是簡(jiǎn)單的技術(shù)問(wèn)題,這是全社會(huì )的很復雜的問(wèn)題。觀(guān)眾發(fā)問(wèn):感覺(jué)像谷歌、百度這些巨頭已經(jīng)形成了壟斷,其它的搜索引擎或者其它的新的搜索工具經(jīng)歷了多年都沒(méi)有成長(cháng)起來(lái)。請問(wèn)這些研究智能搜索方向的人除了到這些巨頭公司工作以外,還有沒(méi)有更好的出路?裴?。核阉魅栽诓粩嗟貏?chuàng )新,現在所有商用搜索引擎最頭疼的事情是越來(lái)越多的高質(zhì)量信息不在公開(kāi)的互聯(lián)網(wǎng)上,而在相對封閉的社交媒體上。
  例如說(shuō)在朋友圈有很多質(zhì)量高的信息源,但這種信息源是通用搜索引擎查不到的。怎樣把這些信息源整合起來(lái)形成一種更強大的搜索能力?這是一個(gè)有意思的研究方向?,F在很多的搜索跟廣告、商業(yè)模式結合起來(lái),是商業(yè)驅動(dòng)、利潤引導。最近原谷歌的兩位高管創(chuàng )辦了一個(gè)新公司,這個(gè)公司做的搜索引擎Neeva號稱(chēng)不會(huì )有廣告,而且要打通一些社交媒體,使得搜索的面更廣。這些新業(yè)務(wù)模式不管成功與否都是非常有意義的嘗試。智能搜索從就業(yè)、創(chuàng )業(yè)的角度來(lái)說(shuō)有很廣闊的前景。同時(shí)智能搜索會(huì )涉及到我們生活中的方方面面,例如說(shuō)在IOT環(huán)境下怎么做智能搜索?這些都是現有的面向通用web搜索所不能涵蓋的,也會(huì )是很有意思的方面。文繼榮:現在搜索引擎不管從主要的核心功能還是到形態(tài)上已經(jīng)幾十年沒(méi)有變化了,實(shí)際上現在很多東西都在變,比如說(shuō)裴老師講的熱情經(jīng)濟,還有國內的一個(gè)網(wǎng)紅經(jīng)濟,現在都是影響非常大的。我昨天看了一個(gè)新聞?wù)f(shuō)的非常好玩,浙江余姚區網(wǎng)紅可以評為國家級創(chuàng )新人才,不知道真的假的。實(shí)際上這個(gè)世界在飛速的變化,可能很多時(shí)候你認為沒(méi)有變化空間的時(shí)候就是會(huì )開(kāi)始很大變化的時(shí)期。就搜索來(lái)說(shuō),我覺(jué)得就直觀(guān)感受而言還遠遠達不到我們真正想要了解的世界。這次新冠病毒期間,我覺(jué)得甚至可以開(kāi)一個(gè)研討會(huì )來(lái)討論一下這中間的很多問(wèn)題,人們在獲取信息時(shí)出現了很多問(wèn)題,有虛假信息問(wèn)題也有信息多樣性問(wèn)題。這些信息對大家的影響是巨大的,你可以經(jīng)常感覺(jué)到整個(gè)朋友圈都在轉發(fā)和討論一個(gè)信息。尤其大家在家里沒(méi)辦法面對面交談,你可以通過(guò)控制信息來(lái)控制大家的觀(guān)點(diǎn)和情緒,這個(gè)事情我覺(jué)得是非常重要的。我們人類(lèi)將來(lái)會(huì )走向更加數字化的階段,從搜索和推薦的角度對信息進(jìn)行獲取和處理,我覺(jué)得我們到了一個(gè)全新的時(shí)期,我們需要去探索。
  

直通車(chē)推廣精準人群組合這些點(diǎn)一起介紹一下

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 111 次瀏覽 ? 2022-06-05 00:01 ? 來(lái)自相關(guān)話(huà)題

  直通車(chē)推廣精準人群組合這些點(diǎn)一起介紹一下
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同天貓和京東平臺直通車(chē)/鉆展/直通車(chē)推廣精準人群組合這些點(diǎn)一起介紹一下國內的一些直通車(chē)推廣渠道:廣告最大的特點(diǎn)是,流量獲取的對象比較單一,更多是廣告位,展示次數/個(gè)數、廣告位競價(jià)等,其次是轉化率。站外廣告渠道:百度信息流、頭條信息流、站外扶持廣告。站內廣告渠道:除了公域流量,廣告主主要需要的是靠站內的自然搜索來(lái)提升流量。
  站外推廣渠道:線(xiàn)下廣告和戶(hù)外。廣告優(yōu)化:在具體賬戶(hù)建設過(guò)程中,出價(jià)策略和素材選擇是可以根據不同市場(chǎng)進(jìn)行區分。直通車(chē)推廣優(yōu)化是基于數據分析進(jìn)行操作和優(yōu)化,以ppc最小精準人群來(lái)實(shí)現所在賬戶(hù)的最佳定位。策略是在整個(gè)過(guò)程中最具操作性的方面,策略既可以短期通過(guò)行業(yè)預估和實(shí)際效果的對比,進(jìn)行分析,優(yōu)化人群,也可以長(cháng)期全面優(yōu)化。
  如人群偏好,價(jià)格預估,興趣點(diǎn),創(chuàng )意點(diǎn)擊率轉化率等。廣告渠道淘寶平臺:搜索渠道,女裝、男裝、包包、女包、包包、男包、鞋、包、筆記本等。其他行業(yè)也可作為一個(gè)參考。信息流渠道:百家號,東方頭條,優(yōu)看電商,斗魚(yú),游族網(wǎng)等等。百度信息流:北京大學(xué)清華大學(xué)上海交通大學(xué)浙江大學(xué)北京航空航天大學(xué)等985高校和普通高校等。
  頭條信息流:當前主要以生活娛樂(lè )場(chǎng)景為主。同時(shí)作為廣告主打的信息流可以投放醫療相關(guān),社保相關(guān)等。廣告渠道是非常多的,為什么我們不將這些渠道優(yōu)化分開(kāi),綜合推廣,例如一套賬戶(hù)下有主推產(chǎn)品有廣告優(yōu)化人群,而有了產(chǎn)品、人群、素材,不僅可以操作全類(lèi)目,也可以操作針對性強的投放渠道,全面,系統,高效的為廣告主打造產(chǎn)品和整體賬戶(hù)打造品牌效應。ppc推廣渠道內容出價(jià)優(yōu)化(。
  一)計算廣告推廣渠道測試
  1、哪些行業(yè)可以放大推廣力度?比如男裝很多小類(lèi)目可以少量放大點(diǎn)擊數和點(diǎn)擊率,但是北上廣有幾百萬(wàn)件上千萬(wàn)件的客戶(hù)群體,那單點(diǎn)投放就是幾百萬(wàn)個(gè)億,如果少量放大就可以超過(guò)幾百萬(wàn)個(gè)億的數量級。
  2、不同行業(yè)怎么計算cpc?非地域型地域類(lèi)推廣,同一類(lèi)投放同一產(chǎn)品可以同一行業(yè)投放這樣的投放方式。其次是由于產(chǎn)品和地域定位有異,比如3c的產(chǎn)品可以放大點(diǎn)擊率和轉化率等,地域類(lèi)的產(chǎn)品或者潛在用戶(hù)定位城市,那么同一地域相同行業(yè)投放定位城市,都會(huì )覺(jué)得cpc比較高。地域類(lèi)可以理解為雙定位,一定產(chǎn)品或者某一段區域投放相同產(chǎn)品比如一個(gè)城市定位1萬(wàn),另一個(gè)城市定位1萬(wàn)5,而定位一個(gè)城市1萬(wàn)5和定位某個(gè)城市1萬(wàn)5的cpc就相當了。不同定位,需要投放的cpc有差異。另外不同類(lèi)型推廣在同一城市或者異地不同定位,cpc有相差很大的。 查看全部

  直通車(chē)推廣精準人群組合這些點(diǎn)一起介紹一下
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同天貓和京東平臺直通車(chē)/鉆展/直通車(chē)推廣精準人群組合這些點(diǎn)一起介紹一下國內的一些直通車(chē)推廣渠道:廣告最大的特點(diǎn)是,流量獲取的對象比較單一,更多是廣告位,展示次數/個(gè)數、廣告位競價(jià)等,其次是轉化率。站外廣告渠道:百度信息流、頭條信息流、站外扶持廣告。站內廣告渠道:除了公域流量,廣告主主要需要的是靠站內的自然搜索來(lái)提升流量。
  站外推廣渠道:線(xiàn)下廣告和戶(hù)外。廣告優(yōu)化:在具體賬戶(hù)建設過(guò)程中,出價(jià)策略和素材選擇是可以根據不同市場(chǎng)進(jìn)行區分。直通車(chē)推廣優(yōu)化是基于數據分析進(jìn)行操作和優(yōu)化,以ppc最小精準人群來(lái)實(shí)現所在賬戶(hù)的最佳定位。策略是在整個(gè)過(guò)程中最具操作性的方面,策略既可以短期通過(guò)行業(yè)預估和實(shí)際效果的對比,進(jìn)行分析,優(yōu)化人群,也可以長(cháng)期全面優(yōu)化。
  如人群偏好,價(jià)格預估,興趣點(diǎn),創(chuàng )意點(diǎn)擊率轉化率等。廣告渠道淘寶平臺:搜索渠道,女裝、男裝、包包、女包、包包、男包、鞋、包、筆記本等。其他行業(yè)也可作為一個(gè)參考。信息流渠道:百家號,東方頭條,優(yōu)看電商,斗魚(yú),游族網(wǎng)等等。百度信息流:北京大學(xué)清華大學(xué)上海交通大學(xué)浙江大學(xué)北京航空航天大學(xué)等985高校和普通高校等。
  頭條信息流:當前主要以生活娛樂(lè )場(chǎng)景為主。同時(shí)作為廣告主打的信息流可以投放醫療相關(guān),社保相關(guān)等。廣告渠道是非常多的,為什么我們不將這些渠道優(yōu)化分開(kāi),綜合推廣,例如一套賬戶(hù)下有主推產(chǎn)品有廣告優(yōu)化人群,而有了產(chǎn)品、人群、素材,不僅可以操作全類(lèi)目,也可以操作針對性強的投放渠道,全面,系統,高效的為廣告主打造產(chǎn)品和整體賬戶(hù)打造品牌效應。ppc推廣渠道內容出價(jià)優(yōu)化(。
  一)計算廣告推廣渠道測試
  1、哪些行業(yè)可以放大推廣力度?比如男裝很多小類(lèi)目可以少量放大點(diǎn)擊數和點(diǎn)擊率,但是北上廣有幾百萬(wàn)件上千萬(wàn)件的客戶(hù)群體,那單點(diǎn)投放就是幾百萬(wàn)個(gè)億,如果少量放大就可以超過(guò)幾百萬(wàn)個(gè)億的數量級。
  2、不同行業(yè)怎么計算cpc?非地域型地域類(lèi)推廣,同一類(lèi)投放同一產(chǎn)品可以同一行業(yè)投放這樣的投放方式。其次是由于產(chǎn)品和地域定位有異,比如3c的產(chǎn)品可以放大點(diǎn)擊率和轉化率等,地域類(lèi)的產(chǎn)品或者潛在用戶(hù)定位城市,那么同一地域相同行業(yè)投放定位城市,都會(huì )覺(jué)得cpc比較高。地域類(lèi)可以理解為雙定位,一定產(chǎn)品或者某一段區域投放相同產(chǎn)品比如一個(gè)城市定位1萬(wàn),另一個(gè)城市定位1萬(wàn)5,而定位一個(gè)城市1萬(wàn)5和定位某個(gè)城市1萬(wàn)5的cpc就相當了。不同定位,需要投放的cpc有差異。另外不同類(lèi)型推廣在同一城市或者異地不同定位,cpc有相差很大的。

整站優(yōu)化與SEO優(yōu)化有什么區別呢?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 110 次瀏覽 ? 2022-05-14 19:37 ? 來(lái)自相關(guān)話(huà)題

  整站優(yōu)化與SEO優(yōu)化有什么區別呢?
  
  
  seo優(yōu)化和整站優(yōu)化的區別
  整站優(yōu)化與SEO優(yōu)化的區別有哪些??jì)?yōu)化網(wǎng)站seo的方法有很多,但是很多人會(huì )把整個(gè)網(wǎng)站優(yōu)化和關(guān)鍵詞優(yōu)化混在一起,但是優(yōu)化的方式完全不同。整站點(diǎn)優(yōu)化和關(guān)鍵詞優(yōu)化有關(guān)。兩者都是根據搜索引擎發(fā)布網(wǎng)站內容,推廣網(wǎng)站,實(shí)現用戶(hù)體驗,增加訪(fǎng)問(wèn)量和排名,但也有很大不同。
  關(guān)鍵詞優(yōu)化:主要是指為網(wǎng)站選擇合適的目標關(guān)鍵詞,然后對這些目標關(guān)鍵詞進(jìn)行排序和優(yōu)化。這個(gè)過(guò)程就是關(guān)鍵詞優(yōu)化,我們也可以把關(guān)鍵詞優(yōu)化定義為網(wǎng)站關(guān)鍵詞排序過(guò)程。
  全網(wǎng)站優(yōu)化:所謂全網(wǎng)站優(yōu)化是網(wǎng)站搜索引擎優(yōu)化(SEO)的高級應用,是更高層次的網(wǎng)站營(yíng)銷(xiāo)策略。全網(wǎng)站優(yōu)化服務(wù)并不是針對特定的關(guān)鍵詞,而是著(zhù)眼于增強網(wǎng)站搜索引擎的友好性。通過(guò)提高網(wǎng)站質(zhì)量,可以獲得更好的排名權重和搜索流量。
  
  1、查找引擎友好度
  整站優(yōu)化:通過(guò)批改不利于查找引擎的弊端要素以及對網(wǎng)站整體結構的調整來(lái)取得查找引擎的友好度;
  關(guān)鍵詞排名優(yōu)化:側重于網(wǎng)頁(yè)中關(guān)鍵詞堆砌與外部鏈接建造,不對網(wǎng)站結構與網(wǎng)站內部是否存在一些不利于查找引擎的要素進(jìn)行批改優(yōu)化;
  2、優(yōu)化辦法不同
  整站優(yōu)化:是通過(guò)對網(wǎng)站的整體優(yōu)化來(lái)達到前進(jìn)網(wǎng)站整體關(guān)鍵詞排名,包括搶手關(guān)鍵詞、產(chǎn)品關(guān)鍵詞以及更多長(cháng)尾詞的排名;
  關(guān)鍵詞排名優(yōu)化:依據客戶(hù)供給的少數幾個(gè)關(guān)鍵詞進(jìn)行優(yōu)化,通過(guò)批改登陸頁(yè)以及增加劇多外部鏈接來(lái)達到前進(jìn)關(guān)鍵詞排名;
  3、優(yōu)化效果不一樣
  整站優(yōu)化:更合適網(wǎng)站的可持續性展開(kāi),通過(guò)合理地優(yōu)化網(wǎng)站結構層次,利于網(wǎng)站辦理與用戶(hù)對網(wǎng)站的認知,而且整站優(yōu)化的效果是累積有用,是不斷地良性展開(kāi);
  關(guān)鍵詞排名優(yōu)化:只針對單個(gè)網(wǎng)站的批改優(yōu)化,優(yōu)化效果不能持續,一起存在必定的風(fēng)險性。
  4、查核辦法不同
  整站優(yōu)化:以前進(jìn)網(wǎng)站流量/轉化率等作為優(yōu)化效果的查核標準;
  關(guān)鍵詞排名優(yōu)化:以指定關(guān)鍵詞在查找引擎的排名作為查核標準;
  5、出資回報率不一樣
  整站優(yōu)化:是前進(jìn)網(wǎng)站整體關(guān)鍵詞排名效果,所吸引到的網(wǎng)站閱讀者更具有針對性,更利于效果轉化;
  關(guān)鍵詞排名優(yōu)化:只針對少數關(guān)鍵詞進(jìn)行優(yōu)化,所吸引到的網(wǎng)站閱讀者局限大,不利于效果轉化;
  其實(shí)從專(zhuān)業(yè)的角度而言,關(guān)鍵詞排名其實(shí)包含在整站優(yōu)化之中,關(guān)鍵詞所需要的優(yōu)化時(shí)間會(huì )比較短、見(jiàn)效快;而整站優(yōu)化則需要一個(gè)長(cháng)期持續的優(yōu)化時(shí)間,通過(guò)長(cháng)時(shí)間的積累,能更加穩定企業(yè)需求的營(yíng)銷(xiāo)效果。
  以上就是關(guān)于“整站優(yōu)化與SEO優(yōu)化的區別有哪些?”的相關(guān)內容,希望對您有幫助,若您對SEO感興趣,歡迎隨時(shí)咨詢(xún)我司。
  end 查看全部

  整站優(yōu)化與SEO優(yōu)化有什么區別呢?
  
  
  seo優(yōu)化和整站優(yōu)化的區別
  整站優(yōu)化與SEO優(yōu)化的區別有哪些??jì)?yōu)化網(wǎng)站seo的方法有很多,但是很多人會(huì )把整個(gè)網(wǎng)站優(yōu)化和關(guān)鍵詞優(yōu)化混在一起,但是優(yōu)化的方式完全不同。整站點(diǎn)優(yōu)化和關(guān)鍵詞優(yōu)化有關(guān)。兩者都是根據搜索引擎發(fā)布網(wǎng)站內容,推廣網(wǎng)站,實(shí)現用戶(hù)體驗,增加訪(fǎng)問(wèn)量和排名,但也有很大不同。
  關(guān)鍵詞優(yōu)化:主要是指為網(wǎng)站選擇合適的目標關(guān)鍵詞,然后對這些目標關(guān)鍵詞進(jìn)行排序和優(yōu)化。這個(gè)過(guò)程就是關(guān)鍵詞優(yōu)化,我們也可以把關(guān)鍵詞優(yōu)化定義為網(wǎng)站關(guān)鍵詞排序過(guò)程。
  全網(wǎng)站優(yōu)化:所謂全網(wǎng)站優(yōu)化是網(wǎng)站搜索引擎優(yōu)化(SEO)的高級應用,是更高層次的網(wǎng)站營(yíng)銷(xiāo)策略。全網(wǎng)站優(yōu)化服務(wù)并不是針對特定的關(guān)鍵詞,而是著(zhù)眼于增強網(wǎng)站搜索引擎的友好性。通過(guò)提高網(wǎng)站質(zhì)量,可以獲得更好的排名權重和搜索流量。
  
  1、查找引擎友好度
  整站優(yōu)化:通過(guò)批改不利于查找引擎的弊端要素以及對網(wǎng)站整體結構的調整來(lái)取得查找引擎的友好度;
  關(guān)鍵詞排名優(yōu)化:側重于網(wǎng)頁(yè)中關(guān)鍵詞堆砌與外部鏈接建造,不對網(wǎng)站結構與網(wǎng)站內部是否存在一些不利于查找引擎的要素進(jìn)行批改優(yōu)化;
  2、優(yōu)化辦法不同
  整站優(yōu)化:是通過(guò)對網(wǎng)站的整體優(yōu)化來(lái)達到前進(jìn)網(wǎng)站整體關(guān)鍵詞排名,包括搶手關(guān)鍵詞、產(chǎn)品關(guān)鍵詞以及更多長(cháng)尾詞的排名;
  關(guān)鍵詞排名優(yōu)化:依據客戶(hù)供給的少數幾個(gè)關(guān)鍵詞進(jìn)行優(yōu)化,通過(guò)批改登陸頁(yè)以及增加劇多外部鏈接來(lái)達到前進(jìn)關(guān)鍵詞排名;
  3、優(yōu)化效果不一樣
  整站優(yōu)化:更合適網(wǎng)站的可持續性展開(kāi),通過(guò)合理地優(yōu)化網(wǎng)站結構層次,利于網(wǎng)站辦理與用戶(hù)對網(wǎng)站的認知,而且整站優(yōu)化的效果是累積有用,是不斷地良性展開(kāi);
  關(guān)鍵詞排名優(yōu)化:只針對單個(gè)網(wǎng)站的批改優(yōu)化,優(yōu)化效果不能持續,一起存在必定的風(fēng)險性。
  4、查核辦法不同
  整站優(yōu)化:以前進(jìn)網(wǎng)站流量/轉化率等作為優(yōu)化效果的查核標準;
  關(guān)鍵詞排名優(yōu)化:以指定關(guān)鍵詞在查找引擎的排名作為查核標準;
  5、出資回報率不一樣
  整站優(yōu)化:是前進(jìn)網(wǎng)站整體關(guān)鍵詞排名效果,所吸引到的網(wǎng)站閱讀者更具有針對性,更利于效果轉化;
  關(guān)鍵詞排名優(yōu)化:只針對少數關(guān)鍵詞進(jìn)行優(yōu)化,所吸引到的網(wǎng)站閱讀者局限大,不利于效果轉化;
  其實(shí)從專(zhuān)業(yè)的角度而言,關(guān)鍵詞排名其實(shí)包含在整站優(yōu)化之中,關(guān)鍵詞所需要的優(yōu)化時(shí)間會(huì )比較短、見(jiàn)效快;而整站優(yōu)化則需要一個(gè)長(cháng)期持續的優(yōu)化時(shí)間,通過(guò)長(cháng)時(shí)間的積累,能更加穩定企業(yè)需求的營(yíng)銷(xiāo)效果。
  以上就是關(guān)于“整站優(yōu)化與SEO優(yōu)化的區別有哪些?”的相關(guān)內容,希望對您有幫助,若您對SEO感興趣,歡迎隨時(shí)咨詢(xún)我司。
  end

白帽、黑帽、灰帽SEO優(yōu)化的對比區別

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 85 次瀏覽 ? 2022-05-13 20:47 ? 來(lái)自相關(guān)話(huà)題

  白帽、黑帽、灰帽SEO優(yōu)化的對比區別
  
  點(diǎn)擊上方“輸贏(yíng)” →點(diǎn)擊右上角“...”
  →點(diǎn)選“設為星標★”為輸贏(yíng)加上星標。
  很多新人對于seo也許不是很了解,但在互聯(lián)網(wǎng)上seo卻處處可見(jiàn),我們平時(shí)瀏覽的新聞、視頻、網(wǎng)頁(yè)等等,都是與SEO技術(shù)有關(guān)的,很多大型的網(wǎng)站都有SEO技術(shù)人員,他們的目標就是為網(wǎng)站帶來(lái)流量和知名度,從而進(jìn)行變現。
  
  一、白帽SEO
  白帽SEO顧名思義就是一種公正的手法,是一種符合主流搜索引擎的思維方法,它與黑帽是相反的,白帽SEO一直被這個(gè)行業(yè)內認為是最好的SEO優(yōu)化手法,它采用符合主流的SEO思維,合理的去優(yōu)化網(wǎng)站,合理的與其他網(wǎng)站建立鏈接,提高用戶(hù)體驗。白帽SEO關(guān)注的是長(cháng)遠利益,一般通過(guò)這種方法提升的排名時(shí)間更長(cháng)、更穩定。
  二、黑帽SEO
  黑帽SEO說(shuō)白了就是使用一些搜索引擎禁止的方式,快速的增加網(wǎng)站的排名,它能夠在短期內提升你網(wǎng)站的排名,但是不夠穩定,隨時(shí)都可能因為搜索引擎算法的改變而面臨懲罰。
  一、白帽SEO的常用手法:
  1、架構設計
  要做好白帽SEO,網(wǎng)站的整體架構肯定是重要的,是要符合搜索引擎規則的,鏈接結構、頁(yè)面、404、500、首頁(yè)文章的版塊、內頁(yè)的文章等等,這些東西在做網(wǎng)站前都要規劃好。一個(gè)好的網(wǎng)站架構能夠幫助搜索引擎蜘蛛更好的進(jìn)行抓取和收錄。用戶(hù)的體驗也會(huì )更好。
  下圖是一些架構設計沒(méi)有做好的網(wǎng)站,就會(huì )出現下面的一些問(wèn)題,這樣的網(wǎng)站是不會(huì )被搜索引擎收錄的。
  
  
  2、TKD設置
  TKD就是我們常說(shuō)的網(wǎng)站的標題,關(guān)鍵詞和描述。你要優(yōu)化關(guān)鍵詞的數量在你設置TKD的時(shí)候一定要想好。一般來(lái)說(shuō),首頁(yè)的權重最高,關(guān)鍵詞建議做主詞,然后是欄目頁(yè)和詳情頁(yè),可以做長(cháng)尾詞或者拓展詞。各個(gè)頁(yè)面的TKD不要做一樣的。不能惡意的堆積,這樣不利于搜索引擎的識別,也不利于用戶(hù)的體驗。
  下圖是一個(gè)設置好的TDK:
  
  3、內容質(zhì)量
  白帽的重心就是做好內容的質(zhì)量,給用戶(hù)提供他所需要的,能解決他問(wèn)題的,高質(zhì)量的內容是關(guān)鍵。用戶(hù)搜索的是他想解決的問(wèn)題,如果千篇一律都是重復的,沒(méi)用的。他就不會(huì )繼續看下去了。所以原創(chuàng )的內容很重要,一般來(lái)說(shuō),原創(chuàng )內容的比重要占到80%左右,這樣能夠更好的被收錄。
  如果你的內容不是原創(chuàng ),或者抄襲的過(guò)多,就會(huì )像下圖一樣,你覺(jué)得如果你是搜索引擎你會(huì )收錄這樣的內容嗎?
  
  二、黑帽SEO的常用手法:
  1、關(guān)鍵詞堆積
  很多人優(yōu)化網(wǎng)站的時(shí)候,堆積了大量的關(guān)鍵詞,讓搜索引擎認為網(wǎng)頁(yè)是有相關(guān)性的,關(guān)鍵詞的堆積技術(shù)是利于一串很長(cháng)的重復性的關(guān)鍵詞來(lái)迷惑搜索引擎。實(shí)際上這些關(guān)鍵詞有時(shí)候與網(wǎng)頁(yè)內容并沒(méi)有關(guān)系。這類(lèi)辦法很少能有用處。
  下圖就是一個(gè)關(guān)鍵詞堆積的例子:
  
  2、隱藏文字
  隱藏文字是這網(wǎng)頁(yè)的HTML中放入有關(guān)鍵詞的文章,這些字不會(huì )被用戶(hù)所看到,只能被搜索引擎所看到。有幾種常見(jiàn)的形式,如超小號的文字,跟網(wǎng)頁(yè)背景相同顏色的文字,放著(zhù)表格標簽里面的文字等等。
  3、頁(yè)面跳轉
  通過(guò)JavaScript等技術(shù),讓用戶(hù)在進(jìn)入到這個(gè)頁(yè)面之后迅速跳轉到另一個(gè)頁(yè)面。
  三、灰帽SEO的介紹:
  簡(jiǎn)單理解:游走于白帽與黑帽之間,一直屬于擦邊球,很多時(shí)候是無(wú)法鑒定的?;颐盨EO而言是做一部分站點(diǎn)基礎的,甚至于白帽一樣用心做站點(diǎn)基礎也有很多。為了加快速度排名,再結合一些作弊的手法來(lái)進(jìn)行快速排名。這里建議大家尤其新手,剛入門(mén)的時(shí)候不要想著(zhù)什么黑帽SEO、灰帽SEO,就老老實(shí)實(shí)做白帽吧。白帽是任何形式SEO基礎,只有很強的白帽基礎才有可能延伸出來(lái)黑帽與灰帽。按照搜索引擎這兩年的發(fā)展,只要安安心心做內容,解決用戶(hù)搜索需求,即使光寫(xiě)文章,排名依然是指日可待的。
  那么白帽SEO技術(shù)怎么做?
  一、初步準備:
  1.服務(wù)器選擇
  總之,要選擇快速穩定的云服務(wù)器,盡量是建立獨立的IP空間,這是不容易坐在搜索引擎,因為其他網(wǎng)站的問(wèn)題。
  2.網(wǎng)站備案
  域名由工業(yè)和信息化部備案,以提高搜索引擎的信任度。
  3.網(wǎng)站目錄設置搜索引擎蜘蛛目錄以查看爬行軌跡。
  4.百度站長(cháng)工具、搜狗站長(cháng)工具和360站長(cháng)工具都是盡可能多的添加,方便以后各種搜索引擎的優(yōu)化和調整,背景非常強大。
  5.進(jìn)行安全掃描,如360網(wǎng)站安全工具等。
  二、站內優(yōu)化:
  1.官方網(wǎng)站設計,盡量采用平面結構,使用面包屑導航,便于蜘蛛掌握分層。
  2.使用robot.txt文件。主要內容是盡可能被搜索引擎抓取。如果有站點(diǎn)地圖,可以直接在此處設置站點(diǎn)地圖地址,也可以在主控形狀的背景下提交。
  3.301永久重定向,集中域名權重。
  4.404個(gè)錯誤頁(yè)。
  5.Favicon圖標設置。
  6、標題、關(guān)鍵詞、描述設置、關(guān)鍵詞布局密度分布等。
  7.站內代碼優(yōu)化、標簽優(yōu)化、冗余代碼處理、JS和CSS代碼封裝、nofollow、h標記使用等。
  8.站點(diǎn)地圖設置(站點(diǎn)地圖、百度地圖)
  9.URL設置,網(wǎng)站比較合適的深度不超過(guò)三層,URL盡可能靜態(tài)
  10.圖片優(yōu)化,盡量不要對圖片使用PNG,透明圖片除外。圖片使用alt和標題標簽來(lái)增加搜索引擎抓取的概率。
  11.文章內容中重要關(guān)鍵詞的內鏈設置
  12.文章內容的偽原創(chuàng )性?xún)?yōu)于60%。盡量修改文章的開(kāi)頭和結尾,然后合并長(cháng)尾關(guān)鍵字。
  13.應盡可能使用target=“_blank”在新頁(yè)面上打開(kāi)外部鏈接,以避免客戶(hù)因關(guān)閉而失去官方網(wǎng)站。
  三、站外優(yōu)化:
  1.百度、搜狗、360、神馬、谷歌、必應、有道等搜索引擎提交網(wǎng)站。
  2.友情鏈接交換與第三方垂直行業(yè)網(wǎng)站包容應用
  3.第三方媒體軟文本加鏈接和錨文本(外鏈掌握數量和頻率)
  4.百度搜索口碑業(yè)務(wù)提交、相應評論、第三方行業(yè)知名信息評論、消息等。 查看全部

  白帽、黑帽、灰帽SEO優(yōu)化的對比區別
  
  點(diǎn)擊上方“輸贏(yíng)” →點(diǎn)擊右上角“...”
  →點(diǎn)選“設為星標★”為輸贏(yíng)加上星標。
  很多新人對于seo也許不是很了解,但在互聯(lián)網(wǎng)上seo卻處處可見(jiàn),我們平時(shí)瀏覽的新聞、視頻、網(wǎng)頁(yè)等等,都是與SEO技術(shù)有關(guān)的,很多大型的網(wǎng)站都有SEO技術(shù)人員,他們的目標就是為網(wǎng)站帶來(lái)流量和知名度,從而進(jìn)行變現。
  
  一、白帽SEO
  白帽SEO顧名思義就是一種公正的手法,是一種符合主流搜索引擎的思維方法,它與黑帽是相反的,白帽SEO一直被這個(gè)行業(yè)內認為是最好的SEO優(yōu)化手法,它采用符合主流的SEO思維,合理的去優(yōu)化網(wǎng)站,合理的與其他網(wǎng)站建立鏈接,提高用戶(hù)體驗。白帽SEO關(guān)注的是長(cháng)遠利益,一般通過(guò)這種方法提升的排名時(shí)間更長(cháng)、更穩定。
  二、黑帽SEO
  黑帽SEO說(shuō)白了就是使用一些搜索引擎禁止的方式,快速的增加網(wǎng)站的排名,它能夠在短期內提升你網(wǎng)站的排名,但是不夠穩定,隨時(shí)都可能因為搜索引擎算法的改變而面臨懲罰。
  一、白帽SEO的常用手法:
  1、架構設計
  要做好白帽SEO,網(wǎng)站的整體架構肯定是重要的,是要符合搜索引擎規則的,鏈接結構、頁(yè)面、404、500、首頁(yè)文章的版塊、內頁(yè)的文章等等,這些東西在做網(wǎng)站前都要規劃好。一個(gè)好的網(wǎng)站架構能夠幫助搜索引擎蜘蛛更好的進(jìn)行抓取和收錄。用戶(hù)的體驗也會(huì )更好。
  下圖是一些架構設計沒(méi)有做好的網(wǎng)站,就會(huì )出現下面的一些問(wèn)題,這樣的網(wǎng)站是不會(huì )被搜索引擎收錄的。
  
  
  2、TKD設置
  TKD就是我們常說(shuō)的網(wǎng)站的標題,關(guān)鍵詞和描述。你要優(yōu)化關(guān)鍵詞的數量在你設置TKD的時(shí)候一定要想好。一般來(lái)說(shuō),首頁(yè)的權重最高,關(guān)鍵詞建議做主詞,然后是欄目頁(yè)和詳情頁(yè),可以做長(cháng)尾詞或者拓展詞。各個(gè)頁(yè)面的TKD不要做一樣的。不能惡意的堆積,這樣不利于搜索引擎的識別,也不利于用戶(hù)的體驗。
  下圖是一個(gè)設置好的TDK:
  
  3、內容質(zhì)量
  白帽的重心就是做好內容的質(zhì)量,給用戶(hù)提供他所需要的,能解決他問(wèn)題的,高質(zhì)量的內容是關(guān)鍵。用戶(hù)搜索的是他想解決的問(wèn)題,如果千篇一律都是重復的,沒(méi)用的。他就不會(huì )繼續看下去了。所以原創(chuàng )的內容很重要,一般來(lái)說(shuō),原創(chuàng )內容的比重要占到80%左右,這樣能夠更好的被收錄。
  如果你的內容不是原創(chuàng ),或者抄襲的過(guò)多,就會(huì )像下圖一樣,你覺(jué)得如果你是搜索引擎你會(huì )收錄這樣的內容嗎?
  
  二、黑帽SEO的常用手法:
  1、關(guān)鍵詞堆積
  很多人優(yōu)化網(wǎng)站的時(shí)候,堆積了大量的關(guān)鍵詞,讓搜索引擎認為網(wǎng)頁(yè)是有相關(guān)性的,關(guān)鍵詞的堆積技術(shù)是利于一串很長(cháng)的重復性的關(guān)鍵詞來(lái)迷惑搜索引擎。實(shí)際上這些關(guān)鍵詞有時(shí)候與網(wǎng)頁(yè)內容并沒(méi)有關(guān)系。這類(lèi)辦法很少能有用處。
  下圖就是一個(gè)關(guān)鍵詞堆積的例子:
  
  2、隱藏文字
  隱藏文字是這網(wǎng)頁(yè)的HTML中放入有關(guān)鍵詞的文章,這些字不會(huì )被用戶(hù)所看到,只能被搜索引擎所看到。有幾種常見(jiàn)的形式,如超小號的文字,跟網(wǎng)頁(yè)背景相同顏色的文字,放著(zhù)表格標簽里面的文字等等。
  3、頁(yè)面跳轉
  通過(guò)JavaScript等技術(shù),讓用戶(hù)在進(jìn)入到這個(gè)頁(yè)面之后迅速跳轉到另一個(gè)頁(yè)面。
  三、灰帽SEO的介紹:
  簡(jiǎn)單理解:游走于白帽與黑帽之間,一直屬于擦邊球,很多時(shí)候是無(wú)法鑒定的?;颐盨EO而言是做一部分站點(diǎn)基礎的,甚至于白帽一樣用心做站點(diǎn)基礎也有很多。為了加快速度排名,再結合一些作弊的手法來(lái)進(jìn)行快速排名。這里建議大家尤其新手,剛入門(mén)的時(shí)候不要想著(zhù)什么黑帽SEO、灰帽SEO,就老老實(shí)實(shí)做白帽吧。白帽是任何形式SEO基礎,只有很強的白帽基礎才有可能延伸出來(lái)黑帽與灰帽。按照搜索引擎這兩年的發(fā)展,只要安安心心做內容,解決用戶(hù)搜索需求,即使光寫(xiě)文章,排名依然是指日可待的。
  那么白帽SEO技術(shù)怎么做?
  一、初步準備:
  1.服務(wù)器選擇
  總之,要選擇快速穩定的云服務(wù)器,盡量是建立獨立的IP空間,這是不容易坐在搜索引擎,因為其他網(wǎng)站的問(wèn)題。
  2.網(wǎng)站備案
  域名由工業(yè)和信息化部備案,以提高搜索引擎的信任度。
  3.網(wǎng)站目錄設置搜索引擎蜘蛛目錄以查看爬行軌跡。
  4.百度站長(cháng)工具、搜狗站長(cháng)工具和360站長(cháng)工具都是盡可能多的添加,方便以后各種搜索引擎的優(yōu)化和調整,背景非常強大。
  5.進(jìn)行安全掃描,如360網(wǎng)站安全工具等。
  二、站內優(yōu)化:
  1.官方網(wǎng)站設計,盡量采用平面結構,使用面包屑導航,便于蜘蛛掌握分層。
  2.使用robot.txt文件。主要內容是盡可能被搜索引擎抓取。如果有站點(diǎn)地圖,可以直接在此處設置站點(diǎn)地圖地址,也可以在主控形狀的背景下提交。
  3.301永久重定向,集中域名權重。
  4.404個(gè)錯誤頁(yè)。
  5.Favicon圖標設置。
  6、標題、關(guān)鍵詞、描述設置、關(guān)鍵詞布局密度分布等。
  7.站內代碼優(yōu)化、標簽優(yōu)化、冗余代碼處理、JS和CSS代碼封裝、nofollow、h標記使用等。
  8.站點(diǎn)地圖設置(站點(diǎn)地圖、百度地圖)
  9.URL設置,網(wǎng)站比較合適的深度不超過(guò)三層,URL盡可能靜態(tài)
  10.圖片優(yōu)化,盡量不要對圖片使用PNG,透明圖片除外。圖片使用alt和標題標簽來(lái)增加搜索引擎抓取的概率。
  11.文章內容中重要關(guān)鍵詞的內鏈設置
  12.文章內容的偽原創(chuàng )性?xún)?yōu)于60%。盡量修改文章的開(kāi)頭和結尾,然后合并長(cháng)尾關(guān)鍵字。
  13.應盡可能使用target=“_blank”在新頁(yè)面上打開(kāi)外部鏈接,以避免客戶(hù)因關(guān)閉而失去官方網(wǎng)站。
  三、站外優(yōu)化:
  1.百度、搜狗、360、神馬、谷歌、必應、有道等搜索引擎提交網(wǎng)站。
  2.友情鏈接交換與第三方垂直行業(yè)網(wǎng)站包容應用
  3.第三方媒體軟文本加鏈接和錨文本(外鏈掌握數量和頻率)
  4.百度搜索口碑業(yè)務(wù)提交、相應評論、第三方行業(yè)知名信息評論、消息等。

探究搜索引擎結果頁(yè)信息檢索模式:基于過(guò)程數據

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 132 次瀏覽 ? 2022-05-05 17:19 ? 來(lái)自相關(guān)話(huà)題

  探究搜索引擎結果頁(yè)信息檢索模式:基于過(guò)程數據
  導讀
  近日,一項基于過(guò)程數據探究搜索引擎結果頁(yè)信息檢索模式的文章發(fā)表于Computers in Human Behavior (SSCI JCR Q1, 2020 IF 6.829)。論文作者為阿爾伯塔大學(xué)博士生高一珠(第一作者兼通訊作者)、教授崔迎、副教授Okan Bulut,以及喬治亞大學(xué)助理教授翟小銘和澳門(mén)大學(xué)助理教授陳孚,具體信息如下:
  Gao, Y., Cui, Y., Bulut, O., Zhai, X., & Chen, F. (2022). Examining adults’ web navigation patterns in multi-layered hypertext environments. Computers in Human Behavior, 129, 1–17.
  
  背景介紹
  當前,搜索引擎已成為最常用的信息問(wèn)題解決的工具,而網(wǎng)絡(luò )信息搜索也成為信息技術(shù)時(shí)代的必要技能之一。當用戶(hù)在搜索引擎輸入關(guān)鍵詞,搜索引擎完成搜索后,在搜索引擎結果頁(yè) (search engine result page, SERP)上往往會(huì )呈現出龐大的、差異化的信息源 (information source)。此時(shí),用戶(hù)常常需要通過(guò)檢索信息源內的信息來(lái)獲得目標信息。每個(gè)信息源可視為一個(gè)信息塊 (information patch),而對于嵌套于信息塊內信息的檢索以及不同信息塊的檢索則直接影響著(zhù)信息問(wèn)題解決。
  研究者們聚焦于單層超文本 (single-layered hypertexts) 構成的信息環(huán)境,提出了一些信息檢索理論,并完成了許多信息檢索模式的研究。例如,Pirolli和Card (1999) 提出著(zhù)名的信息檢索理論 (information foraging theory, IFT) ,該理論認為用戶(hù)對搜索引擎結果頁(yè)上信息塊的檢索類(lèi)似于人類(lèi)祖先的覓食行為,并表示當訪(fǎng)問(wèn)某個(gè)信息塊時(shí),用戶(hù)會(huì )持續權衡其信息收益和認知消耗,當信息收益低于認知消耗時(shí),該用戶(hù)便退出當前信息塊,返回到搜索引擎結果頁(yè)檢索其它信息塊或者結束當前信息檢索任務(wù)?;谠摾碚?,Reader 和 Payne (2007) 總結了兩種信息檢索模式:Sampling 和 Satisficing 。Sampling的模式是指用戶(hù)瀏覽盡可能多信息塊,而Satisficing的模式則是指用戶(hù)會(huì )依次瀏覽搜索引擎結果頁(yè)上的信息塊,當檢索到能夠解決其信息問(wèn)題的信息塊時(shí)便不再瀏覽其它信息塊。
  然而,現實(shí)場(chǎng)景中,信息普遍以多層超文本 (multi-layered hypertexts) 的形式嵌套于信息空間中,單層超文本的研究顯然無(wú)法很好解答信息檢索模式的問(wèn)題。因此,少量研究者開(kāi)始關(guān)注多層超文本信息環(huán)境下的信息檢索模式。Jenkins et al. (2003) 采用出聲思維方法挖掘出 Breadth-first 和 Depth-first 兩種模式 (表1)。Juvina 和 van Oostendorp (2006) 對過(guò)程數據中提取的single-unit measures (如路徑長(cháng)度) 進(jìn)行主成分分析辨別出 Flimsy, Content-focus, Laborious, 和 Divergent四種模式(表1)。但是這些研究存在一些局限:首先,這些研究的樣本量太小 (Jenkins et al. [2003]: N = 18 和 Juvina & van Oostendorp [2006]: N = 30), 導致結果具有比較低的外部效度;其次,single-unit measures 并不利用過(guò)程數據中事件序列信息,因此一些檢索模式 (i.e., Laborious) 對信息問(wèn)題解決的影響仍然是不清楚的;最后,不同類(lèi)型的信息問(wèn)題會(huì )影響到用戶(hù)信息檢索模式,但是以往研究并未考慮信息問(wèn)題的類(lèi)型。
  Table 1 Explanations of web navigation patterns in multi-layered hypertext environments
  
  本研究通過(guò)對用戶(hù)在解決信息定位問(wèn)題 (explicit information-locating task) 以及信息評價(jià)問(wèn)題 (amorphous information-evaluating task) 產(chǎn)生的過(guò)程數據進(jìn)行分析,來(lái)探究多層超文本信息環(huán)境下用戶(hù)在搜索引擎結果頁(yè)的信息檢索模式。因此,本研究的目的主要包括:1)挖掘信息定位問(wèn)題和信息評價(jià)問(wèn)題的信息檢索模式;2)比較不同檢索模式在解決信息定位問(wèn)題和信息評價(jià)問(wèn)題的有效性。
  研究方法
  本研究采用2012年P(guān)IAAC中PSTRE (problem-solving in technology-rich environments) 測驗的兩道題目:購買(mǎi)圖書(shū)和可靠性網(wǎng)頁(yè),它們分別屬于信息定位問(wèn)題和信息評價(jià)問(wèn)題,具體而言,購買(mǎi)圖書(shū)題目要求用戶(hù)找到滿(mǎn)足條件的圖書(shū),并且題干中清晰地界定了目標圖書(shū)條件(價(jià)格、郵寄日期等),可靠性網(wǎng)頁(yè)題目要求用戶(hù)找到提供最可靠的治療關(guān)節扭傷方法的網(wǎng)頁(yè),但題干中并未對信息可靠性進(jìn)行定義,用戶(hù)需要依據自身經(jīng)驗評價(jià)網(wǎng)頁(yè)信息可靠性。對于購買(mǎi)圖書(shū)題目,搜索引擎結果頁(yè)顯示六個(gè)信息塊,其中五個(gè)包括嵌套頁(yè),對于可靠性網(wǎng)頁(yè)題目,搜索引擎結果頁(yè)展現五個(gè)信息塊,其中三個(gè)包括嵌套頁(yè)(表2),嵌套頁(yè)信息對正確解決這兩道題目都是必要的。本研究分別對美國和英國兩個(gè)國家的數據進(jìn)行潛在類(lèi)別分析 (Latent Class Analysis, LCA) 和全路徑序列分析 (full-path sequence analysis) ,LCA分析基于被試對每個(gè)網(wǎng)頁(yè)(即主頁(yè)和嵌套頁(yè))的瀏覽次數,依據相對擬合和絕對擬合指標,歸類(lèi)概率以及LMR等將被試分類(lèi),全路徑序列分析旨在刻畫(huà)各組代表性的信息檢索模式。
  Table 2 The links structure and the corresponding web pages for the two tasks
  
  Note. H indicates the homepage. N denotes the nested web page.
  研究結果與討論
  由于英國的分析結果與美國的結果類(lèi)似,在此僅呈現美國的分析結果。對于信息定位問(wèn)題而言, LCA分析顯示五類(lèi)別模型與數據擬合最好,同時(shí),通過(guò)分組進(jìn)行全路徑序列分析,可以辨別出 Breadth-first, Sampling, Laborious, Flimsy, Satisficing 的信息檢索模式(圖1),例如,盡管嵌套頁(yè)內的信息對于解決該任務(wù)是必要的,但組1(圖1)并不關(guān)注嵌套頁(yè)內信息,而是僅僅瀏覽主頁(yè)信息。
  
  Figure 1 Representative sequences selected for the five classes of the explicit information-locating task
  Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
  對于信息評價(jià)問(wèn)題而言, 綜合LCA各模型指標,四類(lèi)別模型與數據擬合最好。針對分類(lèi)參與者進(jìn)行全路徑序列分析,可辨別出Sampling, Breadth-first, Laborious, Flimsy 信息檢索模式(圖2)。
  
  Figure 2 Representative sequences selected for the four classes of the amorphous information-evaluating task
  Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
  對比兩類(lèi)信息問(wèn)題發(fā)現,Flimsy, Breadth-first, Laborious, 和Sampling 模式普遍存在于信息定位問(wèn)題和信息評價(jià)問(wèn)題中,但Satisficing 模式只出現在信息定位問(wèn)題中。進(jìn)一步Pearson’s 檢驗表明,Sampling模式組在信息評價(jià)任務(wù)中表現最好,Satisficing 模式組則在信息定位任務(wù)中表現最好。
  本研究的結果增進(jìn)了我們對信息檢索過(guò)程的認識。具體來(lái)說(shuō),Sampling 和 Satisficing 同樣適用于多層超文本構成的信息環(huán)境,Satisficing模式在信息定位問(wèn)題中的特異性表明,當目標信息被清晰界定后, Satisficing 模式便足夠獲取全局最優(yōu)信息塊,而當目標信息模糊不定時(shí),用戶(hù)則需要通過(guò)盡可能多地瀏覽不同信息塊 (Sampling) 來(lái)獲取最優(yōu)信息塊。因此,當用戶(hù)檢索引擎結果頁(yè)信息時(shí),信息可接受標準和信息收益/認知消耗間的權衡共同影響用戶(hù)的信息檢索模式。
  
  征稿啟事
  為增進(jìn)學(xué)會(huì )內部的學(xué)術(shù)交流,也為提升公眾對教育統計測量領(lǐng)域的認知,學(xué)會(huì )將定期通過(guò)本公眾號發(fā)布各類(lèi)專(zhuān)題文章,特邀請學(xué)會(huì )同仁們參與投稿。
  稿件內容:
  與教育統計測量相關(guān)的理論,方法,技術(shù)、應用和創(chuàng )新
  稿件形式:
  1.論文速遞:將您最新發(fā)表的論文,寫(xiě)成通俗易懂的科普短文。
  2.研究前沿:將您認為有價(jià)值的本領(lǐng)域國內外研究,整理成介紹短文。
  稿件字數:
  2000字左右,圖表不限
  收稿郵箱:

  注意事項:
  1.稿件使用word文件,注明作者和所在單位,以及原文出處。
  2.我們將根據投稿的選題和質(zhì)量安排稿件發(fā)布的時(shí)間。如需修改,我們會(huì )進(jìn)一步與您溝通。 查看全部

  探究搜索引擎結果頁(yè)信息檢索模式:基于過(guò)程數據
  導讀
  近日,一項基于過(guò)程數據探究搜索引擎結果頁(yè)信息檢索模式的文章發(fā)表于Computers in Human Behavior (SSCI JCR Q1, 2020 IF 6.829)。論文作者為阿爾伯塔大學(xué)博士生高一珠(第一作者兼通訊作者)、教授崔迎、副教授Okan Bulut,以及喬治亞大學(xué)助理教授翟小銘和澳門(mén)大學(xué)助理教授陳孚,具體信息如下:
  Gao, Y., Cui, Y., Bulut, O., Zhai, X., & Chen, F. (2022). Examining adults’ web navigation patterns in multi-layered hypertext environments. Computers in Human Behavior, 129, 1–17.
  
  背景介紹
  當前,搜索引擎已成為最常用的信息問(wèn)題解決的工具,而網(wǎng)絡(luò )信息搜索也成為信息技術(shù)時(shí)代的必要技能之一。當用戶(hù)在搜索引擎輸入關(guān)鍵詞,搜索引擎完成搜索后,在搜索引擎結果頁(yè) (search engine result page, SERP)上往往會(huì )呈現出龐大的、差異化的信息源 (information source)。此時(shí),用戶(hù)常常需要通過(guò)檢索信息源內的信息來(lái)獲得目標信息。每個(gè)信息源可視為一個(gè)信息塊 (information patch),而對于嵌套于信息塊內信息的檢索以及不同信息塊的檢索則直接影響著(zhù)信息問(wèn)題解決。
  研究者們聚焦于單層超文本 (single-layered hypertexts) 構成的信息環(huán)境,提出了一些信息檢索理論,并完成了許多信息檢索模式的研究。例如,Pirolli和Card (1999) 提出著(zhù)名的信息檢索理論 (information foraging theory, IFT) ,該理論認為用戶(hù)對搜索引擎結果頁(yè)上信息塊的檢索類(lèi)似于人類(lèi)祖先的覓食行為,并表示當訪(fǎng)問(wèn)某個(gè)信息塊時(shí),用戶(hù)會(huì )持續權衡其信息收益和認知消耗,當信息收益低于認知消耗時(shí),該用戶(hù)便退出當前信息塊,返回到搜索引擎結果頁(yè)檢索其它信息塊或者結束當前信息檢索任務(wù)?;谠摾碚?,Reader 和 Payne (2007) 總結了兩種信息檢索模式:Sampling 和 Satisficing 。Sampling的模式是指用戶(hù)瀏覽盡可能多信息塊,而Satisficing的模式則是指用戶(hù)會(huì )依次瀏覽搜索引擎結果頁(yè)上的信息塊,當檢索到能夠解決其信息問(wèn)題的信息塊時(shí)便不再瀏覽其它信息塊。
  然而,現實(shí)場(chǎng)景中,信息普遍以多層超文本 (multi-layered hypertexts) 的形式嵌套于信息空間中,單層超文本的研究顯然無(wú)法很好解答信息檢索模式的問(wèn)題。因此,少量研究者開(kāi)始關(guān)注多層超文本信息環(huán)境下的信息檢索模式。Jenkins et al. (2003) 采用出聲思維方法挖掘出 Breadth-first 和 Depth-first 兩種模式 (表1)。Juvina 和 van Oostendorp (2006) 對過(guò)程數據中提取的single-unit measures (如路徑長(cháng)度) 進(jìn)行主成分分析辨別出 Flimsy, Content-focus, Laborious, 和 Divergent四種模式(表1)。但是這些研究存在一些局限:首先,這些研究的樣本量太小 (Jenkins et al. [2003]: N = 18 和 Juvina & van Oostendorp [2006]: N = 30), 導致結果具有比較低的外部效度;其次,single-unit measures 并不利用過(guò)程數據中事件序列信息,因此一些檢索模式 (i.e., Laborious) 對信息問(wèn)題解決的影響仍然是不清楚的;最后,不同類(lèi)型的信息問(wèn)題會(huì )影響到用戶(hù)信息檢索模式,但是以往研究并未考慮信息問(wèn)題的類(lèi)型。
  Table 1 Explanations of web navigation patterns in multi-layered hypertext environments
  
  本研究通過(guò)對用戶(hù)在解決信息定位問(wèn)題 (explicit information-locating task) 以及信息評價(jià)問(wèn)題 (amorphous information-evaluating task) 產(chǎn)生的過(guò)程數據進(jìn)行分析,來(lái)探究多層超文本信息環(huán)境下用戶(hù)在搜索引擎結果頁(yè)的信息檢索模式。因此,本研究的目的主要包括:1)挖掘信息定位問(wèn)題和信息評價(jià)問(wèn)題的信息檢索模式;2)比較不同檢索模式在解決信息定位問(wèn)題和信息評價(jià)問(wèn)題的有效性。
  研究方法
  本研究采用2012年P(guān)IAAC中PSTRE (problem-solving in technology-rich environments) 測驗的兩道題目:購買(mǎi)圖書(shū)和可靠性網(wǎng)頁(yè),它們分別屬于信息定位問(wèn)題和信息評價(jià)問(wèn)題,具體而言,購買(mǎi)圖書(shū)題目要求用戶(hù)找到滿(mǎn)足條件的圖書(shū),并且題干中清晰地界定了目標圖書(shū)條件(價(jià)格、郵寄日期等),可靠性網(wǎng)頁(yè)題目要求用戶(hù)找到提供最可靠的治療關(guān)節扭傷方法的網(wǎng)頁(yè),但題干中并未對信息可靠性進(jìn)行定義,用戶(hù)需要依據自身經(jīng)驗評價(jià)網(wǎng)頁(yè)信息可靠性。對于購買(mǎi)圖書(shū)題目,搜索引擎結果頁(yè)顯示六個(gè)信息塊,其中五個(gè)包括嵌套頁(yè),對于可靠性網(wǎng)頁(yè)題目,搜索引擎結果頁(yè)展現五個(gè)信息塊,其中三個(gè)包括嵌套頁(yè)(表2),嵌套頁(yè)信息對正確解決這兩道題目都是必要的。本研究分別對美國和英國兩個(gè)國家的數據進(jìn)行潛在類(lèi)別分析 (Latent Class Analysis, LCA) 和全路徑序列分析 (full-path sequence analysis) ,LCA分析基于被試對每個(gè)網(wǎng)頁(yè)(即主頁(yè)和嵌套頁(yè))的瀏覽次數,依據相對擬合和絕對擬合指標,歸類(lèi)概率以及LMR等將被試分類(lèi),全路徑序列分析旨在刻畫(huà)各組代表性的信息檢索模式。
  Table 2 The links structure and the corresponding web pages for the two tasks
  
  Note. H indicates the homepage. N denotes the nested web page.
  研究結果與討論
  由于英國的分析結果與美國的結果類(lèi)似,在此僅呈現美國的分析結果。對于信息定位問(wèn)題而言, LCA分析顯示五類(lèi)別模型與數據擬合最好,同時(shí),通過(guò)分組進(jìn)行全路徑序列分析,可以辨別出 Breadth-first, Sampling, Laborious, Flimsy, Satisficing 的信息檢索模式(圖1),例如,盡管嵌套頁(yè)內的信息對于解決該任務(wù)是必要的,但組1(圖1)并不關(guān)注嵌套頁(yè)內信息,而是僅僅瀏覽主頁(yè)信息。
  
  Figure 1 Representative sequences selected for the five classes of the explicit information-locating task
  Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
  對于信息評價(jià)問(wèn)題而言, 綜合LCA各模型指標,四類(lèi)別模型與數據擬合最好。針對分類(lèi)參與者進(jìn)行全路徑序列分析,可辨別出Sampling, Breadth-first, Laborious, Flimsy 信息檢索模式(圖2)。
  
  Figure 2 Representative sequences selected for the four classes of the amorphous information-evaluating task
  Note. H indicates the homepage and N denotes the nested web page. Link1_H represents the homepage of Link 1, Link1_N represents the nested web page of Link 1, and so forth.
  對比兩類(lèi)信息問(wèn)題發(fā)現,Flimsy, Breadth-first, Laborious, 和Sampling 模式普遍存在于信息定位問(wèn)題和信息評價(jià)問(wèn)題中,但Satisficing 模式只出現在信息定位問(wèn)題中。進(jìn)一步Pearson’s 檢驗表明,Sampling模式組在信息評價(jià)任務(wù)中表現最好,Satisficing 模式組則在信息定位任務(wù)中表現最好。
  本研究的結果增進(jìn)了我們對信息檢索過(guò)程的認識。具體來(lái)說(shuō),Sampling 和 Satisficing 同樣適用于多層超文本構成的信息環(huán)境,Satisficing模式在信息定位問(wèn)題中的特異性表明,當目標信息被清晰界定后, Satisficing 模式便足夠獲取全局最優(yōu)信息塊,而當目標信息模糊不定時(shí),用戶(hù)則需要通過(guò)盡可能多地瀏覽不同信息塊 (Sampling) 來(lái)獲取最優(yōu)信息塊。因此,當用戶(hù)檢索引擎結果頁(yè)信息時(shí),信息可接受標準和信息收益/認知消耗間的權衡共同影響用戶(hù)的信息檢索模式。
  
  征稿啟事
  為增進(jìn)學(xué)會(huì )內部的學(xué)術(shù)交流,也為提升公眾對教育統計測量領(lǐng)域的認知,學(xué)會(huì )將定期通過(guò)本公眾號發(fā)布各類(lèi)專(zhuān)題文章,特邀請學(xué)會(huì )同仁們參與投稿。
  稿件內容:
  與教育統計測量相關(guān)的理論,方法,技術(shù)、應用和創(chuàng )新
  稿件形式:
  1.論文速遞:將您最新發(fā)表的論文,寫(xiě)成通俗易懂的科普短文。
  2.研究前沿:將您認為有價(jià)值的本領(lǐng)域國內外研究,整理成介紹短文。
  稿件字數:
  2000字左右,圖表不限
  收稿郵箱:

  注意事項:
  1.稿件使用word文件,注明作者和所在單位,以及原文出處。
  2.我們將根據投稿的選題和質(zhì)量安排稿件發(fā)布的時(shí)間。如需修改,我們會(huì )進(jìn)一步與您溝通。

App Store上的應用怎么做SEO/ASO?seo與aso的區別

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 99 次瀏覽 ? 2022-05-05 17:15 ? 來(lái)自相關(guān)話(huà)題

  App Store上的應用怎么做SEO/ASO?seo與aso的區別
  
  APP Store Optimization也稱(chēng)ASO,即應用商店優(yōu)化,廣義指蘋(píng)果App Store商店優(yōu)化,安卓Google Play商店優(yōu)化,也包括國內豌豆莢,應用寶和海外一些第三方的應用平臺優(yōu)化。旨在提升商店排名,提高應用下載量和應用收入(內購+廣告)
  
  簡(jiǎn)單的從以下幾個(gè)方面介紹一下ASO。
  1.ASO與SEO?
  ASO與人們常說(shuō)的SEO有什么區別?其實(shí)ASO是SEO的一種特殊形式,SEO泛指所有搜索引擎的優(yōu)化,通過(guò)對內容和TDK的優(yōu)化,使網(wǎng)站在目標搜索引擎(谷歌,百度,bing等)中獲得更高的排名和流量,而ASO特指在應用商店對app優(yōu)化以提升App的排名。
  SEO 數據維度:關(guān)鍵詞數據包括站內搜索、網(wǎng)站瀏覽路徑、來(lái)源關(guān)鍵詞及搜索引擎等。作用在于了解用戶(hù)搜索行為,為產(chǎn)品、設計及 SEO 策略指導方向,提供目標。
  ASO 數據維度:關(guān)鍵詞數據包括關(guān)鍵詞覆蓋及排名數據、搜索結果數、關(guān)鍵詞熱度、關(guān)鍵詞搜索指數。作用在于了解關(guān)鍵詞的情況,明確前期優(yōu)化方向,并在優(yōu)化中后期根據數據變動(dòng)及時(shí)調整優(yōu)化策略。
  SEO 優(yōu)化效果:搜索結果、展示量、點(diǎn)擊量和展示位置;索引情況:被搜索引擎檢索的情況;流量:網(wǎng)站流量的提升,包括 PV、UV、注冊用戶(hù);收益:網(wǎng)站參與度、付費用戶(hù)、ROI。
  ASO 優(yōu)化效果:搜索結果、搜索展示量;排名情況:榜單排名,及關(guān)鍵詞搜索排名;流量:自然流量(新增下載)的提升;收益:app 注冊、活躍、留存、付費。
  2.為什么做ASO?
  ASO是官方認可,合理合規的App優(yōu)化手段,在A(yíng)SO面前,眾生平等。只要你切中了關(guān)鍵詞,新發(fā)行的App也可以在短期內沖到前三。
  ASO是不需要任何費用的,當然有預算買(mǎi)量會(huì )起到催化效果,不過(guò)催化劑不一定都是正向的。
  3.ASO包括哪些內容?
 ?、倩A
  通過(guò)編輯商店中的內容,標題,副標題,描述等信息來(lái)覆蓋關(guān)鍵詞。通過(guò)商店內的版本更新,伴隨著(zhù)描述更新,從而在規則合理的前提下實(shí)現關(guān)鍵詞覆蓋增多。
  權重:標題 > 副標題 > App關(guān)鍵詞
  另外,通過(guò)不同語(yǔ)言來(lái)增強關(guān)鍵詞覆蓋。
  例如,對于中國市場(chǎng),可以準備中文(簡(jiǎn)體),英文(英國),英文(澳大利亞)三個(gè)版本的關(guān)鍵詞,能夠提升關(guān)鍵詞排名,但版本間關(guān)鍵詞無(wú)法相互組詞。不過(guò)覆蓋關(guān)鍵詞多了,可能會(huì )分攤權重,這種情況下重點(diǎn)關(guān)鍵詞需要多次重復。 查看全部

  App Store上的應用怎么做SEO/ASO?seo與aso的區別
  
  APP Store Optimization也稱(chēng)ASO,即應用商店優(yōu)化,廣義指蘋(píng)果App Store商店優(yōu)化,安卓Google Play商店優(yōu)化,也包括國內豌豆莢,應用寶和海外一些第三方的應用平臺優(yōu)化。旨在提升商店排名,提高應用下載量和應用收入(內購+廣告)
  
  簡(jiǎn)單的從以下幾個(gè)方面介紹一下ASO。
  1.ASO與SEO?
  ASO與人們常說(shuō)的SEO有什么區別?其實(shí)ASO是SEO的一種特殊形式,SEO泛指所有搜索引擎的優(yōu)化,通過(guò)對內容和TDK的優(yōu)化,使網(wǎng)站在目標搜索引擎(谷歌,百度,bing等)中獲得更高的排名和流量,而ASO特指在應用商店對app優(yōu)化以提升App的排名。
  SEO 數據維度:關(guān)鍵詞數據包括站內搜索、網(wǎng)站瀏覽路徑、來(lái)源關(guān)鍵詞及搜索引擎等。作用在于了解用戶(hù)搜索行為,為產(chǎn)品、設計及 SEO 策略指導方向,提供目標。
  ASO 數據維度:關(guān)鍵詞數據包括關(guān)鍵詞覆蓋及排名數據、搜索結果數、關(guān)鍵詞熱度、關(guān)鍵詞搜索指數。作用在于了解關(guān)鍵詞的情況,明確前期優(yōu)化方向,并在優(yōu)化中后期根據數據變動(dòng)及時(shí)調整優(yōu)化策略。
  SEO 優(yōu)化效果:搜索結果、展示量、點(diǎn)擊量和展示位置;索引情況:被搜索引擎檢索的情況;流量:網(wǎng)站流量的提升,包括 PV、UV、注冊用戶(hù);收益:網(wǎng)站參與度、付費用戶(hù)、ROI。
  ASO 優(yōu)化效果:搜索結果、搜索展示量;排名情況:榜單排名,及關(guān)鍵詞搜索排名;流量:自然流量(新增下載)的提升;收益:app 注冊、活躍、留存、付費。
  2.為什么做ASO?
  ASO是官方認可,合理合規的App優(yōu)化手段,在A(yíng)SO面前,眾生平等。只要你切中了關(guān)鍵詞,新發(fā)行的App也可以在短期內沖到前三。
  ASO是不需要任何費用的,當然有預算買(mǎi)量會(huì )起到催化效果,不過(guò)催化劑不一定都是正向的。
  3.ASO包括哪些內容?
 ?、倩A
  通過(guò)編輯商店中的內容,標題,副標題,描述等信息來(lái)覆蓋關(guān)鍵詞。通過(guò)商店內的版本更新,伴隨著(zhù)描述更新,從而在規則合理的前提下實(shí)現關(guān)鍵詞覆蓋增多。
  權重:標題 > 副標題 > App關(guān)鍵詞
  另外,通過(guò)不同語(yǔ)言來(lái)增強關(guān)鍵詞覆蓋。
  例如,對于中國市場(chǎng),可以準備中文(簡(jiǎn)體),英文(英國),英文(澳大利亞)三個(gè)版本的關(guān)鍵詞,能夠提升關(guān)鍵詞排名,但版本間關(guān)鍵詞無(wú)法相互組詞。不過(guò)覆蓋關(guān)鍵詞多了,可能會(huì )分攤權重,這種情況下重點(diǎn)關(guān)鍵詞需要多次重復。

r+10萬(wàn)計劃讓網(wǎng)站具有非常好的競爭力

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 89 次瀏覽 ? 2022-05-02 19:01 ? 來(lái)自相關(guān)話(huà)題

  r+10萬(wàn)計劃讓網(wǎng)站具有非常好的競爭力
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同和對比展開(kāi)一下。對于在京東搜索商品,大部分情況下,買(mǎi)家是想知道商品的基本信息,因此只關(guān)注內部信息源。如一些網(wǎng)站和郵件,非常積極的開(kāi)發(fā)和推廣外部信息源,然而到底對搜索引擎優(yōu)化提高了什么價(jià)值?上圖是主要的幾家在線(xiàn)購物平臺對比。左邊是京東,右邊是天貓。下面進(jìn)行圖文分析:京東在前端頁(yè)面不到一半的時(shí)間點(diǎn)進(jìn)行主動(dòng)主營(yíng)信息源營(yíng)銷(xiāo),這非常重要,否則不僅影響轉化率,也影響搜索。
  網(wǎng)上各種傳言有云,京東在上線(xiàn)iab2014百萬(wàn)計劃的時(shí)候,要花大力氣在這方面推廣。不過(guò),個(gè)人不看好。網(wǎng)上有人說(shuō)京東要賺取微利營(yíng)銷(xiāo),這沒(méi)有一個(gè)可靠的說(shuō)法。在2012年已經(jīng)在r+10萬(wàn)計劃,2013年京東確認對供應商進(jìn)行了促銷(xiāo),并且正在補貼。2014年初,對經(jīng)銷(xiāo)商要求零售品達到r+10萬(wàn)計劃,而不是1萬(wàn)計劃,顯然r+10萬(wàn)計劃并不適合。
  而對于大品牌來(lái)說(shuō),r+10萬(wàn)計劃至少會(huì )讓網(wǎng)站具有非常好的競爭力。實(shí)際上,2014年初的大促,r+10萬(wàn)計劃也被買(mǎi)斷了。我沒(méi)有不相信一些供應商是大品牌,但是缺乏說(shuō)服力。再者,一個(gè)有效的計劃,必須是試銷(xiāo),而不是發(fā)大財,發(fā)了大財公司肯定不會(huì )管你。即使前期投入了大量資金做內部引流,后期仍然需要全面投入,并收效甚微。
  天貓通過(guò)內部廣告推廣提高了網(wǎng)站認知度,搜索優(yōu)化提高了流量。這實(shí)際上是很少見(jiàn)的。天貓的目標是挖掘商品中的潛在流量。除了專(zhuān)門(mén)針對大品牌的搜索營(yíng)銷(xiāo)之外,在大型促銷(xiāo)后,天貓還開(kāi)始主動(dòng)營(yíng)銷(xiāo)。從用戶(hù)數據來(lái)看,信息源營(yíng)銷(xiāo)促進(jìn)網(wǎng)站發(fā)展的速度也是很快的。其中有個(gè)例子如果看這里:該如何告訴競爭對手你的預算呢?京東從2013年開(kāi)始推動(dòng)其內部信息源營(yíng)銷(xiāo),并在2014年投入了大約9億。
  在京東2014百萬(wàn)大促中,經(jīng)過(guò)專(zhuān)家研討,個(gè)人認為這一算法是可靠的。但是從天貓的表現來(lái)看,京東的投入似乎有所虧損。然而搜索優(yōu)化是做對搜索而言有作用的營(yíng)銷(xiāo)。大數據分析促進(jìn)轉化率提高,對價(jià)格敏感的用戶(hù)轉化率提高,以及最后也提高了品牌在搜索中的曝光率。但是搜索優(yōu)化本身對網(wǎng)站產(chǎn)生的價(jià)值無(wú)法估量。需要重視:2.內部搜索優(yōu)化與外部搜索優(yōu)化是由同一個(gè)專(zhuān)業(yè)團隊組成,具有同樣的目標,將同一種在搜索引擎上采用策略。
  顯然,對于京東來(lái)說(shuō),從一開(kāi)始京東對供應商就有足夠高的要求,那么可靠的內部搜索優(yōu)化應該是可以起到鼓勵效果的。2015-8-11。 查看全部

  r+10萬(wàn)計劃讓網(wǎng)站具有非常好的競爭力
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同和對比展開(kāi)一下。對于在京東搜索商品,大部分情況下,買(mǎi)家是想知道商品的基本信息,因此只關(guān)注內部信息源。如一些網(wǎng)站和郵件,非常積極的開(kāi)發(fā)和推廣外部信息源,然而到底對搜索引擎優(yōu)化提高了什么價(jià)值?上圖是主要的幾家在線(xiàn)購物平臺對比。左邊是京東,右邊是天貓。下面進(jìn)行圖文分析:京東在前端頁(yè)面不到一半的時(shí)間點(diǎn)進(jìn)行主動(dòng)主營(yíng)信息源營(yíng)銷(xiāo),這非常重要,否則不僅影響轉化率,也影響搜索。
  網(wǎng)上各種傳言有云,京東在上線(xiàn)iab2014百萬(wàn)計劃的時(shí)候,要花大力氣在這方面推廣。不過(guò),個(gè)人不看好。網(wǎng)上有人說(shuō)京東要賺取微利營(yíng)銷(xiāo),這沒(méi)有一個(gè)可靠的說(shuō)法。在2012年已經(jīng)在r+10萬(wàn)計劃,2013年京東確認對供應商進(jìn)行了促銷(xiāo),并且正在補貼。2014年初,對經(jīng)銷(xiāo)商要求零售品達到r+10萬(wàn)計劃,而不是1萬(wàn)計劃,顯然r+10萬(wàn)計劃并不適合。
  而對于大品牌來(lái)說(shuō),r+10萬(wàn)計劃至少會(huì )讓網(wǎng)站具有非常好的競爭力。實(shí)際上,2014年初的大促,r+10萬(wàn)計劃也被買(mǎi)斷了。我沒(méi)有不相信一些供應商是大品牌,但是缺乏說(shuō)服力。再者,一個(gè)有效的計劃,必須是試銷(xiāo),而不是發(fā)大財,發(fā)了大財公司肯定不會(huì )管你。即使前期投入了大量資金做內部引流,后期仍然需要全面投入,并收效甚微。
  天貓通過(guò)內部廣告推廣提高了網(wǎng)站認知度,搜索優(yōu)化提高了流量。這實(shí)際上是很少見(jiàn)的。天貓的目標是挖掘商品中的潛在流量。除了專(zhuān)門(mén)針對大品牌的搜索營(yíng)銷(xiāo)之外,在大型促銷(xiāo)后,天貓還開(kāi)始主動(dòng)營(yíng)銷(xiāo)。從用戶(hù)數據來(lái)看,信息源營(yíng)銷(xiāo)促進(jìn)網(wǎng)站發(fā)展的速度也是很快的。其中有個(gè)例子如果看這里:該如何告訴競爭對手你的預算呢?京東從2013年開(kāi)始推動(dòng)其內部信息源營(yíng)銷(xiāo),并在2014年投入了大約9億。
  在京東2014百萬(wàn)大促中,經(jīng)過(guò)專(zhuān)家研討,個(gè)人認為這一算法是可靠的。但是從天貓的表現來(lái)看,京東的投入似乎有所虧損。然而搜索優(yōu)化是做對搜索而言有作用的營(yíng)銷(xiāo)。大數據分析促進(jìn)轉化率提高,對價(jià)格敏感的用戶(hù)轉化率提高,以及最后也提高了品牌在搜索中的曝光率。但是搜索優(yōu)化本身對網(wǎng)站產(chǎn)生的價(jià)值無(wú)法估量。需要重視:2.內部搜索優(yōu)化與外部搜索優(yōu)化是由同一個(gè)專(zhuān)業(yè)團隊組成,具有同樣的目標,將同一種在搜索引擎上采用策略。
  顯然,對于京東來(lái)說(shuō),從一開(kāi)始京東對供應商就有足夠高的要求,那么可靠的內部搜索優(yōu)化應該是可以起到鼓勵效果的。2015-8-11。

12 個(gè)優(yōu)化 Docker 鏡像安全性的技巧

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 86 次瀏覽 ? 2022-05-02 03:19 ? 來(lái)自相關(guān)話(huà)題

  12 個(gè)優(yōu)化 Docker 鏡像安全性的技巧
  
  作者 |Marius出品|
  本文介紹了 12 個(gè)優(yōu)化 Docker 鏡像安全性的技巧。每個(gè)技巧都解釋了底層的攻擊載體,以及一個(gè)或多個(gè)緩解方法。這些技巧包括了避免泄露構建密鑰、以非 root 用戶(hù)身份運行,或如何確保使用最新的依賴(lài)和更新等。
  1前言
  當你是剛開(kāi)始使用 Docker 的新手時(shí),你很可能會(huì )創(chuàng )建不安全的 Docker 鏡像,使攻擊者很容易借此接管容器,甚至可能接管整個(gè)主機,然后滲透到你公司的其他基礎設施中。
  可以被濫用來(lái)接管你的系統的攻擊向量有很多,例如:
  下面的各個(gè)章節講解了能夠優(yōu)化你的鏡像安全性的各種方法。它們是按重要性 / 影響程度排序的,也就是說(shuō)排名靠前的方法更重要。
  2避免泄露構建密鑰
  構建密鑰是只在構建 Docker 鏡像時(shí)需要的憑證(不是在運行時(shí))。例如,你可能想在你的鏡像中包含某個(gè)應用程序的一個(gè)編譯版本,這個(gè)應用的源代碼是閉源的,并且其 Git 存儲庫是有訪(fǎng)問(wèn)保護的。在構建鏡像時(shí),你需要克隆 Git 存儲庫(這需要構建密鑰,例如該存儲庫的 SSH 訪(fǎng)問(wèn)密鑰),從源代碼構建應用程序,然后再刪除源代碼(和密鑰)。
  “泄露“構建密鑰是說(shuō)你不小心把這種密鑰烘焙到了你的鏡像的某個(gè)層中。這種情況很?chē)乐?,因為拉取你的鏡像的所有人都可以檢索到這些機密。這個(gè)問(wèn)題源于這樣一個(gè)事實(shí),即 Docker 鏡像是以純粹的加法方式逐層構建的。你在一個(gè)層中刪除的文件只是被“標記”為已刪除,但拉取你鏡像的人們仍然可以使用高級工具訪(fǎng)問(wèn)它們。
  可以使用以下兩種方法之一來(lái)避免泄露構建密鑰。
  多階段構建
  Docker 多階段構建(官方文檔)有許多用例,例如加快你的鏡像構建速度,或減少鏡像大小。本系列的其他文章會(huì )詳細介紹其他用例??傊?,你也可以通過(guò)多階段構建來(lái)避免泄露構建密鑰,如下所示:
  BuildKit 的密鑰背景知識如果你使用 docker build 進(jìn)行構建,可以實(shí)際執行構建的后端選項不止一個(gè)。其中較新和較快的后端是 BuildKit,你需要在 Linux 上設置環(huán)境變量 DOCKER_BUILDKIT=1 來(lái)顯式啟用它。注意,BuildKit 在 Windows/MacOS 的 Docker for Desktop 上是默認啟用的。
  正如這里的文檔所解釋的(閱讀它們以了解更多細節),BuildKit 構建引擎支持 Dockerfile 中的額外語(yǔ)法。要使用構建密鑰,請在你的 Dockerfile 中放入類(lèi)似下面這樣的內容:
  RUN --mount=type=secret,id=mysecret,dst=/foobar
  當 RUN 語(yǔ)句被執行時(shí),密鑰將對這個(gè)構建容器可用,但不會(huì )將密鑰本身(這里是:/foobar 文件夾)放入構建的鏡像中。你需要在運行 docker build 命令時(shí)指定密鑰的源文件 / 文件夾(位于主機上)的路徑,例如:
  docker build --secret id=mysecret,src=mysecret.txt -t sometag
  不過(guò)有一點(diǎn)需要注意:你不能通過(guò) docker-compose up --build 來(lái)構建需要密鑰的鏡像,因為 Docker-compose 還不支持用于構建的 --secret 參數,見(jiàn) GitHub 問(wèn)題。如果你依賴(lài) docker-compose 的構建,請使用方法 1(多階段構建)。
  題外話(huà):不要推送在開(kāi)發(fā)機上構建的鏡像
  你應該一直在一個(gè)干凈的環(huán)境中構建和推送鏡像(例如 CI/CD 管道),其中構建代理會(huì )將你的存儲庫克隆到一個(gè)新目錄。
  使用本地開(kāi)發(fā)機器進(jìn)行構建的問(wèn)題是,你的本地 Git 存儲庫的“工作樹(shù)“可能是臟的。例如,它可能包含有開(kāi)發(fā)過(guò)程中需要的密鑰文件,例如對中轉甚至生產(chǎn)服務(wù)器的訪(fǎng)問(wèn)密鑰。如果沒(méi)有通過(guò).dockerignore 排除這些文件,那么 Dockerfile 中的“COPY . .“等語(yǔ)句可能會(huì )意外導致這些密鑰泄露到最終鏡像中。
  3以非 root 用戶(hù)身份運行
  默認情況下,當有人通過(guò)“docker runyourImage:yourTag“運行你的鏡像時(shí),這個(gè)容器(以及你在 ENTRYPOINT/CMD 中的程序)會(huì )以 root 用戶(hù)身份運行(在容器和主機上)。這給了一個(gè)使用某種漏洞在你的運行容器中獲得 shell 權限的攻擊者以下權力:
  為了避免這種情況,你應該以非 root 用戶(hù)(你在 docker build 過(guò)程中創(chuàng )建的一些用戶(hù))的身份運行你的應用程序。在你的 Dockerfile 中的某個(gè)地方(通常是在結尾處)放置以下語(yǔ)句:
  # Create a new user (including a home-directory, which is optional)RUN useradd --create-home appuser# Switch to this userUSER appuser
  Dockerfile 中所有在 USER appuser 語(yǔ)句之后的命令(如 RUN、CMD 或 ENTRYPOINT)都將以這個(gè)用戶(hù)運行。這里有一些需要注意的地方:
  4使用最新的基礎鏡像構建和更新系統包
  如果你使用的基礎鏡像包含了某個(gè)真正的 Linux 發(fā)行版(如 Debian、Ubuntu 或 alpine 鏡像)的全部工具集,其中包括一個(gè)軟件包管理器,建議使用該軟件包管理器來(lái)安裝所有可用的軟件包更新。
  背景知識基礎鏡像是由某人維護的,他配置了 CI/CD 管道計劃來(lái)構建基礎鏡像,并定期推送到 Docker Hub。你無(wú)法控制這個(gè)時(shí)間間隔,而且經(jīng)常發(fā)生的情況是,在該管道將更新的 Docker 鏡像推送到 Docker Hub 之前,Linux 發(fā)行版的包注冊表(例如通過(guò) apt)中已經(jīng)有了安全補丁。例如,即使基礎鏡像每周推送一次,也有可能在最近的鏡像發(fā)布幾小時(shí)或幾天后出現安全更新。
  因此,最好總是運行更新本地軟件包數據庫和安裝更新的包管理器命令,采用無(wú)人值守模式(不需要用戶(hù)確認)。每個(gè) Linux 發(fā)行版的這個(gè)命令都不一樣。
  例如,對于 Ubuntu、Debian 或衍生的發(fā)行版,使用 RUN apt-get update && apt-get -y upgrade
  另一個(gè)重要的細節是,你需要告訴 Docker(或你使用的任何鏡像構建工具)來(lái)刷新基礎鏡像。否則,如果你引用一個(gè)基礎鏡像,比如 python:3(而 Docker 在其本地鏡像緩存中已經(jīng)有了這樣一個(gè)鏡像),Docker 甚至不會(huì )檢查 Docker Hub 上是否存在更新的 python:3 版本。為了擺脫這種行為,你應該使用這個(gè)命令:
  docker build --pull
  這可以確保 Docker 在構建鏡像之前拉取你的 Dockerfile 中 FROM 語(yǔ)句中提到的鏡像的更新。
  你還應該注意 Docker 的層緩存機制,它會(huì )讓你的鏡像變得陳舊,因為 RUN 命令的層是緩存的,直到基礎鏡像維護者發(fā)布新版本的基礎鏡像才刷新。如果你發(fā)現基礎鏡像的發(fā)布頻率相當低(比如少于一周一次),那么定期(比如每周一次)重建你的鏡像并禁用層緩存是個(gè)好主意。你可以運行以下命令來(lái)做到這一點(diǎn):
  docker build --pull --no-cache
  5定期更新第三方依賴(lài)
  你編寫(xiě)的軟件是基于第三方的依賴(lài),也就是由其他人制作的軟件。這包括了:
  如果你的鏡像中的這些依賴(lài)過(guò)時(shí)了,就會(huì )增加攻擊面,因為過(guò)時(shí)的依賴(lài)往往有可利用的安全漏洞。
  你可以定期使用 SCA(軟件組件分析)工具來(lái)解決這個(gè)問(wèn)題,比如 Renovate Bot。這些工具(半)自動(dòng)將你聲明的第三方依賴(lài)更新為最新版本,例如在你的 Dockerfile、Python 的 requirements.txt、NPM 的 packages.json 等文件中聲明的列表。你需要設計你的 CI 管道,使 SCA 工具所做的更改自動(dòng)觸發(fā)你的鏡像的 re-build。
  這種自動(dòng)觸發(fā)的鏡像重建對于處在只維護模式,但代碼仍將被客戶(hù)在生產(chǎn)環(huán)境中使用(客戶(hù)希望它是安全的)的項目特別有用。在維護期間,你不再開(kāi)發(fā)新的特性,也不會(huì )構建新的鏡像,因為沒(méi)有新的提交(由你做出)來(lái)觸發(fā)新的構建。然而,由 SCA 工具做出的提交確實(shí)會(huì )再次觸發(fā)鏡像構建。
  你可以在我的相關(guān)博文中找到更多關(guān)于 Renovate bot 的細節。
  6對你的鏡像進(jìn)行漏洞掃描
  即使你執行了上述建議,比如說(shuō)你的鏡像總是使用最新的第三方依賴(lài),它仍然可能是不安全的(例如一個(gè)依賴(lài)已經(jīng)被棄用的情況)。在這種情況下,“不安全“意味著(zhù)一個(gè)(或多個(gè))依賴(lài)有已知的安全漏洞(在一些 CVE 數據庫中注冊)。
  出于這個(gè)原因,你可以給你的 Docker 鏡像提供某種工具來(lái)掃描所有包含的文件,以找到這種漏洞。這些工具有兩種形式:
  你顯式調用的 CLI 工具(例如在 CI 管道中),比如說(shuō) Trivy(OSS,在 CI 管道中非常容易使用,見(jiàn) Trivy 文檔)、Clair(OSS,但設置和使用比 Trivy 更復雜),或 Snyk(通過(guò)“docker scan“集成到 Docker CLI 中,見(jiàn) cheat sheet,但只有有限的免費計劃!)
  集成到你推送鏡像的鏡像注冊中心的掃描器,如 Harbor(內部使用 Clair 或 Trivy)。還有一些商業(yè)產(chǎn)品,如 Anchore。
  因為這些掃描器是通用的,它們還試圖覆蓋一大堆包注冊表,所以可能不會(huì )特別為你在自己項目中使用的編程語(yǔ)言或包注冊表定制。有時(shí),你應該調查你的編程語(yǔ)言生態(tài)系統提供了哪些工具。例如,對于 Python 來(lái)說(shuō)就有一個(gè)專(zhuān)門(mén)針對 Python 包的安全工具。
  7掃描你的 Dockerfile 是否違反了最佳實(shí)踐
  有時(shí),問(wèn)題來(lái)自于你在 Dockerfile 中放置的語(yǔ)句,這些語(yǔ)句是不好的實(shí)踐(但你沒(méi)有意識到)。為此可以使用諸如 checkov、Conftest、trivy 或 hadolint 等工具,它們是 Dockerfile 的 linter。為了選擇正確的工具,你需要查看它的默認規則 / 政策。例如,hadolint 比 checkov 或 conftest 提供的規則更多,因為它是專(zhuān)門(mén)針對 Dockerfiles 的。這些工具也是相互補充的,因此在你的 Dockerfiles 上運行多個(gè)工具(如 hadolint 和 trivy)確實(shí)是有意義的。不過(guò)要做好準備,因為你需要維護“忽略文件“,在這個(gè)文件中的規則會(huì )被忽略——可能是由于誤報而有意忽略它們,或者是你準備故意破壞規則。
  8不要對 Docker Hub 使用 Docker 內容信任
  為了驗證你使用的基礎鏡像確實(shí)是由該鏡像背后的公司構建和推送的,你可以使用 Docker 內容信任(見(jiàn)官方文檔)特性。只需在運行 docker build 或 docker pull 時(shí)將 DOCKER_CONTENT_TRUST 環(huán)境變量設為“1“即可啟用該特性。Docker 守護進(jìn)程將拒絕提取沒(méi)有經(jīng)過(guò)發(fā)布者簽名的鏡像。
  不幸的是,大約一年前開(kāi)始社區就不再以這種方式簽名鏡像了。就連 Docker Inc. 也在 2020 年 12 月停止了簽名官方 Docker 鏡像,也沒(méi)有官方解釋。問(wèn)題更大的是如果你使用“docker pull docker:latest”這樣的命令,只會(huì )下載一個(gè)過(guò)時(shí)很久的鏡像。
  你可以查看一下鏡像簽名的其他實(shí)現,比如說(shuō) cosign(不過(guò)我還沒(méi)試過(guò))。
  9掃描你自己的代碼是否有安全問(wèn)題
  安全問(wèn)題通常來(lái)源于其他人的代碼,也就是流行的第三方依賴(lài)。因為它們應用廣泛,所以在黑客那里是“有利可圖“的。然而,有時(shí)是你自己的代碼在作怪。例如,你可能不小心實(shí)現了 SQL 注入的可能性、堆棧溢出的錯誤,等等。
  為了找到這些問(wèn)題,你可以使用所謂的 SAST(靜態(tài)應用安全測試)工具。一方面,有一些特定于編程語(yǔ)言的工具(你必須單獨研究),如 Python 的 bandit,或 Java 的 Checkstyle/Spotbugs。另一方面,還有一些支持多種編程語(yǔ)言和框架的工具套件(其中一些是非免費 / 商業(yè)的),如 SonarQube(對于它還有 SonarLint IDE 插件)。
  在實(shí)踐中,安全掃描有兩種基本方法:
  連續(自動(dòng))掃描:你創(chuàng )建一個(gè) CI 作業(yè),在每次推送時(shí)掃描你的代碼。這可以讓你的代碼安全性保持在一個(gè)較高的水平上,但你必須弄清楚如何忽略誤報(這是一項持續的維護工作)。如果你使用 GitLab,可能還會(huì )發(fā)現 GitLab 的免費 SAST 功能很有趣。
  不定期(手動(dòng))掃描:團隊中一些有安全意識的成員在本地運行安全檢查,例如每月一次或每次發(fā)布前,并手動(dòng)查看結果。
  10使用 docker-slim 來(lái)刪除不必要的文件
  docker-slim 工具可以獲取大型 Docker 鏡像,臨時(shí)運行它們,分析哪些文件在臨時(shí)容器中是被真正使用的,然后生成一個(gè)新的、單層的 Docker 鏡像——其中所有未使用的文件都會(huì )被刪除。這樣做有兩個(gè)好處: 查看全部

  12 個(gè)優(yōu)化 Docker 鏡像安全性的技巧
  
  作者 |Marius出品|
  本文介紹了 12 個(gè)優(yōu)化 Docker 鏡像安全性的技巧。每個(gè)技巧都解釋了底層的攻擊載體,以及一個(gè)或多個(gè)緩解方法。這些技巧包括了避免泄露構建密鑰、以非 root 用戶(hù)身份運行,或如何確保使用最新的依賴(lài)和更新等。
  1前言
  當你是剛開(kāi)始使用 Docker 的新手時(shí),你很可能會(huì )創(chuàng )建不安全的 Docker 鏡像,使攻擊者很容易借此接管容器,甚至可能接管整個(gè)主機,然后滲透到你公司的其他基礎設施中。
  可以被濫用來(lái)接管你的系統的攻擊向量有很多,例如:
  下面的各個(gè)章節講解了能夠優(yōu)化你的鏡像安全性的各種方法。它們是按重要性 / 影響程度排序的,也就是說(shuō)排名靠前的方法更重要。
  2避免泄露構建密鑰
  構建密鑰是只在構建 Docker 鏡像時(shí)需要的憑證(不是在運行時(shí))。例如,你可能想在你的鏡像中包含某個(gè)應用程序的一個(gè)編譯版本,這個(gè)應用的源代碼是閉源的,并且其 Git 存儲庫是有訪(fǎng)問(wèn)保護的。在構建鏡像時(shí),你需要克隆 Git 存儲庫(這需要構建密鑰,例如該存儲庫的 SSH 訪(fǎng)問(wèn)密鑰),從源代碼構建應用程序,然后再刪除源代碼(和密鑰)。
  “泄露“構建密鑰是說(shuō)你不小心把這種密鑰烘焙到了你的鏡像的某個(gè)層中。這種情況很?chē)乐?,因為拉取你的鏡像的所有人都可以檢索到這些機密。這個(gè)問(wèn)題源于這樣一個(gè)事實(shí),即 Docker 鏡像是以純粹的加法方式逐層構建的。你在一個(gè)層中刪除的文件只是被“標記”為已刪除,但拉取你鏡像的人們仍然可以使用高級工具訪(fǎng)問(wèn)它們。
  可以使用以下兩種方法之一來(lái)避免泄露構建密鑰。
  多階段構建
  Docker 多階段構建(官方文檔)有許多用例,例如加快你的鏡像構建速度,或減少鏡像大小。本系列的其他文章會(huì )詳細介紹其他用例??傊?,你也可以通過(guò)多階段構建來(lái)避免泄露構建密鑰,如下所示:
  BuildKit 的密鑰背景知識如果你使用 docker build 進(jìn)行構建,可以實(shí)際執行構建的后端選項不止一個(gè)。其中較新和較快的后端是 BuildKit,你需要在 Linux 上設置環(huán)境變量 DOCKER_BUILDKIT=1 來(lái)顯式啟用它。注意,BuildKit 在 Windows/MacOS 的 Docker for Desktop 上是默認啟用的。
  正如這里的文檔所解釋的(閱讀它們以了解更多細節),BuildKit 構建引擎支持 Dockerfile 中的額外語(yǔ)法。要使用構建密鑰,請在你的 Dockerfile 中放入類(lèi)似下面這樣的內容:
  RUN --mount=type=secret,id=mysecret,dst=/foobar
  當 RUN 語(yǔ)句被執行時(shí),密鑰將對這個(gè)構建容器可用,但不會(huì )將密鑰本身(這里是:/foobar 文件夾)放入構建的鏡像中。你需要在運行 docker build 命令時(shí)指定密鑰的源文件 / 文件夾(位于主機上)的路徑,例如:
  docker build --secret id=mysecret,src=mysecret.txt -t sometag
  不過(guò)有一點(diǎn)需要注意:你不能通過(guò) docker-compose up --build 來(lái)構建需要密鑰的鏡像,因為 Docker-compose 還不支持用于構建的 --secret 參數,見(jiàn) GitHub 問(wèn)題。如果你依賴(lài) docker-compose 的構建,請使用方法 1(多階段構建)。
  題外話(huà):不要推送在開(kāi)發(fā)機上構建的鏡像
  你應該一直在一個(gè)干凈的環(huán)境中構建和推送鏡像(例如 CI/CD 管道),其中構建代理會(huì )將你的存儲庫克隆到一個(gè)新目錄。
  使用本地開(kāi)發(fā)機器進(jìn)行構建的問(wèn)題是,你的本地 Git 存儲庫的“工作樹(shù)“可能是臟的。例如,它可能包含有開(kāi)發(fā)過(guò)程中需要的密鑰文件,例如對中轉甚至生產(chǎn)服務(wù)器的訪(fǎng)問(wèn)密鑰。如果沒(méi)有通過(guò).dockerignore 排除這些文件,那么 Dockerfile 中的“COPY . .“等語(yǔ)句可能會(huì )意外導致這些密鑰泄露到最終鏡像中。
  3以非 root 用戶(hù)身份運行
  默認情況下,當有人通過(guò)“docker runyourImage:yourTag“運行你的鏡像時(shí),這個(gè)容器(以及你在 ENTRYPOINT/CMD 中的程序)會(huì )以 root 用戶(hù)身份運行(在容器和主機上)。這給了一個(gè)使用某種漏洞在你的運行容器中獲得 shell 權限的攻擊者以下權力:
  為了避免這種情況,你應該以非 root 用戶(hù)(你在 docker build 過(guò)程中創(chuàng )建的一些用戶(hù))的身份運行你的應用程序。在你的 Dockerfile 中的某個(gè)地方(通常是在結尾處)放置以下語(yǔ)句:
  # Create a new user (including a home-directory, which is optional)RUN useradd --create-home appuser# Switch to this userUSER appuser
  Dockerfile 中所有在 USER appuser 語(yǔ)句之后的命令(如 RUN、CMD 或 ENTRYPOINT)都將以這個(gè)用戶(hù)運行。這里有一些需要注意的地方:
  4使用最新的基礎鏡像構建和更新系統包
  如果你使用的基礎鏡像包含了某個(gè)真正的 Linux 發(fā)行版(如 Debian、Ubuntu 或 alpine 鏡像)的全部工具集,其中包括一個(gè)軟件包管理器,建議使用該軟件包管理器來(lái)安裝所有可用的軟件包更新。
  背景知識基礎鏡像是由某人維護的,他配置了 CI/CD 管道計劃來(lái)構建基礎鏡像,并定期推送到 Docker Hub。你無(wú)法控制這個(gè)時(shí)間間隔,而且經(jīng)常發(fā)生的情況是,在該管道將更新的 Docker 鏡像推送到 Docker Hub 之前,Linux 發(fā)行版的包注冊表(例如通過(guò) apt)中已經(jīng)有了安全補丁。例如,即使基礎鏡像每周推送一次,也有可能在最近的鏡像發(fā)布幾小時(shí)或幾天后出現安全更新。
  因此,最好總是運行更新本地軟件包數據庫和安裝更新的包管理器命令,采用無(wú)人值守模式(不需要用戶(hù)確認)。每個(gè) Linux 發(fā)行版的這個(gè)命令都不一樣。
  例如,對于 Ubuntu、Debian 或衍生的發(fā)行版,使用 RUN apt-get update && apt-get -y upgrade
  另一個(gè)重要的細節是,你需要告訴 Docker(或你使用的任何鏡像構建工具)來(lái)刷新基礎鏡像。否則,如果你引用一個(gè)基礎鏡像,比如 python:3(而 Docker 在其本地鏡像緩存中已經(jīng)有了這樣一個(gè)鏡像),Docker 甚至不會(huì )檢查 Docker Hub 上是否存在更新的 python:3 版本。為了擺脫這種行為,你應該使用這個(gè)命令:
  docker build --pull
  這可以確保 Docker 在構建鏡像之前拉取你的 Dockerfile 中 FROM 語(yǔ)句中提到的鏡像的更新。
  你還應該注意 Docker 的層緩存機制,它會(huì )讓你的鏡像變得陳舊,因為 RUN 命令的層是緩存的,直到基礎鏡像維護者發(fā)布新版本的基礎鏡像才刷新。如果你發(fā)現基礎鏡像的發(fā)布頻率相當低(比如少于一周一次),那么定期(比如每周一次)重建你的鏡像并禁用層緩存是個(gè)好主意。你可以運行以下命令來(lái)做到這一點(diǎn):
  docker build --pull --no-cache
  5定期更新第三方依賴(lài)
  你編寫(xiě)的軟件是基于第三方的依賴(lài),也就是由其他人制作的軟件。這包括了:
  如果你的鏡像中的這些依賴(lài)過(guò)時(shí)了,就會(huì )增加攻擊面,因為過(guò)時(shí)的依賴(lài)往往有可利用的安全漏洞。
  你可以定期使用 SCA(軟件組件分析)工具來(lái)解決這個(gè)問(wèn)題,比如 Renovate Bot。這些工具(半)自動(dòng)將你聲明的第三方依賴(lài)更新為最新版本,例如在你的 Dockerfile、Python 的 requirements.txt、NPM 的 packages.json 等文件中聲明的列表。你需要設計你的 CI 管道,使 SCA 工具所做的更改自動(dòng)觸發(fā)你的鏡像的 re-build。
  這種自動(dòng)觸發(fā)的鏡像重建對于處在只維護模式,但代碼仍將被客戶(hù)在生產(chǎn)環(huán)境中使用(客戶(hù)希望它是安全的)的項目特別有用。在維護期間,你不再開(kāi)發(fā)新的特性,也不會(huì )構建新的鏡像,因為沒(méi)有新的提交(由你做出)來(lái)觸發(fā)新的構建。然而,由 SCA 工具做出的提交確實(shí)會(huì )再次觸發(fā)鏡像構建。
  你可以在我的相關(guān)博文中找到更多關(guān)于 Renovate bot 的細節。
  6對你的鏡像進(jìn)行漏洞掃描
  即使你執行了上述建議,比如說(shuō)你的鏡像總是使用最新的第三方依賴(lài),它仍然可能是不安全的(例如一個(gè)依賴(lài)已經(jīng)被棄用的情況)。在這種情況下,“不安全“意味著(zhù)一個(gè)(或多個(gè))依賴(lài)有已知的安全漏洞(在一些 CVE 數據庫中注冊)。
  出于這個(gè)原因,你可以給你的 Docker 鏡像提供某種工具來(lái)掃描所有包含的文件,以找到這種漏洞。這些工具有兩種形式:
  你顯式調用的 CLI 工具(例如在 CI 管道中),比如說(shuō) Trivy(OSS,在 CI 管道中非常容易使用,見(jiàn) Trivy 文檔)、Clair(OSS,但設置和使用比 Trivy 更復雜),或 Snyk(通過(guò)“docker scan“集成到 Docker CLI 中,見(jiàn) cheat sheet,但只有有限的免費計劃!)
  集成到你推送鏡像的鏡像注冊中心的掃描器,如 Harbor(內部使用 Clair 或 Trivy)。還有一些商業(yè)產(chǎn)品,如 Anchore。
  因為這些掃描器是通用的,它們還試圖覆蓋一大堆包注冊表,所以可能不會(huì )特別為你在自己項目中使用的編程語(yǔ)言或包注冊表定制。有時(shí),你應該調查你的編程語(yǔ)言生態(tài)系統提供了哪些工具。例如,對于 Python 來(lái)說(shuō)就有一個(gè)專(zhuān)門(mén)針對 Python 包的安全工具。
  7掃描你的 Dockerfile 是否違反了最佳實(shí)踐
  有時(shí),問(wèn)題來(lái)自于你在 Dockerfile 中放置的語(yǔ)句,這些語(yǔ)句是不好的實(shí)踐(但你沒(méi)有意識到)。為此可以使用諸如 checkov、Conftest、trivy 或 hadolint 等工具,它們是 Dockerfile 的 linter。為了選擇正確的工具,你需要查看它的默認規則 / 政策。例如,hadolint 比 checkov 或 conftest 提供的規則更多,因為它是專(zhuān)門(mén)針對 Dockerfiles 的。這些工具也是相互補充的,因此在你的 Dockerfiles 上運行多個(gè)工具(如 hadolint 和 trivy)確實(shí)是有意義的。不過(guò)要做好準備,因為你需要維護“忽略文件“,在這個(gè)文件中的規則會(huì )被忽略——可能是由于誤報而有意忽略它們,或者是你準備故意破壞規則。
  8不要對 Docker Hub 使用 Docker 內容信任
  為了驗證你使用的基礎鏡像確實(shí)是由該鏡像背后的公司構建和推送的,你可以使用 Docker 內容信任(見(jiàn)官方文檔)特性。只需在運行 docker build 或 docker pull 時(shí)將 DOCKER_CONTENT_TRUST 環(huán)境變量設為“1“即可啟用該特性。Docker 守護進(jìn)程將拒絕提取沒(méi)有經(jīng)過(guò)發(fā)布者簽名的鏡像。
  不幸的是,大約一年前開(kāi)始社區就不再以這種方式簽名鏡像了。就連 Docker Inc. 也在 2020 年 12 月停止了簽名官方 Docker 鏡像,也沒(méi)有官方解釋。問(wèn)題更大的是如果你使用“docker pull docker:latest”這樣的命令,只會(huì )下載一個(gè)過(guò)時(shí)很久的鏡像。
  你可以查看一下鏡像簽名的其他實(shí)現,比如說(shuō) cosign(不過(guò)我還沒(méi)試過(guò))。
  9掃描你自己的代碼是否有安全問(wèn)題
  安全問(wèn)題通常來(lái)源于其他人的代碼,也就是流行的第三方依賴(lài)。因為它們應用廣泛,所以在黑客那里是“有利可圖“的。然而,有時(shí)是你自己的代碼在作怪。例如,你可能不小心實(shí)現了 SQL 注入的可能性、堆棧溢出的錯誤,等等。
  為了找到這些問(wèn)題,你可以使用所謂的 SAST(靜態(tài)應用安全測試)工具。一方面,有一些特定于編程語(yǔ)言的工具(你必須單獨研究),如 Python 的 bandit,或 Java 的 Checkstyle/Spotbugs。另一方面,還有一些支持多種編程語(yǔ)言和框架的工具套件(其中一些是非免費 / 商業(yè)的),如 SonarQube(對于它還有 SonarLint IDE 插件)。
  在實(shí)踐中,安全掃描有兩種基本方法:
  連續(自動(dòng))掃描:你創(chuàng )建一個(gè) CI 作業(yè),在每次推送時(shí)掃描你的代碼。這可以讓你的代碼安全性保持在一個(gè)較高的水平上,但你必須弄清楚如何忽略誤報(這是一項持續的維護工作)。如果你使用 GitLab,可能還會(huì )發(fā)現 GitLab 的免費 SAST 功能很有趣。
  不定期(手動(dòng))掃描:團隊中一些有安全意識的成員在本地運行安全檢查,例如每月一次或每次發(fā)布前,并手動(dòng)查看結果。
  10使用 docker-slim 來(lái)刪除不必要的文件
  docker-slim 工具可以獲取大型 Docker 鏡像,臨時(shí)運行它們,分析哪些文件在臨時(shí)容器中是被真正使用的,然后生成一個(gè)新的、單層的 Docker 鏡像——其中所有未使用的文件都會(huì )被刪除。這樣做有兩個(gè)好處:

21春南開(kāi)大學(xué)《商務(wù)智能方法與技術(shù)》在線(xiàn)作業(yè)參考答案

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 116 次瀏覽 ? 2022-05-01 15:43 ? 來(lái)自相關(guān)話(huà)題

  21春南開(kāi)大學(xué)《商務(wù)智能方法與技術(shù)》在線(xiàn)作業(yè)參考答案
  1、()是結構化、可以用語(yǔ)言、文字進(jìn)行口頭或書(shū)面表達的。
  A.顯性知識
  B.隱形知識
  C.兩者皆可
  D.兩者都不可
  答案:A
  --------------------------------
  2、選擇供應商一般以滿(mǎn)足時(shí)間約束的條件下()為目標。
  A.最小化物流成本
  B.最大化物流成本
  C.最小化維護成本
  D.最大化維護成本
  答案:A
  --------------------------------
  3、哪種數據庫工具采用矩陣方式來(lái)存儲數據?()
  A.多維數據庫工具(MOLAP)
  B.關(guān)系型數據庫工具(ROLAP)
  C.桌面型數據庫工具
  D.都不是
  答案:A
  --------------------------------
  4、()是一種以規范化的方式構造端到端的業(yè)務(wù)流程為中心,以持續地提高組織績(jì)效為目的的系統化方法。
  A.知識管理
  B.信息化管理
  C.方法管理
  D.業(yè)務(wù)流程管理
  答案:D
  --------------------------------
  5、知識管理將信息處理能力和人的創(chuàng )新能力相互結合,增強組織對環(huán)境的適應能力是哪個(gè)知識管理學(xué)派的說(shuō)法?()
  A.行為學(xué)派
  B.技術(shù)學(xué)派
  C.管理學(xué)派
  D.綜合學(xué)派
  答案:D
  --------------------------------
  6、數據倉庫系統組成中,哪個(gè)部件是把數據從源數據中提取出來(lái),依定義部件的規則將不同數據格式的源數據轉換成數據倉庫的數據格式并裝載進(jìn)數據倉庫?()
  A.元數據庫及元數據管理部件
  B.數據轉換部件
  C.數據集成部件
  D.數據倉庫管理部件
  答案:B
  --------------------------------
  7、()根據文本的不同特征劃分為不同的類(lèi)。
  A.文本概括
  B.文本分類(lèi)
  C.文本聚類(lèi)
  D.都可以
  答案:C
  --------------------------------
  8、OLAP分析屬于哪種驅動(dòng)型發(fā)現?()
  A.驗證驅動(dòng)型
  B.經(jīng)驗驅動(dòng)型
  C.事實(shí)驅動(dòng)型
  D.發(fā)現驅動(dòng)型
  答案:A
  --------------------------------
  9、()針對包括Web頁(yè)面內容、頁(yè)面結構和用戶(hù)訪(fǎng)問(wèn)信息等在內的各種Web數據,應用數據挖掘方法發(fā)現有用的知識幫助人們從大量Web文檔集中發(fā)現隱藏的模式。
  A.內容挖掘
  B.結構挖掘
  C.文本挖掘
  D.使用挖掘
  答案:C
  --------------------------------
  10、()是基于網(wǎng)頁(yè)內容或其描述中抽取知識的過(guò)程。
  A.內容挖掘
  B.結構挖掘
  C.個(gè)性挖掘
  D.使用(日志)挖掘
  答案:A
  --------------------------------
  11、數據倉庫的前端工具集中,哪個(gè)工具是通過(guò)對信息的多種可能的觀(guān)察形式進(jìn)行快速、一致和交互性的存取,便于用戶(hù)對數據進(jìn)行深入的分析和觀(guān)察?()
  A.查詢(xún)/報表工具
  B.數據挖掘工具
  C.OLAP工具
  D.前端開(kāi)發(fā)工具
  答案:C
  --------------------------------
  12、歸咎(imputation)是處理()的一種方法。
  A.數據分析
  B.數據準備
  C.數據質(zhì)量
  D.空缺值
  答案:D
  --------------------------------
  13、多庫系統的限制主要表現在哪些方面?()
  A.可用性
  B.響應速度
  C.系統性能
  D.系統開(kāi)銷(xiāo)
  答案:ABCD
  --------------------------------
  14、數據清理處理包括哪些內容?()
  A.格式標準化
  B.異常數據清除
  C.錯誤糾正
  D.重復數據清除
  答案:ABCD
  --------------------------------
  15、傳統的建模方法注意力主要集中于()兩個(gè)階段。
  A.模型設計
  B.模型實(shí)現
  C.模型運行
  D.模型維護
  答案:AB
  --------------------------------
  16、Web挖掘分類(lèi)為()。
  A.內容挖掘
  B.結構挖掘
  C.個(gè)性挖掘
  D.使用挖掘
  答案:ABD
  --------------------------------
  17、Web挖掘是從大量Web文檔的集合C中發(fā)現()模式P的過(guò)程。
  A.隱含的
  B.明顯的
  C.相關(guān)的
  D.有用的
  答案:AD
  --------------------------------
  18、數據挖掘是指從數據中提取()信息并用它進(jìn)行決策的過(guò)程。
  A.正確的
  B.有用的
  C.未知的
  D.綜合的
  答案:ABCD
  --------------------------------
  19、業(yè)務(wù)流程管理包括()。
  A.流程分析
  B.流程定義與重定義
  C.資源分配
  D.流程質(zhì)量與效率測評和流程優(yōu)化
  答案:ABCD
  --------------------------------
  20、數據預處理包含哪些步驟?()
  A.數據清理
  B.數據集成
  C.數據變換
  D.數據歸約
  答案:ABCD
  --------------------------------
  21、數據導向型決策支持系統,可以用等()分析得到隱藏對決策有用的模式和規則。
  A.統計方法
  B.OLAP
  C.數據挖掘
  D.知識分析
  答案:ABC
  --------------------------------
  22、Web挖掘主要處理()等半結構、非結構化的數據,這些數據分布在Web文檔、Web服務(wù)器的日志、用戶(hù)cookies等。
  A.文本
  B.圖形
  C.圖像
  D.多媒體
  答案:ABC
  --------------------------------
  23、商務(wù)智能技術(shù)可以分析哪些數據類(lèi)型?()
  A.結構化數據
  B.半結構化數據
  C.非結構化數據
  D.靜態(tài)的歷史數據和動(dòng)態(tài)數據流
  答案:ABCD
  --------------------------------
  24、知識網(wǎng)絡(luò )是指人們溝通形成“知識活動(dòng)”的網(wǎng)絡(luò ),它既是知識活動(dòng)的場(chǎng)所,又是知識活動(dòng)的結果。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  25、業(yè)務(wù)流程是知識積累的重要工具,其運作過(guò)程是信息積累并轉變?yōu)橛杏弥R的過(guò)程。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  26、OLAP也可以說(shuō)是多維數據分析工具的集合。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  27、數據倉庫與知識管理系統的結合就是商務(wù)智能系統。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  28、Web數據的復雜性高于傳統的文本文檔。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  29、當一定數量的參與者都有某些權限的組合時(shí),可以把這些權限組合視為一個(gè)備選角色。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  30、知識的收集、加工、傳輸與利用貫穿著(zhù)決策各階段的工作過(guò)程。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  31、Web是一個(gè)動(dòng)態(tài)性較弱的信息源。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  32、隱性知識是指存在于人頭腦中的隱性的、非結構化、不可編碼的知識,是關(guān)于個(gè)人的思想、經(jīng)驗等。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  33、對用戶(hù)的敏感的原始數據進(jìn)行變換,以便數據的使用者不能對用戶(hù)的原始數據進(jìn)行查看,以此保護用戶(hù)的私有數據。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  34、當某屬性出現空缺值時(shí),應丟棄這個(gè)屬性。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  35、數據集市是部門(mén)級數據倉庫。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  36、知識管理是將動(dòng)態(tài)信息轉化為知識、利用這些知識進(jìn)行企業(yè)行為決策,并且在組織內實(shí)現知識共享的過(guò)程。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  37、Web媒體挖掘是指挖掘Web鏈接結構模式,即通過(guò)分析頁(yè)面鏈接的數量和對象,從而建立Web的鏈接結構模式。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  38、數據倉庫的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  39、基于關(guān)聯(lián)挖掘的自適應構件檢索指把關(guān)聯(lián)規則挖掘方法引入構件檢索。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  40、隱性知識可以被當做顯性知識進(jìn)行獲取。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  41、多媒體挖掘包括圖像挖掘、視頻挖掘和音頻挖掘等類(lèi)別。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  42、Web日志挖掘是從用戶(hù)訪(fǎng)問(wèn)日志(包括搜索引擎日志等)中獲取有價(jià)值的信息。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  43、顯性知識是指具有規范化、系統化的特點(diǎn),易于整理、溝通和分享的知識。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  44、信息也是數據,數據是信息的載體, 信息是對數據的解釋。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  45、知識管理是通過(guò)技術(shù)的手段(+)將人(P)與知識(K)充分結合,并通過(guò)知識共享的管理機制和文化(S),使知識的價(jià)值成指數級提升。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  46、構件檢索是構件庫研究中的重要問(wèn)題,有效的構件檢索機制能夠降低構件復用成本。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  47、鉆取、切片和切塊操作是為了完成對真實(shí)數據的匯總分析。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  48、對結果的解釋完全依賴(lài)于數據挖掘步驟的可視化輸出。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  49、流程是運用知識創(chuàng )造顧客價(jià)值的崗位流轉,企業(yè)的核心業(yè)務(wù)、研發(fā)和內部管理等流程都需要知識管理推動(dòng)。()
  A.錯誤
  B.正確
  答案:B
  -------------------------------- 查看全部

  21春南開(kāi)大學(xué)《商務(wù)智能方法與技術(shù)》在線(xiàn)作業(yè)參考答案
  1、()是結構化、可以用語(yǔ)言、文字進(jìn)行口頭或書(shū)面表達的。
  A.顯性知識
  B.隱形知識
  C.兩者皆可
  D.兩者都不可
  答案:A
  --------------------------------
  2、選擇供應商一般以滿(mǎn)足時(shí)間約束的條件下()為目標。
  A.最小化物流成本
  B.最大化物流成本
  C.最小化維護成本
  D.最大化維護成本
  答案:A
  --------------------------------
  3、哪種數據庫工具采用矩陣方式來(lái)存儲數據?()
  A.多維數據庫工具(MOLAP)
  B.關(guān)系型數據庫工具(ROLAP)
  C.桌面型數據庫工具
  D.都不是
  答案:A
  --------------------------------
  4、()是一種以規范化的方式構造端到端的業(yè)務(wù)流程為中心,以持續地提高組織績(jì)效為目的的系統化方法。
  A.知識管理
  B.信息化管理
  C.方法管理
  D.業(yè)務(wù)流程管理
  答案:D
  --------------------------------
  5、知識管理將信息處理能力和人的創(chuàng )新能力相互結合,增強組織對環(huán)境的適應能力是哪個(gè)知識管理學(xué)派的說(shuō)法?()
  A.行為學(xué)派
  B.技術(shù)學(xué)派
  C.管理學(xué)派
  D.綜合學(xué)派
  答案:D
  --------------------------------
  6、數據倉庫系統組成中,哪個(gè)部件是把數據從源數據中提取出來(lái),依定義部件的規則將不同數據格式的源數據轉換成數據倉庫的數據格式并裝載進(jìn)數據倉庫?()
  A.元數據庫及元數據管理部件
  B.數據轉換部件
  C.數據集成部件
  D.數據倉庫管理部件
  答案:B
  --------------------------------
  7、()根據文本的不同特征劃分為不同的類(lèi)。
  A.文本概括
  B.文本分類(lèi)
  C.文本聚類(lèi)
  D.都可以
  答案:C
  --------------------------------
  8、OLAP分析屬于哪種驅動(dòng)型發(fā)現?()
  A.驗證驅動(dòng)型
  B.經(jīng)驗驅動(dòng)型
  C.事實(shí)驅動(dòng)型
  D.發(fā)現驅動(dòng)型
  答案:A
  --------------------------------
  9、()針對包括Web頁(yè)面內容、頁(yè)面結構和用戶(hù)訪(fǎng)問(wèn)信息等在內的各種Web數據,應用數據挖掘方法發(fā)現有用的知識幫助人們從大量Web文檔集中發(fā)現隱藏的模式。
  A.內容挖掘
  B.結構挖掘
  C.文本挖掘
  D.使用挖掘
  答案:C
  --------------------------------
  10、()是基于網(wǎng)頁(yè)內容或其描述中抽取知識的過(guò)程。
  A.內容挖掘
  B.結構挖掘
  C.個(gè)性挖掘
  D.使用(日志)挖掘
  答案:A
  --------------------------------
  11、數據倉庫的前端工具集中,哪個(gè)工具是通過(guò)對信息的多種可能的觀(guān)察形式進(jìn)行快速、一致和交互性的存取,便于用戶(hù)對數據進(jìn)行深入的分析和觀(guān)察?()
  A.查詢(xún)/報表工具
  B.數據挖掘工具
  C.OLAP工具
  D.前端開(kāi)發(fā)工具
  答案:C
  --------------------------------
  12、歸咎(imputation)是處理()的一種方法。
  A.數據分析
  B.數據準備
  C.數據質(zhì)量
  D.空缺值
  答案:D
  --------------------------------
  13、多庫系統的限制主要表現在哪些方面?()
  A.可用性
  B.響應速度
  C.系統性能
  D.系統開(kāi)銷(xiāo)
  答案:ABCD
  --------------------------------
  14、數據清理處理包括哪些內容?()
  A.格式標準化
  B.異常數據清除
  C.錯誤糾正
  D.重復數據清除
  答案:ABCD
  --------------------------------
  15、傳統的建模方法注意力主要集中于()兩個(gè)階段。
  A.模型設計
  B.模型實(shí)現
  C.模型運行
  D.模型維護
  答案:AB
  --------------------------------
  16、Web挖掘分類(lèi)為()。
  A.內容挖掘
  B.結構挖掘
  C.個(gè)性挖掘
  D.使用挖掘
  答案:ABD
  --------------------------------
  17、Web挖掘是從大量Web文檔的集合C中發(fā)現()模式P的過(guò)程。
  A.隱含的
  B.明顯的
  C.相關(guān)的
  D.有用的
  答案:AD
  --------------------------------
  18、數據挖掘是指從數據中提取()信息并用它進(jìn)行決策的過(guò)程。
  A.正確的
  B.有用的
  C.未知的
  D.綜合的
  答案:ABCD
  --------------------------------
  19、業(yè)務(wù)流程管理包括()。
  A.流程分析
  B.流程定義與重定義
  C.資源分配
  D.流程質(zhì)量與效率測評和流程優(yōu)化
  答案:ABCD
  --------------------------------
  20、數據預處理包含哪些步驟?()
  A.數據清理
  B.數據集成
  C.數據變換
  D.數據歸約
  答案:ABCD
  --------------------------------
  21、數據導向型決策支持系統,可以用等()分析得到隱藏對決策有用的模式和規則。
  A.統計方法
  B.OLAP
  C.數據挖掘
  D.知識分析
  答案:ABC
  --------------------------------
  22、Web挖掘主要處理()等半結構、非結構化的數據,這些數據分布在Web文檔、Web服務(wù)器的日志、用戶(hù)cookies等。
  A.文本
  B.圖形
  C.圖像
  D.多媒體
  答案:ABC
  --------------------------------
  23、商務(wù)智能技術(shù)可以分析哪些數據類(lèi)型?()
  A.結構化數據
  B.半結構化數據
  C.非結構化數據
  D.靜態(tài)的歷史數據和動(dòng)態(tài)數據流
  答案:ABCD
  --------------------------------
  24、知識網(wǎng)絡(luò )是指人們溝通形成“知識活動(dòng)”的網(wǎng)絡(luò ),它既是知識活動(dòng)的場(chǎng)所,又是知識活動(dòng)的結果。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  25、業(yè)務(wù)流程是知識積累的重要工具,其運作過(guò)程是信息積累并轉變?yōu)橛杏弥R的過(guò)程。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  26、OLAP也可以說(shuō)是多維數據分析工具的集合。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  27、數據倉庫與知識管理系統的結合就是商務(wù)智能系統。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  28、Web數據的復雜性高于傳統的文本文檔。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  29、當一定數量的參與者都有某些權限的組合時(shí),可以把這些權限組合視為一個(gè)備選角色。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  30、知識的收集、加工、傳輸與利用貫穿著(zhù)決策各階段的工作過(guò)程。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  31、Web是一個(gè)動(dòng)態(tài)性較弱的信息源。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  32、隱性知識是指存在于人頭腦中的隱性的、非結構化、不可編碼的知識,是關(guān)于個(gè)人的思想、經(jīng)驗等。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  33、對用戶(hù)的敏感的原始數據進(jìn)行變換,以便數據的使用者不能對用戶(hù)的原始數據進(jìn)行查看,以此保護用戶(hù)的私有數據。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  34、當某屬性出現空缺值時(shí),應丟棄這個(gè)屬性。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  35、數據集市是部門(mén)級數據倉庫。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  36、知識管理是將動(dòng)態(tài)信息轉化為知識、利用這些知識進(jìn)行企業(yè)行為決策,并且在組織內實(shí)現知識共享的過(guò)程。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  37、Web媒體挖掘是指挖掘Web鏈接結構模式,即通過(guò)分析頁(yè)面鏈接的數量和對象,從而建立Web的鏈接結構模式。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  38、數據倉庫的功能是支持管理層進(jìn)行科學(xué)決策,而不是事務(wù)處理。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  39、基于關(guān)聯(lián)挖掘的自適應構件檢索指把關(guān)聯(lián)規則挖掘方法引入構件檢索。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  40、隱性知識可以被當做顯性知識進(jìn)行獲取。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  41、多媒體挖掘包括圖像挖掘、視頻挖掘和音頻挖掘等類(lèi)別。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  42、Web日志挖掘是從用戶(hù)訪(fǎng)問(wèn)日志(包括搜索引擎日志等)中獲取有價(jià)值的信息。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  43、顯性知識是指具有規范化、系統化的特點(diǎn),易于整理、溝通和分享的知識。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  44、信息也是數據,數據是信息的載體, 信息是對數據的解釋。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  45、知識管理是通過(guò)技術(shù)的手段(+)將人(P)與知識(K)充分結合,并通過(guò)知識共享的管理機制和文化(S),使知識的價(jià)值成指數級提升。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  46、構件檢索是構件庫研究中的重要問(wèn)題,有效的構件檢索機制能夠降低構件復用成本。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  47、鉆取、切片和切塊操作是為了完成對真實(shí)數據的匯總分析。()
  A.錯誤
  B.正確
  答案:A
  --------------------------------
  48、對結果的解釋完全依賴(lài)于數據挖掘步驟的可視化輸出。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------
  49、流程是運用知識創(chuàng )造顧客價(jià)值的崗位流轉,企業(yè)的核心業(yè)務(wù)、研發(fā)和內部管理等流程都需要知識管理推動(dòng)。()
  A.錯誤
  B.正確
  答案:B
  --------------------------------

內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(內部信息與外部信息源搜索引擎優(yōu)化方法的異同說(shuō)起)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2022-04-19 03:03 ? 來(lái)自相關(guān)話(huà)題

  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(內部信息與外部信息源搜索引擎優(yōu)化方法的異同說(shuō)起)
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同說(shuō)起優(yōu)化,很多人都認為是內部?jì)?yōu)化外部?jì)?yōu)化,但在我看來(lái),這二者并不一樣。內部?jì)?yōu)化講的是我們改變自己,將產(chǎn)品本身變得更加完善。如何充分認識客戶(hù)是搜索引擎優(yōu)化的主要目標,如何做好客戶(hù)體驗,是我們前期做好內部?jì)?yōu)化的重要目標。外部?jì)?yōu)化講的是我們發(fā)布的信息,如何將信息正確高效地發(fā)送給潛在用戶(hù),其實(shí),外部?jì)?yōu)化更多的是為我們已經(jīng)結果用戶(hù)帶來(lái)價(jià)值。
  外部?jì)?yōu)化更多是提高轉化率。做內部?jì)?yōu)化的重點(diǎn),在于改善我們的產(chǎn)品結構,提高售價(jià),吸引更多的用戶(hù)。但不論做內部?jì)?yōu)化還是外部?jì)?yōu)化,我們都要以客戶(hù)體驗為目標,我們需要獲取到我們能給用戶(hù)帶來(lái)的價(jià)值,提高我們的轉化率。綜上所述,內部?jì)?yōu)化更多的是為客戶(hù)帶來(lái)價(jià)值。所以說(shuō),在內部?jì)?yōu)化這一塊,我們要比外部?jì)?yōu)化要更注重客戶(hù)體驗,才能促進(jìn)轉化率。
  說(shuō)起網(wǎng)絡(luò )優(yōu)化,內部?jì)?yōu)化通常講產(chǎn)品相關(guān)性,外部?jì)?yōu)化主要是針對廣告的。由于站內廣告一般都是站內seo技術(shù)提供商提供的產(chǎn)品,站外的廣告主要是品牌宣傳,相對來(lái)說(shuō),站內廣告主要依賴(lài)搜索引擎,而站外的廣告主要依賴(lài)自己生產(chǎn)廣告位,然后將產(chǎn)品推送給目標客戶(hù)??梢钥吹?,對于不同的廣告主,廣告位的選擇也有很大不同。如果是品牌宣傳,則產(chǎn)品相關(guān)性要求相對高一些,如果是公司自己生產(chǎn)的廣告位則對產(chǎn)品相關(guān)性要求相對要低一些。
  所以,站內廣告與站外廣告的選擇也有很大差別。站內廣告多以seo技術(shù)為主,seo優(yōu)化服務(wù)為輔,站外廣告則多以品牌宣傳為主,更多注重做的是品牌和產(chǎn)品的相關(guān)性,如果站內廣告沒(méi)有做好,就不容易做好站外廣告。對于網(wǎng)絡(luò )優(yōu)化來(lái)說(shuō),外部?jì)?yōu)化也有不同的方式。他們的根本上都是想提高自己企業(yè)的產(chǎn)品銷(xiāo)量。相對來(lái)說(shuō),更多是通過(guò)站外的優(yōu)化,來(lái)提高我們的轉化率。
  這里分為兩種,一種是推送本公司產(chǎn)品相關(guān)的外部廣告。另一種是通過(guò)推送好賣(mài)的產(chǎn)品或其他平臺賣(mài)不出去的產(chǎn)品,來(lái)提高銷(xiāo)量。網(wǎng)絡(luò )優(yōu)化,在整個(gè)互聯(lián)網(wǎng)發(fā)展的近三十年中,變化并不明顯,但在近兩年變化卻很明顯。隨著(zhù)互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的公司主要的客戶(hù)都是傳統行業(yè),網(wǎng)絡(luò )并不是他們第一選擇,但很多網(wǎng)絡(luò )公司或商家都想做互聯(lián)網(wǎng)營(yíng)銷(xiāo),想在互聯(lián)網(wǎng)獲取更多的業(yè)務(wù),于是就出現了網(wǎng)絡(luò )推廣營(yíng)銷(xiāo)。
  但傳統行業(yè)的產(chǎn)品在互聯(lián)網(wǎng)上不好賣(mài),導致發(fā)展受限,所以很多公司不了解如何做好網(wǎng)絡(luò )推廣營(yíng)銷(xiāo)。為此,網(wǎng)絡(luò )營(yíng)銷(xiāo)有了很大變化,分為四種,即網(wǎng)站建設營(yíng)銷(xiāo),內容營(yíng)銷(xiāo),seo營(yíng)銷(xiāo),sem營(yíng)銷(xiāo),這四種營(yíng)銷(xiāo)方式可以相互結合。這里我們主要講一下seo營(yíng)銷(xiāo),網(wǎng)站建設營(yíng)銷(xiāo),內容營(yíng)銷(xiāo)和seo營(yíng)銷(xiāo)。 查看全部

  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(內部信息與外部信息源搜索引擎優(yōu)化方法的異同說(shuō)起)
  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同說(shuō)起優(yōu)化,很多人都認為是內部?jì)?yōu)化外部?jì)?yōu)化,但在我看來(lái),這二者并不一樣。內部?jì)?yōu)化講的是我們改變自己,將產(chǎn)品本身變得更加完善。如何充分認識客戶(hù)是搜索引擎優(yōu)化的主要目標,如何做好客戶(hù)體驗,是我們前期做好內部?jì)?yōu)化的重要目標。外部?jì)?yōu)化講的是我們發(fā)布的信息,如何將信息正確高效地發(fā)送給潛在用戶(hù),其實(shí),外部?jì)?yōu)化更多的是為我們已經(jīng)結果用戶(hù)帶來(lái)價(jià)值。
  外部?jì)?yōu)化更多是提高轉化率。做內部?jì)?yōu)化的重點(diǎn),在于改善我們的產(chǎn)品結構,提高售價(jià),吸引更多的用戶(hù)。但不論做內部?jì)?yōu)化還是外部?jì)?yōu)化,我們都要以客戶(hù)體驗為目標,我們需要獲取到我們能給用戶(hù)帶來(lái)的價(jià)值,提高我們的轉化率。綜上所述,內部?jì)?yōu)化更多的是為客戶(hù)帶來(lái)價(jià)值。所以說(shuō),在內部?jì)?yōu)化這一塊,我們要比外部?jì)?yōu)化要更注重客戶(hù)體驗,才能促進(jìn)轉化率。
  說(shuō)起網(wǎng)絡(luò )優(yōu)化,內部?jì)?yōu)化通常講產(chǎn)品相關(guān)性,外部?jì)?yōu)化主要是針對廣告的。由于站內廣告一般都是站內seo技術(shù)提供商提供的產(chǎn)品,站外的廣告主要是品牌宣傳,相對來(lái)說(shuō),站內廣告主要依賴(lài)搜索引擎,而站外的廣告主要依賴(lài)自己生產(chǎn)廣告位,然后將產(chǎn)品推送給目標客戶(hù)??梢钥吹?,對于不同的廣告主,廣告位的選擇也有很大不同。如果是品牌宣傳,則產(chǎn)品相關(guān)性要求相對高一些,如果是公司自己生產(chǎn)的廣告位則對產(chǎn)品相關(guān)性要求相對要低一些。
  所以,站內廣告與站外廣告的選擇也有很大差別。站內廣告多以seo技術(shù)為主,seo優(yōu)化服務(wù)為輔,站外廣告則多以品牌宣傳為主,更多注重做的是品牌和產(chǎn)品的相關(guān)性,如果站內廣告沒(méi)有做好,就不容易做好站外廣告。對于網(wǎng)絡(luò )優(yōu)化來(lái)說(shuō),外部?jì)?yōu)化也有不同的方式。他們的根本上都是想提高自己企業(yè)的產(chǎn)品銷(xiāo)量。相對來(lái)說(shuō),更多是通過(guò)站外的優(yōu)化,來(lái)提高我們的轉化率。
  這里分為兩種,一種是推送本公司產(chǎn)品相關(guān)的外部廣告。另一種是通過(guò)推送好賣(mài)的產(chǎn)品或其他平臺賣(mài)不出去的產(chǎn)品,來(lái)提高銷(xiāo)量。網(wǎng)絡(luò )優(yōu)化,在整個(gè)互聯(lián)網(wǎng)發(fā)展的近三十年中,變化并不明顯,但在近兩年變化卻很明顯。隨著(zhù)互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的公司主要的客戶(hù)都是傳統行業(yè),網(wǎng)絡(luò )并不是他們第一選擇,但很多網(wǎng)絡(luò )公司或商家都想做互聯(lián)網(wǎng)營(yíng)銷(xiāo),想在互聯(lián)網(wǎng)獲取更多的業(yè)務(wù),于是就出現了網(wǎng)絡(luò )推廣營(yíng)銷(xiāo)。
  但傳統行業(yè)的產(chǎn)品在互聯(lián)網(wǎng)上不好賣(mài),導致發(fā)展受限,所以很多公司不了解如何做好網(wǎng)絡(luò )推廣營(yíng)銷(xiāo)。為此,網(wǎng)絡(luò )營(yíng)銷(xiāo)有了很大變化,分為四種,即網(wǎng)站建設營(yíng)銷(xiāo),內容營(yíng)銷(xiāo),seo營(yíng)銷(xiāo),sem營(yíng)銷(xiāo),這四種營(yíng)銷(xiāo)方式可以相互結合。這里我們主要講一下seo營(yíng)銷(xiāo),網(wǎng)站建設營(yíng)銷(xiāo),內容營(yíng)銷(xiāo)和seo營(yíng)銷(xiāo)。

內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(企業(yè)信息發(fā)布(一)_)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 87 次瀏覽 ? 2022-04-17 20:10 ? 來(lái)自相關(guān)話(huà)題

  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(企業(yè)信息發(fā)布(一)_)
  企業(yè)信息發(fā)布在網(wǎng)站,成為網(wǎng)頁(yè)形式的信息源(包括企業(yè)內部信息源和外部信息源)
  搜索引擎推廣的前四個(gè)目標,即通過(guò)流量的增加,可以轉化為企業(yè)最終收入的增加,可以稱(chēng)為轉化層。
  從各種搜索引擎策略到產(chǎn)生收入,期間的中間效應是網(wǎng)站流量增加
  用戶(hù)使用關(guān)鍵詞進(jìn)行搜索(對于分類(lèi)目錄,是分層目錄查詢(xún))
  通過(guò)優(yōu)化客戶(hù)網(wǎng)站的整個(gè)站點(diǎn),選擇一些主要的關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其到達搜索引擎的首頁(yè)位置,同時(shí)增加< @網(wǎng)站,并推動(dòng)更多長(cháng)尾 關(guān)鍵詞 有機排名提升。結合ppc競價(jià),我們可以制定精準的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,為公司帶來(lái)更多的訂單。
  網(wǎng)頁(yè)優(yōu)化中更重要的因素之一是網(wǎng)頁(yè)的標題標簽。編寫(xiě)標題標簽時(shí)通常需要考慮幾個(gè)因素。
  所有網(wǎng)頁(yè)都應該有自己獨特的標題或標簽。有很多 網(wǎng)站 犯了非常低級的錯誤,即所有頁(yè)面的標題都相同??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候來(lái)回復制了整個(gè)模板,所以HTML文件中的頭部信息也被復制了,沒(méi)有改變。
  標題標簽應該足夠吸引用戶(hù)的需求。網(wǎng)頁(yè)在搜索引擎結果中列出,頁(yè)面的標題來(lái)源于標題標簽。
  標題標簽應收錄 關(guān)鍵詞。
  . 轉化層是對前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所達到的效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。
  -/gbaccaf/-
  歡迎來(lái)到網(wǎng)站,我公司位于經(jīng)濟發(fā)達、交通發(fā)達、人口密集的中國經(jīng)濟中心城市深圳。具體地址為龍華街道玉翠社區石頭嶺龍觀(guān)路宏玉大廈13樓09室。負責人是黃宗忠。 查看全部

  內部信息源與外部信息源搜索引擎優(yōu)化方法的異同(企業(yè)信息發(fā)布(一)_)
  企業(yè)信息發(fā)布在網(wǎng)站,成為網(wǎng)頁(yè)形式的信息源(包括企業(yè)內部信息源和外部信息源)
  搜索引擎推廣的前四個(gè)目標,即通過(guò)流量的增加,可以轉化為企業(yè)最終收入的增加,可以稱(chēng)為轉化層。
  從各種搜索引擎策略到產(chǎn)生收入,期間的中間效應是網(wǎng)站流量增加
  用戶(hù)使用關(guān)鍵詞進(jìn)行搜索(對于分類(lèi)目錄,是分層目錄查詢(xún))
  通過(guò)優(yōu)化客戶(hù)網(wǎng)站的整個(gè)站點(diǎn),選擇一些主要的關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其到達搜索引擎的首頁(yè)位置,同時(shí)增加< @網(wǎng)站,并推動(dòng)更多長(cháng)尾 關(guān)鍵詞 有機排名提升。結合ppc競價(jià),我們可以制定精準的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,為公司帶來(lái)更多的訂單。
  網(wǎng)頁(yè)優(yōu)化中更重要的因素之一是網(wǎng)頁(yè)的標題標簽。編寫(xiě)標題標簽時(shí)通常需要考慮幾個(gè)因素。
  所有網(wǎng)頁(yè)都應該有自己獨特的標題或標簽。有很多 網(wǎng)站 犯了非常低級的錯誤,即所有頁(yè)面的標題都相同??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候來(lái)回復制了整個(gè)模板,所以HTML文件中的頭部信息也被復制了,沒(méi)有改變。
  標題標簽應該足夠吸引用戶(hù)的需求。網(wǎng)頁(yè)在搜索引擎結果中列出,頁(yè)面的標題來(lái)源于標題標簽。
  標題標簽應收錄 關(guān)鍵詞。
  . 轉化層是對前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所達到的效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。
  -/gbaccaf/-
  歡迎來(lái)到網(wǎng)站,我公司位于經(jīng)濟發(fā)達、交通發(fā)達、人口密集的中國經(jīng)濟中心城市深圳。具體地址為龍華街道玉翠社區石頭嶺龍觀(guān)路宏玉大廈13樓09室。負責人是黃宗忠。

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区