最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法

AI研習丨專(zhuān)題:知識支撐的信息檢索與推薦

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 69 次瀏覽 ? 2022-05-14 03:23 ? 來(lái)自相關(guān)話(huà)題

  AI研習丨專(zhuān)題:知識支撐的信息檢索與推薦
  
  摘 要
  本文介紹了目前國內外關(guān)于知識支撐的信息檢索與推薦的研究進(jìn)展,主要針對結合知識圖譜的信息檢索與推薦方法,以及知識支撐的搜索用戶(hù)行為分析兩個(gè)主要的研究方向進(jìn)行了梳理和分析,并對未來(lái)工作提出了展望。
  關(guān) 鍵 字
  信息檢索;推薦系統;知識圖譜;探索式搜索
  
  0 引言
  知識和信息,是兩個(gè)聯(lián)系緊密而又有所區別的概念。信息科學(xué)領(lǐng)域的 DIKW 體系(DataInformation-Knowledge-Wisdom pyramid)能很好地闡釋它們之間的關(guān)系。如圖 1 所示,DIKW 體系是一個(gè)金字塔,從下往上包含數據(data)、信 息 (information)、 知 識(knowledge) 和智慧(wisdom)四個(gè)組成部分。其中,數據是信息的基礎;信息是知識的基礎;知識是智慧的基礎。經(jīng)過(guò)一定組織和處理,使其與當前的上下文或者任務(wù)相關(guān),因此具有一定的意義、價(jià)值和相關(guān)性,并對完成當前任務(wù)有用,數據就可以被稱(chēng)為信息。當信息被進(jìn)一步結構化,與其他信息建立聯(lián)系,或者被吸收和整合現有的知識體系和結構中去,以幫助人們完成當前或未來(lái)的任務(wù),信息就被轉化為了知識。
  
  圖 1 DIKW 體系
  傳統信息檢索研究主要涉及對非結構化或半結構化的海量數據進(jìn)行存儲、組織、索引和檢索,使用戶(hù)能快捷有效地從中檢索和獲取相關(guān)的信息。即主要涉及如何幫助用戶(hù)從數據中獲取信息。然而隨著(zhù)信息檢索研究的不斷發(fā)展,研究者開(kāi)始逐漸意識到在信息檢索領(lǐng)域中引入知識的重要性。
  一方面,從系統的角度,研究者開(kāi)始意識到,在傳統的文本數據和用戶(hù)行為數據之外,我們可以利用知識圖譜等高質(zhì)量的結構化知識,進(jìn)一步改進(jìn)搜索引擎和推薦系統的排序性能。另一方面,從用戶(hù)的角度,研究者開(kāi)始將搜索過(guò)程看作是用戶(hù)學(xué)習和獲取知識的過(guò)程,從這一角度對用戶(hù)的搜索行為進(jìn)行分析、理解和建模。因此,本文將從上述兩個(gè)方面,介紹知識支撐的信息檢索與推薦相關(guān)研究進(jìn)展。
  1 結合知識圖譜的信息檢索與推薦方法
  在信息檢索領(lǐng)域,搜索引擎和推薦系統是兩個(gè)最重要的應用方向。目前已有大量研究工作從不同方面嘗試改進(jìn)搜索排序和推薦排序的效果,包括利用用戶(hù)的各類(lèi)交互行為(點(diǎn)擊和瀏覽等)和待排序條目的內容信息(描述和關(guān)鍵詞等),也已在不同場(chǎng)景提升了算法表現。隨著(zhù)近些年相關(guān)研究的逐漸深入,越來(lái)越多的研究者開(kāi)始意識到,信息檢索場(chǎng)景之外的結構化知識對進(jìn)一步改進(jìn)搜索和推薦算法有重要作用,這些結構化知識能幫助我們更好地刻畫(huà)搜索和推薦場(chǎng)景中的待排序條目。
  具體來(lái)說(shuō),知識圖譜中包含了大量的實(shí)體和實(shí)體間的聯(lián)系信息,這兩類(lèi)信息都對信息檢索系統中的待排序內容的表示有重要幫助。一方面,如果將待排序內容(如搜索引擎中的文檔或推薦系統中的商品等)與知識圖譜中實(shí)體進(jìn)行鏈接匹配,我們將能找出待排序內容的關(guān)鍵信息(即包含的實(shí)體詞);另一方面,實(shí)體之間的特殊關(guān)系能協(xié)助做推理擴散,不管是對搜索場(chǎng)景下查詢(xún)詞的擴展還是推薦場(chǎng)景下待推薦內容的關(guān)系發(fā)現都將有重要作用。
  近年來(lái),在搜索引擎和推薦系統領(lǐng)域有不少工作已基于類(lèi)似思路開(kāi)始了研究。已有學(xué)者在搜索場(chǎng)景下嘗試在傳統查詢(xún)詞-文檔內容匹配的基礎上借助知識圖譜,考慮查詢(xún)詞中包含的實(shí)體與文檔包含的實(shí)體之間的關(guān)聯(lián)關(guān)系情況,進(jìn)一步改進(jìn)了文檔排序的效果;在推薦系統場(chǎng)景中,由于知識信息的引入還能幫助緩解推薦的可解釋性問(wèn)題,因此有不少研究工作從這一角度入手,提升推薦算法表現的同時(shí)改進(jìn)結果的可解釋性。相關(guān)研究的應用于場(chǎng)景包括在網(wǎng)頁(yè)搜索、信息流推薦、商品推薦和電影推薦等場(chǎng)景??梢钥吹?,知識增強的信息檢索方法研究已成為近年來(lái)研究的熱點(diǎn)與重點(diǎn)。下面將對兩個(gè)場(chǎng)景的知識利用分別做具體介紹。
 ?。?)搜索場(chǎng)景下的知識圖譜利用
  在搜索排序算法中,查詢(xún)詞與文檔的內容及語(yǔ)義匹配情況不管是在傳統的 BM25、TF-IDF 算法和最近的深度排序模型中都起到了重要作用。然而,這些算法在進(jìn)行匹配時(shí)大都賦予查詢(xún)詞中的每個(gè)詞語(yǔ)以同等權重,沒(méi)有將更多注意力放在關(guān)鍵信息上。例如,當查詢(xún)詞為“奧巴馬的親屬關(guān)系”時(shí),用戶(hù)更關(guān)注的是“奧巴馬”和“親屬”,而不是“關(guān)系”這個(gè)詞語(yǔ)。為了解決這一問(wèn)題,近年來(lái),卡內基梅隆大學(xué)熊辰炎與清華大學(xué)劉知遠等提出,可以在現有詞語(yǔ)匹配的基礎上,引入知識圖譜中實(shí)體詞對查詢(xún)詞和文檔中包含的實(shí)體詞同樣進(jìn)行匹配和相似度計算,以實(shí)現對關(guān)鍵實(shí)體信息的有效利用和挖掘。更進(jìn)一步地,他們還考慮了詞語(yǔ)和實(shí)體詞的交叉匹配,即考慮了:① 查詢(xún)詞中詞語(yǔ) - 文檔中詞語(yǔ);② 查詢(xún)詞中實(shí)體詞 - 文檔中詞語(yǔ);③ 查詢(xún)詞中詞語(yǔ) - 文檔中實(shí)體詞;④ 查詢(xún)詞中實(shí)體詞 - 文檔中實(shí)體詞,四個(gè)維度的語(yǔ)義匹配情況。然后再使用池化和全連接操作得到最終的排序評分。該算法被命名為 EDRM(Entity-Duet Neural Ranking),框架如圖 2 所示。
  
  圖 2 EDRM 算法模型圖
  在實(shí)驗過(guò)程中,使用 DBPedia 作為額外引入的知識圖譜的 EDRM 算法被應用在大規模中文搜索日志數據集上。結果顯示,該算法較基準算法在 NDCG@1 上取得了近 20% 的提升。該結果表明,關(guān)鍵實(shí)體信息的引入對于改進(jìn)搜索排序方法起到了重要作用。
 ?。?)推薦場(chǎng)景下的知識圖譜利用
  在推薦場(chǎng)景中,我們注意到待推薦條目可能存在一些特定的關(guān)系,例如,特別是在商品推薦場(chǎng)景下,不同商品間存在互補(手機和手機殼)、替代(華為手機和蘋(píng)果手機)等關(guān)系。如果能考慮商品之間的這些關(guān)系,我們將可以根據用戶(hù)的歷史行為進(jìn)一步優(yōu)化待推薦內容,為用戶(hù)推薦與歷史購買(mǎi)有互補關(guān)系的商品,同時(shí)避免推薦有替代關(guān)系的商品。然而,要獲取商品間的關(guān)系并不容易,商品數量過(guò)于龐大導致不可能通過(guò)人工標注的方法獲取??紤]到知識圖譜中包含著(zhù)大量的現有知識,這些現有知識可能對挖掘和推理商品間的關(guān)系有一定幫助。因此,我們基于商品間的關(guān)系(如替代和互補),提出了一種新的聯(lián)合優(yōu)化框架,用于從知識圖譜中學(xué)習到歸納規則,并基于歸納規則生成商品對之間的關(guān)聯(lián)特征,將其應用在推薦算法中。該算法框架被命名RuleRec,框架圖見(jiàn)圖3。
  
  圖 3 RuleRec 算法框架圖
  該模型主要包含規則學(xué)習模塊和推薦模塊兩個(gè)部分。在規則學(xué)習模塊中,我們通過(guò)在知識圖譜上進(jìn)行隨機游走,找到對于商品間的替代關(guān)系和互補關(guān)系有較好預測作用的規則特征(限定了兩個(gè)節點(diǎn)間隨機游走經(jīng)過(guò)的邊的類(lèi)型序列)。通過(guò)這些規則能為每個(gè)商品對建模學(xué)習到它們的相關(guān)性緊密程度,進(jìn)而可以擴展到單個(gè)商品與用戶(hù)之前購買(mǎi)的商品序列的聯(lián)系情況。在推薦模塊中,我們將學(xué)習得到的規則特征進(jìn)行加權后,與其他推薦算法得到的推薦概率相加,以得到新的推薦概率,并依此生成推薦結果。由于該模型具有很好的耦合性,因此可以與現有的推薦算法有效地結合到一起。在實(shí)驗過(guò)程中,我們使用了 Amazon 的手機和電子產(chǎn)品購物歷史數據作為用戶(hù)和商品的消費記錄,并將它們鏈接到了 Freebase 知識圖譜上(最大的開(kāi)源知識圖譜數據集)。最終,我們提出的算法較已有的最好算法在 Recall@5 上取得了平均4.4% 的提升。實(shí)驗說(shuō)明,圖譜中的知識信息能幫助改進(jìn)推薦排序算法。除了能提升推薦系統的算法表現,推薦結果的可解釋性也是相關(guān)研究關(guān)注的重點(diǎn)問(wèn)題之一。在本場(chǎng)景下,知識信息的引入所生成的規則就是天然的用戶(hù)能直接閱讀的推薦解釋?zhuān)ㄟ^(guò)人工標注我們也發(fā)現 94% 的推薦解釋能被用戶(hù)接受。這是說(shuō)明知識圖譜的引入還可以用于提高推薦算法的可解釋性。從這些研究可以看到,知識圖譜的引入能有效幫助刻畫(huà)信息檢索場(chǎng)景下的待排序內容,同時(shí)還提升了相應算法的可解釋性。外部的知識的引入為相關(guān)領(lǐng)域的研究帶來(lái)了新的方向和更多可能。
  2 知識支撐的搜索用戶(hù)行為分析
  隨著(zhù)搜索技術(shù)的發(fā)展和廣泛應用,搜索引擎在幫助用戶(hù)高效檢索和獲取信息的基礎上,進(jìn)一步成為了人類(lèi)學(xué)習和獲取知識不可或缺的工具。然而,與通過(guò)使用搜索引擎檢索和獲取較為具體的信息(例如查詢(xún)明天的天氣預報)不同,進(jìn)行搜索獲取知識(例如理解搜索引擎的工作原理)是一個(gè)更為復雜的過(guò)程 , 用戶(hù)往往需要進(jìn)行多次查詢(xún),才能完成相應的學(xué)習任務(wù)。這一方面是由于知識之間往往存在關(guān)聯(lián)與依賴(lài)關(guān)系,學(xué)習任務(wù)具有內在多樣性(intrinsic diversity),因此用戶(hù)需要進(jìn)行多次查詢(xún),獲取多方面的信息,構建包含知識間關(guān)系的知識體系。另外,在開(kāi)始進(jìn)行搜索時(shí),用戶(hù)常常因對相關(guān)領(lǐng)域缺乏了解,而陷入無(wú)法組織有效的查詢(xún)的困境中。因此,用戶(hù)需要在多次查詢(xún)迭代的過(guò)程中,逐漸探索該領(lǐng)域,進(jìn)而學(xué)習如何組織有效查詢(xún),更好地獲取構建知識體系所需的相關(guān)信息。這種復雜的、高度交互式的搜索過(guò)程被概括為探索式搜索(exploratory search)。由于現代搜索引擎已經(jīng)能較好地滿(mǎn)足針對具體信息的檢索需求,如何有效地支持探索式搜索已經(jīng)成為信息檢索領(lǐng)域的重要研究方向之一。與此同時(shí),一些學(xué)者將搜索過(guò)程本身視為一個(gè)學(xué)習的過(guò)程,提出了“搜索即學(xué)習”(search as learning)這一概念。通過(guò)在搜索與學(xué)習過(guò)程之間建立類(lèi)比,一方面可以借助心理學(xué)理論和學(xué)習理論對用戶(hù)的搜索行為進(jìn)行歸類(lèi)、分析、刻畫(huà)和解釋?zhuān)涣硪环矫婵梢詫⒅R建模、表示和計算的相關(guān)方法,應用于復雜多查詢(xún)會(huì )話(huà)的評價(jià)和用戶(hù)意圖理解模型等任務(wù)中。
  在分析用戶(hù)搜索行為方面,IP&M 雜志主編Jansen 等利用認知學(xué)習(cognitive learning)領(lǐng)域的分類(lèi)方法將搜索任務(wù)按照復雜程度分為了記憶(remembering)、理解(understanding)、應用(applying)、分析(analyzing)、評價(jià)(evaluating)和創(chuàng )造(creating)六類(lèi),并比較和分析了用戶(hù)在完成這六類(lèi)搜索任務(wù)時(shí)的搜索行為。芬蘭坦佩雷大學(xué)的 Vakkari 將搜索時(shí)的學(xué)習概念化為“用戶(hù)知識結構的改變”(changes in one’s knowledge structure)并提出可以用概念和其之間的關(guān)系來(lái)表示用戶(hù)的知識結構。進(jìn)一步的,Vakkari 基 于知識結構的變化方式,將搜索過(guò)程劃分為三個(gè)階段。在第一個(gè)階段里,用戶(hù)會(huì )對知識結構進(jìn)行重構(restructuring),即改變和替換原有知識結構中包含的概念和關(guān)系。相應的用戶(hù)在這一階段里會(huì )使用較為寬泛的查詢(xún)詞進(jìn)行檢索,會(huì )從搜索結果中學(xué)習到新的查詢(xún)詞,會(huì )更多地閱讀與問(wèn)題背景相關(guān)的文檔。在第二階段里,用戶(hù)會(huì )對知識結構進(jìn)行調整(tuning), 即不替換和修改已有概念和關(guān)系,而只是調整它們的范圍和含義。在這個(gè)階段里,用戶(hù)會(huì )使用相對更長(cháng)更具體的查詢(xún),并且會(huì )建立起較為明確的相關(guān)性判斷準則(relevance criteria)。在第三階段里,用戶(hù)會(huì )對知識結構進(jìn)行同化(assimilation),即獲取和知識結構中已有概念相關(guān)的實(shí)例信息和事實(shí)類(lèi)信息。在這個(gè)階段,用戶(hù)的查詢(xún)會(huì )變得更加具體,會(huì )獲取大量的具體的事實(shí)類(lèi)信息,并且會(huì )重新檢查一些之前忽視的信息來(lái)源。
  如果將搜索看作是一個(gè)學(xué)習的過(guò)程,除了搜索任務(wù)的類(lèi)型和當前所處的搜索階段,用戶(hù)自身具有的領(lǐng)域知識水平(domain expertise)也將會(huì )影響不同用戶(hù)在完成同一個(gè)搜索任務(wù)時(shí)的行為。為了研究用戶(hù)領(lǐng)域知識水平對其搜索行為和搜索結果的影響,我們組織了一次用戶(hù)實(shí)驗。實(shí)驗中,設置了來(lái)自環(huán)境、醫學(xué)、政治學(xué)三個(gè)領(lǐng)域的六個(gè)搜索任務(wù),并從相應的院系招募了 30 個(gè)被試參加實(shí)驗。通過(guò)要求每個(gè)被試完成兩個(gè)本領(lǐng)域的搜索任務(wù)和四個(gè)非本領(lǐng)域搜索任務(wù),我們有效地控制了用戶(hù)知識水平這一自變量,并系統地分析了自變量對一系列刻畫(huà)搜索結果和搜索過(guò)程的因變量影響。實(shí)驗結果顯示,被試能更好地完成本領(lǐng)域搜索任務(wù),學(xué)習到更多的知識并正確回答相關(guān)問(wèn)題,然而,其在完成本領(lǐng)域任務(wù)時(shí)的搜索滿(mǎn)意度并沒(méi)有顯著(zhù)提升。除此之外,利用眼動(dòng)儀記錄的細粒度用戶(hù)行為信息,我們發(fā)現,用戶(hù)在完成不熟悉領(lǐng)域的搜索任務(wù)時(shí),會(huì )更依賴(lài)在搜索過(guò)程中學(xué)到的新查詢(xún)詞,并在閱讀搜索結果時(shí)花費更多的認知負擔(cognitive effort)。
  其次,在具體應用方面,由于用戶(hù)的搜索過(guò)程和知識獲取及學(xué)習過(guò)程存在緊密聯(lián)系,可以利用一系列知識表示方法,對用戶(hù)在搜索過(guò)程中的知識狀態(tài)變化進(jìn)行測量與建模,并以此為基礎,改進(jìn)搜索評價(jià)和用戶(hù)意圖理解模型。首先,在搜索評價(jià)方面,通過(guò)將搜索過(guò)程看作是一個(gè)學(xué)習的過(guò)程,可以通過(guò)評估學(xué)習的效果(learning outcome),對用戶(hù)搜索過(guò)程是否有效、成功進(jìn)行相對客觀(guān)評價(jià)。日本學(xué)者 Yuka Egusa 和Noriko Kando 等首先嘗試了使用概念圖(concept map)對探索式搜索進(jìn)行評價(jià)。概念圖最早在教育領(lǐng)域被用于表示學(xué)生掌握的科學(xué)知識。一個(gè)概念圖包含若干個(gè)概念節點(diǎn)和若干條表示概念之間關(guān)系的有向邊。Egusa 等在用戶(hù)實(shí)驗中要求參與的被試在開(kāi)始搜索之前和搜索結束后,分別繪制兩張與搜索任務(wù)主體相關(guān)的概念圖。通過(guò)比較兩張概念圖,可以計算新增、刪除、共有的節點(diǎn)數和邊數等指標,用于評價(jià)在搜索過(guò)程中,用戶(hù)獲取了多少新知識。注意到與傳統的搜索滿(mǎn)意度評價(jià)不同,上述評價(jià)方法能測量用戶(hù)在搜索過(guò)程中是否成功地獲取了新的知識。我們進(jìn)一步嘗試探究搜索成功程度與搜索滿(mǎn)意度之間的聯(lián)系與差別,以及能否有效地估計和預測搜索成功程度。為了研究上述問(wèn)題,我們設計和組織了一次用戶(hù)實(shí)驗。在實(shí)驗中每個(gè)被試被要求完成六個(gè)不同的搜索任務(wù)。每個(gè)搜索任務(wù)包含一道需要用 100 字左右答案回答的簡(jiǎn)答題。通過(guò)對最終答案的正確性進(jìn)行打分,來(lái)測量用戶(hù)搜索的成功程度;并通過(guò)用戶(hù)的反饋來(lái)測量用戶(hù)的搜索滿(mǎn)意度。通過(guò)比較搜索成功程度與搜索滿(mǎn)意度,發(fā)現存在相當比例的搜索會(huì )話(huà)出現了“滿(mǎn)意但失敗”和“不滿(mǎn)意但成功”的現象。較為客觀(guān)的搜索成功程度與主觀(guān)的搜索滿(mǎn)意度并不一致。我們進(jìn)一步將每個(gè)任務(wù)的正確答案涉及的關(guān)鍵得分點(diǎn)(key point)進(jìn)行了提取,并對用戶(hù)在實(shí)驗過(guò)程中閱讀過(guò)的所有文檔進(jìn)行了細粒度的標注。標注信息包括文檔是否包含每個(gè)關(guān)鍵得分點(diǎn),以及文檔的相關(guān)性、可靠性(credibility)和可讀性(readability)。利用文檔包含關(guān)鍵得分點(diǎn)和用戶(hù)的搜索行為信息,分別構建了搜索成功程度評價(jià)指標和搜索成果程度預測模型。實(shí)驗結果表明,利用文檔包含知識點(diǎn)的信息,我們能有效地對搜索成功程度這一較為客觀(guān)的搜索評價(jià)指標進(jìn)行估計。
  其次,在用戶(hù)意圖理解方面,我們可以利用知識表示方法對用戶(hù)在會(huì )話(huà)中搜索意圖的變化進(jìn)行建模,進(jìn)而更好地預測用戶(hù)下一個(gè)可能提交的查詢(xún),改進(jìn)搜索引擎的查詢(xún)推薦功能。例如,來(lái)自加州大學(xué)洛杉磯分校的 Jiang 和 Wang 將查詢(xún)日志表示為一個(gè)包含不同查詢(xún)、詞項和網(wǎng)站三類(lèi)型節點(diǎn)的異質(zhì)網(wǎng)絡(luò )。該網(wǎng)絡(luò )中包含四種不同類(lèi)型的邊:① 查詢(xún)內詞項指向下一個(gè)詞項的邊;② 會(huì )話(huà)內上一查詢(xún)指向下一查詢(xún)的邊;③ 查詢(xún)指向包含詞項的邊;④ 查詢(xún)指向點(diǎn)擊網(wǎng)站的邊?;谠摦愘|(zhì)網(wǎng)絡(luò ),我們可以使用Node2Vec等表示學(xué)習算法,獲得網(wǎng)絡(luò )中節點(diǎn)的嵌入表示,并利用得到的嵌入表示進(jìn)行查詢(xún)推薦。查詢(xún)改寫(xiě)還可進(jìn)一步分為增加查詢(xún)詞、刪除查詢(xún)詞和替換查詢(xún)詞等不同的類(lèi)別。因此,我們可以將查詢(xún)作為實(shí)體,不同類(lèi)型的查詢(xún)改寫(xiě)看作關(guān)系,利用TransE 等翻譯嵌入模型,得到對應于不同類(lèi)別查詢(xún)(不同關(guān)系)改寫(xiě)的向量表示。我們在購物搜索的環(huán)境下進(jìn)行了實(shí)驗。針對購物搜索的特點(diǎn),構建了一個(gè)二級的查詢(xún)改寫(xiě)分類(lèi)體系。該分類(lèi)體系在增、刪、改查詢(xún)詞之外,還對修改的查詢(xún)詞是針對設計、商品、風(fēng)格、品牌、樣式、功能、材料、渠道、價(jià)格和尺寸 10 類(lèi)屬性中的哪一類(lèi)進(jìn)行了區分。結合兩級分類(lèi),該分類(lèi)體系共涉及 30 類(lèi)不同的購物搜索查詢(xún)改寫(xiě)。通過(guò)TransE、TransH 和 TransR 模 型,可以訓練得到每個(gè)查詢(xún)詞和每一類(lèi)查詢(xún)改寫(xiě)的嵌入表示。為了驗證得到嵌入表示的有效性,我們設計了一個(gè)查詢(xún)改寫(xiě)類(lèi)別分類(lèi)任務(wù),即采用查詢(xún)改寫(xiě)涉及的前后兩個(gè)查詢(xún)的嵌入表示的差作為特征,預測查詢(xún)改寫(xiě)的類(lèi)別。實(shí)驗結果顯示,采用翻譯嵌入模型得到的向量表示,能有效地預測查詢(xún)改寫(xiě)的類(lèi)別。這再一次說(shuō)明了使用知識表示學(xué)習方法,能較為有效地捕捉用戶(hù)進(jìn)行查詢(xún)改寫(xiě)時(shí)隱含的搜索意圖。
  相比于 Xu 等的工作,在模態(tài)間隱式對齊的任務(wù)上,我們采取了一種反其道而行之的做法。如圖 4 所示,從視頻圖像信息出發(fā),通過(guò)注意力機制與時(shí)間鄰域內的多條文本間建立匹配和對齊?;谶@個(gè)思想,設計了一種聯(lián)合圖像視覺(jué)與用戶(hù)評論信息的多模態(tài)人物重識別模型,并在真實(shí)數據集上進(jìn)行了驗證。實(shí)驗結果證實(shí)了模態(tài)間的對齊是有效的,使用注意力機制可以在一定程度上識別出那些與視頻人物描述更為相關(guān)的文本信息,從而有助于更精確地刻畫(huà)出人物的身份特征,達到更好的人物重識別效果。
  3 結束語(yǔ)
  由于知識與信息之間存在緊密的聯(lián)系,在信息檢索研究中引入知識的概念,以及知識計算方法是一個(gè)值得深入探索的研究方向。從系統的角度出發(fā),可以通過(guò)構建模型,引入豐富的外部知識,有效地改進(jìn)信息檢索和推薦模型的排序性能。從用戶(hù)的角度出發(fā),通過(guò)將用戶(hù)的搜索過(guò)程視為一個(gè)獲取知識的過(guò)程,可以加深對用戶(hù)搜索行為的理解,并借助知識計算方法,改進(jìn)搜索性能評價(jià)和搜索用戶(hù)意圖理解。
  
  選自《中國人工智能學(xué)會(huì )通訊》
  2020年第10卷第9期
  知識工程專(zhuān)題
  
  AI 研習 往期文章
  掃描二維碼
  獲取更多精彩
  CAAI會(huì )員中心
   查看全部

  AI研習丨專(zhuān)題:知識支撐的信息檢索與推薦
  
  摘 要
  本文介紹了目前國內外關(guān)于知識支撐的信息檢索與推薦的研究進(jìn)展,主要針對結合知識圖譜的信息檢索與推薦方法,以及知識支撐的搜索用戶(hù)行為分析兩個(gè)主要的研究方向進(jìn)行了梳理和分析,并對未來(lái)工作提出了展望。
  關(guān) 鍵 字
  信息檢索;推薦系統;知識圖譜;探索式搜索
  
  0 引言
  知識和信息,是兩個(gè)聯(lián)系緊密而又有所區別的概念。信息科學(xué)領(lǐng)域的 DIKW 體系(DataInformation-Knowledge-Wisdom pyramid)能很好地闡釋它們之間的關(guān)系。如圖 1 所示,DIKW 體系是一個(gè)金字塔,從下往上包含數據(data)、信 息 (information)、 知 識(knowledge) 和智慧(wisdom)四個(gè)組成部分。其中,數據是信息的基礎;信息是知識的基礎;知識是智慧的基礎。經(jīng)過(guò)一定組織和處理,使其與當前的上下文或者任務(wù)相關(guān),因此具有一定的意義、價(jià)值和相關(guān)性,并對完成當前任務(wù)有用,數據就可以被稱(chēng)為信息。當信息被進(jìn)一步結構化,與其他信息建立聯(lián)系,或者被吸收和整合現有的知識體系和結構中去,以幫助人們完成當前或未來(lái)的任務(wù),信息就被轉化為了知識。
  
  圖 1 DIKW 體系
  傳統信息檢索研究主要涉及對非結構化或半結構化的海量數據進(jìn)行存儲、組織、索引和檢索,使用戶(hù)能快捷有效地從中檢索和獲取相關(guān)的信息。即主要涉及如何幫助用戶(hù)從數據中獲取信息。然而隨著(zhù)信息檢索研究的不斷發(fā)展,研究者開(kāi)始逐漸意識到在信息檢索領(lǐng)域中引入知識的重要性。
  一方面,從系統的角度,研究者開(kāi)始意識到,在傳統的文本數據和用戶(hù)行為數據之外,我們可以利用知識圖譜等高質(zhì)量的結構化知識,進(jìn)一步改進(jìn)搜索引擎和推薦系統的排序性能。另一方面,從用戶(hù)的角度,研究者開(kāi)始將搜索過(guò)程看作是用戶(hù)學(xué)習和獲取知識的過(guò)程,從這一角度對用戶(hù)的搜索行為進(jìn)行分析、理解和建模。因此,本文將從上述兩個(gè)方面,介紹知識支撐的信息檢索與推薦相關(guān)研究進(jìn)展。
  1 結合知識圖譜的信息檢索與推薦方法
  在信息檢索領(lǐng)域,搜索引擎和推薦系統是兩個(gè)最重要的應用方向。目前已有大量研究工作從不同方面嘗試改進(jìn)搜索排序和推薦排序的效果,包括利用用戶(hù)的各類(lèi)交互行為(點(diǎn)擊和瀏覽等)和待排序條目的內容信息(描述和關(guān)鍵詞等),也已在不同場(chǎng)景提升了算法表現。隨著(zhù)近些年相關(guān)研究的逐漸深入,越來(lái)越多的研究者開(kāi)始意識到,信息檢索場(chǎng)景之外的結構化知識對進(jìn)一步改進(jìn)搜索和推薦算法有重要作用,這些結構化知識能幫助我們更好地刻畫(huà)搜索和推薦場(chǎng)景中的待排序條目。
  具體來(lái)說(shuō),知識圖譜中包含了大量的實(shí)體和實(shí)體間的聯(lián)系信息,這兩類(lèi)信息都對信息檢索系統中的待排序內容的表示有重要幫助。一方面,如果將待排序內容(如搜索引擎中的文檔或推薦系統中的商品等)與知識圖譜中實(shí)體進(jìn)行鏈接匹配,我們將能找出待排序內容的關(guān)鍵信息(即包含的實(shí)體詞);另一方面,實(shí)體之間的特殊關(guān)系能協(xié)助做推理擴散,不管是對搜索場(chǎng)景下查詢(xún)詞的擴展還是推薦場(chǎng)景下待推薦內容的關(guān)系發(fā)現都將有重要作用。
  近年來(lái),在搜索引擎和推薦系統領(lǐng)域有不少工作已基于類(lèi)似思路開(kāi)始了研究。已有學(xué)者在搜索場(chǎng)景下嘗試在傳統查詢(xún)詞-文檔內容匹配的基礎上借助知識圖譜,考慮查詢(xún)詞中包含的實(shí)體與文檔包含的實(shí)體之間的關(guān)聯(lián)關(guān)系情況,進(jìn)一步改進(jìn)了文檔排序的效果;在推薦系統場(chǎng)景中,由于知識信息的引入還能幫助緩解推薦的可解釋性問(wèn)題,因此有不少研究工作從這一角度入手,提升推薦算法表現的同時(shí)改進(jìn)結果的可解釋性。相關(guān)研究的應用于場(chǎng)景包括在網(wǎng)頁(yè)搜索、信息流推薦、商品推薦和電影推薦等場(chǎng)景??梢钥吹?,知識增強的信息檢索方法研究已成為近年來(lái)研究的熱點(diǎn)與重點(diǎn)。下面將對兩個(gè)場(chǎng)景的知識利用分別做具體介紹。
 ?。?)搜索場(chǎng)景下的知識圖譜利用
  在搜索排序算法中,查詢(xún)詞與文檔的內容及語(yǔ)義匹配情況不管是在傳統的 BM25、TF-IDF 算法和最近的深度排序模型中都起到了重要作用。然而,這些算法在進(jìn)行匹配時(shí)大都賦予查詢(xún)詞中的每個(gè)詞語(yǔ)以同等權重,沒(méi)有將更多注意力放在關(guān)鍵信息上。例如,當查詢(xún)詞為“奧巴馬的親屬關(guān)系”時(shí),用戶(hù)更關(guān)注的是“奧巴馬”和“親屬”,而不是“關(guān)系”這個(gè)詞語(yǔ)。為了解決這一問(wèn)題,近年來(lái),卡內基梅隆大學(xué)熊辰炎與清華大學(xué)劉知遠等提出,可以在現有詞語(yǔ)匹配的基礎上,引入知識圖譜中實(shí)體詞對查詢(xún)詞和文檔中包含的實(shí)體詞同樣進(jìn)行匹配和相似度計算,以實(shí)現對關(guān)鍵實(shí)體信息的有效利用和挖掘。更進(jìn)一步地,他們還考慮了詞語(yǔ)和實(shí)體詞的交叉匹配,即考慮了:① 查詢(xún)詞中詞語(yǔ) - 文檔中詞語(yǔ);② 查詢(xún)詞中實(shí)體詞 - 文檔中詞語(yǔ);③ 查詢(xún)詞中詞語(yǔ) - 文檔中實(shí)體詞;④ 查詢(xún)詞中實(shí)體詞 - 文檔中實(shí)體詞,四個(gè)維度的語(yǔ)義匹配情況。然后再使用池化和全連接操作得到最終的排序評分。該算法被命名為 EDRM(Entity-Duet Neural Ranking),框架如圖 2 所示。
  
  圖 2 EDRM 算法模型圖
  在實(shí)驗過(guò)程中,使用 DBPedia 作為額外引入的知識圖譜的 EDRM 算法被應用在大規模中文搜索日志數據集上。結果顯示,該算法較基準算法在 NDCG@1 上取得了近 20% 的提升。該結果表明,關(guān)鍵實(shí)體信息的引入對于改進(jìn)搜索排序方法起到了重要作用。
 ?。?)推薦場(chǎng)景下的知識圖譜利用
  在推薦場(chǎng)景中,我們注意到待推薦條目可能存在一些特定的關(guān)系,例如,特別是在商品推薦場(chǎng)景下,不同商品間存在互補(手機和手機殼)、替代(華為手機和蘋(píng)果手機)等關(guān)系。如果能考慮商品之間的這些關(guān)系,我們將可以根據用戶(hù)的歷史行為進(jìn)一步優(yōu)化待推薦內容,為用戶(hù)推薦與歷史購買(mǎi)有互補關(guān)系的商品,同時(shí)避免推薦有替代關(guān)系的商品。然而,要獲取商品間的關(guān)系并不容易,商品數量過(guò)于龐大導致不可能通過(guò)人工標注的方法獲取??紤]到知識圖譜中包含著(zhù)大量的現有知識,這些現有知識可能對挖掘和推理商品間的關(guān)系有一定幫助。因此,我們基于商品間的關(guān)系(如替代和互補),提出了一種新的聯(lián)合優(yōu)化框架,用于從知識圖譜中學(xué)習到歸納規則,并基于歸納規則生成商品對之間的關(guān)聯(lián)特征,將其應用在推薦算法中。該算法框架被命名RuleRec,框架圖見(jiàn)圖3。
  
  圖 3 RuleRec 算法框架圖
  該模型主要包含規則學(xué)習模塊和推薦模塊兩個(gè)部分。在規則學(xué)習模塊中,我們通過(guò)在知識圖譜上進(jìn)行隨機游走,找到對于商品間的替代關(guān)系和互補關(guān)系有較好預測作用的規則特征(限定了兩個(gè)節點(diǎn)間隨機游走經(jīng)過(guò)的邊的類(lèi)型序列)。通過(guò)這些規則能為每個(gè)商品對建模學(xué)習到它們的相關(guān)性緊密程度,進(jìn)而可以擴展到單個(gè)商品與用戶(hù)之前購買(mǎi)的商品序列的聯(lián)系情況。在推薦模塊中,我們將學(xué)習得到的規則特征進(jìn)行加權后,與其他推薦算法得到的推薦概率相加,以得到新的推薦概率,并依此生成推薦結果。由于該模型具有很好的耦合性,因此可以與現有的推薦算法有效地結合到一起。在實(shí)驗過(guò)程中,我們使用了 Amazon 的手機和電子產(chǎn)品購物歷史數據作為用戶(hù)和商品的消費記錄,并將它們鏈接到了 Freebase 知識圖譜上(最大的開(kāi)源知識圖譜數據集)。最終,我們提出的算法較已有的最好算法在 Recall@5 上取得了平均4.4% 的提升。實(shí)驗說(shuō)明,圖譜中的知識信息能幫助改進(jìn)推薦排序算法。除了能提升推薦系統的算法表現,推薦結果的可解釋性也是相關(guān)研究關(guān)注的重點(diǎn)問(wèn)題之一。在本場(chǎng)景下,知識信息的引入所生成的規則就是天然的用戶(hù)能直接閱讀的推薦解釋?zhuān)ㄟ^(guò)人工標注我們也發(fā)現 94% 的推薦解釋能被用戶(hù)接受。這是說(shuō)明知識圖譜的引入還可以用于提高推薦算法的可解釋性。從這些研究可以看到,知識圖譜的引入能有效幫助刻畫(huà)信息檢索場(chǎng)景下的待排序內容,同時(shí)還提升了相應算法的可解釋性。外部的知識的引入為相關(guān)領(lǐng)域的研究帶來(lái)了新的方向和更多可能。
  2 知識支撐的搜索用戶(hù)行為分析
  隨著(zhù)搜索技術(shù)的發(fā)展和廣泛應用,搜索引擎在幫助用戶(hù)高效檢索和獲取信息的基礎上,進(jìn)一步成為了人類(lèi)學(xué)習和獲取知識不可或缺的工具。然而,與通過(guò)使用搜索引擎檢索和獲取較為具體的信息(例如查詢(xún)明天的天氣預報)不同,進(jìn)行搜索獲取知識(例如理解搜索引擎的工作原理)是一個(gè)更為復雜的過(guò)程 , 用戶(hù)往往需要進(jìn)行多次查詢(xún),才能完成相應的學(xué)習任務(wù)。這一方面是由于知識之間往往存在關(guān)聯(lián)與依賴(lài)關(guān)系,學(xué)習任務(wù)具有內在多樣性(intrinsic diversity),因此用戶(hù)需要進(jìn)行多次查詢(xún),獲取多方面的信息,構建包含知識間關(guān)系的知識體系。另外,在開(kāi)始進(jìn)行搜索時(shí),用戶(hù)常常因對相關(guān)領(lǐng)域缺乏了解,而陷入無(wú)法組織有效的查詢(xún)的困境中。因此,用戶(hù)需要在多次查詢(xún)迭代的過(guò)程中,逐漸探索該領(lǐng)域,進(jìn)而學(xué)習如何組織有效查詢(xún),更好地獲取構建知識體系所需的相關(guān)信息。這種復雜的、高度交互式的搜索過(guò)程被概括為探索式搜索(exploratory search)。由于現代搜索引擎已經(jīng)能較好地滿(mǎn)足針對具體信息的檢索需求,如何有效地支持探索式搜索已經(jīng)成為信息檢索領(lǐng)域的重要研究方向之一。與此同時(shí),一些學(xué)者將搜索過(guò)程本身視為一個(gè)學(xué)習的過(guò)程,提出了“搜索即學(xué)習”(search as learning)這一概念。通過(guò)在搜索與學(xué)習過(guò)程之間建立類(lèi)比,一方面可以借助心理學(xué)理論和學(xué)習理論對用戶(hù)的搜索行為進(jìn)行歸類(lèi)、分析、刻畫(huà)和解釋?zhuān)涣硪环矫婵梢詫⒅R建模、表示和計算的相關(guān)方法,應用于復雜多查詢(xún)會(huì )話(huà)的評價(jià)和用戶(hù)意圖理解模型等任務(wù)中。
  在分析用戶(hù)搜索行為方面,IP&M 雜志主編Jansen 等利用認知學(xué)習(cognitive learning)領(lǐng)域的分類(lèi)方法將搜索任務(wù)按照復雜程度分為了記憶(remembering)、理解(understanding)、應用(applying)、分析(analyzing)、評價(jià)(evaluating)和創(chuàng )造(creating)六類(lèi),并比較和分析了用戶(hù)在完成這六類(lèi)搜索任務(wù)時(shí)的搜索行為。芬蘭坦佩雷大學(xué)的 Vakkari 將搜索時(shí)的學(xué)習概念化為“用戶(hù)知識結構的改變”(changes in one’s knowledge structure)并提出可以用概念和其之間的關(guān)系來(lái)表示用戶(hù)的知識結構。進(jìn)一步的,Vakkari 基 于知識結構的變化方式,將搜索過(guò)程劃分為三個(gè)階段。在第一個(gè)階段里,用戶(hù)會(huì )對知識結構進(jìn)行重構(restructuring),即改變和替換原有知識結構中包含的概念和關(guān)系。相應的用戶(hù)在這一階段里會(huì )使用較為寬泛的查詢(xún)詞進(jìn)行檢索,會(huì )從搜索結果中學(xué)習到新的查詢(xún)詞,會(huì )更多地閱讀與問(wèn)題背景相關(guān)的文檔。在第二階段里,用戶(hù)會(huì )對知識結構進(jìn)行調整(tuning), 即不替換和修改已有概念和關(guān)系,而只是調整它們的范圍和含義。在這個(gè)階段里,用戶(hù)會(huì )使用相對更長(cháng)更具體的查詢(xún),并且會(huì )建立起較為明確的相關(guān)性判斷準則(relevance criteria)。在第三階段里,用戶(hù)會(huì )對知識結構進(jìn)行同化(assimilation),即獲取和知識結構中已有概念相關(guān)的實(shí)例信息和事實(shí)類(lèi)信息。在這個(gè)階段,用戶(hù)的查詢(xún)會(huì )變得更加具體,會(huì )獲取大量的具體的事實(shí)類(lèi)信息,并且會(huì )重新檢查一些之前忽視的信息來(lái)源。
  如果將搜索看作是一個(gè)學(xué)習的過(guò)程,除了搜索任務(wù)的類(lèi)型和當前所處的搜索階段,用戶(hù)自身具有的領(lǐng)域知識水平(domain expertise)也將會(huì )影響不同用戶(hù)在完成同一個(gè)搜索任務(wù)時(shí)的行為。為了研究用戶(hù)領(lǐng)域知識水平對其搜索行為和搜索結果的影響,我們組織了一次用戶(hù)實(shí)驗。實(shí)驗中,設置了來(lái)自環(huán)境、醫學(xué)、政治學(xué)三個(gè)領(lǐng)域的六個(gè)搜索任務(wù),并從相應的院系招募了 30 個(gè)被試參加實(shí)驗。通過(guò)要求每個(gè)被試完成兩個(gè)本領(lǐng)域的搜索任務(wù)和四個(gè)非本領(lǐng)域搜索任務(wù),我們有效地控制了用戶(hù)知識水平這一自變量,并系統地分析了自變量對一系列刻畫(huà)搜索結果和搜索過(guò)程的因變量影響。實(shí)驗結果顯示,被試能更好地完成本領(lǐng)域搜索任務(wù),學(xué)習到更多的知識并正確回答相關(guān)問(wèn)題,然而,其在完成本領(lǐng)域任務(wù)時(shí)的搜索滿(mǎn)意度并沒(méi)有顯著(zhù)提升。除此之外,利用眼動(dòng)儀記錄的細粒度用戶(hù)行為信息,我們發(fā)現,用戶(hù)在完成不熟悉領(lǐng)域的搜索任務(wù)時(shí),會(huì )更依賴(lài)在搜索過(guò)程中學(xué)到的新查詢(xún)詞,并在閱讀搜索結果時(shí)花費更多的認知負擔(cognitive effort)。
  其次,在具體應用方面,由于用戶(hù)的搜索過(guò)程和知識獲取及學(xué)習過(guò)程存在緊密聯(lián)系,可以利用一系列知識表示方法,對用戶(hù)在搜索過(guò)程中的知識狀態(tài)變化進(jìn)行測量與建模,并以此為基礎,改進(jìn)搜索評價(jià)和用戶(hù)意圖理解模型。首先,在搜索評價(jià)方面,通過(guò)將搜索過(guò)程看作是一個(gè)學(xué)習的過(guò)程,可以通過(guò)評估學(xué)習的效果(learning outcome),對用戶(hù)搜索過(guò)程是否有效、成功進(jìn)行相對客觀(guān)評價(jià)。日本學(xué)者 Yuka Egusa 和Noriko Kando 等首先嘗試了使用概念圖(concept map)對探索式搜索進(jìn)行評價(jià)。概念圖最早在教育領(lǐng)域被用于表示學(xué)生掌握的科學(xué)知識。一個(gè)概念圖包含若干個(gè)概念節點(diǎn)和若干條表示概念之間關(guān)系的有向邊。Egusa 等在用戶(hù)實(shí)驗中要求參與的被試在開(kāi)始搜索之前和搜索結束后,分別繪制兩張與搜索任務(wù)主體相關(guān)的概念圖。通過(guò)比較兩張概念圖,可以計算新增、刪除、共有的節點(diǎn)數和邊數等指標,用于評價(jià)在搜索過(guò)程中,用戶(hù)獲取了多少新知識。注意到與傳統的搜索滿(mǎn)意度評價(jià)不同,上述評價(jià)方法能測量用戶(hù)在搜索過(guò)程中是否成功地獲取了新的知識。我們進(jìn)一步嘗試探究搜索成功程度與搜索滿(mǎn)意度之間的聯(lián)系與差別,以及能否有效地估計和預測搜索成功程度。為了研究上述問(wèn)題,我們設計和組織了一次用戶(hù)實(shí)驗。在實(shí)驗中每個(gè)被試被要求完成六個(gè)不同的搜索任務(wù)。每個(gè)搜索任務(wù)包含一道需要用 100 字左右答案回答的簡(jiǎn)答題。通過(guò)對最終答案的正確性進(jìn)行打分,來(lái)測量用戶(hù)搜索的成功程度;并通過(guò)用戶(hù)的反饋來(lái)測量用戶(hù)的搜索滿(mǎn)意度。通過(guò)比較搜索成功程度與搜索滿(mǎn)意度,發(fā)現存在相當比例的搜索會(huì )話(huà)出現了“滿(mǎn)意但失敗”和“不滿(mǎn)意但成功”的現象。較為客觀(guān)的搜索成功程度與主觀(guān)的搜索滿(mǎn)意度并不一致。我們進(jìn)一步將每個(gè)任務(wù)的正確答案涉及的關(guān)鍵得分點(diǎn)(key point)進(jìn)行了提取,并對用戶(hù)在實(shí)驗過(guò)程中閱讀過(guò)的所有文檔進(jìn)行了細粒度的標注。標注信息包括文檔是否包含每個(gè)關(guān)鍵得分點(diǎn),以及文檔的相關(guān)性、可靠性(credibility)和可讀性(readability)。利用文檔包含關(guān)鍵得分點(diǎn)和用戶(hù)的搜索行為信息,分別構建了搜索成功程度評價(jià)指標和搜索成果程度預測模型。實(shí)驗結果表明,利用文檔包含知識點(diǎn)的信息,我們能有效地對搜索成功程度這一較為客觀(guān)的搜索評價(jià)指標進(jìn)行估計。
  其次,在用戶(hù)意圖理解方面,我們可以利用知識表示方法對用戶(hù)在會(huì )話(huà)中搜索意圖的變化進(jìn)行建模,進(jìn)而更好地預測用戶(hù)下一個(gè)可能提交的查詢(xún),改進(jìn)搜索引擎的查詢(xún)推薦功能。例如,來(lái)自加州大學(xué)洛杉磯分校的 Jiang 和 Wang 將查詢(xún)日志表示為一個(gè)包含不同查詢(xún)、詞項和網(wǎng)站三類(lèi)型節點(diǎn)的異質(zhì)網(wǎng)絡(luò )。該網(wǎng)絡(luò )中包含四種不同類(lèi)型的邊:① 查詢(xún)內詞項指向下一個(gè)詞項的邊;② 會(huì )話(huà)內上一查詢(xún)指向下一查詢(xún)的邊;③ 查詢(xún)指向包含詞項的邊;④ 查詢(xún)指向點(diǎn)擊網(wǎng)站的邊?;谠摦愘|(zhì)網(wǎng)絡(luò ),我們可以使用Node2Vec等表示學(xué)習算法,獲得網(wǎng)絡(luò )中節點(diǎn)的嵌入表示,并利用得到的嵌入表示進(jìn)行查詢(xún)推薦。查詢(xún)改寫(xiě)還可進(jìn)一步分為增加查詢(xún)詞、刪除查詢(xún)詞和替換查詢(xún)詞等不同的類(lèi)別。因此,我們可以將查詢(xún)作為實(shí)體,不同類(lèi)型的查詢(xún)改寫(xiě)看作關(guān)系,利用TransE 等翻譯嵌入模型,得到對應于不同類(lèi)別查詢(xún)(不同關(guān)系)改寫(xiě)的向量表示。我們在購物搜索的環(huán)境下進(jìn)行了實(shí)驗。針對購物搜索的特點(diǎn),構建了一個(gè)二級的查詢(xún)改寫(xiě)分類(lèi)體系。該分類(lèi)體系在增、刪、改查詢(xún)詞之外,還對修改的查詢(xún)詞是針對設計、商品、風(fēng)格、品牌、樣式、功能、材料、渠道、價(jià)格和尺寸 10 類(lèi)屬性中的哪一類(lèi)進(jìn)行了區分。結合兩級分類(lèi),該分類(lèi)體系共涉及 30 類(lèi)不同的購物搜索查詢(xún)改寫(xiě)。通過(guò)TransE、TransH 和 TransR 模 型,可以訓練得到每個(gè)查詢(xún)詞和每一類(lèi)查詢(xún)改寫(xiě)的嵌入表示。為了驗證得到嵌入表示的有效性,我們設計了一個(gè)查詢(xún)改寫(xiě)類(lèi)別分類(lèi)任務(wù),即采用查詢(xún)改寫(xiě)涉及的前后兩個(gè)查詢(xún)的嵌入表示的差作為特征,預測查詢(xún)改寫(xiě)的類(lèi)別。實(shí)驗結果顯示,采用翻譯嵌入模型得到的向量表示,能有效地預測查詢(xún)改寫(xiě)的類(lèi)別。這再一次說(shuō)明了使用知識表示學(xué)習方法,能較為有效地捕捉用戶(hù)進(jìn)行查詢(xún)改寫(xiě)時(shí)隱含的搜索意圖。
  相比于 Xu 等的工作,在模態(tài)間隱式對齊的任務(wù)上,我們采取了一種反其道而行之的做法。如圖 4 所示,從視頻圖像信息出發(fā),通過(guò)注意力機制與時(shí)間鄰域內的多條文本間建立匹配和對齊?;谶@個(gè)思想,設計了一種聯(lián)合圖像視覺(jué)與用戶(hù)評論信息的多模態(tài)人物重識別模型,并在真實(shí)數據集上進(jìn)行了驗證。實(shí)驗結果證實(shí)了模態(tài)間的對齊是有效的,使用注意力機制可以在一定程度上識別出那些與視頻人物描述更為相關(guān)的文本信息,從而有助于更精確地刻畫(huà)出人物的身份特征,達到更好的人物重識別效果。
  3 結束語(yǔ)
  由于知識與信息之間存在緊密的聯(lián)系,在信息檢索研究中引入知識的概念,以及知識計算方法是一個(gè)值得深入探索的研究方向。從系統的角度出發(fā),可以通過(guò)構建模型,引入豐富的外部知識,有效地改進(jìn)信息檢索和推薦模型的排序性能。從用戶(hù)的角度出發(fā),通過(guò)將用戶(hù)的搜索過(guò)程視為一個(gè)獲取知識的過(guò)程,可以加深對用戶(hù)搜索行為的理解,并借助知識計算方法,改進(jìn)搜索性能評價(jià)和搜索用戶(hù)意圖理解。
  
  選自《中國人工智能學(xué)會(huì )通訊》
  2020年第10卷第9期
  知識工程專(zhuān)題
  
  AI 研習 往期文章
  掃描二維碼
  獲取更多精彩
  CAAI會(huì )員中心
  

搜索引擎營(yíng)銷(xiāo)推廣的方法有哪些?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 94 次瀏覽 ? 2022-05-08 14:46 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎營(yíng)銷(xiāo)推廣的方法有哪些?
  無(wú)論是線(xiàn)上上或是線(xiàn)下推廣,營(yíng)銷(xiāo)推廣全是必不可缺的有效的方式。由于,伴隨著(zhù)移動(dòng)互聯(lián)的迅速發(fā)展趨勢,已過(guò)去了香醇不畏酒香不怕巷的時(shí)期,現在是必須主動(dòng)進(jìn)攻才有可能完成營(yíng)銷(xiāo)推廣目地。因此,企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)全過(guò)程中,下列的搜索引擎營(yíng)銷(xiāo)推廣的方式務(wù)必關(guān)鍵把握,實(shí)際向下看一下。
  一、搜索引擎營(yíng)銷(xiāo)推廣的方式 有什么?1、SEM營(yíng)銷(xiāo)推廣
  SEM是搜索引擎搜索推廣,是根據發(fā)掘、剖析用戶(hù)檢索的關(guān)鍵詞,對該關(guān)鍵詞開(kāi)展競價(jià)來(lái)得到需要的排名。一般來(lái)說(shuō),受歡迎的關(guān)鍵詞競爭比較大,要想根據它得到較前的排名,務(wù)必出“大格局”才有可能得到較前的排名。
  2、SEO營(yíng)銷(xiāo)推廣
  SEO是搜索引擎優(yōu)化方法,是依據網(wǎng)址主題風(fēng)格和用戶(hù)的搜尋習慣性,挑選最好關(guān)鍵詞提升而得到排名。一般關(guān)鍵詞指數值越高,提升難度系數越高,可是一旦得到排名,排名的可靠性較強,不容易隨便發(fā)生下挫。
  
  3、關(guān)鍵詞廣告宣傳
  關(guān)鍵詞廣告是搜索引擎營(yíng)銷(xiāo)推廣的一種常見(jiàn)的作法,運用用戶(hù)點(diǎn)一下關(guān)鍵詞開(kāi)展收費,剖析、發(fā)掘出大量相關(guān)的新聞資訊。
  二、搜索引擎營(yíng)銷(xiāo)推廣包含哪幾個(gè)方面?
  殊不知,無(wú)論應用以上哪一種搜索引擎營(yíng)銷(xiāo)推廣,它都包含下列層面:
  想要讓降血壓廣告效果越來(lái)越好就一定要做好:1、定位到需求人群2、提高廣告創(chuàng )意+針對性文案3、使用多種廣告投放方式4、通過(guò)平臺投放
  1、適合的關(guān)鍵詞
  關(guān)鍵詞是搜索引擎營(yíng)銷(xiāo)推廣推廣合理的前提條件。因此,在營(yíng)銷(xiāo)推廣的環(huán)節中,務(wù)必自始至終緊緊圍繞著(zhù)網(wǎng)址主題風(fēng)格及用戶(hù)的搜尋習慣性挑選關(guān)鍵詞,不必草率的要求受歡迎關(guān)鍵詞,反而是采用最適用的關(guān)鍵詞。
  2、做好內容的添充
  內容是吸引用戶(hù)的重要。因此,內容的品質(zhì)及升級的次數全是十分核心的??墒?,有一些公司發(fā)覺(jué)升級內容真的很難,如不可以剽竊別人內容,又得維持按時(shí)升級,總感覺(jué)真的很難。實(shí)際上,“天地文章內容一片抄”,重要就可以看你是否會(huì )抄。
  
  實(shí)際上,在編寫(xiě)時(shí)必須維持自身網(wǎng)址的有關(guān)構思,并且多立在用戶(hù)的視角去思索一些問(wèn)題,如她們想在內容掌握到哪些、想從這當中得到什么有一些使用價(jià)值的物品這些,那樣編寫(xiě)出去的信息不但能遭受用戶(hù)的愛(ài)好,并且還能吸引住搜索引擎的爬取,而搜索引擎爬行越快網(wǎng)址排名越高,營(yíng)銷(xiāo)推廣實(shí)際效果就會(huì )更好。
  3、做好時(shí)時(shí)刻刻監管的工作中
  網(wǎng)絡(luò )平臺變幻莫測,不可以以不會(huì )改變的目光來(lái)對待發(fā)展趨勢。因此,務(wù)必做好時(shí)時(shí)刻刻監管的提前準備,對用戶(hù)的瀏覽、搜索引擎蜘蛛的爬取維持相對高度的當心,那樣才可以讓營(yíng)銷(xiāo)推廣工作中高效率。
  總而言之,搜索引擎營(yíng)銷(xiāo)推廣是一把雙刃刀,用得可以使你的網(wǎng)址排名靠前,總流量暴漲,完成早日贏(yíng)利就是指日可待,如果是投機取巧也會(huì )使你的營(yíng)銷(xiāo)推廣職業(yè)生涯邁向窮途末路,此后消退在網(wǎng)絡(luò )的深海里。因此,假如公司沒(méi)希望能做好搜索引擎營(yíng)銷(xiāo)推廣,云浪科技會(huì )是你們優(yōu)秀的挑選。
  可以聯(lián)系小編
  百度前三,包月推廣,獨立后臺數據抓取,當天上線(xiàn),不限點(diǎn)擊費,1500元/月保證前三,3999元包年托管,需要的請聯(lián)系小編
   查看全部

  搜索引擎營(yíng)銷(xiāo)推廣的方法有哪些?
  無(wú)論是線(xiàn)上上或是線(xiàn)下推廣,營(yíng)銷(xiāo)推廣全是必不可缺的有效的方式。由于,伴隨著(zhù)移動(dòng)互聯(lián)的迅速發(fā)展趨勢,已過(guò)去了香醇不畏酒香不怕巷的時(shí)期,現在是必須主動(dòng)進(jìn)攻才有可能完成營(yíng)銷(xiāo)推廣目地。因此,企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)全過(guò)程中,下列的搜索引擎營(yíng)銷(xiāo)推廣的方式務(wù)必關(guān)鍵把握,實(shí)際向下看一下。
  一、搜索引擎營(yíng)銷(xiāo)推廣的方式 有什么?1、SEM營(yíng)銷(xiāo)推廣
  SEM是搜索引擎搜索推廣,是根據發(fā)掘、剖析用戶(hù)檢索的關(guān)鍵詞,對該關(guān)鍵詞開(kāi)展競價(jià)來(lái)得到需要的排名。一般來(lái)說(shuō),受歡迎的關(guān)鍵詞競爭比較大,要想根據它得到較前的排名,務(wù)必出“大格局”才有可能得到較前的排名。
  2、SEO營(yíng)銷(xiāo)推廣
  SEO是搜索引擎優(yōu)化方法,是依據網(wǎng)址主題風(fēng)格和用戶(hù)的搜尋習慣性,挑選最好關(guān)鍵詞提升而得到排名。一般關(guān)鍵詞指數值越高,提升難度系數越高,可是一旦得到排名,排名的可靠性較強,不容易隨便發(fā)生下挫。
  
  3、關(guān)鍵詞廣告宣傳
  關(guān)鍵詞廣告是搜索引擎營(yíng)銷(xiāo)推廣的一種常見(jiàn)的作法,運用用戶(hù)點(diǎn)一下關(guān)鍵詞開(kāi)展收費,剖析、發(fā)掘出大量相關(guān)的新聞資訊。
  二、搜索引擎營(yíng)銷(xiāo)推廣包含哪幾個(gè)方面?
  殊不知,無(wú)論應用以上哪一種搜索引擎營(yíng)銷(xiāo)推廣,它都包含下列層面:
  想要讓降血壓廣告效果越來(lái)越好就一定要做好:1、定位到需求人群2、提高廣告創(chuàng )意+針對性文案3、使用多種廣告投放方式4、通過(guò)平臺投放
  1、適合的關(guān)鍵詞
  關(guān)鍵詞是搜索引擎營(yíng)銷(xiāo)推廣推廣合理的前提條件。因此,在營(yíng)銷(xiāo)推廣的環(huán)節中,務(wù)必自始至終緊緊圍繞著(zhù)網(wǎng)址主題風(fēng)格及用戶(hù)的搜尋習慣性挑選關(guān)鍵詞,不必草率的要求受歡迎關(guān)鍵詞,反而是采用最適用的關(guān)鍵詞。
  2、做好內容的添充
  內容是吸引用戶(hù)的重要。因此,內容的品質(zhì)及升級的次數全是十分核心的??墒?,有一些公司發(fā)覺(jué)升級內容真的很難,如不可以剽竊別人內容,又得維持按時(shí)升級,總感覺(jué)真的很難。實(shí)際上,“天地文章內容一片抄”,重要就可以看你是否會(huì )抄。
  
  實(shí)際上,在編寫(xiě)時(shí)必須維持自身網(wǎng)址的有關(guān)構思,并且多立在用戶(hù)的視角去思索一些問(wèn)題,如她們想在內容掌握到哪些、想從這當中得到什么有一些使用價(jià)值的物品這些,那樣編寫(xiě)出去的信息不但能遭受用戶(hù)的愛(ài)好,并且還能吸引住搜索引擎的爬取,而搜索引擎爬行越快網(wǎng)址排名越高,營(yíng)銷(xiāo)推廣實(shí)際效果就會(huì )更好。
  3、做好時(shí)時(shí)刻刻監管的工作中
  網(wǎng)絡(luò )平臺變幻莫測,不可以以不會(huì )改變的目光來(lái)對待發(fā)展趨勢。因此,務(wù)必做好時(shí)時(shí)刻刻監管的提前準備,對用戶(hù)的瀏覽、搜索引擎蜘蛛的爬取維持相對高度的當心,那樣才可以讓營(yíng)銷(xiāo)推廣工作中高效率。
  總而言之,搜索引擎營(yíng)銷(xiāo)推廣是一把雙刃刀,用得可以使你的網(wǎng)址排名靠前,總流量暴漲,完成早日贏(yíng)利就是指日可待,如果是投機取巧也會(huì )使你的營(yíng)銷(xiāo)推廣職業(yè)生涯邁向窮途末路,此后消退在網(wǎng)絡(luò )的深海里。因此,假如公司沒(méi)希望能做好搜索引擎營(yíng)銷(xiāo)推廣,云浪科技會(huì )是你們優(yōu)秀的挑選。
  可以聯(lián)系小編
  百度前三,包月推廣,獨立后臺數據抓取,當天上線(xiàn),不限點(diǎn)擊費,1500元/月保證前三,3999元包年托管,需要的請聯(lián)系小編
  

【實(shí)例】網(wǎng)頁(yè)搜索策略思考方法

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 122 次瀏覽 ? 2022-05-05 22:24 ? 來(lái)自相關(guān)話(huà)題

  【實(shí)例】網(wǎng)頁(yè)搜索策略思考方法
  
  功能導向型核心業(yè)務(wù)的策略框架
  
  
  網(wǎng)頁(yè)搜索策略思考方法
  1
  產(chǎn)品目標
  
  產(chǎn)品目標:高效地獲取信息
  1)需求復雜又多變
  2)從浩瀚的候選集合里找到正確的信息
  不同用戶(hù)輸入同一query表達的需求可能不一致;
  同一用戶(hù)在不同場(chǎng)景輸入同一query表達的需求也可能不一致。
  2
  需求理解
  這里的需求理解其實(shí)就是廣義的query解析
  分為三類(lèi):
  1)需求明確
  A)結構簡(jiǎn)單清晰的query:經(jīng)過(guò)切詞處理即可進(jìn)行后續檢索
  例如:黃山優(yōu)采云站訂票電話(huà)——>黃山 優(yōu)采云站 訂 票 電話(huà)
  B)口語(yǔ)化的query:需要進(jìn)行糾錯、同義轉換等語(yǔ)義處理
  例如:杭州至鹽城高速怎么走
  ——>杭州|至|鹽城|高速|(zhì)怎么|走
  ——>【map】 【from:杭州】 【to:鹽城】 【type:駕車(chē)】
  C)表達方式很復雜的query:需要進(jìn)行更加unique的語(yǔ)義處理
  例如:
  披星()月
  吾嘗終日而思矣,后面
  2)需求明確,對答案有特殊要求
  除了統一的query變換外,需要將特定要求轉換成搜索引擎可理解的特征
  例如:
  豬肉最新價(jià)格——>資源時(shí)效性
  3)需求不明確,需要進(jìn)行需求擴展和預測
  例如:
  歡樂(lè )頌——>歡樂(lè )頌視頻、劇情介紹、演員表、評論。。。
  猩球崛起3——>上映前需要預告片上映時(shí)間、上映中需要介紹評價(jià)在線(xiàn)購票、下映后需要介紹評論視頻
  三類(lèi)擴展維度:
  上下文數據:搜了歡樂(lè )頌后,用戶(hù)是否主動(dòng)更改query搜索歡樂(lè )頌視頻
  類(lèi)目數據:對于【歡樂(lè )頌】這種電視劇專(zhuān)名,天然就有視頻、劇情等需求。PM可以提前梳理針對各類(lèi)目的需求擴展list。
  個(gè)性化數據:對于特定類(lèi)目可以進(jìn)行地域擴展,家樂(lè )?!?gt;北京家樂(lè )福;電影專(zhuān)名,有的用戶(hù)更傾向于看劇情,有的傾向看評論。
  一個(gè)query經(jīng)過(guò)以上分類(lèi)處理后,會(huì )統一成這樣的輸出,來(lái)進(jìn)行接下來(lái)的檢索:
  【需求類(lèi)目/需求詞】
  【需求強度】
  【待檢索term/pattern】
  【其他限定特征(地域等)】
  衡量指標:
  1)每個(gè)query分析規則的召回率和準確率
  2)各需求的召回率和準確率
  3
  解決方案
  分為兩部分:排序和展現
  1.排序
  不同需求間:根據需求強度(命中需求的概率)
  同一需求間:根據結果質(zhì)量(相關(guān)性、權威性、時(shí)效性、可用性)
  根據用戶(hù)的點(diǎn)擊行為進(jìn)行調整
  實(shí)際上,會(huì )把需求強度、結果質(zhì)量、用戶(hù)點(diǎn)擊行為統一成【唯一指標】決定首頁(yè)結果的排序
  LTR:learningtorank機器學(xué)習排序
  
  2.展現
  通用策略:將結果頁(yè)中與query相關(guān)的信息提取為標題/摘要,進(jìn)行飄紅等處理幫助用戶(hù)篩選信息
 ?。▽λ兴阉饕?,都是將檢索對象中用戶(hù)最關(guān)心的內容提取至檢索結果列表頁(yè),并根據情況以各種強化的樣式展現)
  細化策略:針對不同需求,又有如下細化策略:
  A)對于單一明確信息需求,可以將答案信息之間在摘要中展現
  例如:天氣、客服電話(huà)
  B)對于用戶(hù)接下來(lái)路徑相對收斂的需求,可以將下一步需求前置,縮短步驟
  例如:網(wǎng)易郵箱(登錄)、歡樂(lè )頌視頻(集數)、凡人歌(播放)
  C)對于不同資源類(lèi)型結果,可以針對性?xún)?yōu)化摘要
  例如:視頻類(lèi)、圖片類(lèi)、新聞類(lèi)、地圖類(lèi)
  3.衡量指標
  1)每個(gè)需求打分、質(zhì)量打分、展現策略的召回率和準確率
  2)用戶(hù)角度的搜索的滿(mǎn)足度
  A)基于用戶(hù)行為的搜索滿(mǎn)足度:
  摘要滿(mǎn)足型需求——>無(wú)/很少點(diǎn)擊行為
  單結果滿(mǎn)足型需求——>點(diǎn)擊集中于收條結果
  主動(dòng)變換query比例低
  翻頁(yè)比例低等等
  B)基于人為評估的搜索滿(mǎn)足度:
  query前3/5/10結果相關(guān)性->基于人為需求判斷,當前結果是否能滿(mǎn)足;與競品相比,是否有更好結果未收錄、排序是否更優(yōu)等
  session滿(mǎn)足度->從用戶(hù)一個(gè)行為片段分析其是否得到滿(mǎn)足
  4
  資源支撐
  1.自然語(yǔ)言相關(guān)
  各類(lèi)基礎詞庫:用于query切詞處理、同義轉換、糾錯等
  語(yǔ)義理解和處理規則:用于query解析
  2.網(wǎng)頁(yè)相關(guān)
  網(wǎng)頁(yè)收錄(spider):
  1)保證各類(lèi)網(wǎng)頁(yè)收錄覆蓋度
  2)保證各類(lèi)網(wǎng)頁(yè)收錄時(shí)效性:根據網(wǎng)頁(yè)類(lèi)型定義更新頻率,重要或時(shí)效性要求高的資源可選擇站長(cháng)主動(dòng)提交的方式
  頁(yè)面分析:
  對頁(yè)面類(lèi)型進(jìn)行識別,頁(yè)面中內容解析、為term附權等等
  衡量指標
  1)對于NLP相關(guān):各類(lèi)詞庫、處理策略的準確率、召回率等;
  2)對于網(wǎng)頁(yè)收錄:收錄覆蓋率、更新時(shí)效性等;
  3)對于頁(yè)面分析:各類(lèi)準確率、召回率等。
  5
  總結
  
  以上為三節課策略產(chǎn)品課程個(gè)人學(xué)習筆記。 查看全部

  【實(shí)例】網(wǎng)頁(yè)搜索策略思考方法
  
  功能導向型核心業(yè)務(wù)的策略框架
  
  
  網(wǎng)頁(yè)搜索策略思考方法
  1
  產(chǎn)品目標
  
  產(chǎn)品目標:高效地獲取信息
  1)需求復雜又多變
  2)從浩瀚的候選集合里找到正確的信息
  不同用戶(hù)輸入同一query表達的需求可能不一致;
  同一用戶(hù)在不同場(chǎng)景輸入同一query表達的需求也可能不一致。
  2
  需求理解
  這里的需求理解其實(shí)就是廣義的query解析
  分為三類(lèi):
  1)需求明確
  A)結構簡(jiǎn)單清晰的query:經(jīng)過(guò)切詞處理即可進(jìn)行后續檢索
  例如:黃山優(yōu)采云站訂票電話(huà)——>黃山 優(yōu)采云站 訂 票 電話(huà)
  B)口語(yǔ)化的query:需要進(jìn)行糾錯、同義轉換等語(yǔ)義處理
  例如:杭州至鹽城高速怎么走
  ——>杭州|至|鹽城|高速|(zhì)怎么|走
  ——>【map】 【from:杭州】 【to:鹽城】 【type:駕車(chē)】
  C)表達方式很復雜的query:需要進(jìn)行更加unique的語(yǔ)義處理
  例如:
  披星()月
  吾嘗終日而思矣,后面
  2)需求明確,對答案有特殊要求
  除了統一的query變換外,需要將特定要求轉換成搜索引擎可理解的特征
  例如:
  豬肉最新價(jià)格——>資源時(shí)效性
  3)需求不明確,需要進(jìn)行需求擴展和預測
  例如:
  歡樂(lè )頌——>歡樂(lè )頌視頻、劇情介紹、演員表、評論。。。
  猩球崛起3——>上映前需要預告片上映時(shí)間、上映中需要介紹評價(jià)在線(xiàn)購票、下映后需要介紹評論視頻
  三類(lèi)擴展維度:
  上下文數據:搜了歡樂(lè )頌后,用戶(hù)是否主動(dòng)更改query搜索歡樂(lè )頌視頻
  類(lèi)目數據:對于【歡樂(lè )頌】這種電視劇專(zhuān)名,天然就有視頻、劇情等需求。PM可以提前梳理針對各類(lèi)目的需求擴展list。
  個(gè)性化數據:對于特定類(lèi)目可以進(jìn)行地域擴展,家樂(lè )?!?gt;北京家樂(lè )福;電影專(zhuān)名,有的用戶(hù)更傾向于看劇情,有的傾向看評論。
  一個(gè)query經(jīng)過(guò)以上分類(lèi)處理后,會(huì )統一成這樣的輸出,來(lái)進(jìn)行接下來(lái)的檢索:
  【需求類(lèi)目/需求詞】
  【需求強度】
  【待檢索term/pattern】
  【其他限定特征(地域等)】
  衡量指標:
  1)每個(gè)query分析規則的召回率和準確率
  2)各需求的召回率和準確率
  3
  解決方案
  分為兩部分:排序和展現
  1.排序
  不同需求間:根據需求強度(命中需求的概率)
  同一需求間:根據結果質(zhì)量(相關(guān)性、權威性、時(shí)效性、可用性)
  根據用戶(hù)的點(diǎn)擊行為進(jìn)行調整
  實(shí)際上,會(huì )把需求強度、結果質(zhì)量、用戶(hù)點(diǎn)擊行為統一成【唯一指標】決定首頁(yè)結果的排序
  LTR:learningtorank機器學(xué)習排序
  
  2.展現
  通用策略:將結果頁(yè)中與query相關(guān)的信息提取為標題/摘要,進(jìn)行飄紅等處理幫助用戶(hù)篩選信息
 ?。▽λ兴阉饕?,都是將檢索對象中用戶(hù)最關(guān)心的內容提取至檢索結果列表頁(yè),并根據情況以各種強化的樣式展現)
  細化策略:針對不同需求,又有如下細化策略:
  A)對于單一明確信息需求,可以將答案信息之間在摘要中展現
  例如:天氣、客服電話(huà)
  B)對于用戶(hù)接下來(lái)路徑相對收斂的需求,可以將下一步需求前置,縮短步驟
  例如:網(wǎng)易郵箱(登錄)、歡樂(lè )頌視頻(集數)、凡人歌(播放)
  C)對于不同資源類(lèi)型結果,可以針對性?xún)?yōu)化摘要
  例如:視頻類(lèi)、圖片類(lèi)、新聞類(lèi)、地圖類(lèi)
  3.衡量指標
  1)每個(gè)需求打分、質(zhì)量打分、展現策略的召回率和準確率
  2)用戶(hù)角度的搜索的滿(mǎn)足度
  A)基于用戶(hù)行為的搜索滿(mǎn)足度:
  摘要滿(mǎn)足型需求——>無(wú)/很少點(diǎn)擊行為
  單結果滿(mǎn)足型需求——>點(diǎn)擊集中于收條結果
  主動(dòng)變換query比例低
  翻頁(yè)比例低等等
  B)基于人為評估的搜索滿(mǎn)足度:
  query前3/5/10結果相關(guān)性->基于人為需求判斷,當前結果是否能滿(mǎn)足;與競品相比,是否有更好結果未收錄、排序是否更優(yōu)等
  session滿(mǎn)足度->從用戶(hù)一個(gè)行為片段分析其是否得到滿(mǎn)足
  4
  資源支撐
  1.自然語(yǔ)言相關(guān)
  各類(lèi)基礎詞庫:用于query切詞處理、同義轉換、糾錯等
  語(yǔ)義理解和處理規則:用于query解析
  2.網(wǎng)頁(yè)相關(guān)
  網(wǎng)頁(yè)收錄(spider):
  1)保證各類(lèi)網(wǎng)頁(yè)收錄覆蓋度
  2)保證各類(lèi)網(wǎng)頁(yè)收錄時(shí)效性:根據網(wǎng)頁(yè)類(lèi)型定義更新頻率,重要或時(shí)效性要求高的資源可選擇站長(cháng)主動(dòng)提交的方式
  頁(yè)面分析:
  對頁(yè)面類(lèi)型進(jìn)行識別,頁(yè)面中內容解析、為term附權等等
  衡量指標
  1)對于NLP相關(guān):各類(lèi)詞庫、處理策略的準確率、召回率等;
  2)對于網(wǎng)頁(yè)收錄:收錄覆蓋率、更新時(shí)效性等;
  3)對于頁(yè)面分析:各類(lèi)準確率、召回率等。
  5
  總結
  
  以上為三節課策略產(chǎn)品課程個(gè)人學(xué)習筆記。

SEM(搜索引擎營(yíng)銷(xiāo))是什么?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 125 次瀏覽 ? 2022-05-05 22:20 ? 來(lái)自相關(guān)話(huà)題

  SEM(搜索引擎營(yíng)銷(xiāo))是什么?
  
  SEM是Search Engine Marketing的縮寫(xiě),中文意思是搜索引擎營(yíng)銷(xiāo)。就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候盡可能將營(yíng)銷(xiāo)信息傳遞給目標客戶(hù)。
  
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。SEM可以在搜索引擎中進(jìn)行品牌的維護,將品牌的負面信息盡可能少的呈現在搜索用戶(hù)面前,可以預防競爭對手在網(wǎng)絡(luò )上惡意的誣陷。同時(shí)可以在進(jìn)行正面和商業(yè)信息的推廣,進(jìn)而達到品牌推廣的目標。
  SEM目標層次原理
  SEM搜索引擎營(yíng)銷(xiāo)可分為四個(gè)層次,可分別簡(jiǎn)單描述為:存在層、表現層、關(guān)注層和轉化層。
  第一層的目標是搜索引擎營(yíng)銷(xiāo)的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎之一,第二個(gè)基礎是通過(guò)競價(jià)排名方式出現在搜索引擎中,離開(kāi)這兩個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  第三層的目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  第四層的目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。目前搜索營(yíng)銷(xiāo),逐步被人們認識和運用。
  SEM基本要素
  根據搜索引擎營(yíng)銷(xiāo)的基本原理,搜索引擎營(yíng)銷(xiāo)之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎營(yíng)銷(xiāo)信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎營(yíng)銷(xiāo)的基本任務(wù)和內容。
  
  SEM的優(yōu)勢
  SEM是一種新的網(wǎng)絡(luò )營(yíng)銷(xiāo)形式。SEM所做的就是全面而有效的利用搜索引擎來(lái)進(jìn)行網(wǎng)絡(luò )營(yíng)銷(xiāo)和推廣。SEM追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。SEM可以在搜索引擎中進(jìn)行品牌的維護,將品牌的負面信息盡可能少的呈現在搜索用戶(hù)面前,可以預防競爭對手在網(wǎng)絡(luò )上惡意的誣陷。同時(shí)可以在進(jìn)行正面和商業(yè)信息的推廣,進(jìn)而達到品牌推廣的目標。
  SEM與SEO、SMO的區別
  SEM是網(wǎng)絡(luò )營(yíng)銷(xiāo),SEO是技術(shù),SMO是通過(guò)社會(huì )化媒體一整套方法。
  通俗的講SEO是搜索引擎優(yōu)化,是通過(guò)優(yōu)化網(wǎng)站讓其在搜索引擎上有良好的排名,主要是技術(shù)層面的。SEM是搜索引擎營(yíng)銷(xiāo),SEO只是SEM的一部分。SEM主要是通過(guò)搜索引擎進(jìn)行營(yíng)銷(xiāo)的。SMO是通過(guò)社會(huì )化媒體、在線(xiàn)組織及社區網(wǎng)站獲得公共傳播的一整套方法,是社會(huì )化媒體優(yōu)化是網(wǎng)絡(luò )營(yíng)銷(xiāo)的一種最新形式。
  SEM網(wǎng)絡(luò )營(yíng)銷(xiāo)常用方法
  1、搜索引擎營(yíng)銷(xiāo)
  搜索引擎營(yíng)銷(xiāo)是指搜索引擎優(yōu)化、關(guān)鍵詞廣告、關(guān)鍵詞競價(jià)排名、搜索引擎定位廣告搜索引擎在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的地位尤其重要,每天各行各業(yè)的人使用搜索引擎搜索信息。通過(guò)搜索引擎營(yíng)銷(xiāo)能直接帶來(lái)流量與終端客戶(hù)。
  2、電子郵件營(yíng)銷(xiāo)方法
  以電子郵件為產(chǎn)品資料、刊物、介紹等方向發(fā)送到電子郵件廣告等?;谟脩?hù)許可的電子郵件營(yíng)銷(xiāo)的推廣方式可以增加用戶(hù)對產(chǎn)品的了解。
  3、資源合作營(yíng)銷(xiāo)方法
  網(wǎng)站交換鏈接、交換廣告、內容合作、信息推廣、信息合作、用戶(hù)資源合作等方式,正所謂“人人為我,我為人人”,合作共贏(yíng),利益共享,共同發(fā)展。
  4、網(wǎng)絡(luò )廣告營(yíng)銷(xiāo)方法
  網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式之一,直接通過(guò)網(wǎng)站的廣告位置進(jìn)行投放推廣,可以直接借用其他網(wǎng)絡(luò )媒體推廣,網(wǎng)站廣告的優(yōu)勢在于:范圍廣、形式多樣、適用性強、投放及時(shí)等優(yōu)點(diǎn),適合于網(wǎng)站初期營(yíng)銷(xiāo)推廣。
  5、信息推廣營(yíng)銷(xiāo)方法
  把網(wǎng)站的信息發(fā)布相關(guān)行業(yè)網(wǎng)站中,利用用戶(hù)在訪(fǎng)問(wèn)這些網(wǎng)站同時(shí),了解你網(wǎng)站信息,達到鑿壁借光,可以把信息推廣發(fā)布到黃頁(yè)、分類(lèi)廣告、論壇、博客網(wǎng)站、供求信息平臺、行業(yè)網(wǎng)站等,這也是免費網(wǎng)站推廣的常用方法之一。
  6、網(wǎng)址營(yíng)銷(xiāo)方法
  通過(guò)把一些網(wǎng)站信息提交到相關(guān)網(wǎng)址導航中,來(lái)獲取巨大流量,有些網(wǎng)絡(luò )用戶(hù)常進(jìn)入一些網(wǎng)址導航中來(lái)查詢(xún)相關(guān)網(wǎng)站信息,而且此種推廣,對網(wǎng)站的作用也顯而易見(jiàn)。 查看全部

  SEM(搜索引擎營(yíng)銷(xiāo))是什么?
  
  SEM是Search Engine Marketing的縮寫(xiě),中文意思是搜索引擎營(yíng)銷(xiāo)。就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候盡可能將營(yíng)銷(xiāo)信息傳遞給目標客戶(hù)。
  
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。SEM可以在搜索引擎中進(jìn)行品牌的維護,將品牌的負面信息盡可能少的呈現在搜索用戶(hù)面前,可以預防競爭對手在網(wǎng)絡(luò )上惡意的誣陷。同時(shí)可以在進(jìn)行正面和商業(yè)信息的推廣,進(jìn)而達到品牌推廣的目標。
  SEM目標層次原理
  SEM搜索引擎營(yíng)銷(xiāo)可分為四個(gè)層次,可分別簡(jiǎn)單描述為:存在層、表現層、關(guān)注層和轉化層。
  第一層的目標是搜索引擎營(yíng)銷(xiāo)的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎之一,第二個(gè)基礎是通過(guò)競價(jià)排名方式出現在搜索引擎中,離開(kāi)這兩個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  第三層的目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  第四層的目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。目前搜索營(yíng)銷(xiāo),逐步被人們認識和運用。
  SEM基本要素
  根據搜索引擎營(yíng)銷(xiāo)的基本原理,搜索引擎營(yíng)銷(xiāo)之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎營(yíng)銷(xiāo)信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎營(yíng)銷(xiāo)的基本任務(wù)和內容。
  
  SEM的優(yōu)勢
  SEM是一種新的網(wǎng)絡(luò )營(yíng)銷(xiāo)形式。SEM所做的就是全面而有效的利用搜索引擎來(lái)進(jìn)行網(wǎng)絡(luò )營(yíng)銷(xiāo)和推廣。SEM追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。SEM可以在搜索引擎中進(jìn)行品牌的維護,將品牌的負面信息盡可能少的呈現在搜索用戶(hù)面前,可以預防競爭對手在網(wǎng)絡(luò )上惡意的誣陷。同時(shí)可以在進(jìn)行正面和商業(yè)信息的推廣,進(jìn)而達到品牌推廣的目標。
  SEM與SEO、SMO的區別
  SEM是網(wǎng)絡(luò )營(yíng)銷(xiāo),SEO是技術(shù),SMO是通過(guò)社會(huì )化媒體一整套方法。
  通俗的講SEO是搜索引擎優(yōu)化,是通過(guò)優(yōu)化網(wǎng)站讓其在搜索引擎上有良好的排名,主要是技術(shù)層面的。SEM是搜索引擎營(yíng)銷(xiāo),SEO只是SEM的一部分。SEM主要是通過(guò)搜索引擎進(jìn)行營(yíng)銷(xiāo)的。SMO是通過(guò)社會(huì )化媒體、在線(xiàn)組織及社區網(wǎng)站獲得公共傳播的一整套方法,是社會(huì )化媒體優(yōu)化是網(wǎng)絡(luò )營(yíng)銷(xiāo)的一種最新形式。
  SEM網(wǎng)絡(luò )營(yíng)銷(xiāo)常用方法
  1、搜索引擎營(yíng)銷(xiāo)
  搜索引擎營(yíng)銷(xiāo)是指搜索引擎優(yōu)化、關(guān)鍵詞廣告、關(guān)鍵詞競價(jià)排名、搜索引擎定位廣告搜索引擎在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的地位尤其重要,每天各行各業(yè)的人使用搜索引擎搜索信息。通過(guò)搜索引擎營(yíng)銷(xiāo)能直接帶來(lái)流量與終端客戶(hù)。
  2、電子郵件營(yíng)銷(xiāo)方法
  以電子郵件為產(chǎn)品資料、刊物、介紹等方向發(fā)送到電子郵件廣告等?;谟脩?hù)許可的電子郵件營(yíng)銷(xiāo)的推廣方式可以增加用戶(hù)對產(chǎn)品的了解。
  3、資源合作營(yíng)銷(xiāo)方法
  網(wǎng)站交換鏈接、交換廣告、內容合作、信息推廣、信息合作、用戶(hù)資源合作等方式,正所謂“人人為我,我為人人”,合作共贏(yíng),利益共享,共同發(fā)展。
  4、網(wǎng)絡(luò )廣告營(yíng)銷(xiāo)方法
  網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式之一,直接通過(guò)網(wǎng)站的廣告位置進(jìn)行投放推廣,可以直接借用其他網(wǎng)絡(luò )媒體推廣,網(wǎng)站廣告的優(yōu)勢在于:范圍廣、形式多樣、適用性強、投放及時(shí)等優(yōu)點(diǎn),適合于網(wǎng)站初期營(yíng)銷(xiāo)推廣。
  5、信息推廣營(yíng)銷(xiāo)方法
  把網(wǎng)站的信息發(fā)布相關(guān)行業(yè)網(wǎng)站中,利用用戶(hù)在訪(fǎng)問(wèn)這些網(wǎng)站同時(shí),了解你網(wǎng)站信息,達到鑿壁借光,可以把信息推廣發(fā)布到黃頁(yè)、分類(lèi)廣告、論壇、博客網(wǎng)站、供求信息平臺、行業(yè)網(wǎng)站等,這也是免費網(wǎng)站推廣的常用方法之一。
  6、網(wǎng)址營(yíng)銷(xiāo)方法
  通過(guò)把一些網(wǎng)站信息提交到相關(guān)網(wǎng)址導航中,來(lái)獲取巨大流量,有些網(wǎng)絡(luò )用戶(hù)常進(jìn)入一些網(wǎng)址導航中來(lái)查詢(xún)相關(guān)網(wǎng)站信息,而且此種推廣,對網(wǎng)站的作用也顯而易見(jiàn)。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 138 次瀏覽 ? 2022-05-04 05:23 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?
  
  搜索引擎營(yíng)銷(xiāo):英文Search Engine Marketing ,我們通常簡(jiǎn)稱(chēng)為“SEM”。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候將信息傳遞給目標用戶(hù)。搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)點(diǎn)擊進(jìn)入網(wǎng)頁(yè),進(jìn)一步了解所需要的信息。企業(yè)通過(guò)搜索引擎付費推廣,讓用戶(hù)可以直接與公司客服進(jìn)行交流、了解,實(shí)現交易。
  定義
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。在介紹搜索引擎策略時(shí),一般認為,搜索引擎優(yōu)化設計主要目標有2個(gè)層次:被搜索引擎收錄、在搜索結果中排名靠前。這已經(jīng)是常識問(wèn)題,簡(jiǎn)單來(lái)說(shuō)SEM所做的就是以最小的投入在搜索引擎中獲最大的訪(fǎng)問(wèn)量并產(chǎn)生商業(yè)價(jià)值。多數網(wǎng)絡(luò )營(yíng)銷(xiāo)人員和專(zhuān)業(yè)服務(wù)商對搜索引擎的目標設定也基本處于這個(gè)水平。但從實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前還很不夠,因為取得這樣的效果實(shí)際上并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客或者潛在顧客,因此只能說(shuō)是搜索引擎營(yíng)銷(xiāo)策略中兩個(gè)最基本的目標。
  SEM的方法包括SEO、付費排名、精準廣告以及付費收錄等
  價(jià)值
  1、帶來(lái)更多的點(diǎn)擊與關(guān)注;
  2、帶來(lái)更多的商業(yè)機會(huì );
  3、樹(shù)立行業(yè)品牌;
  4、增加網(wǎng)站廣度;
  5、提升品牌知名度;
  6、增加網(wǎng)站曝光度;
  7、根據關(guān)鍵詞,通過(guò)創(chuàng )意和描述提供相關(guān)介紹。
  內涵
  搜索引擎營(yíng)銷(xiāo)(Search Engine Marking簡(jiǎn)稱(chēng) SEM)就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。
  工作原理
  1、用戶(hù)搜索;
  2、返回結果;
  3、查看結果;
  4、點(diǎn)擊內容;
  5、瀏覽網(wǎng)站;
  6、咨詢(xún)搜索
  搜索引擎工作原理
  抓取-數據庫-分析搜索請求-計算排列順序
  基本要素
  根據搜索引擎推廣的原理,搜索引擎推廣之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎推廣信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎推廣的基本任務(wù)和內容。
  其實(shí)最主要的還是需要做好用戶(hù)體驗,百度算法進(jìn)步升級,更加重視了用戶(hù)體驗這一塊,做好內容,做優(yōu)質(zhì)內容才是王道。
  基本過(guò)程
  1、企業(yè)信息發(fā)布在網(wǎng)站上成為以網(wǎng)頁(yè)形式存在的信息源(包括企業(yè)內部信息源及外部信息源);
  2、搜索引擎將網(wǎng)站/網(wǎng)頁(yè)信息收錄到索引數據庫;
  3、用戶(hù)利用關(guān)鍵詞進(jìn)行檢索(對于分類(lèi)目錄則是逐級目錄查詢(xún));
  4、檢索結果中羅列相關(guān)的索引信息及其鏈接URL;
  5、根據用戶(hù)對檢索結果的判斷選擇有興趣的信息并點(diǎn)擊URL進(jìn)入信息源所在網(wǎng)頁(yè);
  6、搜索關(guān)鍵詞;
  7、看到搜索結果;
  8、點(diǎn)擊鏈接;
  9、瀏覽企業(yè)網(wǎng)站;
  10、實(shí)現轉化。
  基本內容
  1、構造適合于搜索引擎檢索的信息源;
  2、創(chuàng )造網(wǎng)站/網(wǎng)頁(yè)被搜索引擎收錄的機會(huì );
  3、讓網(wǎng)站信息出現在搜索結果中靠前位置;
  4、以搜索結果中有限的信息獲得用戶(hù)關(guān)注;
  5、為用戶(hù)獲取信息提供方便。
  營(yíng)銷(xiāo)特點(diǎn)
  1、使用廣泛;
  2、用戶(hù)主動(dòng)查詢(xún);
  3、獲取新客戶(hù);
  4、競爭性強;
  5、動(dòng)態(tài)更新,隨時(shí)調整;
  6、投資回報率高;
  7、搜索引擎營(yíng)銷(xiāo)的基礎是企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)的信息源;
  8、搜索引擎傳遞的信息只發(fā)揮向導作用;
  9、搜索引擎營(yíng)銷(xiāo)是用戶(hù)主導的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式;
  10、搜索引擎營(yíng)銷(xiāo)可實(shí)現較高程度的定位;
  11、搜索引擎營(yíng)銷(xiāo)需要適應網(wǎng)絡(luò )服務(wù)環(huán)境的發(fā)展變化。
  營(yíng)銷(xiāo)宗旨
  1、被收錄;
  2、排名靠前;
  3、常被點(diǎn)擊;
  4、客戶(hù)轉化;
  5、提高品牌知名度。
  標題標簽
  通過(guò)對客戶(hù)網(wǎng)站進(jìn)行整站優(yōu)化,挑選出部分主關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其達到搜索引擎的首頁(yè)位置,同時(shí)提高網(wǎng)站的權重,并帶動(dòng)更多長(cháng)尾關(guān)鍵詞的自然排名的提升。再結合ppc競價(jià),制定出精確的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,給公司帶來(lái)更多的訂單。
  在網(wǎng)頁(yè)的優(yōu)化上最重要的因素之一就是網(wǎng)頁(yè)的標題標簽。通常在寫(xiě)標題標簽時(shí)應該考慮幾個(gè)因素。
  1、所有網(wǎng)頁(yè)都應該有適合自己的獨特的Title或Tag。有很多網(wǎng)站都犯了一個(gè)很低級的錯誤,也就是所有網(wǎng)頁(yè)都有同一個(gè)標題??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候把整個(gè)模版來(lái)回復制,所以HTML文件里面的頭信息也都被復制過(guò)去,沒(méi)有再被改動(dòng)。
  2、標題標簽應該對用戶(hù)的需求有足夠的吸引力。網(wǎng)頁(yè)在搜索引擎結果中列出,網(wǎng)頁(yè)的標題就是來(lái)自于標題標簽。
  3、標題標簽中應該含有關(guān)鍵詞。
  營(yíng)銷(xiāo)目標
  第一層是搜索引擎的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎,離開(kāi)這個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  搜索引擎營(yíng)銷(xiāo)的第三個(gè)目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  搜索引擎推廣的第四個(gè)目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。
  搜索引擎推廣追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。用戶(hù)在檢索信息所使用的關(guān)鍵字反映出用戶(hù)對該問(wèn)題(產(chǎn)品)的關(guān)注,這種關(guān)注是搜索引擎之所以被應用于網(wǎng)絡(luò )營(yíng)銷(xiāo)的根本原因。
  網(wǎng)絡(luò )整合營(yíng)銷(xiāo)四大特性
  傳染特性、互動(dòng)特性、重合特性、背書(shū)特性
  確立營(yíng)銷(xiāo)需求
  確立營(yíng)銷(xiāo)標的物(產(chǎn)品屬性)
  確立營(yíng)銷(xiāo)標準(消費人群)
  確立目標場(chǎng)景
  云浪網(wǎng)絡(luò )推廣,一直以低成本、有效果為各大企業(yè)及廣告營(yíng)銷(xiāo)策劃公司提供網(wǎng)絡(luò )推廣服務(wù)多年,擅長(cháng)利用百度營(yíng)銷(xiāo)軟文首頁(yè)推廣、百度愛(ài)采購,百度競價(jià)前三推廣(1500一個(gè)月,三個(gè)月2800,包點(diǎn)擊費),官網(wǎng)推廣至百度搜索關(guān)鍵詞首頁(yè)有排名為目標。
  【百度快照、百度競價(jià),百度愛(ài)采購、360競價(jià)、、信息流開(kāi)戶(hù),抖音短視頻,全網(wǎng)推廣咨詢(xún):度曉曉】
   查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?
  
  搜索引擎營(yíng)銷(xiāo):英文Search Engine Marketing ,我們通常簡(jiǎn)稱(chēng)為“SEM”。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候將信息傳遞給目標用戶(hù)。搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)點(diǎn)擊進(jìn)入網(wǎng)頁(yè),進(jìn)一步了解所需要的信息。企業(yè)通過(guò)搜索引擎付費推廣,讓用戶(hù)可以直接與公司客服進(jìn)行交流、了解,實(shí)現交易。
  定義
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。在介紹搜索引擎策略時(shí),一般認為,搜索引擎優(yōu)化設計主要目標有2個(gè)層次:被搜索引擎收錄、在搜索結果中排名靠前。這已經(jīng)是常識問(wèn)題,簡(jiǎn)單來(lái)說(shuō)SEM所做的就是以最小的投入在搜索引擎中獲最大的訪(fǎng)問(wèn)量并產(chǎn)生商業(yè)價(jià)值。多數網(wǎng)絡(luò )營(yíng)銷(xiāo)人員和專(zhuān)業(yè)服務(wù)商對搜索引擎的目標設定也基本處于這個(gè)水平。但從實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前還很不夠,因為取得這樣的效果實(shí)際上并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客或者潛在顧客,因此只能說(shuō)是搜索引擎營(yíng)銷(xiāo)策略中兩個(gè)最基本的目標。
  SEM的方法包括SEO、付費排名、精準廣告以及付費收錄等
  價(jià)值
  1、帶來(lái)更多的點(diǎn)擊與關(guān)注;
  2、帶來(lái)更多的商業(yè)機會(huì );
  3、樹(shù)立行業(yè)品牌;
  4、增加網(wǎng)站廣度;
  5、提升品牌知名度;
  6、增加網(wǎng)站曝光度;
  7、根據關(guān)鍵詞,通過(guò)創(chuàng )意和描述提供相關(guān)介紹。
  內涵
  搜索引擎營(yíng)銷(xiāo)(Search Engine Marking簡(jiǎn)稱(chēng) SEM)就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。
  工作原理
  1、用戶(hù)搜索;
  2、返回結果;
  3、查看結果;
  4、點(diǎn)擊內容;
  5、瀏覽網(wǎng)站;
  6、咨詢(xún)搜索
  搜索引擎工作原理
  抓取-數據庫-分析搜索請求-計算排列順序
  基本要素
  根據搜索引擎推廣的原理,搜索引擎推廣之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎推廣信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎推廣的基本任務(wù)和內容。
  其實(shí)最主要的還是需要做好用戶(hù)體驗,百度算法進(jìn)步升級,更加重視了用戶(hù)體驗這一塊,做好內容,做優(yōu)質(zhì)內容才是王道。
  基本過(guò)程
  1、企業(yè)信息發(fā)布在網(wǎng)站上成為以網(wǎng)頁(yè)形式存在的信息源(包括企業(yè)內部信息源及外部信息源);
  2、搜索引擎將網(wǎng)站/網(wǎng)頁(yè)信息收錄到索引數據庫;
  3、用戶(hù)利用關(guān)鍵詞進(jìn)行檢索(對于分類(lèi)目錄則是逐級目錄查詢(xún));
  4、檢索結果中羅列相關(guān)的索引信息及其鏈接URL;
  5、根據用戶(hù)對檢索結果的判斷選擇有興趣的信息并點(diǎn)擊URL進(jìn)入信息源所在網(wǎng)頁(yè);
  6、搜索關(guān)鍵詞;
  7、看到搜索結果;
  8、點(diǎn)擊鏈接;
  9、瀏覽企業(yè)網(wǎng)站;
  10、實(shí)現轉化。
  基本內容
  1、構造適合于搜索引擎檢索的信息源;
  2、創(chuàng )造網(wǎng)站/網(wǎng)頁(yè)被搜索引擎收錄的機會(huì );
  3、讓網(wǎng)站信息出現在搜索結果中靠前位置;
  4、以搜索結果中有限的信息獲得用戶(hù)關(guān)注;
  5、為用戶(hù)獲取信息提供方便。
  營(yíng)銷(xiāo)特點(diǎn)
  1、使用廣泛;
  2、用戶(hù)主動(dòng)查詢(xún);
  3、獲取新客戶(hù);
  4、競爭性強;
  5、動(dòng)態(tài)更新,隨時(shí)調整;
  6、投資回報率高;
  7、搜索引擎營(yíng)銷(xiāo)的基礎是企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)的信息源;
  8、搜索引擎傳遞的信息只發(fā)揮向導作用;
  9、搜索引擎營(yíng)銷(xiāo)是用戶(hù)主導的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式;
  10、搜索引擎營(yíng)銷(xiāo)可實(shí)現較高程度的定位;
  11、搜索引擎營(yíng)銷(xiāo)需要適應網(wǎng)絡(luò )服務(wù)環(huán)境的發(fā)展變化。
  營(yíng)銷(xiāo)宗旨
  1、被收錄;
  2、排名靠前;
  3、常被點(diǎn)擊;
  4、客戶(hù)轉化;
  5、提高品牌知名度。
  標題標簽
  通過(guò)對客戶(hù)網(wǎng)站進(jìn)行整站優(yōu)化,挑選出部分主關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其達到搜索引擎的首頁(yè)位置,同時(shí)提高網(wǎng)站的權重,并帶動(dòng)更多長(cháng)尾關(guān)鍵詞的自然排名的提升。再結合ppc競價(jià),制定出精確的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,給公司帶來(lái)更多的訂單。
  在網(wǎng)頁(yè)的優(yōu)化上最重要的因素之一就是網(wǎng)頁(yè)的標題標簽。通常在寫(xiě)標題標簽時(shí)應該考慮幾個(gè)因素。
  1、所有網(wǎng)頁(yè)都應該有適合自己的獨特的Title或Tag。有很多網(wǎng)站都犯了一個(gè)很低級的錯誤,也就是所有網(wǎng)頁(yè)都有同一個(gè)標題??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候把整個(gè)模版來(lái)回復制,所以HTML文件里面的頭信息也都被復制過(guò)去,沒(méi)有再被改動(dòng)。
  2、標題標簽應該對用戶(hù)的需求有足夠的吸引力。網(wǎng)頁(yè)在搜索引擎結果中列出,網(wǎng)頁(yè)的標題就是來(lái)自于標題標簽。
  3、標題標簽中應該含有關(guān)鍵詞。
  營(yíng)銷(xiāo)目標
  第一層是搜索引擎的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎,離開(kāi)這個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  搜索引擎營(yíng)銷(xiāo)的第三個(gè)目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  搜索引擎推廣的第四個(gè)目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。
  搜索引擎推廣追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。用戶(hù)在檢索信息所使用的關(guān)鍵字反映出用戶(hù)對該問(wèn)題(產(chǎn)品)的關(guān)注,這種關(guān)注是搜索引擎之所以被應用于網(wǎng)絡(luò )營(yíng)銷(xiāo)的根本原因。
  網(wǎng)絡(luò )整合營(yíng)銷(xiāo)四大特性
  傳染特性、互動(dòng)特性、重合特性、背書(shū)特性
  確立營(yíng)銷(xiāo)需求
  確立營(yíng)銷(xiāo)標的物(產(chǎn)品屬性)
  確立營(yíng)銷(xiāo)標準(消費人群)
  確立目標場(chǎng)景
  云浪網(wǎng)絡(luò )推廣,一直以低成本、有效果為各大企業(yè)及廣告營(yíng)銷(xiāo)策劃公司提供網(wǎng)絡(luò )推廣服務(wù)多年,擅長(cháng)利用百度營(yíng)銷(xiāo)軟文首頁(yè)推廣、百度愛(ài)采購,百度競價(jià)前三推廣(1500一個(gè)月,三個(gè)月2800,包點(diǎn)擊費),官網(wǎng)推廣至百度搜索關(guān)鍵詞首頁(yè)有排名為目標。
  【百度快照、百度競價(jià),百度愛(ài)采購、360競價(jià)、、信息流開(kāi)戶(hù),抖音短視頻,全網(wǎng)推廣咨詢(xún):度曉曉】
  

QA問(wèn)答場(chǎng)景算法實(shí)踐

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 100 次瀏覽 ? 2022-05-02 18:20 ? 來(lái)自相關(guān)話(huà)題

  QA問(wèn)答場(chǎng)景算法實(shí)踐
  1.背景
  我們的游戲客服場(chǎng)景中包含大量玩家與客服交互問(wèn)答的文本語(yǔ)料,人工客服在面對玩家時(shí)會(huì )遇到諸如賬號密碼、充值福利、玩法攻略等很多方面的問(wèn)題,經(jīng)過(guò)長(cháng)期的積累,運營(yíng)人員根據線(xiàn)上用戶(hù)的提問(wèn)做總結,沉淀下來(lái)的知識形成了游戲問(wèn)答領(lǐng)域的FAQ庫(知識庫)。我們的智能客服場(chǎng)景致力于解決人工客服需要應對的玩家提問(wèn),提供一個(gè)便捷的搜索入口,以便后續有人再有相同或相似問(wèn)題時(shí)可以直接搜到答案。
  智能客服相比于人工客服具有響應速度快、always online、維護成本低等優(yōu)勢,在有知識庫庫的前提下,通過(guò)智能化手段輔助人工解決玩家問(wèn)題,已經(jīng)作為一種效率提升手段覆蓋到越來(lái)越多的游戲當中。
  2.智能客服的實(shí)踐及探索2.1 智能客服架構
  整個(gè)智能客服的架構如下圖所示:
  
  2.2 Query理解2.2.1 為什么需要query理解
  query理解是整個(gè)智能客服中最上游的一環(huán),負責的是從query中提取到有效的信息,從而了解用戶(hù)希望這個(gè)query在問(wèn)什么內容。query理解,決定了下游的問(wèn)答召回策略:
  quey理解需要做哪些內容短語(yǔ)改寫(xiě)
  短語(yǔ)改寫(xiě)的背景很容易理解,因為輸入法等方面的問(wèn)題,用戶(hù)輸入會(huì )有筆誤操作類(lèi)
  這里提供兩個(gè)思路:
  簡(jiǎn)單說(shuō),短語(yǔ)改寫(xiě)的目的是為了糾錯,比如“充值到賬”手誤輸入成了“充直到賬”,短語(yǔ)改寫(xiě)便能將其糾正,query改寫(xiě)后能更容易召回正確答案。
  意圖識別
  意圖識別模塊通常是一個(gè)分類(lèi)任務(wù),目的是識別用戶(hù)要查詢(xún)的類(lèi)目,再輸出給召回和排序模塊,保證最后結果的類(lèi)目相關(guān)性,具體實(shí)現方式可以從傳統方法和NLP兩方面考慮。
  傳統方法:通過(guò)規則、詞典、正則等方式進(jìn)行識別,準確率高、速度快。
  NLP:通過(guò)語(yǔ)義分析的手段,文本分類(lèi),達到語(yǔ)義分析的目的。
  這里的意圖識別模型用的是fastText,FastText是由FaceBook于2016年發(fā)布的文本分類(lèi)模型,具有結構簡(jiǎn)單,訓練及推理速度較快的特點(diǎn)。FastText與生成詞向量的CBOW方法結構很像,并且采用了N-gram的方法,在預測過(guò)程中使用了分層SoftMax來(lái)加速訓練。
  
  FastText能夠在文本分類(lèi)任務(wù)中迅速達成baseline,達到相對較好的效果,并且推理耗時(shí)較少,適用于項目啟動(dòng)時(shí)期的快速上線(xiàn)??偟膩?lái)說(shuō),該模型有高效的訓練速度和較高的識別準確率,做出來(lái)的結果也可以達到上線(xiàn)使用的標準。詞法分析維護了一些詞典,通過(guò)詞典匹配能獲得query中的關(guān)鍵詞和關(guān)鍵短語(yǔ)。
  實(shí)體識別
  實(shí)體識別的實(shí)現方法可以概括為詞典匹配和機器學(xué)習方法。
  詞典匹配
  這個(gè)任務(wù)雖說(shuō)是命名實(shí)體識別任務(wù),但是卻不見(jiàn)得需要建立一個(gè)模型才能解決,要進(jìn)行一個(gè)初步的處理,快速上線(xiàn),其實(shí)詞典匹配的方法可能是最簡(jiǎn)單的,而實(shí)際上,即使是其他方法,我也很建議大家用這個(gè)方式去做一遍,理由后面會(huì )談。
  詞典匹配的便捷性體現在你真的很容易就能拿到這個(gè)詞典資源,因為你做搜索,所需要的數據,其實(shí)已經(jīng)在數據庫或者底層搜索引擎里面了(沒(méi)有資源你怎么做搜索推薦?),你可以將數據庫內的數據按照字段提取,然后通過(guò)n-gram的方式切詞,即可完成一個(gè)初步的詞典,復雜的,進(jìn)一步,為了保證詞典的可靠性,你可能需要刪除一些不適合再次點(diǎn)出現的詞匯,舉例,酒店名字段中,其實(shí)沒(méi)有必要存“酒店”做為詞條,首先召回的時(shí)候,大部分酒店都有“酒店”一詞,他沒(méi)有明顯地指向性,然后,這種召回也會(huì )增加排序的負擔。
  有了詞典之后,就可以通過(guò)詞典匹配的形式進(jìn)行命名實(shí)體識別。上面給出的例子:“北京的溫泉”,就可以快速標記“city-object-type”,然后就可以通過(guò)這個(gè)實(shí)體識別結果,拼好檢索語(yǔ)法,完成召回。
  機器學(xué)習方法
  器學(xué)習方法,包括深度學(xué)習,是現行的主流方法,我也最建議用這種方法上線(xiàn)。
  詞權重問(wèn)題
  詞權重可以簡(jiǎn)單理解為一個(gè)詞在我們問(wèn)題句子當中的權重,為什么要考慮詞權重?
  我們有了一段文本,抽取比較重要的關(guān)鍵詞,這些關(guān)鍵詞在一定程度上可以代表文本的語(yǔ)義,這種任務(wù)就被稱(chēng)為關(guān)鍵詞抽取。如果從抽象的角度去解釋?zhuān)覀儠?huì )把句子轉成0和1組成序列,序列的長(cháng)度跟句子長(cháng)度相等,對于這個(gè)01序列,為1的位置對應句子的位置的詞匯就是關(guān)鍵詞,為0的則為為關(guān)鍵詞。
  按照這個(gè)思路,我們用01來(lái)表示句子序列,0和1分別對應句子當中的詞匯,如果按照等級劃分,比如分層5個(gè)級別,01234,4代表最重要,3次之,以此類(lèi)推,形成一個(gè)分等級的詞重要性分析。
  概括來(lái)說(shuō),就是給句子中每個(gè)詞匯打分,體現他們的重要性,這種問(wèn)題就被稱(chēng)為詞權重問(wèn)題。
  處理方法:
  TFIDF是很強的baseline,具有較強的普適性,如果沒(méi)有太多經(jīng)驗的話(huà),可以實(shí)現該算法基本能應付大部分關(guān)鍵詞抽取的場(chǎng)景了
  有監督方法,其實(shí)就會(huì )比較多樣了,小到用基礎統計特征做機器學(xué)習,序列標注下的HMM、CRF,大到用語(yǔ)義模型做深度學(xué)習,其實(shí)都有不錯的效果。
  我這里重點(diǎn)談小型機器學(xué)習方法,這似乎也是目前工業(yè)界常用的。LR和GBDT體系是目前淺層學(xué)習的重要方法,當然序列標注的CRF和HMM也可以參考,因此在模型選型上,主要就是這些,那么,剩下的問(wèn)題就是特征怎么放了。
  常用的特征如下,這個(gè)和上面提到的可能會(huì )重復。
  2.3 召回層
  召回層是將候選答案從FAQ庫中拿回,獲得待排序的候選集。此處用了兩種召回方式:檢索召回和語(yǔ)義召回。
  
  2.4 排序層
  排序層是將召回層拿到的候選知識進(jìn)行排序,將和query最相關(guān)的知識盡可能往前排。排序模型采用了GBDT,GBDT作為一種常用的樹(shù)模型,可天然地對原始特征進(jìn)行特征劃分、特征組合和特征選擇,并得到高階特征屬性和非線(xiàn)性映射。我們考慮用GBDT可以組合多種特征,可擴展性強,并且后期驗證GBDT的效果好于單獨使用匹配算法效果,因此,當前匹配算法在排序層中作為一種特征來(lái)使用。
  匹配算法用到的是LSTM-DSSM,DSSM即Deep Structured Semantic Model,模型出自微軟研究院,主要方法是將query和doc通過(guò)深度網(wǎng)絡(luò )映射到相同維度的空間中,通過(guò)最大化其余弦相似度來(lái)進(jìn)行訓練。
  
  LSTM-DSSM是對DSSM的優(yōu)化,原生DSSM的基礎上,引入LSTM作為句子表征,提取更多的語(yǔ)義級別的信息。
  2.5 返回層:
  query經(jīng)過(guò)上述處理之后會(huì )對處理結果進(jìn)行返回,目前主要是QA-Bot。
  三、總結與展望
  當前的智能客服已經(jīng)覆蓋了多個(gè)業(yè)務(wù)線(xiàn)的游戲場(chǎng)景中,上線(xiàn)后,QA-bot的列表點(diǎn)擊率也有一定的提升,對于一些簡(jiǎn)單的問(wèn)題已經(jīng)能夠將較匹配的答案排到較前的位置。但是對于需要深度語(yǔ)義及具有知識背景的問(wèn)題,如:“VIP5到VIP6需要多少錢(qián)”的問(wèn)題,現有辦法將答案“充值”排在靠前的位置時(shí)還有一定的badcase。當前正在考慮參考知識圖譜等方向的解決方案,對知識庫內的知識進(jìn)行結構化的梳理,希望在匹配的同時(shí)能夠具有簡(jiǎn)單的推理,來(lái)更好的理解用戶(hù)語(yǔ)言背后的需求。
  展望和計劃:
  數據是效果的基礎,智能客服效果所依賴(lài)的知識庫庫也需要不斷的知識擴充,如何通過(guò)自動(dòng)或半自動(dòng)的方法挖出更多高質(zhì)量的相似問(wèn)或者標準問(wèn),為知識運營(yíng)人員提效,也是我們現階段正在探索的方向。
  當前的匹配算法僅作為一種特征使用在gbdt排序模型中,后期隨著(zhù)匹配算法的不斷積累,會(huì )將所有的匹配模型進(jìn)行整合,以一種更通用的模塊化的方式,為有文本匹配需求的各個(gè)業(yè)務(wù)場(chǎng)景提供匹配算法的支持。
  算法服務(wù)模塊會(huì )進(jìn)一步拆解,比如Query理解等方面的服務(wù)可以集成到開(kāi)放平臺,并提供服務(wù),為更多相關(guān)的業(yè)務(wù)提供算法支持。
  參考文獻 查看全部

  QA問(wèn)答場(chǎng)景算法實(shí)踐
  1.背景
  我們的游戲客服場(chǎng)景中包含大量玩家與客服交互問(wèn)答的文本語(yǔ)料,人工客服在面對玩家時(shí)會(huì )遇到諸如賬號密碼、充值福利、玩法攻略等很多方面的問(wèn)題,經(jīng)過(guò)長(cháng)期的積累,運營(yíng)人員根據線(xiàn)上用戶(hù)的提問(wèn)做總結,沉淀下來(lái)的知識形成了游戲問(wèn)答領(lǐng)域的FAQ庫(知識庫)。我們的智能客服場(chǎng)景致力于解決人工客服需要應對的玩家提問(wèn),提供一個(gè)便捷的搜索入口,以便后續有人再有相同或相似問(wèn)題時(shí)可以直接搜到答案。
  智能客服相比于人工客服具有響應速度快、always online、維護成本低等優(yōu)勢,在有知識庫庫的前提下,通過(guò)智能化手段輔助人工解決玩家問(wèn)題,已經(jīng)作為一種效率提升手段覆蓋到越來(lái)越多的游戲當中。
  2.智能客服的實(shí)踐及探索2.1 智能客服架構
  整個(gè)智能客服的架構如下圖所示:
  
  2.2 Query理解2.2.1 為什么需要query理解
  query理解是整個(gè)智能客服中最上游的一環(huán),負責的是從query中提取到有效的信息,從而了解用戶(hù)希望這個(gè)query在問(wèn)什么內容。query理解,決定了下游的問(wèn)答召回策略:
  quey理解需要做哪些內容短語(yǔ)改寫(xiě)
  短語(yǔ)改寫(xiě)的背景很容易理解,因為輸入法等方面的問(wèn)題,用戶(hù)輸入會(huì )有筆誤操作類(lèi)
  這里提供兩個(gè)思路:
  簡(jiǎn)單說(shuō),短語(yǔ)改寫(xiě)的目的是為了糾錯,比如“充值到賬”手誤輸入成了“充直到賬”,短語(yǔ)改寫(xiě)便能將其糾正,query改寫(xiě)后能更容易召回正確答案。
  意圖識別
  意圖識別模塊通常是一個(gè)分類(lèi)任務(wù),目的是識別用戶(hù)要查詢(xún)的類(lèi)目,再輸出給召回和排序模塊,保證最后結果的類(lèi)目相關(guān)性,具體實(shí)現方式可以從傳統方法和NLP兩方面考慮。
  傳統方法:通過(guò)規則、詞典、正則等方式進(jìn)行識別,準確率高、速度快。
  NLP:通過(guò)語(yǔ)義分析的手段,文本分類(lèi),達到語(yǔ)義分析的目的。
  這里的意圖識別模型用的是fastText,FastText是由FaceBook于2016年發(fā)布的文本分類(lèi)模型,具有結構簡(jiǎn)單,訓練及推理速度較快的特點(diǎn)。FastText與生成詞向量的CBOW方法結構很像,并且采用了N-gram的方法,在預測過(guò)程中使用了分層SoftMax來(lái)加速訓練。
  
  FastText能夠在文本分類(lèi)任務(wù)中迅速達成baseline,達到相對較好的效果,并且推理耗時(shí)較少,適用于項目啟動(dòng)時(shí)期的快速上線(xiàn)??偟膩?lái)說(shuō),該模型有高效的訓練速度和較高的識別準確率,做出來(lái)的結果也可以達到上線(xiàn)使用的標準。詞法分析維護了一些詞典,通過(guò)詞典匹配能獲得query中的關(guān)鍵詞和關(guān)鍵短語(yǔ)。
  實(shí)體識別
  實(shí)體識別的實(shí)現方法可以概括為詞典匹配和機器學(xué)習方法。
  詞典匹配
  這個(gè)任務(wù)雖說(shuō)是命名實(shí)體識別任務(wù),但是卻不見(jiàn)得需要建立一個(gè)模型才能解決,要進(jìn)行一個(gè)初步的處理,快速上線(xiàn),其實(shí)詞典匹配的方法可能是最簡(jiǎn)單的,而實(shí)際上,即使是其他方法,我也很建議大家用這個(gè)方式去做一遍,理由后面會(huì )談。
  詞典匹配的便捷性體現在你真的很容易就能拿到這個(gè)詞典資源,因為你做搜索,所需要的數據,其實(shí)已經(jīng)在數據庫或者底層搜索引擎里面了(沒(méi)有資源你怎么做搜索推薦?),你可以將數據庫內的數據按照字段提取,然后通過(guò)n-gram的方式切詞,即可完成一個(gè)初步的詞典,復雜的,進(jìn)一步,為了保證詞典的可靠性,你可能需要刪除一些不適合再次點(diǎn)出現的詞匯,舉例,酒店名字段中,其實(shí)沒(méi)有必要存“酒店”做為詞條,首先召回的時(shí)候,大部分酒店都有“酒店”一詞,他沒(méi)有明顯地指向性,然后,這種召回也會(huì )增加排序的負擔。
  有了詞典之后,就可以通過(guò)詞典匹配的形式進(jìn)行命名實(shí)體識別。上面給出的例子:“北京的溫泉”,就可以快速標記“city-object-type”,然后就可以通過(guò)這個(gè)實(shí)體識別結果,拼好檢索語(yǔ)法,完成召回。
  機器學(xué)習方法
  器學(xué)習方法,包括深度學(xué)習,是現行的主流方法,我也最建議用這種方法上線(xiàn)。
  詞權重問(wèn)題
  詞權重可以簡(jiǎn)單理解為一個(gè)詞在我們問(wèn)題句子當中的權重,為什么要考慮詞權重?
  我們有了一段文本,抽取比較重要的關(guān)鍵詞,這些關(guān)鍵詞在一定程度上可以代表文本的語(yǔ)義,這種任務(wù)就被稱(chēng)為關(guān)鍵詞抽取。如果從抽象的角度去解釋?zhuān)覀儠?huì )把句子轉成0和1組成序列,序列的長(cháng)度跟句子長(cháng)度相等,對于這個(gè)01序列,為1的位置對應句子的位置的詞匯就是關(guān)鍵詞,為0的則為為關(guān)鍵詞。
  按照這個(gè)思路,我們用01來(lái)表示句子序列,0和1分別對應句子當中的詞匯,如果按照等級劃分,比如分層5個(gè)級別,01234,4代表最重要,3次之,以此類(lèi)推,形成一個(gè)分等級的詞重要性分析。
  概括來(lái)說(shuō),就是給句子中每個(gè)詞匯打分,體現他們的重要性,這種問(wèn)題就被稱(chēng)為詞權重問(wèn)題。
  處理方法:
  TFIDF是很強的baseline,具有較強的普適性,如果沒(méi)有太多經(jīng)驗的話(huà),可以實(shí)現該算法基本能應付大部分關(guān)鍵詞抽取的場(chǎng)景了
  有監督方法,其實(shí)就會(huì )比較多樣了,小到用基礎統計特征做機器學(xué)習,序列標注下的HMM、CRF,大到用語(yǔ)義模型做深度學(xué)習,其實(shí)都有不錯的效果。
  我這里重點(diǎn)談小型機器學(xué)習方法,這似乎也是目前工業(yè)界常用的。LR和GBDT體系是目前淺層學(xué)習的重要方法,當然序列標注的CRF和HMM也可以參考,因此在模型選型上,主要就是這些,那么,剩下的問(wèn)題就是特征怎么放了。
  常用的特征如下,這個(gè)和上面提到的可能會(huì )重復。
  2.3 召回層
  召回層是將候選答案從FAQ庫中拿回,獲得待排序的候選集。此處用了兩種召回方式:檢索召回和語(yǔ)義召回。
  
  2.4 排序層
  排序層是將召回層拿到的候選知識進(jìn)行排序,將和query最相關(guān)的知識盡可能往前排。排序模型采用了GBDT,GBDT作為一種常用的樹(shù)模型,可天然地對原始特征進(jìn)行特征劃分、特征組合和特征選擇,并得到高階特征屬性和非線(xiàn)性映射。我們考慮用GBDT可以組合多種特征,可擴展性強,并且后期驗證GBDT的效果好于單獨使用匹配算法效果,因此,當前匹配算法在排序層中作為一種特征來(lái)使用。
  匹配算法用到的是LSTM-DSSM,DSSM即Deep Structured Semantic Model,模型出自微軟研究院,主要方法是將query和doc通過(guò)深度網(wǎng)絡(luò )映射到相同維度的空間中,通過(guò)最大化其余弦相似度來(lái)進(jìn)行訓練。
  
  LSTM-DSSM是對DSSM的優(yōu)化,原生DSSM的基礎上,引入LSTM作為句子表征,提取更多的語(yǔ)義級別的信息。
  2.5 返回層:
  query經(jīng)過(guò)上述處理之后會(huì )對處理結果進(jìn)行返回,目前主要是QA-Bot。
  三、總結與展望
  當前的智能客服已經(jīng)覆蓋了多個(gè)業(yè)務(wù)線(xiàn)的游戲場(chǎng)景中,上線(xiàn)后,QA-bot的列表點(diǎn)擊率也有一定的提升,對于一些簡(jiǎn)單的問(wèn)題已經(jīng)能夠將較匹配的答案排到較前的位置。但是對于需要深度語(yǔ)義及具有知識背景的問(wèn)題,如:“VIP5到VIP6需要多少錢(qián)”的問(wèn)題,現有辦法將答案“充值”排在靠前的位置時(shí)還有一定的badcase。當前正在考慮參考知識圖譜等方向的解決方案,對知識庫內的知識進(jìn)行結構化的梳理,希望在匹配的同時(shí)能夠具有簡(jiǎn)單的推理,來(lái)更好的理解用戶(hù)語(yǔ)言背后的需求。
  展望和計劃:
  數據是效果的基礎,智能客服效果所依賴(lài)的知識庫庫也需要不斷的知識擴充,如何通過(guò)自動(dòng)或半自動(dòng)的方法挖出更多高質(zhì)量的相似問(wèn)或者標準問(wèn),為知識運營(yíng)人員提效,也是我們現階段正在探索的方向。
  當前的匹配算法僅作為一種特征使用在gbdt排序模型中,后期隨著(zhù)匹配算法的不斷積累,會(huì )將所有的匹配模型進(jìn)行整合,以一種更通用的模塊化的方式,為有文本匹配需求的各個(gè)業(yè)務(wù)場(chǎng)景提供匹配算法的支持。
  算法服務(wù)模塊會(huì )進(jìn)一步拆解,比如Query理解等方面的服務(wù)可以集成到開(kāi)放平臺,并提供服務(wù),為更多相關(guān)的業(yè)務(wù)提供算法支持。
  參考文獻

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2022-05-01 18:04 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?
  
  搜索引擎營(yíng)銷(xiāo):英文Search Engine Marketing ,我們通常簡(jiǎn)稱(chēng)為“SEM”。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候將信息傳遞給目標用戶(hù)。搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)點(diǎn)擊進(jìn)入網(wǎng)頁(yè),進(jìn)一步了解所需要的信息。企業(yè)通過(guò)搜索引擎付費推廣,讓用戶(hù)可以直接與公司客服進(jìn)行交流、了解,實(shí)現交易。
  定義
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。在介紹搜索引擎策略時(shí),一般認為,搜索引擎優(yōu)化設計主要目標有2個(gè)層次:被搜索引擎收錄、在搜索結果中排名靠前。這已經(jīng)是常識問(wèn)題,簡(jiǎn)單來(lái)說(shuō)SEM所做的就是以最小的投入在搜索引擎中獲最大的訪(fǎng)問(wèn)量并產(chǎn)生商業(yè)價(jià)值。多數網(wǎng)絡(luò )營(yíng)銷(xiāo)人員和專(zhuān)業(yè)服務(wù)商對搜索引擎的目標設定也基本處于這個(gè)水平。但從實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前還很不夠,因為取得這樣的效果實(shí)際上并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客或者潛在顧客,因此只能說(shuō)是搜索引擎營(yíng)銷(xiāo)策略中兩個(gè)最基本的目標。
  SEM的方法包括SEO、付費排名、精準廣告以及付費收錄等
  價(jià)值
  1、帶來(lái)更多的點(diǎn)擊與關(guān)注;
  2、帶來(lái)更多的商業(yè)機會(huì );
  3、樹(shù)立行業(yè)品牌;
  4、增加網(wǎng)站廣度;
  5、提升品牌知名度;
  6、增加網(wǎng)站曝光度;
  7、根據關(guān)鍵詞,通過(guò)創(chuàng )意和描述提供相關(guān)介紹。
  內涵
  搜索引擎營(yíng)銷(xiāo)(Search Engine Marking簡(jiǎn)稱(chēng) SEM)就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。
  工作原理
  1、用戶(hù)搜索;
  2、返回結果;
  3、查看結果;
  4、點(diǎn)擊內容;
  5、瀏覽網(wǎng)站;
  6、咨詢(xún)搜索
  搜索引擎工作原理
  抓取-數據庫-分析搜索請求-計算排列順序
  基本要素
  根據搜索引擎推廣的原理,搜索引擎推廣之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎推廣信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎推廣的基本任務(wù)和內容。
  其實(shí)最主要的還是需要做好用戶(hù)體驗,百度算法進(jìn)步升級,更加重視了用戶(hù)體驗這一塊,做好內容,做優(yōu)質(zhì)內容才是王道。
  基本過(guò)程
  1、企業(yè)信息發(fā)布在網(wǎng)站上成為以網(wǎng)頁(yè)形式存在的信息源(包括企業(yè)內部信息源及外部信息源);
  2、搜索引擎將網(wǎng)站/網(wǎng)頁(yè)信息收錄到索引數據庫;
  3、用戶(hù)利用關(guān)鍵詞進(jìn)行檢索(對于分類(lèi)目錄則是逐級目錄查詢(xún));
  4、檢索結果中羅列相關(guān)的索引信息及其鏈接URL;
  5、根據用戶(hù)對檢索結果的判斷選擇有興趣的信息并點(diǎn)擊URL進(jìn)入信息源所在網(wǎng)頁(yè);
  6、搜索關(guān)鍵詞;
  7、看到搜索結果;
  8、點(diǎn)擊鏈接;
  9、瀏覽企業(yè)網(wǎng)站;
  10、實(shí)現轉化。
  基本內容
  1、構造適合于搜索引擎檢索的信息源;
  2、創(chuàng )造網(wǎng)站/網(wǎng)頁(yè)被搜索引擎收錄的機會(huì );
  3、讓網(wǎng)站信息出現在搜索結果中靠前位置;
  4、以搜索結果中有限的信息獲得用戶(hù)關(guān)注;
  5、為用戶(hù)獲取信息提供方便。
  營(yíng)銷(xiāo)特點(diǎn)
  1、使用廣泛;
  2、用戶(hù)主動(dòng)查詢(xún);
  3、獲取新客戶(hù);
  4、競爭性強;
  5、動(dòng)態(tài)更新,隨時(shí)調整;
  6、投資回報率高;
  7、搜索引擎營(yíng)銷(xiāo)的基礎是企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)的信息源;
  8、搜索引擎傳遞的信息只發(fā)揮向導作用;
  9、搜索引擎營(yíng)銷(xiāo)是用戶(hù)主導的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式;
  10、搜索引擎營(yíng)銷(xiāo)可實(shí)現較高程度的定位;
  11、搜索引擎營(yíng)銷(xiāo)需要適應網(wǎng)絡(luò )服務(wù)環(huán)境的發(fā)展變化。
  營(yíng)銷(xiāo)宗旨
  1、被收錄;
  2、排名靠前;
  3、常被點(diǎn)擊;
  4、客戶(hù)轉化;
  5、提高品牌知名度。
  標題標簽
  通過(guò)對客戶(hù)網(wǎng)站進(jìn)行整站優(yōu)化,挑選出部分主關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其達到搜索引擎的首頁(yè)位置,同時(shí)提高網(wǎng)站的權重,并帶動(dòng)更多長(cháng)尾關(guān)鍵詞的自然排名的提升。再結合ppc競價(jià),制定出精確的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,給公司帶來(lái)更多的訂單。
  在網(wǎng)頁(yè)的優(yōu)化上最重要的因素之一就是網(wǎng)頁(yè)的標題標簽。通常在寫(xiě)標題標簽時(shí)應該考慮幾個(gè)因素。
  1、所有網(wǎng)頁(yè)都應該有適合自己的獨特的Title或Tag。有很多網(wǎng)站都犯了一個(gè)很低級的錯誤,也就是所有網(wǎng)頁(yè)都有同一個(gè)標題??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候把整個(gè)模版來(lái)回復制,所以HTML文件里面的頭信息也都被復制過(guò)去,沒(méi)有再被改動(dòng)。
  2、標題標簽應該對用戶(hù)的需求有足夠的吸引力。網(wǎng)頁(yè)在搜索引擎結果中列出,網(wǎng)頁(yè)的標題就是來(lái)自于標題標簽。
  3、標題標簽中應該含有關(guān)鍵詞。
  營(yíng)銷(xiāo)目標
  第一層是搜索引擎的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎,離開(kāi)這個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  搜索引擎營(yíng)銷(xiāo)的第三個(gè)目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  搜索引擎推廣的第四個(gè)目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。
  搜索引擎推廣追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。用戶(hù)在檢索信息所使用的關(guān)鍵字反映出用戶(hù)對該問(wèn)題(產(chǎn)品)的關(guān)注,這種關(guān)注是搜索引擎之所以被應用于網(wǎng)絡(luò )營(yíng)銷(xiāo)的根本原因。
  網(wǎng)絡(luò )整合營(yíng)銷(xiāo)四大特性
  傳染特性、互動(dòng)特性、重合特性、背書(shū)特性
  確立營(yíng)銷(xiāo)需求
  確立營(yíng)銷(xiāo)標的物(產(chǎn)品屬性)
  確立營(yíng)銷(xiāo)標準(消費人群)
  確立目標場(chǎng)景
  云浪網(wǎng)絡(luò )推廣,一直以低成本、有效果為各大企業(yè)及廣告營(yíng)銷(xiāo)策劃公司提供網(wǎng)絡(luò )推廣服務(wù)多年,擅長(cháng)利用百度營(yíng)銷(xiāo)軟文首頁(yè)推廣、百度愛(ài)采購,百度競價(jià)前三推廣(1500一個(gè)月,三個(gè)月2800,包點(diǎn)擊費),官網(wǎng)推廣至百度搜索關(guān)鍵詞首頁(yè)有排名為目標。
  【百度快照、百度競價(jià),百度愛(ài)采購、360競價(jià)、、信息流開(kāi)戶(hù),抖音短視頻,全網(wǎng)推廣咨詢(xún):度曉曉】
   查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?
  
  搜索引擎營(yíng)銷(xiāo):英文Search Engine Marketing ,我們通常簡(jiǎn)稱(chēng)為“SEM”。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候將信息傳遞給目標用戶(hù)。搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)點(diǎn)擊進(jìn)入網(wǎng)頁(yè),進(jìn)一步了解所需要的信息。企業(yè)通過(guò)搜索引擎付費推廣,讓用戶(hù)可以直接與公司客服進(jìn)行交流、了解,實(shí)現交易。
  定義
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。在介紹搜索引擎策略時(shí),一般認為,搜索引擎優(yōu)化設計主要目標有2個(gè)層次:被搜索引擎收錄、在搜索結果中排名靠前。這已經(jīng)是常識問(wèn)題,簡(jiǎn)單來(lái)說(shuō)SEM所做的就是以最小的投入在搜索引擎中獲最大的訪(fǎng)問(wèn)量并產(chǎn)生商業(yè)價(jià)值。多數網(wǎng)絡(luò )營(yíng)銷(xiāo)人員和專(zhuān)業(yè)服務(wù)商對搜索引擎的目標設定也基本處于這個(gè)水平。但從實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前還很不夠,因為取得這樣的效果實(shí)際上并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客或者潛在顧客,因此只能說(shuō)是搜索引擎營(yíng)銷(xiāo)策略中兩個(gè)最基本的目標。
  SEM的方法包括SEO、付費排名、精準廣告以及付費收錄等
  價(jià)值
  1、帶來(lái)更多的點(diǎn)擊與關(guān)注;
  2、帶來(lái)更多的商業(yè)機會(huì );
  3、樹(shù)立行業(yè)品牌;
  4、增加網(wǎng)站廣度;
  5、提升品牌知名度;
  6、增加網(wǎng)站曝光度;
  7、根據關(guān)鍵詞,通過(guò)創(chuàng )意和描述提供相關(guān)介紹。
  內涵
  搜索引擎營(yíng)銷(xiāo)(Search Engine Marking簡(jiǎn)稱(chēng) SEM)就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。
  工作原理
  1、用戶(hù)搜索;
  2、返回結果;
  3、查看結果;
  4、點(diǎn)擊內容;
  5、瀏覽網(wǎng)站;
  6、咨詢(xún)搜索
  搜索引擎工作原理
  抓取-數據庫-分析搜索請求-計算排列順序
  基本要素
  根據搜索引擎推廣的原理,搜索引擎推廣之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎推廣信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎推廣的基本任務(wù)和內容。
  其實(shí)最主要的還是需要做好用戶(hù)體驗,百度算法進(jìn)步升級,更加重視了用戶(hù)體驗這一塊,做好內容,做優(yōu)質(zhì)內容才是王道。
  基本過(guò)程
  1、企業(yè)信息發(fā)布在網(wǎng)站上成為以網(wǎng)頁(yè)形式存在的信息源(包括企業(yè)內部信息源及外部信息源);
  2、搜索引擎將網(wǎng)站/網(wǎng)頁(yè)信息收錄到索引數據庫;
  3、用戶(hù)利用關(guān)鍵詞進(jìn)行檢索(對于分類(lèi)目錄則是逐級目錄查詢(xún));
  4、檢索結果中羅列相關(guān)的索引信息及其鏈接URL;
  5、根據用戶(hù)對檢索結果的判斷選擇有興趣的信息并點(diǎn)擊URL進(jìn)入信息源所在網(wǎng)頁(yè);
  6、搜索關(guān)鍵詞;
  7、看到搜索結果;
  8、點(diǎn)擊鏈接;
  9、瀏覽企業(yè)網(wǎng)站;
  10、實(shí)現轉化。
  基本內容
  1、構造適合于搜索引擎檢索的信息源;
  2、創(chuàng )造網(wǎng)站/網(wǎng)頁(yè)被搜索引擎收錄的機會(huì );
  3、讓網(wǎng)站信息出現在搜索結果中靠前位置;
  4、以搜索結果中有限的信息獲得用戶(hù)關(guān)注;
  5、為用戶(hù)獲取信息提供方便。
  營(yíng)銷(xiāo)特點(diǎn)
  1、使用廣泛;
  2、用戶(hù)主動(dòng)查詢(xún);
  3、獲取新客戶(hù);
  4、競爭性強;
  5、動(dòng)態(tài)更新,隨時(shí)調整;
  6、投資回報率高;
  7、搜索引擎營(yíng)銷(xiāo)的基礎是企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)的信息源;
  8、搜索引擎傳遞的信息只發(fā)揮向導作用;
  9、搜索引擎營(yíng)銷(xiāo)是用戶(hù)主導的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式;
  10、搜索引擎營(yíng)銷(xiāo)可實(shí)現較高程度的定位;
  11、搜索引擎營(yíng)銷(xiāo)需要適應網(wǎng)絡(luò )服務(wù)環(huán)境的發(fā)展變化。
  營(yíng)銷(xiāo)宗旨
  1、被收錄;
  2、排名靠前;
  3、常被點(diǎn)擊;
  4、客戶(hù)轉化;
  5、提高品牌知名度。
  標題標簽
  通過(guò)對客戶(hù)網(wǎng)站進(jìn)行整站優(yōu)化,挑選出部分主關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其達到搜索引擎的首頁(yè)位置,同時(shí)提高網(wǎng)站的權重,并帶動(dòng)更多長(cháng)尾關(guān)鍵詞的自然排名的提升。再結合ppc競價(jià),制定出精確的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,給公司帶來(lái)更多的訂單。
  在網(wǎng)頁(yè)的優(yōu)化上最重要的因素之一就是網(wǎng)頁(yè)的標題標簽。通常在寫(xiě)標題標簽時(shí)應該考慮幾個(gè)因素。
  1、所有網(wǎng)頁(yè)都應該有適合自己的獨特的Title或Tag。有很多網(wǎng)站都犯了一個(gè)很低級的錯誤,也就是所有網(wǎng)頁(yè)都有同一個(gè)標題??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候把整個(gè)模版來(lái)回復制,所以HTML文件里面的頭信息也都被復制過(guò)去,沒(méi)有再被改動(dòng)。
  2、標題標簽應該對用戶(hù)的需求有足夠的吸引力。網(wǎng)頁(yè)在搜索引擎結果中列出,網(wǎng)頁(yè)的標題就是來(lái)自于標題標簽。
  3、標題標簽中應該含有關(guān)鍵詞。
  營(yíng)銷(xiāo)目標
  第一層是搜索引擎的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎,離開(kāi)這個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  搜索引擎營(yíng)銷(xiāo)的第三個(gè)目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  搜索引擎推廣的第四個(gè)目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。
  搜索引擎推廣追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。用戶(hù)在檢索信息所使用的關(guān)鍵字反映出用戶(hù)對該問(wèn)題(產(chǎn)品)的關(guān)注,這種關(guān)注是搜索引擎之所以被應用于網(wǎng)絡(luò )營(yíng)銷(xiāo)的根本原因。
  網(wǎng)絡(luò )整合營(yíng)銷(xiāo)四大特性
  傳染特性、互動(dòng)特性、重合特性、背書(shū)特性
  確立營(yíng)銷(xiāo)需求
  確立營(yíng)銷(xiāo)標的物(產(chǎn)品屬性)
  確立營(yíng)銷(xiāo)標準(消費人群)
  確立目標場(chǎng)景
  云浪網(wǎng)絡(luò )推廣,一直以低成本、有效果為各大企業(yè)及廣告營(yíng)銷(xiāo)策劃公司提供網(wǎng)絡(luò )推廣服務(wù)多年,擅長(cháng)利用百度營(yíng)銷(xiāo)軟文首頁(yè)推廣、百度愛(ài)采購,百度競價(jià)前三推廣(1500一個(gè)月,三個(gè)月2800,包點(diǎn)擊費),官網(wǎng)推廣至百度搜索關(guān)鍵詞首頁(yè)有排名為目標。
  【百度快照、百度競價(jià),百度愛(ài)采購、360競價(jià)、、信息流開(kāi)戶(hù),抖音短視頻,全網(wǎng)推廣咨詢(xún):度曉曉】
  

?NLP產(chǎn)業(yè)應用實(shí)戰,評論觀(guān)點(diǎn)抽取與分析和文本語(yǔ)義檢索深度詳解

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 395 次瀏覽 ? 2022-05-01 18:03 ? 來(lái)自相關(guān)話(huà)題

  ?NLP產(chǎn)業(yè)應用實(shí)戰,評論觀(guān)點(diǎn)抽取與分析和文本語(yǔ)義檢索深度詳解
  情感分析旨在對帶有情感色彩的主觀(guān)性文本進(jìn)行分析、處理、歸納和推理,其廣泛應用于消費決策、輿情分析、個(gè)性化推薦等領(lǐng)域,具有很高的商業(yè)價(jià)值。一種細粒度情感分析方案:評論觀(guān)點(diǎn)抽取與分析范例,此方案不僅能分析出商品具體屬性的好壞,同時(shí)能幫助用戶(hù)定位詳細的評價(jià)觀(guān)點(diǎn)。
  
  圖1 情感分析應用展示
  場(chǎng)景難點(diǎn)
  評論屬性觀(guān)點(diǎn)繁多:評論中可能存在某個(gè)商品的多個(gè)屬性,同時(shí)每個(gè)屬性可能會(huì )存在多個(gè)觀(guān)點(diǎn)詞,需要同時(shí)抽取屬性和觀(guān)點(diǎn)詞,同時(shí)將屬性和相應觀(guān)點(diǎn)詞進(jìn)行有效匹配。
  模型情感信息敏感度低:模型在訓練過(guò)程中,可能對某些樣本中的關(guān)鍵情感信息不敏感,導致抽取或預測準確度不高。
  數據少且標注困難:評論觀(guān)點(diǎn)抽取相關(guān)訓練數據較少,且相關(guān)數據集標注較為困難。
  模型預測效率要求高:業(yè)務(wù)數據累積較多,期望對數據進(jìn)行高效高精度分析處理。
  方案設計
  針對上述難點(diǎn),本項目提出的的情感分析解決方案如下圖所示,整個(gè)情感分析的過(guò)程大致包含兩個(gè)階段,依次是評論觀(guān)點(diǎn)抽取模型,屬性級情感分類(lèi)模型。
  
  圖2 情感分析解決方案流程圖
  本項目使用了百度自研的 SKEP 預訓練模型,其在預訓練階段便設計了多種情感信息相關(guān)的預訓練目標進(jìn)行訓練,作為一種情感模型,其更適合用于評論觀(guān)點(diǎn)抽取任務(wù),以及屬性級情感分類(lèi)任務(wù)。
  為了提升模型預測效果,本項目采用了PaddleNLP聯(lián)合PaddleSlim發(fā)布的模型蒸餾、剪裁、量化等級聯(lián)模型壓縮方案。
  此外,本項目還定義了簡(jiǎn)便的數據標注規則,并打通了Doccano數據標注平臺,本項目可以直接對Doccano的導出數據進(jìn)行自動(dòng)處理,轉化為適合模型輸入的形式,方便易用。
  模型優(yōu)化策略和效果
  觀(guān)點(diǎn)抽取效果
  
  屬性級情感分類(lèi)效果
  
  
  圖3 預測性能實(shí)驗結果
  考慮到不同用戶(hù)可能有不同的需求,本范例提供了如下的方式學(xué)習或使用本項目。1.一行命令體驗評論觀(guān)點(diǎn)抽取與分析功能2.支持文本批量預測功能,以處理大量文本數據3.支持靜態(tài)圖高性能推理腳本,以便于線(xiàn)上部署使用
  文本語(yǔ)義檢索系統方案
  檢索系統已經(jīng)是我們日常生活中獲取信息的不可或缺的一部分,在我們的生活中,有很多地方都有檢索系統的身影,除了百度等搜索引擎以外,還有在電商購物的搜索,知乎的站內搜索,微信的視頻和公眾號文章的搜索,以及萬(wàn)方、知網(wǎng)的科研文獻搜索等等,這些場(chǎng)景都離不開(kāi)搜索技術(shù)。
  本次開(kāi)源的范例項目開(kāi)源了一套低門(mén)檻、端到端的檢索系統方案,可以在多場(chǎng)景快速部署實(shí)現搜索功能。無(wú)標注數據,僅有無(wú)監督數據也可以得到一個(gè)效果不錯的文本語(yǔ)義檢索模型。
  場(chǎng)景難點(diǎn)
  句級別語(yǔ)義鴻溝:基于關(guān)鍵詞檢索的方法優(yōu)化起來(lái)較為繁瑣,不能很好的對句子級別的語(yǔ)義信息進(jìn)行建模,無(wú)法跨越句子級別的語(yǔ)義鴻溝。
  數據少標注成本高:在系統搭建初期或者數據體量比較小的場(chǎng)景,并沒(méi)有很多標注好的句子對,且標注的成本很高。
  語(yǔ)義檢索系統方案復雜:語(yǔ)義監測方案是一個(gè)系統性工程,需要了解完整的檢索系統流程是什么,如何評估檢索系統的好壞,如何調優(yōu)等等。
  方案設計
  針對上述難點(diǎn),本項目最終選用了PaddleNLP的Neural Search中的技術(shù)方案,并且使用飛槳服務(wù)化部署框架Paddle Serving 進(jìn)行服務(wù)化部署。
  Neural Search是一個(gè)實(shí)用的完整的文本語(yǔ)義檢索應用,主要由召回和排序兩個(gè)模塊組成。該應用從實(shí)際的痛點(diǎn)出發(fā),然后涉及網(wǎng)絡(luò )選擇和調整、策略增強、超參數調節、預訓練模型使用5個(gè)方面,對各個(gè)模塊的模型進(jìn)行優(yōu)化,并經(jīng)過(guò)千萬(wàn)級別的數據預訓練,百萬(wàn)級別的數據進(jìn)行無(wú)監督訓練,最終在GPU上預測時(shí)間可達到毫秒級別。
  
  圖4 項目方案說(shuō)明
  模型優(yōu)化策略和效果
  本方案的NLP核心能力基于百度文心大模型。首先利用文心 ERNIE 1.0 模型進(jìn)行 Domain-adaptive Pretraining,在得到的預訓練模型基礎上,進(jìn)行無(wú)監督的 SimCSE 訓練,最后利用 In-batch Negatives 方法進(jìn)行微調,得到最終的語(yǔ)義索引模型,把語(yǔ)料庫中的文本放入模型中抽取特征向量,進(jìn)行建庫之后,就可以很方便得實(shí)現召回了。以Recall@50指標進(jìn)行評估,召回模型效果可以達到87.7%。
  
  圖5 召回方案說(shuō)明
  排序模型使用了百度文心大模型中最新的文心ERNIE-Gram模型,相比于基線(xiàn)方法,有不小的提升:
  
  圖6 排序方案說(shuō)明
  部署方案
  部署方面使用配備Paddle Serving的C++和Pipeline方式的靈活部署,滿(mǎn)足用戶(hù)批量預測、數據安全性高、延遲低的需求,快速在本地完成部署方案,本次范例包含模型轉換配置到部署請求的全流程講解,歡迎小伙伴們關(guān)注直播。
  范例使用工具介紹
  PaddleNLP是百度飛槳自然語(yǔ)言處理模型庫,具備易用的文本領(lǐng)域API、豐富的預訓練模型、多場(chǎng)景的應用示例、以及依托飛槳框架底層算子優(yōu)化的高性能推理能力,旨在提升開(kāi)發(fā)者在文本領(lǐng)域的開(kāi)發(fā)效率。PaddleNLP提供了語(yǔ)義檢索、情感分析、FAQ問(wèn)答等產(chǎn)業(yè)級系統方案,采用前沿技術(shù)方案,打通數據標注、模型預訓練及微調、部署全流程,十分簡(jiǎn)單易用,極大地降低開(kāi)發(fā)門(mén)檻。
  精彩課程預告
  為了讓小伙伴們更便捷地實(shí)踐和應用以上兩個(gè)場(chǎng)景方案,百度高工將于4月20日 和 4月21日19:00為大家深度解析從數據準備、方案設計到模型優(yōu)化部署的開(kāi)發(fā)全流程,手把手教大家進(jìn)行評論觀(guān)點(diǎn)抽取及分析和文本語(yǔ)義檢索落地應用的代碼實(shí)踐。歡迎小伙伴們掃碼進(jìn)群,免費獲取直播課和回放視頻鏈接,更有機會(huì )獲得覆蓋智慧城市、工業(yè)制造、金融、互聯(lián)網(wǎng)等行業(yè)的飛槳產(chǎn)業(yè)實(shí)踐范例手冊!也歡迎感興趣的企業(yè)和開(kāi)發(fā)者與我們聯(lián)系,交流技術(shù)探討合作。
  掃碼報名直播課,加入技術(shù)交流群
  
   查看全部

  ?NLP產(chǎn)業(yè)應用實(shí)戰,評論觀(guān)點(diǎn)抽取與分析和文本語(yǔ)義檢索深度詳解
  情感分析旨在對帶有情感色彩的主觀(guān)性文本進(jìn)行分析、處理、歸納和推理,其廣泛應用于消費決策、輿情分析、個(gè)性化推薦等領(lǐng)域,具有很高的商業(yè)價(jià)值。一種細粒度情感分析方案:評論觀(guān)點(diǎn)抽取與分析范例,此方案不僅能分析出商品具體屬性的好壞,同時(shí)能幫助用戶(hù)定位詳細的評價(jià)觀(guān)點(diǎn)。
  
  圖1 情感分析應用展示
  場(chǎng)景難點(diǎn)
  評論屬性觀(guān)點(diǎn)繁多:評論中可能存在某個(gè)商品的多個(gè)屬性,同時(shí)每個(gè)屬性可能會(huì )存在多個(gè)觀(guān)點(diǎn)詞,需要同時(shí)抽取屬性和觀(guān)點(diǎn)詞,同時(shí)將屬性和相應觀(guān)點(diǎn)詞進(jìn)行有效匹配。
  模型情感信息敏感度低:模型在訓練過(guò)程中,可能對某些樣本中的關(guān)鍵情感信息不敏感,導致抽取或預測準確度不高。
  數據少且標注困難:評論觀(guān)點(diǎn)抽取相關(guān)訓練數據較少,且相關(guān)數據集標注較為困難。
  模型預測效率要求高:業(yè)務(wù)數據累積較多,期望對數據進(jìn)行高效高精度分析處理。
  方案設計
  針對上述難點(diǎn),本項目提出的的情感分析解決方案如下圖所示,整個(gè)情感分析的過(guò)程大致包含兩個(gè)階段,依次是評論觀(guān)點(diǎn)抽取模型,屬性級情感分類(lèi)模型。
  
  圖2 情感分析解決方案流程圖
  本項目使用了百度自研的 SKEP 預訓練模型,其在預訓練階段便設計了多種情感信息相關(guān)的預訓練目標進(jìn)行訓練,作為一種情感模型,其更適合用于評論觀(guān)點(diǎn)抽取任務(wù),以及屬性級情感分類(lèi)任務(wù)。
  為了提升模型預測效果,本項目采用了PaddleNLP聯(lián)合PaddleSlim發(fā)布的模型蒸餾、剪裁、量化等級聯(lián)模型壓縮方案。
  此外,本項目還定義了簡(jiǎn)便的數據標注規則,并打通了Doccano數據標注平臺,本項目可以直接對Doccano的導出數據進(jìn)行自動(dòng)處理,轉化為適合模型輸入的形式,方便易用。
  模型優(yōu)化策略和效果
  觀(guān)點(diǎn)抽取效果
  
  屬性級情感分類(lèi)效果
  
  
  圖3 預測性能實(shí)驗結果
  考慮到不同用戶(hù)可能有不同的需求,本范例提供了如下的方式學(xué)習或使用本項目。1.一行命令體驗評論觀(guān)點(diǎn)抽取與分析功能2.支持文本批量預測功能,以處理大量文本數據3.支持靜態(tài)圖高性能推理腳本,以便于線(xiàn)上部署使用
  文本語(yǔ)義檢索系統方案
  檢索系統已經(jīng)是我們日常生活中獲取信息的不可或缺的一部分,在我們的生活中,有很多地方都有檢索系統的身影,除了百度等搜索引擎以外,還有在電商購物的搜索,知乎的站內搜索,微信的視頻和公眾號文章的搜索,以及萬(wàn)方、知網(wǎng)的科研文獻搜索等等,這些場(chǎng)景都離不開(kāi)搜索技術(shù)。
  本次開(kāi)源的范例項目開(kāi)源了一套低門(mén)檻、端到端的檢索系統方案,可以在多場(chǎng)景快速部署實(shí)現搜索功能。無(wú)標注數據,僅有無(wú)監督數據也可以得到一個(gè)效果不錯的文本語(yǔ)義檢索模型。
  場(chǎng)景難點(diǎn)
  句級別語(yǔ)義鴻溝:基于關(guān)鍵詞檢索的方法優(yōu)化起來(lái)較為繁瑣,不能很好的對句子級別的語(yǔ)義信息進(jìn)行建模,無(wú)法跨越句子級別的語(yǔ)義鴻溝。
  數據少標注成本高:在系統搭建初期或者數據體量比較小的場(chǎng)景,并沒(méi)有很多標注好的句子對,且標注的成本很高。
  語(yǔ)義檢索系統方案復雜:語(yǔ)義監測方案是一個(gè)系統性工程,需要了解完整的檢索系統流程是什么,如何評估檢索系統的好壞,如何調優(yōu)等等。
  方案設計
  針對上述難點(diǎn),本項目最終選用了PaddleNLP的Neural Search中的技術(shù)方案,并且使用飛槳服務(wù)化部署框架Paddle Serving 進(jìn)行服務(wù)化部署。
  Neural Search是一個(gè)實(shí)用的完整的文本語(yǔ)義檢索應用,主要由召回和排序兩個(gè)模塊組成。該應用從實(shí)際的痛點(diǎn)出發(fā),然后涉及網(wǎng)絡(luò )選擇和調整、策略增強、超參數調節、預訓練模型使用5個(gè)方面,對各個(gè)模塊的模型進(jìn)行優(yōu)化,并經(jīng)過(guò)千萬(wàn)級別的數據預訓練,百萬(wàn)級別的數據進(jìn)行無(wú)監督訓練,最終在GPU上預測時(shí)間可達到毫秒級別。
  
  圖4 項目方案說(shuō)明
  模型優(yōu)化策略和效果
  本方案的NLP核心能力基于百度文心大模型。首先利用文心 ERNIE 1.0 模型進(jìn)行 Domain-adaptive Pretraining,在得到的預訓練模型基礎上,進(jìn)行無(wú)監督的 SimCSE 訓練,最后利用 In-batch Negatives 方法進(jìn)行微調,得到最終的語(yǔ)義索引模型,把語(yǔ)料庫中的文本放入模型中抽取特征向量,進(jìn)行建庫之后,就可以很方便得實(shí)現召回了。以Recall@50指標進(jìn)行評估,召回模型效果可以達到87.7%。
  
  圖5 召回方案說(shuō)明
  排序模型使用了百度文心大模型中最新的文心ERNIE-Gram模型,相比于基線(xiàn)方法,有不小的提升:
  
  圖6 排序方案說(shuō)明
  部署方案
  部署方面使用配備Paddle Serving的C++和Pipeline方式的靈活部署,滿(mǎn)足用戶(hù)批量預測、數據安全性高、延遲低的需求,快速在本地完成部署方案,本次范例包含模型轉換配置到部署請求的全流程講解,歡迎小伙伴們關(guān)注直播。
  范例使用工具介紹
  PaddleNLP是百度飛槳自然語(yǔ)言處理模型庫,具備易用的文本領(lǐng)域API、豐富的預訓練模型、多場(chǎng)景的應用示例、以及依托飛槳框架底層算子優(yōu)化的高性能推理能力,旨在提升開(kāi)發(fā)者在文本領(lǐng)域的開(kāi)發(fā)效率。PaddleNLP提供了語(yǔ)義檢索、情感分析、FAQ問(wèn)答等產(chǎn)業(yè)級系統方案,采用前沿技術(shù)方案,打通數據標注、模型預訓練及微調、部署全流程,十分簡(jiǎn)單易用,極大地降低開(kāi)發(fā)門(mén)檻。
  精彩課程預告
  為了讓小伙伴們更便捷地實(shí)踐和應用以上兩個(gè)場(chǎng)景方案,百度高工將于4月20日 和 4月21日19:00為大家深度解析從數據準備、方案設計到模型優(yōu)化部署的開(kāi)發(fā)全流程,手把手教大家進(jìn)行評論觀(guān)點(diǎn)抽取及分析和文本語(yǔ)義檢索落地應用的代碼實(shí)踐。歡迎小伙伴們掃碼進(jìn)群,免費獲取直播課和回放視頻鏈接,更有機會(huì )獲得覆蓋智慧城市、工業(yè)制造、金融、互聯(lián)網(wǎng)等行業(yè)的飛槳產(chǎn)業(yè)實(shí)踐范例手冊!也歡迎感興趣的企業(yè)和開(kāi)發(fā)者與我們聯(lián)系,交流技術(shù)探討合作。
  掃碼報名直播課,加入技術(shù)交流群
  
  

Thoughtworks第26期技術(shù)雷達——工具象限

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2022-05-01 08:02 ? 來(lái)自相關(guān)話(huà)題

  Thoughtworks第26期技術(shù)雷達——工具象限
  
  采納
  tfsec
  對于那些我們正在使用Terraform的項目來(lái)說(shuō),在需要檢測潛在安全風(fēng)險時(shí),tfsec已經(jīng)迅速成為默認的靜態(tài)分析工具。它很容易被集成到CI流水線(xiàn),而且擁有一個(gè)持續增長(cháng)的檢查庫,可以用來(lái)檢查所有主要的云供應商和諸如Kunernetes的平臺。鑒于它的易用性,我們相信對任何Terraform項目而言,tfsec都會(huì )是一個(gè)非常好的補充。
  試驗
  AKHQ
  AKHQ 是 Apache Kafka 的圖形用戶(hù)界面(GUI),可以幫助你管理主題、主題數據、消費者組等。我們的一些團隊發(fā)現 AKHQ 是用來(lái)監控 Kafka 集群實(shí)時(shí)狀態(tài)的有效工具。比如,你可以瀏覽集群上的主題,對于每個(gè)主題,你都能可視化它的名稱(chēng)、存儲的消息數量、使用的磁盤(pán)空間、最后一條記錄的時(shí)間、分區數、同步數量的復制因子和消費者組。通過(guò) Avro 和 Protobuf 的反序列化,AKHQ 可以幫助你了解 Kafka 環(huán)境中的數據流。
  cert-manager
  cert-manager 是一款在 Kubernetes 集群里管理 X.509 證書(shū)的工具。它將證書(shū)和簽發(fā)者建模為一等資源類(lèi)型,并將證書(shū)作為服務(wù)安全地提供給工作在 Kubernetes 集群上的開(kāi)發(fā)人員和應用程序。在使用 Kubernetes 默認 ingress 控制器時(shí),cert-manager 是個(gè)顯而易見(jiàn)的選擇,但也推薦用在其他的控制器上,尤其在你不應該手動(dòng)管理自己的證書(shū)的時(shí)候。我們的幾個(gè)團隊一直在廣泛使用 cert-manager,而且發(fā)現它的可用性在過(guò)去幾個(gè)月里有了很大的提升。
  云服務(wù)的碳足跡
  Cloud Carbon Footprint (CCF)是一款通過(guò)云 API來(lái)查看AWS、GCP、Azure云平臺上碳排放的可視化工具。Thoughtworks的團隊已經(jīng)成功使用這個(gè)工具 與多個(gè)組織合作,其中包括能源科技公司、零售商、數字服務(wù)的供應商和使用人工智能的公司。云平臺提供商意識到,幫助客戶(hù)理解在使用云服務(wù)時(shí)產(chǎn)生的碳排放的影響是很重要的。所以他們開(kāi)始自主構建類(lèi)似的功能。因為CCF是獨立于云架構的,它允許使用者在一個(gè)位置查看多個(gè)不同云服務(wù)商的能源使用和碳排放情況,同時(shí)將碳足跡轉化為對現實(shí)世界的影響,比如排放量相當于多少次航班, 或者多少棵樹(shù)。在最近的發(fā)布中,CCF已經(jīng)開(kāi)始包含針對Google云和AWS云上可能的節能與減少二氧化碳排放的優(yōu)化建議,以及支持更多類(lèi)型的云實(shí)例,比如GPU??紤]到現在這個(gè)工具已經(jīng)備受關(guān)注和持續增加新功能, 我們對未來(lái)把它挪入試驗狀態(tài)充滿(mǎn)信心。
  Conftest
  Conftest 是一款針對結構化配置數據編寫(xiě)測試的工具。它依賴(lài)于開(kāi)放策略代理中的 Rego 語(yǔ)言,能夠為 Kubernetes 配置、Tekton 的流水線(xiàn)定義、甚至 Terraform 計劃編寫(xiě)測試。在我們的實(shí)際使用中,Conftest 的體驗一直都非常棒,這也得益于它平緩的學(xué)習曲線(xiàn)。借助測試的快速反饋,我們的團隊可以又快又安全地迭代變更 Kubernetes 的配置。
  kube-score
  kube-score 是一款針對 Kubernetes 對象定義,進(jìn)行代碼靜態(tài)檢查的工具。它的輸出是一份建議列表,里面包含了如何提升你的應用程序安全性及彈性的相關(guān)建議。它有一份包含了最佳實(shí)踐的預定義檢查,比如以非root權限運行容器,正確指定資源限制等。它已經(jīng)存在了一段時(shí)間,我們在一些項目中將它作為 Kubernetes manifests 構建的 CD 流水線(xiàn)的一部分來(lái)使用。kube-score 的一個(gè)顯著(zhù)缺陷是你無(wú)法添加自定義策略。在這種情況下,我們使用像Conftest 這樣的工具,以彌補它的缺陷。
  Lighthouse
  Lighthouse 是一個(gè)由 Google 編寫(xiě)的工具,可以評估 Web 應用和頁(yè)面,以及從出色的開(kāi)發(fā)實(shí)踐中收集性能指標和洞見(jiàn)等信息。我們一直主張性能測試乃第一公民, 五年前技術(shù)雷達中提到的對 Lighthouse 的補充內容對此也有幫助。我們關(guān)于適應度函數的思考,也為在構建流水線(xiàn)中運行 Lighthouse 這樣的工具創(chuàng )造了強烈的動(dòng)機。隨著(zhù) Lighthouse CI 的引入,將 Lighthouse 納入由不同工具管理的流水線(xiàn),會(huì )變得比以往任何時(shí)候都容易。
  Metaflow
  Metaflow 是一個(gè)對用戶(hù)友好的 Python 庫和后端服務(wù),可以幫助數據科學(xué)家和工程師構建和管理可用于生產(chǎn)的數據處理、機器學(xué)習訓練及推理的工作流。Metaflow 提供一系列 Python API,將代碼組織為由步驟組成的有向圖。每一個(gè)步驟都可以靈活配置,例如其所需的計算和存儲資源。每個(gè)步驟執行(也就是任務(wù))的代碼和數據副本都被保存起來(lái),并可以在今后的運行或流程的下一步中被檢索出來(lái),幫助你從錯誤中恢復,重新執行任務(wù),還可以追蹤模型的版本以及多個(gè)運行之間的依賴(lài)關(guān)系。
  Metaflow 的價(jià)值主張是其慣用的 Python 庫的簡(jiǎn)潔性:它與構建和運行時(shí)的基礎設施完全集成,以支持在本地和規?;纳a(chǎn)環(huán)境中運行數據工程和科學(xué)任務(wù)。在撰寫(xiě)本條目時(shí),Metaflow 和 AWS 服務(wù)高度集成,例如使用 S3 來(lái)做數據存儲,step functions 來(lái)做編排。除 Python 以外,Metaflow 還支持 R 語(yǔ)言。其核心功能都是開(kāi)源的。
  如果你正在 AWS 上構建和部署生產(chǎn)環(huán)境的機器學(xué)習和數據處理流水線(xiàn),作為一個(gè)輕量級的全??蚣?,Metaflow 可以替代例如 MLflow 這類(lèi)更復雜的平臺。
  Micrometer
  Micrometer 是一個(gè)跨平臺的庫,用于JVM的指標檢測,支持 Graphite、New Relic、CloudWatch 和許多其他集成。Micrometer 讓庫作者和團隊都受益:庫作者可以在他們的庫中包含指標檢測代碼,而無(wú)需支持庫用戶(hù)正在使用的每個(gè)指標系統;團隊可以在后端注冊表上支持許多不同的指標,這使組織能夠以一致的方式收集指標。
  NUKE
  NUKE 是一個(gè)面向 .NET 的構建系統,也是傳統的 MSBuild、Cake 以及 Fake 等自動(dòng)化構建系統的替代品,我們曾在之前的技術(shù)雷達中介紹過(guò)它們。NUKE 以 C# 領(lǐng)域特定語(yǔ)言(DSL)的形式表達構建指令,不但降低了學(xué)習成本,而且 IDE 支持性也很好。在我們的實(shí)際體驗中,使用 NUKE 進(jìn)行 .NET 項目的自動(dòng)化構建十分便捷。我們喜歡 NUKE 提供的精準代碼靜態(tài)檢查和提示功能,并且它支持無(wú)縫使用各種 NuGet 包,這樣可以編譯自動(dòng)化代碼,避免運行時(shí)發(fā)生錯誤。盡管 NUKE 已不是新技術(shù),但它采用 C# DSL 的全新方法,以及使用 NUKE 時(shí)全方位的良好體驗,促使我們一定要將它收錄在技術(shù)雷達里。
  Pactflow
  在長(cháng)時(shí)間使用 Pact 進(jìn)行契約測試的過(guò)程中,我們目睹了規?;瘞?lái)的復雜性。我們的一些團隊已經(jīng)使用 Pactflow 成功減少了這種復雜性引發(fā)的后果。Pactflow 既可以作為 SaaS 運行,也可以部署在本地,并提供與 SaaS 產(chǎn)品相同的功能,它在開(kāi)源產(chǎn)品 Pact Broker 的基礎上,提升了可用性、安全性以及審計體驗。到目前為止,我們很滿(mǎn)意 Pactflow 的使用體驗,并且很高興看到它在持續致力于降低管理大規模契約測試所帶來(lái)的開(kāi)銷(xiāo)。
  Podman
  Podman 作為Docker 的替代方案,已經(jīng)通過(guò)我們許多團隊的驗證。與 Docker 不同的是,Podman 使用一個(gè)無(wú)守護引擎來(lái)管理和運行容器,這是一種有趣的方案。此外,Podman 可以以普通用戶(hù)身份運行而無(wú)需root權限,從而減少了攻擊面。通過(guò)使用 Buildah 構建的開(kāi)放容器倡議(OCI) 鏡像或者 Docker 鏡像, Podman 可以適用于大多數容器使用場(chǎng)景。除了與 macOS 的一些兼容性問(wèn)題外,我們團隊在 Linux 各發(fā)行版上使用 Podman 的總體感覺(jué)非常好。
  Sourcegraph
  在往期的技術(shù)雷達中,我們介紹了兩個(gè)基于抽象語(yǔ)法樹(shù)(AST)表征的代碼搜索和替換工具,Comby 和Sourcegraph。它們盡管有一些相似之處,但也有一些不同的地方。Sourcegraph 是一個(gè)商業(yè)工具(也有最多支持10個(gè)用戶(hù)的免費版本),特別適合在大型代碼庫中進(jìn)行搜索、導航或交叉引用等操作,重視與開(kāi)發(fā)者的交互體驗。相比之下,Comby 是一個(gè)用于自動(dòng)化重復性任務(wù)的輕量級開(kāi)源命令行工具。由于 Sourcegraph 是一個(gè)托管服務(wù),它能持續監測代碼庫,并在成功匹配時(shí)發(fā)出警報?,F在我們對 Sourcegraph 有了更多的經(jīng)驗,決定將其挪到試驗狀態(tài),以反映我們從中獲得的良好體驗——但這并不意味著(zhù) Sourcegraph 比 Comby 更好。每個(gè)工具都有各自專(zhuān)注的方向。
  Syft
  使用軟件物料清單(SBOM) 是改善“供應鏈安全”的關(guān)鍵要素之一,因此在發(fā)布軟件構件的同時(shí),發(fā)布相應的 SBOM 正變得越來(lái)越重要。Syft是一個(gè)致力于為容器鏡像和文件系統生成 SBOM 的 CLI 工具和 Go 語(yǔ)言庫。它可以生成包括 JSON, CycloneDX 和 SPDX 在內的多種格式的 SBOM。Syft 輸出的 SBOM 可以被 Grype 用于漏洞掃描。使用Cosign 將 SBOM 添加為證明文件,可以將生成的 SBOM 和鏡像一起發(fā)布。這使得鏡像的消費者可以對 SBOM 進(jìn)行驗證,并將其用于后續的分析。
  Volta
  當同時(shí)在多個(gè) JavaScript 代碼庫上工作時(shí),我們往往需要使用不同版本的 Node 和其他 JavaScript 工具。在開(kāi)發(fā)機器上,這些工具通常安裝在用戶(hù)目錄或本機中,這意味著(zhù)需要一個(gè)解決方案,幫助開(kāi)發(fā)者在多個(gè)版本之中進(jìn)行切換。對于 Node 而言,nvm 能夠做到這一點(diǎn),但我們想重點(diǎn)強調一個(gè)替代方案 Volta ,我們的一些團隊正在使用它。與使用 nvm 相比,Volta 有幾個(gè)優(yōu)點(diǎn):它可以管理其他 JavaScript 工具,如 yarn;它還具備一個(gè)基于項目綁定工具鏈某個(gè)版本的理念,這意味著(zhù)開(kāi)發(fā)人員可以簡(jiǎn)單使用給定代碼目錄中的工具,而不必擔心需要手動(dòng)切換工具版本 —— Volta 是通過(guò)使用路徑中的 shims 來(lái)選擇被綁定的版本。Volta 采用 Rust 編寫(xiě),速度極快,以獨立二進(jìn)制文件進(jìn)行分發(fā),沒(méi)有任何依賴(lài)。
  Web Test Runner
  Web Test Runner 是 Modern Web 項目中的一個(gè)套件,該項目為現代 Web 開(kāi)發(fā)提供了若干高質(zhì)量的工具,支持像 ES 模塊之類(lèi)的 Web 標準。Web Test Runner 是一個(gè)針對 Web 應用的測試運行器。與其他現有測試運行器相比,它的一個(gè)優(yōu)勢是可以在瀏覽器中運行測試(也可以無(wú)圖形界面運行)。它支持多種瀏覽器啟動(dòng)器——包括 Puppeteer , Playwright 和 Selenium ,并且使用 Mocha 作為默認測試框架。Web Test Runner 運行測試的速度非???,我們很喜歡在調試的時(shí)候能打開(kāi)一個(gè)帶 devtools 的瀏覽器窗口。它在內部采用了 Web Dev Server ,這意味著(zhù)我們可以利用其出色的插件 API,為測試套件添加自定義插件。Modern Web 項目的工具看起來(lái)是一套非常有前景的開(kāi)發(fā)者工具鏈,我們已經(jīng)在一些項目中使用它。
  評估
  CDKTF
  迄今為止,許多組織已經(jīng)創(chuàng )造了廣闊的云服務(wù)圖景。當然,這只有在使用基礎設施即代碼和成熟的工具時(shí)才可能實(shí)現。我們仍然喜歡 Terraform,尤其是它豐富且日漸增長(cháng)的生態(tài)系統。然而,Terraform 的默認配置語(yǔ)言 HCL 缺乏抽象性,導致了它的玻璃天花板。雖然使用 Terragrunt 緩解了這一點(diǎn),但我們的團隊越來(lái)越渴望像現代編程語(yǔ)言所能提供的那種抽象性。由AWS CDK 團隊和 Hashicorp 合作開(kāi)發(fā)的 Terraform云開(kāi)發(fā)工具包(CDKTF),讓團隊有可能使用多種不同的編程語(yǔ)言,包括 TypeScript 和 Java,去定義并配置基礎設施。通過(guò)這種方法,它在 Terraform 生態(tài)系統中緊跟Pulumi 的領(lǐng)先地位。我們已經(jīng)對 CDKTF 有了很好的經(jīng)驗,但仍然決定將其暫留在評估狀態(tài),直到它脫離 beta 版本。
  Chrome Recorder panel
  Chrome Recorder panel 是 Google Chrome 97 的預覽功能,允許簡(jiǎn)單地錄制和回放用戶(hù)旅程。雖然這絕對不是一個(gè)新想法,但它集成在 Chrome 瀏覽器中的方式能允許快速地創(chuàng )建、編輯和運行腳本。Chrome Recorder panel 也很好地集成了性能面板,這讓獲取重復、持續的頁(yè)面性能反饋變得更加容易。雖然總是需要謹慎使用錄制/回放風(fēng)格的測試,以避免脆弱的測試,但我們認為這個(gè)預覽功能值得評估,特別是如果你已經(jīng)在使用 Chrome 性能面板來(lái)測量頁(yè)面。
  Excalidraw
  Excalidraw 是我們團隊喜歡使用的簡(jiǎn)單但功能強大的繪圖工具。有時(shí)候團隊只是需要一張草圖而不是正式的圖表,Excalidraw 為遠程團隊提供了一種可以快速創(chuàng )建和共享圖表的方式。我們團隊也喜歡它生成的低保真圖表樣式,這讓人聯(lián)想到團隊在同地協(xié)作時(shí)繪制的白板圖表。提醒一點(diǎn):你需要注意它默認的安全性,在你進(jìn)行繪制時(shí),任何擁有鏈接的人都可以看見(jiàn)圖表。付費版本則提供了進(jìn)一步的身份驗證功能。
  Github Codespace
  Github Codespace 允許開(kāi)發(fā)者在云上創(chuàng )建開(kāi)發(fā)環(huán)境,你可以通過(guò) IDE 訪(fǎng)問(wèn)它,就像在本地環(huán)境一樣。Github 不是第一家實(shí)現這個(gè)想法的公司,我們之前還提到過(guò) Gitpod。我們喜歡 Codespace 允許通過(guò)使用 dotfiles 文件來(lái)標準化配置環(huán)境的功能,這能夠幫助新團隊成員更快上手;我們也十分中意 Codespace 能提供最高 32 核 64GB 內存虛擬機的特性,這些虛擬機可以在 10 秒鐘內啟動(dòng),有可能提供比開(kāi)發(fā)筆記本電腦更強大的環(huán)境。
  GoReleaser
  GoReleaser 是一個(gè)通過(guò)多個(gè)庫和通道來(lái)支持不同架構的 Go 項目自動(dòng)化構建和發(fā)布的工具,這是面向不同平臺 Go 項目的常見(jiàn)需求。你可以在本地機器或者 CI 上運行該工具,它支持在多種 CI 服務(wù)上運行,從而最大限度降低安裝和維護成本。GoReleaser 能夠用于每個(gè)發(fā)布版本的構建、打包、發(fā)布和聲明,并且支持不同的包格式、包庫和源代碼控制的組合。雖然它已經(jīng)出現好幾年了,但我們驚訝并沒(méi)有多少團隊使用它。如果你經(jīng)常發(fā)布 Go 代碼庫,這個(gè)工具值得一試。
  Grype
  保證軟件供應鏈的安全性已經(jīng)得到交付團隊的普遍關(guān)注,這種關(guān)注也反映在越來(lái)越多的新工具涌現在該領(lǐng)域中。Grype 就是一個(gè)新的針對 Docker 和 OCI 鏡像進(jìn)行漏洞掃描的輕量級工具。它可以以二進(jìn)制文件安裝,能在鏡像被推至倉庫前對其進(jìn)行掃描,而且不需要在你的構建服務(wù)器上運行 Docker 守護進(jìn)程。Grype 與 Syft 出自同一個(gè)團隊,后者用于為容器鏡像生成不同格式的軟件物料清單 。Grype 可以使用 Syft 輸出的軟件物料清單掃描安全漏洞。
  Infracost
  遷移到云端的一個(gè)常被提及的優(yōu)勢是將基礎設施開(kāi)銷(xiāo)透明化。但根據我們的經(jīng)驗,情況卻往往相反。團隊并不總是從財務(wù)成本的角度來(lái)考慮他們圍繞基礎設施所做的決定,這就是為什么我們之前提到了將運行成本實(shí)現為架構適應度函數。我們對一個(gè)名為 Infracost 的新工具感到好奇,該工具可以在 Terraform pull request 中可視化成本權衡。它是一個(gè)開(kāi)源軟件, 在 macOS、Linux、Windows 和 Docker 均可訪(fǎng)問(wèn),開(kāi)箱即用支持 AWS 、 GCP 和微軟 Azure 的定價(jià)。它還提供了一個(gè)公共 API ,可以查詢(xún)到當前的成本數據。我們的團隊對它的潛力感到興奮,特別是它還將支持在IDE中提供更好的成本可見(jiàn)性。
  jc
  在之前的技術(shù)雷達中,我們將 現代 Unix 命令 放在了評估狀態(tài)。在該工具集中, jq 命令實(shí)際上是一個(gè)支持 JSON 的 sed。而 jc 命令執行的是與之相關(guān)的任務(wù):它獲取常見(jiàn) Unix 命令的輸出,并將輸出解析為 JSON。jq 和 jc 這兩個(gè)命令一起為 Unix CLI 世界以及大量基于 JSON 工作的庫和工具之間架起了一座橋梁。當編寫(xiě)一些像軟件部署或者故障診斷信息收集的簡(jiǎn)單腳本時(shí),將五花八門(mén)的 Unix 命令輸出格式映射到定義明確的 JSON,可以為我們節省大量的時(shí)間和精力。與 jq 命令一樣,你需要確保該命令可用。它可以通過(guò)許多著(zhù)名的軟件庫進(jìn)行安裝。
  skopeo
  skopeo 是一款可以對容器鏡像和鏡像倉庫執行各種操作的命令行工具。它的大部分操作都不要求用戶(hù)以 root 角色執行,也不需要運行守護進(jìn)程。它是 CI 流水線(xiàn)中的實(shí)用部分,在推廣鏡像時(shí),我們可以用skopeo把鏡像從一個(gè)注冊表拷貝到另一個(gè)注冊表。這樣的操作比直接拉取和推送鏡像更好,因為我們不需要在本地存儲這些鏡像。skopeo 不是一個(gè)新工具,但它足夠有用且未被充分認識到,所以我們認為它值得一提。
  SQLFluff
  盡管代碼靜態(tài)檢查已經(jīng)是軟件工程中的古老實(shí)踐了,但它在數據領(lǐng)域中的應用仍十分緩慢。SQLFluff是一個(gè)python實(shí)現的跨SQL方言的linter,它提供了簡(jiǎn)單的命令行界面(CLI),可以很容易地整合進(jìn)CI/CD流水線(xiàn)。如果默認配置就適合你,那么SQLFluff在安裝后無(wú)需任何額外設定就可工作,它會(huì )強制執行一套鮮明風(fēng)格的標準來(lái)格式化代碼,當然,你也可以通過(guò)添加一個(gè)dotfile設定自己的代碼規范。這個(gè)命令行工具還能自動(dòng)修復諸如空格或者關(guān)鍵詞大小寫(xiě)等違反代碼規范設定的格式錯誤。SQLFluff雖然還很年輕,但是SQL代碼靜態(tài)檢查圈內獲得更多關(guān)注是一件讓人興奮的事。
  Terraform Validator
  一些已經(jīng)采用了基礎設施即代碼和自服務(wù)基礎設施平臺的組織,正在尋找在執行良好安全實(shí)踐和組織政策的同時(shí),能給予團隊最大限度自主權的方法。我們之前已經(jīng)著(zhù)重強調過(guò) tfsec,并在這一期技術(shù)雷達中將它挪到了采納中。對于使用谷歌云平臺(GCP)的團隊來(lái)說(shuō),可以使用 Terraform Validator 構建策略庫,作為檢查 Terraform 配置的約束條件。
  Typesense
  Typesense 是一個(gè)快速、容錯的文本搜索引擎。在有大量數據的情形下,Elasticsearch 可能仍然是一個(gè)不錯的選擇,因為它提供了一個(gè)基于磁盤(pán)且可橫向擴展的搜索解決方案。然而如果你正在構建一個(gè)對延遲敏感的搜索應用,并且搜索索引的尺寸可以容納在內存中,那么 Typesense 會(huì )是一個(gè)強大的替代方案,你也可以考慮與 Meilisearch 等工具一起評估。 查看全部

  Thoughtworks第26期技術(shù)雷達——工具象限
  
  采納
  tfsec
  對于那些我們正在使用Terraform的項目來(lái)說(shuō),在需要檢測潛在安全風(fēng)險時(shí),tfsec已經(jīng)迅速成為默認的靜態(tài)分析工具。它很容易被集成到CI流水線(xiàn),而且擁有一個(gè)持續增長(cháng)的檢查庫,可以用來(lái)檢查所有主要的云供應商和諸如Kunernetes的平臺。鑒于它的易用性,我們相信對任何Terraform項目而言,tfsec都會(huì )是一個(gè)非常好的補充。
  試驗
  AKHQ
  AKHQ 是 Apache Kafka 的圖形用戶(hù)界面(GUI),可以幫助你管理主題、主題數據、消費者組等。我們的一些團隊發(fā)現 AKHQ 是用來(lái)監控 Kafka 集群實(shí)時(shí)狀態(tài)的有效工具。比如,你可以瀏覽集群上的主題,對于每個(gè)主題,你都能可視化它的名稱(chēng)、存儲的消息數量、使用的磁盤(pán)空間、最后一條記錄的時(shí)間、分區數、同步數量的復制因子和消費者組。通過(guò) Avro 和 Protobuf 的反序列化,AKHQ 可以幫助你了解 Kafka 環(huán)境中的數據流。
  cert-manager
  cert-manager 是一款在 Kubernetes 集群里管理 X.509 證書(shū)的工具。它將證書(shū)和簽發(fā)者建模為一等資源類(lèi)型,并將證書(shū)作為服務(wù)安全地提供給工作在 Kubernetes 集群上的開(kāi)發(fā)人員和應用程序。在使用 Kubernetes 默認 ingress 控制器時(shí),cert-manager 是個(gè)顯而易見(jiàn)的選擇,但也推薦用在其他的控制器上,尤其在你不應該手動(dòng)管理自己的證書(shū)的時(shí)候。我們的幾個(gè)團隊一直在廣泛使用 cert-manager,而且發(fā)現它的可用性在過(guò)去幾個(gè)月里有了很大的提升。
  云服務(wù)的碳足跡
  Cloud Carbon Footprint (CCF)是一款通過(guò)云 API來(lái)查看AWS、GCP、Azure云平臺上碳排放的可視化工具。Thoughtworks的團隊已經(jīng)成功使用這個(gè)工具 與多個(gè)組織合作,其中包括能源科技公司、零售商、數字服務(wù)的供應商和使用人工智能的公司。云平臺提供商意識到,幫助客戶(hù)理解在使用云服務(wù)時(shí)產(chǎn)生的碳排放的影響是很重要的。所以他們開(kāi)始自主構建類(lèi)似的功能。因為CCF是獨立于云架構的,它允許使用者在一個(gè)位置查看多個(gè)不同云服務(wù)商的能源使用和碳排放情況,同時(shí)將碳足跡轉化為對現實(shí)世界的影響,比如排放量相當于多少次航班, 或者多少棵樹(shù)。在最近的發(fā)布中,CCF已經(jīng)開(kāi)始包含針對Google云和AWS云上可能的節能與減少二氧化碳排放的優(yōu)化建議,以及支持更多類(lèi)型的云實(shí)例,比如GPU??紤]到現在這個(gè)工具已經(jīng)備受關(guān)注和持續增加新功能, 我們對未來(lái)把它挪入試驗狀態(tài)充滿(mǎn)信心。
  Conftest
  Conftest 是一款針對結構化配置數據編寫(xiě)測試的工具。它依賴(lài)于開(kāi)放策略代理中的 Rego 語(yǔ)言,能夠為 Kubernetes 配置、Tekton 的流水線(xiàn)定義、甚至 Terraform 計劃編寫(xiě)測試。在我們的實(shí)際使用中,Conftest 的體驗一直都非常棒,這也得益于它平緩的學(xué)習曲線(xiàn)。借助測試的快速反饋,我們的團隊可以又快又安全地迭代變更 Kubernetes 的配置。
  kube-score
  kube-score 是一款針對 Kubernetes 對象定義,進(jìn)行代碼靜態(tài)檢查的工具。它的輸出是一份建議列表,里面包含了如何提升你的應用程序安全性及彈性的相關(guān)建議。它有一份包含了最佳實(shí)踐的預定義檢查,比如以非root權限運行容器,正確指定資源限制等。它已經(jīng)存在了一段時(shí)間,我們在一些項目中將它作為 Kubernetes manifests 構建的 CD 流水線(xiàn)的一部分來(lái)使用。kube-score 的一個(gè)顯著(zhù)缺陷是你無(wú)法添加自定義策略。在這種情況下,我們使用像Conftest 這樣的工具,以彌補它的缺陷。
  Lighthouse
  Lighthouse 是一個(gè)由 Google 編寫(xiě)的工具,可以評估 Web 應用和頁(yè)面,以及從出色的開(kāi)發(fā)實(shí)踐中收集性能指標和洞見(jiàn)等信息。我們一直主張性能測試乃第一公民, 五年前技術(shù)雷達中提到的對 Lighthouse 的補充內容對此也有幫助。我們關(guān)于適應度函數的思考,也為在構建流水線(xiàn)中運行 Lighthouse 這樣的工具創(chuàng )造了強烈的動(dòng)機。隨著(zhù) Lighthouse CI 的引入,將 Lighthouse 納入由不同工具管理的流水線(xiàn),會(huì )變得比以往任何時(shí)候都容易。
  Metaflow
  Metaflow 是一個(gè)對用戶(hù)友好的 Python 庫和后端服務(wù),可以幫助數據科學(xué)家和工程師構建和管理可用于生產(chǎn)的數據處理、機器學(xué)習訓練及推理的工作流。Metaflow 提供一系列 Python API,將代碼組織為由步驟組成的有向圖。每一個(gè)步驟都可以靈活配置,例如其所需的計算和存儲資源。每個(gè)步驟執行(也就是任務(wù))的代碼和數據副本都被保存起來(lái),并可以在今后的運行或流程的下一步中被檢索出來(lái),幫助你從錯誤中恢復,重新執行任務(wù),還可以追蹤模型的版本以及多個(gè)運行之間的依賴(lài)關(guān)系。
  Metaflow 的價(jià)值主張是其慣用的 Python 庫的簡(jiǎn)潔性:它與構建和運行時(shí)的基礎設施完全集成,以支持在本地和規?;纳a(chǎn)環(huán)境中運行數據工程和科學(xué)任務(wù)。在撰寫(xiě)本條目時(shí),Metaflow 和 AWS 服務(wù)高度集成,例如使用 S3 來(lái)做數據存儲,step functions 來(lái)做編排。除 Python 以外,Metaflow 還支持 R 語(yǔ)言。其核心功能都是開(kāi)源的。
  如果你正在 AWS 上構建和部署生產(chǎn)環(huán)境的機器學(xué)習和數據處理流水線(xiàn),作為一個(gè)輕量級的全??蚣?,Metaflow 可以替代例如 MLflow 這類(lèi)更復雜的平臺。
  Micrometer
  Micrometer 是一個(gè)跨平臺的庫,用于JVM的指標檢測,支持 Graphite、New Relic、CloudWatch 和許多其他集成。Micrometer 讓庫作者和團隊都受益:庫作者可以在他們的庫中包含指標檢測代碼,而無(wú)需支持庫用戶(hù)正在使用的每個(gè)指標系統;團隊可以在后端注冊表上支持許多不同的指標,這使組織能夠以一致的方式收集指標。
  NUKE
  NUKE 是一個(gè)面向 .NET 的構建系統,也是傳統的 MSBuild、Cake 以及 Fake 等自動(dòng)化構建系統的替代品,我們曾在之前的技術(shù)雷達中介紹過(guò)它們。NUKE 以 C# 領(lǐng)域特定語(yǔ)言(DSL)的形式表達構建指令,不但降低了學(xué)習成本,而且 IDE 支持性也很好。在我們的實(shí)際體驗中,使用 NUKE 進(jìn)行 .NET 項目的自動(dòng)化構建十分便捷。我們喜歡 NUKE 提供的精準代碼靜態(tài)檢查和提示功能,并且它支持無(wú)縫使用各種 NuGet 包,這樣可以編譯自動(dòng)化代碼,避免運行時(shí)發(fā)生錯誤。盡管 NUKE 已不是新技術(shù),但它采用 C# DSL 的全新方法,以及使用 NUKE 時(shí)全方位的良好體驗,促使我們一定要將它收錄在技術(shù)雷達里。
  Pactflow
  在長(cháng)時(shí)間使用 Pact 進(jìn)行契約測試的過(guò)程中,我們目睹了規?;瘞?lái)的復雜性。我們的一些團隊已經(jīng)使用 Pactflow 成功減少了這種復雜性引發(fā)的后果。Pactflow 既可以作為 SaaS 運行,也可以部署在本地,并提供與 SaaS 產(chǎn)品相同的功能,它在開(kāi)源產(chǎn)品 Pact Broker 的基礎上,提升了可用性、安全性以及審計體驗。到目前為止,我們很滿(mǎn)意 Pactflow 的使用體驗,并且很高興看到它在持續致力于降低管理大規模契約測試所帶來(lái)的開(kāi)銷(xiāo)。
  Podman
  Podman 作為Docker 的替代方案,已經(jīng)通過(guò)我們許多團隊的驗證。與 Docker 不同的是,Podman 使用一個(gè)無(wú)守護引擎來(lái)管理和運行容器,這是一種有趣的方案。此外,Podman 可以以普通用戶(hù)身份運行而無(wú)需root權限,從而減少了攻擊面。通過(guò)使用 Buildah 構建的開(kāi)放容器倡議(OCI) 鏡像或者 Docker 鏡像, Podman 可以適用于大多數容器使用場(chǎng)景。除了與 macOS 的一些兼容性問(wèn)題外,我們團隊在 Linux 各發(fā)行版上使用 Podman 的總體感覺(jué)非常好。
  Sourcegraph
  在往期的技術(shù)雷達中,我們介紹了兩個(gè)基于抽象語(yǔ)法樹(shù)(AST)表征的代碼搜索和替換工具,Comby 和Sourcegraph。它們盡管有一些相似之處,但也有一些不同的地方。Sourcegraph 是一個(gè)商業(yè)工具(也有最多支持10個(gè)用戶(hù)的免費版本),特別適合在大型代碼庫中進(jìn)行搜索、導航或交叉引用等操作,重視與開(kāi)發(fā)者的交互體驗。相比之下,Comby 是一個(gè)用于自動(dòng)化重復性任務(wù)的輕量級開(kāi)源命令行工具。由于 Sourcegraph 是一個(gè)托管服務(wù),它能持續監測代碼庫,并在成功匹配時(shí)發(fā)出警報?,F在我們對 Sourcegraph 有了更多的經(jīng)驗,決定將其挪到試驗狀態(tài),以反映我們從中獲得的良好體驗——但這并不意味著(zhù) Sourcegraph 比 Comby 更好。每個(gè)工具都有各自專(zhuān)注的方向。
  Syft
  使用軟件物料清單(SBOM) 是改善“供應鏈安全”的關(guān)鍵要素之一,因此在發(fā)布軟件構件的同時(shí),發(fā)布相應的 SBOM 正變得越來(lái)越重要。Syft是一個(gè)致力于為容器鏡像和文件系統生成 SBOM 的 CLI 工具和 Go 語(yǔ)言庫。它可以生成包括 JSON, CycloneDX 和 SPDX 在內的多種格式的 SBOM。Syft 輸出的 SBOM 可以被 Grype 用于漏洞掃描。使用Cosign 將 SBOM 添加為證明文件,可以將生成的 SBOM 和鏡像一起發(fā)布。這使得鏡像的消費者可以對 SBOM 進(jìn)行驗證,并將其用于后續的分析。
  Volta
  當同時(shí)在多個(gè) JavaScript 代碼庫上工作時(shí),我們往往需要使用不同版本的 Node 和其他 JavaScript 工具。在開(kāi)發(fā)機器上,這些工具通常安裝在用戶(hù)目錄或本機中,這意味著(zhù)需要一個(gè)解決方案,幫助開(kāi)發(fā)者在多個(gè)版本之中進(jìn)行切換。對于 Node 而言,nvm 能夠做到這一點(diǎn),但我們想重點(diǎn)強調一個(gè)替代方案 Volta ,我們的一些團隊正在使用它。與使用 nvm 相比,Volta 有幾個(gè)優(yōu)點(diǎn):它可以管理其他 JavaScript 工具,如 yarn;它還具備一個(gè)基于項目綁定工具鏈某個(gè)版本的理念,這意味著(zhù)開(kāi)發(fā)人員可以簡(jiǎn)單使用給定代碼目錄中的工具,而不必擔心需要手動(dòng)切換工具版本 —— Volta 是通過(guò)使用路徑中的 shims 來(lái)選擇被綁定的版本。Volta 采用 Rust 編寫(xiě),速度極快,以獨立二進(jìn)制文件進(jìn)行分發(fā),沒(méi)有任何依賴(lài)。
  Web Test Runner
  Web Test Runner 是 Modern Web 項目中的一個(gè)套件,該項目為現代 Web 開(kāi)發(fā)提供了若干高質(zhì)量的工具,支持像 ES 模塊之類(lèi)的 Web 標準。Web Test Runner 是一個(gè)針對 Web 應用的測試運行器。與其他現有測試運行器相比,它的一個(gè)優(yōu)勢是可以在瀏覽器中運行測試(也可以無(wú)圖形界面運行)。它支持多種瀏覽器啟動(dòng)器——包括 Puppeteer , Playwright 和 Selenium ,并且使用 Mocha 作為默認測試框架。Web Test Runner 運行測試的速度非???,我們很喜歡在調試的時(shí)候能打開(kāi)一個(gè)帶 devtools 的瀏覽器窗口。它在內部采用了 Web Dev Server ,這意味著(zhù)我們可以利用其出色的插件 API,為測試套件添加自定義插件。Modern Web 項目的工具看起來(lái)是一套非常有前景的開(kāi)發(fā)者工具鏈,我們已經(jīng)在一些項目中使用它。
  評估
  CDKTF
  迄今為止,許多組織已經(jīng)創(chuàng )造了廣闊的云服務(wù)圖景。當然,這只有在使用基礎設施即代碼和成熟的工具時(shí)才可能實(shí)現。我們仍然喜歡 Terraform,尤其是它豐富且日漸增長(cháng)的生態(tài)系統。然而,Terraform 的默認配置語(yǔ)言 HCL 缺乏抽象性,導致了它的玻璃天花板。雖然使用 Terragrunt 緩解了這一點(diǎn),但我們的團隊越來(lái)越渴望像現代編程語(yǔ)言所能提供的那種抽象性。由AWS CDK 團隊和 Hashicorp 合作開(kāi)發(fā)的 Terraform云開(kāi)發(fā)工具包(CDKTF),讓團隊有可能使用多種不同的編程語(yǔ)言,包括 TypeScript 和 Java,去定義并配置基礎設施。通過(guò)這種方法,它在 Terraform 生態(tài)系統中緊跟Pulumi 的領(lǐng)先地位。我們已經(jīng)對 CDKTF 有了很好的經(jīng)驗,但仍然決定將其暫留在評估狀態(tài),直到它脫離 beta 版本。
  Chrome Recorder panel
  Chrome Recorder panel 是 Google Chrome 97 的預覽功能,允許簡(jiǎn)單地錄制和回放用戶(hù)旅程。雖然這絕對不是一個(gè)新想法,但它集成在 Chrome 瀏覽器中的方式能允許快速地創(chuàng )建、編輯和運行腳本。Chrome Recorder panel 也很好地集成了性能面板,這讓獲取重復、持續的頁(yè)面性能反饋變得更加容易。雖然總是需要謹慎使用錄制/回放風(fēng)格的測試,以避免脆弱的測試,但我們認為這個(gè)預覽功能值得評估,特別是如果你已經(jīng)在使用 Chrome 性能面板來(lái)測量頁(yè)面。
  Excalidraw
  Excalidraw 是我們團隊喜歡使用的簡(jiǎn)單但功能強大的繪圖工具。有時(shí)候團隊只是需要一張草圖而不是正式的圖表,Excalidraw 為遠程團隊提供了一種可以快速創(chuàng )建和共享圖表的方式。我們團隊也喜歡它生成的低保真圖表樣式,這讓人聯(lián)想到團隊在同地協(xié)作時(shí)繪制的白板圖表。提醒一點(diǎn):你需要注意它默認的安全性,在你進(jìn)行繪制時(shí),任何擁有鏈接的人都可以看見(jiàn)圖表。付費版本則提供了進(jìn)一步的身份驗證功能。
  Github Codespace
  Github Codespace 允許開(kāi)發(fā)者在云上創(chuàng )建開(kāi)發(fā)環(huán)境,你可以通過(guò) IDE 訪(fǎng)問(wèn)它,就像在本地環(huán)境一樣。Github 不是第一家實(shí)現這個(gè)想法的公司,我們之前還提到過(guò) Gitpod。我們喜歡 Codespace 允許通過(guò)使用 dotfiles 文件來(lái)標準化配置環(huán)境的功能,這能夠幫助新團隊成員更快上手;我們也十分中意 Codespace 能提供最高 32 核 64GB 內存虛擬機的特性,這些虛擬機可以在 10 秒鐘內啟動(dòng),有可能提供比開(kāi)發(fā)筆記本電腦更強大的環(huán)境。
  GoReleaser
  GoReleaser 是一個(gè)通過(guò)多個(gè)庫和通道來(lái)支持不同架構的 Go 項目自動(dòng)化構建和發(fā)布的工具,這是面向不同平臺 Go 項目的常見(jiàn)需求。你可以在本地機器或者 CI 上運行該工具,它支持在多種 CI 服務(wù)上運行,從而最大限度降低安裝和維護成本。GoReleaser 能夠用于每個(gè)發(fā)布版本的構建、打包、發(fā)布和聲明,并且支持不同的包格式、包庫和源代碼控制的組合。雖然它已經(jīng)出現好幾年了,但我們驚訝并沒(méi)有多少團隊使用它。如果你經(jīng)常發(fā)布 Go 代碼庫,這個(gè)工具值得一試。
  Grype
  保證軟件供應鏈的安全性已經(jīng)得到交付團隊的普遍關(guān)注,這種關(guān)注也反映在越來(lái)越多的新工具涌現在該領(lǐng)域中。Grype 就是一個(gè)新的針對 Docker 和 OCI 鏡像進(jìn)行漏洞掃描的輕量級工具。它可以以二進(jìn)制文件安裝,能在鏡像被推至倉庫前對其進(jìn)行掃描,而且不需要在你的構建服務(wù)器上運行 Docker 守護進(jìn)程。Grype 與 Syft 出自同一個(gè)團隊,后者用于為容器鏡像生成不同格式的軟件物料清單 。Grype 可以使用 Syft 輸出的軟件物料清單掃描安全漏洞。
  Infracost
  遷移到云端的一個(gè)常被提及的優(yōu)勢是將基礎設施開(kāi)銷(xiāo)透明化。但根據我們的經(jīng)驗,情況卻往往相反。團隊并不總是從財務(wù)成本的角度來(lái)考慮他們圍繞基礎設施所做的決定,這就是為什么我們之前提到了將運行成本實(shí)現為架構適應度函數。我們對一個(gè)名為 Infracost 的新工具感到好奇,該工具可以在 Terraform pull request 中可視化成本權衡。它是一個(gè)開(kāi)源軟件, 在 macOS、Linux、Windows 和 Docker 均可訪(fǎng)問(wèn),開(kāi)箱即用支持 AWS 、 GCP 和微軟 Azure 的定價(jià)。它還提供了一個(gè)公共 API ,可以查詢(xún)到當前的成本數據。我們的團隊對它的潛力感到興奮,特別是它還將支持在IDE中提供更好的成本可見(jiàn)性。
  jc
  在之前的技術(shù)雷達中,我們將 現代 Unix 命令 放在了評估狀態(tài)。在該工具集中, jq 命令實(shí)際上是一個(gè)支持 JSON 的 sed。而 jc 命令執行的是與之相關(guān)的任務(wù):它獲取常見(jiàn) Unix 命令的輸出,并將輸出解析為 JSON。jq 和 jc 這兩個(gè)命令一起為 Unix CLI 世界以及大量基于 JSON 工作的庫和工具之間架起了一座橋梁。當編寫(xiě)一些像軟件部署或者故障診斷信息收集的簡(jiǎn)單腳本時(shí),將五花八門(mén)的 Unix 命令輸出格式映射到定義明確的 JSON,可以為我們節省大量的時(shí)間和精力。與 jq 命令一樣,你需要確保該命令可用。它可以通過(guò)許多著(zhù)名的軟件庫進(jìn)行安裝。
  skopeo
  skopeo 是一款可以對容器鏡像和鏡像倉庫執行各種操作的命令行工具。它的大部分操作都不要求用戶(hù)以 root 角色執行,也不需要運行守護進(jìn)程。它是 CI 流水線(xiàn)中的實(shí)用部分,在推廣鏡像時(shí),我們可以用skopeo把鏡像從一個(gè)注冊表拷貝到另一個(gè)注冊表。這樣的操作比直接拉取和推送鏡像更好,因為我們不需要在本地存儲這些鏡像。skopeo 不是一個(gè)新工具,但它足夠有用且未被充分認識到,所以我們認為它值得一提。
  SQLFluff
  盡管代碼靜態(tài)檢查已經(jīng)是軟件工程中的古老實(shí)踐了,但它在數據領(lǐng)域中的應用仍十分緩慢。SQLFluff是一個(gè)python實(shí)現的跨SQL方言的linter,它提供了簡(jiǎn)單的命令行界面(CLI),可以很容易地整合進(jìn)CI/CD流水線(xiàn)。如果默認配置就適合你,那么SQLFluff在安裝后無(wú)需任何額外設定就可工作,它會(huì )強制執行一套鮮明風(fēng)格的標準來(lái)格式化代碼,當然,你也可以通過(guò)添加一個(gè)dotfile設定自己的代碼規范。這個(gè)命令行工具還能自動(dòng)修復諸如空格或者關(guān)鍵詞大小寫(xiě)等違反代碼規范設定的格式錯誤。SQLFluff雖然還很年輕,但是SQL代碼靜態(tài)檢查圈內獲得更多關(guān)注是一件讓人興奮的事。
  Terraform Validator
  一些已經(jīng)采用了基礎設施即代碼和自服務(wù)基礎設施平臺的組織,正在尋找在執行良好安全實(shí)踐和組織政策的同時(shí),能給予團隊最大限度自主權的方法。我們之前已經(jīng)著(zhù)重強調過(guò) tfsec,并在這一期技術(shù)雷達中將它挪到了采納中。對于使用谷歌云平臺(GCP)的團隊來(lái)說(shuō),可以使用 Terraform Validator 構建策略庫,作為檢查 Terraform 配置的約束條件。
  Typesense
  Typesense 是一個(gè)快速、容錯的文本搜索引擎。在有大量數據的情形下,Elasticsearch 可能仍然是一個(gè)不錯的選擇,因為它提供了一個(gè)基于磁盤(pán)且可橫向擴展的搜索解決方案。然而如果你正在構建一個(gè)對延遲敏感的搜索應用,并且搜索索引的尺寸可以容納在內存中,那么 Typesense 會(huì )是一個(gè)強大的替代方案,你也可以考慮與 Meilisearch 等工具一起評估。

論文打卡第十七期(信息抽取,文本生成,多模態(tài),知識蒸餾)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 146 次瀏覽 ? 2022-05-01 08:00 ? 來(lái)自相關(guān)話(huà)題

  論文打卡第十七期(信息抽取,文本生成,多模態(tài),知識蒸餾)
  關(guān)于我們
  我們
  是一個(gè)國內外多所高校AI方向學(xué)生共同組織的論文閱讀打卡小組。我們定期組織論文閱讀活動(dòng),期望大家能夠在自己需要的情況下,閱讀論文并分享自己的閱讀筆記,既可以督促提升自己,也可以分享利于其他同學(xué)。我們期望我們這個(gè)活動(dòng)能夠成為一個(gè)幫助同學(xué)們督促自己也造福他人的平臺。
  文中所有內容均為各位同學(xué)的個(gè)人閱讀筆記。不保證筆記內容的準確性、全面性。內容僅供參考。
  
  本期目錄
  領(lǐng)域
  1
  Are Transformers More Robust Than CNNs
  神經(jīng)網(wǎng)絡(luò )
  2
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  多模態(tài)檢索
  3
  Multi-Modal Mixup for Robust Fine-tuning
  多模態(tài)
  表示學(xué)習
  4
  Hierarchical Modular Event Argument Extraction
  信息抽取
  5
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  信息抽取
  6
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  命名實(shí)體識別
  7
  Towards Debiasing NLU Models from Unknown Biases
  NLU
  8
  How do Vision Transformers Work?
  預訓練模型
  9
  Learn From the Past: Experience Ensemble Knowledge Distillation
  知識蒸餾
  10
  Rethinking and Refining the Distinct Metric
  文本生成
  11
  A Contrastive Framework for Neural Text Generation
  文本生成
  12
  Should You Mask 15% in Masked Language Modeling?
  預訓練模型
  13
  Visually Grounded Reasoning across Languages and Cultures
  多模態(tài)
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  信息抽取
  15
  TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction
  信息抽取
  01
  Are Transformers More Robust Than CNNs
  領(lǐng)域:神經(jīng)網(wǎng)絡(luò )
  會(huì )議:NeurIPS 2021
  鏈接:
  關(guān)鍵詞:Transformer, CNN
  是否推薦:推薦
  打卡內容:
  1.問(wèn)題:最近的工作認為T(mén)ransformer比卷積神經(jīng)網(wǎng)絡(luò )(CNN)更強大。然而,令人驚訝的是,我們發(fā)現這些結論來(lái)自不公平的實(shí)驗環(huán)境,其中Transformer和CNN在不同的尺度上進(jìn)行比較,并應用不同的訓練框架。
  2.分析:a)如果CNN正確地采用Transformer的訓練方式,那么在防御對抗性攻擊方面,它們可以很容易地像Transformer一樣強大。b)Transformer的泛化能力得益于self-attention架構,而非在大規模數據集上進(jìn)行預訓練。
  評價(jià):懷疑的態(tài)度和實(shí)驗分析很有趣。
  02
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  領(lǐng)域:多模態(tài)檢索
  會(huì )議:SIGIR 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  1.問(wèn)題:現有的圖像文本檢索方法在交互模式的設計上嚴重依賴(lài)專(zhuān)家經(jīng)驗和經(jīng)驗反饋,因此缺乏靈活性。
  2.方法:我們開(kāi)發(fā)了一種基于路由機制的新型模態(tài)交互建模網(wǎng)絡(luò ),這是第一個(gè)面向圖像文本檢索的統一動(dòng)態(tài)多模態(tài)交互框架。特別是,我們首先設計四種類(lèi)型的單元作為基本單元,探索不同層次的模態(tài)交互,然后以密集策略將它們連接起來(lái),構建一個(gè)路由空間。為了賦予該模型路徑?jīng)Q策的能力,我們在每個(gè)單元中集成了一個(gè)動(dòng)態(tài)路由器用于模式探索。由于路由器以輸入為條件,我們的模型可以動(dòng)態(tài)地學(xué)習不同數據的不同激活路徑。
  評價(jià):實(shí)驗很豐富。case study很直觀(guān)、有說(shuō)服力。圖畫(huà)得很好看。
  03
  Multi-Modal Mixup for Robust Fine-tuning
  領(lǐng)域:多模態(tài)表示學(xué)習
  會(huì )議:ARXIV 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  本文探究了CLIP模型給出的文本和圖片表示,發(fā)現這兩個(gè)模態(tài)的表示分得很開(kāi),且中間有大片未被填充的空間。
  作者借鑒了ICML20的一篇文章,利用其中的alignment和uniformity指標進(jìn)一步分析了CLIP的多模態(tài)特征空間,發(fā)現構成正例的兩個(gè)樣本在特征空間中不夠近(alignment?。?,同時(shí)所有數據的特征分布不夠均勻(uniformity?。?。這樣的特征分布是不夠魯棒的,會(huì )降低模型在下游任務(wù)上的表現。
  為此,作者提出了multi-modal mixup技術(shù),通過(guò)混合兩個(gè)模態(tài)的特征得到更困難的負例,再進(jìn)行對比學(xué)習。具體的mixup技術(shù)包括m^2-mix(圖片混文本作為圖片的負例)、V-mix(文本混文本作為圖片的負例)、VL-mix(文本混文本、圖片混圖片,然后互為負例)
  實(shí)驗結果表明這種方法在保留多模態(tài)結構關(guān)系的同時(shí),提高了模型的alignment和uniformity指標,進(jìn)而提高了模型在下游retrieval任務(wù)上的表現
  04
  Hierarchical Modular Event Argument Extraction
  領(lǐng)域:信息抽取
  會(huì )議:EMNLP 2019
  鏈接:
  關(guān)鍵詞:分層網(wǎng)絡(luò )
  是否推薦:推薦
  打卡內容:
  本文是事件要素抽取的工作,主要是為概念層次(concept hierarchy)的每個(gè)基本單元設計了一個(gè)神經(jīng)網(wǎng)絡(luò )模塊,然后使用邏輯操作,將相關(guān)的單元模塊分層地組成一個(gè)面向角色的模塊網(wǎng)絡(luò )(modular network),對特定的argument role進(jìn)行分類(lèi)。
  為每個(gè)概念設置了一個(gè)NMN,并將其組成了一個(gè)面向角色的模塊網(wǎng)絡(luò ),以預測每個(gè)實(shí)體的元素角色:首先,對于每個(gè)上級概念,有一個(gè)上級概念模塊(SCM)來(lái)突出和概念有關(guān)的上下文信息;然后,對于每個(gè)元素角色,使用針對特定角色的邏輯模塊整合和其相對應的SCMs,以得到統一的高層次的模塊;最終,使用元素角色分類(lèi)器,預測實(shí)體是否扮演了給定的元素角色。主要的做法就是將實(shí)體的信息融合到候選的要素片段中,增強分類(lèi)的效果。
  實(shí)驗在A(yíng)CE 2005, TAC KBP 2016這兩個(gè)數據集上做了EAE的測試,沒(méi)有全部達到SOTA,但是分層網(wǎng)絡(luò )確實(shí)提升了模型的效果。
  05
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  領(lǐng)域:信息抽取
  會(huì )議:ICASSP 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  應該是最早在提示學(xué)習上做事件抽取的論文了。作者分析了事件抽取的三種主流方式:序列標注、MRC和生成,又對生成范式的兩瓶。編碼部分作者加入了提示(無(wú)需手工設計),解碼部分沿用了TEXT2EVENT的方法。
  其中一個(gè)創(chuàng )新點(diǎn)是減少了觸發(fā)詞對參數抽取的影響,作者認為有些觸發(fā)詞對參數抽取沒(méi)有幫助,只需要事件類(lèi)型就可以找到模板并且進(jìn)行參數抽取,還可以提高效率。但是我認為有兩點(diǎn)問(wèn)題。首先,作者依然需要pipeline式地進(jìn)行簡(jiǎn)化的事件檢測,還是執行2個(gè)模型,時(shí)間效率沒(méi)有提升,甚至3個(gè)模型提高了計算量。其次,目前大家似乎都是使用Ground Truth的觸發(fā)詞和事件類(lèi)型做參數抽取,所以理論上的性能沒(méi)有提升。(但是實(shí)際生產(chǎn)中,沒(méi)有GT的事件檢測標注,這種方式可能些許減少誤差傳播)。
  另一個(gè)創(chuàng )新點(diǎn)就是引入了提示學(xué)習,其實(shí)文章的模板過(guò)于簡(jiǎn)單,取得這樣的效果已經(jīng)很不容易了。如果進(jìn)行模板的設計,可能可以取得更好的結果。
  06
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  領(lǐng)域:命名實(shí)體識別
  會(huì )議:ACL 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  現有的工作只是進(jìn)行弱監督學(xué)習,而在實(shí)際場(chǎng)景中,同時(shí)存在強標注數據和弱標注數據(半監督)。由于弱監督數據中存在噪聲,傳統的方法不能有效地提高性能。所以作者使用了一個(gè)三階段的計算框架NEEDLE。弱標簽可以分為三類(lèi):不準確(有噪聲)、不精確(粗粒度)和不完全(有點(diǎn)沒(méi)有標注)作者考慮了一三兩種情況。
  在第一階段,通過(guò)對大量目標域無(wú)標記數據進(jìn)行域內連續預訓練,將開(kāi)放域預訓練語(yǔ)言模型適應于目標域。在第二階段,利用知識庫將域內無(wú)標記數據轉換為弱標記數據。然后,結合弱標簽補全過(guò)程(不完全)和噪聲感知丟失函數(不準確),對弱標簽數據和強標簽數據進(jìn)行連續的預訓練,有效地處理弱標簽的“不完全性”和“噪聲標記”。在第三階段,對強標記數據再次微調模型。最后的微調階段是模型擬合強標記數據的關(guān)鍵。
  實(shí)驗表明可以通過(guò)迭代的方式進(jìn)一步提高性能,而自訓練的方式提升有限。
  07
  Towards Debiasing NLU Models from Unknown Biases
  領(lǐng)域:NLU
  會(huì )議:EMNLP 2020
  鏈接:
  是否推薦:推薦
  打卡內容:
  Debias NLU 中模型對 superficial correlation 的依賴(lài),作者指出之前的方案依賴(lài)于對于 bias type 的 prior,例如 MNLI hypothesis 和 premise 的 overlapping,而很多數據集缺乏類(lèi)似的分析因而無(wú)法獲得 prior。作者經(jīng)過(guò)實(shí)驗觀(guān)測到,對于 biased data,模型會(huì )學(xué)的很快,達到 100%的準確率,因而嘗試利用一個(gè)輔助模型來(lái)作為樣本是否是 bias 樣本的 indicator,進(jìn)而可以對 unknown biases 進(jìn)行建模并且和之前的方案進(jìn)行整合,主要包括:re-weighting, ensemble 以及 confidence regularization;此外,為了避免因為學(xué)到很多 bias 造成 effective training data size 的下降作者提了一個(gè)退火的機制,來(lái)慢慢消除 bias indicator 的作用,最后退化成普通的 MLE loss。作者在主流的 MNLI/HANS,FEVER 和 QQP/PAWS 上進(jìn)行了測試,效果和之前的方案相比(因為他們已知 bias type)有好有壞,但都比不 debias 好,也驗證了退火策略的有效性。進(jìn)一步地分析指出,作者的方案在跨數據集的場(chǎng)景下表現的會(huì )更好,并且 debias 后模型在樣本上的 loss 的gap 會(huì )變?。▎蝹€(gè)樣本很大可能是有一些樣本模型利用 bias 信息很輕松的就做對了,然而難的樣本沒(méi)學(xué)會(huì ))。
  08
  How do Vision Transformers Work?
  領(lǐng)域:預訓練模型
  會(huì )議:ICLR 2022 Spotlight
  鏈接:
  是否推薦:推薦
  打卡內容:
  文章對比了 ViT 和 ResNet 以獲得 ViT work 的一些 Insights:
  - ViT 能夠 flatten loss landscape,從獲得更好的泛化性能和 robustness,然而其也存在在更多負的 Hessian Eigen values,loss 是 non-convex 的,造成在小數據集上優(yōu)化的困難;
  - ViT 對高頻信號的強度會(huì )進(jìn)行壓縮而 CNN 會(huì )放大,二者分別類(lèi)似一個(gè)低通濾波器和高通濾波器,進(jìn)而導致在高頻noise方面 ViT 表現的更好;
  - 作者認為多階段網(wǎng)絡(luò )是小模型的級聯(lián),因此考慮 CNN 和 MSA 級聯(lián)構成 block,以對 stage output 進(jìn)行 spatial smoothing,基于一個(gè)簡(jiǎn)單的building-up rule(不斷替換 CNN 和 MSA,檢查有沒(méi)有更好的性能),實(shí)驗發(fā)現這個(gè)提出的網(wǎng)絡(luò )結構的效果更好并且更加魯邦。
  09
  Learn From the Past: Experience Ensemble Knowledge Distillation
  領(lǐng)域:知識蒸餾
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦
  打卡內容:
  這篇文章考慮利用 Teacher 訓練過(guò)程中的 snapshot(so called learning experience),來(lái)提升 KD 的效果。具體的做法就是存下 teacher 訓練過(guò)程中的 checkpoint,然后 ensemble 這些 checkpoint 的輸出來(lái)指導 student model。作者探索了不同的方案,發(fā)現:
  - 并不是效果越好的 teacher ensemble 能夠得到更好的 student,這個(gè)觀(guān)察之前在 CV 里面已經(jīng)有不少了,這是另外一個(gè)佐證(在 NLP 里面,我們 EMNLP 21 的工作 Dynamic KD 也在 BERT 上觀(guān)測到了這一現象)
  - Distillation 過(guò)程中對 teacher 不同的權重,作者對比了一些 heuristic 的 linear strategy 和設計了一個(gè)根據 instance feature 的 attention 機制,結論是 dynamic attention 的效果會(huì )更好,盡管對應 ensemble 出來(lái)的 teacher 效果并不一定是最好的
  - snapshot 的數量,基本上是存的 checkpoint 越多效果越好,但因為同時(shí)需要 forward 多個(gè) teacher model 會(huì )造成比較大的訓練開(kāi)銷(xiāo)(這個(gè)問(wèn)題挺好解決的,靜態(tài) dataset 的話(huà),把 teacher logits 存下來(lái)就完事了)
  最后作者在 CIFAR 100 和 ImageNet 對比了目前的 sota,發(fā)現提出的方案能夠取得更好的效果,但分析部分還是比較欠缺,對于 experience 的這個(gè)概念的探究還是不夠深入。
  10
  Rethinking and Refining the Distinct Metric
  領(lǐng)域:文本生成
  會(huì )議:ACL 2022 Short
  鏈接:
  是否推薦:推薦
  打卡內容:
  Distinct metric 是文本生成中常用的一個(gè)指標,來(lái)衡量生成文本的 diversity,作者指出這個(gè)指標存在一個(gè)問(wèn)題:當文本長(cháng)度變長(cháng)的時(shí)候,這個(gè)指標會(huì )急劇下降。作者分析的方法是控制 vocab 的 distribution(概率分布),然后增長(cháng)句子的長(cháng)度,發(fā)現 distinct 的下降,而這個(gè)和 distinct 本身想要 measure 的 word distribution 的 diversity 是矛盾的(因為 distribution 固定,那么應該和長(cháng)度無(wú)關(guān))。在一個(gè)方面,這會(huì )造成模型比較的不公平,因為可以很輕松地通過(guò)控制 length penalty 來(lái)控制 diversity。作者通過(guò)對分母進(jìn)行修改,改為期望出現的總 token 的上界(因為無(wú)法估計不出現的 token),得到了一個(gè)更好的 distinct 指標。實(shí)驗評估發(fā)現,這個(gè)指標有更好的長(cháng)度不變性,并且在真實(shí)數據集上更能夠體驗不同方法的 gap 和 consistency,也和 human evaluation 有比較好的 correlation。
  11
  A Contrastive Framework for Neural Text Generation
  領(lǐng)域:文本生成
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦
  打卡內容:
  旨在解決 generation 中生成重復 token 的問(wèn)題,之前的 Top-k 和 Top-p 生成能夠一定程度的緩解這個(gè)問(wèn)題,但是會(huì )帶來(lái) inconsistency 的問(wèn)題。作者認為重復的原因來(lái)自于 token uniformity,并且對 GPT 最后的 token representations 做了可視化,發(fā)現 token 之間的 cosine similarity 高于 0.95 ,進(jìn)而會(huì )導致在不同時(shí)間步上產(chǎn)生重復的 token,而理想狀態(tài)中 token 的表示應該有較大的區分度。作者因此提出了 SimCTG,利用對比學(xué)習來(lái)增強不同 token representation 之間的 cosine 距離,同時(shí)在解碼階段,也對 representation 上增加一個(gè)懲罰項,即和之前所有 token representation similarity 的最大值。作者在 wiki103 上和 MLE, Unlikelihood 做了對比,能夠在發(fā)現在 coherence 更高的情況下,取得更好的抗重復,增強生成文本多樣性的效果,在 Dialog Generation 上的人工測評也體現出比較明顯的提升。
  12
  Should You Mask 15% in Masked Language Modeling
  領(lǐng)域:預訓練模型
  會(huì )議:ARXIV 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  探究 Mask Language Modeling 中 Mask 比例的影響。作者首先是在預訓練中發(fā)現 mask 掉 40% 的 token 能夠帶來(lái)更好的下游任務(wù)性能,并且 mask 掉 80% 也能保持大部分的性能。作者進(jìn)一步地把 mask ratio 對性能的影響解耦成兩部分:
  - corruption rate: 對上下文破壞的比例,這個(gè)比率越高,上下文破碎程度越高會(huì )使得預測任務(wù)會(huì )更加的困難;
  - prediction rate: 預測 mask token 的比例,這個(gè)比率越高,則模型接收到的訓練信號越多;
  傳統的 MLM 里面,這兩個(gè)比率是都和 mask ratio 相等的,作者設計了 ablation study 來(lái)分別探究這二者的效果:
  - corruption rate > prediction rate: 例如,mask 掉 40% token,但是只預測其中 50% 的 mask token,即 prediction rate = 20%;
  - corruption rate
  實(shí)驗以 mask rate = 40 % 為 baseline 為 baseline,發(fā)現 corruption rate 越高整體會(huì )降低效果,而 prediction rate 越低也會(huì )帶來(lái)更差的效果,二者是一個(gè) trade-off,更難的任務(wù)和更多的信號。作者也對不同 size 的model 進(jìn)行了探究,發(fā)現大模型下游任務(wù)最好的性能出現在 mask rate 更大的位置,猜測是其能力更強,所以能夠處理更難的任務(wù)并且利用好更多的信號。
  另外一個(gè)常用的 trick 是 80-10-10 ,即 mask token 有 80 % 的 token是 [MASK],10% 的概率是原來(lái)的 token,10 % 的概率是 random token,最初這個(gè)trick是用來(lái)緩解 [MASK] 引入的 inconsistency 的,但是作者的實(shí)驗其實(shí)關(guān)注到 40% 的mask rate 并沒(méi)有帶來(lái)性能下降,說(shuō)明這個(gè) inconsistency 還是存疑的,作者探究了增加 same token prediction,random token 的比率,發(fā)現還是帶來(lái)下降,因此作者提倡還是用 [MASK] 最原始的版本就可以了。
  最后作者探究了 mask 的策略,發(fā)現在高 mask 比率下,相比于 PMI 和 Span,uniform 的 mask 策略就能取得比較好的效果,作者的解釋就是高 mask 比率實(shí)際上大概率會(huì ) mask 出類(lèi)似 PMI、Span 的 mask,從而也能夠使得模型的學(xué)習更加魯棒。
  13
  Visually Grounded Reasoning across Languages and Cultures
  領(lǐng)域:多模態(tài)
  會(huì )議:EMNLP 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  ImageNet構建的方式是通過(guò)英語(yǔ)的WordNet去選擇層次化的概念,然后根據概念再選擇圖像。后面的一些數據集,比如NLVR2,MSCOCO,VisualGenome都是通過(guò)這種層次結構構建的。有證據表明ImageNet數據的來(lái)源與內容都存在著(zhù)bias,也有人曾為了糾正這種傾向提出干預數據,過(guò)濾、重新平衡一些類(lèi)別,但若是原分布本就未能涵蓋多語(yǔ)言多文化,這種方法便不足以解決這個(gè)問(wèn)題。作者認為ImageNet中的主要問(wèn)題是概念不普遍、概念過(guò)于特定于英語(yǔ)。Bias的來(lái)源有以下三個(gè)方面:1. 概念的選擇;2.候選圖像檢索(檢索到的圖像不符合真實(shí)世界分布);3.圖像過(guò)濾(完全取決于標注者,他們都是來(lái)自于歐美)。
  針對這三個(gè)問(wèn)題,作者設計了一個(gè)新的數據集,讓概念和圖像的選擇完全由母語(yǔ)人士驅動(dòng)。構建數據集的第一步是:1.選擇語(yǔ)言,數據集主要包含5種語(yǔ)言:印尼語(yǔ)、簡(jiǎn)體中文、斯瓦希里語(yǔ)、泰米爾語(yǔ)和土耳其語(yǔ)。這5種語(yǔ)言的類(lèi)型(typologically)、語(yǔ)系(genealogically)、地理(geographically)上皆不同。同時(shí),泰米爾語(yǔ)和土耳其語(yǔ)是低資源語(yǔ)言。2.選擇普適性概念,有兩個(gè)層次,第一個(gè)是chapter,比如Animal,對應的semantic field是bird和mammal。3.選擇特定語(yǔ)言概念:針對每個(gè)semantic field,作者雇傭5個(gè)母語(yǔ)人士提供5-10特定概念的維基百科頁(yè)面,比如針對中文的semantic field music instrument,提供的維基百科頁(yè)面是關(guān)于古箏的。概念需要滿(mǎn)足兩個(gè)關(guān)鍵需求:在使用這種語(yǔ)言的人群中常見(jiàn)或有代表性的,最好是以物質(zhì)形式存在且具體的。4.圖像選擇,標注者可以從本地網(wǎng)站,搜索引擎和維基百科等作為源針對每個(gè)概念拿到12張圖片。5.描述標注,從圖像集中隨機選8張圖像,隨機組成4個(gè)圖像對。每位標注者被要求寫(xiě)一個(gè)描述,此描述對于兩個(gè)圖像對為T(mén)rue,兩個(gè)圖像對為False。在最后的數據集中,一個(gè)數據點(diǎn)包含兩張圖像,一個(gè)描述,和一個(gè)True/False標簽。
  關(guān)于圖像分布的分析,作者使用在ImageNet上訓練的ResNet50 分別對MaRVL圖像以及從NLVR2采樣的1K張隨機圖像進(jìn)行特征提取,提取后使用UMAP將它們的嵌入分布可視化。結果發(fā)現,MaRVL的中文圖像與來(lái)自NLVR2的英文圖像有著(zhù)極為不同的分布。同時(shí),也對MaRVL中的印尼語(yǔ)和斯瓦希里語(yǔ)的圖像分布進(jìn)行了比較,結果表明在不同語(yǔ)言間也有著(zhù)不同的分布。
  然后就是基于多種預訓練模型(VL-BERT,UNITER等等)在MaRVL上的實(shí)驗了,本文提出了兩個(gè)跨語(yǔ)言的VL預訓練模型的變種,mUNITER(通過(guò)mBERT進(jìn)行初始化的UNITER)和xUNITER(XLM-R)。通過(guò)和NLVR2進(jìn)行對比,模型在Zero-shot實(shí)驗中效果下降明顯,對于資源豐富的中文一樣如此。同時(shí)加入一種設置,就是將不同語(yǔ)言翻譯為英語(yǔ),相比之下,模型有著(zhù)不同程度的提升,但比起NLVR2依舊有著(zhù)10%的差距。作者認為這種明顯的下降是由于MaRVL有兩個(gè)挑戰:一個(gè)是cross-lingual transfer,另一個(gè)是out-of-distribution。作者又設計了一組控制實(shí)驗,他們將MaRVL-ZH人工翻譯成了英語(yǔ),去除了機器翻譯所帶來(lái)的任何可能的混雜因子。和機器翻譯相比,大部分模型都有1-2%的提升,因此翻譯是很可靠的。那么,導致模型下降10%的便是那些OOD概念了。第二個(gè)實(shí)驗是:從NLVR2測試集取樣250個(gè)唯一的描述,將它們人工翻譯成簡(jiǎn)體中文,記為NLVR2-ZH。mUNITER和xUNITER的準確率都下降了約16%,因此,這種gap可以歸因于從英語(yǔ)到中文的跨語(yǔ)言遷移。第三組實(shí)驗是,將NLVR2的訓練集機器翻譯為中文,并在MaRVL-ZH上測試,發(fā)現mUNITER和xUNITER的結果和Translate test實(shí)驗時(shí)很接近,再一次說(shuō)明 缺乏文化相關(guān)概念阻礙了泛化。
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  領(lǐng)域:信息抽取
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦 查看全部

  論文打卡第十七期(信息抽取,文本生成,多模態(tài),知識蒸餾)
  關(guān)于我們
  我們
  是一個(gè)國內外多所高校AI方向學(xué)生共同組織的論文閱讀打卡小組。我們定期組織論文閱讀活動(dòng),期望大家能夠在自己需要的情況下,閱讀論文并分享自己的閱讀筆記,既可以督促提升自己,也可以分享利于其他同學(xué)。我們期望我們這個(gè)活動(dòng)能夠成為一個(gè)幫助同學(xué)們督促自己也造福他人的平臺。
  文中所有內容均為各位同學(xué)的個(gè)人閱讀筆記。不保證筆記內容的準確性、全面性。內容僅供參考。
  
  本期目錄
  領(lǐng)域
  1
  Are Transformers More Robust Than CNNs
  神經(jīng)網(wǎng)絡(luò )
  2
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  多模態(tài)檢索
  3
  Multi-Modal Mixup for Robust Fine-tuning
  多模態(tài)
  表示學(xué)習
  4
  Hierarchical Modular Event Argument Extraction
  信息抽取
  5
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  信息抽取
  6
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  命名實(shí)體識別
  7
  Towards Debiasing NLU Models from Unknown Biases
  NLU
  8
  How do Vision Transformers Work?
  預訓練模型
  9
  Learn From the Past: Experience Ensemble Knowledge Distillation
  知識蒸餾
  10
  Rethinking and Refining the Distinct Metric
  文本生成
  11
  A Contrastive Framework for Neural Text Generation
  文本生成
  12
  Should You Mask 15% in Masked Language Modeling?
  預訓練模型
  13
  Visually Grounded Reasoning across Languages and Cultures
  多模態(tài)
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  信息抽取
  15
  TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction
  信息抽取
  01
  Are Transformers More Robust Than CNNs
  領(lǐng)域:神經(jīng)網(wǎng)絡(luò )
  會(huì )議:NeurIPS 2021
  鏈接:
  關(guān)鍵詞:Transformer, CNN
  是否推薦:推薦
  打卡內容:
  1.問(wèn)題:最近的工作認為T(mén)ransformer比卷積神經(jīng)網(wǎng)絡(luò )(CNN)更強大。然而,令人驚訝的是,我們發(fā)現這些結論來(lái)自不公平的實(shí)驗環(huán)境,其中Transformer和CNN在不同的尺度上進(jìn)行比較,并應用不同的訓練框架。
  2.分析:a)如果CNN正確地采用Transformer的訓練方式,那么在防御對抗性攻擊方面,它們可以很容易地像Transformer一樣強大。b)Transformer的泛化能力得益于self-attention架構,而非在大規模數據集上進(jìn)行預訓練。
  評價(jià):懷疑的態(tài)度和實(shí)驗分析很有趣。
  02
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  領(lǐng)域:多模態(tài)檢索
  會(huì )議:SIGIR 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  1.問(wèn)題:現有的圖像文本檢索方法在交互模式的設計上嚴重依賴(lài)專(zhuān)家經(jīng)驗和經(jīng)驗反饋,因此缺乏靈活性。
  2.方法:我們開(kāi)發(fā)了一種基于路由機制的新型模態(tài)交互建模網(wǎng)絡(luò ),這是第一個(gè)面向圖像文本檢索的統一動(dòng)態(tài)多模態(tài)交互框架。特別是,我們首先設計四種類(lèi)型的單元作為基本單元,探索不同層次的模態(tài)交互,然后以密集策略將它們連接起來(lái),構建一個(gè)路由空間。為了賦予該模型路徑?jīng)Q策的能力,我們在每個(gè)單元中集成了一個(gè)動(dòng)態(tài)路由器用于模式探索。由于路由器以輸入為條件,我們的模型可以動(dòng)態(tài)地學(xué)習不同數據的不同激活路徑。
  評價(jià):實(shí)驗很豐富。case study很直觀(guān)、有說(shuō)服力。圖畫(huà)得很好看。
  03
  Multi-Modal Mixup for Robust Fine-tuning
  領(lǐng)域:多模態(tài)表示學(xué)習
  會(huì )議:ARXIV 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  本文探究了CLIP模型給出的文本和圖片表示,發(fā)現這兩個(gè)模態(tài)的表示分得很開(kāi),且中間有大片未被填充的空間。
  作者借鑒了ICML20的一篇文章,利用其中的alignment和uniformity指標進(jìn)一步分析了CLIP的多模態(tài)特征空間,發(fā)現構成正例的兩個(gè)樣本在特征空間中不夠近(alignment?。?,同時(shí)所有數據的特征分布不夠均勻(uniformity?。?。這樣的特征分布是不夠魯棒的,會(huì )降低模型在下游任務(wù)上的表現。
  為此,作者提出了multi-modal mixup技術(shù),通過(guò)混合兩個(gè)模態(tài)的特征得到更困難的負例,再進(jìn)行對比學(xué)習。具體的mixup技術(shù)包括m^2-mix(圖片混文本作為圖片的負例)、V-mix(文本混文本作為圖片的負例)、VL-mix(文本混文本、圖片混圖片,然后互為負例)
  實(shí)驗結果表明這種方法在保留多模態(tài)結構關(guān)系的同時(shí),提高了模型的alignment和uniformity指標,進(jìn)而提高了模型在下游retrieval任務(wù)上的表現
  04
  Hierarchical Modular Event Argument Extraction
  領(lǐng)域:信息抽取
  會(huì )議:EMNLP 2019
  鏈接:
  關(guān)鍵詞:分層網(wǎng)絡(luò )
  是否推薦:推薦
  打卡內容:
  本文是事件要素抽取的工作,主要是為概念層次(concept hierarchy)的每個(gè)基本單元設計了一個(gè)神經(jīng)網(wǎng)絡(luò )模塊,然后使用邏輯操作,將相關(guān)的單元模塊分層地組成一個(gè)面向角色的模塊網(wǎng)絡(luò )(modular network),對特定的argument role進(jìn)行分類(lèi)。
  為每個(gè)概念設置了一個(gè)NMN,并將其組成了一個(gè)面向角色的模塊網(wǎng)絡(luò ),以預測每個(gè)實(shí)體的元素角色:首先,對于每個(gè)上級概念,有一個(gè)上級概念模塊(SCM)來(lái)突出和概念有關(guān)的上下文信息;然后,對于每個(gè)元素角色,使用針對特定角色的邏輯模塊整合和其相對應的SCMs,以得到統一的高層次的模塊;最終,使用元素角色分類(lèi)器,預測實(shí)體是否扮演了給定的元素角色。主要的做法就是將實(shí)體的信息融合到候選的要素片段中,增強分類(lèi)的效果。
  實(shí)驗在A(yíng)CE 2005, TAC KBP 2016這兩個(gè)數據集上做了EAE的測試,沒(méi)有全部達到SOTA,但是分層網(wǎng)絡(luò )確實(shí)提升了模型的效果。
  05
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  領(lǐng)域:信息抽取
  會(huì )議:ICASSP 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  應該是最早在提示學(xué)習上做事件抽取的論文了。作者分析了事件抽取的三種主流方式:序列標注、MRC和生成,又對生成范式的兩瓶。編碼部分作者加入了提示(無(wú)需手工設計),解碼部分沿用了TEXT2EVENT的方法。
  其中一個(gè)創(chuàng )新點(diǎn)是減少了觸發(fā)詞對參數抽取的影響,作者認為有些觸發(fā)詞對參數抽取沒(méi)有幫助,只需要事件類(lèi)型就可以找到模板并且進(jìn)行參數抽取,還可以提高效率。但是我認為有兩點(diǎn)問(wèn)題。首先,作者依然需要pipeline式地進(jìn)行簡(jiǎn)化的事件檢測,還是執行2個(gè)模型,時(shí)間效率沒(méi)有提升,甚至3個(gè)模型提高了計算量。其次,目前大家似乎都是使用Ground Truth的觸發(fā)詞和事件類(lèi)型做參數抽取,所以理論上的性能沒(méi)有提升。(但是實(shí)際生產(chǎn)中,沒(méi)有GT的事件檢測標注,這種方式可能些許減少誤差傳播)。
  另一個(gè)創(chuàng )新點(diǎn)就是引入了提示學(xué)習,其實(shí)文章的模板過(guò)于簡(jiǎn)單,取得這樣的效果已經(jīng)很不容易了。如果進(jìn)行模板的設計,可能可以取得更好的結果。
  06
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  領(lǐng)域:命名實(shí)體識別
  會(huì )議:ACL 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  現有的工作只是進(jìn)行弱監督學(xué)習,而在實(shí)際場(chǎng)景中,同時(shí)存在強標注數據和弱標注數據(半監督)。由于弱監督數據中存在噪聲,傳統的方法不能有效地提高性能。所以作者使用了一個(gè)三階段的計算框架NEEDLE。弱標簽可以分為三類(lèi):不準確(有噪聲)、不精確(粗粒度)和不完全(有點(diǎn)沒(méi)有標注)作者考慮了一三兩種情況。
  在第一階段,通過(guò)對大量目標域無(wú)標記數據進(jìn)行域內連續預訓練,將開(kāi)放域預訓練語(yǔ)言模型適應于目標域。在第二階段,利用知識庫將域內無(wú)標記數據轉換為弱標記數據。然后,結合弱標簽補全過(guò)程(不完全)和噪聲感知丟失函數(不準確),對弱標簽數據和強標簽數據進(jìn)行連續的預訓練,有效地處理弱標簽的“不完全性”和“噪聲標記”。在第三階段,對強標記數據再次微調模型。最后的微調階段是模型擬合強標記數據的關(guān)鍵。
  實(shí)驗表明可以通過(guò)迭代的方式進(jìn)一步提高性能,而自訓練的方式提升有限。
  07
  Towards Debiasing NLU Models from Unknown Biases
  領(lǐng)域:NLU
  會(huì )議:EMNLP 2020
  鏈接:
  是否推薦:推薦
  打卡內容:
  Debias NLU 中模型對 superficial correlation 的依賴(lài),作者指出之前的方案依賴(lài)于對于 bias type 的 prior,例如 MNLI hypothesis 和 premise 的 overlapping,而很多數據集缺乏類(lèi)似的分析因而無(wú)法獲得 prior。作者經(jīng)過(guò)實(shí)驗觀(guān)測到,對于 biased data,模型會(huì )學(xué)的很快,達到 100%的準確率,因而嘗試利用一個(gè)輔助模型來(lái)作為樣本是否是 bias 樣本的 indicator,進(jìn)而可以對 unknown biases 進(jìn)行建模并且和之前的方案進(jìn)行整合,主要包括:re-weighting, ensemble 以及 confidence regularization;此外,為了避免因為學(xué)到很多 bias 造成 effective training data size 的下降作者提了一個(gè)退火的機制,來(lái)慢慢消除 bias indicator 的作用,最后退化成普通的 MLE loss。作者在主流的 MNLI/HANS,FEVER 和 QQP/PAWS 上進(jìn)行了測試,效果和之前的方案相比(因為他們已知 bias type)有好有壞,但都比不 debias 好,也驗證了退火策略的有效性。進(jìn)一步地分析指出,作者的方案在跨數據集的場(chǎng)景下表現的會(huì )更好,并且 debias 后模型在樣本上的 loss 的gap 會(huì )變?。▎蝹€(gè)樣本很大可能是有一些樣本模型利用 bias 信息很輕松的就做對了,然而難的樣本沒(méi)學(xué)會(huì ))。
  08
  How do Vision Transformers Work?
  領(lǐng)域:預訓練模型
  會(huì )議:ICLR 2022 Spotlight
  鏈接:
  是否推薦:推薦
  打卡內容:
  文章對比了 ViT 和 ResNet 以獲得 ViT work 的一些 Insights:
  - ViT 能夠 flatten loss landscape,從獲得更好的泛化性能和 robustness,然而其也存在在更多負的 Hessian Eigen values,loss 是 non-convex 的,造成在小數據集上優(yōu)化的困難;
  - ViT 對高頻信號的強度會(huì )進(jìn)行壓縮而 CNN 會(huì )放大,二者分別類(lèi)似一個(gè)低通濾波器和高通濾波器,進(jìn)而導致在高頻noise方面 ViT 表現的更好;
  - 作者認為多階段網(wǎng)絡(luò )是小模型的級聯(lián),因此考慮 CNN 和 MSA 級聯(lián)構成 block,以對 stage output 進(jìn)行 spatial smoothing,基于一個(gè)簡(jiǎn)單的building-up rule(不斷替換 CNN 和 MSA,檢查有沒(méi)有更好的性能),實(shí)驗發(fā)現這個(gè)提出的網(wǎng)絡(luò )結構的效果更好并且更加魯邦。
  09
  Learn From the Past: Experience Ensemble Knowledge Distillation
  領(lǐng)域:知識蒸餾
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦
  打卡內容:
  這篇文章考慮利用 Teacher 訓練過(guò)程中的 snapshot(so called learning experience),來(lái)提升 KD 的效果。具體的做法就是存下 teacher 訓練過(guò)程中的 checkpoint,然后 ensemble 這些 checkpoint 的輸出來(lái)指導 student model。作者探索了不同的方案,發(fā)現:
  - 并不是效果越好的 teacher ensemble 能夠得到更好的 student,這個(gè)觀(guān)察之前在 CV 里面已經(jīng)有不少了,這是另外一個(gè)佐證(在 NLP 里面,我們 EMNLP 21 的工作 Dynamic KD 也在 BERT 上觀(guān)測到了這一現象)
  - Distillation 過(guò)程中對 teacher 不同的權重,作者對比了一些 heuristic 的 linear strategy 和設計了一個(gè)根據 instance feature 的 attention 機制,結論是 dynamic attention 的效果會(huì )更好,盡管對應 ensemble 出來(lái)的 teacher 效果并不一定是最好的
  - snapshot 的數量,基本上是存的 checkpoint 越多效果越好,但因為同時(shí)需要 forward 多個(gè) teacher model 會(huì )造成比較大的訓練開(kāi)銷(xiāo)(這個(gè)問(wèn)題挺好解決的,靜態(tài) dataset 的話(huà),把 teacher logits 存下來(lái)就完事了)
  最后作者在 CIFAR 100 和 ImageNet 對比了目前的 sota,發(fā)現提出的方案能夠取得更好的效果,但分析部分還是比較欠缺,對于 experience 的這個(gè)概念的探究還是不夠深入。
  10
  Rethinking and Refining the Distinct Metric
  領(lǐng)域:文本生成
  會(huì )議:ACL 2022 Short
  鏈接:
  是否推薦:推薦
  打卡內容:
  Distinct metric 是文本生成中常用的一個(gè)指標,來(lái)衡量生成文本的 diversity,作者指出這個(gè)指標存在一個(gè)問(wèn)題:當文本長(cháng)度變長(cháng)的時(shí)候,這個(gè)指標會(huì )急劇下降。作者分析的方法是控制 vocab 的 distribution(概率分布),然后增長(cháng)句子的長(cháng)度,發(fā)現 distinct 的下降,而這個(gè)和 distinct 本身想要 measure 的 word distribution 的 diversity 是矛盾的(因為 distribution 固定,那么應該和長(cháng)度無(wú)關(guān))。在一個(gè)方面,這會(huì )造成模型比較的不公平,因為可以很輕松地通過(guò)控制 length penalty 來(lái)控制 diversity。作者通過(guò)對分母進(jìn)行修改,改為期望出現的總 token 的上界(因為無(wú)法估計不出現的 token),得到了一個(gè)更好的 distinct 指標。實(shí)驗評估發(fā)現,這個(gè)指標有更好的長(cháng)度不變性,并且在真實(shí)數據集上更能夠體驗不同方法的 gap 和 consistency,也和 human evaluation 有比較好的 correlation。
  11
  A Contrastive Framework for Neural Text Generation
  領(lǐng)域:文本生成
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦
  打卡內容:
  旨在解決 generation 中生成重復 token 的問(wèn)題,之前的 Top-k 和 Top-p 生成能夠一定程度的緩解這個(gè)問(wèn)題,但是會(huì )帶來(lái) inconsistency 的問(wèn)題。作者認為重復的原因來(lái)自于 token uniformity,并且對 GPT 最后的 token representations 做了可視化,發(fā)現 token 之間的 cosine similarity 高于 0.95 ,進(jìn)而會(huì )導致在不同時(shí)間步上產(chǎn)生重復的 token,而理想狀態(tài)中 token 的表示應該有較大的區分度。作者因此提出了 SimCTG,利用對比學(xué)習來(lái)增強不同 token representation 之間的 cosine 距離,同時(shí)在解碼階段,也對 representation 上增加一個(gè)懲罰項,即和之前所有 token representation similarity 的最大值。作者在 wiki103 上和 MLE, Unlikelihood 做了對比,能夠在發(fā)現在 coherence 更高的情況下,取得更好的抗重復,增強生成文本多樣性的效果,在 Dialog Generation 上的人工測評也體現出比較明顯的提升。
  12
  Should You Mask 15% in Masked Language Modeling
  領(lǐng)域:預訓練模型
  會(huì )議:ARXIV 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  探究 Mask Language Modeling 中 Mask 比例的影響。作者首先是在預訓練中發(fā)現 mask 掉 40% 的 token 能夠帶來(lái)更好的下游任務(wù)性能,并且 mask 掉 80% 也能保持大部分的性能。作者進(jìn)一步地把 mask ratio 對性能的影響解耦成兩部分:
  - corruption rate: 對上下文破壞的比例,這個(gè)比率越高,上下文破碎程度越高會(huì )使得預測任務(wù)會(huì )更加的困難;
  - prediction rate: 預測 mask token 的比例,這個(gè)比率越高,則模型接收到的訓練信號越多;
  傳統的 MLM 里面,這兩個(gè)比率是都和 mask ratio 相等的,作者設計了 ablation study 來(lái)分別探究這二者的效果:
  - corruption rate > prediction rate: 例如,mask 掉 40% token,但是只預測其中 50% 的 mask token,即 prediction rate = 20%;
  - corruption rate
  實(shí)驗以 mask rate = 40 % 為 baseline 為 baseline,發(fā)現 corruption rate 越高整體會(huì )降低效果,而 prediction rate 越低也會(huì )帶來(lái)更差的效果,二者是一個(gè) trade-off,更難的任務(wù)和更多的信號。作者也對不同 size 的model 進(jìn)行了探究,發(fā)現大模型下游任務(wù)最好的性能出現在 mask rate 更大的位置,猜測是其能力更強,所以能夠處理更難的任務(wù)并且利用好更多的信號。
  另外一個(gè)常用的 trick 是 80-10-10 ,即 mask token 有 80 % 的 token是 [MASK],10% 的概率是原來(lái)的 token,10 % 的概率是 random token,最初這個(gè)trick是用來(lái)緩解 [MASK] 引入的 inconsistency 的,但是作者的實(shí)驗其實(shí)關(guān)注到 40% 的mask rate 并沒(méi)有帶來(lái)性能下降,說(shuō)明這個(gè) inconsistency 還是存疑的,作者探究了增加 same token prediction,random token 的比率,發(fā)現還是帶來(lái)下降,因此作者提倡還是用 [MASK] 最原始的版本就可以了。
  最后作者探究了 mask 的策略,發(fā)現在高 mask 比率下,相比于 PMI 和 Span,uniform 的 mask 策略就能取得比較好的效果,作者的解釋就是高 mask 比率實(shí)際上大概率會(huì ) mask 出類(lèi)似 PMI、Span 的 mask,從而也能夠使得模型的學(xué)習更加魯棒。
  13
  Visually Grounded Reasoning across Languages and Cultures
  領(lǐng)域:多模態(tài)
  會(huì )議:EMNLP 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  ImageNet構建的方式是通過(guò)英語(yǔ)的WordNet去選擇層次化的概念,然后根據概念再選擇圖像。后面的一些數據集,比如NLVR2,MSCOCO,VisualGenome都是通過(guò)這種層次結構構建的。有證據表明ImageNet數據的來(lái)源與內容都存在著(zhù)bias,也有人曾為了糾正這種傾向提出干預數據,過(guò)濾、重新平衡一些類(lèi)別,但若是原分布本就未能涵蓋多語(yǔ)言多文化,這種方法便不足以解決這個(gè)問(wèn)題。作者認為ImageNet中的主要問(wèn)題是概念不普遍、概念過(guò)于特定于英語(yǔ)。Bias的來(lái)源有以下三個(gè)方面:1. 概念的選擇;2.候選圖像檢索(檢索到的圖像不符合真實(shí)世界分布);3.圖像過(guò)濾(完全取決于標注者,他們都是來(lái)自于歐美)。
  針對這三個(gè)問(wèn)題,作者設計了一個(gè)新的數據集,讓概念和圖像的選擇完全由母語(yǔ)人士驅動(dòng)。構建數據集的第一步是:1.選擇語(yǔ)言,數據集主要包含5種語(yǔ)言:印尼語(yǔ)、簡(jiǎn)體中文、斯瓦希里語(yǔ)、泰米爾語(yǔ)和土耳其語(yǔ)。這5種語(yǔ)言的類(lèi)型(typologically)、語(yǔ)系(genealogically)、地理(geographically)上皆不同。同時(shí),泰米爾語(yǔ)和土耳其語(yǔ)是低資源語(yǔ)言。2.選擇普適性概念,有兩個(gè)層次,第一個(gè)是chapter,比如Animal,對應的semantic field是bird和mammal。3.選擇特定語(yǔ)言概念:針對每個(gè)semantic field,作者雇傭5個(gè)母語(yǔ)人士提供5-10特定概念的維基百科頁(yè)面,比如針對中文的semantic field music instrument,提供的維基百科頁(yè)面是關(guān)于古箏的。概念需要滿(mǎn)足兩個(gè)關(guān)鍵需求:在使用這種語(yǔ)言的人群中常見(jiàn)或有代表性的,最好是以物質(zhì)形式存在且具體的。4.圖像選擇,標注者可以從本地網(wǎng)站,搜索引擎和維基百科等作為源針對每個(gè)概念拿到12張圖片。5.描述標注,從圖像集中隨機選8張圖像,隨機組成4個(gè)圖像對。每位標注者被要求寫(xiě)一個(gè)描述,此描述對于兩個(gè)圖像對為T(mén)rue,兩個(gè)圖像對為False。在最后的數據集中,一個(gè)數據點(diǎn)包含兩張圖像,一個(gè)描述,和一個(gè)True/False標簽。
  關(guān)于圖像分布的分析,作者使用在ImageNet上訓練的ResNet50 分別對MaRVL圖像以及從NLVR2采樣的1K張隨機圖像進(jìn)行特征提取,提取后使用UMAP將它們的嵌入分布可視化。結果發(fā)現,MaRVL的中文圖像與來(lái)自NLVR2的英文圖像有著(zhù)極為不同的分布。同時(shí),也對MaRVL中的印尼語(yǔ)和斯瓦希里語(yǔ)的圖像分布進(jìn)行了比較,結果表明在不同語(yǔ)言間也有著(zhù)不同的分布。
  然后就是基于多種預訓練模型(VL-BERT,UNITER等等)在MaRVL上的實(shí)驗了,本文提出了兩個(gè)跨語(yǔ)言的VL預訓練模型的變種,mUNITER(通過(guò)mBERT進(jìn)行初始化的UNITER)和xUNITER(XLM-R)。通過(guò)和NLVR2進(jìn)行對比,模型在Zero-shot實(shí)驗中效果下降明顯,對于資源豐富的中文一樣如此。同時(shí)加入一種設置,就是將不同語(yǔ)言翻譯為英語(yǔ),相比之下,模型有著(zhù)不同程度的提升,但比起NLVR2依舊有著(zhù)10%的差距。作者認為這種明顯的下降是由于MaRVL有兩個(gè)挑戰:一個(gè)是cross-lingual transfer,另一個(gè)是out-of-distribution。作者又設計了一組控制實(shí)驗,他們將MaRVL-ZH人工翻譯成了英語(yǔ),去除了機器翻譯所帶來(lái)的任何可能的混雜因子。和機器翻譯相比,大部分模型都有1-2%的提升,因此翻譯是很可靠的。那么,導致模型下降10%的便是那些OOD概念了。第二個(gè)實(shí)驗是:從NLVR2測試集取樣250個(gè)唯一的描述,將它們人工翻譯成簡(jiǎn)體中文,記為NLVR2-ZH。mUNITER和xUNITER的準確率都下降了約16%,因此,這種gap可以歸因于從英語(yǔ)到中文的跨語(yǔ)言遷移。第三組實(shí)驗是,將NLVR2的訓練集機器翻譯為中文,并在MaRVL-ZH上測試,發(fā)現mUNITER和xUNITER的結果和Translate test實(shí)驗時(shí)很接近,再一次說(shuō)明 缺乏文化相關(guān)概念阻礙了泛化。
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  領(lǐng)域:信息抽取
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦

如何做網(wǎng)站SEO站內優(yōu)化(快速實(shí)現網(wǎng)站排名)的方法有哪些

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 81 次瀏覽 ? 2022-04-29 17:33 ? 來(lái)自相關(guān)話(huà)題

  如何做網(wǎng)站SEO站內優(yōu)化(快速實(shí)現網(wǎng)站排名)的方法有哪些
  
  
  在一些優(yōu)化群里面,常常會(huì )看到一些才做優(yōu)化的人說(shuō)。百度優(yōu)化排名不就是發(fā)發(fā)外鏈么。要知道現在的優(yōu)化早已經(jīng)不是五六年前的優(yōu)化了,百度的算法一次次更新,對網(wǎng)站的要求越來(lái)越高?,F在的百度更喜歡網(wǎng)站漂亮的,對用戶(hù)友好的。無(wú)論是網(wǎng)站的打開(kāi)速度、還是網(wǎng)站url的長(cháng)度,以及文章的字體大小、間距,都是百度給予權重的考核范圍。
  一、網(wǎng)站打開(kāi)速度!網(wǎng)站打開(kāi)速度!要快!
  如今這個(gè)快節奏的社會(huì ),大量的信息沖擊。誰(shuí)會(huì )愿意等待一個(gè)5~6秒都不出一個(gè)字的網(wǎng)站?換做是你,肯定都鬼火冒,直接關(guān)閉頁(yè)面,從此以后再也不點(diǎn)那個(gè)站了。所以網(wǎng)站打開(kāi)的速度是灰?;页V匾?,打開(kāi)的速度越快,用戶(hù)滿(mǎn)意度就高。對于蜘蛛也是一個(gè)道理。所以對于速度方面,小編有以下幾小點(diǎn)建議:
  把網(wǎng)站頁(yè)面的代碼能精簡(jiǎn)就精簡(jiǎn)、大片的注釋代碼也一樣,直接刪除。
  css放頁(yè)頭、js放頁(yè)尾。
  搞個(gè)CDN加速,騰訊、阿里、百度都有,他們也有很詳細的圖文教程您一看就懂。
  服務(wù)器寬帶升級
  頁(yè)面做緩存
  網(wǎng)站頁(yè)面都做成純靜態(tài)化
  
  二、著(zhù)陸頁(yè)的內容一定要本著(zhù)解決用戶(hù)問(wèn)題的目的寫(xiě)
  首先,如果我們能夠找出這些重復網(wǎng)頁(yè)并從數據庫中去掉,就能夠節省部分存儲空間,進(jìn)而可以利用這部分空間存放更多的有效網(wǎng)頁(yè)內容,同時(shí)也提高了搜索引擎的搜索質(zhì)量和用戶(hù)體驗。
  其次,如果我們能夠通過(guò)對以往收集信息的分析,預先發(fā)現重復網(wǎng)頁(yè),在今后的網(wǎng)頁(yè)收集過(guò)程中就可以避開(kāi)這些網(wǎng)頁(yè),從而提高網(wǎng)頁(yè)的收集速度。有研究表明重復網(wǎng)頁(yè)隨著(zhù)時(shí)間不發(fā)生太大變化,所以這種從重復頁(yè)面集合中選擇部分頁(yè)面進(jìn)行索引是有效的。
  三、增加權威感,提升品牌,UI,UX
  另外,如果某個(gè)網(wǎng)頁(yè)的鏡像度較高,往往是其內容比較受歡迎的一種間接體現,也就預示著(zhù)該網(wǎng)頁(yè)相對重要,在收集網(wǎng)頁(yè)時(shí)應賦予它較高的優(yōu)先級,而當搜索引擎系統在響應用戶(hù)的檢索請求并對輸出結果排序時(shí),應該賦了它較高的權值。
  從另外一個(gè)角度看,如果用戶(hù)點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶(hù)引導到一個(gè)內容相同頁(yè)面,這樣可以有效地增加用戶(hù)的檢索體驗。因而近似重復網(wǎng)頁(yè)的及時(shí)又有利于改善搜索引擎系統的服務(wù)質(zhì)量。
  
  四、彈窗、反人類(lèi)的東西頁(yè)面上不要有
  這個(gè)就不多說(shuō)了,伙伴些去點(diǎn)下醫療站,就知道應該如何做好這一塊的優(yōu)化。 查看全部

  如何做網(wǎng)站SEO站內優(yōu)化(快速實(shí)現網(wǎng)站排名)的方法有哪些
  
  
  在一些優(yōu)化群里面,常常會(huì )看到一些才做優(yōu)化的人說(shuō)。百度優(yōu)化排名不就是發(fā)發(fā)外鏈么。要知道現在的優(yōu)化早已經(jīng)不是五六年前的優(yōu)化了,百度的算法一次次更新,對網(wǎng)站的要求越來(lái)越高?,F在的百度更喜歡網(wǎng)站漂亮的,對用戶(hù)友好的。無(wú)論是網(wǎng)站的打開(kāi)速度、還是網(wǎng)站url的長(cháng)度,以及文章的字體大小、間距,都是百度給予權重的考核范圍。
  一、網(wǎng)站打開(kāi)速度!網(wǎng)站打開(kāi)速度!要快!
  如今這個(gè)快節奏的社會(huì ),大量的信息沖擊。誰(shuí)會(huì )愿意等待一個(gè)5~6秒都不出一個(gè)字的網(wǎng)站?換做是你,肯定都鬼火冒,直接關(guān)閉頁(yè)面,從此以后再也不點(diǎn)那個(gè)站了。所以網(wǎng)站打開(kāi)的速度是灰?;页V匾?,打開(kāi)的速度越快,用戶(hù)滿(mǎn)意度就高。對于蜘蛛也是一個(gè)道理。所以對于速度方面,小編有以下幾小點(diǎn)建議:
  把網(wǎng)站頁(yè)面的代碼能精簡(jiǎn)就精簡(jiǎn)、大片的注釋代碼也一樣,直接刪除。
  css放頁(yè)頭、js放頁(yè)尾。
  搞個(gè)CDN加速,騰訊、阿里、百度都有,他們也有很詳細的圖文教程您一看就懂。
  服務(wù)器寬帶升級
  頁(yè)面做緩存
  網(wǎng)站頁(yè)面都做成純靜態(tài)化
  
  二、著(zhù)陸頁(yè)的內容一定要本著(zhù)解決用戶(hù)問(wèn)題的目的寫(xiě)
  首先,如果我們能夠找出這些重復網(wǎng)頁(yè)并從數據庫中去掉,就能夠節省部分存儲空間,進(jìn)而可以利用這部分空間存放更多的有效網(wǎng)頁(yè)內容,同時(shí)也提高了搜索引擎的搜索質(zhì)量和用戶(hù)體驗。
  其次,如果我們能夠通過(guò)對以往收集信息的分析,預先發(fā)現重復網(wǎng)頁(yè),在今后的網(wǎng)頁(yè)收集過(guò)程中就可以避開(kāi)這些網(wǎng)頁(yè),從而提高網(wǎng)頁(yè)的收集速度。有研究表明重復網(wǎng)頁(yè)隨著(zhù)時(shí)間不發(fā)生太大變化,所以這種從重復頁(yè)面集合中選擇部分頁(yè)面進(jìn)行索引是有效的。
  三、增加權威感,提升品牌,UI,UX
  另外,如果某個(gè)網(wǎng)頁(yè)的鏡像度較高,往往是其內容比較受歡迎的一種間接體現,也就預示著(zhù)該網(wǎng)頁(yè)相對重要,在收集網(wǎng)頁(yè)時(shí)應賦予它較高的優(yōu)先級,而當搜索引擎系統在響應用戶(hù)的檢索請求并對輸出結果排序時(shí),應該賦了它較高的權值。
  從另外一個(gè)角度看,如果用戶(hù)點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶(hù)引導到一個(gè)內容相同頁(yè)面,這樣可以有效地增加用戶(hù)的檢索體驗。因而近似重復網(wǎng)頁(yè)的及時(shí)又有利于改善搜索引擎系統的服務(wù)質(zhì)量。
  
  四、彈窗、反人類(lèi)的東西頁(yè)面上不要有
  這個(gè)就不多說(shuō)了,伙伴些去點(diǎn)下醫療站,就知道應該如何做好這一塊的優(yōu)化。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(只用一種方法實(shí)現搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 68 次瀏覽 ? 2022-04-20 10:11 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(只用一種方法實(shí)現搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法)
  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法有三種,分別是基于內容相似性的算法、基于鏈接的算法和基于索引的算法。
  一、基于內容相似性的算法內容相似性是指如果有一個(gè)網(wǎng)站服務(wù)器的所有頁(yè)面都與另一個(gè)網(wǎng)站服務(wù)器的相同頁(yè)面進(jìn)行相似性的排序,就可以得到相似性排序?;趦热菹嗨菩缘耐扑]算法通常在移動(dòng)端十分常見(jiàn),可以嵌入到推薦的第三方平臺中并提供給開(kāi)發(fā)者使用。谷歌為兩家公司lazada和googleplay提供推薦,亞馬遜也與谷歌合作提供推薦,facebook也與谷歌合作提供推薦。
  二、基于鏈接的算法基于鏈接的算法是通過(guò)鏈接查詢(xún)的方式實(shí)現,在查詢(xún)列表中查找特定的目標進(jìn)行排序。在搜索中,采用鏈接查詢(xún)并不新鮮,目前的技術(shù)來(lái)說(shuō),兩個(gè)url之間的一個(gè)或多個(gè)連接是不存在的,但在一些特定需求場(chǎng)景下是可以連接到特定資源的,比如信息查詢(xún)。目前還存在兩種常見(jiàn)的鏈接查詢(xún)模式:applestore+itunesstore+applestore,會(huì )有一個(gè)特定的連接進(jìn)行一定的排序;applewatch的apple+lift,會(huì )有一個(gè)特定的連接進(jìn)行一定的排序;。
  三、基于索引的算法索引排序是通過(guò)人工的手段尋找一系列與某一頁(yè)面相似的url,并對其進(jìn)行分類(lèi),或者在sortby上做分類(lèi),由此進(jìn)行排序。綜上所述,沒(méi)有研究報告中提到的只用一種方法實(shí)現app質(zhì)量管理,現在的技術(shù)來(lái)說(shuō)這兩種方法都不是不可或缺的。謝謝邀請!我是孔令華,從事移動(dòng)互聯(lián)網(wǎng)與信息技術(shù)服務(wù)。微信號:you-gong-zhuo我主要從事互聯(lián)網(wǎng)金融、互聯(lián)網(wǎng)醫療、互聯(lián)網(wǎng)電商、移動(dòng)營(yíng)銷(xiāo)、微信開(kāi)發(fā)、seo優(yōu)化、新媒體運營(yíng)。 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(只用一種方法實(shí)現搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法)
  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法有三種,分別是基于內容相似性的算法、基于鏈接的算法和基于索引的算法。
  一、基于內容相似性的算法內容相似性是指如果有一個(gè)網(wǎng)站服務(wù)器的所有頁(yè)面都與另一個(gè)網(wǎng)站服務(wù)器的相同頁(yè)面進(jìn)行相似性的排序,就可以得到相似性排序?;趦热菹嗨菩缘耐扑]算法通常在移動(dòng)端十分常見(jiàn),可以嵌入到推薦的第三方平臺中并提供給開(kāi)發(fā)者使用。谷歌為兩家公司lazada和googleplay提供推薦,亞馬遜也與谷歌合作提供推薦,facebook也與谷歌合作提供推薦。
  二、基于鏈接的算法基于鏈接的算法是通過(guò)鏈接查詢(xún)的方式實(shí)現,在查詢(xún)列表中查找特定的目標進(jìn)行排序。在搜索中,采用鏈接查詢(xún)并不新鮮,目前的技術(shù)來(lái)說(shuō),兩個(gè)url之間的一個(gè)或多個(gè)連接是不存在的,但在一些特定需求場(chǎng)景下是可以連接到特定資源的,比如信息查詢(xún)。目前還存在兩種常見(jiàn)的鏈接查詢(xún)模式:applestore+itunesstore+applestore,會(huì )有一個(gè)特定的連接進(jìn)行一定的排序;applewatch的apple+lift,會(huì )有一個(gè)特定的連接進(jìn)行一定的排序;。
  三、基于索引的算法索引排序是通過(guò)人工的手段尋找一系列與某一頁(yè)面相似的url,并對其進(jìn)行分類(lèi),或者在sortby上做分類(lèi),由此進(jìn)行排序。綜上所述,沒(méi)有研究報告中提到的只用一種方法實(shí)現app質(zhì)量管理,現在的技術(shù)來(lái)說(shuō)這兩種方法都不是不可或缺的。謝謝邀請!我是孔令華,從事移動(dòng)互聯(lián)網(wǎng)與信息技術(shù)服務(wù)。微信號:you-gong-zhuo我主要從事互聯(lián)網(wǎng)金融、互聯(lián)網(wǎng)醫療、互聯(lián)網(wǎng)電商、移動(dòng)營(yíng)銷(xiāo)、微信開(kāi)發(fā)、seo優(yōu)化、新媒體運營(yíng)。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(信息組織的理論基礎、邏輯學(xué)、知識分類(lèi)及模式)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 175 次瀏覽 ? 2022-04-19 03:08 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(信息組織的理論基礎、邏輯學(xué)、知識分類(lèi)及模式)
  1.1 信息組織的理論基礎1.1.1 信息的定義 從客觀(guān)的角度看,信息是對萬(wàn)物存在方式和運動(dòng)規律的表征. 從主觀(guān)上看,信息是指人們對世界的認識所形成的與人類(lèi)智能活動(dòng)密切相關(guān)的各種知識、學(xué)習和信息。1.1.2信息的分類(lèi)和劃分:內容、生產(chǎn)順序和加工深度、存在形式、流通方式和傳播范圍、載體形式等。1.< @1.3 信息通用性、存儲性、傳遞性、共享性、開(kāi)發(fā)性、增值性的特點(diǎn)1.
  是用于提供有關(guān)資源的信息的結構化數據。5、其他模式:數據庫、超維組織法、FTP信息組織法、基于多媒體的信息組織法、自然語(yǔ)言法、分類(lèi)-主題法、WENSOM 1.2網(wǎng)絡(luò )信息資源組織1.@ >2.4網(wǎng)絡(luò )信息資源組織法1、文檔法2、超文本鏈接法3、搜索引擎法4、目錄引導法5、數據庫法6、首頁(yè)方法1.3網(wǎng)絡(luò )信息檢索工具1.3.1網(wǎng)絡(luò )信息檢索方法1、基于超文本的信息查詢(xún)超文本:是 通過(guò)超鏈接組織來(lái)自不同空間的信息的網(wǎng)絡(luò )文本2、基于目錄的信息查詢(xún)3、基于搜索引擎的信息查詢(xún)1.3 網(wǎng)絡(luò )信息檢索工具1.< @3.2 搜索引擎簡(jiǎn)介1、搜索引擎的定義和任務(wù)定義:利用網(wǎng)絡(luò )自動(dòng)搜索技術(shù),對互聯(lián)網(wǎng)上的各種資源進(jìn)行索引,為搜索者提供搜索服務(wù)系統。任務(wù):對網(wǎng)絡(luò )信息進(jìn)行索引和存儲,并為用戶(hù)提供檢索2、搜索引擎的體系結構包括三個(gè)子系統:信息采集、信息處理和信息查詢(xún)3、搜索引擎分類(lèi)第二個(gè)工作一、什么情況下是邏輯“AND”,邏輯“OR” 和用于概念組合的邏輯“NOT”?二、獲取網(wǎng)絡(luò )信息的方法有哪些?三、網(wǎng)絡(luò )信息資源的組織方式有哪些?四、 簡(jiǎn)單描述一下搜索引擎的定義和任務(wù)?1.3 網(wǎng)絡(luò )信息檢索工具1.3.
  b 大寫(xiě)和小寫(xiě)字母:許多引擎不區分大小寫(xiě),但有些是。在使用它之前,您應該清楚地知道它。在搜索人名、公司名、產(chǎn)品名或其他專(zhuān)有名詞時(shí),最好使用大寫(xiě)字母進(jìn)行查詢(xún)。1.3 網(wǎng)絡(luò )信息檢索工具1.3.4 常用中文搜索引擎介紹1、百度2、雅虎3、中文(香港) Google.hk 4、天網(wǎng)搜索等。. . . . . 1.3網(wǎng)絡(luò )信息檢索工具1.3.5百度()1、技術(shù)特點(diǎn):⑴、采用世界獨有的超鏈分析技術(shù)⑵、具有中文自然特點(diǎn)互聯(lián)網(wǎng)優(yōu)勢⑶,為中國用戶(hù)量身定做⑷,提供更智能的檢索功能< @2、 一些高級檢索語(yǔ)法:⑴、布爾邏輯:+(和)-(或)| (不)⑵、限制技術(shù):a、“site:”用在特定URL前面,用于搜索特定的網(wǎng)站、網(wǎng)站頻道或網(wǎng)頁(yè),“如:神舟站點(diǎn):”;灣。在一個(gè)或多個(gè)關(guān)鍵詞前加“,”表示只搜索網(wǎng)頁(yè)標題中收錄這些關(guān)鍵詞的網(wǎng)頁(yè),“如:、神舟+8號”1.@ >3 網(wǎng)絡(luò )信息檢索工具 c.將搜索范圍限定為網(wǎng)頁(yè)中的標題-intitle: 使用方式是使用“intitle:”來(lái)獲取查詢(xún)內容中最關(guān)鍵的部分。例如,要查找神舟八號的發(fā)射,可以這樣查詢(xún): 發(fā)射標題:神舟八號。注意 intitle: 和下面的 < 之間不能有空格
  d。精確匹配——雙引號和標題號:在查詢(xún)詞中添加雙引號可以防止拆分詞在結果中顯示。如:《六盤(pán)水師范學(xué)院》。書(shū)名是百度獨有的搜索技術(shù),其他搜索提醒會(huì )忽略,但在百度上可以搜索到。添加書(shū)名號有兩個(gè)作用,一是顯示,如書(shū)名;另一個(gè)是標題號展開(kāi)的單詞不容易被拆分。如:“手機”。e. 要求搜索結果不收錄特定查詢(xún)詞:使用減號語(yǔ)法刪除所有收錄特定 關(guān)鍵詞 的網(wǎng)頁(yè)。如:神舟八號1.3網(wǎng)絡(luò )信息檢索工具3、擴展百度1. 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(信息組織的理論基礎、邏輯學(xué)、知識分類(lèi)及模式)
  1.1 信息組織的理論基礎1.1.1 信息的定義 從客觀(guān)的角度看,信息是對萬(wàn)物存在方式和運動(dòng)規律的表征. 從主觀(guān)上看,信息是指人們對世界的認識所形成的與人類(lèi)智能活動(dòng)密切相關(guān)的各種知識、學(xué)習和信息。1.1.2信息的分類(lèi)和劃分:內容、生產(chǎn)順序和加工深度、存在形式、流通方式和傳播范圍、載體形式等。1.< @1.3 信息通用性、存儲性、傳遞性、共享性、開(kāi)發(fā)性、增值性的特點(diǎn)1.
  是用于提供有關(guān)資源的信息的結構化數據。5、其他模式:數據庫、超維組織法、FTP信息組織法、基于多媒體的信息組織法、自然語(yǔ)言法、分類(lèi)-主題法、WENSOM 1.2網(wǎng)絡(luò )信息資源組織1.@ >2.4網(wǎng)絡(luò )信息資源組織法1、文檔法2、超文本鏈接法3、搜索引擎法4、目錄引導法5、數據庫法6、首頁(yè)方法1.3網(wǎng)絡(luò )信息檢索工具1.3.1網(wǎng)絡(luò )信息檢索方法1、基于超文本的信息查詢(xún)超文本:是 通過(guò)超鏈接組織來(lái)自不同空間的信息的網(wǎng)絡(luò )文本2、基于目錄的信息查詢(xún)3、基于搜索引擎的信息查詢(xún)1.3 網(wǎng)絡(luò )信息檢索工具1.< @3.2 搜索引擎簡(jiǎn)介1、搜索引擎的定義和任務(wù)定義:利用網(wǎng)絡(luò )自動(dòng)搜索技術(shù),對互聯(lián)網(wǎng)上的各種資源進(jìn)行索引,為搜索者提供搜索服務(wù)系統。任務(wù):對網(wǎng)絡(luò )信息進(jìn)行索引和存儲,并為用戶(hù)提供檢索2、搜索引擎的體系結構包括三個(gè)子系統:信息采集、信息處理和信息查詢(xún)3、搜索引擎分類(lèi)第二個(gè)工作一、什么情況下是邏輯“AND”,邏輯“OR” 和用于概念組合的邏輯“NOT”?二、獲取網(wǎng)絡(luò )信息的方法有哪些?三、網(wǎng)絡(luò )信息資源的組織方式有哪些?四、 簡(jiǎn)單描述一下搜索引擎的定義和任務(wù)?1.3 網(wǎng)絡(luò )信息檢索工具1.3.
  b 大寫(xiě)和小寫(xiě)字母:許多引擎不區分大小寫(xiě),但有些是。在使用它之前,您應該清楚地知道它。在搜索人名、公司名、產(chǎn)品名或其他專(zhuān)有名詞時(shí),最好使用大寫(xiě)字母進(jìn)行查詢(xún)。1.3 網(wǎng)絡(luò )信息檢索工具1.3.4 常用中文搜索引擎介紹1、百度2、雅虎3、中文(香港) Google.hk 4、天網(wǎng)搜索等。. . . . . 1.3網(wǎng)絡(luò )信息檢索工具1.3.5百度()1、技術(shù)特點(diǎn):⑴、采用世界獨有的超鏈分析技術(shù)⑵、具有中文自然特點(diǎn)互聯(lián)網(wǎng)優(yōu)勢⑶,為中國用戶(hù)量身定做⑷,提供更智能的檢索功能< @2、 一些高級檢索語(yǔ)法:⑴、布爾邏輯:+(和)-(或)| (不)⑵、限制技術(shù):a、“site:”用在特定URL前面,用于搜索特定的網(wǎng)站、網(wǎng)站頻道或網(wǎng)頁(yè),“如:神舟站點(diǎn):”;灣。在一個(gè)或多個(gè)關(guān)鍵詞前加“,”表示只搜索網(wǎng)頁(yè)標題中收錄這些關(guān)鍵詞的網(wǎng)頁(yè),“如:、神舟+8號”1.@ >3 網(wǎng)絡(luò )信息檢索工具 c.將搜索范圍限定為網(wǎng)頁(yè)中的標題-intitle: 使用方式是使用“intitle:”來(lái)獲取查詢(xún)內容中最關(guān)鍵的部分。例如,要查找神舟八號的發(fā)射,可以這樣查詢(xún): 發(fā)射標題:神舟八號。注意 intitle: 和下面的 < 之間不能有空格
  d。精確匹配——雙引號和標題號:在查詢(xún)詞中添加雙引號可以防止拆分詞在結果中顯示。如:《六盤(pán)水師范學(xué)院》。書(shū)名是百度獨有的搜索技術(shù),其他搜索提醒會(huì )忽略,但在百度上可以搜索到。添加書(shū)名號有兩個(gè)作用,一是顯示,如書(shū)名;另一個(gè)是標題號展開(kāi)的單詞不容易被拆分。如:“手機”。e. 要求搜索結果不收錄特定查詢(xún)詞:使用減號語(yǔ)法刪除所有收錄特定 關(guān)鍵詞 的網(wǎng)頁(yè)。如:神舟八號1.3網(wǎng)絡(luò )信息檢索工具3、擴展百度1.

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(如何快速搭建起一個(gè)高質(zhì)量站內搜索引擎呢?(組圖))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 254 次瀏覽 ? 2022-04-19 00:07 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(如何快速搭建起一個(gè)高質(zhì)量站內搜索引擎呢?(組圖))
  一、網(wǎng)站搜索的意義
  對于媒體內容站、電商、SaaS服務(wù)等B端企業(yè)來(lái)說(shuō),加入“站內搜索”功能,幫助用戶(hù)快速找到自己想要的內容,是提升用戶(hù)體驗、減少彈跳的最佳方式率,并提高用戶(hù)轉化率。好主意。
  另一方面,站內搜索也是幫助B端企業(yè)快速采集用戶(hù)真實(shí)想法的好工具。每次用戶(hù)搜索和點(diǎn)擊,都是對他們網(wǎng)站內容的反饋,尤其是對于沒(méi)有結果的搜索詞。這是幫助我們改進(jìn)網(wǎng)站的重要第一手資料。
  那么如何快速搭建一個(gè)高質(zhì)量的站內搜索引擎呢?接下來(lái)我會(huì )寫(xiě)一系列文章來(lái)詳細講解本站搜索的方方面面,歡迎大家繼續關(guān)注。
  今天,我們從產(chǎn)品層面談?wù)勅绾蝺?yōu)化搜索排名結果。
  二、從搜索算法開(kāi)始
  要深入了解搜索,請從搜索引擎的起源開(kāi)始。任何復雜的系統都是從一個(gè)簡(jiǎn)單的系統開(kāi)始,逐漸演化而來(lái)的。從一開(kāi)始就設計一個(gè)復雜的系統很難讓它很好地工作。所以我們必須回到源頭,從源頭上講理解搜索。
  
  1990 年代,TREC(全球文本檢索會(huì )議)組織了一系列年度研討會(huì )。本次研討會(huì )的主要目的是尋找由“非結構化長(cháng)文檔”組成的數據集的最佳搜索算法。TREC對搜索引擎算法做了很多優(yōu)化,其中TF-IDF算法應該是當時(shí)最好的排序算法的主要組成部分。
  TF-IDF算法,就像它的名字一樣,收錄兩個(gè)關(guān)鍵元素,“詞頻TF”和“逆文檔頻率IDF”。對這兩個(gè)元素進(jìn)行統計加權后得到搜索排名。
  詞頻(TF,詞頻)
  詞頻TF是指“搜索詞”在文檔中出現的頻率。
  逆文檔頻率(IDF,逆文檔頻率)
  逆文檔頻率IDF是指“搜索詞”在整個(gè)語(yǔ)料庫中出現的頻率。
  當用戶(hù)輸入“搜索詞”時(shí),它首先會(huì )比較整個(gè)文檔庫中哪些文檔收錄最多的“搜索詞”。收錄的越多,文檔的排名就越高。
  這個(gè)簡(jiǎn)單的規則有一個(gè)致命的問(wèn)題,在我們的語(yǔ)言中有太多的連詞、代詞、助詞等等只是用來(lái)輔助句子表達的詞。比如“?”、“also”、“this”、“but”等詞,這些詞不是文檔的核心內容,應該減少權重。
  至此,我們介紹第二個(gè)關(guān)鍵元素——逆文檔頻率 IDF。它的作用是降低語(yǔ)料庫中頻繁出現的詞的權重。一個(gè)詞在語(yǔ)料庫中重復的次數越多,收錄這個(gè)“搜索詞”的文檔的排名就越低。
  TF-IDF的設計是不是簡(jiǎn)單巧妙?TF-IDF排序算法和BM25等類(lèi)似算法基本上是古代搜索引擎的核心查詢(xún)和排序算法。這類(lèi)算法主要是針對非結構化的長(cháng)文本設計的,比如大型企業(yè)文檔、過(guò)去判斷文檔、全球論文檢索數據庫等。
  此類(lèi)算法是搜索引擎的基石,對其原理的深入了解將有助于我們設計自己的站內搜索。接下來(lái)說(shuō)說(shuō)獨立網(wǎng)站、小程序、APP中如何設計和處理搜索問(wèn)題。
  三、如何通過(guò)數據屬性?xún)?yōu)化排序結果
  今天不談搜索技術(shù)問(wèn)題,只談?wù)緝人阉鞯漠a(chǎn)品設計問(wèn)題。事實(shí)上,現場(chǎng)搜索技術(shù)的問(wèn)題已經(jīng)很好地解決了。有開(kāi)源免費的ElasticSearch,國內有很多SaaS形式的現場(chǎng)搜索解決方案。比如卡拉搜索,一行代碼就可以部署站內搜索,非常方便。在搜索技術(shù)不是大問(wèn)題的前提下,剩下的就是產(chǎn)品策略和產(chǎn)品設計了。接下來(lái),我們從產(chǎn)品設計層面來(lái)談?wù)勅绾蝺?yōu)化搜索排名。
  這個(gè)算法的問(wèn)題是只能針對極少數場(chǎng)景設計,不適合當前互聯(lián)網(wǎng)網(wǎng)站、小程序、APP中的信息搜索。這種搜索會(huì )不分類(lèi)型地混淆所有文檔,而我們當前的數據信息收錄了很大的緯度,甚至收錄了一些用戶(hù)行為投票的社會(huì )指標,比如(瀏覽量、點(diǎn)贊量、轉發(fā)量)數等.)。
  如何利用多維數據提高搜索準確率是我們需要思考的問(wèn)題。
  前面我們提到了TF-IDF搜索算法的原理,那么接下來(lái)應該添加哪些元素才能讓搜索引擎排名更準確呢?我們的網(wǎng)站/小程序/app中的文檔信息實(shí)際上并不是混在一起的,而是收錄了很多緯度信息,甚至有些緯度是用戶(hù)行為產(chǎn)生的對文檔質(zhì)量的投票,比如瀏覽量、點(diǎn)贊量、轉發(fā)、采集等。如何利用這么多豐富的多維信息來(lái)幫助我們優(yōu)化搜索?
  一般來(lái)說(shuō),我們可以將站點(diǎn)中的文檔信息劃分為幾個(gè)緯度。
  讓我們舉個(gè)例子。假設用戶(hù)最近觀(guān)看了威爾史密斯的經(jīng)典電影《幸福來(lái)敲門(mén)》并喜歡它。第二天本來(lái)打算去豆瓣看影評,昨天看了《幸?!?。它是什么?用戶(hù)只記得片名中有幸福,于是在豆瓣電影的搜索框中輸入了“幸?!?。
  請考慮一下用戶(hù)此時(shí)的心理狀態(tài)。他當然不在乎有多少電影標題收錄“幸?!边@個(gè)詞(TF 詞頻),他當然也不在乎“幸?!边@個(gè)詞是否是電影標題中的常見(jiàn)詞(逆文檔頻率 IDF)。
  用戶(hù)更關(guān)心的是如何快速準確地找到自己昨天看的電影《幸?!?,快速閱讀影評。
  這個(gè)時(shí)候,我們的搜索引擎應該在聯(lián)想詞列表中排名第一的是什么?
  
  雖然“幸福來(lái)敲門(mén)”這個(gè)詞在屬性中并不是第一名,但因為片名本身的權重很高,所以排在了第一位。
  在這個(gè)場(chǎng)景的搜索中,“幸?!边@個(gè)詞有很多屬性,我們的搜索引擎可以利用這些屬性來(lái)進(jìn)行排名判斷。
  對以上屬性進(jìn)行數值加權后,“幸福時(shí)敲門(mén)”排在搜索結果首位的可能性肯定比使用TF-IDF排序算法找到“幸福時(shí)敲門(mén)”的可能性要大得多。
  因此,我們應該在排序結果中考慮網(wǎng)站業(yè)務(wù)的各種屬性,并根據不同屬性的重要性設計權重。我們可以從以下幾個(gè)方面考慮排序問(wèn)題。
  
  豆瓣電影輸入“史密斯”,前三個(gè)是電影,后三個(gè)是電影人。這是一種基于產(chǎn)品業(yè)務(wù)權重的搜索排名策略。
  在現場(chǎng)搜索中加入這些排序策略后,與經(jīng)典搜索算法排序相比,搜索準確率有了很大的飛躍。那么如何才能不斷提高分揀質(zhì)量呢?
  接下來(lái),我們來(lái)談?wù)勅绾戊`活運用這些搜索策略,進(jìn)一步提升搜索排名結果。
  五、如何通過(guò)調整數據屬性的排序來(lái)優(yōu)化搜索結果
  目前各種站內搜索方案中搜索結果準確率低的原因不是搜索算法,因為無(wú)論網(wǎng)站/app多大,情況再復雜,規則都可以窮盡。與搜索全網(wǎng)的難度相比,難度要低很多數量級。那么問(wèn)題出在哪里?問(wèn)題在于靈活使用搜索策略沒(méi)有或有困難。如果我們使用 ElasticSearch 在網(wǎng)站上進(jìn)行搜索,從“構建”到“可用”其實(shí)很簡(jiǎn)單,但是從“可用”到“好用”需要幾個(gè)工程師 + 無(wú)數小時(shí)的積累。這不是普通中小型企業(yè)能夠承受的成本,
  特別是,基本搜索算法選擇使用較大的浮點(diǎn)分數,將所有內容混合在一起。根據所有規則對每個(gè)文檔進(jìn)行評分。然后按照這個(gè)規則排序。這種方法有個(gè)致命的問(wèn)題,就是把不一樣的屬性混在一起講排序。
  例如。假設排序方案包括TF-IDF和點(diǎn)贊數兩個(gè)維度。所以問(wèn)題是,我們的搜索引擎將如何排名?
  如果一個(gè)文檔有非常多的點(diǎn)贊數,它將如何排序?即使該文檔與搜索詞的相關(guān)性非常低,該文檔的排名也會(huì )非常高。
  那么如果一篇文檔與搜索詞相關(guān)度高,但點(diǎn)贊數為0,那么如何排序呢?這個(gè) 0 贊的 文章 可能不會(huì )出現在排名結果中。
  這種混合搜索排名方法的另一個(gè)問(wèn)題是它的復雜性。當多個(gè)緯度屬性混合在一個(gè)公式中時(shí),我們發(fā)現搜索結果很糟糕,不知道如何調整。
  那么,面對這種多維度的搜索問(wèn)題,我們應該如何設計搜索排名呢?
  明智的方法是將所有屬性分開(kāi)并為您的業(yè)務(wù)調整它們的順序。不是將所有屬性集中在一起計算一個(gè)大的分數,而是計算 N 個(gè)分數并進(jìn)行 N 個(gè)連續排序。
  接下來(lái)我會(huì )談?wù)勊侨绾喂ぷ鞯摹?br />   所有匹配的結果都按照第一個(gè)標準進(jìn)行排序。如果結果出現平局,將繼續按照第二個(gè)標準計算和排序分數。如果仍然存在平局,則第三個(gè)標準繼續進(jìn)行,直到每個(gè)標準在搜索結果中都有自己的位置。
  那么在這個(gè)過(guò)程中先用哪個(gè)準則來(lái)判斷就成為了這個(gè)排序方案的關(guān)鍵。
  來(lái)個(gè)案例,你就明白了。
  [
{
"title": "為什么《黑肯帝國3》在IDBM才不到7分?",
"featured": true,
"number_of_likes": 2647
},
{
"title": "《黑客帝國》里面,為什么最后是尼歐贏(yíng)了?",
"featured": false,
"number_of_likes": 3077
},
{
"title": "還好當年沒(méi)讓小李子演《黑客帝國》",
"featured": false,
"number_of_likes": 531
},
{
"title": "多年以后,才真正看懂黑各帝國",
"featured": false,
"number_of_likes": 797
},
{
"title": "如何理解《黑客帝國》?",
"featured": true,
"number_of_likes": 611
}
]
  為了簡(jiǎn)化示例,我們將規則簡(jiǎn)化為三點(diǎn),錯別字,細化,點(diǎn)贊數。用戶(hù)輸入“矩陣”關(guān)鍵詞進(jìn)行查詢(xún),會(huì )得到如下結果。
  如何理解“黑客帝國”?(無(wú)錯別字;細化;點(diǎn)贊數:611)《黑客帝國》,Neo為什么最后贏(yíng)了?(無(wú)錯字;無(wú)細化;點(diǎn)贊數:3077)為什么《黑客帝國3》少于IDBM 7分?(2個(gè)錯別字;精煉;點(diǎn)贊:2647)還好小李子沒(méi)被允許玩《黑客帝國》(沒(méi)有錯別字;沒(méi)有精煉;點(diǎn)贊:531)多年后,我真的懂了黑社會(huì )的帝國(1個(gè)錯字;未精煉;喜歡:797)
  以上就是這個(gè)案例的策略,如果我們對這個(gè)例子的排序結果不滿(mǎn)意怎么辦?只需調整屬性權重(順序)。比如我們認為錯別字沒(méi)有問(wèn)題,不應該過(guò)多降低權限,所以只需要把“錯別字”的屬性放在后面即可。
  
  國內站點(diǎn)搜索解決方案“卡拉搜索”策略設置后臺,您只需使用鼠標拖動(dòng)即可更改屬性權重。
  六、站內搜索優(yōu)化總結
  對于媒體內容站、電商、SaaS服務(wù)等B端企業(yè)來(lái)說(shuō),加入“站內搜索”功能,幫助用戶(hù)快速找到自己想要的內容,是提升用戶(hù)體驗、減少彈跳的最佳方式率,并提高用戶(hù)轉化率。好主意。
  另一方面,站內搜索也是幫助B端企業(yè)快速采集用戶(hù)真實(shí)想法的好工具。每次用戶(hù)搜索和點(diǎn)擊,都是對他們網(wǎng)站內容的反饋,尤其是對于沒(méi)有結果的搜索詞。這是幫助我們改進(jìn)網(wǎng)站的重要第一手資料。
  構建“站內搜索”實(shí)際上非常簡(jiǎn)單。國內最好的站內搜索SaaS,僅需一行代碼即可部署。我將在下一篇文章 文章 中解釋如何快速部署站內搜索。歡迎留言提問(wèn),下一篇文章將一并解答。 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(如何快速搭建起一個(gè)高質(zhì)量站內搜索引擎呢?(組圖))
  一、網(wǎng)站搜索的意義
  對于媒體內容站、電商、SaaS服務(wù)等B端企業(yè)來(lái)說(shuō),加入“站內搜索”功能,幫助用戶(hù)快速找到自己想要的內容,是提升用戶(hù)體驗、減少彈跳的最佳方式率,并提高用戶(hù)轉化率。好主意。
  另一方面,站內搜索也是幫助B端企業(yè)快速采集用戶(hù)真實(shí)想法的好工具。每次用戶(hù)搜索和點(diǎn)擊,都是對他們網(wǎng)站內容的反饋,尤其是對于沒(méi)有結果的搜索詞。這是幫助我們改進(jìn)網(wǎng)站的重要第一手資料。
  那么如何快速搭建一個(gè)高質(zhì)量的站內搜索引擎呢?接下來(lái)我會(huì )寫(xiě)一系列文章來(lái)詳細講解本站搜索的方方面面,歡迎大家繼續關(guān)注。
  今天,我們從產(chǎn)品層面談?wù)勅绾蝺?yōu)化搜索排名結果。
  二、從搜索算法開(kāi)始
  要深入了解搜索,請從搜索引擎的起源開(kāi)始。任何復雜的系統都是從一個(gè)簡(jiǎn)單的系統開(kāi)始,逐漸演化而來(lái)的。從一開(kāi)始就設計一個(gè)復雜的系統很難讓它很好地工作。所以我們必須回到源頭,從源頭上講理解搜索。
  
  1990 年代,TREC(全球文本檢索會(huì )議)組織了一系列年度研討會(huì )。本次研討會(huì )的主要目的是尋找由“非結構化長(cháng)文檔”組成的數據集的最佳搜索算法。TREC對搜索引擎算法做了很多優(yōu)化,其中TF-IDF算法應該是當時(shí)最好的排序算法的主要組成部分。
  TF-IDF算法,就像它的名字一樣,收錄兩個(gè)關(guān)鍵元素,“詞頻TF”和“逆文檔頻率IDF”。對這兩個(gè)元素進(jìn)行統計加權后得到搜索排名。
  詞頻(TF,詞頻)
  詞頻TF是指“搜索詞”在文檔中出現的頻率。
  逆文檔頻率(IDF,逆文檔頻率)
  逆文檔頻率IDF是指“搜索詞”在整個(gè)語(yǔ)料庫中出現的頻率。
  當用戶(hù)輸入“搜索詞”時(shí),它首先會(huì )比較整個(gè)文檔庫中哪些文檔收錄最多的“搜索詞”。收錄的越多,文檔的排名就越高。
  這個(gè)簡(jiǎn)單的規則有一個(gè)致命的問(wèn)題,在我們的語(yǔ)言中有太多的連詞、代詞、助詞等等只是用來(lái)輔助句子表達的詞。比如“?”、“also”、“this”、“but”等詞,這些詞不是文檔的核心內容,應該減少權重。
  至此,我們介紹第二個(gè)關(guān)鍵元素——逆文檔頻率 IDF。它的作用是降低語(yǔ)料庫中頻繁出現的詞的權重。一個(gè)詞在語(yǔ)料庫中重復的次數越多,收錄這個(gè)“搜索詞”的文檔的排名就越低。
  TF-IDF的設計是不是簡(jiǎn)單巧妙?TF-IDF排序算法和BM25等類(lèi)似算法基本上是古代搜索引擎的核心查詢(xún)和排序算法。這類(lèi)算法主要是針對非結構化的長(cháng)文本設計的,比如大型企業(yè)文檔、過(guò)去判斷文檔、全球論文檢索數據庫等。
  此類(lèi)算法是搜索引擎的基石,對其原理的深入了解將有助于我們設計自己的站內搜索。接下來(lái)說(shuō)說(shuō)獨立網(wǎng)站、小程序、APP中如何設計和處理搜索問(wèn)題。
  三、如何通過(guò)數據屬性?xún)?yōu)化排序結果
  今天不談搜索技術(shù)問(wèn)題,只談?wù)緝人阉鞯漠a(chǎn)品設計問(wèn)題。事實(shí)上,現場(chǎng)搜索技術(shù)的問(wèn)題已經(jīng)很好地解決了。有開(kāi)源免費的ElasticSearch,國內有很多SaaS形式的現場(chǎng)搜索解決方案。比如卡拉搜索,一行代碼就可以部署站內搜索,非常方便。在搜索技術(shù)不是大問(wèn)題的前提下,剩下的就是產(chǎn)品策略和產(chǎn)品設計了。接下來(lái),我們從產(chǎn)品設計層面來(lái)談?wù)勅绾蝺?yōu)化搜索排名。
  這個(gè)算法的問(wèn)題是只能針對極少數場(chǎng)景設計,不適合當前互聯(lián)網(wǎng)網(wǎng)站、小程序、APP中的信息搜索。這種搜索會(huì )不分類(lèi)型地混淆所有文檔,而我們當前的數據信息收錄了很大的緯度,甚至收錄了一些用戶(hù)行為投票的社會(huì )指標,比如(瀏覽量、點(diǎn)贊量、轉發(fā)量)數等.)。
  如何利用多維數據提高搜索準確率是我們需要思考的問(wèn)題。
  前面我們提到了TF-IDF搜索算法的原理,那么接下來(lái)應該添加哪些元素才能讓搜索引擎排名更準確呢?我們的網(wǎng)站/小程序/app中的文檔信息實(shí)際上并不是混在一起的,而是收錄了很多緯度信息,甚至有些緯度是用戶(hù)行為產(chǎn)生的對文檔質(zhì)量的投票,比如瀏覽量、點(diǎn)贊量、轉發(fā)、采集等。如何利用這么多豐富的多維信息來(lái)幫助我們優(yōu)化搜索?
  一般來(lái)說(shuō),我們可以將站點(diǎn)中的文檔信息劃分為幾個(gè)緯度。
  讓我們舉個(gè)例子。假設用戶(hù)最近觀(guān)看了威爾史密斯的經(jīng)典電影《幸福來(lái)敲門(mén)》并喜歡它。第二天本來(lái)打算去豆瓣看影評,昨天看了《幸?!?。它是什么?用戶(hù)只記得片名中有幸福,于是在豆瓣電影的搜索框中輸入了“幸?!?。
  請考慮一下用戶(hù)此時(shí)的心理狀態(tài)。他當然不在乎有多少電影標題收錄“幸?!边@個(gè)詞(TF 詞頻),他當然也不在乎“幸?!边@個(gè)詞是否是電影標題中的常見(jiàn)詞(逆文檔頻率 IDF)。
  用戶(hù)更關(guān)心的是如何快速準確地找到自己昨天看的電影《幸?!?,快速閱讀影評。
  這個(gè)時(shí)候,我們的搜索引擎應該在聯(lián)想詞列表中排名第一的是什么?
  
  雖然“幸福來(lái)敲門(mén)”這個(gè)詞在屬性中并不是第一名,但因為片名本身的權重很高,所以排在了第一位。
  在這個(gè)場(chǎng)景的搜索中,“幸?!边@個(gè)詞有很多屬性,我們的搜索引擎可以利用這些屬性來(lái)進(jìn)行排名判斷。
  對以上屬性進(jìn)行數值加權后,“幸福時(shí)敲門(mén)”排在搜索結果首位的可能性肯定比使用TF-IDF排序算法找到“幸福時(shí)敲門(mén)”的可能性要大得多。
  因此,我們應該在排序結果中考慮網(wǎng)站業(yè)務(wù)的各種屬性,并根據不同屬性的重要性設計權重。我們可以從以下幾個(gè)方面考慮排序問(wèn)題。
  
  豆瓣電影輸入“史密斯”,前三個(gè)是電影,后三個(gè)是電影人。這是一種基于產(chǎn)品業(yè)務(wù)權重的搜索排名策略。
  在現場(chǎng)搜索中加入這些排序策略后,與經(jīng)典搜索算法排序相比,搜索準確率有了很大的飛躍。那么如何才能不斷提高分揀質(zhì)量呢?
  接下來(lái),我們來(lái)談?wù)勅绾戊`活運用這些搜索策略,進(jìn)一步提升搜索排名結果。
  五、如何通過(guò)調整數據屬性的排序來(lái)優(yōu)化搜索結果
  目前各種站內搜索方案中搜索結果準確率低的原因不是搜索算法,因為無(wú)論網(wǎng)站/app多大,情況再復雜,規則都可以窮盡。與搜索全網(wǎng)的難度相比,難度要低很多數量級。那么問(wèn)題出在哪里?問(wèn)題在于靈活使用搜索策略沒(méi)有或有困難。如果我們使用 ElasticSearch 在網(wǎng)站上進(jìn)行搜索,從“構建”到“可用”其實(shí)很簡(jiǎn)單,但是從“可用”到“好用”需要幾個(gè)工程師 + 無(wú)數小時(shí)的積累。這不是普通中小型企業(yè)能夠承受的成本,
  特別是,基本搜索算法選擇使用較大的浮點(diǎn)分數,將所有內容混合在一起。根據所有規則對每個(gè)文檔進(jìn)行評分。然后按照這個(gè)規則排序。這種方法有個(gè)致命的問(wèn)題,就是把不一樣的屬性混在一起講排序。
  例如。假設排序方案包括TF-IDF和點(diǎn)贊數兩個(gè)維度。所以問(wèn)題是,我們的搜索引擎將如何排名?
  如果一個(gè)文檔有非常多的點(diǎn)贊數,它將如何排序?即使該文檔與搜索詞的相關(guān)性非常低,該文檔的排名也會(huì )非常高。
  那么如果一篇文檔與搜索詞相關(guān)度高,但點(diǎn)贊數為0,那么如何排序呢?這個(gè) 0 贊的 文章 可能不會(huì )出現在排名結果中。
  這種混合搜索排名方法的另一個(gè)問(wèn)題是它的復雜性。當多個(gè)緯度屬性混合在一個(gè)公式中時(shí),我們發(fā)現搜索結果很糟糕,不知道如何調整。
  那么,面對這種多維度的搜索問(wèn)題,我們應該如何設計搜索排名呢?
  明智的方法是將所有屬性分開(kāi)并為您的業(yè)務(wù)調整它們的順序。不是將所有屬性集中在一起計算一個(gè)大的分數,而是計算 N 個(gè)分數并進(jìn)行 N 個(gè)連續排序。
  接下來(lái)我會(huì )談?wù)勊侨绾喂ぷ鞯摹?br />   所有匹配的結果都按照第一個(gè)標準進(jìn)行排序。如果結果出現平局,將繼續按照第二個(gè)標準計算和排序分數。如果仍然存在平局,則第三個(gè)標準繼續進(jìn)行,直到每個(gè)標準在搜索結果中都有自己的位置。
  那么在這個(gè)過(guò)程中先用哪個(gè)準則來(lái)判斷就成為了這個(gè)排序方案的關(guān)鍵。
  來(lái)個(gè)案例,你就明白了。
  [
{
"title": "為什么《黑肯帝國3》在IDBM才不到7分?",
"featured": true,
"number_of_likes": 2647
},
{
"title": "《黑客帝國》里面,為什么最后是尼歐贏(yíng)了?",
"featured": false,
"number_of_likes": 3077
},
{
"title": "還好當年沒(méi)讓小李子演《黑客帝國》",
"featured": false,
"number_of_likes": 531
},
{
"title": "多年以后,才真正看懂黑各帝國",
"featured": false,
"number_of_likes": 797
},
{
"title": "如何理解《黑客帝國》?",
"featured": true,
"number_of_likes": 611
}
]
  為了簡(jiǎn)化示例,我們將規則簡(jiǎn)化為三點(diǎn),錯別字,細化,點(diǎn)贊數。用戶(hù)輸入“矩陣”關(guān)鍵詞進(jìn)行查詢(xún),會(huì )得到如下結果。
  如何理解“黑客帝國”?(無(wú)錯別字;細化;點(diǎn)贊數:611)《黑客帝國》,Neo為什么最后贏(yíng)了?(無(wú)錯字;無(wú)細化;點(diǎn)贊數:3077)為什么《黑客帝國3》少于IDBM 7分?(2個(gè)錯別字;精煉;點(diǎn)贊:2647)還好小李子沒(méi)被允許玩《黑客帝國》(沒(méi)有錯別字;沒(méi)有精煉;點(diǎn)贊:531)多年后,我真的懂了黑社會(huì )的帝國(1個(gè)錯字;未精煉;喜歡:797)
  以上就是這個(gè)案例的策略,如果我們對這個(gè)例子的排序結果不滿(mǎn)意怎么辦?只需調整屬性權重(順序)。比如我們認為錯別字沒(méi)有問(wèn)題,不應該過(guò)多降低權限,所以只需要把“錯別字”的屬性放在后面即可。
  
  國內站點(diǎn)搜索解決方案“卡拉搜索”策略設置后臺,您只需使用鼠標拖動(dòng)即可更改屬性權重。
  六、站內搜索優(yōu)化總結
  對于媒體內容站、電商、SaaS服務(wù)等B端企業(yè)來(lái)說(shuō),加入“站內搜索”功能,幫助用戶(hù)快速找到自己想要的內容,是提升用戶(hù)體驗、減少彈跳的最佳方式率,并提高用戶(hù)轉化率。好主意。
  另一方面,站內搜索也是幫助B端企業(yè)快速采集用戶(hù)真實(shí)想法的好工具。每次用戶(hù)搜索和點(diǎn)擊,都是對他們網(wǎng)站內容的反饋,尤其是對于沒(méi)有結果的搜索詞。這是幫助我們改進(jìn)網(wǎng)站的重要第一手資料。
  構建“站內搜索”實(shí)際上非常簡(jiǎn)單。國內最好的站內搜索SaaS,僅需一行代碼即可部署。我將在下一篇文章 文章 中解釋如何快速部署站內搜索。歡迎留言提問(wèn),下一篇文章將一并解答。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(2021-09-161.什么是大文本?具體是什么?)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 88 次瀏覽 ? 2022-04-18 22:29 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(2021-09-161.什么是大文本?具體是什么?)
  2021-09-161.什么是大文本?究竟是什么?
  首先要明白,ElasticSearch建立索引完成全文檢索的前提是將要檢索的信息導入ElasticSearch。而一些信息對應的文本內容會(huì )很大,可能達到1MB~3MB字節左右。該內容被認為是大文本。一般我們將這些內容存儲在一個(gè)名為 content 的字段中,然后對 Content 字段進(jìn)行處理。全文搜索&高亮,會(huì )出現搜索效率低的問(wèn)題,更耗時(shí)可能達到30s左右。
  這對于一個(gè)習慣了搜索引擎極速體驗的用戶(hù)來(lái)說(shuō),是不能容忍的。
  2. 問(wèn)題描述
  從檢索癥狀:
  1. 翻頁(yè)到1000+頁(yè)(每頁(yè)10條數據),響應時(shí)間會(huì )更長(cháng)
  2. 遇到一些大文件時(shí),響應時(shí)間特別長(cháng),高亮結果會(huì )返回30s以上
  3. 故障排除與優(yōu)化1. 限制返回記錄數。不提供對最后一頁(yè)的直接訪(fǎng)問(wèn)
  百度、360、搜狗等搜索引擎不提供訪(fǎng)問(wèn)最后一頁(yè)的請求方式。它們都是基于單擊上一頁(yè)和下一頁(yè)的逐頁(yè)訪(fǎng)問(wèn)的。其實(shí)這從用戶(hù)的角度也很好理解。搜索引擎返回的以前的數據是最相關(guān)的,也是用戶(hù)最關(guān)心的信息。ElasticSearch默認支持的數據條數為10000條,所以最好將最大條數設置為10000條或小于該值。
  2. from/size 對應慢問(wèn)題
  [從+尺寸機制]
  當 ElasticSearch 響應請求時(shí),它必須確定文檔的順序并安排相應的結果。如果請求的頁(yè)數很少,ElasticSearch 是沒(méi)有問(wèn)題的,但是如果頁(yè)數很大,比如請求第 100 頁(yè),ElasticSearch 必須從第 1 到第 100 頁(yè)獲取所有文檔,然后刪除第 1 到第 100 頁(yè)。文檔在第 99 頁(yè),獲取文檔在第 100 頁(yè)。
  【滾動(dòng)機制】
  與from+size機制分頁(yè)相比,使用滾動(dòng)可以模擬一個(gè)傳統的數據游標,記錄當前讀取的文檔信息的位置。這種分頁(yè)的使用并不是為了實(shí)時(shí)查詢(xún)數據,而是一次查詢(xún)大量數據甚至全部數據。
  因為這個(gè)滾動(dòng)相當于維護了當前索引段的快照,所以快照信息就是執行滾動(dòng)查詢(xún)時(shí)的快照。此查詢(xún)后從新索引傳入的任何數據都不會(huì )在此快照中查詢(xún)。但是,相比f(wàn)rom+size機制,它并不是查詢(xún)所有數據然后去掉不需要的部分,而是記錄一個(gè)讀位置,保證下一次快速讀。
  from+size方式和scroll方式的優(yōu)缺點(diǎn)對比:
  1. from + size 方法:當結果足夠大時(shí),會(huì )大大增加內存和CPU消耗。但是這種方法使用起來(lái)非常方便。
  2. 對于滾動(dòng)模式:當結果足夠大時(shí),滾動(dòng)性能更好。但存在scroll_id不靈活、管理困難的問(wèn)題。滾動(dòng)的使用必須逐頁(yè)按順序使用。如果是不規則翻頁(yè),其性能消耗也是巨大的。
  以上兩種翻頁(yè)機制需要根據實(shí)際場(chǎng)景合理選擇。
  3. 查看內存狀態(tài)
  當出現卡住、卡住等性能低下、用戶(hù)體驗差的情況時(shí),需要及時(shí)查看ElasticSearch日志,檢查是內存不足還是新老代參數設置不合理造成的。
  之前因為機器內存不足,設置為16GB。通過(guò)日志發(fā)現堆內存不足會(huì )導致老年代Full GC,造成停頓。堆內存果斷地從 16GB 增加到最大 31GB。
  4. DSL逆向分析排查慢查詢(xún)
  1. 打印出對應的查詢(xún)DSL,可以通過(guò)接口訪(fǎng)問(wèn):searchSourceBuilder.toString();
  2. 使用profile參數看看什么是慢的
  profile API的目的是在ES的高層對ES請求進(jìn)行扁平化和擴展,讓你可以直觀(guān)的看到請求做了什么,每個(gè)segment花費了多少時(shí)間,為你提供提升性能的相關(guān)支持.
  3. 嘗試更改全文搜索接口api,更改query_string匹配查詢(xún),相應速度會(huì )有一定提升
  4. 刪除部分查詢(xún)條件,在基本數據不變的情況下查看查詢(xún)速度是否更快。
  驗證發(fā)現不返回content字段時(shí),速度會(huì )快很多;取消高亮字段處理時(shí),速度會(huì )更快。至此,初步斷定與高亮有關(guān)。
  5. 重點(diǎn)排查和優(yōu)化
  通過(guò)論壇推薦使用:fast-vector-highlighter 進(jìn)行大文件高亮。
  根據官網(wǎng)介紹,ElasticSearch高亮的方式有以下三種:
  方法一:傳統的素色高亮法
  官網(wǎng)明確支持這種方式。這種方法匹配起來(lái)很慢。如果存在性能問(wèn)題,請考慮其他突出顯示方法。
  方法二:發(fā)帖高亮方法
  要支持發(fā)帖的高亮方式,需要在映射下添加如下信息:
    "type": "text",
  "index_options" : "offsets"
  添加完成后,發(fā)帖高亮方式將替代傳統高亮方式。
  發(fā)布高亮方法的特點(diǎn):
  1.速度快,無(wú)需重新分析高亮文件。文檔越大,性能越高。
  2.比 fvh 突出顯示需要更少的磁盤(pán)空間。
  3.將文本文件拆分成句子并突出顯示。它適用于自然語(yǔ)言,但不適用于 html。
  4. 將文檔視為整個(gè)語(yǔ)料庫,并使用 BM25 算法對該語(yǔ)料庫中的文檔進(jìn)行評分。
  應用實(shí)例:
    {
  "mappings": {
  "doc" : {
  "properties": {
  "comment" : {
  "type": "text",
  "index_options" : "offsets"
  }
   }
  }
  }
  }
  方法三:fast-vector-highlighter 縮寫(xiě)為fvh高亮方法
  如果在映射的文本類(lèi)型字段下添加以下信息:
    "type": "text",
  "term_vector" : "with_positions_offsets"
  fvh 突出顯示方法將取代傳統的普通突出顯示方法。
  fvh高亮方法的特點(diǎn)如下:
  1. 特別適用于 doc 大于 > 1MB 時(shí)的 fvh 高亮。
  2.自定義boundary_scanner的掃描方式。
  3.設置 term_vector --> with_positions_offsets 會(huì )增加索引的大小。
  4.可以組合多個(gè)字段返回一個(gè)結果,詳見(jiàn)matched_fields。
  5.為不同的匹配類(lèi)型分配不同的權重,例如:短語(yǔ)匹配高于術(shù)語(yǔ)匹配。
  應用實(shí)例:
    {
   "mappings": {
   "doc" : {
  "properties": {
  "comment" : {
   "type": "text",
  "term_vector" : "with_positions_offsets"
  }
  }
  }
  }
  }
  最終選擇:fvh 高亮方法。
  第一:新建索引,根據fvh方法為內容字段重新設置映射;
  二:通過(guò)以下方式同步索引數據:
    POST /_reindex {"source":{"index":"test_index"}, "dest":{"index":"test_index_new"}}
  實(shí)際結果表明,原來(lái)檢索>40s的同一個(gè)大文件,現在2s內返回結果。沒(méi)有改行代碼,只修改了映射,效率提升了近20倍。
  4. 總結
  你需要發(fā)自?xún)刃牡匾庾R到,所有的蟲(chóng)子都是紙老虎。當你遇到問(wèn)題時(shí),你不能亂來(lái)。您可以一次拆卸并解決問(wèn)題。有幾點(diǎn)要記?。?br />   1. 敢于承擔暴露的問(wèn)題是開(kāi)發(fā)者責任的體現
  2. 有bug,關(guān)鍵是耐心定位bug,跟蹤bug
  3. 拆解細化問(wèn)題,一一列出排查思路,才是王道
  4. 行動(dòng)勝于雄辯,去做就行
  分類(lèi):
  技術(shù)要點(diǎn):
  相關(guān)文章: 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(2021-09-161.什么是大文本?具體是什么?)
  2021-09-161.什么是大文本?究竟是什么?
  首先要明白,ElasticSearch建立索引完成全文檢索的前提是將要檢索的信息導入ElasticSearch。而一些信息對應的文本內容會(huì )很大,可能達到1MB~3MB字節左右。該內容被認為是大文本。一般我們將這些內容存儲在一個(gè)名為 content 的字段中,然后對 Content 字段進(jìn)行處理。全文搜索&高亮,會(huì )出現搜索效率低的問(wèn)題,更耗時(shí)可能達到30s左右。
  這對于一個(gè)習慣了搜索引擎極速體驗的用戶(hù)來(lái)說(shuō),是不能容忍的。
  2. 問(wèn)題描述
  從檢索癥狀:
  1. 翻頁(yè)到1000+頁(yè)(每頁(yè)10條數據),響應時(shí)間會(huì )更長(cháng)
  2. 遇到一些大文件時(shí),響應時(shí)間特別長(cháng),高亮結果會(huì )返回30s以上
  3. 故障排除與優(yōu)化1. 限制返回記錄數。不提供對最后一頁(yè)的直接訪(fǎng)問(wèn)
  百度、360、搜狗等搜索引擎不提供訪(fǎng)問(wèn)最后一頁(yè)的請求方式。它們都是基于單擊上一頁(yè)和下一頁(yè)的逐頁(yè)訪(fǎng)問(wèn)的。其實(shí)這從用戶(hù)的角度也很好理解。搜索引擎返回的以前的數據是最相關(guān)的,也是用戶(hù)最關(guān)心的信息。ElasticSearch默認支持的數據條數為10000條,所以最好將最大條數設置為10000條或小于該值。
  2. from/size 對應慢問(wèn)題
  [從+尺寸機制]
  當 ElasticSearch 響應請求時(shí),它必須確定文檔的順序并安排相應的結果。如果請求的頁(yè)數很少,ElasticSearch 是沒(méi)有問(wèn)題的,但是如果頁(yè)數很大,比如請求第 100 頁(yè),ElasticSearch 必須從第 1 到第 100 頁(yè)獲取所有文檔,然后刪除第 1 到第 100 頁(yè)。文檔在第 99 頁(yè),獲取文檔在第 100 頁(yè)。
  【滾動(dòng)機制】
  與from+size機制分頁(yè)相比,使用滾動(dòng)可以模擬一個(gè)傳統的數據游標,記錄當前讀取的文檔信息的位置。這種分頁(yè)的使用并不是為了實(shí)時(shí)查詢(xún)數據,而是一次查詢(xún)大量數據甚至全部數據。
  因為這個(gè)滾動(dòng)相當于維護了當前索引段的快照,所以快照信息就是執行滾動(dòng)查詢(xún)時(shí)的快照。此查詢(xún)后從新索引傳入的任何數據都不會(huì )在此快照中查詢(xún)。但是,相比f(wàn)rom+size機制,它并不是查詢(xún)所有數據然后去掉不需要的部分,而是記錄一個(gè)讀位置,保證下一次快速讀。
  from+size方式和scroll方式的優(yōu)缺點(diǎn)對比:
  1. from + size 方法:當結果足夠大時(shí),會(huì )大大增加內存和CPU消耗。但是這種方法使用起來(lái)非常方便。
  2. 對于滾動(dòng)模式:當結果足夠大時(shí),滾動(dòng)性能更好。但存在scroll_id不靈活、管理困難的問(wèn)題。滾動(dòng)的使用必須逐頁(yè)按順序使用。如果是不規則翻頁(yè),其性能消耗也是巨大的。
  以上兩種翻頁(yè)機制需要根據實(shí)際場(chǎng)景合理選擇。
  3. 查看內存狀態(tài)
  當出現卡住、卡住等性能低下、用戶(hù)體驗差的情況時(shí),需要及時(shí)查看ElasticSearch日志,檢查是內存不足還是新老代參數設置不合理造成的。
  之前因為機器內存不足,設置為16GB。通過(guò)日志發(fā)現堆內存不足會(huì )導致老年代Full GC,造成停頓。堆內存果斷地從 16GB 增加到最大 31GB。
  4. DSL逆向分析排查慢查詢(xún)
  1. 打印出對應的查詢(xún)DSL,可以通過(guò)接口訪(fǎng)問(wèn):searchSourceBuilder.toString();
  2. 使用profile參數看看什么是慢的
  profile API的目的是在ES的高層對ES請求進(jìn)行扁平化和擴展,讓你可以直觀(guān)的看到請求做了什么,每個(gè)segment花費了多少時(shí)間,為你提供提升性能的相關(guān)支持.
  3. 嘗試更改全文搜索接口api,更改query_string匹配查詢(xún),相應速度會(huì )有一定提升
  4. 刪除部分查詢(xún)條件,在基本數據不變的情況下查看查詢(xún)速度是否更快。
  驗證發(fā)現不返回content字段時(shí),速度會(huì )快很多;取消高亮字段處理時(shí),速度會(huì )更快。至此,初步斷定與高亮有關(guān)。
  5. 重點(diǎn)排查和優(yōu)化
  通過(guò)論壇推薦使用:fast-vector-highlighter 進(jìn)行大文件高亮。
  根據官網(wǎng)介紹,ElasticSearch高亮的方式有以下三種:
  方法一:傳統的素色高亮法
  官網(wǎng)明確支持這種方式。這種方法匹配起來(lái)很慢。如果存在性能問(wèn)題,請考慮其他突出顯示方法。
  方法二:發(fā)帖高亮方法
  要支持發(fā)帖的高亮方式,需要在映射下添加如下信息:
    "type": "text",
  "index_options" : "offsets"
  添加完成后,發(fā)帖高亮方式將替代傳統高亮方式。
  發(fā)布高亮方法的特點(diǎn):
  1.速度快,無(wú)需重新分析高亮文件。文檔越大,性能越高。
  2.比 fvh 突出顯示需要更少的磁盤(pán)空間。
  3.將文本文件拆分成句子并突出顯示。它適用于自然語(yǔ)言,但不適用于 html。
  4. 將文檔視為整個(gè)語(yǔ)料庫,并使用 BM25 算法對該語(yǔ)料庫中的文檔進(jìn)行評分。
  應用實(shí)例:
    {
  "mappings": {
  "doc" : {
  "properties": {
  "comment" : {
  "type": "text",
  "index_options" : "offsets"
  }
   }
  }
  }
  }
  方法三:fast-vector-highlighter 縮寫(xiě)為fvh高亮方法
  如果在映射的文本類(lèi)型字段下添加以下信息:
    "type": "text",
  "term_vector" : "with_positions_offsets"
  fvh 突出顯示方法將取代傳統的普通突出顯示方法。
  fvh高亮方法的特點(diǎn)如下:
  1. 特別適用于 doc 大于 > 1MB 時(shí)的 fvh 高亮。
  2.自定義boundary_scanner的掃描方式。
  3.設置 term_vector --> with_positions_offsets 會(huì )增加索引的大小。
  4.可以組合多個(gè)字段返回一個(gè)結果,詳見(jiàn)matched_fields。
  5.為不同的匹配類(lèi)型分配不同的權重,例如:短語(yǔ)匹配高于術(shù)語(yǔ)匹配。
  應用實(shí)例:
    {
   "mappings": {
   "doc" : {
  "properties": {
  "comment" : {
   "type": "text",
  "term_vector" : "with_positions_offsets"
  }
  }
  }
  }
  }
  最終選擇:fvh 高亮方法。
  第一:新建索引,根據fvh方法為內容字段重新設置映射;
  二:通過(guò)以下方式同步索引數據:
    POST /_reindex {"source":{"index":"test_index"}, "dest":{"index":"test_index_new"}}
  實(shí)際結果表明,原來(lái)檢索>40s的同一個(gè)大文件,現在2s內返回結果。沒(méi)有改行代碼,只修改了映射,效率提升了近20倍。
  4. 總結
  你需要發(fā)自?xún)刃牡匾庾R到,所有的蟲(chóng)子都是紙老虎。當你遇到問(wèn)題時(shí),你不能亂來(lái)。您可以一次拆卸并解決問(wèn)題。有幾點(diǎn)要記?。?br />   1. 敢于承擔暴露的問(wèn)題是開(kāi)發(fā)者責任的體現
  2. 有bug,關(guān)鍵是耐心定位bug,跟蹤bug
  3. 拆解細化問(wèn)題,一一列出排查思路,才是王道
  4. 行動(dòng)勝于雄辯,去做就行
  分類(lèi):
  技術(shù)要點(diǎn):
  相關(guān)文章:

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法( 【每日一練】2016年10月21日教師招聘考試真題及答案)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 83 次瀏覽 ? 2022-04-18 13:48 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(
【每日一練】2016年10月21日教師招聘考試真題及答案)
  
  更多《搜索引擎的利用是多種檢索工具結合使用的結果。()》相關(guān)問(wèn)題
  問(wèn)題 1
  ( ) 是利用用戶(hù)檢索信息的機會(huì ),盡可能地向目標用戶(hù)傳遞營(yíng)銷(xiāo)信息。簡(jiǎn)單來(lái)說(shuō),()就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo)。
  點(diǎn)擊查看答案
  問(wèn)題2
  搜索引擎注冊是指使用具有在線(xiàn)檢索信息功能的搜索引擎和目錄等網(wǎng)絡(luò )工具的方法。
  點(diǎn)擊查看答案
  問(wèn)題 3
  列出你熟悉的三個(gè)搜索引擎或搜索工具:()、()、()
  點(diǎn)擊查看答案
  問(wèn)題 4
  在百度搜索引擎中,減號“-”用于去除搜索結果中收錄的特定信息。注意減號“-”必須是英文符號,使用時(shí)必須以()開(kāi)頭。
  A. 輸入
  B. 分號
  C. 空白
  D、逗號
  點(diǎn)擊查看答案
  問(wèn)題 5
  常見(jiàn)的文獻檢索工具包括:門(mén)戶(hù)網(wǎng)站網(wǎng)站、搜索引擎、專(zhuān)業(yè)檢索工具。
  點(diǎn)擊查看答案
  問(wèn)題 6
  在百度搜索中使用書(shū)名號無(wú)法達到準確搜索的目的。
  點(diǎn)擊查看答案
  問(wèn)題 7
  要在中國國家知識產(chǎn)權局查找蘋(píng)果申請的專(zhuān)利,最佳檢索公式為:
  A. 申請人(專(zhuān)利權)持有人:Apple Inc.
  B. 發(fā)明者(設計師):Apple Inc.
  C. 專(zhuān)利代理:Apple Inc.
  D. 代理:Apple Inc.
  點(diǎn)擊查看答案
  問(wèn)題 8
  如何選擇信息檢索策略?
  點(diǎn)擊查看答案
  問(wèn)題 9
  下列關(guān)于搜索引擎信息檢索優(yōu)化策略的說(shuō)法不正確的是( )。
  A. 可以通過(guò)添加搜索詞來(lái)縮小搜索結果的數量和范圍。
  BB 不要使用太籠統的詞,或者曝光率太高的詞,比如:“that”、“the”、“internet”
  CC在搜索引擎中輸入“informationretrievalsystems”和informationretrievalsystems,檢索到的內容與結果一致。
  DD 最小化短語(yǔ)或太長(cháng)的短語(yǔ),以及太多的“+”關(guān)系。
  點(diǎn)擊查看答案
  問(wèn)題 10
  在我國提供個(gè)人征信服務(wù)的我國人民銀行征信系統只有一個(gè)。()
  點(diǎn)擊查看答案 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(
【每日一練】2016年10月21日教師招聘考試真題及答案)
  
  更多《搜索引擎的利用是多種檢索工具結合使用的結果。()》相關(guān)問(wèn)題
  問(wèn)題 1
  ( ) 是利用用戶(hù)檢索信息的機會(huì ),盡可能地向目標用戶(hù)傳遞營(yíng)銷(xiāo)信息。簡(jiǎn)單來(lái)說(shuō),()就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo)。
  點(diǎn)擊查看答案
  問(wèn)題2
  搜索引擎注冊是指使用具有在線(xiàn)檢索信息功能的搜索引擎和目錄等網(wǎng)絡(luò )工具的方法。
  點(diǎn)擊查看答案
  問(wèn)題 3
  列出你熟悉的三個(gè)搜索引擎或搜索工具:()、()、()
  點(diǎn)擊查看答案
  問(wèn)題 4
  在百度搜索引擎中,減號“-”用于去除搜索結果中收錄的特定信息。注意減號“-”必須是英文符號,使用時(shí)必須以()開(kāi)頭。
  A. 輸入
  B. 分號
  C. 空白
  D、逗號
  點(diǎn)擊查看答案
  問(wèn)題 5
  常見(jiàn)的文獻檢索工具包括:門(mén)戶(hù)網(wǎng)站網(wǎng)站、搜索引擎、專(zhuān)業(yè)檢索工具。
  點(diǎn)擊查看答案
  問(wèn)題 6
  在百度搜索中使用書(shū)名號無(wú)法達到準確搜索的目的。
  點(diǎn)擊查看答案
  問(wèn)題 7
  要在中國國家知識產(chǎn)權局查找蘋(píng)果申請的專(zhuān)利,最佳檢索公式為:
  A. 申請人(專(zhuān)利權)持有人:Apple Inc.
  B. 發(fā)明者(設計師):Apple Inc.
  C. 專(zhuān)利代理:Apple Inc.
  D. 代理:Apple Inc.
  點(diǎn)擊查看答案
  問(wèn)題 8
  如何選擇信息檢索策略?
  點(diǎn)擊查看答案
  問(wèn)題 9
  下列關(guān)于搜索引擎信息檢索優(yōu)化策略的說(shuō)法不正確的是( )。
  A. 可以通過(guò)添加搜索詞來(lái)縮小搜索結果的數量和范圍。
  BB 不要使用太籠統的詞,或者曝光率太高的詞,比如:“that”、“the”、“internet”
  CC在搜索引擎中輸入“informationretrievalsystems”和informationretrievalsystems,檢索到的內容與結果一致。
  DD 最小化短語(yǔ)或太長(cháng)的短語(yǔ),以及太多的“+”關(guān)系。
  點(diǎn)擊查看答案
  問(wèn)題 10
  在我國提供個(gè)人征信服務(wù)的我國人民銀行征信系統只有一個(gè)。()
  點(diǎn)擊查看答案

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法( 基于用戶(hù)許可的營(yíng)銷(xiāo)與濫發(fā)郵件(Spam)不同廣告)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 79 次瀏覽 ? 2022-04-17 17:29 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(
基于用戶(hù)許可的營(yíng)銷(xiāo)與濫發(fā)郵件(Spam)不同廣告)
  
  網(wǎng)站推廣方式有哪些(最常用的網(wǎng)站推廣方式)
  網(wǎng)站八種基本推廣方式
  1、搜索引擎推廣
  搜索引擎推廣是指利用具有在線(xiàn)檢索信息功能的搜索引擎、目錄等網(wǎng)絡(luò )工具進(jìn)行網(wǎng)站推廣的方式。由于搜索引擎的基本形式可以分為網(wǎng)絡(luò )蜘蛛式搜索引擎(簡(jiǎn)稱(chēng)搜索引擎)和基于人工類(lèi)別的搜索引擎(簡(jiǎn)稱(chēng)類(lèi)別),因此搜索引擎推廣的形式還包括基于搜索的方法基于搜索引擎的引擎和方法。分類(lèi)的方法,前者包括搜索引擎優(yōu)化、關(guān)鍵詞廣告、PPC、固定排名、基于內容的廣告等形式,而后者主要是在分類(lèi)目錄網(wǎng)站的相應類(lèi)別中進(jìn)行@>登錄。
  搜索引擎推廣的方法可以分為許多不同的形式。常見(jiàn)的有:登錄免費分類(lèi)、登錄付費分類(lèi)、搜索引擎優(yōu)化、關(guān)鍵詞廣告、關(guān)鍵詞PPC、網(wǎng)頁(yè)內容定向廣告等。
  從目前的發(fā)展趨勢來(lái)看,搜索引擎在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的地位依然重要,被越來(lái)越多的企業(yè)所認可。搜索引擎營(yíng)銷(xiāo)的方式也在不斷演變。因此,搜索引擎營(yíng)銷(xiāo)應根據環(huán)境的變化進(jìn)行選擇。合適的方式。
  2、郵件推廣
  電子郵件是主要的網(wǎng)站 推廣方式。常見(jiàn)的方法包括電子出版物、會(huì )員通訊和專(zhuān)業(yè)服務(wù)提供商的電子郵件廣告。
  基于用戶(hù)權限的電子郵件營(yíng)銷(xiāo)不同于垃圾郵件。許可營(yíng)銷(xiāo)相對于傳統的推廣方式或無(wú)證郵件營(yíng)銷(xiāo)具有明顯的優(yōu)勢,例如減少廣告對用戶(hù)的滋擾,提高潛在客戶(hù)定位的準確性。度,增強與客戶(hù)的關(guān)系,增加品牌忠誠度等。根據電子郵件營(yíng)銷(xiāo)許可的用戶(hù)電子郵件地址資源的所有形式,可以分為內部列表電子郵件營(yíng)銷(xiāo)和外部列表電子郵件營(yíng)銷(xiāo),或簡(jiǎn)單地內部列表和外部列表。內部列表,又稱(chēng)郵件列表,是利用網(wǎng)站的注冊用戶(hù)信息進(jìn)行Email營(yíng)銷(xiāo)的一種方式,如新聞郵件、會(huì )員快訊、電子刊物等。外部列表電子郵件營(yíng)銷(xiāo)是利用專(zhuān)業(yè)服務(wù)提供商的用戶(hù)電子郵件地址進(jìn)行電子郵件營(yíng)銷(xiāo),即以電子郵件廣告的形式向服務(wù)提供商的用戶(hù)發(fā)送信息。授權郵件營(yíng)銷(xiāo)是一種相對獨立的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式體系,可以與其他網(wǎng)絡(luò )營(yíng)銷(xiāo)方式相結合,也可以獨立應用。
  3、資源合作推廣
  通過(guò)網(wǎng)站交換鏈接、交換廣告、內容合作、用戶(hù)資源合作等方式,達到目標相近者之間相互促進(jìn)的目的網(wǎng)站,其中最常用的資源合作方法是網(wǎng)站鏈接策略,利用網(wǎng)站合作伙伴之間的訪(fǎng)問(wèn)資源合作,相互促進(jìn)。
  每個(gè)企業(yè)網(wǎng)站都可以擁有自己的資源,可以表現為一定的流量、注冊用戶(hù)信息、有價(jià)值的內容和功能、網(wǎng)絡(luò )廣告位等,利用網(wǎng)站的資源進(jìn)行合作與合作伙伴共同實(shí)現資源共享、共同擴大利益的目的。在這些資源合作形式中,交換鏈接是最簡(jiǎn)單的合作方式,調查顯示,這也是推廣新網(wǎng)站的有效方式之一。交換鏈接或互惠鏈接是網(wǎng)站之間的一種簡(jiǎn)單的合作形式,具有一定的優(yōu)勢互補,即把對方網(wǎng)站的LOGO或網(wǎng)站@放在自己的網(wǎng)站 分別。>命名并設置對方網(wǎng)站的超鏈接,讓用戶(hù)從合作網(wǎng)站中發(fā)現自己的網(wǎng)站,從而達到相互促進(jìn)的目的。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。并通過(guò)合作網(wǎng)站的推薦來(lái)增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。并通過(guò)合作網(wǎng)站的推薦來(lái)增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。
  4、信息發(fā)布推廣
  并且由于越來(lái)越多有效的網(wǎng)站推廣方式的出現,信息發(fā)布在常用的網(wǎng)站推廣方式中。信息的重要性也大幅下降,因此依靠大量免費信息的發(fā)送方式并沒(méi)有太大的價(jià)值,但一些針對性強、專(zhuān)業(yè)性強的信息仍然可以引起人們的極大關(guān)注,尤其是當信息以相對較高的速度發(fā)布時(shí)-相關(guān)性。
  5、病毒式營(yíng)銷(xiāo)
  病毒式營(yíng)銷(xiāo)方式不是傳播病毒,而是利用用戶(hù)之間的主動(dòng)交流,讓信息像病毒一樣傳播,從而達到推廣的目的。病毒式營(yíng)銷(xiāo)方式本質(zhì)上是為用戶(hù)提供有價(jià)值的免費服務(wù),同時(shí),在一定的宣傳信息下,常用的工具包括免費電子書(shū)、免費軟件、免費FLASH作品、免費賀卡、免費郵箱、免費即時(shí)聊天工具等。 ,可以為用戶(hù)獲取信息、使用網(wǎng)絡(luò )服務(wù)、娛樂(lè )帶來(lái)方便。和內容。如果應用得當,這種病毒式營(yíng)銷(xiāo)策略通??梢砸苑浅5偷某杀救〉梅浅o@著(zhù)的效果。病毒式營(yíng)銷(xiāo)的詳細介紹和案例要素,請參考作者的《網(wǎng)絡(luò )營(yíng)銷(xiāo)基礎與實(shí)踐》
  6、快速網(wǎng)址推廣
  也就是說(shuō),合理利用網(wǎng)絡(luò )實(shí)名、常用網(wǎng)址等類(lèi)似關(guān)鍵詞網(wǎng)站快捷訪(fǎng)問(wèn)方式,實(shí)現網(wǎng)站推廣方式??旖菥W(wǎng)址使用自然語(yǔ)言與網(wǎng)站網(wǎng)址建立對應關(guān)系,為習慣使用中文的用戶(hù)提供了極大的便利。用戶(hù)只需要輸入一個(gè)比英文 URL 更容易記住的快捷 URL。您可以訪(fǎng)問(wèn) 網(wǎng)站 并使用您的母語(yǔ)或其他簡(jiǎn)單詞匯來(lái)“替換”一個(gè)更容易記住且更容易反映 網(wǎng)站 品牌形象的 URL,例如選擇公司名稱(chēng)或商標,主要產(chǎn)品名稱(chēng)等。作為一個(gè)中文網(wǎng)站,這可以極大地彌補英文網(wǎng)站宣傳的不便,因為它在網(wǎng)站推廣上有一定的價(jià)值。隨著(zhù)企業(yè)注冊快捷網(wǎng)站數量的增加,這些快捷網(wǎng)站的用戶(hù)數據也可以相當于一個(gè)搜索引擎。這樣,當用戶(hù)使用某個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),即使與某個(gè)網(wǎng)站注冊的中文網(wǎng)站不一致,也有被用戶(hù)發(fā)現的機會(huì )。
  7、互聯(lián)網(wǎng)廣告
  網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)策略之一,在網(wǎng)絡(luò )品牌推廣、產(chǎn)品推廣、網(wǎng)站促銷(xiāo)等方面發(fā)揮著(zhù)重要作用。常見(jiàn)的網(wǎng)絡(luò )廣告形式有:BANNER廣告、關(guān)鍵詞廣告、分類(lèi)廣告、贊助廣告、Email廣告等。BANNER廣告所依賴(lài)的媒體是網(wǎng)頁(yè),關(guān)鍵詞廣告是一種搜索形式引擎營(yíng)銷(xiāo)和電子郵件廣告是一種許可的電子郵件營(yíng)銷(xiāo)??梢?jiàn),網(wǎng)絡(luò )廣告不可能獨立存在,需要與各種網(wǎng)絡(luò )工具相結合。只有將它們結合起來(lái)才能實(shí)現信息傳遞的功能。因此,也可以認為網(wǎng)絡(luò )廣告存在于各種網(wǎng)絡(luò )營(yíng)銷(xiāo)工具中,但具體表現不同。網(wǎng)絡(luò )廣告用戶(hù)推廣網(wǎng)站具有網(wǎng)絡(luò )媒體可選范圍廣、形式多樣、適用性強、投放及時(shí)等優(yōu)點(diǎn)。
  8、綜合網(wǎng)站宣傳
  除了上面介紹的常用網(wǎng)站推廣方式外,還有很多特殊的、臨時(shí)性的網(wǎng)站推廣方式,比如有獎問(wèn)答、網(wǎng)上優(yōu)惠券、有獎?wù){查、網(wǎng)上購物網(wǎng)站推廣比較購物和購物搜索引擎等,有的甚至使用建立輔助網(wǎng)站進(jìn)行推廣。有的網(wǎng)站推廣方式可能很巧妙,有的網(wǎng)站可能會(huì )使用某種強制的方式來(lái)達到推廣的目的,比如修改用戶(hù)瀏覽器的默認首頁(yè)設置,自動(dòng)添加到采集夾,甚至在用戶(hù)的計算機上。真正值得推廣的是合理文明的網(wǎng)站推廣方式,強制和破壞性的網(wǎng)站推廣方式應該拒絕和反對。 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(
基于用戶(hù)許可的營(yíng)銷(xiāo)與濫發(fā)郵件(Spam)不同廣告)
  http://www.xusseo.com/wp-conte ... 0.jpg 300w, http://www.xusseo.com/wp-conte ... 7.jpg 768w, http://www.xusseo.com/wp-conte ... 8.jpg 220w" />
  網(wǎng)站推廣方式有哪些(最常用的網(wǎng)站推廣方式)
  網(wǎng)站八種基本推廣方式
  1、搜索引擎推廣
  搜索引擎推廣是指利用具有在線(xiàn)檢索信息功能的搜索引擎、目錄等網(wǎng)絡(luò )工具進(jìn)行網(wǎng)站推廣的方式。由于搜索引擎的基本形式可以分為網(wǎng)絡(luò )蜘蛛式搜索引擎(簡(jiǎn)稱(chēng)搜索引擎)和基于人工類(lèi)別的搜索引擎(簡(jiǎn)稱(chēng)類(lèi)別),因此搜索引擎推廣的形式還包括基于搜索的方法基于搜索引擎的引擎和方法。分類(lèi)的方法,前者包括搜索引擎優(yōu)化、關(guān)鍵詞廣告、PPC、固定排名、基于內容的廣告等形式,而后者主要是在分類(lèi)目錄網(wǎng)站的相應類(lèi)別中進(jìn)行@>登錄。
  搜索引擎推廣的方法可以分為許多不同的形式。常見(jiàn)的有:登錄免費分類(lèi)、登錄付費分類(lèi)、搜索引擎優(yōu)化、關(guān)鍵詞廣告、關(guān)鍵詞PPC、網(wǎng)頁(yè)內容定向廣告等。
  從目前的發(fā)展趨勢來(lái)看,搜索引擎在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的地位依然重要,被越來(lái)越多的企業(yè)所認可。搜索引擎營(yíng)銷(xiāo)的方式也在不斷演變。因此,搜索引擎營(yíng)銷(xiāo)應根據環(huán)境的變化進(jìn)行選擇。合適的方式。
  2、郵件推廣
  電子郵件是主要的網(wǎng)站 推廣方式。常見(jiàn)的方法包括電子出版物、會(huì )員通訊和專(zhuān)業(yè)服務(wù)提供商的電子郵件廣告。
  基于用戶(hù)權限的電子郵件營(yíng)銷(xiāo)不同于垃圾郵件。許可營(yíng)銷(xiāo)相對于傳統的推廣方式或無(wú)證郵件營(yíng)銷(xiāo)具有明顯的優(yōu)勢,例如減少廣告對用戶(hù)的滋擾,提高潛在客戶(hù)定位的準確性。度,增強與客戶(hù)的關(guān)系,增加品牌忠誠度等。根據電子郵件營(yíng)銷(xiāo)許可的用戶(hù)電子郵件地址資源的所有形式,可以分為內部列表電子郵件營(yíng)銷(xiāo)和外部列表電子郵件營(yíng)銷(xiāo),或簡(jiǎn)單地內部列表和外部列表。內部列表,又稱(chēng)郵件列表,是利用網(wǎng)站的注冊用戶(hù)信息進(jìn)行Email營(yíng)銷(xiāo)的一種方式,如新聞郵件、會(huì )員快訊、電子刊物等。外部列表電子郵件營(yíng)銷(xiāo)是利用專(zhuān)業(yè)服務(wù)提供商的用戶(hù)電子郵件地址進(jìn)行電子郵件營(yíng)銷(xiāo),即以電子郵件廣告的形式向服務(wù)提供商的用戶(hù)發(fā)送信息。授權郵件營(yíng)銷(xiāo)是一種相對獨立的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式體系,可以與其他網(wǎng)絡(luò )營(yíng)銷(xiāo)方式相結合,也可以獨立應用。
  3、資源合作推廣
  通過(guò)網(wǎng)站交換鏈接、交換廣告、內容合作、用戶(hù)資源合作等方式,達到目標相近者之間相互促進(jìn)的目的網(wǎng)站,其中最常用的資源合作方法是網(wǎng)站鏈接策略,利用網(wǎng)站合作伙伴之間的訪(fǎng)問(wèn)資源合作,相互促進(jìn)。
  每個(gè)企業(yè)網(wǎng)站都可以擁有自己的資源,可以表現為一定的流量、注冊用戶(hù)信息、有價(jià)值的內容和功能、網(wǎng)絡(luò )廣告位等,利用網(wǎng)站的資源進(jìn)行合作與合作伙伴共同實(shí)現資源共享、共同擴大利益的目的。在這些資源合作形式中,交換鏈接是最簡(jiǎn)單的合作方式,調查顯示,這也是推廣新網(wǎng)站的有效方式之一。交換鏈接或互惠鏈接是網(wǎng)站之間的一種簡(jiǎn)單的合作形式,具有一定的優(yōu)勢互補,即把對方網(wǎng)站的LOGO或網(wǎng)站@放在自己的網(wǎng)站 分別。>命名并設置對方網(wǎng)站的超鏈接,讓用戶(hù)從合作網(wǎng)站中發(fā)現自己的網(wǎng)站,從而達到相互促進(jìn)的目的。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。并通過(guò)合作網(wǎng)站的推薦來(lái)增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。并通過(guò)合作網(wǎng)站的推薦來(lái)增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。
  4、信息發(fā)布推廣
  并且由于越來(lái)越多有效的網(wǎng)站推廣方式的出現,信息發(fā)布在常用的網(wǎng)站推廣方式中。信息的重要性也大幅下降,因此依靠大量免費信息的發(fā)送方式并沒(méi)有太大的價(jià)值,但一些針對性強、專(zhuān)業(yè)性強的信息仍然可以引起人們的極大關(guān)注,尤其是當信息以相對較高的速度發(fā)布時(shí)-相關(guān)性。
  5、病毒式營(yíng)銷(xiāo)
  病毒式營(yíng)銷(xiāo)方式不是傳播病毒,而是利用用戶(hù)之間的主動(dòng)交流,讓信息像病毒一樣傳播,從而達到推廣的目的。病毒式營(yíng)銷(xiāo)方式本質(zhì)上是為用戶(hù)提供有價(jià)值的免費服務(wù),同時(shí),在一定的宣傳信息下,常用的工具包括免費電子書(shū)、免費軟件、免費FLASH作品、免費賀卡、免費郵箱、免費即時(shí)聊天工具等。 ,可以為用戶(hù)獲取信息、使用網(wǎng)絡(luò )服務(wù)、娛樂(lè )帶來(lái)方便。和內容。如果應用得當,這種病毒式營(yíng)銷(xiāo)策略通??梢砸苑浅5偷某杀救〉梅浅o@著(zhù)的效果。病毒式營(yíng)銷(xiāo)的詳細介紹和案例要素,請參考作者的《網(wǎng)絡(luò )營(yíng)銷(xiāo)基礎與實(shí)踐》
  6、快速網(wǎng)址推廣
  也就是說(shuō),合理利用網(wǎng)絡(luò )實(shí)名、常用網(wǎng)址等類(lèi)似關(guān)鍵詞網(wǎng)站快捷訪(fǎng)問(wèn)方式,實(shí)現網(wǎng)站推廣方式??旖菥W(wǎng)址使用自然語(yǔ)言與網(wǎng)站網(wǎng)址建立對應關(guān)系,為習慣使用中文的用戶(hù)提供了極大的便利。用戶(hù)只需要輸入一個(gè)比英文 URL 更容易記住的快捷 URL。您可以訪(fǎng)問(wèn) 網(wǎng)站 并使用您的母語(yǔ)或其他簡(jiǎn)單詞匯來(lái)“替換”一個(gè)更容易記住且更容易反映 網(wǎng)站 品牌形象的 URL,例如選擇公司名稱(chēng)或商標,主要產(chǎn)品名稱(chēng)等。作為一個(gè)中文網(wǎng)站,這可以極大地彌補英文網(wǎng)站宣傳的不便,因為它在網(wǎng)站推廣上有一定的價(jià)值。隨著(zhù)企業(yè)注冊快捷網(wǎng)站數量的增加,這些快捷網(wǎng)站的用戶(hù)數據也可以相當于一個(gè)搜索引擎。這樣,當用戶(hù)使用某個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),即使與某個(gè)網(wǎng)站注冊的中文網(wǎng)站不一致,也有被用戶(hù)發(fā)現的機會(huì )。
  7、互聯(lián)網(wǎng)廣告
  網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)策略之一,在網(wǎng)絡(luò )品牌推廣、產(chǎn)品推廣、網(wǎng)站促銷(xiāo)等方面發(fā)揮著(zhù)重要作用。常見(jiàn)的網(wǎng)絡(luò )廣告形式有:BANNER廣告、關(guān)鍵詞廣告、分類(lèi)廣告、贊助廣告、Email廣告等。BANNER廣告所依賴(lài)的媒體是網(wǎng)頁(yè),關(guān)鍵詞廣告是一種搜索形式引擎營(yíng)銷(xiāo)和電子郵件廣告是一種許可的電子郵件營(yíng)銷(xiāo)??梢?jiàn),網(wǎng)絡(luò )廣告不可能獨立存在,需要與各種網(wǎng)絡(luò )工具相結合。只有將它們結合起來(lái)才能實(shí)現信息傳遞的功能。因此,也可以認為網(wǎng)絡(luò )廣告存在于各種網(wǎng)絡(luò )營(yíng)銷(xiāo)工具中,但具體表現不同。網(wǎng)絡(luò )廣告用戶(hù)推廣網(wǎng)站具有網(wǎng)絡(luò )媒體可選范圍廣、形式多樣、適用性強、投放及時(shí)等優(yōu)點(diǎn)。
  8、綜合網(wǎng)站宣傳
  除了上面介紹的常用網(wǎng)站推廣方式外,還有很多特殊的、臨時(shí)性的網(wǎng)站推廣方式,比如有獎問(wèn)答、網(wǎng)上優(yōu)惠券、有獎?wù){查、網(wǎng)上購物網(wǎng)站推廣比較購物和購物搜索引擎等,有的甚至使用建立輔助網(wǎng)站進(jìn)行推廣。有的網(wǎng)站推廣方式可能很巧妙,有的網(wǎng)站可能會(huì )使用某種強制的方式來(lái)達到推廣的目的,比如修改用戶(hù)瀏覽器的默認首頁(yè)設置,自動(dòng)添加到采集夾,甚至在用戶(hù)的計算機上。真正值得推廣的是合理文明的網(wǎng)站推廣方式,強制和破壞性的網(wǎng)站推廣方式應該拒絕和反對。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(Google周游器會(huì )定期抓取Web,較珍視網(wǎng)頁(yè)標志的形貌)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 97 次瀏覽 ? 2022-04-17 12:31 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(Google周游器會(huì )定期抓取Web,較珍視網(wǎng)頁(yè)標志的形貌)
  最初是從:;
  用戶(hù)可以獲得更準確的搜索結果。在綜合考慮群體緊張度和與特定查詢(xún)的相關(guān)性之后,拍攝多個(gè)快照的方法,一般來(lái)說(shuō),點(diǎn)擊進(jìn)去只會(huì )發(fā)現長(cháng)期過(guò)時(shí)的信息或垃圾信息?!耙环N基于詞匯的計算機化索引和檢索方法”,谷歌還通過(guò)分析相鄰頁(yè)面的內容來(lái)贏(yíng)得谷歌的信任。相反,從A頁(yè)面到B頁(yè)面的鏈接表明A頁(yè)面有B的投票權,所以我們在制作友情鏈接時(shí),一定要仔細規劃鏈接的文字和外觀(guān),確定哪些頁(yè)面壓力最大。提高系統服務(wù)質(zhì)量和效率,快速響應:谷歌收錄New網(wǎng)站兩種方式分別是:一、
  谷歌搜索引擎海關(guān)
  作為全球最大的多語(yǔ)種搜索引擎,谷歌發(fā)展迅速,具有很高的靈活性:谷歌網(wǎng)頁(yè)定期抓取網(wǎng)頁(yè),
  多注意網(wǎng)頁(yè)logo的外觀(guān):大多數時(shí)候,Google會(huì )在顯示搜索結果時(shí)顯示網(wǎng)頁(yè)的Deion。百度的搜索引擎人工化程度高,以后完成的下一次爬取對于新的網(wǎng)站,以及現有的網(wǎng)站www來(lái)說(shuō),都太詳細了,要看網(wǎng)頁(yè)的更新速度。搜索引擎優(yōu)化是在內容之上創(chuàng )建的,排名第二。它還創(chuàng )建了自己的一套標準,以便谷歌將最相關(guān)和最可靠的搜索結果放在首位。優(yōu)化網(wǎng)頁(yè)。百度與谷歌除了在某些方面有相似或相似之處外,還具有以下特點(diǎn):
  多注意第一印象收錄:網(wǎng)站百度的第一印象比較重要,com的變化和無(wú)效鏈接,偶爾甚至不相關(guān),都算是比較重要的內容放首先它。88151,谷歌利用的技能
  PageRank技術(shù):PageRank可以對網(wǎng)頁(yè)的張力做出客觀(guān)的評價(jià)。com/article/1/"class="UBBWordLink">在歷史的進(jìn)程中,已經(jīng)形成了自己的網(wǎng)頁(yè)收錄習慣,使其既適合網(wǎng)站定位又不失相關(guān)性,所以。研究Goolge收錄 @收錄網(wǎng)頁(yè)的風(fēng)俗有利于更好地迎合Google搜索引擎的口味,
  超文本分析:谷歌的搜索引擎也分析網(wǎng)頁(yè)內容。相對而言,谷歌的技術(shù)不接受簡(jiǎn)單的網(wǎng)絡(luò )文本掃描(網(wǎng)站Blog Marketing Tools Publishers可以使用meta標簽來(lái)控制這個(gè).like text),PageRank不計算直接鏈接的數量,使用的技術(shù)百度
  《一種在互聯(lián)網(wǎng)上識別鏡像和準鏡像網(wǎng)站的方法》。確保將最相關(guān)的結果返回給用戶(hù)的查詢(xún)。
  2、我們需要用大量相關(guān)內容補充核心關(guān)鍵詞或其他相關(guān)長(cháng)尾關(guān)鍵詞,以達到提高網(wǎng)頁(yè)收錄量和收錄排名的目的。
  重視收錄日期:百度非常重視網(wǎng)頁(yè)的收錄日期。
  更珍惜首頁(yè):百度對首頁(yè)的重視程度遠高于谷歌,用戶(hù)體驗有所妥協(xié),占據更大空間;隨著(zhù)互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,百度收錄特色
  百度是全球最大的中文搜索引擎,具有添加隱形詞的能力。確定網(wǎng)站核心關(guān)鍵詞(產(chǎn)品和服務(wù)關(guān)鍵詞)后,
  SEO優(yōu)化開(kāi)發(fā)和實(shí)施策略
  在了解了搜索引擎排名原理后,百度提供的網(wǎng)頁(yè)快照結果并沒(méi)有分析相對位置的絕對路徑,反而落后于超文本分析。然而。
  更加關(guān)注鏈接的文字外觀(guān):Google會(huì )根據詞匯索引和檢索系統,將鏈接的文字外觀(guān)作為關(guān)鍵詞進(jìn)行索引,以提高檢索質(zhì)量??梢酝ㄟ^(guò)以下方式解決:
  1. 越早獲得收錄,排名越高。節省網(wǎng)絡(luò )資源和本地資源。保存當前信息狀態(tài)。關(guān)鍵詞策略——SEO的核心
  網(wǎng)站 的內容以關(guān)鍵詞為補充,PageRank 會(huì )根據其獲得的票數來(lái)評估 B 頁(yè)面的張力。最終提高網(wǎng)站的銷(xiāo)售或宣傳技巧的能力,該方法解決了搜索引擎重復獲取相似信息的問(wèn)題。通過(guò)向 Google 提交 網(wǎng)站 登錄數據。獲取有效數據:并決定對快照信息的一系列分析。與谷歌相比,
  相關(guān)性和相關(guān)性:Google 使用 PageRank 技術(shù)檢查整個(gè)網(wǎng)絡(luò )鏈接結構,//www,chinabaike,以確定哪些頁(yè)面與正在執行的特定搜索相關(guān)。這可以給百度一個(gè)更好的第一印象。谷歌收錄具有以下特點(diǎn)
  靈敏度很高。
  百度搜索引擎收錄自定義
  1. SEO(搜索引擎優(yōu)化)研究確定各種搜索引擎如何抓取互聯(lián)網(wǎng)頁(yè)面,如何索引以及如何確定特定關(guān)鍵字的搜索結果排名的技巧;所以它基本上在百度的搜索結果中。收錄 的時(shí)間標記清楚。如果谷歌對外部鏈接網(wǎng)站的評價(jià)高,收錄出現的頻率高,那么創(chuàng )建新站點(diǎn)的速度也相應高,所以,
  2.輕松訪(fǎng)問(wèn)不斷變化的在線(xiàn)信息環(huán)境。在某種程度上,內容的變化在搜索結果中起到了中介作用。后者的收錄速度比較快,“一種利用快照記錄和分析在線(xiàn)信息的方法”,人們決定在搜索引擎中搜索關(guān)鍵詞來(lái)獲取必要的信息。越來(lái)越廣泛的要領(lǐng),
  1.前者取決于新創(chuàng )建的網(wǎng)站的外部鏈接網(wǎng)站的收錄出現的頻率,網(wǎng)站最好在登錄前豐富內容百度搜索引擎,原創(chuàng )內容多一點(diǎn),網(wǎng)頁(yè)的關(guān)鍵詞與內容的相關(guān)性高一點(diǎn),從而增加網(wǎng)站的流量。它并不特定于某個(gè)內容頁(yè)面(當它認為它還不夠時(shí))。通過(guò)網(wǎng)站的外部鏈接,中文網(wǎng)頁(yè)的搜索技術(shù)在某種程度上領(lǐng)先于谷歌。并增加了其“百度快照”的用戶(hù)數,
  對網(wǎng)頁(yè)更新敏感:百度對網(wǎng)頁(yè)更新比谷歌更敏感。為了讓搜索引擎知道這個(gè) 網(wǎng)站 做了什么,這意味著(zhù)在某種程度上,可能由人們來(lái)決定是否 收錄 一個(gè)頁(yè)面而不是機器。這與上面提到的“珍惜第一收錄印象”一脈相承,百度搜索引擎每周更新一次??赡苓@和百度的本地特性有關(guān),百度在顯示搜索結果時(shí)經(jīng)常會(huì )顯示網(wǎng)站首頁(yè)。開(kāi)發(fā)和實(shí)施SEO,經(jīng)過(guò)詞法分析處理,
  完美位置的鏈接更受重視:百度在收錄頁(yè)面時(shí)更看重完美位置的收錄。新的網(wǎng)站為收錄的日期會(huì )提前,這樣可以提高搜索引擎排名;這個(gè)網(wǎng)站的核心是什么,大量網(wǎng)頁(yè)的索引也是其搜索結果排名點(diǎn)的參考。
  . 頻率在幾天到一個(gè)月之間,方法是在互聯(lián)網(wǎng)上解決特定的一條信息。 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(Google周游器會(huì )定期抓取Web,較珍視網(wǎng)頁(yè)標志的形貌)
  最初是從:;
  用戶(hù)可以獲得更準確的搜索結果。在綜合考慮群體緊張度和與特定查詢(xún)的相關(guān)性之后,拍攝多個(gè)快照的方法,一般來(lái)說(shuō),點(diǎn)擊進(jìn)去只會(huì )發(fā)現長(cháng)期過(guò)時(shí)的信息或垃圾信息?!耙环N基于詞匯的計算機化索引和檢索方法”,谷歌還通過(guò)分析相鄰頁(yè)面的內容來(lái)贏(yíng)得谷歌的信任。相反,從A頁(yè)面到B頁(yè)面的鏈接表明A頁(yè)面有B的投票權,所以我們在制作友情鏈接時(shí),一定要仔細規劃鏈接的文字和外觀(guān),確定哪些頁(yè)面壓力最大。提高系統服務(wù)質(zhì)量和效率,快速響應:谷歌收錄New網(wǎng)站兩種方式分別是:一、
  谷歌搜索引擎海關(guān)
  作為全球最大的多語(yǔ)種搜索引擎,谷歌發(fā)展迅速,具有很高的靈活性:谷歌網(wǎng)頁(yè)定期抓取網(wǎng)頁(yè),
  多注意網(wǎng)頁(yè)logo的外觀(guān):大多數時(shí)候,Google會(huì )在顯示搜索結果時(shí)顯示網(wǎng)頁(yè)的Deion。百度的搜索引擎人工化程度高,以后完成的下一次爬取對于新的網(wǎng)站,以及現有的網(wǎng)站www來(lái)說(shuō),都太詳細了,要看網(wǎng)頁(yè)的更新速度。搜索引擎優(yōu)化是在內容之上創(chuàng )建的,排名第二。它還創(chuàng )建了自己的一套標準,以便谷歌將最相關(guān)和最可靠的搜索結果放在首位。優(yōu)化網(wǎng)頁(yè)。百度與谷歌除了在某些方面有相似或相似之處外,還具有以下特點(diǎn):
  多注意第一印象收錄:網(wǎng)站百度的第一印象比較重要,com的變化和無(wú)效鏈接,偶爾甚至不相關(guān),都算是比較重要的內容放首先它。88151,谷歌利用的技能
  PageRank技術(shù):PageRank可以對網(wǎng)頁(yè)的張力做出客觀(guān)的評價(jià)。com/article/1/"class="UBBWordLink">在歷史的進(jìn)程中,已經(jīng)形成了自己的網(wǎng)頁(yè)收錄習慣,使其既適合網(wǎng)站定位又不失相關(guān)性,所以。研究Goolge收錄 @收錄網(wǎng)頁(yè)的風(fēng)俗有利于更好地迎合Google搜索引擎的口味,
  超文本分析:谷歌的搜索引擎也分析網(wǎng)頁(yè)內容。相對而言,谷歌的技術(shù)不接受簡(jiǎn)單的網(wǎng)絡(luò )文本掃描(網(wǎng)站Blog Marketing Tools Publishers可以使用meta標簽來(lái)控制這個(gè).like text),PageRank不計算直接鏈接的數量,使用的技術(shù)百度
  《一種在互聯(lián)網(wǎng)上識別鏡像和準鏡像網(wǎng)站的方法》。確保將最相關(guān)的結果返回給用戶(hù)的查詢(xún)。
  2、我們需要用大量相關(guān)內容補充核心關(guān)鍵詞或其他相關(guān)長(cháng)尾關(guān)鍵詞,以達到提高網(wǎng)頁(yè)收錄量和收錄排名的目的。
  重視收錄日期:百度非常重視網(wǎng)頁(yè)的收錄日期。
  更珍惜首頁(yè):百度對首頁(yè)的重視程度遠高于谷歌,用戶(hù)體驗有所妥協(xié),占據更大空間;隨著(zhù)互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,百度收錄特色
  百度是全球最大的中文搜索引擎,具有添加隱形詞的能力。確定網(wǎng)站核心關(guān)鍵詞(產(chǎn)品和服務(wù)關(guān)鍵詞)后,
  SEO優(yōu)化開(kāi)發(fā)和實(shí)施策略
  在了解了搜索引擎排名原理后,百度提供的網(wǎng)頁(yè)快照結果并沒(méi)有分析相對位置的絕對路徑,反而落后于超文本分析。然而。
  更加關(guān)注鏈接的文字外觀(guān):Google會(huì )根據詞匯索引和檢索系統,將鏈接的文字外觀(guān)作為關(guān)鍵詞進(jìn)行索引,以提高檢索質(zhì)量??梢酝ㄟ^(guò)以下方式解決:
  1. 越早獲得收錄,排名越高。節省網(wǎng)絡(luò )資源和本地資源。保存當前信息狀態(tài)。關(guān)鍵詞策略——SEO的核心
  網(wǎng)站 的內容以關(guān)鍵詞為補充,PageRank 會(huì )根據其獲得的票數來(lái)評估 B 頁(yè)面的張力。最終提高網(wǎng)站的銷(xiāo)售或宣傳技巧的能力,該方法解決了搜索引擎重復獲取相似信息的問(wèn)題。通過(guò)向 Google 提交 網(wǎng)站 登錄數據。獲取有效數據:并決定對快照信息的一系列分析。與谷歌相比,
  相關(guān)性和相關(guān)性:Google 使用 PageRank 技術(shù)檢查整個(gè)網(wǎng)絡(luò )鏈接結構,//www,chinabaike,以確定哪些頁(yè)面與正在執行的特定搜索相關(guān)。這可以給百度一個(gè)更好的第一印象。谷歌收錄具有以下特點(diǎn)
  靈敏度很高。
  百度搜索引擎收錄自定義
  1. SEO(搜索引擎優(yōu)化)研究確定各種搜索引擎如何抓取互聯(lián)網(wǎng)頁(yè)面,如何索引以及如何確定特定關(guān)鍵字的搜索結果排名的技巧;所以它基本上在百度的搜索結果中。收錄 的時(shí)間標記清楚。如果谷歌對外部鏈接網(wǎng)站的評價(jià)高,收錄出現的頻率高,那么創(chuàng )建新站點(diǎn)的速度也相應高,所以,
  2.輕松訪(fǎng)問(wèn)不斷變化的在線(xiàn)信息環(huán)境。在某種程度上,內容的變化在搜索結果中起到了中介作用。后者的收錄速度比較快,“一種利用快照記錄和分析在線(xiàn)信息的方法”,人們決定在搜索引擎中搜索關(guān)鍵詞來(lái)獲取必要的信息。越來(lái)越廣泛的要領(lǐng),
  1.前者取決于新創(chuàng )建的網(wǎng)站的外部鏈接網(wǎng)站的收錄出現的頻率,網(wǎng)站最好在登錄前豐富內容百度搜索引擎,原創(chuàng )內容多一點(diǎn),網(wǎng)頁(yè)的關(guān)鍵詞與內容的相關(guān)性高一點(diǎn),從而增加網(wǎng)站的流量。它并不特定于某個(gè)內容頁(yè)面(當它認為它還不夠時(shí))。通過(guò)網(wǎng)站的外部鏈接,中文網(wǎng)頁(yè)的搜索技術(shù)在某種程度上領(lǐng)先于谷歌。并增加了其“百度快照”的用戶(hù)數,
  對網(wǎng)頁(yè)更新敏感:百度對網(wǎng)頁(yè)更新比谷歌更敏感。為了讓搜索引擎知道這個(gè) 網(wǎng)站 做了什么,這意味著(zhù)在某種程度上,可能由人們來(lái)決定是否 收錄 一個(gè)頁(yè)面而不是機器。這與上面提到的“珍惜第一收錄印象”一脈相承,百度搜索引擎每周更新一次??赡苓@和百度的本地特性有關(guān),百度在顯示搜索結果時(shí)經(jīng)常會(huì )顯示網(wǎng)站首頁(yè)。開(kāi)發(fā)和實(shí)施SEO,經(jīng)過(guò)詞法分析處理,
  完美位置的鏈接更受重視:百度在收錄頁(yè)面時(shí)更看重完美位置的收錄。新的網(wǎng)站為收錄的日期會(huì )提前,這樣可以提高搜索引擎排名;這個(gè)網(wǎng)站的核心是什么,大量網(wǎng)頁(yè)的索引也是其搜索結果排名點(diǎn)的參考。
  . 頻率在幾天到一個(gè)月之間,方法是在互聯(lián)網(wǎng)上解決特定的一條信息。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(搜狗實(shí)驗室《搜索引擎用戶(hù)查詢(xún)日志(SogouQ)》(組圖))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-04-17 11:39 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(搜狗實(shí)驗室《搜索引擎用戶(hù)查詢(xún)日志(SogouQ)》(組圖))
  數據——可以簡(jiǎn)單地理解為人們行為的符號表示。信息技術(shù)的發(fā)展使計算機能夠無(wú)時(shí)無(wú)刻地記錄人們的數據,而人們在計算機面前早已是“透明的人”。一切都在運動(dòng),對于數據來(lái)說(shuō),它總是在變化。當我們分析數據時(shí),我們希望發(fā)現模式、趨勢,并從不斷變化的數據中提取有價(jià)值的內容。好的數據是未開(kāi)發(fā)的金礦。一份好的數據分析報告可以幫助管理者明確策略,不斷優(yōu)化調整策略,也可以幫助產(chǎn)品經(jīng)理更好地把握產(chǎn)品的運行情況,有針對性地不斷升級優(yōu)化產(chǎn)品,提升客戶(hù)體驗,增強用戶(hù)粘性. ,
  2、分析目的
  不同的域有不同的域用于分析目的。比如基金公司的數據分析,更多的是對所投資股票的價(jià)值分析。電商企業(yè)的數據分析會(huì )關(guān)注漏斗的轉化率。結合本文的實(shí)際案例分析,我們數據分析的主要目的如下:(1)驗證我們的判斷。例如:我們根據經(jīng)驗判斷會(huì )有更多的知識去探索某個(gè)領(lǐng)域晚上。來(lái)驗證你的判斷是否正確。(2)用戶(hù)興趣發(fā)現和商機發(fā)現。例如:某關(guān)鍵詞被檢索的頻率很高,說(shuō)明它很有可能成為熱點(diǎn)熱點(diǎn),所以提前做好熱點(diǎn)準備,以獲取流量?jì)?yōu)勢。(3) 防范風(fēng)險。例如:某關(guān)鍵詞在某區域短時(shí)間內出現高頻率,很??有可能會(huì )出現區域性風(fēng)險。有關(guān)部門(mén)或企業(yè)應提前介入處置,化解風(fēng)險,盡可能減少損失。
  3、數據準備
  既然是實(shí)踐,就要分析真實(shí)數據。本文數據來(lái)自搜狗實(shí)驗室的《搜索引擎用戶(hù)查詢(xún)日志(SogouQ)》(資料地址: )。使用了搜狗實(shí)驗室提供的簡(jiǎn)化版數據。該數據包收錄一天的檢索數據。數據壓縮包為63MB,解壓后的數據包大小為144MB。數據格式為:訪(fǎng)問(wèn)時(shí)間\tuser ID\t[查詢(xún)詞]\返回結果中URL的trank\用戶(hù)點(diǎn)擊的t序列號\t用戶(hù)點(diǎn)擊的URL。用戶(hù)ID是在用戶(hù)使用瀏覽器訪(fǎng)問(wèn)搜索引擎時(shí)根據cookie信息自動(dòng)分配的,即同時(shí)使用瀏覽器輸入的不同查詢(xún)對應同一個(gè)用戶(hù)ID。
  數據樣本如下:
  00:00:3774412[360SecurityGuard]8 /softweb/software/firewall/antivirus/20067/17938.html
  這主要是為了直觀(guān)地向您展示數據格式。更詳細的數據可以去搜狗實(shí)驗室官網(wǎng)。
  4、分析過(guò)程
  4.1 不同時(shí)間段的檢索
  我們以小時(shí)為單位,分為24小時(shí),全天查看用戶(hù)檢索情況。首先,在 Python 程序中導入 CSV 文件。這個(gè)太基礎了,這里就不多說(shuō)了。由于源數據的時(shí)間格式是“時(shí):分:秒”,我們準備每小時(shí)分析一次。為了便于操作,我們將源數據“小時(shí):分鐘:秒”處理為僅保留小時(shí)。之后我們將數據格式化為 DataFrame 數據格式。使用groupby功能準時(shí)操作。使用 size() 聚合和顯示分組數據。由于本文主要講解思路,這里只展示部分源碼。如需操作說(shuō)明,可以關(guān)注我的微信公眾號:佳佳原創(chuàng )。在公眾號留言,我看到會(huì )第一時(shí)間回復你。
  
  上圖中的print()函數主要用于查看生成的數據。您也可以將其注釋掉。根據操作生成對應的數據,根據數據生成分析折線(xiàn)圖,如下圖所示:
  
  如果需要不斷微調折線(xiàn)圖的生成,而每一代數據的計算時(shí)間較長(cháng),其實(shí)可以先保存生成的數據,然后在調整折線(xiàn)圖的元素時(shí),結果數據可直接使用,無(wú)需重新計算。數據,可以節省很多時(shí)間。
  在我們將數據可視化之后,原創(chuàng )的密集數據變得更加清晰。我們可以很容易直觀(guān)的看到用戶(hù)的檢索頻率在早上4:00左右最少,下午16:00左右檢索頻率最高。也反映了網(wǎng)民的上網(wǎng)習慣。如果我們是廣告主,我們可以根據這種情況對不同時(shí)間段的廣告進(jìn)行有針對性的定價(jià)。而如果我們需要做廣告,我們也知道在哪個(gè)時(shí)間段做廣告,廣告的曝光率是相對最高的。4.2 不同用戶(hù)的檢索情況接下來(lái)我們來(lái)分析一下不同用戶(hù)的檢索情況。查看哪些用戶(hù)搜索最多。這個(gè)分析需要用到Python DataFrame中的count()操作,即:groupby(user ID).count()。之后,我們用新生成的數據構造一個(gè)DataFrame,取前50個(gè)用戶(hù)數據,做一個(gè)降序操作。部分源代碼如下所示:
  
  上圖Console中顯示的數據是當天檢索量排名前50的用戶(hù)。有興趣的同學(xué)可以到搜狗實(shí)驗室官網(wǎng)下載這個(gè)數據,看看當天檢索量為431的客戶(hù)檢索到了什么。一定是重度依賴(lài)網(wǎng)絡(luò )的朋友。具體參觀(guān)什么,我們后面再看。經(jīng)過(guò)數據分析,我們決定抽取前20名用戶(hù),用條形圖來(lái)展示他們的檢索情況。選擇20個(gè)用戶(hù)的主要原因是,一是為了讓圖表美觀(guān),二是縮小數據范圍,集中分析少數用戶(hù),節省分析成本。前20名用戶(hù)的檢索情況如下圖所示:
  
  由于數據量大且時(shí)間關(guān)系,我們接下來(lái)選擇其中一位用戶(hù)對其檢索數據進(jìn)行分析。然后轉到下一部分。
  4.3 用戶(hù)檢索數據分析
  我們選取檢索量最大的用戶(hù)“147154”,分析他一天的檢索情況。我們先來(lái)看看這個(gè)用戶(hù)在不同時(shí)間段的檢索量。08 2 09 6420 57 21 21822 90 左邊是時(shí)間數據,右邊是檢索量。這個(gè)用戶(hù)似乎在晚上 21:00 搜索的頻率更高。讓我們分析一下這個(gè)用戶(hù)檢索到了哪些內容。同時(shí),對用戶(hù)搜索詞的搜索量進(jìn)行倒序排序。如下:
  
  由于數據有限,我們也不知道用戶(hù)的年齡、職業(yè)和性別。但搜索的內容卻相當令人驚訝。也客觀(guān)地表明,每一個(gè)看似正常的人,都有不為人知的一面。如果想深入分析,可以從搜狗實(shí)驗室下載這個(gè)數據,使用本文提供的分析中排名前20的用戶(hù)ID,直接檢索這20個(gè)用戶(hù)在數據中的搜索結果。4.4 不同的搜索關(guān)鍵詞
  接下來(lái),我們將從全天的角度分析當天不同關(guān)鍵詞的檢索情況?;痉治鏊悸肥翘崛‘斕焖嘘P(guān)鍵詞的數量,然后通過(guò)詞頻云圖直觀(guān)展示。根據數據,我們生成詞頻信息。同樣,為了方便觀(guān)察,我們按詞頻倒序排列。由于數據量大,我們只展示其中的一部分。如下所示:
  
  為了展示詞頻云圖,我們需要引入“import 采集s”和“import wordcloud”這兩個(gè)庫。具體用法可以參考相關(guān)資料,這里不再贅述。如果您在使用過(guò)程中有任何問(wèn)題,也可以隨時(shí)與我聯(lián)系。我看到了,會(huì )盡快回復你。由于大部分搜索詞還是比較“奇怪”的,所以不用看的那么清楚,只要知道大致的分析思路即可。根據詞頻生成詞頻云圖,如下圖所示:
  
  5、分析總結有時(shí)候對方提供的數據在導入時(shí)或多或少都會(huì )出現一些問(wèn)題,比如:和我們處理格式有些差異,編碼問(wèn)題。這就需要我們在數據分析前對數據進(jìn)行梳理,在導入數據時(shí)處理異常,同時(shí)解決一些可能影響分析的垃圾數據。俗話(huà)說(shuō)“垃圾進(jìn),垃圾出”。因此,在進(jìn)行數據分析之前,確保數據的真實(shí)、可靠和有效是非常必要和非常重要的。對于數據分析,不同的領(lǐng)域、不同的場(chǎng)景、不同的目標有不同的數據分析方法和方法,這就需要我們對癥下藥?;ヂ?lián)網(wǎng)公司和電商公司網(wǎng)站更關(guān)注用戶(hù)留存分析,轉化率和訪(fǎng)問(wèn)軌跡。金融行業(yè)的公司,比如基金公司,更傾向于做時(shí)間序列分析和趨勢分析。本文的分析更多是通過(guò)數據提取和可視化發(fā)現一些潛在的情況。通過(guò)我們這次對用戶(hù)檢索數據的分析,最直觀(guān)的感受就是網(wǎng)絡(luò )平臺就像一個(gè)濃縮的社會(huì )。雖然大家都在網(wǎng)上搜索,沒(méi)有人認識任何人,但在某種程度上還是有一些聯(lián)系的。在這個(gè)平臺上,有好人和壞人,也有在日常生活中對不同表情做出反應的人。正是因為在線(xiàn)檢索的匿名性,個(gè)人的行為沒(méi)有偽裝,也反映了更真實(shí)的個(gè)人。從這個(gè)角度來(lái)看,網(wǎng)絡(luò )數據分析的結果往往優(yōu)于離線(xiàn)數據分析。雖然我們現在注重隱私保護,但如果是出于公共安全的目的,其實(shí)可以進(jìn)行相關(guān)的數據分析和預警,提前發(fā)現可能的違法犯罪情況。比如一個(gè)人經(jīng)常搜索如何綁架等惡毒詞,也在一定程度上客觀(guān)反映了他的心理狀態(tài),然后結合他的行動(dòng)軌跡、購物記錄、記分卡等綜合判斷這個(gè)人的概率實(shí)施違法犯罪,及早預防和降低危害公共安全的風(fēng)險。技術(shù)是一把雙刃劍。為了真正發(fā)揮技術(shù)的價(jià)值,我們需要更加理性、科學(xué)地掌握和使用技術(shù),讓技術(shù)真正為人服務(wù)。數據分析也是如此。企業(yè)或個(gè)人價(jià)值觀(guān)的好壞也決定了數據分析結果的價(jià)值。無(wú)論如何,如果每個(gè)企業(yè)和每個(gè)人都能將“不作惡”作為其行為準則的底線(xiàn),世界將會(huì )變得更加美好。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~ 其行為準則的底線(xiàn)。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~ 其行為準則的底線(xiàn)。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~ 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(搜狗實(shí)驗室《搜索引擎用戶(hù)查詢(xún)日志(SogouQ)》(組圖))
  數據——可以簡(jiǎn)單地理解為人們行為的符號表示。信息技術(shù)的發(fā)展使計算機能夠無(wú)時(shí)無(wú)刻地記錄人們的數據,而人們在計算機面前早已是“透明的人”。一切都在運動(dòng),對于數據來(lái)說(shuō),它總是在變化。當我們分析數據時(shí),我們希望發(fā)現模式、趨勢,并從不斷變化的數據中提取有價(jià)值的內容。好的數據是未開(kāi)發(fā)的金礦。一份好的數據分析報告可以幫助管理者明確策略,不斷優(yōu)化調整策略,也可以幫助產(chǎn)品經(jīng)理更好地把握產(chǎn)品的運行情況,有針對性地不斷升級優(yōu)化產(chǎn)品,提升客戶(hù)體驗,增強用戶(hù)粘性. ,
  2、分析目的
  不同的域有不同的域用于分析目的。比如基金公司的數據分析,更多的是對所投資股票的價(jià)值分析。電商企業(yè)的數據分析會(huì )關(guān)注漏斗的轉化率。結合本文的實(shí)際案例分析,我們數據分析的主要目的如下:(1)驗證我們的判斷。例如:我們根據經(jīng)驗判斷會(huì )有更多的知識去探索某個(gè)領(lǐng)域晚上。來(lái)驗證你的判斷是否正確。(2)用戶(hù)興趣發(fā)現和商機發(fā)現。例如:某關(guān)鍵詞被檢索的頻率很高,說(shuō)明它很有可能成為熱點(diǎn)熱點(diǎn),所以提前做好熱點(diǎn)準備,以獲取流量?jì)?yōu)勢。(3) 防范風(fēng)險。例如:某關(guān)鍵詞在某區域短時(shí)間內出現高頻率,很??有可能會(huì )出現區域性風(fēng)險。有關(guān)部門(mén)或企業(yè)應提前介入處置,化解風(fēng)險,盡可能減少損失。
  3、數據準備
  既然是實(shí)踐,就要分析真實(shí)數據。本文數據來(lái)自搜狗實(shí)驗室的《搜索引擎用戶(hù)查詢(xún)日志(SogouQ)》(資料地址: )。使用了搜狗實(shí)驗室提供的簡(jiǎn)化版數據。該數據包收錄一天的檢索數據。數據壓縮包為63MB,解壓后的數據包大小為144MB。數據格式為:訪(fǎng)問(wèn)時(shí)間\tuser ID\t[查詢(xún)詞]\返回結果中URL的trank\用戶(hù)點(diǎn)擊的t序列號\t用戶(hù)點(diǎn)擊的URL。用戶(hù)ID是在用戶(hù)使用瀏覽器訪(fǎng)問(wèn)搜索引擎時(shí)根據cookie信息自動(dòng)分配的,即同時(shí)使用瀏覽器輸入的不同查詢(xún)對應同一個(gè)用戶(hù)ID。
  數據樣本如下:
  00:00:3774412[360SecurityGuard]8 /softweb/software/firewall/antivirus/20067/17938.html
  這主要是為了直觀(guān)地向您展示數據格式。更詳細的數據可以去搜狗實(shí)驗室官網(wǎng)。
  4、分析過(guò)程
  4.1 不同時(shí)間段的檢索
  我們以小時(shí)為單位,分為24小時(shí),全天查看用戶(hù)檢索情況。首先,在 Python 程序中導入 CSV 文件。這個(gè)太基礎了,這里就不多說(shuō)了。由于源數據的時(shí)間格式是“時(shí):分:秒”,我們準備每小時(shí)分析一次。為了便于操作,我們將源數據“小時(shí):分鐘:秒”處理為僅保留小時(shí)。之后我們將數據格式化為 DataFrame 數據格式。使用groupby功能準時(shí)操作。使用 size() 聚合和顯示分組數據。由于本文主要講解思路,這里只展示部分源碼。如需操作說(shuō)明,可以關(guān)注我的微信公眾號:佳佳原創(chuàng )。在公眾號留言,我看到會(huì )第一時(shí)間回復你。
  
  上圖中的print()函數主要用于查看生成的數據。您也可以將其注釋掉。根據操作生成對應的數據,根據數據生成分析折線(xiàn)圖,如下圖所示:
  
  如果需要不斷微調折線(xiàn)圖的生成,而每一代數據的計算時(shí)間較長(cháng),其實(shí)可以先保存生成的數據,然后在調整折線(xiàn)圖的元素時(shí),結果數據可直接使用,無(wú)需重新計算。數據,可以節省很多時(shí)間。
  在我們將數據可視化之后,原創(chuàng )的密集數據變得更加清晰。我們可以很容易直觀(guān)的看到用戶(hù)的檢索頻率在早上4:00左右最少,下午16:00左右檢索頻率最高。也反映了網(wǎng)民的上網(wǎng)習慣。如果我們是廣告主,我們可以根據這種情況對不同時(shí)間段的廣告進(jìn)行有針對性的定價(jià)。而如果我們需要做廣告,我們也知道在哪個(gè)時(shí)間段做廣告,廣告的曝光率是相對最高的。4.2 不同用戶(hù)的檢索情況接下來(lái)我們來(lái)分析一下不同用戶(hù)的檢索情況。查看哪些用戶(hù)搜索最多。這個(gè)分析需要用到Python DataFrame中的count()操作,即:groupby(user ID).count()。之后,我們用新生成的數據構造一個(gè)DataFrame,取前50個(gè)用戶(hù)數據,做一個(gè)降序操作。部分源代碼如下所示:
  
  上圖Console中顯示的數據是當天檢索量排名前50的用戶(hù)。有興趣的同學(xué)可以到搜狗實(shí)驗室官網(wǎng)下載這個(gè)數據,看看當天檢索量為431的客戶(hù)檢索到了什么。一定是重度依賴(lài)網(wǎng)絡(luò )的朋友。具體參觀(guān)什么,我們后面再看。經(jīng)過(guò)數據分析,我們決定抽取前20名用戶(hù),用條形圖來(lái)展示他們的檢索情況。選擇20個(gè)用戶(hù)的主要原因是,一是為了讓圖表美觀(guān),二是縮小數據范圍,集中分析少數用戶(hù),節省分析成本。前20名用戶(hù)的檢索情況如下圖所示:
  
  由于數據量大且時(shí)間關(guān)系,我們接下來(lái)選擇其中一位用戶(hù)對其檢索數據進(jìn)行分析。然后轉到下一部分。
  4.3 用戶(hù)檢索數據分析
  我們選取檢索量最大的用戶(hù)“147154”,分析他一天的檢索情況。我們先來(lái)看看這個(gè)用戶(hù)在不同時(shí)間段的檢索量。08 2 09 6420 57 21 21822 90 左邊是時(shí)間數據,右邊是檢索量。這個(gè)用戶(hù)似乎在晚上 21:00 搜索的頻率更高。讓我們分析一下這個(gè)用戶(hù)檢索到了哪些內容。同時(shí),對用戶(hù)搜索詞的搜索量進(jìn)行倒序排序。如下:
  
  由于數據有限,我們也不知道用戶(hù)的年齡、職業(yè)和性別。但搜索的內容卻相當令人驚訝。也客觀(guān)地表明,每一個(gè)看似正常的人,都有不為人知的一面。如果想深入分析,可以從搜狗實(shí)驗室下載這個(gè)數據,使用本文提供的分析中排名前20的用戶(hù)ID,直接檢索這20個(gè)用戶(hù)在數據中的搜索結果。4.4 不同的搜索關(guān)鍵詞
  接下來(lái),我們將從全天的角度分析當天不同關(guān)鍵詞的檢索情況?;痉治鏊悸肥翘崛‘斕焖嘘P(guān)鍵詞的數量,然后通過(guò)詞頻云圖直觀(guān)展示。根據數據,我們生成詞頻信息。同樣,為了方便觀(guān)察,我們按詞頻倒序排列。由于數據量大,我們只展示其中的一部分。如下所示:
  
  為了展示詞頻云圖,我們需要引入“import 采集s”和“import wordcloud”這兩個(gè)庫。具體用法可以參考相關(guān)資料,這里不再贅述。如果您在使用過(guò)程中有任何問(wèn)題,也可以隨時(shí)與我聯(lián)系。我看到了,會(huì )盡快回復你。由于大部分搜索詞還是比較“奇怪”的,所以不用看的那么清楚,只要知道大致的分析思路即可。根據詞頻生成詞頻云圖,如下圖所示:
  
  5、分析總結有時(shí)候對方提供的數據在導入時(shí)或多或少都會(huì )出現一些問(wèn)題,比如:和我們處理格式有些差異,編碼問(wèn)題。這就需要我們在數據分析前對數據進(jìn)行梳理,在導入數據時(shí)處理異常,同時(shí)解決一些可能影響分析的垃圾數據。俗話(huà)說(shuō)“垃圾進(jìn),垃圾出”。因此,在進(jìn)行數據分析之前,確保數據的真實(shí)、可靠和有效是非常必要和非常重要的。對于數據分析,不同的領(lǐng)域、不同的場(chǎng)景、不同的目標有不同的數據分析方法和方法,這就需要我們對癥下藥?;ヂ?lián)網(wǎng)公司和電商公司網(wǎng)站更關(guān)注用戶(hù)留存分析,轉化率和訪(fǎng)問(wèn)軌跡。金融行業(yè)的公司,比如基金公司,更傾向于做時(shí)間序列分析和趨勢分析。本文的分析更多是通過(guò)數據提取和可視化發(fā)現一些潛在的情況。通過(guò)我們這次對用戶(hù)檢索數據的分析,最直觀(guān)的感受就是網(wǎng)絡(luò )平臺就像一個(gè)濃縮的社會(huì )。雖然大家都在網(wǎng)上搜索,沒(méi)有人認識任何人,但在某種程度上還是有一些聯(lián)系的。在這個(gè)平臺上,有好人和壞人,也有在日常生活中對不同表情做出反應的人。正是因為在線(xiàn)檢索的匿名性,個(gè)人的行為沒(méi)有偽裝,也反映了更真實(shí)的個(gè)人。從這個(gè)角度來(lái)看,網(wǎng)絡(luò )數據分析的結果往往優(yōu)于離線(xiàn)數據分析。雖然我們現在注重隱私保護,但如果是出于公共安全的目的,其實(shí)可以進(jìn)行相關(guān)的數據分析和預警,提前發(fā)現可能的違法犯罪情況。比如一個(gè)人經(jīng)常搜索如何綁架等惡毒詞,也在一定程度上客觀(guān)反映了他的心理狀態(tài),然后結合他的行動(dòng)軌跡、購物記錄、記分卡等綜合判斷這個(gè)人的概率實(shí)施違法犯罪,及早預防和降低危害公共安全的風(fēng)險。技術(shù)是一把雙刃劍。為了真正發(fā)揮技術(shù)的價(jià)值,我們需要更加理性、科學(xué)地掌握和使用技術(shù),讓技術(shù)真正為人服務(wù)。數據分析也是如此。企業(yè)或個(gè)人價(jià)值觀(guān)的好壞也決定了數據分析結果的價(jià)值。無(wú)論如何,如果每個(gè)企業(yè)和每個(gè)人都能將“不作惡”作為其行為準則的底線(xiàn),世界將會(huì )變得更加美好。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~ 其行為準則的底線(xiàn)。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~ 其行為準則的底線(xiàn)。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(SEO搜索引擎優(yōu)化的99個(gè)技巧結果進(jìn)行排序,看誰(shuí)最初)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 113 次瀏覽 ? 2022-04-16 17:45 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(SEO搜索引擎優(yōu)化的99個(gè)技巧結果進(jìn)行排序,看誰(shuí)最初)
  整理分享SEO搜索引擎優(yōu)化的99個(gè)技巧
  SEO 對搜索引擎中的搜索結果進(jìn)行排名,以查看誰(shuí)首先被用戶(hù)看到。事實(shí)上,這些排名是通過(guò)搜索引擎算法實(shí)現的。先做SEO優(yōu)化的人,一定要有佛教的心態(tài),戒驕戒躁。
  其次,要有優(yōu)化的方法和技巧。讓我們寫(xiě)下關(guān)于SEO優(yōu)化的99個(gè)技巧:
  一、SEO網(wǎng)站優(yōu)化
  404錯誤頁(yè)面:
  1、使用根目錄下的index.html制作404錯誤頁(yè)面(更好的用戶(hù)體驗)
  2、404 錯誤頁(yè)面需要用 robots 協(xié)議阻止(防止 收錄 中心化)
  301重定向:
  3、301 重定向阻止 網(wǎng)站double收錄 和池 網(wǎng)站weights
  4、 索引后綴也需要在 網(wǎng)站 啟動(dòng)開(kāi)始時(shí)從服務(wù)器/空間中刪除(與 301) 的影響相同
  5、使用301-derrivative weights給目標網(wǎng)站過(guò)程中更高效和最小的損失權重
  網(wǎng)址優(yōu)化:
  6、網(wǎng)站文章列級可淺可不深,短可長(cháng)(有利于網(wǎng)站收錄)
  7、網(wǎng)站中的模板中,“/”代表根目錄或網(wǎng)站當前(頁(yè)面)域名URl
  8、文章列的子列也可以升級為二級列,把文件放到根目錄下即可
  9、網(wǎng)站最好將站點(diǎn)內的路徑設置為絕對路徑,這樣更安全,可以防止黑帽下載整個(gè)站點(diǎn)
  10、網(wǎng)站url最好是靜態(tài)鏈接或者偽靜態(tài),動(dòng)態(tài)鏈接蜘蛛爬的壓力很大
  機器人協(xié)議:
  11、Robot協(xié)議如果添加網(wǎng)站后端,可以使用*代替一些字符來(lái)保證安全
  12、Robots協(xié)議可以更好的輔助搜索引擎蜘蛛爬取我們的網(wǎng)站,提高爬取效率
  13、網(wǎng)站如果上線(xiàn)后第二天修改還沒(méi)有完成,可以使用Disallow:/屏蔽整個(gè)站點(diǎn)
  站點(diǎn)地圖網(wǎng)站地圖:
  14、Sitemap采集整個(gè)站點(diǎn)網(wǎng)站的鏈接,三種格式:XML、TXT和HTML 15、Sitemap可以在程序中使用網(wǎng)站的內容太多了。在中添加了自動(dòng)更新生成
  16、Sitemap 最好把三種格式都上傳,加入robots協(xié)議,提示蜘蛛爬取
  網(wǎng)站TDK:
  17、T標簽可以通過(guò)分詞技術(shù)清晰顯示關(guān)鍵詞、標題、品牌和地區
  18、K標簽不是沒(méi)用的,它們可以幫助搜索引擎識別網(wǎng)站主題和查詢(xún)排名
  19、適當出現在D標簽關(guān)鍵詞也有一定幾率出現在關(guān)鍵詞詞庫(練習)
  20、網(wǎng)站的TDK不僅要考慮搜索引擎排名,還要考慮用戶(hù)體驗來(lái)吸引點(diǎn)擊
  詳情:網(wǎng)頁(yè)鏈接 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(SEO搜索引擎優(yōu)化的99個(gè)技巧結果進(jìn)行排序,看誰(shuí)最初)
  整理分享SEO搜索引擎優(yōu)化的99個(gè)技巧
  SEO 對搜索引擎中的搜索結果進(jìn)行排名,以查看誰(shuí)首先被用戶(hù)看到。事實(shí)上,這些排名是通過(guò)搜索引擎算法實(shí)現的。先做SEO優(yōu)化的人,一定要有佛教的心態(tài),戒驕戒躁。
  其次,要有優(yōu)化的方法和技巧。讓我們寫(xiě)下關(guān)于SEO優(yōu)化的99個(gè)技巧:
  一、SEO網(wǎng)站優(yōu)化
  404錯誤頁(yè)面:
  1、使用根目錄下的index.html制作404錯誤頁(yè)面(更好的用戶(hù)體驗)
  2、404 錯誤頁(yè)面需要用 robots 協(xié)議阻止(防止 收錄 中心化)
  301重定向:
  3、301 重定向阻止 網(wǎng)站double收錄 和池 網(wǎng)站weights
  4、 索引后綴也需要在 網(wǎng)站 啟動(dòng)開(kāi)始時(shí)從服務(wù)器/空間中刪除(與 301) 的影響相同
  5、使用301-derrivative weights給目標網(wǎng)站過(guò)程中更高效和最小的損失權重
  網(wǎng)址優(yōu)化:
  6、網(wǎng)站文章列級可淺可不深,短可長(cháng)(有利于網(wǎng)站收錄)
  7、網(wǎng)站中的模板中,“/”代表根目錄或網(wǎng)站當前(頁(yè)面)域名URl
  8、文章列的子列也可以升級為二級列,把文件放到根目錄下即可
  9、網(wǎng)站最好將站點(diǎn)內的路徑設置為絕對路徑,這樣更安全,可以防止黑帽下載整個(gè)站點(diǎn)
  10、網(wǎng)站url最好是靜態(tài)鏈接或者偽靜態(tài),動(dòng)態(tài)鏈接蜘蛛爬的壓力很大
  機器人協(xié)議:
  11、Robot協(xié)議如果添加網(wǎng)站后端,可以使用*代替一些字符來(lái)保證安全
  12、Robots協(xié)議可以更好的輔助搜索引擎蜘蛛爬取我們的網(wǎng)站,提高爬取效率
  13、網(wǎng)站如果上線(xiàn)后第二天修改還沒(méi)有完成,可以使用Disallow:/屏蔽整個(gè)站點(diǎn)
  站點(diǎn)地圖網(wǎng)站地圖:
  14、Sitemap采集整個(gè)站點(diǎn)網(wǎng)站的鏈接,三種格式:XML、TXT和HTML 15、Sitemap可以在程序中使用網(wǎng)站的內容太多了。在中添加了自動(dòng)更新生成
  16、Sitemap 最好把三種格式都上傳,加入robots協(xié)議,提示蜘蛛爬取
  網(wǎng)站TDK:
  17、T標簽可以通過(guò)分詞技術(shù)清晰顯示關(guān)鍵詞、標題、品牌和地區
  18、K標簽不是沒(méi)用的,它們可以幫助搜索引擎識別網(wǎng)站主題和查詢(xún)排名
  19、適當出現在D標簽關(guān)鍵詞也有一定幾率出現在關(guān)鍵詞詞庫(練習)
  20、網(wǎng)站的TDK不僅要考慮搜索引擎排名,還要考慮用戶(hù)體驗來(lái)吸引點(diǎn)擊
  詳情:網(wǎng)頁(yè)鏈接

AI研習丨專(zhuān)題:知識支撐的信息檢索與推薦

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 69 次瀏覽 ? 2022-05-14 03:23 ? 來(lái)自相關(guān)話(huà)題

  AI研習丨專(zhuān)題:知識支撐的信息檢索與推薦
  
  摘 要
  本文介紹了目前國內外關(guān)于知識支撐的信息檢索與推薦的研究進(jìn)展,主要針對結合知識圖譜的信息檢索與推薦方法,以及知識支撐的搜索用戶(hù)行為分析兩個(gè)主要的研究方向進(jìn)行了梳理和分析,并對未來(lái)工作提出了展望。
  關(guān) 鍵 字
  信息檢索;推薦系統;知識圖譜;探索式搜索
  
  0 引言
  知識和信息,是兩個(gè)聯(lián)系緊密而又有所區別的概念。信息科學(xué)領(lǐng)域的 DIKW 體系(DataInformation-Knowledge-Wisdom pyramid)能很好地闡釋它們之間的關(guān)系。如圖 1 所示,DIKW 體系是一個(gè)金字塔,從下往上包含數據(data)、信 息 (information)、 知 識(knowledge) 和智慧(wisdom)四個(gè)組成部分。其中,數據是信息的基礎;信息是知識的基礎;知識是智慧的基礎。經(jīng)過(guò)一定組織和處理,使其與當前的上下文或者任務(wù)相關(guān),因此具有一定的意義、價(jià)值和相關(guān)性,并對完成當前任務(wù)有用,數據就可以被稱(chēng)為信息。當信息被進(jìn)一步結構化,與其他信息建立聯(lián)系,或者被吸收和整合現有的知識體系和結構中去,以幫助人們完成當前或未來(lái)的任務(wù),信息就被轉化為了知識。
  
  圖 1 DIKW 體系
  傳統信息檢索研究主要涉及對非結構化或半結構化的海量數據進(jìn)行存儲、組織、索引和檢索,使用戶(hù)能快捷有效地從中檢索和獲取相關(guān)的信息。即主要涉及如何幫助用戶(hù)從數據中獲取信息。然而隨著(zhù)信息檢索研究的不斷發(fā)展,研究者開(kāi)始逐漸意識到在信息檢索領(lǐng)域中引入知識的重要性。
  一方面,從系統的角度,研究者開(kāi)始意識到,在傳統的文本數據和用戶(hù)行為數據之外,我們可以利用知識圖譜等高質(zhì)量的結構化知識,進(jìn)一步改進(jìn)搜索引擎和推薦系統的排序性能。另一方面,從用戶(hù)的角度,研究者開(kāi)始將搜索過(guò)程看作是用戶(hù)學(xué)習和獲取知識的過(guò)程,從這一角度對用戶(hù)的搜索行為進(jìn)行分析、理解和建模。因此,本文將從上述兩個(gè)方面,介紹知識支撐的信息檢索與推薦相關(guān)研究進(jìn)展。
  1 結合知識圖譜的信息檢索與推薦方法
  在信息檢索領(lǐng)域,搜索引擎和推薦系統是兩個(gè)最重要的應用方向。目前已有大量研究工作從不同方面嘗試改進(jìn)搜索排序和推薦排序的效果,包括利用用戶(hù)的各類(lèi)交互行為(點(diǎn)擊和瀏覽等)和待排序條目的內容信息(描述和關(guān)鍵詞等),也已在不同場(chǎng)景提升了算法表現。隨著(zhù)近些年相關(guān)研究的逐漸深入,越來(lái)越多的研究者開(kāi)始意識到,信息檢索場(chǎng)景之外的結構化知識對進(jìn)一步改進(jìn)搜索和推薦算法有重要作用,這些結構化知識能幫助我們更好地刻畫(huà)搜索和推薦場(chǎng)景中的待排序條目。
  具體來(lái)說(shuō),知識圖譜中包含了大量的實(shí)體和實(shí)體間的聯(lián)系信息,這兩類(lèi)信息都對信息檢索系統中的待排序內容的表示有重要幫助。一方面,如果將待排序內容(如搜索引擎中的文檔或推薦系統中的商品等)與知識圖譜中實(shí)體進(jìn)行鏈接匹配,我們將能找出待排序內容的關(guān)鍵信息(即包含的實(shí)體詞);另一方面,實(shí)體之間的特殊關(guān)系能協(xié)助做推理擴散,不管是對搜索場(chǎng)景下查詢(xún)詞的擴展還是推薦場(chǎng)景下待推薦內容的關(guān)系發(fā)現都將有重要作用。
  近年來(lái),在搜索引擎和推薦系統領(lǐng)域有不少工作已基于類(lèi)似思路開(kāi)始了研究。已有學(xué)者在搜索場(chǎng)景下嘗試在傳統查詢(xún)詞-文檔內容匹配的基礎上借助知識圖譜,考慮查詢(xún)詞中包含的實(shí)體與文檔包含的實(shí)體之間的關(guān)聯(lián)關(guān)系情況,進(jìn)一步改進(jìn)了文檔排序的效果;在推薦系統場(chǎng)景中,由于知識信息的引入還能幫助緩解推薦的可解釋性問(wèn)題,因此有不少研究工作從這一角度入手,提升推薦算法表現的同時(shí)改進(jìn)結果的可解釋性。相關(guān)研究的應用于場(chǎng)景包括在網(wǎng)頁(yè)搜索、信息流推薦、商品推薦和電影推薦等場(chǎng)景??梢钥吹?,知識增強的信息檢索方法研究已成為近年來(lái)研究的熱點(diǎn)與重點(diǎn)。下面將對兩個(gè)場(chǎng)景的知識利用分別做具體介紹。
 ?。?)搜索場(chǎng)景下的知識圖譜利用
  在搜索排序算法中,查詢(xún)詞與文檔的內容及語(yǔ)義匹配情況不管是在傳統的 BM25、TF-IDF 算法和最近的深度排序模型中都起到了重要作用。然而,這些算法在進(jìn)行匹配時(shí)大都賦予查詢(xún)詞中的每個(gè)詞語(yǔ)以同等權重,沒(méi)有將更多注意力放在關(guān)鍵信息上。例如,當查詢(xún)詞為“奧巴馬的親屬關(guān)系”時(shí),用戶(hù)更關(guān)注的是“奧巴馬”和“親屬”,而不是“關(guān)系”這個(gè)詞語(yǔ)。為了解決這一問(wèn)題,近年來(lái),卡內基梅隆大學(xué)熊辰炎與清華大學(xué)劉知遠等提出,可以在現有詞語(yǔ)匹配的基礎上,引入知識圖譜中實(shí)體詞對查詢(xún)詞和文檔中包含的實(shí)體詞同樣進(jìn)行匹配和相似度計算,以實(shí)現對關(guān)鍵實(shí)體信息的有效利用和挖掘。更進(jìn)一步地,他們還考慮了詞語(yǔ)和實(shí)體詞的交叉匹配,即考慮了:① 查詢(xún)詞中詞語(yǔ) - 文檔中詞語(yǔ);② 查詢(xún)詞中實(shí)體詞 - 文檔中詞語(yǔ);③ 查詢(xún)詞中詞語(yǔ) - 文檔中實(shí)體詞;④ 查詢(xún)詞中實(shí)體詞 - 文檔中實(shí)體詞,四個(gè)維度的語(yǔ)義匹配情況。然后再使用池化和全連接操作得到最終的排序評分。該算法被命名為 EDRM(Entity-Duet Neural Ranking),框架如圖 2 所示。
  
  圖 2 EDRM 算法模型圖
  在實(shí)驗過(guò)程中,使用 DBPedia 作為額外引入的知識圖譜的 EDRM 算法被應用在大規模中文搜索日志數據集上。結果顯示,該算法較基準算法在 NDCG@1 上取得了近 20% 的提升。該結果表明,關(guān)鍵實(shí)體信息的引入對于改進(jìn)搜索排序方法起到了重要作用。
 ?。?)推薦場(chǎng)景下的知識圖譜利用
  在推薦場(chǎng)景中,我們注意到待推薦條目可能存在一些特定的關(guān)系,例如,特別是在商品推薦場(chǎng)景下,不同商品間存在互補(手機和手機殼)、替代(華為手機和蘋(píng)果手機)等關(guān)系。如果能考慮商品之間的這些關(guān)系,我們將可以根據用戶(hù)的歷史行為進(jìn)一步優(yōu)化待推薦內容,為用戶(hù)推薦與歷史購買(mǎi)有互補關(guān)系的商品,同時(shí)避免推薦有替代關(guān)系的商品。然而,要獲取商品間的關(guān)系并不容易,商品數量過(guò)于龐大導致不可能通過(guò)人工標注的方法獲取??紤]到知識圖譜中包含著(zhù)大量的現有知識,這些現有知識可能對挖掘和推理商品間的關(guān)系有一定幫助。因此,我們基于商品間的關(guān)系(如替代和互補),提出了一種新的聯(lián)合優(yōu)化框架,用于從知識圖譜中學(xué)習到歸納規則,并基于歸納規則生成商品對之間的關(guān)聯(lián)特征,將其應用在推薦算法中。該算法框架被命名RuleRec,框架圖見(jiàn)圖3。
  
  圖 3 RuleRec 算法框架圖
  該模型主要包含規則學(xué)習模塊和推薦模塊兩個(gè)部分。在規則學(xué)習模塊中,我們通過(guò)在知識圖譜上進(jìn)行隨機游走,找到對于商品間的替代關(guān)系和互補關(guān)系有較好預測作用的規則特征(限定了兩個(gè)節點(diǎn)間隨機游走經(jīng)過(guò)的邊的類(lèi)型序列)。通過(guò)這些規則能為每個(gè)商品對建模學(xué)習到它們的相關(guān)性緊密程度,進(jìn)而可以擴展到單個(gè)商品與用戶(hù)之前購買(mǎi)的商品序列的聯(lián)系情況。在推薦模塊中,我們將學(xué)習得到的規則特征進(jìn)行加權后,與其他推薦算法得到的推薦概率相加,以得到新的推薦概率,并依此生成推薦結果。由于該模型具有很好的耦合性,因此可以與現有的推薦算法有效地結合到一起。在實(shí)驗過(guò)程中,我們使用了 Amazon 的手機和電子產(chǎn)品購物歷史數據作為用戶(hù)和商品的消費記錄,并將它們鏈接到了 Freebase 知識圖譜上(最大的開(kāi)源知識圖譜數據集)。最終,我們提出的算法較已有的最好算法在 Recall@5 上取得了平均4.4% 的提升。實(shí)驗說(shuō)明,圖譜中的知識信息能幫助改進(jìn)推薦排序算法。除了能提升推薦系統的算法表現,推薦結果的可解釋性也是相關(guān)研究關(guān)注的重點(diǎn)問(wèn)題之一。在本場(chǎng)景下,知識信息的引入所生成的規則就是天然的用戶(hù)能直接閱讀的推薦解釋?zhuān)ㄟ^(guò)人工標注我們也發(fā)現 94% 的推薦解釋能被用戶(hù)接受。這是說(shuō)明知識圖譜的引入還可以用于提高推薦算法的可解釋性。從這些研究可以看到,知識圖譜的引入能有效幫助刻畫(huà)信息檢索場(chǎng)景下的待排序內容,同時(shí)還提升了相應算法的可解釋性。外部的知識的引入為相關(guān)領(lǐng)域的研究帶來(lái)了新的方向和更多可能。
  2 知識支撐的搜索用戶(hù)行為分析
  隨著(zhù)搜索技術(shù)的發(fā)展和廣泛應用,搜索引擎在幫助用戶(hù)高效檢索和獲取信息的基礎上,進(jìn)一步成為了人類(lèi)學(xué)習和獲取知識不可或缺的工具。然而,與通過(guò)使用搜索引擎檢索和獲取較為具體的信息(例如查詢(xún)明天的天氣預報)不同,進(jìn)行搜索獲取知識(例如理解搜索引擎的工作原理)是一個(gè)更為復雜的過(guò)程 , 用戶(hù)往往需要進(jìn)行多次查詢(xún),才能完成相應的學(xué)習任務(wù)。這一方面是由于知識之間往往存在關(guān)聯(lián)與依賴(lài)關(guān)系,學(xué)習任務(wù)具有內在多樣性(intrinsic diversity),因此用戶(hù)需要進(jìn)行多次查詢(xún),獲取多方面的信息,構建包含知識間關(guān)系的知識體系。另外,在開(kāi)始進(jìn)行搜索時(shí),用戶(hù)常常因對相關(guān)領(lǐng)域缺乏了解,而陷入無(wú)法組織有效的查詢(xún)的困境中。因此,用戶(hù)需要在多次查詢(xún)迭代的過(guò)程中,逐漸探索該領(lǐng)域,進(jìn)而學(xué)習如何組織有效查詢(xún),更好地獲取構建知識體系所需的相關(guān)信息。這種復雜的、高度交互式的搜索過(guò)程被概括為探索式搜索(exploratory search)。由于現代搜索引擎已經(jīng)能較好地滿(mǎn)足針對具體信息的檢索需求,如何有效地支持探索式搜索已經(jīng)成為信息檢索領(lǐng)域的重要研究方向之一。與此同時(shí),一些學(xué)者將搜索過(guò)程本身視為一個(gè)學(xué)習的過(guò)程,提出了“搜索即學(xué)習”(search as learning)這一概念。通過(guò)在搜索與學(xué)習過(guò)程之間建立類(lèi)比,一方面可以借助心理學(xué)理論和學(xué)習理論對用戶(hù)的搜索行為進(jìn)行歸類(lèi)、分析、刻畫(huà)和解釋?zhuān)涣硪环矫婵梢詫⒅R建模、表示和計算的相關(guān)方法,應用于復雜多查詢(xún)會(huì )話(huà)的評價(jià)和用戶(hù)意圖理解模型等任務(wù)中。
  在分析用戶(hù)搜索行為方面,IP&M 雜志主編Jansen 等利用認知學(xué)習(cognitive learning)領(lǐng)域的分類(lèi)方法將搜索任務(wù)按照復雜程度分為了記憶(remembering)、理解(understanding)、應用(applying)、分析(analyzing)、評價(jià)(evaluating)和創(chuàng )造(creating)六類(lèi),并比較和分析了用戶(hù)在完成這六類(lèi)搜索任務(wù)時(shí)的搜索行為。芬蘭坦佩雷大學(xué)的 Vakkari 將搜索時(shí)的學(xué)習概念化為“用戶(hù)知識結構的改變”(changes in one’s knowledge structure)并提出可以用概念和其之間的關(guān)系來(lái)表示用戶(hù)的知識結構。進(jìn)一步的,Vakkari 基 于知識結構的變化方式,將搜索過(guò)程劃分為三個(gè)階段。在第一個(gè)階段里,用戶(hù)會(huì )對知識結構進(jìn)行重構(restructuring),即改變和替換原有知識結構中包含的概念和關(guān)系。相應的用戶(hù)在這一階段里會(huì )使用較為寬泛的查詢(xún)詞進(jìn)行檢索,會(huì )從搜索結果中學(xué)習到新的查詢(xún)詞,會(huì )更多地閱讀與問(wèn)題背景相關(guān)的文檔。在第二階段里,用戶(hù)會(huì )對知識結構進(jìn)行調整(tuning), 即不替換和修改已有概念和關(guān)系,而只是調整它們的范圍和含義。在這個(gè)階段里,用戶(hù)會(huì )使用相對更長(cháng)更具體的查詢(xún),并且會(huì )建立起較為明確的相關(guān)性判斷準則(relevance criteria)。在第三階段里,用戶(hù)會(huì )對知識結構進(jìn)行同化(assimilation),即獲取和知識結構中已有概念相關(guān)的實(shí)例信息和事實(shí)類(lèi)信息。在這個(gè)階段,用戶(hù)的查詢(xún)會(huì )變得更加具體,會(huì )獲取大量的具體的事實(shí)類(lèi)信息,并且會(huì )重新檢查一些之前忽視的信息來(lái)源。
  如果將搜索看作是一個(gè)學(xué)習的過(guò)程,除了搜索任務(wù)的類(lèi)型和當前所處的搜索階段,用戶(hù)自身具有的領(lǐng)域知識水平(domain expertise)也將會(huì )影響不同用戶(hù)在完成同一個(gè)搜索任務(wù)時(shí)的行為。為了研究用戶(hù)領(lǐng)域知識水平對其搜索行為和搜索結果的影響,我們組織了一次用戶(hù)實(shí)驗。實(shí)驗中,設置了來(lái)自環(huán)境、醫學(xué)、政治學(xué)三個(gè)領(lǐng)域的六個(gè)搜索任務(wù),并從相應的院系招募了 30 個(gè)被試參加實(shí)驗。通過(guò)要求每個(gè)被試完成兩個(gè)本領(lǐng)域的搜索任務(wù)和四個(gè)非本領(lǐng)域搜索任務(wù),我們有效地控制了用戶(hù)知識水平這一自變量,并系統地分析了自變量對一系列刻畫(huà)搜索結果和搜索過(guò)程的因變量影響。實(shí)驗結果顯示,被試能更好地完成本領(lǐng)域搜索任務(wù),學(xué)習到更多的知識并正確回答相關(guān)問(wèn)題,然而,其在完成本領(lǐng)域任務(wù)時(shí)的搜索滿(mǎn)意度并沒(méi)有顯著(zhù)提升。除此之外,利用眼動(dòng)儀記錄的細粒度用戶(hù)行為信息,我們發(fā)現,用戶(hù)在完成不熟悉領(lǐng)域的搜索任務(wù)時(shí),會(huì )更依賴(lài)在搜索過(guò)程中學(xué)到的新查詢(xún)詞,并在閱讀搜索結果時(shí)花費更多的認知負擔(cognitive effort)。
  其次,在具體應用方面,由于用戶(hù)的搜索過(guò)程和知識獲取及學(xué)習過(guò)程存在緊密聯(lián)系,可以利用一系列知識表示方法,對用戶(hù)在搜索過(guò)程中的知識狀態(tài)變化進(jìn)行測量與建模,并以此為基礎,改進(jìn)搜索評價(jià)和用戶(hù)意圖理解模型。首先,在搜索評價(jià)方面,通過(guò)將搜索過(guò)程看作是一個(gè)學(xué)習的過(guò)程,可以通過(guò)評估學(xué)習的效果(learning outcome),對用戶(hù)搜索過(guò)程是否有效、成功進(jìn)行相對客觀(guān)評價(jià)。日本學(xué)者 Yuka Egusa 和Noriko Kando 等首先嘗試了使用概念圖(concept map)對探索式搜索進(jìn)行評價(jià)。概念圖最早在教育領(lǐng)域被用于表示學(xué)生掌握的科學(xué)知識。一個(gè)概念圖包含若干個(gè)概念節點(diǎn)和若干條表示概念之間關(guān)系的有向邊。Egusa 等在用戶(hù)實(shí)驗中要求參與的被試在開(kāi)始搜索之前和搜索結束后,分別繪制兩張與搜索任務(wù)主體相關(guān)的概念圖。通過(guò)比較兩張概念圖,可以計算新增、刪除、共有的節點(diǎn)數和邊數等指標,用于評價(jià)在搜索過(guò)程中,用戶(hù)獲取了多少新知識。注意到與傳統的搜索滿(mǎn)意度評價(jià)不同,上述評價(jià)方法能測量用戶(hù)在搜索過(guò)程中是否成功地獲取了新的知識。我們進(jìn)一步嘗試探究搜索成功程度與搜索滿(mǎn)意度之間的聯(lián)系與差別,以及能否有效地估計和預測搜索成功程度。為了研究上述問(wèn)題,我們設計和組織了一次用戶(hù)實(shí)驗。在實(shí)驗中每個(gè)被試被要求完成六個(gè)不同的搜索任務(wù)。每個(gè)搜索任務(wù)包含一道需要用 100 字左右答案回答的簡(jiǎn)答題。通過(guò)對最終答案的正確性進(jìn)行打分,來(lái)測量用戶(hù)搜索的成功程度;并通過(guò)用戶(hù)的反饋來(lái)測量用戶(hù)的搜索滿(mǎn)意度。通過(guò)比較搜索成功程度與搜索滿(mǎn)意度,發(fā)現存在相當比例的搜索會(huì )話(huà)出現了“滿(mǎn)意但失敗”和“不滿(mǎn)意但成功”的現象。較為客觀(guān)的搜索成功程度與主觀(guān)的搜索滿(mǎn)意度并不一致。我們進(jìn)一步將每個(gè)任務(wù)的正確答案涉及的關(guān)鍵得分點(diǎn)(key point)進(jìn)行了提取,并對用戶(hù)在實(shí)驗過(guò)程中閱讀過(guò)的所有文檔進(jìn)行了細粒度的標注。標注信息包括文檔是否包含每個(gè)關(guān)鍵得分點(diǎn),以及文檔的相關(guān)性、可靠性(credibility)和可讀性(readability)。利用文檔包含關(guān)鍵得分點(diǎn)和用戶(hù)的搜索行為信息,分別構建了搜索成功程度評價(jià)指標和搜索成果程度預測模型。實(shí)驗結果表明,利用文檔包含知識點(diǎn)的信息,我們能有效地對搜索成功程度這一較為客觀(guān)的搜索評價(jià)指標進(jìn)行估計。
  其次,在用戶(hù)意圖理解方面,我們可以利用知識表示方法對用戶(hù)在會(huì )話(huà)中搜索意圖的變化進(jìn)行建模,進(jìn)而更好地預測用戶(hù)下一個(gè)可能提交的查詢(xún),改進(jìn)搜索引擎的查詢(xún)推薦功能。例如,來(lái)自加州大學(xué)洛杉磯分校的 Jiang 和 Wang 將查詢(xún)日志表示為一個(gè)包含不同查詢(xún)、詞項和網(wǎng)站三類(lèi)型節點(diǎn)的異質(zhì)網(wǎng)絡(luò )。該網(wǎng)絡(luò )中包含四種不同類(lèi)型的邊:① 查詢(xún)內詞項指向下一個(gè)詞項的邊;② 會(huì )話(huà)內上一查詢(xún)指向下一查詢(xún)的邊;③ 查詢(xún)指向包含詞項的邊;④ 查詢(xún)指向點(diǎn)擊網(wǎng)站的邊?;谠摦愘|(zhì)網(wǎng)絡(luò ),我們可以使用Node2Vec等表示學(xué)習算法,獲得網(wǎng)絡(luò )中節點(diǎn)的嵌入表示,并利用得到的嵌入表示進(jìn)行查詢(xún)推薦。查詢(xún)改寫(xiě)還可進(jìn)一步分為增加查詢(xún)詞、刪除查詢(xún)詞和替換查詢(xún)詞等不同的類(lèi)別。因此,我們可以將查詢(xún)作為實(shí)體,不同類(lèi)型的查詢(xún)改寫(xiě)看作關(guān)系,利用TransE 等翻譯嵌入模型,得到對應于不同類(lèi)別查詢(xún)(不同關(guān)系)改寫(xiě)的向量表示。我們在購物搜索的環(huán)境下進(jìn)行了實(shí)驗。針對購物搜索的特點(diǎn),構建了一個(gè)二級的查詢(xún)改寫(xiě)分類(lèi)體系。該分類(lèi)體系在增、刪、改查詢(xún)詞之外,還對修改的查詢(xún)詞是針對設計、商品、風(fēng)格、品牌、樣式、功能、材料、渠道、價(jià)格和尺寸 10 類(lèi)屬性中的哪一類(lèi)進(jìn)行了區分。結合兩級分類(lèi),該分類(lèi)體系共涉及 30 類(lèi)不同的購物搜索查詢(xún)改寫(xiě)。通過(guò)TransE、TransH 和 TransR 模 型,可以訓練得到每個(gè)查詢(xún)詞和每一類(lèi)查詢(xún)改寫(xiě)的嵌入表示。為了驗證得到嵌入表示的有效性,我們設計了一個(gè)查詢(xún)改寫(xiě)類(lèi)別分類(lèi)任務(wù),即采用查詢(xún)改寫(xiě)涉及的前后兩個(gè)查詢(xún)的嵌入表示的差作為特征,預測查詢(xún)改寫(xiě)的類(lèi)別。實(shí)驗結果顯示,采用翻譯嵌入模型得到的向量表示,能有效地預測查詢(xún)改寫(xiě)的類(lèi)別。這再一次說(shuō)明了使用知識表示學(xué)習方法,能較為有效地捕捉用戶(hù)進(jìn)行查詢(xún)改寫(xiě)時(shí)隱含的搜索意圖。
  相比于 Xu 等的工作,在模態(tài)間隱式對齊的任務(wù)上,我們采取了一種反其道而行之的做法。如圖 4 所示,從視頻圖像信息出發(fā),通過(guò)注意力機制與時(shí)間鄰域內的多條文本間建立匹配和對齊?;谶@個(gè)思想,設計了一種聯(lián)合圖像視覺(jué)與用戶(hù)評論信息的多模態(tài)人物重識別模型,并在真實(shí)數據集上進(jìn)行了驗證。實(shí)驗結果證實(shí)了模態(tài)間的對齊是有效的,使用注意力機制可以在一定程度上識別出那些與視頻人物描述更為相關(guān)的文本信息,從而有助于更精確地刻畫(huà)出人物的身份特征,達到更好的人物重識別效果。
  3 結束語(yǔ)
  由于知識與信息之間存在緊密的聯(lián)系,在信息檢索研究中引入知識的概念,以及知識計算方法是一個(gè)值得深入探索的研究方向。從系統的角度出發(fā),可以通過(guò)構建模型,引入豐富的外部知識,有效地改進(jìn)信息檢索和推薦模型的排序性能。從用戶(hù)的角度出發(fā),通過(guò)將用戶(hù)的搜索過(guò)程視為一個(gè)獲取知識的過(guò)程,可以加深對用戶(hù)搜索行為的理解,并借助知識計算方法,改進(jìn)搜索性能評價(jià)和搜索用戶(hù)意圖理解。
  
  選自《中國人工智能學(xué)會(huì )通訊》
  2020年第10卷第9期
  知識工程專(zhuān)題
  
  AI 研習 往期文章
  掃描二維碼
  獲取更多精彩
  CAAI會(huì )員中心
   查看全部

  AI研習丨專(zhuān)題:知識支撐的信息檢索與推薦
  
  摘 要
  本文介紹了目前國內外關(guān)于知識支撐的信息檢索與推薦的研究進(jìn)展,主要針對結合知識圖譜的信息檢索與推薦方法,以及知識支撐的搜索用戶(hù)行為分析兩個(gè)主要的研究方向進(jìn)行了梳理和分析,并對未來(lái)工作提出了展望。
  關(guān) 鍵 字
  信息檢索;推薦系統;知識圖譜;探索式搜索
  
  0 引言
  知識和信息,是兩個(gè)聯(lián)系緊密而又有所區別的概念。信息科學(xué)領(lǐng)域的 DIKW 體系(DataInformation-Knowledge-Wisdom pyramid)能很好地闡釋它們之間的關(guān)系。如圖 1 所示,DIKW 體系是一個(gè)金字塔,從下往上包含數據(data)、信 息 (information)、 知 識(knowledge) 和智慧(wisdom)四個(gè)組成部分。其中,數據是信息的基礎;信息是知識的基礎;知識是智慧的基礎。經(jīng)過(guò)一定組織和處理,使其與當前的上下文或者任務(wù)相關(guān),因此具有一定的意義、價(jià)值和相關(guān)性,并對完成當前任務(wù)有用,數據就可以被稱(chēng)為信息。當信息被進(jìn)一步結構化,與其他信息建立聯(lián)系,或者被吸收和整合現有的知識體系和結構中去,以幫助人們完成當前或未來(lái)的任務(wù),信息就被轉化為了知識。
  
  圖 1 DIKW 體系
  傳統信息檢索研究主要涉及對非結構化或半結構化的海量數據進(jìn)行存儲、組織、索引和檢索,使用戶(hù)能快捷有效地從中檢索和獲取相關(guān)的信息。即主要涉及如何幫助用戶(hù)從數據中獲取信息。然而隨著(zhù)信息檢索研究的不斷發(fā)展,研究者開(kāi)始逐漸意識到在信息檢索領(lǐng)域中引入知識的重要性。
  一方面,從系統的角度,研究者開(kāi)始意識到,在傳統的文本數據和用戶(hù)行為數據之外,我們可以利用知識圖譜等高質(zhì)量的結構化知識,進(jìn)一步改進(jìn)搜索引擎和推薦系統的排序性能。另一方面,從用戶(hù)的角度,研究者開(kāi)始將搜索過(guò)程看作是用戶(hù)學(xué)習和獲取知識的過(guò)程,從這一角度對用戶(hù)的搜索行為進(jìn)行分析、理解和建模。因此,本文將從上述兩個(gè)方面,介紹知識支撐的信息檢索與推薦相關(guān)研究進(jìn)展。
  1 結合知識圖譜的信息檢索與推薦方法
  在信息檢索領(lǐng)域,搜索引擎和推薦系統是兩個(gè)最重要的應用方向。目前已有大量研究工作從不同方面嘗試改進(jìn)搜索排序和推薦排序的效果,包括利用用戶(hù)的各類(lèi)交互行為(點(diǎn)擊和瀏覽等)和待排序條目的內容信息(描述和關(guān)鍵詞等),也已在不同場(chǎng)景提升了算法表現。隨著(zhù)近些年相關(guān)研究的逐漸深入,越來(lái)越多的研究者開(kāi)始意識到,信息檢索場(chǎng)景之外的結構化知識對進(jìn)一步改進(jìn)搜索和推薦算法有重要作用,這些結構化知識能幫助我們更好地刻畫(huà)搜索和推薦場(chǎng)景中的待排序條目。
  具體來(lái)說(shuō),知識圖譜中包含了大量的實(shí)體和實(shí)體間的聯(lián)系信息,這兩類(lèi)信息都對信息檢索系統中的待排序內容的表示有重要幫助。一方面,如果將待排序內容(如搜索引擎中的文檔或推薦系統中的商品等)與知識圖譜中實(shí)體進(jìn)行鏈接匹配,我們將能找出待排序內容的關(guān)鍵信息(即包含的實(shí)體詞);另一方面,實(shí)體之間的特殊關(guān)系能協(xié)助做推理擴散,不管是對搜索場(chǎng)景下查詢(xún)詞的擴展還是推薦場(chǎng)景下待推薦內容的關(guān)系發(fā)現都將有重要作用。
  近年來(lái),在搜索引擎和推薦系統領(lǐng)域有不少工作已基于類(lèi)似思路開(kāi)始了研究。已有學(xué)者在搜索場(chǎng)景下嘗試在傳統查詢(xún)詞-文檔內容匹配的基礎上借助知識圖譜,考慮查詢(xún)詞中包含的實(shí)體與文檔包含的實(shí)體之間的關(guān)聯(lián)關(guān)系情況,進(jìn)一步改進(jìn)了文檔排序的效果;在推薦系統場(chǎng)景中,由于知識信息的引入還能幫助緩解推薦的可解釋性問(wèn)題,因此有不少研究工作從這一角度入手,提升推薦算法表現的同時(shí)改進(jìn)結果的可解釋性。相關(guān)研究的應用于場(chǎng)景包括在網(wǎng)頁(yè)搜索、信息流推薦、商品推薦和電影推薦等場(chǎng)景??梢钥吹?,知識增強的信息檢索方法研究已成為近年來(lái)研究的熱點(diǎn)與重點(diǎn)。下面將對兩個(gè)場(chǎng)景的知識利用分別做具體介紹。
 ?。?)搜索場(chǎng)景下的知識圖譜利用
  在搜索排序算法中,查詢(xún)詞與文檔的內容及語(yǔ)義匹配情況不管是在傳統的 BM25、TF-IDF 算法和最近的深度排序模型中都起到了重要作用。然而,這些算法在進(jìn)行匹配時(shí)大都賦予查詢(xún)詞中的每個(gè)詞語(yǔ)以同等權重,沒(méi)有將更多注意力放在關(guān)鍵信息上。例如,當查詢(xún)詞為“奧巴馬的親屬關(guān)系”時(shí),用戶(hù)更關(guān)注的是“奧巴馬”和“親屬”,而不是“關(guān)系”這個(gè)詞語(yǔ)。為了解決這一問(wèn)題,近年來(lái),卡內基梅隆大學(xué)熊辰炎與清華大學(xué)劉知遠等提出,可以在現有詞語(yǔ)匹配的基礎上,引入知識圖譜中實(shí)體詞對查詢(xún)詞和文檔中包含的實(shí)體詞同樣進(jìn)行匹配和相似度計算,以實(shí)現對關(guān)鍵實(shí)體信息的有效利用和挖掘。更進(jìn)一步地,他們還考慮了詞語(yǔ)和實(shí)體詞的交叉匹配,即考慮了:① 查詢(xún)詞中詞語(yǔ) - 文檔中詞語(yǔ);② 查詢(xún)詞中實(shí)體詞 - 文檔中詞語(yǔ);③ 查詢(xún)詞中詞語(yǔ) - 文檔中實(shí)體詞;④ 查詢(xún)詞中實(shí)體詞 - 文檔中實(shí)體詞,四個(gè)維度的語(yǔ)義匹配情況。然后再使用池化和全連接操作得到最終的排序評分。該算法被命名為 EDRM(Entity-Duet Neural Ranking),框架如圖 2 所示。
  
  圖 2 EDRM 算法模型圖
  在實(shí)驗過(guò)程中,使用 DBPedia 作為額外引入的知識圖譜的 EDRM 算法被應用在大規模中文搜索日志數據集上。結果顯示,該算法較基準算法在 NDCG@1 上取得了近 20% 的提升。該結果表明,關(guān)鍵實(shí)體信息的引入對于改進(jìn)搜索排序方法起到了重要作用。
 ?。?)推薦場(chǎng)景下的知識圖譜利用
  在推薦場(chǎng)景中,我們注意到待推薦條目可能存在一些特定的關(guān)系,例如,特別是在商品推薦場(chǎng)景下,不同商品間存在互補(手機和手機殼)、替代(華為手機和蘋(píng)果手機)等關(guān)系。如果能考慮商品之間的這些關(guān)系,我們將可以根據用戶(hù)的歷史行為進(jìn)一步優(yōu)化待推薦內容,為用戶(hù)推薦與歷史購買(mǎi)有互補關(guān)系的商品,同時(shí)避免推薦有替代關(guān)系的商品。然而,要獲取商品間的關(guān)系并不容易,商品數量過(guò)于龐大導致不可能通過(guò)人工標注的方法獲取??紤]到知識圖譜中包含著(zhù)大量的現有知識,這些現有知識可能對挖掘和推理商品間的關(guān)系有一定幫助。因此,我們基于商品間的關(guān)系(如替代和互補),提出了一種新的聯(lián)合優(yōu)化框架,用于從知識圖譜中學(xué)習到歸納規則,并基于歸納規則生成商品對之間的關(guān)聯(lián)特征,將其應用在推薦算法中。該算法框架被命名RuleRec,框架圖見(jiàn)圖3。
  
  圖 3 RuleRec 算法框架圖
  該模型主要包含規則學(xué)習模塊和推薦模塊兩個(gè)部分。在規則學(xué)習模塊中,我們通過(guò)在知識圖譜上進(jìn)行隨機游走,找到對于商品間的替代關(guān)系和互補關(guān)系有較好預測作用的規則特征(限定了兩個(gè)節點(diǎn)間隨機游走經(jīng)過(guò)的邊的類(lèi)型序列)。通過(guò)這些規則能為每個(gè)商品對建模學(xué)習到它們的相關(guān)性緊密程度,進(jìn)而可以擴展到單個(gè)商品與用戶(hù)之前購買(mǎi)的商品序列的聯(lián)系情況。在推薦模塊中,我們將學(xué)習得到的規則特征進(jìn)行加權后,與其他推薦算法得到的推薦概率相加,以得到新的推薦概率,并依此生成推薦結果。由于該模型具有很好的耦合性,因此可以與現有的推薦算法有效地結合到一起。在實(shí)驗過(guò)程中,我們使用了 Amazon 的手機和電子產(chǎn)品購物歷史數據作為用戶(hù)和商品的消費記錄,并將它們鏈接到了 Freebase 知識圖譜上(最大的開(kāi)源知識圖譜數據集)。最終,我們提出的算法較已有的最好算法在 Recall@5 上取得了平均4.4% 的提升。實(shí)驗說(shuō)明,圖譜中的知識信息能幫助改進(jìn)推薦排序算法。除了能提升推薦系統的算法表現,推薦結果的可解釋性也是相關(guān)研究關(guān)注的重點(diǎn)問(wèn)題之一。在本場(chǎng)景下,知識信息的引入所生成的規則就是天然的用戶(hù)能直接閱讀的推薦解釋?zhuān)ㄟ^(guò)人工標注我們也發(fā)現 94% 的推薦解釋能被用戶(hù)接受。這是說(shuō)明知識圖譜的引入還可以用于提高推薦算法的可解釋性。從這些研究可以看到,知識圖譜的引入能有效幫助刻畫(huà)信息檢索場(chǎng)景下的待排序內容,同時(shí)還提升了相應算法的可解釋性。外部的知識的引入為相關(guān)領(lǐng)域的研究帶來(lái)了新的方向和更多可能。
  2 知識支撐的搜索用戶(hù)行為分析
  隨著(zhù)搜索技術(shù)的發(fā)展和廣泛應用,搜索引擎在幫助用戶(hù)高效檢索和獲取信息的基礎上,進(jìn)一步成為了人類(lèi)學(xué)習和獲取知識不可或缺的工具。然而,與通過(guò)使用搜索引擎檢索和獲取較為具體的信息(例如查詢(xún)明天的天氣預報)不同,進(jìn)行搜索獲取知識(例如理解搜索引擎的工作原理)是一個(gè)更為復雜的過(guò)程 , 用戶(hù)往往需要進(jìn)行多次查詢(xún),才能完成相應的學(xué)習任務(wù)。這一方面是由于知識之間往往存在關(guān)聯(lián)與依賴(lài)關(guān)系,學(xué)習任務(wù)具有內在多樣性(intrinsic diversity),因此用戶(hù)需要進(jìn)行多次查詢(xún),獲取多方面的信息,構建包含知識間關(guān)系的知識體系。另外,在開(kāi)始進(jìn)行搜索時(shí),用戶(hù)常常因對相關(guān)領(lǐng)域缺乏了解,而陷入無(wú)法組織有效的查詢(xún)的困境中。因此,用戶(hù)需要在多次查詢(xún)迭代的過(guò)程中,逐漸探索該領(lǐng)域,進(jìn)而學(xué)習如何組織有效查詢(xún),更好地獲取構建知識體系所需的相關(guān)信息。這種復雜的、高度交互式的搜索過(guò)程被概括為探索式搜索(exploratory search)。由于現代搜索引擎已經(jīng)能較好地滿(mǎn)足針對具體信息的檢索需求,如何有效地支持探索式搜索已經(jīng)成為信息檢索領(lǐng)域的重要研究方向之一。與此同時(shí),一些學(xué)者將搜索過(guò)程本身視為一個(gè)學(xué)習的過(guò)程,提出了“搜索即學(xué)習”(search as learning)這一概念。通過(guò)在搜索與學(xué)習過(guò)程之間建立類(lèi)比,一方面可以借助心理學(xué)理論和學(xué)習理論對用戶(hù)的搜索行為進(jìn)行歸類(lèi)、分析、刻畫(huà)和解釋?zhuān)涣硪环矫婵梢詫⒅R建模、表示和計算的相關(guān)方法,應用于復雜多查詢(xún)會(huì )話(huà)的評價(jià)和用戶(hù)意圖理解模型等任務(wù)中。
  在分析用戶(hù)搜索行為方面,IP&M 雜志主編Jansen 等利用認知學(xué)習(cognitive learning)領(lǐng)域的分類(lèi)方法將搜索任務(wù)按照復雜程度分為了記憶(remembering)、理解(understanding)、應用(applying)、分析(analyzing)、評價(jià)(evaluating)和創(chuàng )造(creating)六類(lèi),并比較和分析了用戶(hù)在完成這六類(lèi)搜索任務(wù)時(shí)的搜索行為。芬蘭坦佩雷大學(xué)的 Vakkari 將搜索時(shí)的學(xué)習概念化為“用戶(hù)知識結構的改變”(changes in one’s knowledge structure)并提出可以用概念和其之間的關(guān)系來(lái)表示用戶(hù)的知識結構。進(jìn)一步的,Vakkari 基 于知識結構的變化方式,將搜索過(guò)程劃分為三個(gè)階段。在第一個(gè)階段里,用戶(hù)會(huì )對知識結構進(jìn)行重構(restructuring),即改變和替換原有知識結構中包含的概念和關(guān)系。相應的用戶(hù)在這一階段里會(huì )使用較為寬泛的查詢(xún)詞進(jìn)行檢索,會(huì )從搜索結果中學(xué)習到新的查詢(xún)詞,會(huì )更多地閱讀與問(wèn)題背景相關(guān)的文檔。在第二階段里,用戶(hù)會(huì )對知識結構進(jìn)行調整(tuning), 即不替換和修改已有概念和關(guān)系,而只是調整它們的范圍和含義。在這個(gè)階段里,用戶(hù)會(huì )使用相對更長(cháng)更具體的查詢(xún),并且會(huì )建立起較為明確的相關(guān)性判斷準則(relevance criteria)。在第三階段里,用戶(hù)會(huì )對知識結構進(jìn)行同化(assimilation),即獲取和知識結構中已有概念相關(guān)的實(shí)例信息和事實(shí)類(lèi)信息。在這個(gè)階段,用戶(hù)的查詢(xún)會(huì )變得更加具體,會(huì )獲取大量的具體的事實(shí)類(lèi)信息,并且會(huì )重新檢查一些之前忽視的信息來(lái)源。
  如果將搜索看作是一個(gè)學(xué)習的過(guò)程,除了搜索任務(wù)的類(lèi)型和當前所處的搜索階段,用戶(hù)自身具有的領(lǐng)域知識水平(domain expertise)也將會(huì )影響不同用戶(hù)在完成同一個(gè)搜索任務(wù)時(shí)的行為。為了研究用戶(hù)領(lǐng)域知識水平對其搜索行為和搜索結果的影響,我們組織了一次用戶(hù)實(shí)驗。實(shí)驗中,設置了來(lái)自環(huán)境、醫學(xué)、政治學(xué)三個(gè)領(lǐng)域的六個(gè)搜索任務(wù),并從相應的院系招募了 30 個(gè)被試參加實(shí)驗。通過(guò)要求每個(gè)被試完成兩個(gè)本領(lǐng)域的搜索任務(wù)和四個(gè)非本領(lǐng)域搜索任務(wù),我們有效地控制了用戶(hù)知識水平這一自變量,并系統地分析了自變量對一系列刻畫(huà)搜索結果和搜索過(guò)程的因變量影響。實(shí)驗結果顯示,被試能更好地完成本領(lǐng)域搜索任務(wù),學(xué)習到更多的知識并正確回答相關(guān)問(wèn)題,然而,其在完成本領(lǐng)域任務(wù)時(shí)的搜索滿(mǎn)意度并沒(méi)有顯著(zhù)提升。除此之外,利用眼動(dòng)儀記錄的細粒度用戶(hù)行為信息,我們發(fā)現,用戶(hù)在完成不熟悉領(lǐng)域的搜索任務(wù)時(shí),會(huì )更依賴(lài)在搜索過(guò)程中學(xué)到的新查詢(xún)詞,并在閱讀搜索結果時(shí)花費更多的認知負擔(cognitive effort)。
  其次,在具體應用方面,由于用戶(hù)的搜索過(guò)程和知識獲取及學(xué)習過(guò)程存在緊密聯(lián)系,可以利用一系列知識表示方法,對用戶(hù)在搜索過(guò)程中的知識狀態(tài)變化進(jìn)行測量與建模,并以此為基礎,改進(jìn)搜索評價(jià)和用戶(hù)意圖理解模型。首先,在搜索評價(jià)方面,通過(guò)將搜索過(guò)程看作是一個(gè)學(xué)習的過(guò)程,可以通過(guò)評估學(xué)習的效果(learning outcome),對用戶(hù)搜索過(guò)程是否有效、成功進(jìn)行相對客觀(guān)評價(jià)。日本學(xué)者 Yuka Egusa 和Noriko Kando 等首先嘗試了使用概念圖(concept map)對探索式搜索進(jìn)行評價(jià)。概念圖最早在教育領(lǐng)域被用于表示學(xué)生掌握的科學(xué)知識。一個(gè)概念圖包含若干個(gè)概念節點(diǎn)和若干條表示概念之間關(guān)系的有向邊。Egusa 等在用戶(hù)實(shí)驗中要求參與的被試在開(kāi)始搜索之前和搜索結束后,分別繪制兩張與搜索任務(wù)主體相關(guān)的概念圖。通過(guò)比較兩張概念圖,可以計算新增、刪除、共有的節點(diǎn)數和邊數等指標,用于評價(jià)在搜索過(guò)程中,用戶(hù)獲取了多少新知識。注意到與傳統的搜索滿(mǎn)意度評價(jià)不同,上述評價(jià)方法能測量用戶(hù)在搜索過(guò)程中是否成功地獲取了新的知識。我們進(jìn)一步嘗試探究搜索成功程度與搜索滿(mǎn)意度之間的聯(lián)系與差別,以及能否有效地估計和預測搜索成功程度。為了研究上述問(wèn)題,我們設計和組織了一次用戶(hù)實(shí)驗。在實(shí)驗中每個(gè)被試被要求完成六個(gè)不同的搜索任務(wù)。每個(gè)搜索任務(wù)包含一道需要用 100 字左右答案回答的簡(jiǎn)答題。通過(guò)對最終答案的正確性進(jìn)行打分,來(lái)測量用戶(hù)搜索的成功程度;并通過(guò)用戶(hù)的反饋來(lái)測量用戶(hù)的搜索滿(mǎn)意度。通過(guò)比較搜索成功程度與搜索滿(mǎn)意度,發(fā)現存在相當比例的搜索會(huì )話(huà)出現了“滿(mǎn)意但失敗”和“不滿(mǎn)意但成功”的現象。較為客觀(guān)的搜索成功程度與主觀(guān)的搜索滿(mǎn)意度并不一致。我們進(jìn)一步將每個(gè)任務(wù)的正確答案涉及的關(guān)鍵得分點(diǎn)(key point)進(jìn)行了提取,并對用戶(hù)在實(shí)驗過(guò)程中閱讀過(guò)的所有文檔進(jìn)行了細粒度的標注。標注信息包括文檔是否包含每個(gè)關(guān)鍵得分點(diǎn),以及文檔的相關(guān)性、可靠性(credibility)和可讀性(readability)。利用文檔包含關(guān)鍵得分點(diǎn)和用戶(hù)的搜索行為信息,分別構建了搜索成功程度評價(jià)指標和搜索成果程度預測模型。實(shí)驗結果表明,利用文檔包含知識點(diǎn)的信息,我們能有效地對搜索成功程度這一較為客觀(guān)的搜索評價(jià)指標進(jìn)行估計。
  其次,在用戶(hù)意圖理解方面,我們可以利用知識表示方法對用戶(hù)在會(huì )話(huà)中搜索意圖的變化進(jìn)行建模,進(jìn)而更好地預測用戶(hù)下一個(gè)可能提交的查詢(xún),改進(jìn)搜索引擎的查詢(xún)推薦功能。例如,來(lái)自加州大學(xué)洛杉磯分校的 Jiang 和 Wang 將查詢(xún)日志表示為一個(gè)包含不同查詢(xún)、詞項和網(wǎng)站三類(lèi)型節點(diǎn)的異質(zhì)網(wǎng)絡(luò )。該網(wǎng)絡(luò )中包含四種不同類(lèi)型的邊:① 查詢(xún)內詞項指向下一個(gè)詞項的邊;② 會(huì )話(huà)內上一查詢(xún)指向下一查詢(xún)的邊;③ 查詢(xún)指向包含詞項的邊;④ 查詢(xún)指向點(diǎn)擊網(wǎng)站的邊?;谠摦愘|(zhì)網(wǎng)絡(luò ),我們可以使用Node2Vec等表示學(xué)習算法,獲得網(wǎng)絡(luò )中節點(diǎn)的嵌入表示,并利用得到的嵌入表示進(jìn)行查詢(xún)推薦。查詢(xún)改寫(xiě)還可進(jìn)一步分為增加查詢(xún)詞、刪除查詢(xún)詞和替換查詢(xún)詞等不同的類(lèi)別。因此,我們可以將查詢(xún)作為實(shí)體,不同類(lèi)型的查詢(xún)改寫(xiě)看作關(guān)系,利用TransE 等翻譯嵌入模型,得到對應于不同類(lèi)別查詢(xún)(不同關(guān)系)改寫(xiě)的向量表示。我們在購物搜索的環(huán)境下進(jìn)行了實(shí)驗。針對購物搜索的特點(diǎn),構建了一個(gè)二級的查詢(xún)改寫(xiě)分類(lèi)體系。該分類(lèi)體系在增、刪、改查詢(xún)詞之外,還對修改的查詢(xún)詞是針對設計、商品、風(fēng)格、品牌、樣式、功能、材料、渠道、價(jià)格和尺寸 10 類(lèi)屬性中的哪一類(lèi)進(jìn)行了區分。結合兩級分類(lèi),該分類(lèi)體系共涉及 30 類(lèi)不同的購物搜索查詢(xún)改寫(xiě)。通過(guò)TransE、TransH 和 TransR 模 型,可以訓練得到每個(gè)查詢(xún)詞和每一類(lèi)查詢(xún)改寫(xiě)的嵌入表示。為了驗證得到嵌入表示的有效性,我們設計了一個(gè)查詢(xún)改寫(xiě)類(lèi)別分類(lèi)任務(wù),即采用查詢(xún)改寫(xiě)涉及的前后兩個(gè)查詢(xún)的嵌入表示的差作為特征,預測查詢(xún)改寫(xiě)的類(lèi)別。實(shí)驗結果顯示,采用翻譯嵌入模型得到的向量表示,能有效地預測查詢(xún)改寫(xiě)的類(lèi)別。這再一次說(shuō)明了使用知識表示學(xué)習方法,能較為有效地捕捉用戶(hù)進(jìn)行查詢(xún)改寫(xiě)時(shí)隱含的搜索意圖。
  相比于 Xu 等的工作,在模態(tài)間隱式對齊的任務(wù)上,我們采取了一種反其道而行之的做法。如圖 4 所示,從視頻圖像信息出發(fā),通過(guò)注意力機制與時(shí)間鄰域內的多條文本間建立匹配和對齊?;谶@個(gè)思想,設計了一種聯(lián)合圖像視覺(jué)與用戶(hù)評論信息的多模態(tài)人物重識別模型,并在真實(shí)數據集上進(jìn)行了驗證。實(shí)驗結果證實(shí)了模態(tài)間的對齊是有效的,使用注意力機制可以在一定程度上識別出那些與視頻人物描述更為相關(guān)的文本信息,從而有助于更精確地刻畫(huà)出人物的身份特征,達到更好的人物重識別效果。
  3 結束語(yǔ)
  由于知識與信息之間存在緊密的聯(lián)系,在信息檢索研究中引入知識的概念,以及知識計算方法是一個(gè)值得深入探索的研究方向。從系統的角度出發(fā),可以通過(guò)構建模型,引入豐富的外部知識,有效地改進(jìn)信息檢索和推薦模型的排序性能。從用戶(hù)的角度出發(fā),通過(guò)將用戶(hù)的搜索過(guò)程視為一個(gè)獲取知識的過(guò)程,可以加深對用戶(hù)搜索行為的理解,并借助知識計算方法,改進(jìn)搜索性能評價(jià)和搜索用戶(hù)意圖理解。
  
  選自《中國人工智能學(xué)會(huì )通訊》
  2020年第10卷第9期
  知識工程專(zhuān)題
  
  AI 研習 往期文章
  掃描二維碼
  獲取更多精彩
  CAAI會(huì )員中心
  

搜索引擎營(yíng)銷(xiāo)推廣的方法有哪些?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 94 次瀏覽 ? 2022-05-08 14:46 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎營(yíng)銷(xiāo)推廣的方法有哪些?
  無(wú)論是線(xiàn)上上或是線(xiàn)下推廣,營(yíng)銷(xiāo)推廣全是必不可缺的有效的方式。由于,伴隨著(zhù)移動(dòng)互聯(lián)的迅速發(fā)展趨勢,已過(guò)去了香醇不畏酒香不怕巷的時(shí)期,現在是必須主動(dòng)進(jìn)攻才有可能完成營(yíng)銷(xiāo)推廣目地。因此,企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)全過(guò)程中,下列的搜索引擎營(yíng)銷(xiāo)推廣的方式務(wù)必關(guān)鍵把握,實(shí)際向下看一下。
  一、搜索引擎營(yíng)銷(xiāo)推廣的方式 有什么?1、SEM營(yíng)銷(xiāo)推廣
  SEM是搜索引擎搜索推廣,是根據發(fā)掘、剖析用戶(hù)檢索的關(guān)鍵詞,對該關(guān)鍵詞開(kāi)展競價(jià)來(lái)得到需要的排名。一般來(lái)說(shuō),受歡迎的關(guān)鍵詞競爭比較大,要想根據它得到較前的排名,務(wù)必出“大格局”才有可能得到較前的排名。
  2、SEO營(yíng)銷(xiāo)推廣
  SEO是搜索引擎優(yōu)化方法,是依據網(wǎng)址主題風(fēng)格和用戶(hù)的搜尋習慣性,挑選最好關(guān)鍵詞提升而得到排名。一般關(guān)鍵詞指數值越高,提升難度系數越高,可是一旦得到排名,排名的可靠性較強,不容易隨便發(fā)生下挫。
  
  3、關(guān)鍵詞廣告宣傳
  關(guān)鍵詞廣告是搜索引擎營(yíng)銷(xiāo)推廣的一種常見(jiàn)的作法,運用用戶(hù)點(diǎn)一下關(guān)鍵詞開(kāi)展收費,剖析、發(fā)掘出大量相關(guān)的新聞資訊。
  二、搜索引擎營(yíng)銷(xiāo)推廣包含哪幾個(gè)方面?
  殊不知,無(wú)論應用以上哪一種搜索引擎營(yíng)銷(xiāo)推廣,它都包含下列層面:
  想要讓降血壓廣告效果越來(lái)越好就一定要做好:1、定位到需求人群2、提高廣告創(chuàng )意+針對性文案3、使用多種廣告投放方式4、通過(guò)平臺投放
  1、適合的關(guān)鍵詞
  關(guān)鍵詞是搜索引擎營(yíng)銷(xiāo)推廣推廣合理的前提條件。因此,在營(yíng)銷(xiāo)推廣的環(huán)節中,務(wù)必自始至終緊緊圍繞著(zhù)網(wǎng)址主題風(fēng)格及用戶(hù)的搜尋習慣性挑選關(guān)鍵詞,不必草率的要求受歡迎關(guān)鍵詞,反而是采用最適用的關(guān)鍵詞。
  2、做好內容的添充
  內容是吸引用戶(hù)的重要。因此,內容的品質(zhì)及升級的次數全是十分核心的??墒?,有一些公司發(fā)覺(jué)升級內容真的很難,如不可以剽竊別人內容,又得維持按時(shí)升級,總感覺(jué)真的很難。實(shí)際上,“天地文章內容一片抄”,重要就可以看你是否會(huì )抄。
  
  實(shí)際上,在編寫(xiě)時(shí)必須維持自身網(wǎng)址的有關(guān)構思,并且多立在用戶(hù)的視角去思索一些問(wèn)題,如她們想在內容掌握到哪些、想從這當中得到什么有一些使用價(jià)值的物品這些,那樣編寫(xiě)出去的信息不但能遭受用戶(hù)的愛(ài)好,并且還能吸引住搜索引擎的爬取,而搜索引擎爬行越快網(wǎng)址排名越高,營(yíng)銷(xiāo)推廣實(shí)際效果就會(huì )更好。
  3、做好時(shí)時(shí)刻刻監管的工作中
  網(wǎng)絡(luò )平臺變幻莫測,不可以以不會(huì )改變的目光來(lái)對待發(fā)展趨勢。因此,務(wù)必做好時(shí)時(shí)刻刻監管的提前準備,對用戶(hù)的瀏覽、搜索引擎蜘蛛的爬取維持相對高度的當心,那樣才可以讓營(yíng)銷(xiāo)推廣工作中高效率。
  總而言之,搜索引擎營(yíng)銷(xiāo)推廣是一把雙刃刀,用得可以使你的網(wǎng)址排名靠前,總流量暴漲,完成早日贏(yíng)利就是指日可待,如果是投機取巧也會(huì )使你的營(yíng)銷(xiāo)推廣職業(yè)生涯邁向窮途末路,此后消退在網(wǎng)絡(luò )的深海里。因此,假如公司沒(méi)希望能做好搜索引擎營(yíng)銷(xiāo)推廣,云浪科技會(huì )是你們優(yōu)秀的挑選。
  可以聯(lián)系小編
  百度前三,包月推廣,獨立后臺數據抓取,當天上線(xiàn),不限點(diǎn)擊費,1500元/月保證前三,3999元包年托管,需要的請聯(lián)系小編
   查看全部

  搜索引擎營(yíng)銷(xiāo)推廣的方法有哪些?
  無(wú)論是線(xiàn)上上或是線(xiàn)下推廣,營(yíng)銷(xiāo)推廣全是必不可缺的有效的方式。由于,伴隨著(zhù)移動(dòng)互聯(lián)的迅速發(fā)展趨勢,已過(guò)去了香醇不畏酒香不怕巷的時(shí)期,現在是必須主動(dòng)進(jìn)攻才有可能完成營(yíng)銷(xiāo)推廣目地。因此,企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)全過(guò)程中,下列的搜索引擎營(yíng)銷(xiāo)推廣的方式務(wù)必關(guān)鍵把握,實(shí)際向下看一下。
  一、搜索引擎營(yíng)銷(xiāo)推廣的方式 有什么?1、SEM營(yíng)銷(xiāo)推廣
  SEM是搜索引擎搜索推廣,是根據發(fā)掘、剖析用戶(hù)檢索的關(guān)鍵詞,對該關(guān)鍵詞開(kāi)展競價(jià)來(lái)得到需要的排名。一般來(lái)說(shuō),受歡迎的關(guān)鍵詞競爭比較大,要想根據它得到較前的排名,務(wù)必出“大格局”才有可能得到較前的排名。
  2、SEO營(yíng)銷(xiāo)推廣
  SEO是搜索引擎優(yōu)化方法,是依據網(wǎng)址主題風(fēng)格和用戶(hù)的搜尋習慣性,挑選最好關(guān)鍵詞提升而得到排名。一般關(guān)鍵詞指數值越高,提升難度系數越高,可是一旦得到排名,排名的可靠性較強,不容易隨便發(fā)生下挫。
  
  3、關(guān)鍵詞廣告宣傳
  關(guān)鍵詞廣告是搜索引擎營(yíng)銷(xiāo)推廣的一種常見(jiàn)的作法,運用用戶(hù)點(diǎn)一下關(guān)鍵詞開(kāi)展收費,剖析、發(fā)掘出大量相關(guān)的新聞資訊。
  二、搜索引擎營(yíng)銷(xiāo)推廣包含哪幾個(gè)方面?
  殊不知,無(wú)論應用以上哪一種搜索引擎營(yíng)銷(xiāo)推廣,它都包含下列層面:
  想要讓降血壓廣告效果越來(lái)越好就一定要做好:1、定位到需求人群2、提高廣告創(chuàng )意+針對性文案3、使用多種廣告投放方式4、通過(guò)平臺投放
  1、適合的關(guān)鍵詞
  關(guān)鍵詞是搜索引擎營(yíng)銷(xiāo)推廣推廣合理的前提條件。因此,在營(yíng)銷(xiāo)推廣的環(huán)節中,務(wù)必自始至終緊緊圍繞著(zhù)網(wǎng)址主題風(fēng)格及用戶(hù)的搜尋習慣性挑選關(guān)鍵詞,不必草率的要求受歡迎關(guān)鍵詞,反而是采用最適用的關(guān)鍵詞。
  2、做好內容的添充
  內容是吸引用戶(hù)的重要。因此,內容的品質(zhì)及升級的次數全是十分核心的??墒?,有一些公司發(fā)覺(jué)升級內容真的很難,如不可以剽竊別人內容,又得維持按時(shí)升級,總感覺(jué)真的很難。實(shí)際上,“天地文章內容一片抄”,重要就可以看你是否會(huì )抄。
  
  實(shí)際上,在編寫(xiě)時(shí)必須維持自身網(wǎng)址的有關(guān)構思,并且多立在用戶(hù)的視角去思索一些問(wèn)題,如她們想在內容掌握到哪些、想從這當中得到什么有一些使用價(jià)值的物品這些,那樣編寫(xiě)出去的信息不但能遭受用戶(hù)的愛(ài)好,并且還能吸引住搜索引擎的爬取,而搜索引擎爬行越快網(wǎng)址排名越高,營(yíng)銷(xiāo)推廣實(shí)際效果就會(huì )更好。
  3、做好時(shí)時(shí)刻刻監管的工作中
  網(wǎng)絡(luò )平臺變幻莫測,不可以以不會(huì )改變的目光來(lái)對待發(fā)展趨勢。因此,務(wù)必做好時(shí)時(shí)刻刻監管的提前準備,對用戶(hù)的瀏覽、搜索引擎蜘蛛的爬取維持相對高度的當心,那樣才可以讓營(yíng)銷(xiāo)推廣工作中高效率。
  總而言之,搜索引擎營(yíng)銷(xiāo)推廣是一把雙刃刀,用得可以使你的網(wǎng)址排名靠前,總流量暴漲,完成早日贏(yíng)利就是指日可待,如果是投機取巧也會(huì )使你的營(yíng)銷(xiāo)推廣職業(yè)生涯邁向窮途末路,此后消退在網(wǎng)絡(luò )的深海里。因此,假如公司沒(méi)希望能做好搜索引擎營(yíng)銷(xiāo)推廣,云浪科技會(huì )是你們優(yōu)秀的挑選。
  可以聯(lián)系小編
  百度前三,包月推廣,獨立后臺數據抓取,當天上線(xiàn),不限點(diǎn)擊費,1500元/月保證前三,3999元包年托管,需要的請聯(lián)系小編
  

【實(shí)例】網(wǎng)頁(yè)搜索策略思考方法

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 122 次瀏覽 ? 2022-05-05 22:24 ? 來(lái)自相關(guān)話(huà)題

  【實(shí)例】網(wǎng)頁(yè)搜索策略思考方法
  
  功能導向型核心業(yè)務(wù)的策略框架
  
  
  網(wǎng)頁(yè)搜索策略思考方法
  1
  產(chǎn)品目標
  
  產(chǎn)品目標:高效地獲取信息
  1)需求復雜又多變
  2)從浩瀚的候選集合里找到正確的信息
  不同用戶(hù)輸入同一query表達的需求可能不一致;
  同一用戶(hù)在不同場(chǎng)景輸入同一query表達的需求也可能不一致。
  2
  需求理解
  這里的需求理解其實(shí)就是廣義的query解析
  分為三類(lèi):
  1)需求明確
  A)結構簡(jiǎn)單清晰的query:經(jīng)過(guò)切詞處理即可進(jìn)行后續檢索
  例如:黃山優(yōu)采云站訂票電話(huà)——>黃山 優(yōu)采云站 訂 票 電話(huà)
  B)口語(yǔ)化的query:需要進(jìn)行糾錯、同義轉換等語(yǔ)義處理
  例如:杭州至鹽城高速怎么走
  ——>杭州|至|鹽城|高速|(zhì)怎么|走
  ——>【map】 【from:杭州】 【to:鹽城】 【type:駕車(chē)】
  C)表達方式很復雜的query:需要進(jìn)行更加unique的語(yǔ)義處理
  例如:
  披星()月
  吾嘗終日而思矣,后面
  2)需求明確,對答案有特殊要求
  除了統一的query變換外,需要將特定要求轉換成搜索引擎可理解的特征
  例如:
  豬肉最新價(jià)格——>資源時(shí)效性
  3)需求不明確,需要進(jìn)行需求擴展和預測
  例如:
  歡樂(lè )頌——>歡樂(lè )頌視頻、劇情介紹、演員表、評論。。。
  猩球崛起3——>上映前需要預告片上映時(shí)間、上映中需要介紹評價(jià)在線(xiàn)購票、下映后需要介紹評論視頻
  三類(lèi)擴展維度:
  上下文數據:搜了歡樂(lè )頌后,用戶(hù)是否主動(dòng)更改query搜索歡樂(lè )頌視頻
  類(lèi)目數據:對于【歡樂(lè )頌】這種電視劇專(zhuān)名,天然就有視頻、劇情等需求。PM可以提前梳理針對各類(lèi)目的需求擴展list。
  個(gè)性化數據:對于特定類(lèi)目可以進(jìn)行地域擴展,家樂(lè )?!?gt;北京家樂(lè )福;電影專(zhuān)名,有的用戶(hù)更傾向于看劇情,有的傾向看評論。
  一個(gè)query經(jīng)過(guò)以上分類(lèi)處理后,會(huì )統一成這樣的輸出,來(lái)進(jìn)行接下來(lái)的檢索:
  【需求類(lèi)目/需求詞】
  【需求強度】
  【待檢索term/pattern】
  【其他限定特征(地域等)】
  衡量指標:
  1)每個(gè)query分析規則的召回率和準確率
  2)各需求的召回率和準確率
  3
  解決方案
  分為兩部分:排序和展現
  1.排序
  不同需求間:根據需求強度(命中需求的概率)
  同一需求間:根據結果質(zhì)量(相關(guān)性、權威性、時(shí)效性、可用性)
  根據用戶(hù)的點(diǎn)擊行為進(jìn)行調整
  實(shí)際上,會(huì )把需求強度、結果質(zhì)量、用戶(hù)點(diǎn)擊行為統一成【唯一指標】決定首頁(yè)結果的排序
  LTR:learningtorank機器學(xué)習排序
  
  2.展現
  通用策略:將結果頁(yè)中與query相關(guān)的信息提取為標題/摘要,進(jìn)行飄紅等處理幫助用戶(hù)篩選信息
 ?。▽λ兴阉饕?,都是將檢索對象中用戶(hù)最關(guān)心的內容提取至檢索結果列表頁(yè),并根據情況以各種強化的樣式展現)
  細化策略:針對不同需求,又有如下細化策略:
  A)對于單一明確信息需求,可以將答案信息之間在摘要中展現
  例如:天氣、客服電話(huà)
  B)對于用戶(hù)接下來(lái)路徑相對收斂的需求,可以將下一步需求前置,縮短步驟
  例如:網(wǎng)易郵箱(登錄)、歡樂(lè )頌視頻(集數)、凡人歌(播放)
  C)對于不同資源類(lèi)型結果,可以針對性?xún)?yōu)化摘要
  例如:視頻類(lèi)、圖片類(lèi)、新聞類(lèi)、地圖類(lèi)
  3.衡量指標
  1)每個(gè)需求打分、質(zhì)量打分、展現策略的召回率和準確率
  2)用戶(hù)角度的搜索的滿(mǎn)足度
  A)基于用戶(hù)行為的搜索滿(mǎn)足度:
  摘要滿(mǎn)足型需求——>無(wú)/很少點(diǎn)擊行為
  單結果滿(mǎn)足型需求——>點(diǎn)擊集中于收條結果
  主動(dòng)變換query比例低
  翻頁(yè)比例低等等
  B)基于人為評估的搜索滿(mǎn)足度:
  query前3/5/10結果相關(guān)性->基于人為需求判斷,當前結果是否能滿(mǎn)足;與競品相比,是否有更好結果未收錄、排序是否更優(yōu)等
  session滿(mǎn)足度->從用戶(hù)一個(gè)行為片段分析其是否得到滿(mǎn)足
  4
  資源支撐
  1.自然語(yǔ)言相關(guān)
  各類(lèi)基礎詞庫:用于query切詞處理、同義轉換、糾錯等
  語(yǔ)義理解和處理規則:用于query解析
  2.網(wǎng)頁(yè)相關(guān)
  網(wǎng)頁(yè)收錄(spider):
  1)保證各類(lèi)網(wǎng)頁(yè)收錄覆蓋度
  2)保證各類(lèi)網(wǎng)頁(yè)收錄時(shí)效性:根據網(wǎng)頁(yè)類(lèi)型定義更新頻率,重要或時(shí)效性要求高的資源可選擇站長(cháng)主動(dòng)提交的方式
  頁(yè)面分析:
  對頁(yè)面類(lèi)型進(jìn)行識別,頁(yè)面中內容解析、為term附權等等
  衡量指標
  1)對于NLP相關(guān):各類(lèi)詞庫、處理策略的準確率、召回率等;
  2)對于網(wǎng)頁(yè)收錄:收錄覆蓋率、更新時(shí)效性等;
  3)對于頁(yè)面分析:各類(lèi)準確率、召回率等。
  5
  總結
  
  以上為三節課策略產(chǎn)品課程個(gè)人學(xué)習筆記。 查看全部

  【實(shí)例】網(wǎng)頁(yè)搜索策略思考方法
  
  功能導向型核心業(yè)務(wù)的策略框架
  
  
  網(wǎng)頁(yè)搜索策略思考方法
  1
  產(chǎn)品目標
  
  產(chǎn)品目標:高效地獲取信息
  1)需求復雜又多變
  2)從浩瀚的候選集合里找到正確的信息
  不同用戶(hù)輸入同一query表達的需求可能不一致;
  同一用戶(hù)在不同場(chǎng)景輸入同一query表達的需求也可能不一致。
  2
  需求理解
  這里的需求理解其實(shí)就是廣義的query解析
  分為三類(lèi):
  1)需求明確
  A)結構簡(jiǎn)單清晰的query:經(jīng)過(guò)切詞處理即可進(jìn)行后續檢索
  例如:黃山優(yōu)采云站訂票電話(huà)——>黃山 優(yōu)采云站 訂 票 電話(huà)
  B)口語(yǔ)化的query:需要進(jìn)行糾錯、同義轉換等語(yǔ)義處理
  例如:杭州至鹽城高速怎么走
  ——>杭州|至|鹽城|高速|(zhì)怎么|走
  ——>【map】 【from:杭州】 【to:鹽城】 【type:駕車(chē)】
  C)表達方式很復雜的query:需要進(jìn)行更加unique的語(yǔ)義處理
  例如:
  披星()月
  吾嘗終日而思矣,后面
  2)需求明確,對答案有特殊要求
  除了統一的query變換外,需要將特定要求轉換成搜索引擎可理解的特征
  例如:
  豬肉最新價(jià)格——>資源時(shí)效性
  3)需求不明確,需要進(jìn)行需求擴展和預測
  例如:
  歡樂(lè )頌——>歡樂(lè )頌視頻、劇情介紹、演員表、評論。。。
  猩球崛起3——>上映前需要預告片上映時(shí)間、上映中需要介紹評價(jià)在線(xiàn)購票、下映后需要介紹評論視頻
  三類(lèi)擴展維度:
  上下文數據:搜了歡樂(lè )頌后,用戶(hù)是否主動(dòng)更改query搜索歡樂(lè )頌視頻
  類(lèi)目數據:對于【歡樂(lè )頌】這種電視劇專(zhuān)名,天然就有視頻、劇情等需求。PM可以提前梳理針對各類(lèi)目的需求擴展list。
  個(gè)性化數據:對于特定類(lèi)目可以進(jìn)行地域擴展,家樂(lè )?!?gt;北京家樂(lè )福;電影專(zhuān)名,有的用戶(hù)更傾向于看劇情,有的傾向看評論。
  一個(gè)query經(jīng)過(guò)以上分類(lèi)處理后,會(huì )統一成這樣的輸出,來(lái)進(jìn)行接下來(lái)的檢索:
  【需求類(lèi)目/需求詞】
  【需求強度】
  【待檢索term/pattern】
  【其他限定特征(地域等)】
  衡量指標:
  1)每個(gè)query分析規則的召回率和準確率
  2)各需求的召回率和準確率
  3
  解決方案
  分為兩部分:排序和展現
  1.排序
  不同需求間:根據需求強度(命中需求的概率)
  同一需求間:根據結果質(zhì)量(相關(guān)性、權威性、時(shí)效性、可用性)
  根據用戶(hù)的點(diǎn)擊行為進(jìn)行調整
  實(shí)際上,會(huì )把需求強度、結果質(zhì)量、用戶(hù)點(diǎn)擊行為統一成【唯一指標】決定首頁(yè)結果的排序
  LTR:learningtorank機器學(xué)習排序
  
  2.展現
  通用策略:將結果頁(yè)中與query相關(guān)的信息提取為標題/摘要,進(jìn)行飄紅等處理幫助用戶(hù)篩選信息
 ?。▽λ兴阉饕?,都是將檢索對象中用戶(hù)最關(guān)心的內容提取至檢索結果列表頁(yè),并根據情況以各種強化的樣式展現)
  細化策略:針對不同需求,又有如下細化策略:
  A)對于單一明確信息需求,可以將答案信息之間在摘要中展現
  例如:天氣、客服電話(huà)
  B)對于用戶(hù)接下來(lái)路徑相對收斂的需求,可以將下一步需求前置,縮短步驟
  例如:網(wǎng)易郵箱(登錄)、歡樂(lè )頌視頻(集數)、凡人歌(播放)
  C)對于不同資源類(lèi)型結果,可以針對性?xún)?yōu)化摘要
  例如:視頻類(lèi)、圖片類(lèi)、新聞類(lèi)、地圖類(lèi)
  3.衡量指標
  1)每個(gè)需求打分、質(zhì)量打分、展現策略的召回率和準確率
  2)用戶(hù)角度的搜索的滿(mǎn)足度
  A)基于用戶(hù)行為的搜索滿(mǎn)足度:
  摘要滿(mǎn)足型需求——>無(wú)/很少點(diǎn)擊行為
  單結果滿(mǎn)足型需求——>點(diǎn)擊集中于收條結果
  主動(dòng)變換query比例低
  翻頁(yè)比例低等等
  B)基于人為評估的搜索滿(mǎn)足度:
  query前3/5/10結果相關(guān)性->基于人為需求判斷,當前結果是否能滿(mǎn)足;與競品相比,是否有更好結果未收錄、排序是否更優(yōu)等
  session滿(mǎn)足度->從用戶(hù)一個(gè)行為片段分析其是否得到滿(mǎn)足
  4
  資源支撐
  1.自然語(yǔ)言相關(guān)
  各類(lèi)基礎詞庫:用于query切詞處理、同義轉換、糾錯等
  語(yǔ)義理解和處理規則:用于query解析
  2.網(wǎng)頁(yè)相關(guān)
  網(wǎng)頁(yè)收錄(spider):
  1)保證各類(lèi)網(wǎng)頁(yè)收錄覆蓋度
  2)保證各類(lèi)網(wǎng)頁(yè)收錄時(shí)效性:根據網(wǎng)頁(yè)類(lèi)型定義更新頻率,重要或時(shí)效性要求高的資源可選擇站長(cháng)主動(dòng)提交的方式
  頁(yè)面分析:
  對頁(yè)面類(lèi)型進(jìn)行識別,頁(yè)面中內容解析、為term附權等等
  衡量指標
  1)對于NLP相關(guān):各類(lèi)詞庫、處理策略的準確率、召回率等;
  2)對于網(wǎng)頁(yè)收錄:收錄覆蓋率、更新時(shí)效性等;
  3)對于頁(yè)面分析:各類(lèi)準確率、召回率等。
  5
  總結
  
  以上為三節課策略產(chǎn)品課程個(gè)人學(xué)習筆記。

SEM(搜索引擎營(yíng)銷(xiāo))是什么?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 125 次瀏覽 ? 2022-05-05 22:20 ? 來(lái)自相關(guān)話(huà)題

  SEM(搜索引擎營(yíng)銷(xiāo))是什么?
  
  SEM是Search Engine Marketing的縮寫(xiě),中文意思是搜索引擎營(yíng)銷(xiāo)。就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候盡可能將營(yíng)銷(xiāo)信息傳遞給目標客戶(hù)。
  
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。SEM可以在搜索引擎中進(jìn)行品牌的維護,將品牌的負面信息盡可能少的呈現在搜索用戶(hù)面前,可以預防競爭對手在網(wǎng)絡(luò )上惡意的誣陷。同時(shí)可以在進(jìn)行正面和商業(yè)信息的推廣,進(jìn)而達到品牌推廣的目標。
  SEM目標層次原理
  SEM搜索引擎營(yíng)銷(xiāo)可分為四個(gè)層次,可分別簡(jiǎn)單描述為:存在層、表現層、關(guān)注層和轉化層。
  第一層的目標是搜索引擎營(yíng)銷(xiāo)的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎之一,第二個(gè)基礎是通過(guò)競價(jià)排名方式出現在搜索引擎中,離開(kāi)這兩個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  第三層的目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  第四層的目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。目前搜索營(yíng)銷(xiāo),逐步被人們認識和運用。
  SEM基本要素
  根據搜索引擎營(yíng)銷(xiāo)的基本原理,搜索引擎營(yíng)銷(xiāo)之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎營(yíng)銷(xiāo)信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎營(yíng)銷(xiāo)的基本任務(wù)和內容。
  
  SEM的優(yōu)勢
  SEM是一種新的網(wǎng)絡(luò )營(yíng)銷(xiāo)形式。SEM所做的就是全面而有效的利用搜索引擎來(lái)進(jìn)行網(wǎng)絡(luò )營(yíng)銷(xiāo)和推廣。SEM追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。SEM可以在搜索引擎中進(jìn)行品牌的維護,將品牌的負面信息盡可能少的呈現在搜索用戶(hù)面前,可以預防競爭對手在網(wǎng)絡(luò )上惡意的誣陷。同時(shí)可以在進(jìn)行正面和商業(yè)信息的推廣,進(jìn)而達到品牌推廣的目標。
  SEM與SEO、SMO的區別
  SEM是網(wǎng)絡(luò )營(yíng)銷(xiāo),SEO是技術(shù),SMO是通過(guò)社會(huì )化媒體一整套方法。
  通俗的講SEO是搜索引擎優(yōu)化,是通過(guò)優(yōu)化網(wǎng)站讓其在搜索引擎上有良好的排名,主要是技術(shù)層面的。SEM是搜索引擎營(yíng)銷(xiāo),SEO只是SEM的一部分。SEM主要是通過(guò)搜索引擎進(jìn)行營(yíng)銷(xiāo)的。SMO是通過(guò)社會(huì )化媒體、在線(xiàn)組織及社區網(wǎng)站獲得公共傳播的一整套方法,是社會(huì )化媒體優(yōu)化是網(wǎng)絡(luò )營(yíng)銷(xiāo)的一種最新形式。
  SEM網(wǎng)絡(luò )營(yíng)銷(xiāo)常用方法
  1、搜索引擎營(yíng)銷(xiāo)
  搜索引擎營(yíng)銷(xiāo)是指搜索引擎優(yōu)化、關(guān)鍵詞廣告、關(guān)鍵詞競價(jià)排名、搜索引擎定位廣告搜索引擎在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的地位尤其重要,每天各行各業(yè)的人使用搜索引擎搜索信息。通過(guò)搜索引擎營(yíng)銷(xiāo)能直接帶來(lái)流量與終端客戶(hù)。
  2、電子郵件營(yíng)銷(xiāo)方法
  以電子郵件為產(chǎn)品資料、刊物、介紹等方向發(fā)送到電子郵件廣告等?;谟脩?hù)許可的電子郵件營(yíng)銷(xiāo)的推廣方式可以增加用戶(hù)對產(chǎn)品的了解。
  3、資源合作營(yíng)銷(xiāo)方法
  網(wǎng)站交換鏈接、交換廣告、內容合作、信息推廣、信息合作、用戶(hù)資源合作等方式,正所謂“人人為我,我為人人”,合作共贏(yíng),利益共享,共同發(fā)展。
  4、網(wǎng)絡(luò )廣告營(yíng)銷(xiāo)方法
  網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式之一,直接通過(guò)網(wǎng)站的廣告位置進(jìn)行投放推廣,可以直接借用其他網(wǎng)絡(luò )媒體推廣,網(wǎng)站廣告的優(yōu)勢在于:范圍廣、形式多樣、適用性強、投放及時(shí)等優(yōu)點(diǎn),適合于網(wǎng)站初期營(yíng)銷(xiāo)推廣。
  5、信息推廣營(yíng)銷(xiāo)方法
  把網(wǎng)站的信息發(fā)布相關(guān)行業(yè)網(wǎng)站中,利用用戶(hù)在訪(fǎng)問(wèn)這些網(wǎng)站同時(shí),了解你網(wǎng)站信息,達到鑿壁借光,可以把信息推廣發(fā)布到黃頁(yè)、分類(lèi)廣告、論壇、博客網(wǎng)站、供求信息平臺、行業(yè)網(wǎng)站等,這也是免費網(wǎng)站推廣的常用方法之一。
  6、網(wǎng)址營(yíng)銷(xiāo)方法
  通過(guò)把一些網(wǎng)站信息提交到相關(guān)網(wǎng)址導航中,來(lái)獲取巨大流量,有些網(wǎng)絡(luò )用戶(hù)常進(jìn)入一些網(wǎng)址導航中來(lái)查詢(xún)相關(guān)網(wǎng)站信息,而且此種推廣,對網(wǎng)站的作用也顯而易見(jiàn)。 查看全部

  SEM(搜索引擎營(yíng)銷(xiāo))是什么?
  
  SEM是Search Engine Marketing的縮寫(xiě),中文意思是搜索引擎營(yíng)銷(xiāo)。就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候盡可能將營(yíng)銷(xiāo)信息傳遞給目標客戶(hù)。
  
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。SEM可以在搜索引擎中進(jìn)行品牌的維護,將品牌的負面信息盡可能少的呈現在搜索用戶(hù)面前,可以預防競爭對手在網(wǎng)絡(luò )上惡意的誣陷。同時(shí)可以在進(jìn)行正面和商業(yè)信息的推廣,進(jìn)而達到品牌推廣的目標。
  SEM目標層次原理
  SEM搜索引擎營(yíng)銷(xiāo)可分為四個(gè)層次,可分別簡(jiǎn)單描述為:存在層、表現層、關(guān)注層和轉化層。
  第一層的目標是搜索引擎營(yíng)銷(xiāo)的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎之一,第二個(gè)基礎是通過(guò)競價(jià)排名方式出現在搜索引擎中,離開(kāi)這兩個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  第三層的目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  第四層的目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。目前搜索營(yíng)銷(xiāo),逐步被人們認識和運用。
  SEM基本要素
  根據搜索引擎營(yíng)銷(xiāo)的基本原理,搜索引擎營(yíng)銷(xiāo)之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎營(yíng)銷(xiāo)信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎營(yíng)銷(xiāo)的基本任務(wù)和內容。
  
  SEM的優(yōu)勢
  SEM是一種新的網(wǎng)絡(luò )營(yíng)銷(xiāo)形式。SEM所做的就是全面而有效的利用搜索引擎來(lái)進(jìn)行網(wǎng)絡(luò )營(yíng)銷(xiāo)和推廣。SEM追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。SEM可以在搜索引擎中進(jìn)行品牌的維護,將品牌的負面信息盡可能少的呈現在搜索用戶(hù)面前,可以預防競爭對手在網(wǎng)絡(luò )上惡意的誣陷。同時(shí)可以在進(jìn)行正面和商業(yè)信息的推廣,進(jìn)而達到品牌推廣的目標。
  SEM與SEO、SMO的區別
  SEM是網(wǎng)絡(luò )營(yíng)銷(xiāo),SEO是技術(shù),SMO是通過(guò)社會(huì )化媒體一整套方法。
  通俗的講SEO是搜索引擎優(yōu)化,是通過(guò)優(yōu)化網(wǎng)站讓其在搜索引擎上有良好的排名,主要是技術(shù)層面的。SEM是搜索引擎營(yíng)銷(xiāo),SEO只是SEM的一部分。SEM主要是通過(guò)搜索引擎進(jìn)行營(yíng)銷(xiāo)的。SMO是通過(guò)社會(huì )化媒體、在線(xiàn)組織及社區網(wǎng)站獲得公共傳播的一整套方法,是社會(huì )化媒體優(yōu)化是網(wǎng)絡(luò )營(yíng)銷(xiāo)的一種最新形式。
  SEM網(wǎng)絡(luò )營(yíng)銷(xiāo)常用方法
  1、搜索引擎營(yíng)銷(xiāo)
  搜索引擎營(yíng)銷(xiāo)是指搜索引擎優(yōu)化、關(guān)鍵詞廣告、關(guān)鍵詞競價(jià)排名、搜索引擎定位廣告搜索引擎在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的地位尤其重要,每天各行各業(yè)的人使用搜索引擎搜索信息。通過(guò)搜索引擎營(yíng)銷(xiāo)能直接帶來(lái)流量與終端客戶(hù)。
  2、電子郵件營(yíng)銷(xiāo)方法
  以電子郵件為產(chǎn)品資料、刊物、介紹等方向發(fā)送到電子郵件廣告等?;谟脩?hù)許可的電子郵件營(yíng)銷(xiāo)的推廣方式可以增加用戶(hù)對產(chǎn)品的了解。
  3、資源合作營(yíng)銷(xiāo)方法
  網(wǎng)站交換鏈接、交換廣告、內容合作、信息推廣、信息合作、用戶(hù)資源合作等方式,正所謂“人人為我,我為人人”,合作共贏(yíng),利益共享,共同發(fā)展。
  4、網(wǎng)絡(luò )廣告營(yíng)銷(xiāo)方法
  網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式之一,直接通過(guò)網(wǎng)站的廣告位置進(jìn)行投放推廣,可以直接借用其他網(wǎng)絡(luò )媒體推廣,網(wǎng)站廣告的優(yōu)勢在于:范圍廣、形式多樣、適用性強、投放及時(shí)等優(yōu)點(diǎn),適合于網(wǎng)站初期營(yíng)銷(xiāo)推廣。
  5、信息推廣營(yíng)銷(xiāo)方法
  把網(wǎng)站的信息發(fā)布相關(guān)行業(yè)網(wǎng)站中,利用用戶(hù)在訪(fǎng)問(wèn)這些網(wǎng)站同時(shí),了解你網(wǎng)站信息,達到鑿壁借光,可以把信息推廣發(fā)布到黃頁(yè)、分類(lèi)廣告、論壇、博客網(wǎng)站、供求信息平臺、行業(yè)網(wǎng)站等,這也是免費網(wǎng)站推廣的常用方法之一。
  6、網(wǎng)址營(yíng)銷(xiāo)方法
  通過(guò)把一些網(wǎng)站信息提交到相關(guān)網(wǎng)址導航中,來(lái)獲取巨大流量,有些網(wǎng)絡(luò )用戶(hù)常進(jìn)入一些網(wǎng)址導航中來(lái)查詢(xún)相關(guān)網(wǎng)站信息,而且此種推廣,對網(wǎng)站的作用也顯而易見(jiàn)。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 138 次瀏覽 ? 2022-05-04 05:23 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?
  
  搜索引擎營(yíng)銷(xiāo):英文Search Engine Marketing ,我們通常簡(jiǎn)稱(chēng)為“SEM”。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候將信息傳遞給目標用戶(hù)。搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)點(diǎn)擊進(jìn)入網(wǎng)頁(yè),進(jìn)一步了解所需要的信息。企業(yè)通過(guò)搜索引擎付費推廣,讓用戶(hù)可以直接與公司客服進(jìn)行交流、了解,實(shí)現交易。
  定義
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。在介紹搜索引擎策略時(shí),一般認為,搜索引擎優(yōu)化設計主要目標有2個(gè)層次:被搜索引擎收錄、在搜索結果中排名靠前。這已經(jīng)是常識問(wèn)題,簡(jiǎn)單來(lái)說(shuō)SEM所做的就是以最小的投入在搜索引擎中獲最大的訪(fǎng)問(wèn)量并產(chǎn)生商業(yè)價(jià)值。多數網(wǎng)絡(luò )營(yíng)銷(xiāo)人員和專(zhuān)業(yè)服務(wù)商對搜索引擎的目標設定也基本處于這個(gè)水平。但從實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前還很不夠,因為取得這樣的效果實(shí)際上并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客或者潛在顧客,因此只能說(shuō)是搜索引擎營(yíng)銷(xiāo)策略中兩個(gè)最基本的目標。
  SEM的方法包括SEO、付費排名、精準廣告以及付費收錄等
  價(jià)值
  1、帶來(lái)更多的點(diǎn)擊與關(guān)注;
  2、帶來(lái)更多的商業(yè)機會(huì );
  3、樹(shù)立行業(yè)品牌;
  4、增加網(wǎng)站廣度;
  5、提升品牌知名度;
  6、增加網(wǎng)站曝光度;
  7、根據關(guān)鍵詞,通過(guò)創(chuàng )意和描述提供相關(guān)介紹。
  內涵
  搜索引擎營(yíng)銷(xiāo)(Search Engine Marking簡(jiǎn)稱(chēng) SEM)就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。
  工作原理
  1、用戶(hù)搜索;
  2、返回結果;
  3、查看結果;
  4、點(diǎn)擊內容;
  5、瀏覽網(wǎng)站;
  6、咨詢(xún)搜索
  搜索引擎工作原理
  抓取-數據庫-分析搜索請求-計算排列順序
  基本要素
  根據搜索引擎推廣的原理,搜索引擎推廣之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎推廣信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎推廣的基本任務(wù)和內容。
  其實(shí)最主要的還是需要做好用戶(hù)體驗,百度算法進(jìn)步升級,更加重視了用戶(hù)體驗這一塊,做好內容,做優(yōu)質(zhì)內容才是王道。
  基本過(guò)程
  1、企業(yè)信息發(fā)布在網(wǎng)站上成為以網(wǎng)頁(yè)形式存在的信息源(包括企業(yè)內部信息源及外部信息源);
  2、搜索引擎將網(wǎng)站/網(wǎng)頁(yè)信息收錄到索引數據庫;
  3、用戶(hù)利用關(guān)鍵詞進(jìn)行檢索(對于分類(lèi)目錄則是逐級目錄查詢(xún));
  4、檢索結果中羅列相關(guān)的索引信息及其鏈接URL;
  5、根據用戶(hù)對檢索結果的判斷選擇有興趣的信息并點(diǎn)擊URL進(jìn)入信息源所在網(wǎng)頁(yè);
  6、搜索關(guān)鍵詞;
  7、看到搜索結果;
  8、點(diǎn)擊鏈接;
  9、瀏覽企業(yè)網(wǎng)站;
  10、實(shí)現轉化。
  基本內容
  1、構造適合于搜索引擎檢索的信息源;
  2、創(chuàng )造網(wǎng)站/網(wǎng)頁(yè)被搜索引擎收錄的機會(huì );
  3、讓網(wǎng)站信息出現在搜索結果中靠前位置;
  4、以搜索結果中有限的信息獲得用戶(hù)關(guān)注;
  5、為用戶(hù)獲取信息提供方便。
  營(yíng)銷(xiāo)特點(diǎn)
  1、使用廣泛;
  2、用戶(hù)主動(dòng)查詢(xún);
  3、獲取新客戶(hù);
  4、競爭性強;
  5、動(dòng)態(tài)更新,隨時(shí)調整;
  6、投資回報率高;
  7、搜索引擎營(yíng)銷(xiāo)的基礎是企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)的信息源;
  8、搜索引擎傳遞的信息只發(fā)揮向導作用;
  9、搜索引擎營(yíng)銷(xiāo)是用戶(hù)主導的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式;
  10、搜索引擎營(yíng)銷(xiāo)可實(shí)現較高程度的定位;
  11、搜索引擎營(yíng)銷(xiāo)需要適應網(wǎng)絡(luò )服務(wù)環(huán)境的發(fā)展變化。
  營(yíng)銷(xiāo)宗旨
  1、被收錄;
  2、排名靠前;
  3、常被點(diǎn)擊;
  4、客戶(hù)轉化;
  5、提高品牌知名度。
  標題標簽
  通過(guò)對客戶(hù)網(wǎng)站進(jìn)行整站優(yōu)化,挑選出部分主關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其達到搜索引擎的首頁(yè)位置,同時(shí)提高網(wǎng)站的權重,并帶動(dòng)更多長(cháng)尾關(guān)鍵詞的自然排名的提升。再結合ppc競價(jià),制定出精確的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,給公司帶來(lái)更多的訂單。
  在網(wǎng)頁(yè)的優(yōu)化上最重要的因素之一就是網(wǎng)頁(yè)的標題標簽。通常在寫(xiě)標題標簽時(shí)應該考慮幾個(gè)因素。
  1、所有網(wǎng)頁(yè)都應該有適合自己的獨特的Title或Tag。有很多網(wǎng)站都犯了一個(gè)很低級的錯誤,也就是所有網(wǎng)頁(yè)都有同一個(gè)標題??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候把整個(gè)模版來(lái)回復制,所以HTML文件里面的頭信息也都被復制過(guò)去,沒(méi)有再被改動(dòng)。
  2、標題標簽應該對用戶(hù)的需求有足夠的吸引力。網(wǎng)頁(yè)在搜索引擎結果中列出,網(wǎng)頁(yè)的標題就是來(lái)自于標題標簽。
  3、標題標簽中應該含有關(guān)鍵詞。
  營(yíng)銷(xiāo)目標
  第一層是搜索引擎的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎,離開(kāi)這個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  搜索引擎營(yíng)銷(xiāo)的第三個(gè)目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  搜索引擎推廣的第四個(gè)目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。
  搜索引擎推廣追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。用戶(hù)在檢索信息所使用的關(guān)鍵字反映出用戶(hù)對該問(wèn)題(產(chǎn)品)的關(guān)注,這種關(guān)注是搜索引擎之所以被應用于網(wǎng)絡(luò )營(yíng)銷(xiāo)的根本原因。
  網(wǎng)絡(luò )整合營(yíng)銷(xiāo)四大特性
  傳染特性、互動(dòng)特性、重合特性、背書(shū)特性
  確立營(yíng)銷(xiāo)需求
  確立營(yíng)銷(xiāo)標的物(產(chǎn)品屬性)
  確立營(yíng)銷(xiāo)標準(消費人群)
  確立目標場(chǎng)景
  云浪網(wǎng)絡(luò )推廣,一直以低成本、有效果為各大企業(yè)及廣告營(yíng)銷(xiāo)策劃公司提供網(wǎng)絡(luò )推廣服務(wù)多年,擅長(cháng)利用百度營(yíng)銷(xiāo)軟文首頁(yè)推廣、百度愛(ài)采購,百度競價(jià)前三推廣(1500一個(gè)月,三個(gè)月2800,包點(diǎn)擊費),官網(wǎng)推廣至百度搜索關(guān)鍵詞首頁(yè)有排名為目標。
  【百度快照、百度競價(jià),百度愛(ài)采購、360競價(jià)、、信息流開(kāi)戶(hù),抖音短視頻,全網(wǎng)推廣咨詢(xún):度曉曉】
   查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?
  
  搜索引擎營(yíng)銷(xiāo):英文Search Engine Marketing ,我們通常簡(jiǎn)稱(chēng)為“SEM”。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候將信息傳遞給目標用戶(hù)。搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)點(diǎn)擊進(jìn)入網(wǎng)頁(yè),進(jìn)一步了解所需要的信息。企業(yè)通過(guò)搜索引擎付費推廣,讓用戶(hù)可以直接與公司客服進(jìn)行交流、了解,實(shí)現交易。
  定義
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。在介紹搜索引擎策略時(shí),一般認為,搜索引擎優(yōu)化設計主要目標有2個(gè)層次:被搜索引擎收錄、在搜索結果中排名靠前。這已經(jīng)是常識問(wèn)題,簡(jiǎn)單來(lái)說(shuō)SEM所做的就是以最小的投入在搜索引擎中獲最大的訪(fǎng)問(wèn)量并產(chǎn)生商業(yè)價(jià)值。多數網(wǎng)絡(luò )營(yíng)銷(xiāo)人員和專(zhuān)業(yè)服務(wù)商對搜索引擎的目標設定也基本處于這個(gè)水平。但從實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前還很不夠,因為取得這樣的效果實(shí)際上并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客或者潛在顧客,因此只能說(shuō)是搜索引擎營(yíng)銷(xiāo)策略中兩個(gè)最基本的目標。
  SEM的方法包括SEO、付費排名、精準廣告以及付費收錄等
  價(jià)值
  1、帶來(lái)更多的點(diǎn)擊與關(guān)注;
  2、帶來(lái)更多的商業(yè)機會(huì );
  3、樹(shù)立行業(yè)品牌;
  4、增加網(wǎng)站廣度;
  5、提升品牌知名度;
  6、增加網(wǎng)站曝光度;
  7、根據關(guān)鍵詞,通過(guò)創(chuàng )意和描述提供相關(guān)介紹。
  內涵
  搜索引擎營(yíng)銷(xiāo)(Search Engine Marking簡(jiǎn)稱(chēng) SEM)就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。
  工作原理
  1、用戶(hù)搜索;
  2、返回結果;
  3、查看結果;
  4、點(diǎn)擊內容;
  5、瀏覽網(wǎng)站;
  6、咨詢(xún)搜索
  搜索引擎工作原理
  抓取-數據庫-分析搜索請求-計算排列順序
  基本要素
  根據搜索引擎推廣的原理,搜索引擎推廣之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎推廣信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎推廣的基本任務(wù)和內容。
  其實(shí)最主要的還是需要做好用戶(hù)體驗,百度算法進(jìn)步升級,更加重視了用戶(hù)體驗這一塊,做好內容,做優(yōu)質(zhì)內容才是王道。
  基本過(guò)程
  1、企業(yè)信息發(fā)布在網(wǎng)站上成為以網(wǎng)頁(yè)形式存在的信息源(包括企業(yè)內部信息源及外部信息源);
  2、搜索引擎將網(wǎng)站/網(wǎng)頁(yè)信息收錄到索引數據庫;
  3、用戶(hù)利用關(guān)鍵詞進(jìn)行檢索(對于分類(lèi)目錄則是逐級目錄查詢(xún));
  4、檢索結果中羅列相關(guān)的索引信息及其鏈接URL;
  5、根據用戶(hù)對檢索結果的判斷選擇有興趣的信息并點(diǎn)擊URL進(jìn)入信息源所在網(wǎng)頁(yè);
  6、搜索關(guān)鍵詞;
  7、看到搜索結果;
  8、點(diǎn)擊鏈接;
  9、瀏覽企業(yè)網(wǎng)站;
  10、實(shí)現轉化。
  基本內容
  1、構造適合于搜索引擎檢索的信息源;
  2、創(chuàng )造網(wǎng)站/網(wǎng)頁(yè)被搜索引擎收錄的機會(huì );
  3、讓網(wǎng)站信息出現在搜索結果中靠前位置;
  4、以搜索結果中有限的信息獲得用戶(hù)關(guān)注;
  5、為用戶(hù)獲取信息提供方便。
  營(yíng)銷(xiāo)特點(diǎn)
  1、使用廣泛;
  2、用戶(hù)主動(dòng)查詢(xún);
  3、獲取新客戶(hù);
  4、競爭性強;
  5、動(dòng)態(tài)更新,隨時(shí)調整;
  6、投資回報率高;
  7、搜索引擎營(yíng)銷(xiāo)的基礎是企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)的信息源;
  8、搜索引擎傳遞的信息只發(fā)揮向導作用;
  9、搜索引擎營(yíng)銷(xiāo)是用戶(hù)主導的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式;
  10、搜索引擎營(yíng)銷(xiāo)可實(shí)現較高程度的定位;
  11、搜索引擎營(yíng)銷(xiāo)需要適應網(wǎng)絡(luò )服務(wù)環(huán)境的發(fā)展變化。
  營(yíng)銷(xiāo)宗旨
  1、被收錄;
  2、排名靠前;
  3、常被點(diǎn)擊;
  4、客戶(hù)轉化;
  5、提高品牌知名度。
  標題標簽
  通過(guò)對客戶(hù)網(wǎng)站進(jìn)行整站優(yōu)化,挑選出部分主關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其達到搜索引擎的首頁(yè)位置,同時(shí)提高網(wǎng)站的權重,并帶動(dòng)更多長(cháng)尾關(guān)鍵詞的自然排名的提升。再結合ppc競價(jià),制定出精確的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,給公司帶來(lái)更多的訂單。
  在網(wǎng)頁(yè)的優(yōu)化上最重要的因素之一就是網(wǎng)頁(yè)的標題標簽。通常在寫(xiě)標題標簽時(shí)應該考慮幾個(gè)因素。
  1、所有網(wǎng)頁(yè)都應該有適合自己的獨特的Title或Tag。有很多網(wǎng)站都犯了一個(gè)很低級的錯誤,也就是所有網(wǎng)頁(yè)都有同一個(gè)標題??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候把整個(gè)模版來(lái)回復制,所以HTML文件里面的頭信息也都被復制過(guò)去,沒(méi)有再被改動(dòng)。
  2、標題標簽應該對用戶(hù)的需求有足夠的吸引力。網(wǎng)頁(yè)在搜索引擎結果中列出,網(wǎng)頁(yè)的標題就是來(lái)自于標題標簽。
  3、標題標簽中應該含有關(guān)鍵詞。
  營(yíng)銷(xiāo)目標
  第一層是搜索引擎的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎,離開(kāi)這個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  搜索引擎營(yíng)銷(xiāo)的第三個(gè)目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  搜索引擎推廣的第四個(gè)目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。
  搜索引擎推廣追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。用戶(hù)在檢索信息所使用的關(guān)鍵字反映出用戶(hù)對該問(wèn)題(產(chǎn)品)的關(guān)注,這種關(guān)注是搜索引擎之所以被應用于網(wǎng)絡(luò )營(yíng)銷(xiāo)的根本原因。
  網(wǎng)絡(luò )整合營(yíng)銷(xiāo)四大特性
  傳染特性、互動(dòng)特性、重合特性、背書(shū)特性
  確立營(yíng)銷(xiāo)需求
  確立營(yíng)銷(xiāo)標的物(產(chǎn)品屬性)
  確立營(yíng)銷(xiāo)標準(消費人群)
  確立目標場(chǎng)景
  云浪網(wǎng)絡(luò )推廣,一直以低成本、有效果為各大企業(yè)及廣告營(yíng)銷(xiāo)策劃公司提供網(wǎng)絡(luò )推廣服務(wù)多年,擅長(cháng)利用百度營(yíng)銷(xiāo)軟文首頁(yè)推廣、百度愛(ài)采購,百度競價(jià)前三推廣(1500一個(gè)月,三個(gè)月2800,包點(diǎn)擊費),官網(wǎng)推廣至百度搜索關(guān)鍵詞首頁(yè)有排名為目標。
  【百度快照、百度競價(jià),百度愛(ài)采購、360競價(jià)、、信息流開(kāi)戶(hù),抖音短視頻,全網(wǎng)推廣咨詢(xún):度曉曉】
  

QA問(wèn)答場(chǎng)景算法實(shí)踐

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 100 次瀏覽 ? 2022-05-02 18:20 ? 來(lái)自相關(guān)話(huà)題

  QA問(wèn)答場(chǎng)景算法實(shí)踐
  1.背景
  我們的游戲客服場(chǎng)景中包含大量玩家與客服交互問(wèn)答的文本語(yǔ)料,人工客服在面對玩家時(shí)會(huì )遇到諸如賬號密碼、充值福利、玩法攻略等很多方面的問(wèn)題,經(jīng)過(guò)長(cháng)期的積累,運營(yíng)人員根據線(xiàn)上用戶(hù)的提問(wèn)做總結,沉淀下來(lái)的知識形成了游戲問(wèn)答領(lǐng)域的FAQ庫(知識庫)。我們的智能客服場(chǎng)景致力于解決人工客服需要應對的玩家提問(wèn),提供一個(gè)便捷的搜索入口,以便后續有人再有相同或相似問(wèn)題時(shí)可以直接搜到答案。
  智能客服相比于人工客服具有響應速度快、always online、維護成本低等優(yōu)勢,在有知識庫庫的前提下,通過(guò)智能化手段輔助人工解決玩家問(wèn)題,已經(jīng)作為一種效率提升手段覆蓋到越來(lái)越多的游戲當中。
  2.智能客服的實(shí)踐及探索2.1 智能客服架構
  整個(gè)智能客服的架構如下圖所示:
  
  2.2 Query理解2.2.1 為什么需要query理解
  query理解是整個(gè)智能客服中最上游的一環(huán),負責的是從query中提取到有效的信息,從而了解用戶(hù)希望這個(gè)query在問(wèn)什么內容。query理解,決定了下游的問(wèn)答召回策略:
  quey理解需要做哪些內容短語(yǔ)改寫(xiě)
  短語(yǔ)改寫(xiě)的背景很容易理解,因為輸入法等方面的問(wèn)題,用戶(hù)輸入會(huì )有筆誤操作類(lèi)
  這里提供兩個(gè)思路:
  簡(jiǎn)單說(shuō),短語(yǔ)改寫(xiě)的目的是為了糾錯,比如“充值到賬”手誤輸入成了“充直到賬”,短語(yǔ)改寫(xiě)便能將其糾正,query改寫(xiě)后能更容易召回正確答案。
  意圖識別
  意圖識別模塊通常是一個(gè)分類(lèi)任務(wù),目的是識別用戶(hù)要查詢(xún)的類(lèi)目,再輸出給召回和排序模塊,保證最后結果的類(lèi)目相關(guān)性,具體實(shí)現方式可以從傳統方法和NLP兩方面考慮。
  傳統方法:通過(guò)規則、詞典、正則等方式進(jìn)行識別,準確率高、速度快。
  NLP:通過(guò)語(yǔ)義分析的手段,文本分類(lèi),達到語(yǔ)義分析的目的。
  這里的意圖識別模型用的是fastText,FastText是由FaceBook于2016年發(fā)布的文本分類(lèi)模型,具有結構簡(jiǎn)單,訓練及推理速度較快的特點(diǎn)。FastText與生成詞向量的CBOW方法結構很像,并且采用了N-gram的方法,在預測過(guò)程中使用了分層SoftMax來(lái)加速訓練。
  
  FastText能夠在文本分類(lèi)任務(wù)中迅速達成baseline,達到相對較好的效果,并且推理耗時(shí)較少,適用于項目啟動(dòng)時(shí)期的快速上線(xiàn)??偟膩?lái)說(shuō),該模型有高效的訓練速度和較高的識別準確率,做出來(lái)的結果也可以達到上線(xiàn)使用的標準。詞法分析維護了一些詞典,通過(guò)詞典匹配能獲得query中的關(guān)鍵詞和關(guān)鍵短語(yǔ)。
  實(shí)體識別
  實(shí)體識別的實(shí)現方法可以概括為詞典匹配和機器學(xué)習方法。
  詞典匹配
  這個(gè)任務(wù)雖說(shuō)是命名實(shí)體識別任務(wù),但是卻不見(jiàn)得需要建立一個(gè)模型才能解決,要進(jìn)行一個(gè)初步的處理,快速上線(xiàn),其實(shí)詞典匹配的方法可能是最簡(jiǎn)單的,而實(shí)際上,即使是其他方法,我也很建議大家用這個(gè)方式去做一遍,理由后面會(huì )談。
  詞典匹配的便捷性體現在你真的很容易就能拿到這個(gè)詞典資源,因為你做搜索,所需要的數據,其實(shí)已經(jīng)在數據庫或者底層搜索引擎里面了(沒(méi)有資源你怎么做搜索推薦?),你可以將數據庫內的數據按照字段提取,然后通過(guò)n-gram的方式切詞,即可完成一個(gè)初步的詞典,復雜的,進(jìn)一步,為了保證詞典的可靠性,你可能需要刪除一些不適合再次點(diǎn)出現的詞匯,舉例,酒店名字段中,其實(shí)沒(méi)有必要存“酒店”做為詞條,首先召回的時(shí)候,大部分酒店都有“酒店”一詞,他沒(méi)有明顯地指向性,然后,這種召回也會(huì )增加排序的負擔。
  有了詞典之后,就可以通過(guò)詞典匹配的形式進(jìn)行命名實(shí)體識別。上面給出的例子:“北京的溫泉”,就可以快速標記“city-object-type”,然后就可以通過(guò)這個(gè)實(shí)體識別結果,拼好檢索語(yǔ)法,完成召回。
  機器學(xué)習方法
  器學(xué)習方法,包括深度學(xué)習,是現行的主流方法,我也最建議用這種方法上線(xiàn)。
  詞權重問(wèn)題
  詞權重可以簡(jiǎn)單理解為一個(gè)詞在我們問(wèn)題句子當中的權重,為什么要考慮詞權重?
  我們有了一段文本,抽取比較重要的關(guān)鍵詞,這些關(guān)鍵詞在一定程度上可以代表文本的語(yǔ)義,這種任務(wù)就被稱(chēng)為關(guān)鍵詞抽取。如果從抽象的角度去解釋?zhuān)覀儠?huì )把句子轉成0和1組成序列,序列的長(cháng)度跟句子長(cháng)度相等,對于這個(gè)01序列,為1的位置對應句子的位置的詞匯就是關(guān)鍵詞,為0的則為為關(guān)鍵詞。
  按照這個(gè)思路,我們用01來(lái)表示句子序列,0和1分別對應句子當中的詞匯,如果按照等級劃分,比如分層5個(gè)級別,01234,4代表最重要,3次之,以此類(lèi)推,形成一個(gè)分等級的詞重要性分析。
  概括來(lái)說(shuō),就是給句子中每個(gè)詞匯打分,體現他們的重要性,這種問(wèn)題就被稱(chēng)為詞權重問(wèn)題。
  處理方法:
  TFIDF是很強的baseline,具有較強的普適性,如果沒(méi)有太多經(jīng)驗的話(huà),可以實(shí)現該算法基本能應付大部分關(guān)鍵詞抽取的場(chǎng)景了
  有監督方法,其實(shí)就會(huì )比較多樣了,小到用基礎統計特征做機器學(xué)習,序列標注下的HMM、CRF,大到用語(yǔ)義模型做深度學(xué)習,其實(shí)都有不錯的效果。
  我這里重點(diǎn)談小型機器學(xué)習方法,這似乎也是目前工業(yè)界常用的。LR和GBDT體系是目前淺層學(xué)習的重要方法,當然序列標注的CRF和HMM也可以參考,因此在模型選型上,主要就是這些,那么,剩下的問(wèn)題就是特征怎么放了。
  常用的特征如下,這個(gè)和上面提到的可能會(huì )重復。
  2.3 召回層
  召回層是將候選答案從FAQ庫中拿回,獲得待排序的候選集。此處用了兩種召回方式:檢索召回和語(yǔ)義召回。
  
  2.4 排序層
  排序層是將召回層拿到的候選知識進(jìn)行排序,將和query最相關(guān)的知識盡可能往前排。排序模型采用了GBDT,GBDT作為一種常用的樹(shù)模型,可天然地對原始特征進(jìn)行特征劃分、特征組合和特征選擇,并得到高階特征屬性和非線(xiàn)性映射。我們考慮用GBDT可以組合多種特征,可擴展性強,并且后期驗證GBDT的效果好于單獨使用匹配算法效果,因此,當前匹配算法在排序層中作為一種特征來(lái)使用。
  匹配算法用到的是LSTM-DSSM,DSSM即Deep Structured Semantic Model,模型出自微軟研究院,主要方法是將query和doc通過(guò)深度網(wǎng)絡(luò )映射到相同維度的空間中,通過(guò)最大化其余弦相似度來(lái)進(jìn)行訓練。
  
  LSTM-DSSM是對DSSM的優(yōu)化,原生DSSM的基礎上,引入LSTM作為句子表征,提取更多的語(yǔ)義級別的信息。
  2.5 返回層:
  query經(jīng)過(guò)上述處理之后會(huì )對處理結果進(jìn)行返回,目前主要是QA-Bot。
  三、總結與展望
  當前的智能客服已經(jīng)覆蓋了多個(gè)業(yè)務(wù)線(xiàn)的游戲場(chǎng)景中,上線(xiàn)后,QA-bot的列表點(diǎn)擊率也有一定的提升,對于一些簡(jiǎn)單的問(wèn)題已經(jīng)能夠將較匹配的答案排到較前的位置。但是對于需要深度語(yǔ)義及具有知識背景的問(wèn)題,如:“VIP5到VIP6需要多少錢(qián)”的問(wèn)題,現有辦法將答案“充值”排在靠前的位置時(shí)還有一定的badcase。當前正在考慮參考知識圖譜等方向的解決方案,對知識庫內的知識進(jìn)行結構化的梳理,希望在匹配的同時(shí)能夠具有簡(jiǎn)單的推理,來(lái)更好的理解用戶(hù)語(yǔ)言背后的需求。
  展望和計劃:
  數據是效果的基礎,智能客服效果所依賴(lài)的知識庫庫也需要不斷的知識擴充,如何通過(guò)自動(dòng)或半自動(dòng)的方法挖出更多高質(zhì)量的相似問(wèn)或者標準問(wèn),為知識運營(yíng)人員提效,也是我們現階段正在探索的方向。
  當前的匹配算法僅作為一種特征使用在gbdt排序模型中,后期隨著(zhù)匹配算法的不斷積累,會(huì )將所有的匹配模型進(jìn)行整合,以一種更通用的模塊化的方式,為有文本匹配需求的各個(gè)業(yè)務(wù)場(chǎng)景提供匹配算法的支持。
  算法服務(wù)模塊會(huì )進(jìn)一步拆解,比如Query理解等方面的服務(wù)可以集成到開(kāi)放平臺,并提供服務(wù),為更多相關(guān)的業(yè)務(wù)提供算法支持。
  參考文獻 查看全部

  QA問(wèn)答場(chǎng)景算法實(shí)踐
  1.背景
  我們的游戲客服場(chǎng)景中包含大量玩家與客服交互問(wèn)答的文本語(yǔ)料,人工客服在面對玩家時(shí)會(huì )遇到諸如賬號密碼、充值福利、玩法攻略等很多方面的問(wèn)題,經(jīng)過(guò)長(cháng)期的積累,運營(yíng)人員根據線(xiàn)上用戶(hù)的提問(wèn)做總結,沉淀下來(lái)的知識形成了游戲問(wèn)答領(lǐng)域的FAQ庫(知識庫)。我們的智能客服場(chǎng)景致力于解決人工客服需要應對的玩家提問(wèn),提供一個(gè)便捷的搜索入口,以便后續有人再有相同或相似問(wèn)題時(shí)可以直接搜到答案。
  智能客服相比于人工客服具有響應速度快、always online、維護成本低等優(yōu)勢,在有知識庫庫的前提下,通過(guò)智能化手段輔助人工解決玩家問(wèn)題,已經(jīng)作為一種效率提升手段覆蓋到越來(lái)越多的游戲當中。
  2.智能客服的實(shí)踐及探索2.1 智能客服架構
  整個(gè)智能客服的架構如下圖所示:
  
  2.2 Query理解2.2.1 為什么需要query理解
  query理解是整個(gè)智能客服中最上游的一環(huán),負責的是從query中提取到有效的信息,從而了解用戶(hù)希望這個(gè)query在問(wèn)什么內容。query理解,決定了下游的問(wèn)答召回策略:
  quey理解需要做哪些內容短語(yǔ)改寫(xiě)
  短語(yǔ)改寫(xiě)的背景很容易理解,因為輸入法等方面的問(wèn)題,用戶(hù)輸入會(huì )有筆誤操作類(lèi)
  這里提供兩個(gè)思路:
  簡(jiǎn)單說(shuō),短語(yǔ)改寫(xiě)的目的是為了糾錯,比如“充值到賬”手誤輸入成了“充直到賬”,短語(yǔ)改寫(xiě)便能將其糾正,query改寫(xiě)后能更容易召回正確答案。
  意圖識別
  意圖識別模塊通常是一個(gè)分類(lèi)任務(wù),目的是識別用戶(hù)要查詢(xún)的類(lèi)目,再輸出給召回和排序模塊,保證最后結果的類(lèi)目相關(guān)性,具體實(shí)現方式可以從傳統方法和NLP兩方面考慮。
  傳統方法:通過(guò)規則、詞典、正則等方式進(jìn)行識別,準確率高、速度快。
  NLP:通過(guò)語(yǔ)義分析的手段,文本分類(lèi),達到語(yǔ)義分析的目的。
  這里的意圖識別模型用的是fastText,FastText是由FaceBook于2016年發(fā)布的文本分類(lèi)模型,具有結構簡(jiǎn)單,訓練及推理速度較快的特點(diǎn)。FastText與生成詞向量的CBOW方法結構很像,并且采用了N-gram的方法,在預測過(guò)程中使用了分層SoftMax來(lái)加速訓練。
  
  FastText能夠在文本分類(lèi)任務(wù)中迅速達成baseline,達到相對較好的效果,并且推理耗時(shí)較少,適用于項目啟動(dòng)時(shí)期的快速上線(xiàn)??偟膩?lái)說(shuō),該模型有高效的訓練速度和較高的識別準確率,做出來(lái)的結果也可以達到上線(xiàn)使用的標準。詞法分析維護了一些詞典,通過(guò)詞典匹配能獲得query中的關(guān)鍵詞和關(guān)鍵短語(yǔ)。
  實(shí)體識別
  實(shí)體識別的實(shí)現方法可以概括為詞典匹配和機器學(xué)習方法。
  詞典匹配
  這個(gè)任務(wù)雖說(shuō)是命名實(shí)體識別任務(wù),但是卻不見(jiàn)得需要建立一個(gè)模型才能解決,要進(jìn)行一個(gè)初步的處理,快速上線(xiàn),其實(shí)詞典匹配的方法可能是最簡(jiǎn)單的,而實(shí)際上,即使是其他方法,我也很建議大家用這個(gè)方式去做一遍,理由后面會(huì )談。
  詞典匹配的便捷性體現在你真的很容易就能拿到這個(gè)詞典資源,因為你做搜索,所需要的數據,其實(shí)已經(jīng)在數據庫或者底層搜索引擎里面了(沒(méi)有資源你怎么做搜索推薦?),你可以將數據庫內的數據按照字段提取,然后通過(guò)n-gram的方式切詞,即可完成一個(gè)初步的詞典,復雜的,進(jìn)一步,為了保證詞典的可靠性,你可能需要刪除一些不適合再次點(diǎn)出現的詞匯,舉例,酒店名字段中,其實(shí)沒(méi)有必要存“酒店”做為詞條,首先召回的時(shí)候,大部分酒店都有“酒店”一詞,他沒(méi)有明顯地指向性,然后,這種召回也會(huì )增加排序的負擔。
  有了詞典之后,就可以通過(guò)詞典匹配的形式進(jìn)行命名實(shí)體識別。上面給出的例子:“北京的溫泉”,就可以快速標記“city-object-type”,然后就可以通過(guò)這個(gè)實(shí)體識別結果,拼好檢索語(yǔ)法,完成召回。
  機器學(xué)習方法
  器學(xué)習方法,包括深度學(xué)習,是現行的主流方法,我也最建議用這種方法上線(xiàn)。
  詞權重問(wèn)題
  詞權重可以簡(jiǎn)單理解為一個(gè)詞在我們問(wèn)題句子當中的權重,為什么要考慮詞權重?
  我們有了一段文本,抽取比較重要的關(guān)鍵詞,這些關(guān)鍵詞在一定程度上可以代表文本的語(yǔ)義,這種任務(wù)就被稱(chēng)為關(guān)鍵詞抽取。如果從抽象的角度去解釋?zhuān)覀儠?huì )把句子轉成0和1組成序列,序列的長(cháng)度跟句子長(cháng)度相等,對于這個(gè)01序列,為1的位置對應句子的位置的詞匯就是關(guān)鍵詞,為0的則為為關(guān)鍵詞。
  按照這個(gè)思路,我們用01來(lái)表示句子序列,0和1分別對應句子當中的詞匯,如果按照等級劃分,比如分層5個(gè)級別,01234,4代表最重要,3次之,以此類(lèi)推,形成一個(gè)分等級的詞重要性分析。
  概括來(lái)說(shuō),就是給句子中每個(gè)詞匯打分,體現他們的重要性,這種問(wèn)題就被稱(chēng)為詞權重問(wèn)題。
  處理方法:
  TFIDF是很強的baseline,具有較強的普適性,如果沒(méi)有太多經(jīng)驗的話(huà),可以實(shí)現該算法基本能應付大部分關(guān)鍵詞抽取的場(chǎng)景了
  有監督方法,其實(shí)就會(huì )比較多樣了,小到用基礎統計特征做機器學(xué)習,序列標注下的HMM、CRF,大到用語(yǔ)義模型做深度學(xué)習,其實(shí)都有不錯的效果。
  我這里重點(diǎn)談小型機器學(xué)習方法,這似乎也是目前工業(yè)界常用的。LR和GBDT體系是目前淺層學(xué)習的重要方法,當然序列標注的CRF和HMM也可以參考,因此在模型選型上,主要就是這些,那么,剩下的問(wèn)題就是特征怎么放了。
  常用的特征如下,這個(gè)和上面提到的可能會(huì )重復。
  2.3 召回層
  召回層是將候選答案從FAQ庫中拿回,獲得待排序的候選集。此處用了兩種召回方式:檢索召回和語(yǔ)義召回。
  
  2.4 排序層
  排序層是將召回層拿到的候選知識進(jìn)行排序,將和query最相關(guān)的知識盡可能往前排。排序模型采用了GBDT,GBDT作為一種常用的樹(shù)模型,可天然地對原始特征進(jìn)行特征劃分、特征組合和特征選擇,并得到高階特征屬性和非線(xiàn)性映射。我們考慮用GBDT可以組合多種特征,可擴展性強,并且后期驗證GBDT的效果好于單獨使用匹配算法效果,因此,當前匹配算法在排序層中作為一種特征來(lái)使用。
  匹配算法用到的是LSTM-DSSM,DSSM即Deep Structured Semantic Model,模型出自微軟研究院,主要方法是將query和doc通過(guò)深度網(wǎng)絡(luò )映射到相同維度的空間中,通過(guò)最大化其余弦相似度來(lái)進(jìn)行訓練。
  
  LSTM-DSSM是對DSSM的優(yōu)化,原生DSSM的基礎上,引入LSTM作為句子表征,提取更多的語(yǔ)義級別的信息。
  2.5 返回層:
  query經(jīng)過(guò)上述處理之后會(huì )對處理結果進(jìn)行返回,目前主要是QA-Bot。
  三、總結與展望
  當前的智能客服已經(jīng)覆蓋了多個(gè)業(yè)務(wù)線(xiàn)的游戲場(chǎng)景中,上線(xiàn)后,QA-bot的列表點(diǎn)擊率也有一定的提升,對于一些簡(jiǎn)單的問(wèn)題已經(jīng)能夠將較匹配的答案排到較前的位置。但是對于需要深度語(yǔ)義及具有知識背景的問(wèn)題,如:“VIP5到VIP6需要多少錢(qián)”的問(wèn)題,現有辦法將答案“充值”排在靠前的位置時(shí)還有一定的badcase。當前正在考慮參考知識圖譜等方向的解決方案,對知識庫內的知識進(jìn)行結構化的梳理,希望在匹配的同時(shí)能夠具有簡(jiǎn)單的推理,來(lái)更好的理解用戶(hù)語(yǔ)言背后的需求。
  展望和計劃:
  數據是效果的基礎,智能客服效果所依賴(lài)的知識庫庫也需要不斷的知識擴充,如何通過(guò)自動(dòng)或半自動(dòng)的方法挖出更多高質(zhì)量的相似問(wèn)或者標準問(wèn),為知識運營(yíng)人員提效,也是我們現階段正在探索的方向。
  當前的匹配算法僅作為一種特征使用在gbdt排序模型中,后期隨著(zhù)匹配算法的不斷積累,會(huì )將所有的匹配模型進(jìn)行整合,以一種更通用的模塊化的方式,為有文本匹配需求的各個(gè)業(yè)務(wù)場(chǎng)景提供匹配算法的支持。
  算法服務(wù)模塊會(huì )進(jìn)一步拆解,比如Query理解等方面的服務(wù)可以集成到開(kāi)放平臺,并提供服務(wù),為更多相關(guān)的業(yè)務(wù)提供算法支持。
  參考文獻

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2022-05-01 18:04 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?
  
  搜索引擎營(yíng)銷(xiāo):英文Search Engine Marketing ,我們通常簡(jiǎn)稱(chēng)為“SEM”。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候將信息傳遞給目標用戶(hù)。搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)點(diǎn)擊進(jìn)入網(wǎng)頁(yè),進(jìn)一步了解所需要的信息。企業(yè)通過(guò)搜索引擎付費推廣,讓用戶(hù)可以直接與公司客服進(jìn)行交流、了解,實(shí)現交易。
  定義
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。在介紹搜索引擎策略時(shí),一般認為,搜索引擎優(yōu)化設計主要目標有2個(gè)層次:被搜索引擎收錄、在搜索結果中排名靠前。這已經(jīng)是常識問(wèn)題,簡(jiǎn)單來(lái)說(shuō)SEM所做的就是以最小的投入在搜索引擎中獲最大的訪(fǎng)問(wèn)量并產(chǎn)生商業(yè)價(jià)值。多數網(wǎng)絡(luò )營(yíng)銷(xiāo)人員和專(zhuān)業(yè)服務(wù)商對搜索引擎的目標設定也基本處于這個(gè)水平。但從實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前還很不夠,因為取得這樣的效果實(shí)際上并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客或者潛在顧客,因此只能說(shuō)是搜索引擎營(yíng)銷(xiāo)策略中兩個(gè)最基本的目標。
  SEM的方法包括SEO、付費排名、精準廣告以及付費收錄等
  價(jià)值
  1、帶來(lái)更多的點(diǎn)擊與關(guān)注;
  2、帶來(lái)更多的商業(yè)機會(huì );
  3、樹(shù)立行業(yè)品牌;
  4、增加網(wǎng)站廣度;
  5、提升品牌知名度;
  6、增加網(wǎng)站曝光度;
  7、根據關(guān)鍵詞,通過(guò)創(chuàng )意和描述提供相關(guān)介紹。
  內涵
  搜索引擎營(yíng)銷(xiāo)(Search Engine Marking簡(jiǎn)稱(chēng) SEM)就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。
  工作原理
  1、用戶(hù)搜索;
  2、返回結果;
  3、查看結果;
  4、點(diǎn)擊內容;
  5、瀏覽網(wǎng)站;
  6、咨詢(xún)搜索
  搜索引擎工作原理
  抓取-數據庫-分析搜索請求-計算排列順序
  基本要素
  根據搜索引擎推廣的原理,搜索引擎推廣之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎推廣信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎推廣的基本任務(wù)和內容。
  其實(shí)最主要的還是需要做好用戶(hù)體驗,百度算法進(jìn)步升級,更加重視了用戶(hù)體驗這一塊,做好內容,做優(yōu)質(zhì)內容才是王道。
  基本過(guò)程
  1、企業(yè)信息發(fā)布在網(wǎng)站上成為以網(wǎng)頁(yè)形式存在的信息源(包括企業(yè)內部信息源及外部信息源);
  2、搜索引擎將網(wǎng)站/網(wǎng)頁(yè)信息收錄到索引數據庫;
  3、用戶(hù)利用關(guān)鍵詞進(jìn)行檢索(對于分類(lèi)目錄則是逐級目錄查詢(xún));
  4、檢索結果中羅列相關(guān)的索引信息及其鏈接URL;
  5、根據用戶(hù)對檢索結果的判斷選擇有興趣的信息并點(diǎn)擊URL進(jìn)入信息源所在網(wǎng)頁(yè);
  6、搜索關(guān)鍵詞;
  7、看到搜索結果;
  8、點(diǎn)擊鏈接;
  9、瀏覽企業(yè)網(wǎng)站;
  10、實(shí)現轉化。
  基本內容
  1、構造適合于搜索引擎檢索的信息源;
  2、創(chuàng )造網(wǎng)站/網(wǎng)頁(yè)被搜索引擎收錄的機會(huì );
  3、讓網(wǎng)站信息出現在搜索結果中靠前位置;
  4、以搜索結果中有限的信息獲得用戶(hù)關(guān)注;
  5、為用戶(hù)獲取信息提供方便。
  營(yíng)銷(xiāo)特點(diǎn)
  1、使用廣泛;
  2、用戶(hù)主動(dòng)查詢(xún);
  3、獲取新客戶(hù);
  4、競爭性強;
  5、動(dòng)態(tài)更新,隨時(shí)調整;
  6、投資回報率高;
  7、搜索引擎營(yíng)銷(xiāo)的基礎是企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)的信息源;
  8、搜索引擎傳遞的信息只發(fā)揮向導作用;
  9、搜索引擎營(yíng)銷(xiāo)是用戶(hù)主導的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式;
  10、搜索引擎營(yíng)銷(xiāo)可實(shí)現較高程度的定位;
  11、搜索引擎營(yíng)銷(xiāo)需要適應網(wǎng)絡(luò )服務(wù)環(huán)境的發(fā)展變化。
  營(yíng)銷(xiāo)宗旨
  1、被收錄;
  2、排名靠前;
  3、常被點(diǎn)擊;
  4、客戶(hù)轉化;
  5、提高品牌知名度。
  標題標簽
  通過(guò)對客戶(hù)網(wǎng)站進(jìn)行整站優(yōu)化,挑選出部分主關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其達到搜索引擎的首頁(yè)位置,同時(shí)提高網(wǎng)站的權重,并帶動(dòng)更多長(cháng)尾關(guān)鍵詞的自然排名的提升。再結合ppc競價(jià),制定出精確的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,給公司帶來(lái)更多的訂單。
  在網(wǎng)頁(yè)的優(yōu)化上最重要的因素之一就是網(wǎng)頁(yè)的標題標簽。通常在寫(xiě)標題標簽時(shí)應該考慮幾個(gè)因素。
  1、所有網(wǎng)頁(yè)都應該有適合自己的獨特的Title或Tag。有很多網(wǎng)站都犯了一個(gè)很低級的錯誤,也就是所有網(wǎng)頁(yè)都有同一個(gè)標題??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候把整個(gè)模版來(lái)回復制,所以HTML文件里面的頭信息也都被復制過(guò)去,沒(méi)有再被改動(dòng)。
  2、標題標簽應該對用戶(hù)的需求有足夠的吸引力。網(wǎng)頁(yè)在搜索引擎結果中列出,網(wǎng)頁(yè)的標題就是來(lái)自于標題標簽。
  3、標題標簽中應該含有關(guān)鍵詞。
  營(yíng)銷(xiāo)目標
  第一層是搜索引擎的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎,離開(kāi)這個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  搜索引擎營(yíng)銷(xiāo)的第三個(gè)目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  搜索引擎推廣的第四個(gè)目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。
  搜索引擎推廣追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。用戶(hù)在檢索信息所使用的關(guān)鍵字反映出用戶(hù)對該問(wèn)題(產(chǎn)品)的關(guān)注,這種關(guān)注是搜索引擎之所以被應用于網(wǎng)絡(luò )營(yíng)銷(xiāo)的根本原因。
  網(wǎng)絡(luò )整合營(yíng)銷(xiāo)四大特性
  傳染特性、互動(dòng)特性、重合特性、背書(shū)特性
  確立營(yíng)銷(xiāo)需求
  確立營(yíng)銷(xiāo)標的物(產(chǎn)品屬性)
  確立營(yíng)銷(xiāo)標準(消費人群)
  確立目標場(chǎng)景
  云浪網(wǎng)絡(luò )推廣,一直以低成本、有效果為各大企業(yè)及廣告營(yíng)銷(xiāo)策劃公司提供網(wǎng)絡(luò )推廣服務(wù)多年,擅長(cháng)利用百度營(yíng)銷(xiāo)軟文首頁(yè)推廣、百度愛(ài)采購,百度競價(jià)前三推廣(1500一個(gè)月,三個(gè)月2800,包點(diǎn)擊費),官網(wǎng)推廣至百度搜索關(guān)鍵詞首頁(yè)有排名為目標。
  【百度快照、百度競價(jià),百度愛(ài)采購、360競價(jià)、、信息流開(kāi)戶(hù),抖音短視頻,全網(wǎng)推廣咨詢(xún):度曉曉】
   查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法 什么是SEM?
  
  搜索引擎營(yíng)銷(xiāo):英文Search Engine Marketing ,我們通常簡(jiǎn)稱(chēng)為“SEM”。簡(jiǎn)單來(lái)說(shuō),搜索引擎營(yíng)銷(xiāo)就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo),利用人們對搜索引擎的依賴(lài)和使用習慣,在人們檢索信息的時(shí)候將信息傳遞給目標用戶(hù)。搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)點(diǎn)擊進(jìn)入網(wǎng)頁(yè),進(jìn)一步了解所需要的信息。企業(yè)通過(guò)搜索引擎付費推廣,讓用戶(hù)可以直接與公司客服進(jìn)行交流、了解,實(shí)現交易。
  定義
  搜索引擎營(yíng)銷(xiāo)的基本思想是讓用戶(hù)發(fā)現信息,并通過(guò)(搜索引擎)搜索點(diǎn)擊進(jìn)入網(wǎng)站/網(wǎng)頁(yè)進(jìn)一步了解他所需要的信息。在介紹搜索引擎策略時(shí),一般認為,搜索引擎優(yōu)化設計主要目標有2個(gè)層次:被搜索引擎收錄、在搜索結果中排名靠前。這已經(jīng)是常識問(wèn)題,簡(jiǎn)單來(lái)說(shuō)SEM所做的就是以最小的投入在搜索引擎中獲最大的訪(fǎng)問(wèn)量并產(chǎn)生商業(yè)價(jià)值。多數網(wǎng)絡(luò )營(yíng)銷(xiāo)人員和專(zhuān)業(yè)服務(wù)商對搜索引擎的目標設定也基本處于這個(gè)水平。但從實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前還很不夠,因為取得這樣的效果實(shí)際上并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客或者潛在顧客,因此只能說(shuō)是搜索引擎營(yíng)銷(xiāo)策略中兩個(gè)最基本的目標。
  SEM的方法包括SEO、付費排名、精準廣告以及付費收錄等
  價(jià)值
  1、帶來(lái)更多的點(diǎn)擊與關(guān)注;
  2、帶來(lái)更多的商業(yè)機會(huì );
  3、樹(shù)立行業(yè)品牌;
  4、增加網(wǎng)站廣度;
  5、提升品牌知名度;
  6、增加網(wǎng)站曝光度;
  7、根據關(guān)鍵詞,通過(guò)創(chuàng )意和描述提供相關(guān)介紹。
  內涵
  搜索引擎營(yíng)銷(xiāo)(Search Engine Marking簡(jiǎn)稱(chēng) SEM)就是根據用戶(hù)使用搜索引擎的方式,利用用戶(hù)檢索信息的機會(huì )盡可能將營(yíng)銷(xiāo)信息傳遞給目標用戶(hù)。
  工作原理
  1、用戶(hù)搜索;
  2、返回結果;
  3、查看結果;
  4、點(diǎn)擊內容;
  5、瀏覽網(wǎng)站;
  6、咨詢(xún)搜索
  搜索引擎工作原理
  抓取-數據庫-分析搜索請求-計算排列順序
  基本要素
  根據搜索引擎推廣的原理,搜索引擎推廣之所以能夠實(shí)現,需要有五個(gè)基本要素:信息源(網(wǎng)頁(yè))、搜索引擎信息索引數據庫、用戶(hù)的檢索行為和檢索結果、用戶(hù)對檢索結果的分析判斷、對選中檢索結果的點(diǎn)擊。對這些要素以及搜索引擎推廣信息傳遞過(guò)程的研究和有效實(shí)現就構成了搜索引擎推廣的基本任務(wù)和內容。
  其實(shí)最主要的還是需要做好用戶(hù)體驗,百度算法進(jìn)步升級,更加重視了用戶(hù)體驗這一塊,做好內容,做優(yōu)質(zhì)內容才是王道。
  基本過(guò)程
  1、企業(yè)信息發(fā)布在網(wǎng)站上成為以網(wǎng)頁(yè)形式存在的信息源(包括企業(yè)內部信息源及外部信息源);
  2、搜索引擎將網(wǎng)站/網(wǎng)頁(yè)信息收錄到索引數據庫;
  3、用戶(hù)利用關(guān)鍵詞進(jìn)行檢索(對于分類(lèi)目錄則是逐級目錄查詢(xún));
  4、檢索結果中羅列相關(guān)的索引信息及其鏈接URL;
  5、根據用戶(hù)對檢索結果的判斷選擇有興趣的信息并點(diǎn)擊URL進(jìn)入信息源所在網(wǎng)頁(yè);
  6、搜索關(guān)鍵詞;
  7、看到搜索結果;
  8、點(diǎn)擊鏈接;
  9、瀏覽企業(yè)網(wǎng)站;
  10、實(shí)現轉化。
  基本內容
  1、構造適合于搜索引擎檢索的信息源;
  2、創(chuàng )造網(wǎng)站/網(wǎng)頁(yè)被搜索引擎收錄的機會(huì );
  3、讓網(wǎng)站信息出現在搜索結果中靠前位置;
  4、以搜索結果中有限的信息獲得用戶(hù)關(guān)注;
  5、為用戶(hù)獲取信息提供方便。
  營(yíng)銷(xiāo)特點(diǎn)
  1、使用廣泛;
  2、用戶(hù)主動(dòng)查詢(xún);
  3、獲取新客戶(hù);
  4、競爭性強;
  5、動(dòng)態(tài)更新,隨時(shí)調整;
  6、投資回報率高;
  7、搜索引擎營(yíng)銷(xiāo)的基礎是企業(yè)網(wǎng)絡(luò )營(yíng)銷(xiāo)的信息源;
  8、搜索引擎傳遞的信息只發(fā)揮向導作用;
  9、搜索引擎營(yíng)銷(xiāo)是用戶(hù)主導的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式;
  10、搜索引擎營(yíng)銷(xiāo)可實(shí)現較高程度的定位;
  11、搜索引擎營(yíng)銷(xiāo)需要適應網(wǎng)絡(luò )服務(wù)環(huán)境的發(fā)展變化。
  營(yíng)銷(xiāo)宗旨
  1、被收錄;
  2、排名靠前;
  3、常被點(diǎn)擊;
  4、客戶(hù)轉化;
  5、提高品牌知名度。
  標題標簽
  通過(guò)對客戶(hù)網(wǎng)站進(jìn)行整站優(yōu)化,挑選出部分主關(guān)鍵詞,配合其他營(yíng)銷(xiāo)方式,使其達到搜索引擎的首頁(yè)位置,同時(shí)提高網(wǎng)站的權重,并帶動(dòng)更多長(cháng)尾關(guān)鍵詞的自然排名的提升。再結合ppc競價(jià),制定出精確的競價(jià)關(guān)鍵詞和優(yōu)秀的創(chuàng )意內容,給公司帶來(lái)更多的訂單。
  在網(wǎng)頁(yè)的優(yōu)化上最重要的因素之一就是網(wǎng)頁(yè)的標題標簽。通常在寫(xiě)標題標簽時(shí)應該考慮幾個(gè)因素。
  1、所有網(wǎng)頁(yè)都應該有適合自己的獨特的Title或Tag。有很多網(wǎng)站都犯了一個(gè)很低級的錯誤,也就是所有網(wǎng)頁(yè)都有同一個(gè)標題??赡茉O計師在設計網(wǎng)頁(yè)的時(shí)候把整個(gè)模版來(lái)回復制,所以HTML文件里面的頭信息也都被復制過(guò)去,沒(méi)有再被改動(dòng)。
  2、標題標簽應該對用戶(hù)的需求有足夠的吸引力。網(wǎng)頁(yè)在搜索引擎結果中列出,網(wǎng)頁(yè)的標題就是來(lái)自于標題標簽。
  3、標題標簽中應該含有關(guān)鍵詞。
  營(yíng)銷(xiāo)目標
  第一層是搜索引擎的存在層,其目標是在主要的搜索引擎/分類(lèi)目錄中獲得被收錄的機會(huì ),這是搜索引擎營(yíng)銷(xiāo)的基礎,離開(kāi)這個(gè)層次,搜索引擎營(yíng)銷(xiāo)的其他目標也就不可能實(shí)現。搜索引擎登錄包括免費登錄、付費登錄、搜索引擎關(guān)鍵詞廣告等形式。存在層的含義就是讓網(wǎng)站中盡可能多的網(wǎng)頁(yè)獲得被搜索引擎收錄(而不僅僅是網(wǎng)站首頁(yè)),也就是為增加網(wǎng)頁(yè)的搜索引擎可見(jiàn)性。
  第二層的目標則是在被搜索引擎收錄的基礎上盡可能獲得好的排名,即在搜索結果中有良好的表現,因而可稱(chēng)為表現層。因為用戶(hù)關(guān)心的只是搜索結果中靠前的少量?jì)热?,如果利用主要的關(guān)鍵詞檢索時(shí)網(wǎng)站在搜索結果中的排名靠后,那么還有必要利用關(guān)鍵詞廣告、競價(jià)廣告等形式作為補充手段來(lái)實(shí)現這一目標。同樣,如果在分類(lèi)目錄中的位置不理想,則需要同時(shí)考慮在分類(lèi)目錄中利用付費等方式獲得排名靠前。
  搜索引擎營(yíng)銷(xiāo)的第三個(gè)目標則直接表現為網(wǎng)站訪(fǎng)問(wèn)量指標方面,也就是通過(guò)搜索結果點(diǎn)擊率的增加來(lái)達到提高網(wǎng)站訪(fǎng)問(wèn)量的目的。由于只有受到用戶(hù)關(guān)注,經(jīng)過(guò)用戶(hù)選擇后的信息才可能被點(diǎn)擊,因此可稱(chēng)為關(guān)注層。從搜索引擎的實(shí)際情況來(lái)看,僅僅做到被搜索引擎收錄并且在搜索結果中排名靠前是不夠的,這樣并不一定能增加用戶(hù)的點(diǎn)擊率,更不能保證將訪(fǎng)問(wèn)者轉化為顧客。要通過(guò)搜索引擎營(yíng)銷(xiāo)實(shí)現訪(fǎng)問(wèn)量增加的目標,則需要從整體上進(jìn)行網(wǎng)站優(yōu)化設計,并充分利用關(guān)鍵詞廣告等有價(jià)值的搜索引擎營(yíng)銷(xiāo)專(zhuān)業(yè)服務(wù)。
  搜索引擎推廣的第四個(gè)目標,即通過(guò)訪(fǎng)問(wèn)量的增加轉化為企業(yè)最終實(shí)現收益的提高,可稱(chēng)為轉化層。轉化層是前面三個(gè)目標層次的進(jìn)一步提升,是各種搜索引擎方法所實(shí)現效果的集中體現,但并不是搜索引擎營(yíng)銷(xiāo)的直接效果。從各種搜索引擎策略到產(chǎn)生收益,期間的中間效果表現為網(wǎng)站訪(fǎng)問(wèn)量的增加,網(wǎng)站的收益是由訪(fǎng)問(wèn)量轉化所形成的,從訪(fǎng)問(wèn)量轉化為收益則是由網(wǎng)站的功能、服務(wù)、產(chǎn)品等多種因素共同作用而決定的。因此,第四個(gè)目標在搜索引擎營(yíng)銷(xiāo)中屬于戰略層次的目標。其他三個(gè)層次的目標則屬于策略范疇,具有可操作性和可控制性的特征,實(shí)現這些基本目標是搜索引擎營(yíng)銷(xiāo)的主要任務(wù)。
  搜索引擎推廣追求最高的性?xún)r(jià)比,以最小的投入,獲最大的來(lái)自搜索引擎的訪(fǎng)問(wèn)量,并產(chǎn)生商業(yè)價(jià)值。用戶(hù)在檢索信息所使用的關(guān)鍵字反映出用戶(hù)對該問(wèn)題(產(chǎn)品)的關(guān)注,這種關(guān)注是搜索引擎之所以被應用于網(wǎng)絡(luò )營(yíng)銷(xiāo)的根本原因。
  網(wǎng)絡(luò )整合營(yíng)銷(xiāo)四大特性
  傳染特性、互動(dòng)特性、重合特性、背書(shū)特性
  確立營(yíng)銷(xiāo)需求
  確立營(yíng)銷(xiāo)標的物(產(chǎn)品屬性)
  確立營(yíng)銷(xiāo)標準(消費人群)
  確立目標場(chǎng)景
  云浪網(wǎng)絡(luò )推廣,一直以低成本、有效果為各大企業(yè)及廣告營(yíng)銷(xiāo)策劃公司提供網(wǎng)絡(luò )推廣服務(wù)多年,擅長(cháng)利用百度營(yíng)銷(xiāo)軟文首頁(yè)推廣、百度愛(ài)采購,百度競價(jià)前三推廣(1500一個(gè)月,三個(gè)月2800,包點(diǎn)擊費),官網(wǎng)推廣至百度搜索關(guān)鍵詞首頁(yè)有排名為目標。
  【百度快照、百度競價(jià),百度愛(ài)采購、360競價(jià)、、信息流開(kāi)戶(hù),抖音短視頻,全網(wǎng)推廣咨詢(xún):度曉曉】
  

?NLP產(chǎn)業(yè)應用實(shí)戰,評論觀(guān)點(diǎn)抽取與分析和文本語(yǔ)義檢索深度詳解

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 395 次瀏覽 ? 2022-05-01 18:03 ? 來(lái)自相關(guān)話(huà)題

  ?NLP產(chǎn)業(yè)應用實(shí)戰,評論觀(guān)點(diǎn)抽取與分析和文本語(yǔ)義檢索深度詳解
  情感分析旨在對帶有情感色彩的主觀(guān)性文本進(jìn)行分析、處理、歸納和推理,其廣泛應用于消費決策、輿情分析、個(gè)性化推薦等領(lǐng)域,具有很高的商業(yè)價(jià)值。一種細粒度情感分析方案:評論觀(guān)點(diǎn)抽取與分析范例,此方案不僅能分析出商品具體屬性的好壞,同時(shí)能幫助用戶(hù)定位詳細的評價(jià)觀(guān)點(diǎn)。
  
  圖1 情感分析應用展示
  場(chǎng)景難點(diǎn)
  評論屬性觀(guān)點(diǎn)繁多:評論中可能存在某個(gè)商品的多個(gè)屬性,同時(shí)每個(gè)屬性可能會(huì )存在多個(gè)觀(guān)點(diǎn)詞,需要同時(shí)抽取屬性和觀(guān)點(diǎn)詞,同時(shí)將屬性和相應觀(guān)點(diǎn)詞進(jìn)行有效匹配。
  模型情感信息敏感度低:模型在訓練過(guò)程中,可能對某些樣本中的關(guān)鍵情感信息不敏感,導致抽取或預測準確度不高。
  數據少且標注困難:評論觀(guān)點(diǎn)抽取相關(guān)訓練數據較少,且相關(guān)數據集標注較為困難。
  模型預測效率要求高:業(yè)務(wù)數據累積較多,期望對數據進(jìn)行高效高精度分析處理。
  方案設計
  針對上述難點(diǎn),本項目提出的的情感分析解決方案如下圖所示,整個(gè)情感分析的過(guò)程大致包含兩個(gè)階段,依次是評論觀(guān)點(diǎn)抽取模型,屬性級情感分類(lèi)模型。
  
  圖2 情感分析解決方案流程圖
  本項目使用了百度自研的 SKEP 預訓練模型,其在預訓練階段便設計了多種情感信息相關(guān)的預訓練目標進(jìn)行訓練,作為一種情感模型,其更適合用于評論觀(guān)點(diǎn)抽取任務(wù),以及屬性級情感分類(lèi)任務(wù)。
  為了提升模型預測效果,本項目采用了PaddleNLP聯(lián)合PaddleSlim發(fā)布的模型蒸餾、剪裁、量化等級聯(lián)模型壓縮方案。
  此外,本項目還定義了簡(jiǎn)便的數據標注規則,并打通了Doccano數據標注平臺,本項目可以直接對Doccano的導出數據進(jìn)行自動(dòng)處理,轉化為適合模型輸入的形式,方便易用。
  模型優(yōu)化策略和效果
  觀(guān)點(diǎn)抽取效果
  
  屬性級情感分類(lèi)效果
  
  
  圖3 預測性能實(shí)驗結果
  考慮到不同用戶(hù)可能有不同的需求,本范例提供了如下的方式學(xué)習或使用本項目。1.一行命令體驗評論觀(guān)點(diǎn)抽取與分析功能2.支持文本批量預測功能,以處理大量文本數據3.支持靜態(tài)圖高性能推理腳本,以便于線(xiàn)上部署使用
  文本語(yǔ)義檢索系統方案
  檢索系統已經(jīng)是我們日常生活中獲取信息的不可或缺的一部分,在我們的生活中,有很多地方都有檢索系統的身影,除了百度等搜索引擎以外,還有在電商購物的搜索,知乎的站內搜索,微信的視頻和公眾號文章的搜索,以及萬(wàn)方、知網(wǎng)的科研文獻搜索等等,這些場(chǎng)景都離不開(kāi)搜索技術(shù)。
  本次開(kāi)源的范例項目開(kāi)源了一套低門(mén)檻、端到端的檢索系統方案,可以在多場(chǎng)景快速部署實(shí)現搜索功能。無(wú)標注數據,僅有無(wú)監督數據也可以得到一個(gè)效果不錯的文本語(yǔ)義檢索模型。
  場(chǎng)景難點(diǎn)
  句級別語(yǔ)義鴻溝:基于關(guān)鍵詞檢索的方法優(yōu)化起來(lái)較為繁瑣,不能很好的對句子級別的語(yǔ)義信息進(jìn)行建模,無(wú)法跨越句子級別的語(yǔ)義鴻溝。
  數據少標注成本高:在系統搭建初期或者數據體量比較小的場(chǎng)景,并沒(méi)有很多標注好的句子對,且標注的成本很高。
  語(yǔ)義檢索系統方案復雜:語(yǔ)義監測方案是一個(gè)系統性工程,需要了解完整的檢索系統流程是什么,如何評估檢索系統的好壞,如何調優(yōu)等等。
  方案設計
  針對上述難點(diǎn),本項目最終選用了PaddleNLP的Neural Search中的技術(shù)方案,并且使用飛槳服務(wù)化部署框架Paddle Serving 進(jìn)行服務(wù)化部署。
  Neural Search是一個(gè)實(shí)用的完整的文本語(yǔ)義檢索應用,主要由召回和排序兩個(gè)模塊組成。該應用從實(shí)際的痛點(diǎn)出發(fā),然后涉及網(wǎng)絡(luò )選擇和調整、策略增強、超參數調節、預訓練模型使用5個(gè)方面,對各個(gè)模塊的模型進(jìn)行優(yōu)化,并經(jīng)過(guò)千萬(wàn)級別的數據預訓練,百萬(wàn)級別的數據進(jìn)行無(wú)監督訓練,最終在GPU上預測時(shí)間可達到毫秒級別。
  
  圖4 項目方案說(shuō)明
  模型優(yōu)化策略和效果
  本方案的NLP核心能力基于百度文心大模型。首先利用文心 ERNIE 1.0 模型進(jìn)行 Domain-adaptive Pretraining,在得到的預訓練模型基礎上,進(jìn)行無(wú)監督的 SimCSE 訓練,最后利用 In-batch Negatives 方法進(jìn)行微調,得到最終的語(yǔ)義索引模型,把語(yǔ)料庫中的文本放入模型中抽取特征向量,進(jìn)行建庫之后,就可以很方便得實(shí)現召回了。以Recall@50指標進(jìn)行評估,召回模型效果可以達到87.7%。
  
  圖5 召回方案說(shuō)明
  排序模型使用了百度文心大模型中最新的文心ERNIE-Gram模型,相比于基線(xiàn)方法,有不小的提升:
  
  圖6 排序方案說(shuō)明
  部署方案
  部署方面使用配備Paddle Serving的C++和Pipeline方式的靈活部署,滿(mǎn)足用戶(hù)批量預測、數據安全性高、延遲低的需求,快速在本地完成部署方案,本次范例包含模型轉換配置到部署請求的全流程講解,歡迎小伙伴們關(guān)注直播。
  范例使用工具介紹
  PaddleNLP是百度飛槳自然語(yǔ)言處理模型庫,具備易用的文本領(lǐng)域API、豐富的預訓練模型、多場(chǎng)景的應用示例、以及依托飛槳框架底層算子優(yōu)化的高性能推理能力,旨在提升開(kāi)發(fā)者在文本領(lǐng)域的開(kāi)發(fā)效率。PaddleNLP提供了語(yǔ)義檢索、情感分析、FAQ問(wèn)答等產(chǎn)業(yè)級系統方案,采用前沿技術(shù)方案,打通數據標注、模型預訓練及微調、部署全流程,十分簡(jiǎn)單易用,極大地降低開(kāi)發(fā)門(mén)檻。
  精彩課程預告
  為了讓小伙伴們更便捷地實(shí)踐和應用以上兩個(gè)場(chǎng)景方案,百度高工將于4月20日 和 4月21日19:00為大家深度解析從數據準備、方案設計到模型優(yōu)化部署的開(kāi)發(fā)全流程,手把手教大家進(jìn)行評論觀(guān)點(diǎn)抽取及分析和文本語(yǔ)義檢索落地應用的代碼實(shí)踐。歡迎小伙伴們掃碼進(jìn)群,免費獲取直播課和回放視頻鏈接,更有機會(huì )獲得覆蓋智慧城市、工業(yè)制造、金融、互聯(lián)網(wǎng)等行業(yè)的飛槳產(chǎn)業(yè)實(shí)踐范例手冊!也歡迎感興趣的企業(yè)和開(kāi)發(fā)者與我們聯(lián)系,交流技術(shù)探討合作。
  掃碼報名直播課,加入技術(shù)交流群
  
   查看全部

  ?NLP產(chǎn)業(yè)應用實(shí)戰,評論觀(guān)點(diǎn)抽取與分析和文本語(yǔ)義檢索深度詳解
  情感分析旨在對帶有情感色彩的主觀(guān)性文本進(jìn)行分析、處理、歸納和推理,其廣泛應用于消費決策、輿情分析、個(gè)性化推薦等領(lǐng)域,具有很高的商業(yè)價(jià)值。一種細粒度情感分析方案:評論觀(guān)點(diǎn)抽取與分析范例,此方案不僅能分析出商品具體屬性的好壞,同時(shí)能幫助用戶(hù)定位詳細的評價(jià)觀(guān)點(diǎn)。
  
  圖1 情感分析應用展示
  場(chǎng)景難點(diǎn)
  評論屬性觀(guān)點(diǎn)繁多:評論中可能存在某個(gè)商品的多個(gè)屬性,同時(shí)每個(gè)屬性可能會(huì )存在多個(gè)觀(guān)點(diǎn)詞,需要同時(shí)抽取屬性和觀(guān)點(diǎn)詞,同時(shí)將屬性和相應觀(guān)點(diǎn)詞進(jìn)行有效匹配。
  模型情感信息敏感度低:模型在訓練過(guò)程中,可能對某些樣本中的關(guān)鍵情感信息不敏感,導致抽取或預測準確度不高。
  數據少且標注困難:評論觀(guān)點(diǎn)抽取相關(guān)訓練數據較少,且相關(guān)數據集標注較為困難。
  模型預測效率要求高:業(yè)務(wù)數據累積較多,期望對數據進(jìn)行高效高精度分析處理。
  方案設計
  針對上述難點(diǎn),本項目提出的的情感分析解決方案如下圖所示,整個(gè)情感分析的過(guò)程大致包含兩個(gè)階段,依次是評論觀(guān)點(diǎn)抽取模型,屬性級情感分類(lèi)模型。
  
  圖2 情感分析解決方案流程圖
  本項目使用了百度自研的 SKEP 預訓練模型,其在預訓練階段便設計了多種情感信息相關(guān)的預訓練目標進(jìn)行訓練,作為一種情感模型,其更適合用于評論觀(guān)點(diǎn)抽取任務(wù),以及屬性級情感分類(lèi)任務(wù)。
  為了提升模型預測效果,本項目采用了PaddleNLP聯(lián)合PaddleSlim發(fā)布的模型蒸餾、剪裁、量化等級聯(lián)模型壓縮方案。
  此外,本項目還定義了簡(jiǎn)便的數據標注規則,并打通了Doccano數據標注平臺,本項目可以直接對Doccano的導出數據進(jìn)行自動(dòng)處理,轉化為適合模型輸入的形式,方便易用。
  模型優(yōu)化策略和效果
  觀(guān)點(diǎn)抽取效果
  
  屬性級情感分類(lèi)效果
  
  
  圖3 預測性能實(shí)驗結果
  考慮到不同用戶(hù)可能有不同的需求,本范例提供了如下的方式學(xué)習或使用本項目。1.一行命令體驗評論觀(guān)點(diǎn)抽取與分析功能2.支持文本批量預測功能,以處理大量文本數據3.支持靜態(tài)圖高性能推理腳本,以便于線(xiàn)上部署使用
  文本語(yǔ)義檢索系統方案
  檢索系統已經(jīng)是我們日常生活中獲取信息的不可或缺的一部分,在我們的生活中,有很多地方都有檢索系統的身影,除了百度等搜索引擎以外,還有在電商購物的搜索,知乎的站內搜索,微信的視頻和公眾號文章的搜索,以及萬(wàn)方、知網(wǎng)的科研文獻搜索等等,這些場(chǎng)景都離不開(kāi)搜索技術(shù)。
  本次開(kāi)源的范例項目開(kāi)源了一套低門(mén)檻、端到端的檢索系統方案,可以在多場(chǎng)景快速部署實(shí)現搜索功能。無(wú)標注數據,僅有無(wú)監督數據也可以得到一個(gè)效果不錯的文本語(yǔ)義檢索模型。
  場(chǎng)景難點(diǎn)
  句級別語(yǔ)義鴻溝:基于關(guān)鍵詞檢索的方法優(yōu)化起來(lái)較為繁瑣,不能很好的對句子級別的語(yǔ)義信息進(jìn)行建模,無(wú)法跨越句子級別的語(yǔ)義鴻溝。
  數據少標注成本高:在系統搭建初期或者數據體量比較小的場(chǎng)景,并沒(méi)有很多標注好的句子對,且標注的成本很高。
  語(yǔ)義檢索系統方案復雜:語(yǔ)義監測方案是一個(gè)系統性工程,需要了解完整的檢索系統流程是什么,如何評估檢索系統的好壞,如何調優(yōu)等等。
  方案設計
  針對上述難點(diǎn),本項目最終選用了PaddleNLP的Neural Search中的技術(shù)方案,并且使用飛槳服務(wù)化部署框架Paddle Serving 進(jìn)行服務(wù)化部署。
  Neural Search是一個(gè)實(shí)用的完整的文本語(yǔ)義檢索應用,主要由召回和排序兩個(gè)模塊組成。該應用從實(shí)際的痛點(diǎn)出發(fā),然后涉及網(wǎng)絡(luò )選擇和調整、策略增強、超參數調節、預訓練模型使用5個(gè)方面,對各個(gè)模塊的模型進(jìn)行優(yōu)化,并經(jīng)過(guò)千萬(wàn)級別的數據預訓練,百萬(wàn)級別的數據進(jìn)行無(wú)監督訓練,最終在GPU上預測時(shí)間可達到毫秒級別。
  
  圖4 項目方案說(shuō)明
  模型優(yōu)化策略和效果
  本方案的NLP核心能力基于百度文心大模型。首先利用文心 ERNIE 1.0 模型進(jìn)行 Domain-adaptive Pretraining,在得到的預訓練模型基礎上,進(jìn)行無(wú)監督的 SimCSE 訓練,最后利用 In-batch Negatives 方法進(jìn)行微調,得到最終的語(yǔ)義索引模型,把語(yǔ)料庫中的文本放入模型中抽取特征向量,進(jìn)行建庫之后,就可以很方便得實(shí)現召回了。以Recall@50指標進(jìn)行評估,召回模型效果可以達到87.7%。
  
  圖5 召回方案說(shuō)明
  排序模型使用了百度文心大模型中最新的文心ERNIE-Gram模型,相比于基線(xiàn)方法,有不小的提升:
  
  圖6 排序方案說(shuō)明
  部署方案
  部署方面使用配備Paddle Serving的C++和Pipeline方式的靈活部署,滿(mǎn)足用戶(hù)批量預測、數據安全性高、延遲低的需求,快速在本地完成部署方案,本次范例包含模型轉換配置到部署請求的全流程講解,歡迎小伙伴們關(guān)注直播。
  范例使用工具介紹
  PaddleNLP是百度飛槳自然語(yǔ)言處理模型庫,具備易用的文本領(lǐng)域API、豐富的預訓練模型、多場(chǎng)景的應用示例、以及依托飛槳框架底層算子優(yōu)化的高性能推理能力,旨在提升開(kāi)發(fā)者在文本領(lǐng)域的開(kāi)發(fā)效率。PaddleNLP提供了語(yǔ)義檢索、情感分析、FAQ問(wèn)答等產(chǎn)業(yè)級系統方案,采用前沿技術(shù)方案,打通數據標注、模型預訓練及微調、部署全流程,十分簡(jiǎn)單易用,極大地降低開(kāi)發(fā)門(mén)檻。
  精彩課程預告
  為了讓小伙伴們更便捷地實(shí)踐和應用以上兩個(gè)場(chǎng)景方案,百度高工將于4月20日 和 4月21日19:00為大家深度解析從數據準備、方案設計到模型優(yōu)化部署的開(kāi)發(fā)全流程,手把手教大家進(jìn)行評論觀(guān)點(diǎn)抽取及分析和文本語(yǔ)義檢索落地應用的代碼實(shí)踐。歡迎小伙伴們掃碼進(jìn)群,免費獲取直播課和回放視頻鏈接,更有機會(huì )獲得覆蓋智慧城市、工業(yè)制造、金融、互聯(lián)網(wǎng)等行業(yè)的飛槳產(chǎn)業(yè)實(shí)踐范例手冊!也歡迎感興趣的企業(yè)和開(kāi)發(fā)者與我們聯(lián)系,交流技術(shù)探討合作。
  掃碼報名直播課,加入技術(shù)交流群
  
  

Thoughtworks第26期技術(shù)雷達——工具象限

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 80 次瀏覽 ? 2022-05-01 08:02 ? 來(lái)自相關(guān)話(huà)題

  Thoughtworks第26期技術(shù)雷達——工具象限
  
  采納
  tfsec
  對于那些我們正在使用Terraform的項目來(lái)說(shuō),在需要檢測潛在安全風(fēng)險時(shí),tfsec已經(jīng)迅速成為默認的靜態(tài)分析工具。它很容易被集成到CI流水線(xiàn),而且擁有一個(gè)持續增長(cháng)的檢查庫,可以用來(lái)檢查所有主要的云供應商和諸如Kunernetes的平臺。鑒于它的易用性,我們相信對任何Terraform項目而言,tfsec都會(huì )是一個(gè)非常好的補充。
  試驗
  AKHQ
  AKHQ 是 Apache Kafka 的圖形用戶(hù)界面(GUI),可以幫助你管理主題、主題數據、消費者組等。我們的一些團隊發(fā)現 AKHQ 是用來(lái)監控 Kafka 集群實(shí)時(shí)狀態(tài)的有效工具。比如,你可以瀏覽集群上的主題,對于每個(gè)主題,你都能可視化它的名稱(chēng)、存儲的消息數量、使用的磁盤(pán)空間、最后一條記錄的時(shí)間、分區數、同步數量的復制因子和消費者組。通過(guò) Avro 和 Protobuf 的反序列化,AKHQ 可以幫助你了解 Kafka 環(huán)境中的數據流。
  cert-manager
  cert-manager 是一款在 Kubernetes 集群里管理 X.509 證書(shū)的工具。它將證書(shū)和簽發(fā)者建模為一等資源類(lèi)型,并將證書(shū)作為服務(wù)安全地提供給工作在 Kubernetes 集群上的開(kāi)發(fā)人員和應用程序。在使用 Kubernetes 默認 ingress 控制器時(shí),cert-manager 是個(gè)顯而易見(jiàn)的選擇,但也推薦用在其他的控制器上,尤其在你不應該手動(dòng)管理自己的證書(shū)的時(shí)候。我們的幾個(gè)團隊一直在廣泛使用 cert-manager,而且發(fā)現它的可用性在過(guò)去幾個(gè)月里有了很大的提升。
  云服務(wù)的碳足跡
  Cloud Carbon Footprint (CCF)是一款通過(guò)云 API來(lái)查看AWS、GCP、Azure云平臺上碳排放的可視化工具。Thoughtworks的團隊已經(jīng)成功使用這個(gè)工具 與多個(gè)組織合作,其中包括能源科技公司、零售商、數字服務(wù)的供應商和使用人工智能的公司。云平臺提供商意識到,幫助客戶(hù)理解在使用云服務(wù)時(shí)產(chǎn)生的碳排放的影響是很重要的。所以他們開(kāi)始自主構建類(lèi)似的功能。因為CCF是獨立于云架構的,它允許使用者在一個(gè)位置查看多個(gè)不同云服務(wù)商的能源使用和碳排放情況,同時(shí)將碳足跡轉化為對現實(shí)世界的影響,比如排放量相當于多少次航班, 或者多少棵樹(shù)。在最近的發(fā)布中,CCF已經(jīng)開(kāi)始包含針對Google云和AWS云上可能的節能與減少二氧化碳排放的優(yōu)化建議,以及支持更多類(lèi)型的云實(shí)例,比如GPU??紤]到現在這個(gè)工具已經(jīng)備受關(guān)注和持續增加新功能, 我們對未來(lái)把它挪入試驗狀態(tài)充滿(mǎn)信心。
  Conftest
  Conftest 是一款針對結構化配置數據編寫(xiě)測試的工具。它依賴(lài)于開(kāi)放策略代理中的 Rego 語(yǔ)言,能夠為 Kubernetes 配置、Tekton 的流水線(xiàn)定義、甚至 Terraform 計劃編寫(xiě)測試。在我們的實(shí)際使用中,Conftest 的體驗一直都非常棒,這也得益于它平緩的學(xué)習曲線(xiàn)。借助測試的快速反饋,我們的團隊可以又快又安全地迭代變更 Kubernetes 的配置。
  kube-score
  kube-score 是一款針對 Kubernetes 對象定義,進(jìn)行代碼靜態(tài)檢查的工具。它的輸出是一份建議列表,里面包含了如何提升你的應用程序安全性及彈性的相關(guān)建議。它有一份包含了最佳實(shí)踐的預定義檢查,比如以非root權限運行容器,正確指定資源限制等。它已經(jīng)存在了一段時(shí)間,我們在一些項目中將它作為 Kubernetes manifests 構建的 CD 流水線(xiàn)的一部分來(lái)使用。kube-score 的一個(gè)顯著(zhù)缺陷是你無(wú)法添加自定義策略。在這種情況下,我們使用像Conftest 這樣的工具,以彌補它的缺陷。
  Lighthouse
  Lighthouse 是一個(gè)由 Google 編寫(xiě)的工具,可以評估 Web 應用和頁(yè)面,以及從出色的開(kāi)發(fā)實(shí)踐中收集性能指標和洞見(jiàn)等信息。我們一直主張性能測試乃第一公民, 五年前技術(shù)雷達中提到的對 Lighthouse 的補充內容對此也有幫助。我們關(guān)于適應度函數的思考,也為在構建流水線(xiàn)中運行 Lighthouse 這樣的工具創(chuàng )造了強烈的動(dòng)機。隨著(zhù) Lighthouse CI 的引入,將 Lighthouse 納入由不同工具管理的流水線(xiàn),會(huì )變得比以往任何時(shí)候都容易。
  Metaflow
  Metaflow 是一個(gè)對用戶(hù)友好的 Python 庫和后端服務(wù),可以幫助數據科學(xué)家和工程師構建和管理可用于生產(chǎn)的數據處理、機器學(xué)習訓練及推理的工作流。Metaflow 提供一系列 Python API,將代碼組織為由步驟組成的有向圖。每一個(gè)步驟都可以靈活配置,例如其所需的計算和存儲資源。每個(gè)步驟執行(也就是任務(wù))的代碼和數據副本都被保存起來(lái),并可以在今后的運行或流程的下一步中被檢索出來(lái),幫助你從錯誤中恢復,重新執行任務(wù),還可以追蹤模型的版本以及多個(gè)運行之間的依賴(lài)關(guān)系。
  Metaflow 的價(jià)值主張是其慣用的 Python 庫的簡(jiǎn)潔性:它與構建和運行時(shí)的基礎設施完全集成,以支持在本地和規?;纳a(chǎn)環(huán)境中運行數據工程和科學(xué)任務(wù)。在撰寫(xiě)本條目時(shí),Metaflow 和 AWS 服務(wù)高度集成,例如使用 S3 來(lái)做數據存儲,step functions 來(lái)做編排。除 Python 以外,Metaflow 還支持 R 語(yǔ)言。其核心功能都是開(kāi)源的。
  如果你正在 AWS 上構建和部署生產(chǎn)環(huán)境的機器學(xué)習和數據處理流水線(xiàn),作為一個(gè)輕量級的全??蚣?,Metaflow 可以替代例如 MLflow 這類(lèi)更復雜的平臺。
  Micrometer
  Micrometer 是一個(gè)跨平臺的庫,用于JVM的指標檢測,支持 Graphite、New Relic、CloudWatch 和許多其他集成。Micrometer 讓庫作者和團隊都受益:庫作者可以在他們的庫中包含指標檢測代碼,而無(wú)需支持庫用戶(hù)正在使用的每個(gè)指標系統;團隊可以在后端注冊表上支持許多不同的指標,這使組織能夠以一致的方式收集指標。
  NUKE
  NUKE 是一個(gè)面向 .NET 的構建系統,也是傳統的 MSBuild、Cake 以及 Fake 等自動(dòng)化構建系統的替代品,我們曾在之前的技術(shù)雷達中介紹過(guò)它們。NUKE 以 C# 領(lǐng)域特定語(yǔ)言(DSL)的形式表達構建指令,不但降低了學(xué)習成本,而且 IDE 支持性也很好。在我們的實(shí)際體驗中,使用 NUKE 進(jìn)行 .NET 項目的自動(dòng)化構建十分便捷。我們喜歡 NUKE 提供的精準代碼靜態(tài)檢查和提示功能,并且它支持無(wú)縫使用各種 NuGet 包,這樣可以編譯自動(dòng)化代碼,避免運行時(shí)發(fā)生錯誤。盡管 NUKE 已不是新技術(shù),但它采用 C# DSL 的全新方法,以及使用 NUKE 時(shí)全方位的良好體驗,促使我們一定要將它收錄在技術(shù)雷達里。
  Pactflow
  在長(cháng)時(shí)間使用 Pact 進(jìn)行契約測試的過(guò)程中,我們目睹了規?;瘞?lái)的復雜性。我們的一些團隊已經(jīng)使用 Pactflow 成功減少了這種復雜性引發(fā)的后果。Pactflow 既可以作為 SaaS 運行,也可以部署在本地,并提供與 SaaS 產(chǎn)品相同的功能,它在開(kāi)源產(chǎn)品 Pact Broker 的基礎上,提升了可用性、安全性以及審計體驗。到目前為止,我們很滿(mǎn)意 Pactflow 的使用體驗,并且很高興看到它在持續致力于降低管理大規模契約測試所帶來(lái)的開(kāi)銷(xiāo)。
  Podman
  Podman 作為Docker 的替代方案,已經(jīng)通過(guò)我們許多團隊的驗證。與 Docker 不同的是,Podman 使用一個(gè)無(wú)守護引擎來(lái)管理和運行容器,這是一種有趣的方案。此外,Podman 可以以普通用戶(hù)身份運行而無(wú)需root權限,從而減少了攻擊面。通過(guò)使用 Buildah 構建的開(kāi)放容器倡議(OCI) 鏡像或者 Docker 鏡像, Podman 可以適用于大多數容器使用場(chǎng)景。除了與 macOS 的一些兼容性問(wèn)題外,我們團隊在 Linux 各發(fā)行版上使用 Podman 的總體感覺(jué)非常好。
  Sourcegraph
  在往期的技術(shù)雷達中,我們介紹了兩個(gè)基于抽象語(yǔ)法樹(shù)(AST)表征的代碼搜索和替換工具,Comby 和Sourcegraph。它們盡管有一些相似之處,但也有一些不同的地方。Sourcegraph 是一個(gè)商業(yè)工具(也有最多支持10個(gè)用戶(hù)的免費版本),特別適合在大型代碼庫中進(jìn)行搜索、導航或交叉引用等操作,重視與開(kāi)發(fā)者的交互體驗。相比之下,Comby 是一個(gè)用于自動(dòng)化重復性任務(wù)的輕量級開(kāi)源命令行工具。由于 Sourcegraph 是一個(gè)托管服務(wù),它能持續監測代碼庫,并在成功匹配時(shí)發(fā)出警報?,F在我們對 Sourcegraph 有了更多的經(jīng)驗,決定將其挪到試驗狀態(tài),以反映我們從中獲得的良好體驗——但這并不意味著(zhù) Sourcegraph 比 Comby 更好。每個(gè)工具都有各自專(zhuān)注的方向。
  Syft
  使用軟件物料清單(SBOM) 是改善“供應鏈安全”的關(guān)鍵要素之一,因此在發(fā)布軟件構件的同時(shí),發(fā)布相應的 SBOM 正變得越來(lái)越重要。Syft是一個(gè)致力于為容器鏡像和文件系統生成 SBOM 的 CLI 工具和 Go 語(yǔ)言庫。它可以生成包括 JSON, CycloneDX 和 SPDX 在內的多種格式的 SBOM。Syft 輸出的 SBOM 可以被 Grype 用于漏洞掃描。使用Cosign 將 SBOM 添加為證明文件,可以將生成的 SBOM 和鏡像一起發(fā)布。這使得鏡像的消費者可以對 SBOM 進(jìn)行驗證,并將其用于后續的分析。
  Volta
  當同時(shí)在多個(gè) JavaScript 代碼庫上工作時(shí),我們往往需要使用不同版本的 Node 和其他 JavaScript 工具。在開(kāi)發(fā)機器上,這些工具通常安裝在用戶(hù)目錄或本機中,這意味著(zhù)需要一個(gè)解決方案,幫助開(kāi)發(fā)者在多個(gè)版本之中進(jìn)行切換。對于 Node 而言,nvm 能夠做到這一點(diǎn),但我們想重點(diǎn)強調一個(gè)替代方案 Volta ,我們的一些團隊正在使用它。與使用 nvm 相比,Volta 有幾個(gè)優(yōu)點(diǎn):它可以管理其他 JavaScript 工具,如 yarn;它還具備一個(gè)基于項目綁定工具鏈某個(gè)版本的理念,這意味著(zhù)開(kāi)發(fā)人員可以簡(jiǎn)單使用給定代碼目錄中的工具,而不必擔心需要手動(dòng)切換工具版本 —— Volta 是通過(guò)使用路徑中的 shims 來(lái)選擇被綁定的版本。Volta 采用 Rust 編寫(xiě),速度極快,以獨立二進(jìn)制文件進(jìn)行分發(fā),沒(méi)有任何依賴(lài)。
  Web Test Runner
  Web Test Runner 是 Modern Web 項目中的一個(gè)套件,該項目為現代 Web 開(kāi)發(fā)提供了若干高質(zhì)量的工具,支持像 ES 模塊之類(lèi)的 Web 標準。Web Test Runner 是一個(gè)針對 Web 應用的測試運行器。與其他現有測試運行器相比,它的一個(gè)優(yōu)勢是可以在瀏覽器中運行測試(也可以無(wú)圖形界面運行)。它支持多種瀏覽器啟動(dòng)器——包括 Puppeteer , Playwright 和 Selenium ,并且使用 Mocha 作為默認測試框架。Web Test Runner 運行測試的速度非???,我們很喜歡在調試的時(shí)候能打開(kāi)一個(gè)帶 devtools 的瀏覽器窗口。它在內部采用了 Web Dev Server ,這意味著(zhù)我們可以利用其出色的插件 API,為測試套件添加自定義插件。Modern Web 項目的工具看起來(lái)是一套非常有前景的開(kāi)發(fā)者工具鏈,我們已經(jīng)在一些項目中使用它。
  評估
  CDKTF
  迄今為止,許多組織已經(jīng)創(chuàng )造了廣闊的云服務(wù)圖景。當然,這只有在使用基礎設施即代碼和成熟的工具時(shí)才可能實(shí)現。我們仍然喜歡 Terraform,尤其是它豐富且日漸增長(cháng)的生態(tài)系統。然而,Terraform 的默認配置語(yǔ)言 HCL 缺乏抽象性,導致了它的玻璃天花板。雖然使用 Terragrunt 緩解了這一點(diǎn),但我們的團隊越來(lái)越渴望像現代編程語(yǔ)言所能提供的那種抽象性。由AWS CDK 團隊和 Hashicorp 合作開(kāi)發(fā)的 Terraform云開(kāi)發(fā)工具包(CDKTF),讓團隊有可能使用多種不同的編程語(yǔ)言,包括 TypeScript 和 Java,去定義并配置基礎設施。通過(guò)這種方法,它在 Terraform 生態(tài)系統中緊跟Pulumi 的領(lǐng)先地位。我們已經(jīng)對 CDKTF 有了很好的經(jīng)驗,但仍然決定將其暫留在評估狀態(tài),直到它脫離 beta 版本。
  Chrome Recorder panel
  Chrome Recorder panel 是 Google Chrome 97 的預覽功能,允許簡(jiǎn)單地錄制和回放用戶(hù)旅程。雖然這絕對不是一個(gè)新想法,但它集成在 Chrome 瀏覽器中的方式能允許快速地創(chuàng )建、編輯和運行腳本。Chrome Recorder panel 也很好地集成了性能面板,這讓獲取重復、持續的頁(yè)面性能反饋變得更加容易。雖然總是需要謹慎使用錄制/回放風(fēng)格的測試,以避免脆弱的測試,但我們認為這個(gè)預覽功能值得評估,特別是如果你已經(jīng)在使用 Chrome 性能面板來(lái)測量頁(yè)面。
  Excalidraw
  Excalidraw 是我們團隊喜歡使用的簡(jiǎn)單但功能強大的繪圖工具。有時(shí)候團隊只是需要一張草圖而不是正式的圖表,Excalidraw 為遠程團隊提供了一種可以快速創(chuàng )建和共享圖表的方式。我們團隊也喜歡它生成的低保真圖表樣式,這讓人聯(lián)想到團隊在同地協(xié)作時(shí)繪制的白板圖表。提醒一點(diǎn):你需要注意它默認的安全性,在你進(jìn)行繪制時(shí),任何擁有鏈接的人都可以看見(jiàn)圖表。付費版本則提供了進(jìn)一步的身份驗證功能。
  Github Codespace
  Github Codespace 允許開(kāi)發(fā)者在云上創(chuàng )建開(kāi)發(fā)環(huán)境,你可以通過(guò) IDE 訪(fǎng)問(wèn)它,就像在本地環(huán)境一樣。Github 不是第一家實(shí)現這個(gè)想法的公司,我們之前還提到過(guò) Gitpod。我們喜歡 Codespace 允許通過(guò)使用 dotfiles 文件來(lái)標準化配置環(huán)境的功能,這能夠幫助新團隊成員更快上手;我們也十分中意 Codespace 能提供最高 32 核 64GB 內存虛擬機的特性,這些虛擬機可以在 10 秒鐘內啟動(dòng),有可能提供比開(kāi)發(fā)筆記本電腦更強大的環(huán)境。
  GoReleaser
  GoReleaser 是一個(gè)通過(guò)多個(gè)庫和通道來(lái)支持不同架構的 Go 項目自動(dòng)化構建和發(fā)布的工具,這是面向不同平臺 Go 項目的常見(jiàn)需求。你可以在本地機器或者 CI 上運行該工具,它支持在多種 CI 服務(wù)上運行,從而最大限度降低安裝和維護成本。GoReleaser 能夠用于每個(gè)發(fā)布版本的構建、打包、發(fā)布和聲明,并且支持不同的包格式、包庫和源代碼控制的組合。雖然它已經(jīng)出現好幾年了,但我們驚訝并沒(méi)有多少團隊使用它。如果你經(jīng)常發(fā)布 Go 代碼庫,這個(gè)工具值得一試。
  Grype
  保證軟件供應鏈的安全性已經(jīng)得到交付團隊的普遍關(guān)注,這種關(guān)注也反映在越來(lái)越多的新工具涌現在該領(lǐng)域中。Grype 就是一個(gè)新的針對 Docker 和 OCI 鏡像進(jìn)行漏洞掃描的輕量級工具。它可以以二進(jìn)制文件安裝,能在鏡像被推至倉庫前對其進(jìn)行掃描,而且不需要在你的構建服務(wù)器上運行 Docker 守護進(jìn)程。Grype 與 Syft 出自同一個(gè)團隊,后者用于為容器鏡像生成不同格式的軟件物料清單 。Grype 可以使用 Syft 輸出的軟件物料清單掃描安全漏洞。
  Infracost
  遷移到云端的一個(gè)常被提及的優(yōu)勢是將基礎設施開(kāi)銷(xiāo)透明化。但根據我們的經(jīng)驗,情況卻往往相反。團隊并不總是從財務(wù)成本的角度來(lái)考慮他們圍繞基礎設施所做的決定,這就是為什么我們之前提到了將運行成本實(shí)現為架構適應度函數。我們對一個(gè)名為 Infracost 的新工具感到好奇,該工具可以在 Terraform pull request 中可視化成本權衡。它是一個(gè)開(kāi)源軟件, 在 macOS、Linux、Windows 和 Docker 均可訪(fǎng)問(wèn),開(kāi)箱即用支持 AWS 、 GCP 和微軟 Azure 的定價(jià)。它還提供了一個(gè)公共 API ,可以查詢(xún)到當前的成本數據。我們的團隊對它的潛力感到興奮,特別是它還將支持在IDE中提供更好的成本可見(jiàn)性。
  jc
  在之前的技術(shù)雷達中,我們將 現代 Unix 命令 放在了評估狀態(tài)。在該工具集中, jq 命令實(shí)際上是一個(gè)支持 JSON 的 sed。而 jc 命令執行的是與之相關(guān)的任務(wù):它獲取常見(jiàn) Unix 命令的輸出,并將輸出解析為 JSON。jq 和 jc 這兩個(gè)命令一起為 Unix CLI 世界以及大量基于 JSON 工作的庫和工具之間架起了一座橋梁。當編寫(xiě)一些像軟件部署或者故障診斷信息收集的簡(jiǎn)單腳本時(shí),將五花八門(mén)的 Unix 命令輸出格式映射到定義明確的 JSON,可以為我們節省大量的時(shí)間和精力。與 jq 命令一樣,你需要確保該命令可用。它可以通過(guò)許多著(zhù)名的軟件庫進(jìn)行安裝。
  skopeo
  skopeo 是一款可以對容器鏡像和鏡像倉庫執行各種操作的命令行工具。它的大部分操作都不要求用戶(hù)以 root 角色執行,也不需要運行守護進(jìn)程。它是 CI 流水線(xiàn)中的實(shí)用部分,在推廣鏡像時(shí),我們可以用skopeo把鏡像從一個(gè)注冊表拷貝到另一個(gè)注冊表。這樣的操作比直接拉取和推送鏡像更好,因為我們不需要在本地存儲這些鏡像。skopeo 不是一個(gè)新工具,但它足夠有用且未被充分認識到,所以我們認為它值得一提。
  SQLFluff
  盡管代碼靜態(tài)檢查已經(jīng)是軟件工程中的古老實(shí)踐了,但它在數據領(lǐng)域中的應用仍十分緩慢。SQLFluff是一個(gè)python實(shí)現的跨SQL方言的linter,它提供了簡(jiǎn)單的命令行界面(CLI),可以很容易地整合進(jìn)CI/CD流水線(xiàn)。如果默認配置就適合你,那么SQLFluff在安裝后無(wú)需任何額外設定就可工作,它會(huì )強制執行一套鮮明風(fēng)格的標準來(lái)格式化代碼,當然,你也可以通過(guò)添加一個(gè)dotfile設定自己的代碼規范。這個(gè)命令行工具還能自動(dòng)修復諸如空格或者關(guān)鍵詞大小寫(xiě)等違反代碼規范設定的格式錯誤。SQLFluff雖然還很年輕,但是SQL代碼靜態(tài)檢查圈內獲得更多關(guān)注是一件讓人興奮的事。
  Terraform Validator
  一些已經(jīng)采用了基礎設施即代碼和自服務(wù)基礎設施平臺的組織,正在尋找在執行良好安全實(shí)踐和組織政策的同時(shí),能給予團隊最大限度自主權的方法。我們之前已經(jīng)著(zhù)重強調過(guò) tfsec,并在這一期技術(shù)雷達中將它挪到了采納中。對于使用谷歌云平臺(GCP)的團隊來(lái)說(shuō),可以使用 Terraform Validator 構建策略庫,作為檢查 Terraform 配置的約束條件。
  Typesense
  Typesense 是一個(gè)快速、容錯的文本搜索引擎。在有大量數據的情形下,Elasticsearch 可能仍然是一個(gè)不錯的選擇,因為它提供了一個(gè)基于磁盤(pán)且可橫向擴展的搜索解決方案。然而如果你正在構建一個(gè)對延遲敏感的搜索應用,并且搜索索引的尺寸可以容納在內存中,那么 Typesense 會(huì )是一個(gè)強大的替代方案,你也可以考慮與 Meilisearch 等工具一起評估。 查看全部

  Thoughtworks第26期技術(shù)雷達——工具象限
  
  采納
  tfsec
  對于那些我們正在使用Terraform的項目來(lái)說(shuō),在需要檢測潛在安全風(fēng)險時(shí),tfsec已經(jīng)迅速成為默認的靜態(tài)分析工具。它很容易被集成到CI流水線(xiàn),而且擁有一個(gè)持續增長(cháng)的檢查庫,可以用來(lái)檢查所有主要的云供應商和諸如Kunernetes的平臺。鑒于它的易用性,我們相信對任何Terraform項目而言,tfsec都會(huì )是一個(gè)非常好的補充。
  試驗
  AKHQ
  AKHQ 是 Apache Kafka 的圖形用戶(hù)界面(GUI),可以幫助你管理主題、主題數據、消費者組等。我們的一些團隊發(fā)現 AKHQ 是用來(lái)監控 Kafka 集群實(shí)時(shí)狀態(tài)的有效工具。比如,你可以瀏覽集群上的主題,對于每個(gè)主題,你都能可視化它的名稱(chēng)、存儲的消息數量、使用的磁盤(pán)空間、最后一條記錄的時(shí)間、分區數、同步數量的復制因子和消費者組。通過(guò) Avro 和 Protobuf 的反序列化,AKHQ 可以幫助你了解 Kafka 環(huán)境中的數據流。
  cert-manager
  cert-manager 是一款在 Kubernetes 集群里管理 X.509 證書(shū)的工具。它將證書(shū)和簽發(fā)者建模為一等資源類(lèi)型,并將證書(shū)作為服務(wù)安全地提供給工作在 Kubernetes 集群上的開(kāi)發(fā)人員和應用程序。在使用 Kubernetes 默認 ingress 控制器時(shí),cert-manager 是個(gè)顯而易見(jiàn)的選擇,但也推薦用在其他的控制器上,尤其在你不應該手動(dòng)管理自己的證書(shū)的時(shí)候。我們的幾個(gè)團隊一直在廣泛使用 cert-manager,而且發(fā)現它的可用性在過(guò)去幾個(gè)月里有了很大的提升。
  云服務(wù)的碳足跡
  Cloud Carbon Footprint (CCF)是一款通過(guò)云 API來(lái)查看AWS、GCP、Azure云平臺上碳排放的可視化工具。Thoughtworks的團隊已經(jīng)成功使用這個(gè)工具 與多個(gè)組織合作,其中包括能源科技公司、零售商、數字服務(wù)的供應商和使用人工智能的公司。云平臺提供商意識到,幫助客戶(hù)理解在使用云服務(wù)時(shí)產(chǎn)生的碳排放的影響是很重要的。所以他們開(kāi)始自主構建類(lèi)似的功能。因為CCF是獨立于云架構的,它允許使用者在一個(gè)位置查看多個(gè)不同云服務(wù)商的能源使用和碳排放情況,同時(shí)將碳足跡轉化為對現實(shí)世界的影響,比如排放量相當于多少次航班, 或者多少棵樹(shù)。在最近的發(fā)布中,CCF已經(jīng)開(kāi)始包含針對Google云和AWS云上可能的節能與減少二氧化碳排放的優(yōu)化建議,以及支持更多類(lèi)型的云實(shí)例,比如GPU??紤]到現在這個(gè)工具已經(jīng)備受關(guān)注和持續增加新功能, 我們對未來(lái)把它挪入試驗狀態(tài)充滿(mǎn)信心。
  Conftest
  Conftest 是一款針對結構化配置數據編寫(xiě)測試的工具。它依賴(lài)于開(kāi)放策略代理中的 Rego 語(yǔ)言,能夠為 Kubernetes 配置、Tekton 的流水線(xiàn)定義、甚至 Terraform 計劃編寫(xiě)測試。在我們的實(shí)際使用中,Conftest 的體驗一直都非常棒,這也得益于它平緩的學(xué)習曲線(xiàn)。借助測試的快速反饋,我們的團隊可以又快又安全地迭代變更 Kubernetes 的配置。
  kube-score
  kube-score 是一款針對 Kubernetes 對象定義,進(jìn)行代碼靜態(tài)檢查的工具。它的輸出是一份建議列表,里面包含了如何提升你的應用程序安全性及彈性的相關(guān)建議。它有一份包含了最佳實(shí)踐的預定義檢查,比如以非root權限運行容器,正確指定資源限制等。它已經(jīng)存在了一段時(shí)間,我們在一些項目中將它作為 Kubernetes manifests 構建的 CD 流水線(xiàn)的一部分來(lái)使用。kube-score 的一個(gè)顯著(zhù)缺陷是你無(wú)法添加自定義策略。在這種情況下,我們使用像Conftest 這樣的工具,以彌補它的缺陷。
  Lighthouse
  Lighthouse 是一個(gè)由 Google 編寫(xiě)的工具,可以評估 Web 應用和頁(yè)面,以及從出色的開(kāi)發(fā)實(shí)踐中收集性能指標和洞見(jiàn)等信息。我們一直主張性能測試乃第一公民, 五年前技術(shù)雷達中提到的對 Lighthouse 的補充內容對此也有幫助。我們關(guān)于適應度函數的思考,也為在構建流水線(xiàn)中運行 Lighthouse 這樣的工具創(chuàng )造了強烈的動(dòng)機。隨著(zhù) Lighthouse CI 的引入,將 Lighthouse 納入由不同工具管理的流水線(xiàn),會(huì )變得比以往任何時(shí)候都容易。
  Metaflow
  Metaflow 是一個(gè)對用戶(hù)友好的 Python 庫和后端服務(wù),可以幫助數據科學(xué)家和工程師構建和管理可用于生產(chǎn)的數據處理、機器學(xué)習訓練及推理的工作流。Metaflow 提供一系列 Python API,將代碼組織為由步驟組成的有向圖。每一個(gè)步驟都可以靈活配置,例如其所需的計算和存儲資源。每個(gè)步驟執行(也就是任務(wù))的代碼和數據副本都被保存起來(lái),并可以在今后的運行或流程的下一步中被檢索出來(lái),幫助你從錯誤中恢復,重新執行任務(wù),還可以追蹤模型的版本以及多個(gè)運行之間的依賴(lài)關(guān)系。
  Metaflow 的價(jià)值主張是其慣用的 Python 庫的簡(jiǎn)潔性:它與構建和運行時(shí)的基礎設施完全集成,以支持在本地和規?;纳a(chǎn)環(huán)境中運行數據工程和科學(xué)任務(wù)。在撰寫(xiě)本條目時(shí),Metaflow 和 AWS 服務(wù)高度集成,例如使用 S3 來(lái)做數據存儲,step functions 來(lái)做編排。除 Python 以外,Metaflow 還支持 R 語(yǔ)言。其核心功能都是開(kāi)源的。
  如果你正在 AWS 上構建和部署生產(chǎn)環(huán)境的機器學(xué)習和數據處理流水線(xiàn),作為一個(gè)輕量級的全??蚣?,Metaflow 可以替代例如 MLflow 這類(lèi)更復雜的平臺。
  Micrometer
  Micrometer 是一個(gè)跨平臺的庫,用于JVM的指標檢測,支持 Graphite、New Relic、CloudWatch 和許多其他集成。Micrometer 讓庫作者和團隊都受益:庫作者可以在他們的庫中包含指標檢測代碼,而無(wú)需支持庫用戶(hù)正在使用的每個(gè)指標系統;團隊可以在后端注冊表上支持許多不同的指標,這使組織能夠以一致的方式收集指標。
  NUKE
  NUKE 是一個(gè)面向 .NET 的構建系統,也是傳統的 MSBuild、Cake 以及 Fake 等自動(dòng)化構建系統的替代品,我們曾在之前的技術(shù)雷達中介紹過(guò)它們。NUKE 以 C# 領(lǐng)域特定語(yǔ)言(DSL)的形式表達構建指令,不但降低了學(xué)習成本,而且 IDE 支持性也很好。在我們的實(shí)際體驗中,使用 NUKE 進(jìn)行 .NET 項目的自動(dòng)化構建十分便捷。我們喜歡 NUKE 提供的精準代碼靜態(tài)檢查和提示功能,并且它支持無(wú)縫使用各種 NuGet 包,這樣可以編譯自動(dòng)化代碼,避免運行時(shí)發(fā)生錯誤。盡管 NUKE 已不是新技術(shù),但它采用 C# DSL 的全新方法,以及使用 NUKE 時(shí)全方位的良好體驗,促使我們一定要將它收錄在技術(shù)雷達里。
  Pactflow
  在長(cháng)時(shí)間使用 Pact 進(jìn)行契約測試的過(guò)程中,我們目睹了規?;瘞?lái)的復雜性。我們的一些團隊已經(jīng)使用 Pactflow 成功減少了這種復雜性引發(fā)的后果。Pactflow 既可以作為 SaaS 運行,也可以部署在本地,并提供與 SaaS 產(chǎn)品相同的功能,它在開(kāi)源產(chǎn)品 Pact Broker 的基礎上,提升了可用性、安全性以及審計體驗。到目前為止,我們很滿(mǎn)意 Pactflow 的使用體驗,并且很高興看到它在持續致力于降低管理大規模契約測試所帶來(lái)的開(kāi)銷(xiāo)。
  Podman
  Podman 作為Docker 的替代方案,已經(jīng)通過(guò)我們許多團隊的驗證。與 Docker 不同的是,Podman 使用一個(gè)無(wú)守護引擎來(lái)管理和運行容器,這是一種有趣的方案。此外,Podman 可以以普通用戶(hù)身份運行而無(wú)需root權限,從而減少了攻擊面。通過(guò)使用 Buildah 構建的開(kāi)放容器倡議(OCI) 鏡像或者 Docker 鏡像, Podman 可以適用于大多數容器使用場(chǎng)景。除了與 macOS 的一些兼容性問(wèn)題外,我們團隊在 Linux 各發(fā)行版上使用 Podman 的總體感覺(jué)非常好。
  Sourcegraph
  在往期的技術(shù)雷達中,我們介紹了兩個(gè)基于抽象語(yǔ)法樹(shù)(AST)表征的代碼搜索和替換工具,Comby 和Sourcegraph。它們盡管有一些相似之處,但也有一些不同的地方。Sourcegraph 是一個(gè)商業(yè)工具(也有最多支持10個(gè)用戶(hù)的免費版本),特別適合在大型代碼庫中進(jìn)行搜索、導航或交叉引用等操作,重視與開(kāi)發(fā)者的交互體驗。相比之下,Comby 是一個(gè)用于自動(dòng)化重復性任務(wù)的輕量級開(kāi)源命令行工具。由于 Sourcegraph 是一個(gè)托管服務(wù),它能持續監測代碼庫,并在成功匹配時(shí)發(fā)出警報?,F在我們對 Sourcegraph 有了更多的經(jīng)驗,決定將其挪到試驗狀態(tài),以反映我們從中獲得的良好體驗——但這并不意味著(zhù) Sourcegraph 比 Comby 更好。每個(gè)工具都有各自專(zhuān)注的方向。
  Syft
  使用軟件物料清單(SBOM) 是改善“供應鏈安全”的關(guān)鍵要素之一,因此在發(fā)布軟件構件的同時(shí),發(fā)布相應的 SBOM 正變得越來(lái)越重要。Syft是一個(gè)致力于為容器鏡像和文件系統生成 SBOM 的 CLI 工具和 Go 語(yǔ)言庫。它可以生成包括 JSON, CycloneDX 和 SPDX 在內的多種格式的 SBOM。Syft 輸出的 SBOM 可以被 Grype 用于漏洞掃描。使用Cosign 將 SBOM 添加為證明文件,可以將生成的 SBOM 和鏡像一起發(fā)布。這使得鏡像的消費者可以對 SBOM 進(jìn)行驗證,并將其用于后續的分析。
  Volta
  當同時(shí)在多個(gè) JavaScript 代碼庫上工作時(shí),我們往往需要使用不同版本的 Node 和其他 JavaScript 工具。在開(kāi)發(fā)機器上,這些工具通常安裝在用戶(hù)目錄或本機中,這意味著(zhù)需要一個(gè)解決方案,幫助開(kāi)發(fā)者在多個(gè)版本之中進(jìn)行切換。對于 Node 而言,nvm 能夠做到這一點(diǎn),但我們想重點(diǎn)強調一個(gè)替代方案 Volta ,我們的一些團隊正在使用它。與使用 nvm 相比,Volta 有幾個(gè)優(yōu)點(diǎn):它可以管理其他 JavaScript 工具,如 yarn;它還具備一個(gè)基于項目綁定工具鏈某個(gè)版本的理念,這意味著(zhù)開(kāi)發(fā)人員可以簡(jiǎn)單使用給定代碼目錄中的工具,而不必擔心需要手動(dòng)切換工具版本 —— Volta 是通過(guò)使用路徑中的 shims 來(lái)選擇被綁定的版本。Volta 采用 Rust 編寫(xiě),速度極快,以獨立二進(jìn)制文件進(jìn)行分發(fā),沒(méi)有任何依賴(lài)。
  Web Test Runner
  Web Test Runner 是 Modern Web 項目中的一個(gè)套件,該項目為現代 Web 開(kāi)發(fā)提供了若干高質(zhì)量的工具,支持像 ES 模塊之類(lèi)的 Web 標準。Web Test Runner 是一個(gè)針對 Web 應用的測試運行器。與其他現有測試運行器相比,它的一個(gè)優(yōu)勢是可以在瀏覽器中運行測試(也可以無(wú)圖形界面運行)。它支持多種瀏覽器啟動(dòng)器——包括 Puppeteer , Playwright 和 Selenium ,并且使用 Mocha 作為默認測試框架。Web Test Runner 運行測試的速度非???,我們很喜歡在調試的時(shí)候能打開(kāi)一個(gè)帶 devtools 的瀏覽器窗口。它在內部采用了 Web Dev Server ,這意味著(zhù)我們可以利用其出色的插件 API,為測試套件添加自定義插件。Modern Web 項目的工具看起來(lái)是一套非常有前景的開(kāi)發(fā)者工具鏈,我們已經(jīng)在一些項目中使用它。
  評估
  CDKTF
  迄今為止,許多組織已經(jīng)創(chuàng )造了廣闊的云服務(wù)圖景。當然,這只有在使用基礎設施即代碼和成熟的工具時(shí)才可能實(shí)現。我們仍然喜歡 Terraform,尤其是它豐富且日漸增長(cháng)的生態(tài)系統。然而,Terraform 的默認配置語(yǔ)言 HCL 缺乏抽象性,導致了它的玻璃天花板。雖然使用 Terragrunt 緩解了這一點(diǎn),但我們的團隊越來(lái)越渴望像現代編程語(yǔ)言所能提供的那種抽象性。由AWS CDK 團隊和 Hashicorp 合作開(kāi)發(fā)的 Terraform云開(kāi)發(fā)工具包(CDKTF),讓團隊有可能使用多種不同的編程語(yǔ)言,包括 TypeScript 和 Java,去定義并配置基礎設施。通過(guò)這種方法,它在 Terraform 生態(tài)系統中緊跟Pulumi 的領(lǐng)先地位。我們已經(jīng)對 CDKTF 有了很好的經(jīng)驗,但仍然決定將其暫留在評估狀態(tài),直到它脫離 beta 版本。
  Chrome Recorder panel
  Chrome Recorder panel 是 Google Chrome 97 的預覽功能,允許簡(jiǎn)單地錄制和回放用戶(hù)旅程。雖然這絕對不是一個(gè)新想法,但它集成在 Chrome 瀏覽器中的方式能允許快速地創(chuàng )建、編輯和運行腳本。Chrome Recorder panel 也很好地集成了性能面板,這讓獲取重復、持續的頁(yè)面性能反饋變得更加容易。雖然總是需要謹慎使用錄制/回放風(fēng)格的測試,以避免脆弱的測試,但我們認為這個(gè)預覽功能值得評估,特別是如果你已經(jīng)在使用 Chrome 性能面板來(lái)測量頁(yè)面。
  Excalidraw
  Excalidraw 是我們團隊喜歡使用的簡(jiǎn)單但功能強大的繪圖工具。有時(shí)候團隊只是需要一張草圖而不是正式的圖表,Excalidraw 為遠程團隊提供了一種可以快速創(chuàng )建和共享圖表的方式。我們團隊也喜歡它生成的低保真圖表樣式,這讓人聯(lián)想到團隊在同地協(xié)作時(shí)繪制的白板圖表。提醒一點(diǎn):你需要注意它默認的安全性,在你進(jìn)行繪制時(shí),任何擁有鏈接的人都可以看見(jiàn)圖表。付費版本則提供了進(jìn)一步的身份驗證功能。
  Github Codespace
  Github Codespace 允許開(kāi)發(fā)者在云上創(chuàng )建開(kāi)發(fā)環(huán)境,你可以通過(guò) IDE 訪(fǎng)問(wèn)它,就像在本地環(huán)境一樣。Github 不是第一家實(shí)現這個(gè)想法的公司,我們之前還提到過(guò) Gitpod。我們喜歡 Codespace 允許通過(guò)使用 dotfiles 文件來(lái)標準化配置環(huán)境的功能,這能夠幫助新團隊成員更快上手;我們也十分中意 Codespace 能提供最高 32 核 64GB 內存虛擬機的特性,這些虛擬機可以在 10 秒鐘內啟動(dòng),有可能提供比開(kāi)發(fā)筆記本電腦更強大的環(huán)境。
  GoReleaser
  GoReleaser 是一個(gè)通過(guò)多個(gè)庫和通道來(lái)支持不同架構的 Go 項目自動(dòng)化構建和發(fā)布的工具,這是面向不同平臺 Go 項目的常見(jiàn)需求。你可以在本地機器或者 CI 上運行該工具,它支持在多種 CI 服務(wù)上運行,從而最大限度降低安裝和維護成本。GoReleaser 能夠用于每個(gè)發(fā)布版本的構建、打包、發(fā)布和聲明,并且支持不同的包格式、包庫和源代碼控制的組合。雖然它已經(jīng)出現好幾年了,但我們驚訝并沒(méi)有多少團隊使用它。如果你經(jīng)常發(fā)布 Go 代碼庫,這個(gè)工具值得一試。
  Grype
  保證軟件供應鏈的安全性已經(jīng)得到交付團隊的普遍關(guān)注,這種關(guān)注也反映在越來(lái)越多的新工具涌現在該領(lǐng)域中。Grype 就是一個(gè)新的針對 Docker 和 OCI 鏡像進(jìn)行漏洞掃描的輕量級工具。它可以以二進(jìn)制文件安裝,能在鏡像被推至倉庫前對其進(jìn)行掃描,而且不需要在你的構建服務(wù)器上運行 Docker 守護進(jìn)程。Grype 與 Syft 出自同一個(gè)團隊,后者用于為容器鏡像生成不同格式的軟件物料清單 。Grype 可以使用 Syft 輸出的軟件物料清單掃描安全漏洞。
  Infracost
  遷移到云端的一個(gè)常被提及的優(yōu)勢是將基礎設施開(kāi)銷(xiāo)透明化。但根據我們的經(jīng)驗,情況卻往往相反。團隊并不總是從財務(wù)成本的角度來(lái)考慮他們圍繞基礎設施所做的決定,這就是為什么我們之前提到了將運行成本實(shí)現為架構適應度函數。我們對一個(gè)名為 Infracost 的新工具感到好奇,該工具可以在 Terraform pull request 中可視化成本權衡。它是一個(gè)開(kāi)源軟件, 在 macOS、Linux、Windows 和 Docker 均可訪(fǎng)問(wèn),開(kāi)箱即用支持 AWS 、 GCP 和微軟 Azure 的定價(jià)。它還提供了一個(gè)公共 API ,可以查詢(xún)到當前的成本數據。我們的團隊對它的潛力感到興奮,特別是它還將支持在IDE中提供更好的成本可見(jiàn)性。
  jc
  在之前的技術(shù)雷達中,我們將 現代 Unix 命令 放在了評估狀態(tài)。在該工具集中, jq 命令實(shí)際上是一個(gè)支持 JSON 的 sed。而 jc 命令執行的是與之相關(guān)的任務(wù):它獲取常見(jiàn) Unix 命令的輸出,并將輸出解析為 JSON。jq 和 jc 這兩個(gè)命令一起為 Unix CLI 世界以及大量基于 JSON 工作的庫和工具之間架起了一座橋梁。當編寫(xiě)一些像軟件部署或者故障診斷信息收集的簡(jiǎn)單腳本時(shí),將五花八門(mén)的 Unix 命令輸出格式映射到定義明確的 JSON,可以為我們節省大量的時(shí)間和精力。與 jq 命令一樣,你需要確保該命令可用。它可以通過(guò)許多著(zhù)名的軟件庫進(jìn)行安裝。
  skopeo
  skopeo 是一款可以對容器鏡像和鏡像倉庫執行各種操作的命令行工具。它的大部分操作都不要求用戶(hù)以 root 角色執行,也不需要運行守護進(jìn)程。它是 CI 流水線(xiàn)中的實(shí)用部分,在推廣鏡像時(shí),我們可以用skopeo把鏡像從一個(gè)注冊表拷貝到另一個(gè)注冊表。這樣的操作比直接拉取和推送鏡像更好,因為我們不需要在本地存儲這些鏡像。skopeo 不是一個(gè)新工具,但它足夠有用且未被充分認識到,所以我們認為它值得一提。
  SQLFluff
  盡管代碼靜態(tài)檢查已經(jīng)是軟件工程中的古老實(shí)踐了,但它在數據領(lǐng)域中的應用仍十分緩慢。SQLFluff是一個(gè)python實(shí)現的跨SQL方言的linter,它提供了簡(jiǎn)單的命令行界面(CLI),可以很容易地整合進(jìn)CI/CD流水線(xiàn)。如果默認配置就適合你,那么SQLFluff在安裝后無(wú)需任何額外設定就可工作,它會(huì )強制執行一套鮮明風(fēng)格的標準來(lái)格式化代碼,當然,你也可以通過(guò)添加一個(gè)dotfile設定自己的代碼規范。這個(gè)命令行工具還能自動(dòng)修復諸如空格或者關(guān)鍵詞大小寫(xiě)等違反代碼規范設定的格式錯誤。SQLFluff雖然還很年輕,但是SQL代碼靜態(tài)檢查圈內獲得更多關(guān)注是一件讓人興奮的事。
  Terraform Validator
  一些已經(jīng)采用了基礎設施即代碼和自服務(wù)基礎設施平臺的組織,正在尋找在執行良好安全實(shí)踐和組織政策的同時(shí),能給予團隊最大限度自主權的方法。我們之前已經(jīng)著(zhù)重強調過(guò) tfsec,并在這一期技術(shù)雷達中將它挪到了采納中。對于使用谷歌云平臺(GCP)的團隊來(lái)說(shuō),可以使用 Terraform Validator 構建策略庫,作為檢查 Terraform 配置的約束條件。
  Typesense
  Typesense 是一個(gè)快速、容錯的文本搜索引擎。在有大量數據的情形下,Elasticsearch 可能仍然是一個(gè)不錯的選擇,因為它提供了一個(gè)基于磁盤(pán)且可橫向擴展的搜索解決方案。然而如果你正在構建一個(gè)對延遲敏感的搜索應用,并且搜索索引的尺寸可以容納在內存中,那么 Typesense 會(huì )是一個(gè)強大的替代方案,你也可以考慮與 Meilisearch 等工具一起評估。

論文打卡第十七期(信息抽取,文本生成,多模態(tài),知識蒸餾)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 146 次瀏覽 ? 2022-05-01 08:00 ? 來(lái)自相關(guān)話(huà)題

  論文打卡第十七期(信息抽取,文本生成,多模態(tài),知識蒸餾)
  關(guān)于我們
  我們
  是一個(gè)國內外多所高校AI方向學(xué)生共同組織的論文閱讀打卡小組。我們定期組織論文閱讀活動(dòng),期望大家能夠在自己需要的情況下,閱讀論文并分享自己的閱讀筆記,既可以督促提升自己,也可以分享利于其他同學(xué)。我們期望我們這個(gè)活動(dòng)能夠成為一個(gè)幫助同學(xué)們督促自己也造福他人的平臺。
  文中所有內容均為各位同學(xué)的個(gè)人閱讀筆記。不保證筆記內容的準確性、全面性。內容僅供參考。
  
  本期目錄
  領(lǐng)域
  1
  Are Transformers More Robust Than CNNs
  神經(jīng)網(wǎng)絡(luò )
  2
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  多模態(tài)檢索
  3
  Multi-Modal Mixup for Robust Fine-tuning
  多模態(tài)
  表示學(xué)習
  4
  Hierarchical Modular Event Argument Extraction
  信息抽取
  5
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  信息抽取
  6
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  命名實(shí)體識別
  7
  Towards Debiasing NLU Models from Unknown Biases
  NLU
  8
  How do Vision Transformers Work?
  預訓練模型
  9
  Learn From the Past: Experience Ensemble Knowledge Distillation
  知識蒸餾
  10
  Rethinking and Refining the Distinct Metric
  文本生成
  11
  A Contrastive Framework for Neural Text Generation
  文本生成
  12
  Should You Mask 15% in Masked Language Modeling?
  預訓練模型
  13
  Visually Grounded Reasoning across Languages and Cultures
  多模態(tài)
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  信息抽取
  15
  TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction
  信息抽取
  01
  Are Transformers More Robust Than CNNs
  領(lǐng)域:神經(jīng)網(wǎng)絡(luò )
  會(huì )議:NeurIPS 2021
  鏈接:
  關(guān)鍵詞:Transformer, CNN
  是否推薦:推薦
  打卡內容:
  1.問(wèn)題:最近的工作認為T(mén)ransformer比卷積神經(jīng)網(wǎng)絡(luò )(CNN)更強大。然而,令人驚訝的是,我們發(fā)現這些結論來(lái)自不公平的實(shí)驗環(huán)境,其中Transformer和CNN在不同的尺度上進(jìn)行比較,并應用不同的訓練框架。
  2.分析:a)如果CNN正確地采用Transformer的訓練方式,那么在防御對抗性攻擊方面,它們可以很容易地像Transformer一樣強大。b)Transformer的泛化能力得益于self-attention架構,而非在大規模數據集上進(jìn)行預訓練。
  評價(jià):懷疑的態(tài)度和實(shí)驗分析很有趣。
  02
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  領(lǐng)域:多模態(tài)檢索
  會(huì )議:SIGIR 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  1.問(wèn)題:現有的圖像文本檢索方法在交互模式的設計上嚴重依賴(lài)專(zhuān)家經(jīng)驗和經(jīng)驗反饋,因此缺乏靈活性。
  2.方法:我們開(kāi)發(fā)了一種基于路由機制的新型模態(tài)交互建模網(wǎng)絡(luò ),這是第一個(gè)面向圖像文本檢索的統一動(dòng)態(tài)多模態(tài)交互框架。特別是,我們首先設計四種類(lèi)型的單元作為基本單元,探索不同層次的模態(tài)交互,然后以密集策略將它們連接起來(lái),構建一個(gè)路由空間。為了賦予該模型路徑?jīng)Q策的能力,我們在每個(gè)單元中集成了一個(gè)動(dòng)態(tài)路由器用于模式探索。由于路由器以輸入為條件,我們的模型可以動(dòng)態(tài)地學(xué)習不同數據的不同激活路徑。
  評價(jià):實(shí)驗很豐富。case study很直觀(guān)、有說(shuō)服力。圖畫(huà)得很好看。
  03
  Multi-Modal Mixup for Robust Fine-tuning
  領(lǐng)域:多模態(tài)表示學(xué)習
  會(huì )議:ARXIV 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  本文探究了CLIP模型給出的文本和圖片表示,發(fā)現這兩個(gè)模態(tài)的表示分得很開(kāi),且中間有大片未被填充的空間。
  作者借鑒了ICML20的一篇文章,利用其中的alignment和uniformity指標進(jìn)一步分析了CLIP的多模態(tài)特征空間,發(fā)現構成正例的兩個(gè)樣本在特征空間中不夠近(alignment?。?,同時(shí)所有數據的特征分布不夠均勻(uniformity?。?。這樣的特征分布是不夠魯棒的,會(huì )降低模型在下游任務(wù)上的表現。
  為此,作者提出了multi-modal mixup技術(shù),通過(guò)混合兩個(gè)模態(tài)的特征得到更困難的負例,再進(jìn)行對比學(xué)習。具體的mixup技術(shù)包括m^2-mix(圖片混文本作為圖片的負例)、V-mix(文本混文本作為圖片的負例)、VL-mix(文本混文本、圖片混圖片,然后互為負例)
  實(shí)驗結果表明這種方法在保留多模態(tài)結構關(guān)系的同時(shí),提高了模型的alignment和uniformity指標,進(jìn)而提高了模型在下游retrieval任務(wù)上的表現
  04
  Hierarchical Modular Event Argument Extraction
  領(lǐng)域:信息抽取
  會(huì )議:EMNLP 2019
  鏈接:
  關(guān)鍵詞:分層網(wǎng)絡(luò )
  是否推薦:推薦
  打卡內容:
  本文是事件要素抽取的工作,主要是為概念層次(concept hierarchy)的每個(gè)基本單元設計了一個(gè)神經(jīng)網(wǎng)絡(luò )模塊,然后使用邏輯操作,將相關(guān)的單元模塊分層地組成一個(gè)面向角色的模塊網(wǎng)絡(luò )(modular network),對特定的argument role進(jìn)行分類(lèi)。
  為每個(gè)概念設置了一個(gè)NMN,并將其組成了一個(gè)面向角色的模塊網(wǎng)絡(luò ),以預測每個(gè)實(shí)體的元素角色:首先,對于每個(gè)上級概念,有一個(gè)上級概念模塊(SCM)來(lái)突出和概念有關(guān)的上下文信息;然后,對于每個(gè)元素角色,使用針對特定角色的邏輯模塊整合和其相對應的SCMs,以得到統一的高層次的模塊;最終,使用元素角色分類(lèi)器,預測實(shí)體是否扮演了給定的元素角色。主要的做法就是將實(shí)體的信息融合到候選的要素片段中,增強分類(lèi)的效果。
  實(shí)驗在A(yíng)CE 2005, TAC KBP 2016這兩個(gè)數據集上做了EAE的測試,沒(méi)有全部達到SOTA,但是分層網(wǎng)絡(luò )確實(shí)提升了模型的效果。
  05
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  領(lǐng)域:信息抽取
  會(huì )議:ICASSP 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  應該是最早在提示學(xué)習上做事件抽取的論文了。作者分析了事件抽取的三種主流方式:序列標注、MRC和生成,又對生成范式的兩瓶。編碼部分作者加入了提示(無(wú)需手工設計),解碼部分沿用了TEXT2EVENT的方法。
  其中一個(gè)創(chuàng )新點(diǎn)是減少了觸發(fā)詞對參數抽取的影響,作者認為有些觸發(fā)詞對參數抽取沒(méi)有幫助,只需要事件類(lèi)型就可以找到模板并且進(jìn)行參數抽取,還可以提高效率。但是我認為有兩點(diǎn)問(wèn)題。首先,作者依然需要pipeline式地進(jìn)行簡(jiǎn)化的事件檢測,還是執行2個(gè)模型,時(shí)間效率沒(méi)有提升,甚至3個(gè)模型提高了計算量。其次,目前大家似乎都是使用Ground Truth的觸發(fā)詞和事件類(lèi)型做參數抽取,所以理論上的性能沒(méi)有提升。(但是實(shí)際生產(chǎn)中,沒(méi)有GT的事件檢測標注,這種方式可能些許減少誤差傳播)。
  另一個(gè)創(chuàng )新點(diǎn)就是引入了提示學(xué)習,其實(shí)文章的模板過(guò)于簡(jiǎn)單,取得這樣的效果已經(jīng)很不容易了。如果進(jìn)行模板的設計,可能可以取得更好的結果。
  06
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  領(lǐng)域:命名實(shí)體識別
  會(huì )議:ACL 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  現有的工作只是進(jìn)行弱監督學(xué)習,而在實(shí)際場(chǎng)景中,同時(shí)存在強標注數據和弱標注數據(半監督)。由于弱監督數據中存在噪聲,傳統的方法不能有效地提高性能。所以作者使用了一個(gè)三階段的計算框架NEEDLE。弱標簽可以分為三類(lèi):不準確(有噪聲)、不精確(粗粒度)和不完全(有點(diǎn)沒(méi)有標注)作者考慮了一三兩種情況。
  在第一階段,通過(guò)對大量目標域無(wú)標記數據進(jìn)行域內連續預訓練,將開(kāi)放域預訓練語(yǔ)言模型適應于目標域。在第二階段,利用知識庫將域內無(wú)標記數據轉換為弱標記數據。然后,結合弱標簽補全過(guò)程(不完全)和噪聲感知丟失函數(不準確),對弱標簽數據和強標簽數據進(jìn)行連續的預訓練,有效地處理弱標簽的“不完全性”和“噪聲標記”。在第三階段,對強標記數據再次微調模型。最后的微調階段是模型擬合強標記數據的關(guān)鍵。
  實(shí)驗表明可以通過(guò)迭代的方式進(jìn)一步提高性能,而自訓練的方式提升有限。
  07
  Towards Debiasing NLU Models from Unknown Biases
  領(lǐng)域:NLU
  會(huì )議:EMNLP 2020
  鏈接:
  是否推薦:推薦
  打卡內容:
  Debias NLU 中模型對 superficial correlation 的依賴(lài),作者指出之前的方案依賴(lài)于對于 bias type 的 prior,例如 MNLI hypothesis 和 premise 的 overlapping,而很多數據集缺乏類(lèi)似的分析因而無(wú)法獲得 prior。作者經(jīng)過(guò)實(shí)驗觀(guān)測到,對于 biased data,模型會(huì )學(xué)的很快,達到 100%的準確率,因而嘗試利用一個(gè)輔助模型來(lái)作為樣本是否是 bias 樣本的 indicator,進(jìn)而可以對 unknown biases 進(jìn)行建模并且和之前的方案進(jìn)行整合,主要包括:re-weighting, ensemble 以及 confidence regularization;此外,為了避免因為學(xué)到很多 bias 造成 effective training data size 的下降作者提了一個(gè)退火的機制,來(lái)慢慢消除 bias indicator 的作用,最后退化成普通的 MLE loss。作者在主流的 MNLI/HANS,FEVER 和 QQP/PAWS 上進(jìn)行了測試,效果和之前的方案相比(因為他們已知 bias type)有好有壞,但都比不 debias 好,也驗證了退火策略的有效性。進(jìn)一步地分析指出,作者的方案在跨數據集的場(chǎng)景下表現的會(huì )更好,并且 debias 后模型在樣本上的 loss 的gap 會(huì )變?。▎蝹€(gè)樣本很大可能是有一些樣本模型利用 bias 信息很輕松的就做對了,然而難的樣本沒(méi)學(xué)會(huì ))。
  08
  How do Vision Transformers Work?
  領(lǐng)域:預訓練模型
  會(huì )議:ICLR 2022 Spotlight
  鏈接:
  是否推薦:推薦
  打卡內容:
  文章對比了 ViT 和 ResNet 以獲得 ViT work 的一些 Insights:
  - ViT 能夠 flatten loss landscape,從獲得更好的泛化性能和 robustness,然而其也存在在更多負的 Hessian Eigen values,loss 是 non-convex 的,造成在小數據集上優(yōu)化的困難;
  - ViT 對高頻信號的強度會(huì )進(jìn)行壓縮而 CNN 會(huì )放大,二者分別類(lèi)似一個(gè)低通濾波器和高通濾波器,進(jìn)而導致在高頻noise方面 ViT 表現的更好;
  - 作者認為多階段網(wǎng)絡(luò )是小模型的級聯(lián),因此考慮 CNN 和 MSA 級聯(lián)構成 block,以對 stage output 進(jìn)行 spatial smoothing,基于一個(gè)簡(jiǎn)單的building-up rule(不斷替換 CNN 和 MSA,檢查有沒(méi)有更好的性能),實(shí)驗發(fā)現這個(gè)提出的網(wǎng)絡(luò )結構的效果更好并且更加魯邦。
  09
  Learn From the Past: Experience Ensemble Knowledge Distillation
  領(lǐng)域:知識蒸餾
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦
  打卡內容:
  這篇文章考慮利用 Teacher 訓練過(guò)程中的 snapshot(so called learning experience),來(lái)提升 KD 的效果。具體的做法就是存下 teacher 訓練過(guò)程中的 checkpoint,然后 ensemble 這些 checkpoint 的輸出來(lái)指導 student model。作者探索了不同的方案,發(fā)現:
  - 并不是效果越好的 teacher ensemble 能夠得到更好的 student,這個(gè)觀(guān)察之前在 CV 里面已經(jīng)有不少了,這是另外一個(gè)佐證(在 NLP 里面,我們 EMNLP 21 的工作 Dynamic KD 也在 BERT 上觀(guān)測到了這一現象)
  - Distillation 過(guò)程中對 teacher 不同的權重,作者對比了一些 heuristic 的 linear strategy 和設計了一個(gè)根據 instance feature 的 attention 機制,結論是 dynamic attention 的效果會(huì )更好,盡管對應 ensemble 出來(lái)的 teacher 效果并不一定是最好的
  - snapshot 的數量,基本上是存的 checkpoint 越多效果越好,但因為同時(shí)需要 forward 多個(gè) teacher model 會(huì )造成比較大的訓練開(kāi)銷(xiāo)(這個(gè)問(wèn)題挺好解決的,靜態(tài) dataset 的話(huà),把 teacher logits 存下來(lái)就完事了)
  最后作者在 CIFAR 100 和 ImageNet 對比了目前的 sota,發(fā)現提出的方案能夠取得更好的效果,但分析部分還是比較欠缺,對于 experience 的這個(gè)概念的探究還是不夠深入。
  10
  Rethinking and Refining the Distinct Metric
  領(lǐng)域:文本生成
  會(huì )議:ACL 2022 Short
  鏈接:
  是否推薦:推薦
  打卡內容:
  Distinct metric 是文本生成中常用的一個(gè)指標,來(lái)衡量生成文本的 diversity,作者指出這個(gè)指標存在一個(gè)問(wèn)題:當文本長(cháng)度變長(cháng)的時(shí)候,這個(gè)指標會(huì )急劇下降。作者分析的方法是控制 vocab 的 distribution(概率分布),然后增長(cháng)句子的長(cháng)度,發(fā)現 distinct 的下降,而這個(gè)和 distinct 本身想要 measure 的 word distribution 的 diversity 是矛盾的(因為 distribution 固定,那么應該和長(cháng)度無(wú)關(guān))。在一個(gè)方面,這會(huì )造成模型比較的不公平,因為可以很輕松地通過(guò)控制 length penalty 來(lái)控制 diversity。作者通過(guò)對分母進(jìn)行修改,改為期望出現的總 token 的上界(因為無(wú)法估計不出現的 token),得到了一個(gè)更好的 distinct 指標。實(shí)驗評估發(fā)現,這個(gè)指標有更好的長(cháng)度不變性,并且在真實(shí)數據集上更能夠體驗不同方法的 gap 和 consistency,也和 human evaluation 有比較好的 correlation。
  11
  A Contrastive Framework for Neural Text Generation
  領(lǐng)域:文本生成
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦
  打卡內容:
  旨在解決 generation 中生成重復 token 的問(wèn)題,之前的 Top-k 和 Top-p 生成能夠一定程度的緩解這個(gè)問(wèn)題,但是會(huì )帶來(lái) inconsistency 的問(wèn)題。作者認為重復的原因來(lái)自于 token uniformity,并且對 GPT 最后的 token representations 做了可視化,發(fā)現 token 之間的 cosine similarity 高于 0.95 ,進(jìn)而會(huì )導致在不同時(shí)間步上產(chǎn)生重復的 token,而理想狀態(tài)中 token 的表示應該有較大的區分度。作者因此提出了 SimCTG,利用對比學(xué)習來(lái)增強不同 token representation 之間的 cosine 距離,同時(shí)在解碼階段,也對 representation 上增加一個(gè)懲罰項,即和之前所有 token representation similarity 的最大值。作者在 wiki103 上和 MLE, Unlikelihood 做了對比,能夠在發(fā)現在 coherence 更高的情況下,取得更好的抗重復,增強生成文本多樣性的效果,在 Dialog Generation 上的人工測評也體現出比較明顯的提升。
  12
  Should You Mask 15% in Masked Language Modeling
  領(lǐng)域:預訓練模型
  會(huì )議:ARXIV 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  探究 Mask Language Modeling 中 Mask 比例的影響。作者首先是在預訓練中發(fā)現 mask 掉 40% 的 token 能夠帶來(lái)更好的下游任務(wù)性能,并且 mask 掉 80% 也能保持大部分的性能。作者進(jìn)一步地把 mask ratio 對性能的影響解耦成兩部分:
  - corruption rate: 對上下文破壞的比例,這個(gè)比率越高,上下文破碎程度越高會(huì )使得預測任務(wù)會(huì )更加的困難;
  - prediction rate: 預測 mask token 的比例,這個(gè)比率越高,則模型接收到的訓練信號越多;
  傳統的 MLM 里面,這兩個(gè)比率是都和 mask ratio 相等的,作者設計了 ablation study 來(lái)分別探究這二者的效果:
  - corruption rate > prediction rate: 例如,mask 掉 40% token,但是只預測其中 50% 的 mask token,即 prediction rate = 20%;
  - corruption rate
  實(shí)驗以 mask rate = 40 % 為 baseline 為 baseline,發(fā)現 corruption rate 越高整體會(huì )降低效果,而 prediction rate 越低也會(huì )帶來(lái)更差的效果,二者是一個(gè) trade-off,更難的任務(wù)和更多的信號。作者也對不同 size 的model 進(jìn)行了探究,發(fā)現大模型下游任務(wù)最好的性能出現在 mask rate 更大的位置,猜測是其能力更強,所以能夠處理更難的任務(wù)并且利用好更多的信號。
  另外一個(gè)常用的 trick 是 80-10-10 ,即 mask token 有 80 % 的 token是 [MASK],10% 的概率是原來(lái)的 token,10 % 的概率是 random token,最初這個(gè)trick是用來(lái)緩解 [MASK] 引入的 inconsistency 的,但是作者的實(shí)驗其實(shí)關(guān)注到 40% 的mask rate 并沒(méi)有帶來(lái)性能下降,說(shuō)明這個(gè) inconsistency 還是存疑的,作者探究了增加 same token prediction,random token 的比率,發(fā)現還是帶來(lái)下降,因此作者提倡還是用 [MASK] 最原始的版本就可以了。
  最后作者探究了 mask 的策略,發(fā)現在高 mask 比率下,相比于 PMI 和 Span,uniform 的 mask 策略就能取得比較好的效果,作者的解釋就是高 mask 比率實(shí)際上大概率會(huì ) mask 出類(lèi)似 PMI、Span 的 mask,從而也能夠使得模型的學(xué)習更加魯棒。
  13
  Visually Grounded Reasoning across Languages and Cultures
  領(lǐng)域:多模態(tài)
  會(huì )議:EMNLP 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  ImageNet構建的方式是通過(guò)英語(yǔ)的WordNet去選擇層次化的概念,然后根據概念再選擇圖像。后面的一些數據集,比如NLVR2,MSCOCO,VisualGenome都是通過(guò)這種層次結構構建的。有證據表明ImageNet數據的來(lái)源與內容都存在著(zhù)bias,也有人曾為了糾正這種傾向提出干預數據,過(guò)濾、重新平衡一些類(lèi)別,但若是原分布本就未能涵蓋多語(yǔ)言多文化,這種方法便不足以解決這個(gè)問(wèn)題。作者認為ImageNet中的主要問(wèn)題是概念不普遍、概念過(guò)于特定于英語(yǔ)。Bias的來(lái)源有以下三個(gè)方面:1. 概念的選擇;2.候選圖像檢索(檢索到的圖像不符合真實(shí)世界分布);3.圖像過(guò)濾(完全取決于標注者,他們都是來(lái)自于歐美)。
  針對這三個(gè)問(wèn)題,作者設計了一個(gè)新的數據集,讓概念和圖像的選擇完全由母語(yǔ)人士驅動(dòng)。構建數據集的第一步是:1.選擇語(yǔ)言,數據集主要包含5種語(yǔ)言:印尼語(yǔ)、簡(jiǎn)體中文、斯瓦希里語(yǔ)、泰米爾語(yǔ)和土耳其語(yǔ)。這5種語(yǔ)言的類(lèi)型(typologically)、語(yǔ)系(genealogically)、地理(geographically)上皆不同。同時(shí),泰米爾語(yǔ)和土耳其語(yǔ)是低資源語(yǔ)言。2.選擇普適性概念,有兩個(gè)層次,第一個(gè)是chapter,比如Animal,對應的semantic field是bird和mammal。3.選擇特定語(yǔ)言概念:針對每個(gè)semantic field,作者雇傭5個(gè)母語(yǔ)人士提供5-10特定概念的維基百科頁(yè)面,比如針對中文的semantic field music instrument,提供的維基百科頁(yè)面是關(guān)于古箏的。概念需要滿(mǎn)足兩個(gè)關(guān)鍵需求:在使用這種語(yǔ)言的人群中常見(jiàn)或有代表性的,最好是以物質(zhì)形式存在且具體的。4.圖像選擇,標注者可以從本地網(wǎng)站,搜索引擎和維基百科等作為源針對每個(gè)概念拿到12張圖片。5.描述標注,從圖像集中隨機選8張圖像,隨機組成4個(gè)圖像對。每位標注者被要求寫(xiě)一個(gè)描述,此描述對于兩個(gè)圖像對為T(mén)rue,兩個(gè)圖像對為False。在最后的數據集中,一個(gè)數據點(diǎn)包含兩張圖像,一個(gè)描述,和一個(gè)True/False標簽。
  關(guān)于圖像分布的分析,作者使用在ImageNet上訓練的ResNet50 分別對MaRVL圖像以及從NLVR2采樣的1K張隨機圖像進(jìn)行特征提取,提取后使用UMAP將它們的嵌入分布可視化。結果發(fā)現,MaRVL的中文圖像與來(lái)自NLVR2的英文圖像有著(zhù)極為不同的分布。同時(shí),也對MaRVL中的印尼語(yǔ)和斯瓦希里語(yǔ)的圖像分布進(jìn)行了比較,結果表明在不同語(yǔ)言間也有著(zhù)不同的分布。
  然后就是基于多種預訓練模型(VL-BERT,UNITER等等)在MaRVL上的實(shí)驗了,本文提出了兩個(gè)跨語(yǔ)言的VL預訓練模型的變種,mUNITER(通過(guò)mBERT進(jìn)行初始化的UNITER)和xUNITER(XLM-R)。通過(guò)和NLVR2進(jìn)行對比,模型在Zero-shot實(shí)驗中效果下降明顯,對于資源豐富的中文一樣如此。同時(shí)加入一種設置,就是將不同語(yǔ)言翻譯為英語(yǔ),相比之下,模型有著(zhù)不同程度的提升,但比起NLVR2依舊有著(zhù)10%的差距。作者認為這種明顯的下降是由于MaRVL有兩個(gè)挑戰:一個(gè)是cross-lingual transfer,另一個(gè)是out-of-distribution。作者又設計了一組控制實(shí)驗,他們將MaRVL-ZH人工翻譯成了英語(yǔ),去除了機器翻譯所帶來(lái)的任何可能的混雜因子。和機器翻譯相比,大部分模型都有1-2%的提升,因此翻譯是很可靠的。那么,導致模型下降10%的便是那些OOD概念了。第二個(gè)實(shí)驗是:從NLVR2測試集取樣250個(gè)唯一的描述,將它們人工翻譯成簡(jiǎn)體中文,記為NLVR2-ZH。mUNITER和xUNITER的準確率都下降了約16%,因此,這種gap可以歸因于從英語(yǔ)到中文的跨語(yǔ)言遷移。第三組實(shí)驗是,將NLVR2的訓練集機器翻譯為中文,并在MaRVL-ZH上測試,發(fā)現mUNITER和xUNITER的結果和Translate test實(shí)驗時(shí)很接近,再一次說(shuō)明 缺乏文化相關(guān)概念阻礙了泛化。
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  領(lǐng)域:信息抽取
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦 查看全部

  論文打卡第十七期(信息抽取,文本生成,多模態(tài),知識蒸餾)
  關(guān)于我們
  我們
  是一個(gè)國內外多所高校AI方向學(xué)生共同組織的論文閱讀打卡小組。我們定期組織論文閱讀活動(dòng),期望大家能夠在自己需要的情況下,閱讀論文并分享自己的閱讀筆記,既可以督促提升自己,也可以分享利于其他同學(xué)。我們期望我們這個(gè)活動(dòng)能夠成為一個(gè)幫助同學(xué)們督促自己也造福他人的平臺。
  文中所有內容均為各位同學(xué)的個(gè)人閱讀筆記。不保證筆記內容的準確性、全面性。內容僅供參考。
  
  本期目錄
  領(lǐng)域
  1
  Are Transformers More Robust Than CNNs
  神經(jīng)網(wǎng)絡(luò )
  2
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  多模態(tài)檢索
  3
  Multi-Modal Mixup for Robust Fine-tuning
  多模態(tài)
  表示學(xué)習
  4
  Hierarchical Modular Event Argument Extraction
  信息抽取
  5
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  信息抽取
  6
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  命名實(shí)體識別
  7
  Towards Debiasing NLU Models from Unknown Biases
  NLU
  8
  How do Vision Transformers Work?
  預訓練模型
  9
  Learn From the Past: Experience Ensemble Knowledge Distillation
  知識蒸餾
  10
  Rethinking and Refining the Distinct Metric
  文本生成
  11
  A Contrastive Framework for Neural Text Generation
  文本生成
  12
  Should You Mask 15% in Masked Language Modeling?
  預訓練模型
  13
  Visually Grounded Reasoning across Languages and Cultures
  多模態(tài)
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  信息抽取
  15
  TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction
  信息抽取
  01
  Are Transformers More Robust Than CNNs
  領(lǐng)域:神經(jīng)網(wǎng)絡(luò )
  會(huì )議:NeurIPS 2021
  鏈接:
  關(guān)鍵詞:Transformer, CNN
  是否推薦:推薦
  打卡內容:
  1.問(wèn)題:最近的工作認為T(mén)ransformer比卷積神經(jīng)網(wǎng)絡(luò )(CNN)更強大。然而,令人驚訝的是,我們發(fā)現這些結論來(lái)自不公平的實(shí)驗環(huán)境,其中Transformer和CNN在不同的尺度上進(jìn)行比較,并應用不同的訓練框架。
  2.分析:a)如果CNN正確地采用Transformer的訓練方式,那么在防御對抗性攻擊方面,它們可以很容易地像Transformer一樣強大。b)Transformer的泛化能力得益于self-attention架構,而非在大規模數據集上進(jìn)行預訓練。
  評價(jià):懷疑的態(tài)度和實(shí)驗分析很有趣。
  02
  Dynamic Modality Interaction Modeling for Image-Text Retrieval
  領(lǐng)域:多模態(tài)檢索
  會(huì )議:SIGIR 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  1.問(wèn)題:現有的圖像文本檢索方法在交互模式的設計上嚴重依賴(lài)專(zhuān)家經(jīng)驗和經(jīng)驗反饋,因此缺乏靈活性。
  2.方法:我們開(kāi)發(fā)了一種基于路由機制的新型模態(tài)交互建模網(wǎng)絡(luò ),這是第一個(gè)面向圖像文本檢索的統一動(dòng)態(tài)多模態(tài)交互框架。特別是,我們首先設計四種類(lèi)型的單元作為基本單元,探索不同層次的模態(tài)交互,然后以密集策略將它們連接起來(lái),構建一個(gè)路由空間。為了賦予該模型路徑?jīng)Q策的能力,我們在每個(gè)單元中集成了一個(gè)動(dòng)態(tài)路由器用于模式探索。由于路由器以輸入為條件,我們的模型可以動(dòng)態(tài)地學(xué)習不同數據的不同激活路徑。
  評價(jià):實(shí)驗很豐富。case study很直觀(guān)、有說(shuō)服力。圖畫(huà)得很好看。
  03
  Multi-Modal Mixup for Robust Fine-tuning
  領(lǐng)域:多模態(tài)表示學(xué)習
  會(huì )議:ARXIV 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  本文探究了CLIP模型給出的文本和圖片表示,發(fā)現這兩個(gè)模態(tài)的表示分得很開(kāi),且中間有大片未被填充的空間。
  作者借鑒了ICML20的一篇文章,利用其中的alignment和uniformity指標進(jìn)一步分析了CLIP的多模態(tài)特征空間,發(fā)現構成正例的兩個(gè)樣本在特征空間中不夠近(alignment?。?,同時(shí)所有數據的特征分布不夠均勻(uniformity?。?。這樣的特征分布是不夠魯棒的,會(huì )降低模型在下游任務(wù)上的表現。
  為此,作者提出了multi-modal mixup技術(shù),通過(guò)混合兩個(gè)模態(tài)的特征得到更困難的負例,再進(jìn)行對比學(xué)習。具體的mixup技術(shù)包括m^2-mix(圖片混文本作為圖片的負例)、V-mix(文本混文本作為圖片的負例)、VL-mix(文本混文本、圖片混圖片,然后互為負例)
  實(shí)驗結果表明這種方法在保留多模態(tài)結構關(guān)系的同時(shí),提高了模型的alignment和uniformity指標,進(jìn)而提高了模型在下游retrieval任務(wù)上的表現
  04
  Hierarchical Modular Event Argument Extraction
  領(lǐng)域:信息抽取
  會(huì )議:EMNLP 2019
  鏈接:
  關(guān)鍵詞:分層網(wǎng)絡(luò )
  是否推薦:推薦
  打卡內容:
  本文是事件要素抽取的工作,主要是為概念層次(concept hierarchy)的每個(gè)基本單元設計了一個(gè)神經(jīng)網(wǎng)絡(luò )模塊,然后使用邏輯操作,將相關(guān)的單元模塊分層地組成一個(gè)面向角色的模塊網(wǎng)絡(luò )(modular network),對特定的argument role進(jìn)行分類(lèi)。
  為每個(gè)概念設置了一個(gè)NMN,并將其組成了一個(gè)面向角色的模塊網(wǎng)絡(luò ),以預測每個(gè)實(shí)體的元素角色:首先,對于每個(gè)上級概念,有一個(gè)上級概念模塊(SCM)來(lái)突出和概念有關(guān)的上下文信息;然后,對于每個(gè)元素角色,使用針對特定角色的邏輯模塊整合和其相對應的SCMs,以得到統一的高層次的模塊;最終,使用元素角色分類(lèi)器,預測實(shí)體是否扮演了給定的元素角色。主要的做法就是將實(shí)體的信息融合到候選的要素片段中,增強分類(lèi)的效果。
  實(shí)驗在A(yíng)CE 2005, TAC KBP 2016這兩個(gè)數據集上做了EAE的測試,沒(méi)有全部達到SOTA,但是分層網(wǎng)絡(luò )確實(shí)提升了模型的效果。
  05
  Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works
  領(lǐng)域:信息抽取
  會(huì )議:ICASSP 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  應該是最早在提示學(xué)習上做事件抽取的論文了。作者分析了事件抽取的三種主流方式:序列標注、MRC和生成,又對生成范式的兩瓶。編碼部分作者加入了提示(無(wú)需手工設計),解碼部分沿用了TEXT2EVENT的方法。
  其中一個(gè)創(chuàng )新點(diǎn)是減少了觸發(fā)詞對參數抽取的影響,作者認為有些觸發(fā)詞對參數抽取沒(méi)有幫助,只需要事件類(lèi)型就可以找到模板并且進(jìn)行參數抽取,還可以提高效率。但是我認為有兩點(diǎn)問(wèn)題。首先,作者依然需要pipeline式地進(jìn)行簡(jiǎn)化的事件檢測,還是執行2個(gè)模型,時(shí)間效率沒(méi)有提升,甚至3個(gè)模型提高了計算量。其次,目前大家似乎都是使用Ground Truth的觸發(fā)詞和事件類(lèi)型做參數抽取,所以理論上的性能沒(méi)有提升。(但是實(shí)際生產(chǎn)中,沒(méi)有GT的事件檢測標注,這種方式可能些許減少誤差傳播)。
  另一個(gè)創(chuàng )新點(diǎn)就是引入了提示學(xué)習,其實(shí)文章的模板過(guò)于簡(jiǎn)單,取得這樣的效果已經(jīng)很不容易了。如果進(jìn)行模板的設計,可能可以取得更好的結果。
  06
  Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
  領(lǐng)域:命名實(shí)體識別
  會(huì )議:ACL 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  現有的工作只是進(jìn)行弱監督學(xué)習,而在實(shí)際場(chǎng)景中,同時(shí)存在強標注數據和弱標注數據(半監督)。由于弱監督數據中存在噪聲,傳統的方法不能有效地提高性能。所以作者使用了一個(gè)三階段的計算框架NEEDLE。弱標簽可以分為三類(lèi):不準確(有噪聲)、不精確(粗粒度)和不完全(有點(diǎn)沒(méi)有標注)作者考慮了一三兩種情況。
  在第一階段,通過(guò)對大量目標域無(wú)標記數據進(jìn)行域內連續預訓練,將開(kāi)放域預訓練語(yǔ)言模型適應于目標域。在第二階段,利用知識庫將域內無(wú)標記數據轉換為弱標記數據。然后,結合弱標簽補全過(guò)程(不完全)和噪聲感知丟失函數(不準確),對弱標簽數據和強標簽數據進(jìn)行連續的預訓練,有效地處理弱標簽的“不完全性”和“噪聲標記”。在第三階段,對強標記數據再次微調模型。最后的微調階段是模型擬合強標記數據的關(guān)鍵。
  實(shí)驗表明可以通過(guò)迭代的方式進(jìn)一步提高性能,而自訓練的方式提升有限。
  07
  Towards Debiasing NLU Models from Unknown Biases
  領(lǐng)域:NLU
  會(huì )議:EMNLP 2020
  鏈接:
  是否推薦:推薦
  打卡內容:
  Debias NLU 中模型對 superficial correlation 的依賴(lài),作者指出之前的方案依賴(lài)于對于 bias type 的 prior,例如 MNLI hypothesis 和 premise 的 overlapping,而很多數據集缺乏類(lèi)似的分析因而無(wú)法獲得 prior。作者經(jīng)過(guò)實(shí)驗觀(guān)測到,對于 biased data,模型會(huì )學(xué)的很快,達到 100%的準確率,因而嘗試利用一個(gè)輔助模型來(lái)作為樣本是否是 bias 樣本的 indicator,進(jìn)而可以對 unknown biases 進(jìn)行建模并且和之前的方案進(jìn)行整合,主要包括:re-weighting, ensemble 以及 confidence regularization;此外,為了避免因為學(xué)到很多 bias 造成 effective training data size 的下降作者提了一個(gè)退火的機制,來(lái)慢慢消除 bias indicator 的作用,最后退化成普通的 MLE loss。作者在主流的 MNLI/HANS,FEVER 和 QQP/PAWS 上進(jìn)行了測試,效果和之前的方案相比(因為他們已知 bias type)有好有壞,但都比不 debias 好,也驗證了退火策略的有效性。進(jìn)一步地分析指出,作者的方案在跨數據集的場(chǎng)景下表現的會(huì )更好,并且 debias 后模型在樣本上的 loss 的gap 會(huì )變?。▎蝹€(gè)樣本很大可能是有一些樣本模型利用 bias 信息很輕松的就做對了,然而難的樣本沒(méi)學(xué)會(huì ))。
  08
  How do Vision Transformers Work?
  領(lǐng)域:預訓練模型
  會(huì )議:ICLR 2022 Spotlight
  鏈接:
  是否推薦:推薦
  打卡內容:
  文章對比了 ViT 和 ResNet 以獲得 ViT work 的一些 Insights:
  - ViT 能夠 flatten loss landscape,從獲得更好的泛化性能和 robustness,然而其也存在在更多負的 Hessian Eigen values,loss 是 non-convex 的,造成在小數據集上優(yōu)化的困難;
  - ViT 對高頻信號的強度會(huì )進(jìn)行壓縮而 CNN 會(huì )放大,二者分別類(lèi)似一個(gè)低通濾波器和高通濾波器,進(jìn)而導致在高頻noise方面 ViT 表現的更好;
  - 作者認為多階段網(wǎng)絡(luò )是小模型的級聯(lián),因此考慮 CNN 和 MSA 級聯(lián)構成 block,以對 stage output 進(jìn)行 spatial smoothing,基于一個(gè)簡(jiǎn)單的building-up rule(不斷替換 CNN 和 MSA,檢查有沒(méi)有更好的性能),實(shí)驗發(fā)現這個(gè)提出的網(wǎng)絡(luò )結構的效果更好并且更加魯邦。
  09
  Learn From the Past: Experience Ensemble Knowledge Distillation
  領(lǐng)域:知識蒸餾
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦
  打卡內容:
  這篇文章考慮利用 Teacher 訓練過(guò)程中的 snapshot(so called learning experience),來(lái)提升 KD 的效果。具體的做法就是存下 teacher 訓練過(guò)程中的 checkpoint,然后 ensemble 這些 checkpoint 的輸出來(lái)指導 student model。作者探索了不同的方案,發(fā)現:
  - 并不是效果越好的 teacher ensemble 能夠得到更好的 student,這個(gè)觀(guān)察之前在 CV 里面已經(jīng)有不少了,這是另外一個(gè)佐證(在 NLP 里面,我們 EMNLP 21 的工作 Dynamic KD 也在 BERT 上觀(guān)測到了這一現象)
  - Distillation 過(guò)程中對 teacher 不同的權重,作者對比了一些 heuristic 的 linear strategy 和設計了一個(gè)根據 instance feature 的 attention 機制,結論是 dynamic attention 的效果會(huì )更好,盡管對應 ensemble 出來(lái)的 teacher 效果并不一定是最好的
  - snapshot 的數量,基本上是存的 checkpoint 越多效果越好,但因為同時(shí)需要 forward 多個(gè) teacher model 會(huì )造成比較大的訓練開(kāi)銷(xiāo)(這個(gè)問(wèn)題挺好解決的,靜態(tài) dataset 的話(huà),把 teacher logits 存下來(lái)就完事了)
  最后作者在 CIFAR 100 和 ImageNet 對比了目前的 sota,發(fā)現提出的方案能夠取得更好的效果,但分析部分還是比較欠缺,對于 experience 的這個(gè)概念的探究還是不夠深入。
  10
  Rethinking and Refining the Distinct Metric
  領(lǐng)域:文本生成
  會(huì )議:ACL 2022 Short
  鏈接:
  是否推薦:推薦
  打卡內容:
  Distinct metric 是文本生成中常用的一個(gè)指標,來(lái)衡量生成文本的 diversity,作者指出這個(gè)指標存在一個(gè)問(wèn)題:當文本長(cháng)度變長(cháng)的時(shí)候,這個(gè)指標會(huì )急劇下降。作者分析的方法是控制 vocab 的 distribution(概率分布),然后增長(cháng)句子的長(cháng)度,發(fā)現 distinct 的下降,而這個(gè)和 distinct 本身想要 measure 的 word distribution 的 diversity 是矛盾的(因為 distribution 固定,那么應該和長(cháng)度無(wú)關(guān))。在一個(gè)方面,這會(huì )造成模型比較的不公平,因為可以很輕松地通過(guò)控制 length penalty 來(lái)控制 diversity。作者通過(guò)對分母進(jìn)行修改,改為期望出現的總 token 的上界(因為無(wú)法估計不出現的 token),得到了一個(gè)更好的 distinct 指標。實(shí)驗評估發(fā)現,這個(gè)指標有更好的長(cháng)度不變性,并且在真實(shí)數據集上更能夠體驗不同方法的 gap 和 consistency,也和 human evaluation 有比較好的 correlation。
  11
  A Contrastive Framework for Neural Text Generation
  領(lǐng)域:文本生成
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦
  打卡內容:
  旨在解決 generation 中生成重復 token 的問(wèn)題,之前的 Top-k 和 Top-p 生成能夠一定程度的緩解這個(gè)問(wèn)題,但是會(huì )帶來(lái) inconsistency 的問(wèn)題。作者認為重復的原因來(lái)自于 token uniformity,并且對 GPT 最后的 token representations 做了可視化,發(fā)現 token 之間的 cosine similarity 高于 0.95 ,進(jìn)而會(huì )導致在不同時(shí)間步上產(chǎn)生重復的 token,而理想狀態(tài)中 token 的表示應該有較大的區分度。作者因此提出了 SimCTG,利用對比學(xué)習來(lái)增強不同 token representation 之間的 cosine 距離,同時(shí)在解碼階段,也對 representation 上增加一個(gè)懲罰項,即和之前所有 token representation similarity 的最大值。作者在 wiki103 上和 MLE, Unlikelihood 做了對比,能夠在發(fā)現在 coherence 更高的情況下,取得更好的抗重復,增強生成文本多樣性的效果,在 Dialog Generation 上的人工測評也體現出比較明顯的提升。
  12
  Should You Mask 15% in Masked Language Modeling
  領(lǐng)域:預訓練模型
  會(huì )議:ARXIV 2022
  鏈接:
  是否推薦:推薦
  打卡內容:
  探究 Mask Language Modeling 中 Mask 比例的影響。作者首先是在預訓練中發(fā)現 mask 掉 40% 的 token 能夠帶來(lái)更好的下游任務(wù)性能,并且 mask 掉 80% 也能保持大部分的性能。作者進(jìn)一步地把 mask ratio 對性能的影響解耦成兩部分:
  - corruption rate: 對上下文破壞的比例,這個(gè)比率越高,上下文破碎程度越高會(huì )使得預測任務(wù)會(huì )更加的困難;
  - prediction rate: 預測 mask token 的比例,這個(gè)比率越高,則模型接收到的訓練信號越多;
  傳統的 MLM 里面,這兩個(gè)比率是都和 mask ratio 相等的,作者設計了 ablation study 來(lái)分別探究這二者的效果:
  - corruption rate > prediction rate: 例如,mask 掉 40% token,但是只預測其中 50% 的 mask token,即 prediction rate = 20%;
  - corruption rate
  實(shí)驗以 mask rate = 40 % 為 baseline 為 baseline,發(fā)現 corruption rate 越高整體會(huì )降低效果,而 prediction rate 越低也會(huì )帶來(lái)更差的效果,二者是一個(gè) trade-off,更難的任務(wù)和更多的信號。作者也對不同 size 的model 進(jìn)行了探究,發(fā)現大模型下游任務(wù)最好的性能出現在 mask rate 更大的位置,猜測是其能力更強,所以能夠處理更難的任務(wù)并且利用好更多的信號。
  另外一個(gè)常用的 trick 是 80-10-10 ,即 mask token 有 80 % 的 token是 [MASK],10% 的概率是原來(lái)的 token,10 % 的概率是 random token,最初這個(gè)trick是用來(lái)緩解 [MASK] 引入的 inconsistency 的,但是作者的實(shí)驗其實(shí)關(guān)注到 40% 的mask rate 并沒(méi)有帶來(lái)性能下降,說(shuō)明這個(gè) inconsistency 還是存疑的,作者探究了增加 same token prediction,random token 的比率,發(fā)現還是帶來(lái)下降,因此作者提倡還是用 [MASK] 最原始的版本就可以了。
  最后作者探究了 mask 的策略,發(fā)現在高 mask 比率下,相比于 PMI 和 Span,uniform 的 mask 策略就能取得比較好的效果,作者的解釋就是高 mask 比率實(shí)際上大概率會(huì ) mask 出類(lèi)似 PMI、Span 的 mask,從而也能夠使得模型的學(xué)習更加魯棒。
  13
  Visually Grounded Reasoning across Languages and Cultures
  領(lǐng)域:多模態(tài)
  會(huì )議:EMNLP 2021
  鏈接:
  是否推薦:推薦
  打卡內容:
  ImageNet構建的方式是通過(guò)英語(yǔ)的WordNet去選擇層次化的概念,然后根據概念再選擇圖像。后面的一些數據集,比如NLVR2,MSCOCO,VisualGenome都是通過(guò)這種層次結構構建的。有證據表明ImageNet數據的來(lái)源與內容都存在著(zhù)bias,也有人曾為了糾正這種傾向提出干預數據,過(guò)濾、重新平衡一些類(lèi)別,但若是原分布本就未能涵蓋多語(yǔ)言多文化,這種方法便不足以解決這個(gè)問(wèn)題。作者認為ImageNet中的主要問(wèn)題是概念不普遍、概念過(guò)于特定于英語(yǔ)。Bias的來(lái)源有以下三個(gè)方面:1. 概念的選擇;2.候選圖像檢索(檢索到的圖像不符合真實(shí)世界分布);3.圖像過(guò)濾(完全取決于標注者,他們都是來(lái)自于歐美)。
  針對這三個(gè)問(wèn)題,作者設計了一個(gè)新的數據集,讓概念和圖像的選擇完全由母語(yǔ)人士驅動(dòng)。構建數據集的第一步是:1.選擇語(yǔ)言,數據集主要包含5種語(yǔ)言:印尼語(yǔ)、簡(jiǎn)體中文、斯瓦希里語(yǔ)、泰米爾語(yǔ)和土耳其語(yǔ)。這5種語(yǔ)言的類(lèi)型(typologically)、語(yǔ)系(genealogically)、地理(geographically)上皆不同。同時(shí),泰米爾語(yǔ)和土耳其語(yǔ)是低資源語(yǔ)言。2.選擇普適性概念,有兩個(gè)層次,第一個(gè)是chapter,比如Animal,對應的semantic field是bird和mammal。3.選擇特定語(yǔ)言概念:針對每個(gè)semantic field,作者雇傭5個(gè)母語(yǔ)人士提供5-10特定概念的維基百科頁(yè)面,比如針對中文的semantic field music instrument,提供的維基百科頁(yè)面是關(guān)于古箏的。概念需要滿(mǎn)足兩個(gè)關(guān)鍵需求:在使用這種語(yǔ)言的人群中常見(jiàn)或有代表性的,最好是以物質(zhì)形式存在且具體的。4.圖像選擇,標注者可以從本地網(wǎng)站,搜索引擎和維基百科等作為源針對每個(gè)概念拿到12張圖片。5.描述標注,從圖像集中隨機選8張圖像,隨機組成4個(gè)圖像對。每位標注者被要求寫(xiě)一個(gè)描述,此描述對于兩個(gè)圖像對為T(mén)rue,兩個(gè)圖像對為False。在最后的數據集中,一個(gè)數據點(diǎn)包含兩張圖像,一個(gè)描述,和一個(gè)True/False標簽。
  關(guān)于圖像分布的分析,作者使用在ImageNet上訓練的ResNet50 分別對MaRVL圖像以及從NLVR2采樣的1K張隨機圖像進(jìn)行特征提取,提取后使用UMAP將它們的嵌入分布可視化。結果發(fā)現,MaRVL的中文圖像與來(lái)自NLVR2的英文圖像有著(zhù)極為不同的分布。同時(shí),也對MaRVL中的印尼語(yǔ)和斯瓦希里語(yǔ)的圖像分布進(jìn)行了比較,結果表明在不同語(yǔ)言間也有著(zhù)不同的分布。
  然后就是基于多種預訓練模型(VL-BERT,UNITER等等)在MaRVL上的實(shí)驗了,本文提出了兩個(gè)跨語(yǔ)言的VL預訓練模型的變種,mUNITER(通過(guò)mBERT進(jìn)行初始化的UNITER)和xUNITER(XLM-R)。通過(guò)和NLVR2進(jìn)行對比,模型在Zero-shot實(shí)驗中效果下降明顯,對于資源豐富的中文一樣如此。同時(shí)加入一種設置,就是將不同語(yǔ)言翻譯為英語(yǔ),相比之下,模型有著(zhù)不同程度的提升,但比起NLVR2依舊有著(zhù)10%的差距。作者認為這種明顯的下降是由于MaRVL有兩個(gè)挑戰:一個(gè)是cross-lingual transfer,另一個(gè)是out-of-distribution。作者又設計了一組控制實(shí)驗,他們將MaRVL-ZH人工翻譯成了英語(yǔ),去除了機器翻譯所帶來(lái)的任何可能的混雜因子。和機器翻譯相比,大部分模型都有1-2%的提升,因此翻譯是很可靠的。那么,導致模型下降10%的便是那些OOD概念了。第二個(gè)實(shí)驗是:從NLVR2測試集取樣250個(gè)唯一的描述,將它們人工翻譯成簡(jiǎn)體中文,記為NLVR2-ZH。mUNITER和xUNITER的準確率都下降了約16%,因此,這種gap可以歸因于從英語(yǔ)到中文的跨語(yǔ)言遷移。第三組實(shí)驗是,將NLVR2的訓練集機器翻譯為中文,并在MaRVL-ZH上測試,發(fā)現mUNITER和xUNITER的結果和Translate test實(shí)驗時(shí)很接近,再一次說(shuō)明 缺乏文化相關(guān)概念阻礙了泛化。
  14
  PILED: An Identify-and-Localize Framework for Few-Shot Event Detection
  領(lǐng)域:信息抽取
  會(huì )議:ARXIV
  鏈接:
  是否推薦:推薦

如何做網(wǎng)站SEO站內優(yōu)化(快速實(shí)現網(wǎng)站排名)的方法有哪些

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 81 次瀏覽 ? 2022-04-29 17:33 ? 來(lái)自相關(guān)話(huà)題

  如何做網(wǎng)站SEO站內優(yōu)化(快速實(shí)現網(wǎng)站排名)的方法有哪些
  
  
  在一些優(yōu)化群里面,常常會(huì )看到一些才做優(yōu)化的人說(shuō)。百度優(yōu)化排名不就是發(fā)發(fā)外鏈么。要知道現在的優(yōu)化早已經(jīng)不是五六年前的優(yōu)化了,百度的算法一次次更新,對網(wǎng)站的要求越來(lái)越高?,F在的百度更喜歡網(wǎng)站漂亮的,對用戶(hù)友好的。無(wú)論是網(wǎng)站的打開(kāi)速度、還是網(wǎng)站url的長(cháng)度,以及文章的字體大小、間距,都是百度給予權重的考核范圍。
  一、網(wǎng)站打開(kāi)速度!網(wǎng)站打開(kāi)速度!要快!
  如今這個(gè)快節奏的社會(huì ),大量的信息沖擊。誰(shuí)會(huì )愿意等待一個(gè)5~6秒都不出一個(gè)字的網(wǎng)站?換做是你,肯定都鬼火冒,直接關(guān)閉頁(yè)面,從此以后再也不點(diǎn)那個(gè)站了。所以網(wǎng)站打開(kāi)的速度是灰?;页V匾?,打開(kāi)的速度越快,用戶(hù)滿(mǎn)意度就高。對于蜘蛛也是一個(gè)道理。所以對于速度方面,小編有以下幾小點(diǎn)建議:
  把網(wǎng)站頁(yè)面的代碼能精簡(jiǎn)就精簡(jiǎn)、大片的注釋代碼也一樣,直接刪除。
  css放頁(yè)頭、js放頁(yè)尾。
  搞個(gè)CDN加速,騰訊、阿里、百度都有,他們也有很詳細的圖文教程您一看就懂。
  服務(wù)器寬帶升級
  頁(yè)面做緩存
  網(wǎng)站頁(yè)面都做成純靜態(tài)化
  
  二、著(zhù)陸頁(yè)的內容一定要本著(zhù)解決用戶(hù)問(wèn)題的目的寫(xiě)
  首先,如果我們能夠找出這些重復網(wǎng)頁(yè)并從數據庫中去掉,就能夠節省部分存儲空間,進(jìn)而可以利用這部分空間存放更多的有效網(wǎng)頁(yè)內容,同時(shí)也提高了搜索引擎的搜索質(zhì)量和用戶(hù)體驗。
  其次,如果我們能夠通過(guò)對以往收集信息的分析,預先發(fā)現重復網(wǎng)頁(yè),在今后的網(wǎng)頁(yè)收集過(guò)程中就可以避開(kāi)這些網(wǎng)頁(yè),從而提高網(wǎng)頁(yè)的收集速度。有研究表明重復網(wǎng)頁(yè)隨著(zhù)時(shí)間不發(fā)生太大變化,所以這種從重復頁(yè)面集合中選擇部分頁(yè)面進(jìn)行索引是有效的。
  三、增加權威感,提升品牌,UI,UX
  另外,如果某個(gè)網(wǎng)頁(yè)的鏡像度較高,往往是其內容比較受歡迎的一種間接體現,也就預示著(zhù)該網(wǎng)頁(yè)相對重要,在收集網(wǎng)頁(yè)時(shí)應賦予它較高的優(yōu)先級,而當搜索引擎系統在響應用戶(hù)的檢索請求并對輸出結果排序時(shí),應該賦了它較高的權值。
  從另外一個(gè)角度看,如果用戶(hù)點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶(hù)引導到一個(gè)內容相同頁(yè)面,這樣可以有效地增加用戶(hù)的檢索體驗。因而近似重復網(wǎng)頁(yè)的及時(shí)又有利于改善搜索引擎系統的服務(wù)質(zhì)量。
  
  四、彈窗、反人類(lèi)的東西頁(yè)面上不要有
  這個(gè)就不多說(shuō)了,伙伴些去點(diǎn)下醫療站,就知道應該如何做好這一塊的優(yōu)化。 查看全部

  如何做網(wǎng)站SEO站內優(yōu)化(快速實(shí)現網(wǎng)站排名)的方法有哪些
  
  
  在一些優(yōu)化群里面,常常會(huì )看到一些才做優(yōu)化的人說(shuō)。百度優(yōu)化排名不就是發(fā)發(fā)外鏈么。要知道現在的優(yōu)化早已經(jīng)不是五六年前的優(yōu)化了,百度的算法一次次更新,對網(wǎng)站的要求越來(lái)越高?,F在的百度更喜歡網(wǎng)站漂亮的,對用戶(hù)友好的。無(wú)論是網(wǎng)站的打開(kāi)速度、還是網(wǎng)站url的長(cháng)度,以及文章的字體大小、間距,都是百度給予權重的考核范圍。
  一、網(wǎng)站打開(kāi)速度!網(wǎng)站打開(kāi)速度!要快!
  如今這個(gè)快節奏的社會(huì ),大量的信息沖擊。誰(shuí)會(huì )愿意等待一個(gè)5~6秒都不出一個(gè)字的網(wǎng)站?換做是你,肯定都鬼火冒,直接關(guān)閉頁(yè)面,從此以后再也不點(diǎn)那個(gè)站了。所以網(wǎng)站打開(kāi)的速度是灰?;页V匾?,打開(kāi)的速度越快,用戶(hù)滿(mǎn)意度就高。對于蜘蛛也是一個(gè)道理。所以對于速度方面,小編有以下幾小點(diǎn)建議:
  把網(wǎng)站頁(yè)面的代碼能精簡(jiǎn)就精簡(jiǎn)、大片的注釋代碼也一樣,直接刪除。
  css放頁(yè)頭、js放頁(yè)尾。
  搞個(gè)CDN加速,騰訊、阿里、百度都有,他們也有很詳細的圖文教程您一看就懂。
  服務(wù)器寬帶升級
  頁(yè)面做緩存
  網(wǎng)站頁(yè)面都做成純靜態(tài)化
  
  二、著(zhù)陸頁(yè)的內容一定要本著(zhù)解決用戶(hù)問(wèn)題的目的寫(xiě)
  首先,如果我們能夠找出這些重復網(wǎng)頁(yè)并從數據庫中去掉,就能夠節省部分存儲空間,進(jìn)而可以利用這部分空間存放更多的有效網(wǎng)頁(yè)內容,同時(shí)也提高了搜索引擎的搜索質(zhì)量和用戶(hù)體驗。
  其次,如果我們能夠通過(guò)對以往收集信息的分析,預先發(fā)現重復網(wǎng)頁(yè),在今后的網(wǎng)頁(yè)收集過(guò)程中就可以避開(kāi)這些網(wǎng)頁(yè),從而提高網(wǎng)頁(yè)的收集速度。有研究表明重復網(wǎng)頁(yè)隨著(zhù)時(shí)間不發(fā)生太大變化,所以這種從重復頁(yè)面集合中選擇部分頁(yè)面進(jìn)行索引是有效的。
  三、增加權威感,提升品牌,UI,UX
  另外,如果某個(gè)網(wǎng)頁(yè)的鏡像度較高,往往是其內容比較受歡迎的一種間接體現,也就預示著(zhù)該網(wǎng)頁(yè)相對重要,在收集網(wǎng)頁(yè)時(shí)應賦予它較高的優(yōu)先級,而當搜索引擎系統在響應用戶(hù)的檢索請求并對輸出結果排序時(shí),應該賦了它較高的權值。
  從另外一個(gè)角度看,如果用戶(hù)點(diǎn)擊了一個(gè)死鏈接,那么可以將用戶(hù)引導到一個(gè)內容相同頁(yè)面,這樣可以有效地增加用戶(hù)的檢索體驗。因而近似重復網(wǎng)頁(yè)的及時(shí)又有利于改善搜索引擎系統的服務(wù)質(zhì)量。
  
  四、彈窗、反人類(lèi)的東西頁(yè)面上不要有
  這個(gè)就不多說(shuō)了,伙伴些去點(diǎn)下醫療站,就知道應該如何做好這一塊的優(yōu)化。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(只用一種方法實(shí)現搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 68 次瀏覽 ? 2022-04-20 10:11 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(只用一種方法實(shí)現搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法)
  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法有三種,分別是基于內容相似性的算法、基于鏈接的算法和基于索引的算法。
  一、基于內容相似性的算法內容相似性是指如果有一個(gè)網(wǎng)站服務(wù)器的所有頁(yè)面都與另一個(gè)網(wǎng)站服務(wù)器的相同頁(yè)面進(jìn)行相似性的排序,就可以得到相似性排序?;趦热菹嗨菩缘耐扑]算法通常在移動(dòng)端十分常見(jiàn),可以嵌入到推薦的第三方平臺中并提供給開(kāi)發(fā)者使用。谷歌為兩家公司lazada和googleplay提供推薦,亞馬遜也與谷歌合作提供推薦,facebook也與谷歌合作提供推薦。
  二、基于鏈接的算法基于鏈接的算法是通過(guò)鏈接查詢(xún)的方式實(shí)現,在查詢(xún)列表中查找特定的目標進(jìn)行排序。在搜索中,采用鏈接查詢(xún)并不新鮮,目前的技術(shù)來(lái)說(shuō),兩個(gè)url之間的一個(gè)或多個(gè)連接是不存在的,但在一些特定需求場(chǎng)景下是可以連接到特定資源的,比如信息查詢(xún)。目前還存在兩種常見(jiàn)的鏈接查詢(xún)模式:applestore+itunesstore+applestore,會(huì )有一個(gè)特定的連接進(jìn)行一定的排序;applewatch的apple+lift,會(huì )有一個(gè)特定的連接進(jìn)行一定的排序;。
  三、基于索引的算法索引排序是通過(guò)人工的手段尋找一系列與某一頁(yè)面相似的url,并對其進(jìn)行分類(lèi),或者在sortby上做分類(lèi),由此進(jìn)行排序。綜上所述,沒(méi)有研究報告中提到的只用一種方法實(shí)現app質(zhì)量管理,現在的技術(shù)來(lái)說(shuō)這兩種方法都不是不可或缺的。謝謝邀請!我是孔令華,從事移動(dòng)互聯(lián)網(wǎng)與信息技術(shù)服務(wù)。微信號:you-gong-zhuo我主要從事互聯(lián)網(wǎng)金融、互聯(lián)網(wǎng)醫療、互聯(lián)網(wǎng)電商、移動(dòng)營(yíng)銷(xiāo)、微信開(kāi)發(fā)、seo優(yōu)化、新媒體運營(yíng)。 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(只用一種方法實(shí)現搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法)
  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法有三種,分別是基于內容相似性的算法、基于鏈接的算法和基于索引的算法。
  一、基于內容相似性的算法內容相似性是指如果有一個(gè)網(wǎng)站服務(wù)器的所有頁(yè)面都與另一個(gè)網(wǎng)站服務(wù)器的相同頁(yè)面進(jìn)行相似性的排序,就可以得到相似性排序?;趦热菹嗨菩缘耐扑]算法通常在移動(dòng)端十分常見(jiàn),可以嵌入到推薦的第三方平臺中并提供給開(kāi)發(fā)者使用。谷歌為兩家公司lazada和googleplay提供推薦,亞馬遜也與谷歌合作提供推薦,facebook也與谷歌合作提供推薦。
  二、基于鏈接的算法基于鏈接的算法是通過(guò)鏈接查詢(xún)的方式實(shí)現,在查詢(xún)列表中查找特定的目標進(jìn)行排序。在搜索中,采用鏈接查詢(xún)并不新鮮,目前的技術(shù)來(lái)說(shuō),兩個(gè)url之間的一個(gè)或多個(gè)連接是不存在的,但在一些特定需求場(chǎng)景下是可以連接到特定資源的,比如信息查詢(xún)。目前還存在兩種常見(jiàn)的鏈接查詢(xún)模式:applestore+itunesstore+applestore,會(huì )有一個(gè)特定的連接進(jìn)行一定的排序;applewatch的apple+lift,會(huì )有一個(gè)特定的連接進(jìn)行一定的排序;。
  三、基于索引的算法索引排序是通過(guò)人工的手段尋找一系列與某一頁(yè)面相似的url,并對其進(jìn)行分類(lèi),或者在sortby上做分類(lèi),由此進(jìn)行排序。綜上所述,沒(méi)有研究報告中提到的只用一種方法實(shí)現app質(zhì)量管理,現在的技術(shù)來(lái)說(shuō)這兩種方法都不是不可或缺的。謝謝邀請!我是孔令華,從事移動(dòng)互聯(lián)網(wǎng)與信息技術(shù)服務(wù)。微信號:you-gong-zhuo我主要從事互聯(lián)網(wǎng)金融、互聯(lián)網(wǎng)醫療、互聯(lián)網(wǎng)電商、移動(dòng)營(yíng)銷(xiāo)、微信開(kāi)發(fā)、seo優(yōu)化、新媒體運營(yíng)。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(信息組織的理論基礎、邏輯學(xué)、知識分類(lèi)及模式)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 175 次瀏覽 ? 2022-04-19 03:08 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(信息組織的理論基礎、邏輯學(xué)、知識分類(lèi)及模式)
  1.1 信息組織的理論基礎1.1.1 信息的定義 從客觀(guān)的角度看,信息是對萬(wàn)物存在方式和運動(dòng)規律的表征. 從主觀(guān)上看,信息是指人們對世界的認識所形成的與人類(lèi)智能活動(dòng)密切相關(guān)的各種知識、學(xué)習和信息。1.1.2信息的分類(lèi)和劃分:內容、生產(chǎn)順序和加工深度、存在形式、流通方式和傳播范圍、載體形式等。1.< @1.3 信息通用性、存儲性、傳遞性、共享性、開(kāi)發(fā)性、增值性的特點(diǎn)1.
  是用于提供有關(guān)資源的信息的結構化數據。5、其他模式:數據庫、超維組織法、FTP信息組織法、基于多媒體的信息組織法、自然語(yǔ)言法、分類(lèi)-主題法、WENSOM 1.2網(wǎng)絡(luò )信息資源組織1.@ >2.4網(wǎng)絡(luò )信息資源組織法1、文檔法2、超文本鏈接法3、搜索引擎法4、目錄引導法5、數據庫法6、首頁(yè)方法1.3網(wǎng)絡(luò )信息檢索工具1.3.1網(wǎng)絡(luò )信息檢索方法1、基于超文本的信息查詢(xún)超文本:是 通過(guò)超鏈接組織來(lái)自不同空間的信息的網(wǎng)絡(luò )文本2、基于目錄的信息查詢(xún)3、基于搜索引擎的信息查詢(xún)1.3 網(wǎng)絡(luò )信息檢索工具1.< @3.2 搜索引擎簡(jiǎn)介1、搜索引擎的定義和任務(wù)定義:利用網(wǎng)絡(luò )自動(dòng)搜索技術(shù),對互聯(lián)網(wǎng)上的各種資源進(jìn)行索引,為搜索者提供搜索服務(wù)系統。任務(wù):對網(wǎng)絡(luò )信息進(jìn)行索引和存儲,并為用戶(hù)提供檢索2、搜索引擎的體系結構包括三個(gè)子系統:信息采集、信息處理和信息查詢(xún)3、搜索引擎分類(lèi)第二個(gè)工作一、什么情況下是邏輯“AND”,邏輯“OR” 和用于概念組合的邏輯“NOT”?二、獲取網(wǎng)絡(luò )信息的方法有哪些?三、網(wǎng)絡(luò )信息資源的組織方式有哪些?四、 簡(jiǎn)單描述一下搜索引擎的定義和任務(wù)?1.3 網(wǎng)絡(luò )信息檢索工具1.3.
  b 大寫(xiě)和小寫(xiě)字母:許多引擎不區分大小寫(xiě),但有些是。在使用它之前,您應該清楚地知道它。在搜索人名、公司名、產(chǎn)品名或其他專(zhuān)有名詞時(shí),最好使用大寫(xiě)字母進(jìn)行查詢(xún)。1.3 網(wǎng)絡(luò )信息檢索工具1.3.4 常用中文搜索引擎介紹1、百度2、雅虎3、中文(香港) Google.hk 4、天網(wǎng)搜索等。. . . . . 1.3網(wǎng)絡(luò )信息檢索工具1.3.5百度()1、技術(shù)特點(diǎn):⑴、采用世界獨有的超鏈分析技術(shù)⑵、具有中文自然特點(diǎn)互聯(lián)網(wǎng)優(yōu)勢⑶,為中國用戶(hù)量身定做⑷,提供更智能的檢索功能< @2、 一些高級檢索語(yǔ)法:⑴、布爾邏輯:+(和)-(或)| (不)⑵、限制技術(shù):a、“site:”用在特定URL前面,用于搜索特定的網(wǎng)站、網(wǎng)站頻道或網(wǎng)頁(yè),“如:神舟站點(diǎn):”;灣。在一個(gè)或多個(gè)關(guān)鍵詞前加“,”表示只搜索網(wǎng)頁(yè)標題中收錄這些關(guān)鍵詞的網(wǎng)頁(yè),“如:、神舟+8號”1.@ >3 網(wǎng)絡(luò )信息檢索工具 c.將搜索范圍限定為網(wǎng)頁(yè)中的標題-intitle: 使用方式是使用“intitle:”來(lái)獲取查詢(xún)內容中最關(guān)鍵的部分。例如,要查找神舟八號的發(fā)射,可以這樣查詢(xún): 發(fā)射標題:神舟八號。注意 intitle: 和下面的 < 之間不能有空格
  d。精確匹配——雙引號和標題號:在查詢(xún)詞中添加雙引號可以防止拆分詞在結果中顯示。如:《六盤(pán)水師范學(xué)院》。書(shū)名是百度獨有的搜索技術(shù),其他搜索提醒會(huì )忽略,但在百度上可以搜索到。添加書(shū)名號有兩個(gè)作用,一是顯示,如書(shū)名;另一個(gè)是標題號展開(kāi)的單詞不容易被拆分。如:“手機”。e. 要求搜索結果不收錄特定查詢(xún)詞:使用減號語(yǔ)法刪除所有收錄特定 關(guān)鍵詞 的網(wǎng)頁(yè)。如:神舟八號1.3網(wǎng)絡(luò )信息檢索工具3、擴展百度1. 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(信息組織的理論基礎、邏輯學(xué)、知識分類(lèi)及模式)
  1.1 信息組織的理論基礎1.1.1 信息的定義 從客觀(guān)的角度看,信息是對萬(wàn)物存在方式和運動(dòng)規律的表征. 從主觀(guān)上看,信息是指人們對世界的認識所形成的與人類(lèi)智能活動(dòng)密切相關(guān)的各種知識、學(xué)習和信息。1.1.2信息的分類(lèi)和劃分:內容、生產(chǎn)順序和加工深度、存在形式、流通方式和傳播范圍、載體形式等。1.< @1.3 信息通用性、存儲性、傳遞性、共享性、開(kāi)發(fā)性、增值性的特點(diǎn)1.
  是用于提供有關(guān)資源的信息的結構化數據。5、其他模式:數據庫、超維組織法、FTP信息組織法、基于多媒體的信息組織法、自然語(yǔ)言法、分類(lèi)-主題法、WENSOM 1.2網(wǎng)絡(luò )信息資源組織1.@ >2.4網(wǎng)絡(luò )信息資源組織法1、文檔法2、超文本鏈接法3、搜索引擎法4、目錄引導法5、數據庫法6、首頁(yè)方法1.3網(wǎng)絡(luò )信息檢索工具1.3.1網(wǎng)絡(luò )信息檢索方法1、基于超文本的信息查詢(xún)超文本:是 通過(guò)超鏈接組織來(lái)自不同空間的信息的網(wǎng)絡(luò )文本2、基于目錄的信息查詢(xún)3、基于搜索引擎的信息查詢(xún)1.3 網(wǎng)絡(luò )信息檢索工具1.< @3.2 搜索引擎簡(jiǎn)介1、搜索引擎的定義和任務(wù)定義:利用網(wǎng)絡(luò )自動(dòng)搜索技術(shù),對互聯(lián)網(wǎng)上的各種資源進(jìn)行索引,為搜索者提供搜索服務(wù)系統。任務(wù):對網(wǎng)絡(luò )信息進(jìn)行索引和存儲,并為用戶(hù)提供檢索2、搜索引擎的體系結構包括三個(gè)子系統:信息采集、信息處理和信息查詢(xún)3、搜索引擎分類(lèi)第二個(gè)工作一、什么情況下是邏輯“AND”,邏輯“OR” 和用于概念組合的邏輯“NOT”?二、獲取網(wǎng)絡(luò )信息的方法有哪些?三、網(wǎng)絡(luò )信息資源的組織方式有哪些?四、 簡(jiǎn)單描述一下搜索引擎的定義和任務(wù)?1.3 網(wǎng)絡(luò )信息檢索工具1.3.
  b 大寫(xiě)和小寫(xiě)字母:許多引擎不區分大小寫(xiě),但有些是。在使用它之前,您應該清楚地知道它。在搜索人名、公司名、產(chǎn)品名或其他專(zhuān)有名詞時(shí),最好使用大寫(xiě)字母進(jìn)行查詢(xún)。1.3 網(wǎng)絡(luò )信息檢索工具1.3.4 常用中文搜索引擎介紹1、百度2、雅虎3、中文(香港) Google.hk 4、天網(wǎng)搜索等。. . . . . 1.3網(wǎng)絡(luò )信息檢索工具1.3.5百度()1、技術(shù)特點(diǎn):⑴、采用世界獨有的超鏈分析技術(shù)⑵、具有中文自然特點(diǎn)互聯(lián)網(wǎng)優(yōu)勢⑶,為中國用戶(hù)量身定做⑷,提供更智能的檢索功能< @2、 一些高級檢索語(yǔ)法:⑴、布爾邏輯:+(和)-(或)| (不)⑵、限制技術(shù):a、“site:”用在特定URL前面,用于搜索特定的網(wǎng)站、網(wǎng)站頻道或網(wǎng)頁(yè),“如:神舟站點(diǎn):”;灣。在一個(gè)或多個(gè)關(guān)鍵詞前加“,”表示只搜索網(wǎng)頁(yè)標題中收錄這些關(guān)鍵詞的網(wǎng)頁(yè),“如:、神舟+8號”1.@ >3 網(wǎng)絡(luò )信息檢索工具 c.將搜索范圍限定為網(wǎng)頁(yè)中的標題-intitle: 使用方式是使用“intitle:”來(lái)獲取查詢(xún)內容中最關(guān)鍵的部分。例如,要查找神舟八號的發(fā)射,可以這樣查詢(xún): 發(fā)射標題:神舟八號。注意 intitle: 和下面的 < 之間不能有空格
  d。精確匹配——雙引號和標題號:在查詢(xún)詞中添加雙引號可以防止拆分詞在結果中顯示。如:《六盤(pán)水師范學(xué)院》。書(shū)名是百度獨有的搜索技術(shù),其他搜索提醒會(huì )忽略,但在百度上可以搜索到。添加書(shū)名號有兩個(gè)作用,一是顯示,如書(shū)名;另一個(gè)是標題號展開(kāi)的單詞不容易被拆分。如:“手機”。e. 要求搜索結果不收錄特定查詢(xún)詞:使用減號語(yǔ)法刪除所有收錄特定 關(guān)鍵詞 的網(wǎng)頁(yè)。如:神舟八號1.3網(wǎng)絡(luò )信息檢索工具3、擴展百度1.

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(如何快速搭建起一個(gè)高質(zhì)量站內搜索引擎呢?(組圖))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 254 次瀏覽 ? 2022-04-19 00:07 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(如何快速搭建起一個(gè)高質(zhì)量站內搜索引擎呢?(組圖))
  一、網(wǎng)站搜索的意義
  對于媒體內容站、電商、SaaS服務(wù)等B端企業(yè)來(lái)說(shuō),加入“站內搜索”功能,幫助用戶(hù)快速找到自己想要的內容,是提升用戶(hù)體驗、減少彈跳的最佳方式率,并提高用戶(hù)轉化率。好主意。
  另一方面,站內搜索也是幫助B端企業(yè)快速采集用戶(hù)真實(shí)想法的好工具。每次用戶(hù)搜索和點(diǎn)擊,都是對他們網(wǎng)站內容的反饋,尤其是對于沒(méi)有結果的搜索詞。這是幫助我們改進(jìn)網(wǎng)站的重要第一手資料。
  那么如何快速搭建一個(gè)高質(zhì)量的站內搜索引擎呢?接下來(lái)我會(huì )寫(xiě)一系列文章來(lái)詳細講解本站搜索的方方面面,歡迎大家繼續關(guān)注。
  今天,我們從產(chǎn)品層面談?wù)勅绾蝺?yōu)化搜索排名結果。
  二、從搜索算法開(kāi)始
  要深入了解搜索,請從搜索引擎的起源開(kāi)始。任何復雜的系統都是從一個(gè)簡(jiǎn)單的系統開(kāi)始,逐漸演化而來(lái)的。從一開(kāi)始就設計一個(gè)復雜的系統很難讓它很好地工作。所以我們必須回到源頭,從源頭上講理解搜索。
  
  1990 年代,TREC(全球文本檢索會(huì )議)組織了一系列年度研討會(huì )。本次研討會(huì )的主要目的是尋找由“非結構化長(cháng)文檔”組成的數據集的最佳搜索算法。TREC對搜索引擎算法做了很多優(yōu)化,其中TF-IDF算法應該是當時(shí)最好的排序算法的主要組成部分。
  TF-IDF算法,就像它的名字一樣,收錄兩個(gè)關(guān)鍵元素,“詞頻TF”和“逆文檔頻率IDF”。對這兩個(gè)元素進(jìn)行統計加權后得到搜索排名。
  詞頻(TF,詞頻)
  詞頻TF是指“搜索詞”在文檔中出現的頻率。
  逆文檔頻率(IDF,逆文檔頻率)
  逆文檔頻率IDF是指“搜索詞”在整個(gè)語(yǔ)料庫中出現的頻率。
  當用戶(hù)輸入“搜索詞”時(shí),它首先會(huì )比較整個(gè)文檔庫中哪些文檔收錄最多的“搜索詞”。收錄的越多,文檔的排名就越高。
  這個(gè)簡(jiǎn)單的規則有一個(gè)致命的問(wèn)題,在我們的語(yǔ)言中有太多的連詞、代詞、助詞等等只是用來(lái)輔助句子表達的詞。比如“?”、“also”、“this”、“but”等詞,這些詞不是文檔的核心內容,應該減少權重。
  至此,我們介紹第二個(gè)關(guān)鍵元素——逆文檔頻率 IDF。它的作用是降低語(yǔ)料庫中頻繁出現的詞的權重。一個(gè)詞在語(yǔ)料庫中重復的次數越多,收錄這個(gè)“搜索詞”的文檔的排名就越低。
  TF-IDF的設計是不是簡(jiǎn)單巧妙?TF-IDF排序算法和BM25等類(lèi)似算法基本上是古代搜索引擎的核心查詢(xún)和排序算法。這類(lèi)算法主要是針對非結構化的長(cháng)文本設計的,比如大型企業(yè)文檔、過(guò)去判斷文檔、全球論文檢索數據庫等。
  此類(lèi)算法是搜索引擎的基石,對其原理的深入了解將有助于我們設計自己的站內搜索。接下來(lái)說(shuō)說(shuō)獨立網(wǎng)站、小程序、APP中如何設計和處理搜索問(wèn)題。
  三、如何通過(guò)數據屬性?xún)?yōu)化排序結果
  今天不談搜索技術(shù)問(wèn)題,只談?wù)緝人阉鞯漠a(chǎn)品設計問(wèn)題。事實(shí)上,現場(chǎng)搜索技術(shù)的問(wèn)題已經(jīng)很好地解決了。有開(kāi)源免費的ElasticSearch,國內有很多SaaS形式的現場(chǎng)搜索解決方案。比如卡拉搜索,一行代碼就可以部署站內搜索,非常方便。在搜索技術(shù)不是大問(wèn)題的前提下,剩下的就是產(chǎn)品策略和產(chǎn)品設計了。接下來(lái),我們從產(chǎn)品設計層面來(lái)談?wù)勅绾蝺?yōu)化搜索排名。
  這個(gè)算法的問(wèn)題是只能針對極少數場(chǎng)景設計,不適合當前互聯(lián)網(wǎng)網(wǎng)站、小程序、APP中的信息搜索。這種搜索會(huì )不分類(lèi)型地混淆所有文檔,而我們當前的數據信息收錄了很大的緯度,甚至收錄了一些用戶(hù)行為投票的社會(huì )指標,比如(瀏覽量、點(diǎn)贊量、轉發(fā)量)數等.)。
  如何利用多維數據提高搜索準確率是我們需要思考的問(wèn)題。
  前面我們提到了TF-IDF搜索算法的原理,那么接下來(lái)應該添加哪些元素才能讓搜索引擎排名更準確呢?我們的網(wǎng)站/小程序/app中的文檔信息實(shí)際上并不是混在一起的,而是收錄了很多緯度信息,甚至有些緯度是用戶(hù)行為產(chǎn)生的對文檔質(zhì)量的投票,比如瀏覽量、點(diǎn)贊量、轉發(fā)、采集等。如何利用這么多豐富的多維信息來(lái)幫助我們優(yōu)化搜索?
  一般來(lái)說(shuō),我們可以將站點(diǎn)中的文檔信息劃分為幾個(gè)緯度。
  讓我們舉個(gè)例子。假設用戶(hù)最近觀(guān)看了威爾史密斯的經(jīng)典電影《幸福來(lái)敲門(mén)》并喜歡它。第二天本來(lái)打算去豆瓣看影評,昨天看了《幸?!?。它是什么?用戶(hù)只記得片名中有幸福,于是在豆瓣電影的搜索框中輸入了“幸?!?。
  請考慮一下用戶(hù)此時(shí)的心理狀態(tài)。他當然不在乎有多少電影標題收錄“幸?!边@個(gè)詞(TF 詞頻),他當然也不在乎“幸?!边@個(gè)詞是否是電影標題中的常見(jiàn)詞(逆文檔頻率 IDF)。
  用戶(hù)更關(guān)心的是如何快速準確地找到自己昨天看的電影《幸?!?,快速閱讀影評。
  這個(gè)時(shí)候,我們的搜索引擎應該在聯(lián)想詞列表中排名第一的是什么?
  
  雖然“幸福來(lái)敲門(mén)”這個(gè)詞在屬性中并不是第一名,但因為片名本身的權重很高,所以排在了第一位。
  在這個(gè)場(chǎng)景的搜索中,“幸?!边@個(gè)詞有很多屬性,我們的搜索引擎可以利用這些屬性來(lái)進(jìn)行排名判斷。
  對以上屬性進(jìn)行數值加權后,“幸福時(shí)敲門(mén)”排在搜索結果首位的可能性肯定比使用TF-IDF排序算法找到“幸福時(shí)敲門(mén)”的可能性要大得多。
  因此,我們應該在排序結果中考慮網(wǎng)站業(yè)務(wù)的各種屬性,并根據不同屬性的重要性設計權重。我們可以從以下幾個(gè)方面考慮排序問(wèn)題。
  
  豆瓣電影輸入“史密斯”,前三個(gè)是電影,后三個(gè)是電影人。這是一種基于產(chǎn)品業(yè)務(wù)權重的搜索排名策略。
  在現場(chǎng)搜索中加入這些排序策略后,與經(jīng)典搜索算法排序相比,搜索準確率有了很大的飛躍。那么如何才能不斷提高分揀質(zhì)量呢?
  接下來(lái),我們來(lái)談?wù)勅绾戊`活運用這些搜索策略,進(jìn)一步提升搜索排名結果。
  五、如何通過(guò)調整數據屬性的排序來(lái)優(yōu)化搜索結果
  目前各種站內搜索方案中搜索結果準確率低的原因不是搜索算法,因為無(wú)論網(wǎng)站/app多大,情況再復雜,規則都可以窮盡。與搜索全網(wǎng)的難度相比,難度要低很多數量級。那么問(wèn)題出在哪里?問(wèn)題在于靈活使用搜索策略沒(méi)有或有困難。如果我們使用 ElasticSearch 在網(wǎng)站上進(jìn)行搜索,從“構建”到“可用”其實(shí)很簡(jiǎn)單,但是從“可用”到“好用”需要幾個(gè)工程師 + 無(wú)數小時(shí)的積累。這不是普通中小型企業(yè)能夠承受的成本,
  特別是,基本搜索算法選擇使用較大的浮點(diǎn)分數,將所有內容混合在一起。根據所有規則對每個(gè)文檔進(jìn)行評分。然后按照這個(gè)規則排序。這種方法有個(gè)致命的問(wèn)題,就是把不一樣的屬性混在一起講排序。
  例如。假設排序方案包括TF-IDF和點(diǎn)贊數兩個(gè)維度。所以問(wèn)題是,我們的搜索引擎將如何排名?
  如果一個(gè)文檔有非常多的點(diǎn)贊數,它將如何排序?即使該文檔與搜索詞的相關(guān)性非常低,該文檔的排名也會(huì )非常高。
  那么如果一篇文檔與搜索詞相關(guān)度高,但點(diǎn)贊數為0,那么如何排序呢?這個(gè) 0 贊的 文章 可能不會(huì )出現在排名結果中。
  這種混合搜索排名方法的另一個(gè)問(wèn)題是它的復雜性。當多個(gè)緯度屬性混合在一個(gè)公式中時(shí),我們發(fā)現搜索結果很糟糕,不知道如何調整。
  那么,面對這種多維度的搜索問(wèn)題,我們應該如何設計搜索排名呢?
  明智的方法是將所有屬性分開(kāi)并為您的業(yè)務(wù)調整它們的順序。不是將所有屬性集中在一起計算一個(gè)大的分數,而是計算 N 個(gè)分數并進(jìn)行 N 個(gè)連續排序。
  接下來(lái)我會(huì )談?wù)勊侨绾喂ぷ鞯摹?br />   所有匹配的結果都按照第一個(gè)標準進(jìn)行排序。如果結果出現平局,將繼續按照第二個(gè)標準計算和排序分數。如果仍然存在平局,則第三個(gè)標準繼續進(jìn)行,直到每個(gè)標準在搜索結果中都有自己的位置。
  那么在這個(gè)過(guò)程中先用哪個(gè)準則來(lái)判斷就成為了這個(gè)排序方案的關(guān)鍵。
  來(lái)個(gè)案例,你就明白了。
  [
{
"title": "為什么《黑肯帝國3》在IDBM才不到7分?",
"featured": true,
"number_of_likes": 2647
},
{
"title": "《黑客帝國》里面,為什么最后是尼歐贏(yíng)了?",
"featured": false,
"number_of_likes": 3077
},
{
"title": "還好當年沒(méi)讓小李子演《黑客帝國》",
"featured": false,
"number_of_likes": 531
},
{
"title": "多年以后,才真正看懂黑各帝國",
"featured": false,
"number_of_likes": 797
},
{
"title": "如何理解《黑客帝國》?",
"featured": true,
"number_of_likes": 611
}
]
  為了簡(jiǎn)化示例,我們將規則簡(jiǎn)化為三點(diǎn),錯別字,細化,點(diǎn)贊數。用戶(hù)輸入“矩陣”關(guān)鍵詞進(jìn)行查詢(xún),會(huì )得到如下結果。
  如何理解“黑客帝國”?(無(wú)錯別字;細化;點(diǎn)贊數:611)《黑客帝國》,Neo為什么最后贏(yíng)了?(無(wú)錯字;無(wú)細化;點(diǎn)贊數:3077)為什么《黑客帝國3》少于IDBM 7分?(2個(gè)錯別字;精煉;點(diǎn)贊:2647)還好小李子沒(méi)被允許玩《黑客帝國》(沒(méi)有錯別字;沒(méi)有精煉;點(diǎn)贊:531)多年后,我真的懂了黑社會(huì )的帝國(1個(gè)錯字;未精煉;喜歡:797)
  以上就是這個(gè)案例的策略,如果我們對這個(gè)例子的排序結果不滿(mǎn)意怎么辦?只需調整屬性權重(順序)。比如我們認為錯別字沒(méi)有問(wèn)題,不應該過(guò)多降低權限,所以只需要把“錯別字”的屬性放在后面即可。
  
  國內站點(diǎn)搜索解決方案“卡拉搜索”策略設置后臺,您只需使用鼠標拖動(dòng)即可更改屬性權重。
  六、站內搜索優(yōu)化總結
  對于媒體內容站、電商、SaaS服務(wù)等B端企業(yè)來(lái)說(shuō),加入“站內搜索”功能,幫助用戶(hù)快速找到自己想要的內容,是提升用戶(hù)體驗、減少彈跳的最佳方式率,并提高用戶(hù)轉化率。好主意。
  另一方面,站內搜索也是幫助B端企業(yè)快速采集用戶(hù)真實(shí)想法的好工具。每次用戶(hù)搜索和點(diǎn)擊,都是對他們網(wǎng)站內容的反饋,尤其是對于沒(méi)有結果的搜索詞。這是幫助我們改進(jìn)網(wǎng)站的重要第一手資料。
  構建“站內搜索”實(shí)際上非常簡(jiǎn)單。國內最好的站內搜索SaaS,僅需一行代碼即可部署。我將在下一篇文章 文章 中解釋如何快速部署站內搜索。歡迎留言提問(wèn),下一篇文章將一并解答。 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(如何快速搭建起一個(gè)高質(zhì)量站內搜索引擎呢?(組圖))
  一、網(wǎng)站搜索的意義
  對于媒體內容站、電商、SaaS服務(wù)等B端企業(yè)來(lái)說(shuō),加入“站內搜索”功能,幫助用戶(hù)快速找到自己想要的內容,是提升用戶(hù)體驗、減少彈跳的最佳方式率,并提高用戶(hù)轉化率。好主意。
  另一方面,站內搜索也是幫助B端企業(yè)快速采集用戶(hù)真實(shí)想法的好工具。每次用戶(hù)搜索和點(diǎn)擊,都是對他們網(wǎng)站內容的反饋,尤其是對于沒(méi)有結果的搜索詞。這是幫助我們改進(jìn)網(wǎng)站的重要第一手資料。
  那么如何快速搭建一個(gè)高質(zhì)量的站內搜索引擎呢?接下來(lái)我會(huì )寫(xiě)一系列文章來(lái)詳細講解本站搜索的方方面面,歡迎大家繼續關(guān)注。
  今天,我們從產(chǎn)品層面談?wù)勅绾蝺?yōu)化搜索排名結果。
  二、從搜索算法開(kāi)始
  要深入了解搜索,請從搜索引擎的起源開(kāi)始。任何復雜的系統都是從一個(gè)簡(jiǎn)單的系統開(kāi)始,逐漸演化而來(lái)的。從一開(kāi)始就設計一個(gè)復雜的系統很難讓它很好地工作。所以我們必須回到源頭,從源頭上講理解搜索。
  
  1990 年代,TREC(全球文本檢索會(huì )議)組織了一系列年度研討會(huì )。本次研討會(huì )的主要目的是尋找由“非結構化長(cháng)文檔”組成的數據集的最佳搜索算法。TREC對搜索引擎算法做了很多優(yōu)化,其中TF-IDF算法應該是當時(shí)最好的排序算法的主要組成部分。
  TF-IDF算法,就像它的名字一樣,收錄兩個(gè)關(guān)鍵元素,“詞頻TF”和“逆文檔頻率IDF”。對這兩個(gè)元素進(jìn)行統計加權后得到搜索排名。
  詞頻(TF,詞頻)
  詞頻TF是指“搜索詞”在文檔中出現的頻率。
  逆文檔頻率(IDF,逆文檔頻率)
  逆文檔頻率IDF是指“搜索詞”在整個(gè)語(yǔ)料庫中出現的頻率。
  當用戶(hù)輸入“搜索詞”時(shí),它首先會(huì )比較整個(gè)文檔庫中哪些文檔收錄最多的“搜索詞”。收錄的越多,文檔的排名就越高。
  這個(gè)簡(jiǎn)單的規則有一個(gè)致命的問(wèn)題,在我們的語(yǔ)言中有太多的連詞、代詞、助詞等等只是用來(lái)輔助句子表達的詞。比如“?”、“also”、“this”、“but”等詞,這些詞不是文檔的核心內容,應該減少權重。
  至此,我們介紹第二個(gè)關(guān)鍵元素——逆文檔頻率 IDF。它的作用是降低語(yǔ)料庫中頻繁出現的詞的權重。一個(gè)詞在語(yǔ)料庫中重復的次數越多,收錄這個(gè)“搜索詞”的文檔的排名就越低。
  TF-IDF的設計是不是簡(jiǎn)單巧妙?TF-IDF排序算法和BM25等類(lèi)似算法基本上是古代搜索引擎的核心查詢(xún)和排序算法。這類(lèi)算法主要是針對非結構化的長(cháng)文本設計的,比如大型企業(yè)文檔、過(guò)去判斷文檔、全球論文檢索數據庫等。
  此類(lèi)算法是搜索引擎的基石,對其原理的深入了解將有助于我們設計自己的站內搜索。接下來(lái)說(shuō)說(shuō)獨立網(wǎng)站、小程序、APP中如何設計和處理搜索問(wèn)題。
  三、如何通過(guò)數據屬性?xún)?yōu)化排序結果
  今天不談搜索技術(shù)問(wèn)題,只談?wù)緝人阉鞯漠a(chǎn)品設計問(wèn)題。事實(shí)上,現場(chǎng)搜索技術(shù)的問(wèn)題已經(jīng)很好地解決了。有開(kāi)源免費的ElasticSearch,國內有很多SaaS形式的現場(chǎng)搜索解決方案。比如卡拉搜索,一行代碼就可以部署站內搜索,非常方便。在搜索技術(shù)不是大問(wèn)題的前提下,剩下的就是產(chǎn)品策略和產(chǎn)品設計了。接下來(lái),我們從產(chǎn)品設計層面來(lái)談?wù)勅绾蝺?yōu)化搜索排名。
  這個(gè)算法的問(wèn)題是只能針對極少數場(chǎng)景設計,不適合當前互聯(lián)網(wǎng)網(wǎng)站、小程序、APP中的信息搜索。這種搜索會(huì )不分類(lèi)型地混淆所有文檔,而我們當前的數據信息收錄了很大的緯度,甚至收錄了一些用戶(hù)行為投票的社會(huì )指標,比如(瀏覽量、點(diǎn)贊量、轉發(fā)量)數等.)。
  如何利用多維數據提高搜索準確率是我們需要思考的問(wèn)題。
  前面我們提到了TF-IDF搜索算法的原理,那么接下來(lái)應該添加哪些元素才能讓搜索引擎排名更準確呢?我們的網(wǎng)站/小程序/app中的文檔信息實(shí)際上并不是混在一起的,而是收錄了很多緯度信息,甚至有些緯度是用戶(hù)行為產(chǎn)生的對文檔質(zhì)量的投票,比如瀏覽量、點(diǎn)贊量、轉發(fā)、采集等。如何利用這么多豐富的多維信息來(lái)幫助我們優(yōu)化搜索?
  一般來(lái)說(shuō),我們可以將站點(diǎn)中的文檔信息劃分為幾個(gè)緯度。
  讓我們舉個(gè)例子。假設用戶(hù)最近觀(guān)看了威爾史密斯的經(jīng)典電影《幸福來(lái)敲門(mén)》并喜歡它。第二天本來(lái)打算去豆瓣看影評,昨天看了《幸?!?。它是什么?用戶(hù)只記得片名中有幸福,于是在豆瓣電影的搜索框中輸入了“幸?!?。
  請考慮一下用戶(hù)此時(shí)的心理狀態(tài)。他當然不在乎有多少電影標題收錄“幸?!边@個(gè)詞(TF 詞頻),他當然也不在乎“幸?!边@個(gè)詞是否是電影標題中的常見(jiàn)詞(逆文檔頻率 IDF)。
  用戶(hù)更關(guān)心的是如何快速準確地找到自己昨天看的電影《幸?!?,快速閱讀影評。
  這個(gè)時(shí)候,我們的搜索引擎應該在聯(lián)想詞列表中排名第一的是什么?
  
  雖然“幸福來(lái)敲門(mén)”這個(gè)詞在屬性中并不是第一名,但因為片名本身的權重很高,所以排在了第一位。
  在這個(gè)場(chǎng)景的搜索中,“幸?!边@個(gè)詞有很多屬性,我們的搜索引擎可以利用這些屬性來(lái)進(jìn)行排名判斷。
  對以上屬性進(jìn)行數值加權后,“幸福時(shí)敲門(mén)”排在搜索結果首位的可能性肯定比使用TF-IDF排序算法找到“幸福時(shí)敲門(mén)”的可能性要大得多。
  因此,我們應該在排序結果中考慮網(wǎng)站業(yè)務(wù)的各種屬性,并根據不同屬性的重要性設計權重。我們可以從以下幾個(gè)方面考慮排序問(wèn)題。
  
  豆瓣電影輸入“史密斯”,前三個(gè)是電影,后三個(gè)是電影人。這是一種基于產(chǎn)品業(yè)務(wù)權重的搜索排名策略。
  在現場(chǎng)搜索中加入這些排序策略后,與經(jīng)典搜索算法排序相比,搜索準確率有了很大的飛躍。那么如何才能不斷提高分揀質(zhì)量呢?
  接下來(lái),我們來(lái)談?wù)勅绾戊`活運用這些搜索策略,進(jìn)一步提升搜索排名結果。
  五、如何通過(guò)調整數據屬性的排序來(lái)優(yōu)化搜索結果
  目前各種站內搜索方案中搜索結果準確率低的原因不是搜索算法,因為無(wú)論網(wǎng)站/app多大,情況再復雜,規則都可以窮盡。與搜索全網(wǎng)的難度相比,難度要低很多數量級。那么問(wèn)題出在哪里?問(wèn)題在于靈活使用搜索策略沒(méi)有或有困難。如果我們使用 ElasticSearch 在網(wǎng)站上進(jìn)行搜索,從“構建”到“可用”其實(shí)很簡(jiǎn)單,但是從“可用”到“好用”需要幾個(gè)工程師 + 無(wú)數小時(shí)的積累。這不是普通中小型企業(yè)能夠承受的成本,
  特別是,基本搜索算法選擇使用較大的浮點(diǎn)分數,將所有內容混合在一起。根據所有規則對每個(gè)文檔進(jìn)行評分。然后按照這個(gè)規則排序。這種方法有個(gè)致命的問(wèn)題,就是把不一樣的屬性混在一起講排序。
  例如。假設排序方案包括TF-IDF和點(diǎn)贊數兩個(gè)維度。所以問(wèn)題是,我們的搜索引擎將如何排名?
  如果一個(gè)文檔有非常多的點(diǎn)贊數,它將如何排序?即使該文檔與搜索詞的相關(guān)性非常低,該文檔的排名也會(huì )非常高。
  那么如果一篇文檔與搜索詞相關(guān)度高,但點(diǎn)贊數為0,那么如何排序呢?這個(gè) 0 贊的 文章 可能不會(huì )出現在排名結果中。
  這種混合搜索排名方法的另一個(gè)問(wèn)題是它的復雜性。當多個(gè)緯度屬性混合在一個(gè)公式中時(shí),我們發(fā)現搜索結果很糟糕,不知道如何調整。
  那么,面對這種多維度的搜索問(wèn)題,我們應該如何設計搜索排名呢?
  明智的方法是將所有屬性分開(kāi)并為您的業(yè)務(wù)調整它們的順序。不是將所有屬性集中在一起計算一個(gè)大的分數,而是計算 N 個(gè)分數并進(jìn)行 N 個(gè)連續排序。
  接下來(lái)我會(huì )談?wù)勊侨绾喂ぷ鞯摹?br />   所有匹配的結果都按照第一個(gè)標準進(jìn)行排序。如果結果出現平局,將繼續按照第二個(gè)標準計算和排序分數。如果仍然存在平局,則第三個(gè)標準繼續進(jìn)行,直到每個(gè)標準在搜索結果中都有自己的位置。
  那么在這個(gè)過(guò)程中先用哪個(gè)準則來(lái)判斷就成為了這個(gè)排序方案的關(guān)鍵。
  來(lái)個(gè)案例,你就明白了。
  [
{
"title": "為什么《黑肯帝國3》在IDBM才不到7分?",
"featured": true,
"number_of_likes": 2647
},
{
"title": "《黑客帝國》里面,為什么最后是尼歐贏(yíng)了?",
"featured": false,
"number_of_likes": 3077
},
{
"title": "還好當年沒(méi)讓小李子演《黑客帝國》",
"featured": false,
"number_of_likes": 531
},
{
"title": "多年以后,才真正看懂黑各帝國",
"featured": false,
"number_of_likes": 797
},
{
"title": "如何理解《黑客帝國》?",
"featured": true,
"number_of_likes": 611
}
]
  為了簡(jiǎn)化示例,我們將規則簡(jiǎn)化為三點(diǎn),錯別字,細化,點(diǎn)贊數。用戶(hù)輸入“矩陣”關(guān)鍵詞進(jìn)行查詢(xún),會(huì )得到如下結果。
  如何理解“黑客帝國”?(無(wú)錯別字;細化;點(diǎn)贊數:611)《黑客帝國》,Neo為什么最后贏(yíng)了?(無(wú)錯字;無(wú)細化;點(diǎn)贊數:3077)為什么《黑客帝國3》少于IDBM 7分?(2個(gè)錯別字;精煉;點(diǎn)贊:2647)還好小李子沒(méi)被允許玩《黑客帝國》(沒(méi)有錯別字;沒(méi)有精煉;點(diǎn)贊:531)多年后,我真的懂了黑社會(huì )的帝國(1個(gè)錯字;未精煉;喜歡:797)
  以上就是這個(gè)案例的策略,如果我們對這個(gè)例子的排序結果不滿(mǎn)意怎么辦?只需調整屬性權重(順序)。比如我們認為錯別字沒(méi)有問(wèn)題,不應該過(guò)多降低權限,所以只需要把“錯別字”的屬性放在后面即可。
  
  國內站點(diǎn)搜索解決方案“卡拉搜索”策略設置后臺,您只需使用鼠標拖動(dòng)即可更改屬性權重。
  六、站內搜索優(yōu)化總結
  對于媒體內容站、電商、SaaS服務(wù)等B端企業(yè)來(lái)說(shuō),加入“站內搜索”功能,幫助用戶(hù)快速找到自己想要的內容,是提升用戶(hù)體驗、減少彈跳的最佳方式率,并提高用戶(hù)轉化率。好主意。
  另一方面,站內搜索也是幫助B端企業(yè)快速采集用戶(hù)真實(shí)想法的好工具。每次用戶(hù)搜索和點(diǎn)擊,都是對他們網(wǎng)站內容的反饋,尤其是對于沒(méi)有結果的搜索詞。這是幫助我們改進(jìn)網(wǎng)站的重要第一手資料。
  構建“站內搜索”實(shí)際上非常簡(jiǎn)單。國內最好的站內搜索SaaS,僅需一行代碼即可部署。我將在下一篇文章 文章 中解釋如何快速部署站內搜索。歡迎留言提問(wèn),下一篇文章將一并解答。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(2021-09-161.什么是大文本?具體是什么?)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 88 次瀏覽 ? 2022-04-18 22:29 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(2021-09-161.什么是大文本?具體是什么?)
  2021-09-161.什么是大文本?究竟是什么?
  首先要明白,ElasticSearch建立索引完成全文檢索的前提是將要檢索的信息導入ElasticSearch。而一些信息對應的文本內容會(huì )很大,可能達到1MB~3MB字節左右。該內容被認為是大文本。一般我們將這些內容存儲在一個(gè)名為 content 的字段中,然后對 Content 字段進(jìn)行處理。全文搜索&高亮,會(huì )出現搜索效率低的問(wèn)題,更耗時(shí)可能達到30s左右。
  這對于一個(gè)習慣了搜索引擎極速體驗的用戶(hù)來(lái)說(shuō),是不能容忍的。
  2. 問(wèn)題描述
  從檢索癥狀:
  1. 翻頁(yè)到1000+頁(yè)(每頁(yè)10條數據),響應時(shí)間會(huì )更長(cháng)
  2. 遇到一些大文件時(shí),響應時(shí)間特別長(cháng),高亮結果會(huì )返回30s以上
  3. 故障排除與優(yōu)化1. 限制返回記錄數。不提供對最后一頁(yè)的直接訪(fǎng)問(wèn)
  百度、360、搜狗等搜索引擎不提供訪(fǎng)問(wèn)最后一頁(yè)的請求方式。它們都是基于單擊上一頁(yè)和下一頁(yè)的逐頁(yè)訪(fǎng)問(wèn)的。其實(shí)這從用戶(hù)的角度也很好理解。搜索引擎返回的以前的數據是最相關(guān)的,也是用戶(hù)最關(guān)心的信息。ElasticSearch默認支持的數據條數為10000條,所以最好將最大條數設置為10000條或小于該值。
  2. from/size 對應慢問(wèn)題
  [從+尺寸機制]
  當 ElasticSearch 響應請求時(shí),它必須確定文檔的順序并安排相應的結果。如果請求的頁(yè)數很少,ElasticSearch 是沒(méi)有問(wèn)題的,但是如果頁(yè)數很大,比如請求第 100 頁(yè),ElasticSearch 必須從第 1 到第 100 頁(yè)獲取所有文檔,然后刪除第 1 到第 100 頁(yè)。文檔在第 99 頁(yè),獲取文檔在第 100 頁(yè)。
  【滾動(dòng)機制】
  與from+size機制分頁(yè)相比,使用滾動(dòng)可以模擬一個(gè)傳統的數據游標,記錄當前讀取的文檔信息的位置。這種分頁(yè)的使用并不是為了實(shí)時(shí)查詢(xún)數據,而是一次查詢(xún)大量數據甚至全部數據。
  因為這個(gè)滾動(dòng)相當于維護了當前索引段的快照,所以快照信息就是執行滾動(dòng)查詢(xún)時(shí)的快照。此查詢(xún)后從新索引傳入的任何數據都不會(huì )在此快照中查詢(xún)。但是,相比f(wàn)rom+size機制,它并不是查詢(xún)所有數據然后去掉不需要的部分,而是記錄一個(gè)讀位置,保證下一次快速讀。
  from+size方式和scroll方式的優(yōu)缺點(diǎn)對比:
  1. from + size 方法:當結果足夠大時(shí),會(huì )大大增加內存和CPU消耗。但是這種方法使用起來(lái)非常方便。
  2. 對于滾動(dòng)模式:當結果足夠大時(shí),滾動(dòng)性能更好。但存在scroll_id不靈活、管理困難的問(wèn)題。滾動(dòng)的使用必須逐頁(yè)按順序使用。如果是不規則翻頁(yè),其性能消耗也是巨大的。
  以上兩種翻頁(yè)機制需要根據實(shí)際場(chǎng)景合理選擇。
  3. 查看內存狀態(tài)
  當出現卡住、卡住等性能低下、用戶(hù)體驗差的情況時(shí),需要及時(shí)查看ElasticSearch日志,檢查是內存不足還是新老代參數設置不合理造成的。
  之前因為機器內存不足,設置為16GB。通過(guò)日志發(fā)現堆內存不足會(huì )導致老年代Full GC,造成停頓。堆內存果斷地從 16GB 增加到最大 31GB。
  4. DSL逆向分析排查慢查詢(xún)
  1. 打印出對應的查詢(xún)DSL,可以通過(guò)接口訪(fǎng)問(wèn):searchSourceBuilder.toString();
  2. 使用profile參數看看什么是慢的
  profile API的目的是在ES的高層對ES請求進(jìn)行扁平化和擴展,讓你可以直觀(guān)的看到請求做了什么,每個(gè)segment花費了多少時(shí)間,為你提供提升性能的相關(guān)支持.
  3. 嘗試更改全文搜索接口api,更改query_string匹配查詢(xún),相應速度會(huì )有一定提升
  4. 刪除部分查詢(xún)條件,在基本數據不變的情況下查看查詢(xún)速度是否更快。
  驗證發(fā)現不返回content字段時(shí),速度會(huì )快很多;取消高亮字段處理時(shí),速度會(huì )更快。至此,初步斷定與高亮有關(guān)。
  5. 重點(diǎn)排查和優(yōu)化
  通過(guò)論壇推薦使用:fast-vector-highlighter 進(jìn)行大文件高亮。
  根據官網(wǎng)介紹,ElasticSearch高亮的方式有以下三種:
  方法一:傳統的素色高亮法
  官網(wǎng)明確支持這種方式。這種方法匹配起來(lái)很慢。如果存在性能問(wèn)題,請考慮其他突出顯示方法。
  方法二:發(fā)帖高亮方法
  要支持發(fā)帖的高亮方式,需要在映射下添加如下信息:
    "type": "text",
  "index_options" : "offsets"
  添加完成后,發(fā)帖高亮方式將替代傳統高亮方式。
  發(fā)布高亮方法的特點(diǎn):
  1.速度快,無(wú)需重新分析高亮文件。文檔越大,性能越高。
  2.比 fvh 突出顯示需要更少的磁盤(pán)空間。
  3.將文本文件拆分成句子并突出顯示。它適用于自然語(yǔ)言,但不適用于 html。
  4. 將文檔視為整個(gè)語(yǔ)料庫,并使用 BM25 算法對該語(yǔ)料庫中的文檔進(jìn)行評分。
  應用實(shí)例:
    {
  "mappings": {
  "doc" : {
  "properties": {
  "comment" : {
  "type": "text",
  "index_options" : "offsets"
  }
   }
  }
  }
  }
  方法三:fast-vector-highlighter 縮寫(xiě)為fvh高亮方法
  如果在映射的文本類(lèi)型字段下添加以下信息:
    "type": "text",
  "term_vector" : "with_positions_offsets"
  fvh 突出顯示方法將取代傳統的普通突出顯示方法。
  fvh高亮方法的特點(diǎn)如下:
  1. 特別適用于 doc 大于 > 1MB 時(shí)的 fvh 高亮。
  2.自定義boundary_scanner的掃描方式。
  3.設置 term_vector --> with_positions_offsets 會(huì )增加索引的大小。
  4.可以組合多個(gè)字段返回一個(gè)結果,詳見(jiàn)matched_fields。
  5.為不同的匹配類(lèi)型分配不同的權重,例如:短語(yǔ)匹配高于術(shù)語(yǔ)匹配。
  應用實(shí)例:
    {
   "mappings": {
   "doc" : {
  "properties": {
  "comment" : {
   "type": "text",
  "term_vector" : "with_positions_offsets"
  }
  }
  }
  }
  }
  最終選擇:fvh 高亮方法。
  第一:新建索引,根據fvh方法為內容字段重新設置映射;
  二:通過(guò)以下方式同步索引數據:
    POST /_reindex {"source":{"index":"test_index"}, "dest":{"index":"test_index_new"}}
  實(shí)際結果表明,原來(lái)檢索>40s的同一個(gè)大文件,現在2s內返回結果。沒(méi)有改行代碼,只修改了映射,效率提升了近20倍。
  4. 總結
  你需要發(fā)自?xún)刃牡匾庾R到,所有的蟲(chóng)子都是紙老虎。當你遇到問(wèn)題時(shí),你不能亂來(lái)。您可以一次拆卸并解決問(wèn)題。有幾點(diǎn)要記?。?br />   1. 敢于承擔暴露的問(wèn)題是開(kāi)發(fā)者責任的體現
  2. 有bug,關(guān)鍵是耐心定位bug,跟蹤bug
  3. 拆解細化問(wèn)題,一一列出排查思路,才是王道
  4. 行動(dòng)勝于雄辯,去做就行
  分類(lèi):
  技術(shù)要點(diǎn):
  相關(guān)文章: 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(2021-09-161.什么是大文本?具體是什么?)
  2021-09-161.什么是大文本?究竟是什么?
  首先要明白,ElasticSearch建立索引完成全文檢索的前提是將要檢索的信息導入ElasticSearch。而一些信息對應的文本內容會(huì )很大,可能達到1MB~3MB字節左右。該內容被認為是大文本。一般我們將這些內容存儲在一個(gè)名為 content 的字段中,然后對 Content 字段進(jìn)行處理。全文搜索&高亮,會(huì )出現搜索效率低的問(wèn)題,更耗時(shí)可能達到30s左右。
  這對于一個(gè)習慣了搜索引擎極速體驗的用戶(hù)來(lái)說(shuō),是不能容忍的。
  2. 問(wèn)題描述
  從檢索癥狀:
  1. 翻頁(yè)到1000+頁(yè)(每頁(yè)10條數據),響應時(shí)間會(huì )更長(cháng)
  2. 遇到一些大文件時(shí),響應時(shí)間特別長(cháng),高亮結果會(huì )返回30s以上
  3. 故障排除與優(yōu)化1. 限制返回記錄數。不提供對最后一頁(yè)的直接訪(fǎng)問(wèn)
  百度、360、搜狗等搜索引擎不提供訪(fǎng)問(wèn)最后一頁(yè)的請求方式。它們都是基于單擊上一頁(yè)和下一頁(yè)的逐頁(yè)訪(fǎng)問(wèn)的。其實(shí)這從用戶(hù)的角度也很好理解。搜索引擎返回的以前的數據是最相關(guān)的,也是用戶(hù)最關(guān)心的信息。ElasticSearch默認支持的數據條數為10000條,所以最好將最大條數設置為10000條或小于該值。
  2. from/size 對應慢問(wèn)題
  [從+尺寸機制]
  當 ElasticSearch 響應請求時(shí),它必須確定文檔的順序并安排相應的結果。如果請求的頁(yè)數很少,ElasticSearch 是沒(méi)有問(wèn)題的,但是如果頁(yè)數很大,比如請求第 100 頁(yè),ElasticSearch 必須從第 1 到第 100 頁(yè)獲取所有文檔,然后刪除第 1 到第 100 頁(yè)。文檔在第 99 頁(yè),獲取文檔在第 100 頁(yè)。
  【滾動(dòng)機制】
  與from+size機制分頁(yè)相比,使用滾動(dòng)可以模擬一個(gè)傳統的數據游標,記錄當前讀取的文檔信息的位置。這種分頁(yè)的使用并不是為了實(shí)時(shí)查詢(xún)數據,而是一次查詢(xún)大量數據甚至全部數據。
  因為這個(gè)滾動(dòng)相當于維護了當前索引段的快照,所以快照信息就是執行滾動(dòng)查詢(xún)時(shí)的快照。此查詢(xún)后從新索引傳入的任何數據都不會(huì )在此快照中查詢(xún)。但是,相比f(wàn)rom+size機制,它并不是查詢(xún)所有數據然后去掉不需要的部分,而是記錄一個(gè)讀位置,保證下一次快速讀。
  from+size方式和scroll方式的優(yōu)缺點(diǎn)對比:
  1. from + size 方法:當結果足夠大時(shí),會(huì )大大增加內存和CPU消耗。但是這種方法使用起來(lái)非常方便。
  2. 對于滾動(dòng)模式:當結果足夠大時(shí),滾動(dòng)性能更好。但存在scroll_id不靈活、管理困難的問(wèn)題。滾動(dòng)的使用必須逐頁(yè)按順序使用。如果是不規則翻頁(yè),其性能消耗也是巨大的。
  以上兩種翻頁(yè)機制需要根據實(shí)際場(chǎng)景合理選擇。
  3. 查看內存狀態(tài)
  當出現卡住、卡住等性能低下、用戶(hù)體驗差的情況時(shí),需要及時(shí)查看ElasticSearch日志,檢查是內存不足還是新老代參數設置不合理造成的。
  之前因為機器內存不足,設置為16GB。通過(guò)日志發(fā)現堆內存不足會(huì )導致老年代Full GC,造成停頓。堆內存果斷地從 16GB 增加到最大 31GB。
  4. DSL逆向分析排查慢查詢(xún)
  1. 打印出對應的查詢(xún)DSL,可以通過(guò)接口訪(fǎng)問(wèn):searchSourceBuilder.toString();
  2. 使用profile參數看看什么是慢的
  profile API的目的是在ES的高層對ES請求進(jìn)行扁平化和擴展,讓你可以直觀(guān)的看到請求做了什么,每個(gè)segment花費了多少時(shí)間,為你提供提升性能的相關(guān)支持.
  3. 嘗試更改全文搜索接口api,更改query_string匹配查詢(xún),相應速度會(huì )有一定提升
  4. 刪除部分查詢(xún)條件,在基本數據不變的情況下查看查詢(xún)速度是否更快。
  驗證發(fā)現不返回content字段時(shí),速度會(huì )快很多;取消高亮字段處理時(shí),速度會(huì )更快。至此,初步斷定與高亮有關(guān)。
  5. 重點(diǎn)排查和優(yōu)化
  通過(guò)論壇推薦使用:fast-vector-highlighter 進(jìn)行大文件高亮。
  根據官網(wǎng)介紹,ElasticSearch高亮的方式有以下三種:
  方法一:傳統的素色高亮法
  官網(wǎng)明確支持這種方式。這種方法匹配起來(lái)很慢。如果存在性能問(wèn)題,請考慮其他突出顯示方法。
  方法二:發(fā)帖高亮方法
  要支持發(fā)帖的高亮方式,需要在映射下添加如下信息:
    "type": "text",
  "index_options" : "offsets"
  添加完成后,發(fā)帖高亮方式將替代傳統高亮方式。
  發(fā)布高亮方法的特點(diǎn):
  1.速度快,無(wú)需重新分析高亮文件。文檔越大,性能越高。
  2.比 fvh 突出顯示需要更少的磁盤(pán)空間。
  3.將文本文件拆分成句子并突出顯示。它適用于自然語(yǔ)言,但不適用于 html。
  4. 將文檔視為整個(gè)語(yǔ)料庫,并使用 BM25 算法對該語(yǔ)料庫中的文檔進(jìn)行評分。
  應用實(shí)例:
    {
  "mappings": {
  "doc" : {
  "properties": {
  "comment" : {
  "type": "text",
  "index_options" : "offsets"
  }
   }
  }
  }
  }
  方法三:fast-vector-highlighter 縮寫(xiě)為fvh高亮方法
  如果在映射的文本類(lèi)型字段下添加以下信息:
    "type": "text",
  "term_vector" : "with_positions_offsets"
  fvh 突出顯示方法將取代傳統的普通突出顯示方法。
  fvh高亮方法的特點(diǎn)如下:
  1. 特別適用于 doc 大于 > 1MB 時(shí)的 fvh 高亮。
  2.自定義boundary_scanner的掃描方式。
  3.設置 term_vector --> with_positions_offsets 會(huì )增加索引的大小。
  4.可以組合多個(gè)字段返回一個(gè)結果,詳見(jiàn)matched_fields。
  5.為不同的匹配類(lèi)型分配不同的權重,例如:短語(yǔ)匹配高于術(shù)語(yǔ)匹配。
  應用實(shí)例:
    {
   "mappings": {
   "doc" : {
  "properties": {
  "comment" : {
   "type": "text",
  "term_vector" : "with_positions_offsets"
  }
  }
  }
  }
  }
  最終選擇:fvh 高亮方法。
  第一:新建索引,根據fvh方法為內容字段重新設置映射;
  二:通過(guò)以下方式同步索引數據:
    POST /_reindex {"source":{"index":"test_index"}, "dest":{"index":"test_index_new"}}
  實(shí)際結果表明,原來(lái)檢索>40s的同一個(gè)大文件,現在2s內返回結果。沒(méi)有改行代碼,只修改了映射,效率提升了近20倍。
  4. 總結
  你需要發(fā)自?xún)刃牡匾庾R到,所有的蟲(chóng)子都是紙老虎。當你遇到問(wèn)題時(shí),你不能亂來(lái)。您可以一次拆卸并解決問(wèn)題。有幾點(diǎn)要記?。?br />   1. 敢于承擔暴露的問(wèn)題是開(kāi)發(fā)者責任的體現
  2. 有bug,關(guān)鍵是耐心定位bug,跟蹤bug
  3. 拆解細化問(wèn)題,一一列出排查思路,才是王道
  4. 行動(dòng)勝于雄辯,去做就行
  分類(lèi):
  技術(shù)要點(diǎn):
  相關(guān)文章:

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法( 【每日一練】2016年10月21日教師招聘考試真題及答案)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 83 次瀏覽 ? 2022-04-18 13:48 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(
【每日一練】2016年10月21日教師招聘考試真題及答案)
  
  更多《搜索引擎的利用是多種檢索工具結合使用的結果。()》相關(guān)問(wèn)題
  問(wèn)題 1
  ( ) 是利用用戶(hù)檢索信息的機會(huì ),盡可能地向目標用戶(hù)傳遞營(yíng)銷(xiāo)信息。簡(jiǎn)單來(lái)說(shuō),()就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo)。
  點(diǎn)擊查看答案
  問(wèn)題2
  搜索引擎注冊是指使用具有在線(xiàn)檢索信息功能的搜索引擎和目錄等網(wǎng)絡(luò )工具的方法。
  點(diǎn)擊查看答案
  問(wèn)題 3
  列出你熟悉的三個(gè)搜索引擎或搜索工具:()、()、()
  點(diǎn)擊查看答案
  問(wèn)題 4
  在百度搜索引擎中,減號“-”用于去除搜索結果中收錄的特定信息。注意減號“-”必須是英文符號,使用時(shí)必須以()開(kāi)頭。
  A. 輸入
  B. 分號
  C. 空白
  D、逗號
  點(diǎn)擊查看答案
  問(wèn)題 5
  常見(jiàn)的文獻檢索工具包括:門(mén)戶(hù)網(wǎng)站網(wǎng)站、搜索引擎、專(zhuān)業(yè)檢索工具。
  點(diǎn)擊查看答案
  問(wèn)題 6
  在百度搜索中使用書(shū)名號無(wú)法達到準確搜索的目的。
  點(diǎn)擊查看答案
  問(wèn)題 7
  要在中國國家知識產(chǎn)權局查找蘋(píng)果申請的專(zhuān)利,最佳檢索公式為:
  A. 申請人(專(zhuān)利權)持有人:Apple Inc.
  B. 發(fā)明者(設計師):Apple Inc.
  C. 專(zhuān)利代理:Apple Inc.
  D. 代理:Apple Inc.
  點(diǎn)擊查看答案
  問(wèn)題 8
  如何選擇信息檢索策略?
  點(diǎn)擊查看答案
  問(wèn)題 9
  下列關(guān)于搜索引擎信息檢索優(yōu)化策略的說(shuō)法不正確的是( )。
  A. 可以通過(guò)添加搜索詞來(lái)縮小搜索結果的數量和范圍。
  BB 不要使用太籠統的詞,或者曝光率太高的詞,比如:“that”、“the”、“internet”
  CC在搜索引擎中輸入“informationretrievalsystems”和informationretrievalsystems,檢索到的內容與結果一致。
  DD 最小化短語(yǔ)或太長(cháng)的短語(yǔ),以及太多的“+”關(guān)系。
  點(diǎn)擊查看答案
  問(wèn)題 10
  在我國提供個(gè)人征信服務(wù)的我國人民銀行征信系統只有一個(gè)。()
  點(diǎn)擊查看答案 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(
【每日一練】2016年10月21日教師招聘考試真題及答案)
  
  更多《搜索引擎的利用是多種檢索工具結合使用的結果。()》相關(guān)問(wèn)題
  問(wèn)題 1
  ( ) 是利用用戶(hù)檢索信息的機會(huì ),盡可能地向目標用戶(hù)傳遞營(yíng)銷(xiāo)信息。簡(jiǎn)單來(lái)說(shuō),()就是基于搜索引擎平臺的網(wǎng)絡(luò )營(yíng)銷(xiāo)。
  點(diǎn)擊查看答案
  問(wèn)題2
  搜索引擎注冊是指使用具有在線(xiàn)檢索信息功能的搜索引擎和目錄等網(wǎng)絡(luò )工具的方法。
  點(diǎn)擊查看答案
  問(wèn)題 3
  列出你熟悉的三個(gè)搜索引擎或搜索工具:()、()、()
  點(diǎn)擊查看答案
  問(wèn)題 4
  在百度搜索引擎中,減號“-”用于去除搜索結果中收錄的特定信息。注意減號“-”必須是英文符號,使用時(shí)必須以()開(kāi)頭。
  A. 輸入
  B. 分號
  C. 空白
  D、逗號
  點(diǎn)擊查看答案
  問(wèn)題 5
  常見(jiàn)的文獻檢索工具包括:門(mén)戶(hù)網(wǎng)站網(wǎng)站、搜索引擎、專(zhuān)業(yè)檢索工具。
  點(diǎn)擊查看答案
  問(wèn)題 6
  在百度搜索中使用書(shū)名號無(wú)法達到準確搜索的目的。
  點(diǎn)擊查看答案
  問(wèn)題 7
  要在中國國家知識產(chǎn)權局查找蘋(píng)果申請的專(zhuān)利,最佳檢索公式為:
  A. 申請人(專(zhuān)利權)持有人:Apple Inc.
  B. 發(fā)明者(設計師):Apple Inc.
  C. 專(zhuān)利代理:Apple Inc.
  D. 代理:Apple Inc.
  點(diǎn)擊查看答案
  問(wèn)題 8
  如何選擇信息檢索策略?
  點(diǎn)擊查看答案
  問(wèn)題 9
  下列關(guān)于搜索引擎信息檢索優(yōu)化策略的說(shuō)法不正確的是( )。
  A. 可以通過(guò)添加搜索詞來(lái)縮小搜索結果的數量和范圍。
  BB 不要使用太籠統的詞,或者曝光率太高的詞,比如:“that”、“the”、“internet”
  CC在搜索引擎中輸入“informationretrievalsystems”和informationretrievalsystems,檢索到的內容與結果一致。
  DD 最小化短語(yǔ)或太長(cháng)的短語(yǔ),以及太多的“+”關(guān)系。
  點(diǎn)擊查看答案
  問(wèn)題 10
  在我國提供個(gè)人征信服務(wù)的我國人民銀行征信系統只有一個(gè)。()
  點(diǎn)擊查看答案

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法( 基于用戶(hù)許可的營(yíng)銷(xiāo)與濫發(fā)郵件(Spam)不同廣告)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 79 次瀏覽 ? 2022-04-17 17:29 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(
基于用戶(hù)許可的營(yíng)銷(xiāo)與濫發(fā)郵件(Spam)不同廣告)
  
  網(wǎng)站推廣方式有哪些(最常用的網(wǎng)站推廣方式)
  網(wǎng)站八種基本推廣方式
  1、搜索引擎推廣
  搜索引擎推廣是指利用具有在線(xiàn)檢索信息功能的搜索引擎、目錄等網(wǎng)絡(luò )工具進(jìn)行網(wǎng)站推廣的方式。由于搜索引擎的基本形式可以分為網(wǎng)絡(luò )蜘蛛式搜索引擎(簡(jiǎn)稱(chēng)搜索引擎)和基于人工類(lèi)別的搜索引擎(簡(jiǎn)稱(chēng)類(lèi)別),因此搜索引擎推廣的形式還包括基于搜索的方法基于搜索引擎的引擎和方法。分類(lèi)的方法,前者包括搜索引擎優(yōu)化、關(guān)鍵詞廣告、PPC、固定排名、基于內容的廣告等形式,而后者主要是在分類(lèi)目錄網(wǎng)站的相應類(lèi)別中進(jìn)行@>登錄。
  搜索引擎推廣的方法可以分為許多不同的形式。常見(jiàn)的有:登錄免費分類(lèi)、登錄付費分類(lèi)、搜索引擎優(yōu)化、關(guān)鍵詞廣告、關(guān)鍵詞PPC、網(wǎng)頁(yè)內容定向廣告等。
  從目前的發(fā)展趨勢來(lái)看,搜索引擎在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的地位依然重要,被越來(lái)越多的企業(yè)所認可。搜索引擎營(yíng)銷(xiāo)的方式也在不斷演變。因此,搜索引擎營(yíng)銷(xiāo)應根據環(huán)境的變化進(jìn)行選擇。合適的方式。
  2、郵件推廣
  電子郵件是主要的網(wǎng)站 推廣方式。常見(jiàn)的方法包括電子出版物、會(huì )員通訊和專(zhuān)業(yè)服務(wù)提供商的電子郵件廣告。
  基于用戶(hù)權限的電子郵件營(yíng)銷(xiāo)不同于垃圾郵件。許可營(yíng)銷(xiāo)相對于傳統的推廣方式或無(wú)證郵件營(yíng)銷(xiāo)具有明顯的優(yōu)勢,例如減少廣告對用戶(hù)的滋擾,提高潛在客戶(hù)定位的準確性。度,增強與客戶(hù)的關(guān)系,增加品牌忠誠度等。根據電子郵件營(yíng)銷(xiāo)許可的用戶(hù)電子郵件地址資源的所有形式,可以分為內部列表電子郵件營(yíng)銷(xiāo)和外部列表電子郵件營(yíng)銷(xiāo),或簡(jiǎn)單地內部列表和外部列表。內部列表,又稱(chēng)郵件列表,是利用網(wǎng)站的注冊用戶(hù)信息進(jìn)行Email營(yíng)銷(xiāo)的一種方式,如新聞郵件、會(huì )員快訊、電子刊物等。外部列表電子郵件營(yíng)銷(xiāo)是利用專(zhuān)業(yè)服務(wù)提供商的用戶(hù)電子郵件地址進(jìn)行電子郵件營(yíng)銷(xiāo),即以電子郵件廣告的形式向服務(wù)提供商的用戶(hù)發(fā)送信息。授權郵件營(yíng)銷(xiāo)是一種相對獨立的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式體系,可以與其他網(wǎng)絡(luò )營(yíng)銷(xiāo)方式相結合,也可以獨立應用。
  3、資源合作推廣
  通過(guò)網(wǎng)站交換鏈接、交換廣告、內容合作、用戶(hù)資源合作等方式,達到目標相近者之間相互促進(jìn)的目的網(wǎng)站,其中最常用的資源合作方法是網(wǎng)站鏈接策略,利用網(wǎng)站合作伙伴之間的訪(fǎng)問(wèn)資源合作,相互促進(jìn)。
  每個(gè)企業(yè)網(wǎng)站都可以擁有自己的資源,可以表現為一定的流量、注冊用戶(hù)信息、有價(jià)值的內容和功能、網(wǎng)絡(luò )廣告位等,利用網(wǎng)站的資源進(jìn)行合作與合作伙伴共同實(shí)現資源共享、共同擴大利益的目的。在這些資源合作形式中,交換鏈接是最簡(jiǎn)單的合作方式,調查顯示,這也是推廣新網(wǎng)站的有效方式之一。交換鏈接或互惠鏈接是網(wǎng)站之間的一種簡(jiǎn)單的合作形式,具有一定的優(yōu)勢互補,即把對方網(wǎng)站的LOGO或網(wǎng)站@放在自己的網(wǎng)站 分別。>命名并設置對方網(wǎng)站的超鏈接,讓用戶(hù)從合作網(wǎng)站中發(fā)現自己的網(wǎng)站,從而達到相互促進(jìn)的目的。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。并通過(guò)合作網(wǎng)站的推薦來(lái)增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。并通過(guò)合作網(wǎng)站的推薦來(lái)增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。
  4、信息發(fā)布推廣
  并且由于越來(lái)越多有效的網(wǎng)站推廣方式的出現,信息發(fā)布在常用的網(wǎng)站推廣方式中。信息的重要性也大幅下降,因此依靠大量免費信息的發(fā)送方式并沒(méi)有太大的價(jià)值,但一些針對性強、專(zhuān)業(yè)性強的信息仍然可以引起人們的極大關(guān)注,尤其是當信息以相對較高的速度發(fā)布時(shí)-相關(guān)性。
  5、病毒式營(yíng)銷(xiāo)
  病毒式營(yíng)銷(xiāo)方式不是傳播病毒,而是利用用戶(hù)之間的主動(dòng)交流,讓信息像病毒一樣傳播,從而達到推廣的目的。病毒式營(yíng)銷(xiāo)方式本質(zhì)上是為用戶(hù)提供有價(jià)值的免費服務(wù),同時(shí),在一定的宣傳信息下,常用的工具包括免費電子書(shū)、免費軟件、免費FLASH作品、免費賀卡、免費郵箱、免費即時(shí)聊天工具等。 ,可以為用戶(hù)獲取信息、使用網(wǎng)絡(luò )服務(wù)、娛樂(lè )帶來(lái)方便。和內容。如果應用得當,這種病毒式營(yíng)銷(xiāo)策略通??梢砸苑浅5偷某杀救〉梅浅o@著(zhù)的效果。病毒式營(yíng)銷(xiāo)的詳細介紹和案例要素,請參考作者的《網(wǎng)絡(luò )營(yíng)銷(xiāo)基礎與實(shí)踐》
  6、快速網(wǎng)址推廣
  也就是說(shuō),合理利用網(wǎng)絡(luò )實(shí)名、常用網(wǎng)址等類(lèi)似關(guān)鍵詞網(wǎng)站快捷訪(fǎng)問(wèn)方式,實(shí)現網(wǎng)站推廣方式??旖菥W(wǎng)址使用自然語(yǔ)言與網(wǎng)站網(wǎng)址建立對應關(guān)系,為習慣使用中文的用戶(hù)提供了極大的便利。用戶(hù)只需要輸入一個(gè)比英文 URL 更容易記住的快捷 URL。您可以訪(fǎng)問(wèn) 網(wǎng)站 并使用您的母語(yǔ)或其他簡(jiǎn)單詞匯來(lái)“替換”一個(gè)更容易記住且更容易反映 網(wǎng)站 品牌形象的 URL,例如選擇公司名稱(chēng)或商標,主要產(chǎn)品名稱(chēng)等。作為一個(gè)中文網(wǎng)站,這可以極大地彌補英文網(wǎng)站宣傳的不便,因為它在網(wǎng)站推廣上有一定的價(jià)值。隨著(zhù)企業(yè)注冊快捷網(wǎng)站數量的增加,這些快捷網(wǎng)站的用戶(hù)數據也可以相當于一個(gè)搜索引擎。這樣,當用戶(hù)使用某個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),即使與某個(gè)網(wǎng)站注冊的中文網(wǎng)站不一致,也有被用戶(hù)發(fā)現的機會(huì )。
  7、互聯(lián)網(wǎng)廣告
  網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)策略之一,在網(wǎng)絡(luò )品牌推廣、產(chǎn)品推廣、網(wǎng)站促銷(xiāo)等方面發(fā)揮著(zhù)重要作用。常見(jiàn)的網(wǎng)絡(luò )廣告形式有:BANNER廣告、關(guān)鍵詞廣告、分類(lèi)廣告、贊助廣告、Email廣告等。BANNER廣告所依賴(lài)的媒體是網(wǎng)頁(yè),關(guān)鍵詞廣告是一種搜索形式引擎營(yíng)銷(xiāo)和電子郵件廣告是一種許可的電子郵件營(yíng)銷(xiāo)??梢?jiàn),網(wǎng)絡(luò )廣告不可能獨立存在,需要與各種網(wǎng)絡(luò )工具相結合。只有將它們結合起來(lái)才能實(shí)現信息傳遞的功能。因此,也可以認為網(wǎng)絡(luò )廣告存在于各種網(wǎng)絡(luò )營(yíng)銷(xiāo)工具中,但具體表現不同。網(wǎng)絡(luò )廣告用戶(hù)推廣網(wǎng)站具有網(wǎng)絡(luò )媒體可選范圍廣、形式多樣、適用性強、投放及時(shí)等優(yōu)點(diǎn)。
  8、綜合網(wǎng)站宣傳
  除了上面介紹的常用網(wǎng)站推廣方式外,還有很多特殊的、臨時(shí)性的網(wǎng)站推廣方式,比如有獎問(wèn)答、網(wǎng)上優(yōu)惠券、有獎?wù){查、網(wǎng)上購物網(wǎng)站推廣比較購物和購物搜索引擎等,有的甚至使用建立輔助網(wǎng)站進(jìn)行推廣。有的網(wǎng)站推廣方式可能很巧妙,有的網(wǎng)站可能會(huì )使用某種強制的方式來(lái)達到推廣的目的,比如修改用戶(hù)瀏覽器的默認首頁(yè)設置,自動(dòng)添加到采集夾,甚至在用戶(hù)的計算機上。真正值得推廣的是合理文明的網(wǎng)站推廣方式,強制和破壞性的網(wǎng)站推廣方式應該拒絕和反對。 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(
基于用戶(hù)許可的營(yíng)銷(xiāo)與濫發(fā)郵件(Spam)不同廣告)
  http://www.xusseo.com/wp-conte ... 0.jpg 300w, http://www.xusseo.com/wp-conte ... 7.jpg 768w, http://www.xusseo.com/wp-conte ... 8.jpg 220w" />
  網(wǎng)站推廣方式有哪些(最常用的網(wǎng)站推廣方式)
  網(wǎng)站八種基本推廣方式
  1、搜索引擎推廣
  搜索引擎推廣是指利用具有在線(xiàn)檢索信息功能的搜索引擎、目錄等網(wǎng)絡(luò )工具進(jìn)行網(wǎng)站推廣的方式。由于搜索引擎的基本形式可以分為網(wǎng)絡(luò )蜘蛛式搜索引擎(簡(jiǎn)稱(chēng)搜索引擎)和基于人工類(lèi)別的搜索引擎(簡(jiǎn)稱(chēng)類(lèi)別),因此搜索引擎推廣的形式還包括基于搜索的方法基于搜索引擎的引擎和方法。分類(lèi)的方法,前者包括搜索引擎優(yōu)化、關(guān)鍵詞廣告、PPC、固定排名、基于內容的廣告等形式,而后者主要是在分類(lèi)目錄網(wǎng)站的相應類(lèi)別中進(jìn)行@>登錄。
  搜索引擎推廣的方法可以分為許多不同的形式。常見(jiàn)的有:登錄免費分類(lèi)、登錄付費分類(lèi)、搜索引擎優(yōu)化、關(guān)鍵詞廣告、關(guān)鍵詞PPC、網(wǎng)頁(yè)內容定向廣告等。
  從目前的發(fā)展趨勢來(lái)看,搜索引擎在網(wǎng)絡(luò )營(yíng)銷(xiāo)中的地位依然重要,被越來(lái)越多的企業(yè)所認可。搜索引擎營(yíng)銷(xiāo)的方式也在不斷演變。因此,搜索引擎營(yíng)銷(xiāo)應根據環(huán)境的變化進(jìn)行選擇。合適的方式。
  2、郵件推廣
  電子郵件是主要的網(wǎng)站 推廣方式。常見(jiàn)的方法包括電子出版物、會(huì )員通訊和專(zhuān)業(yè)服務(wù)提供商的電子郵件廣告。
  基于用戶(hù)權限的電子郵件營(yíng)銷(xiāo)不同于垃圾郵件。許可營(yíng)銷(xiāo)相對于傳統的推廣方式或無(wú)證郵件營(yíng)銷(xiāo)具有明顯的優(yōu)勢,例如減少廣告對用戶(hù)的滋擾,提高潛在客戶(hù)定位的準確性。度,增強與客戶(hù)的關(guān)系,增加品牌忠誠度等。根據電子郵件營(yíng)銷(xiāo)許可的用戶(hù)電子郵件地址資源的所有形式,可以分為內部列表電子郵件營(yíng)銷(xiāo)和外部列表電子郵件營(yíng)銷(xiāo),或簡(jiǎn)單地內部列表和外部列表。內部列表,又稱(chēng)郵件列表,是利用網(wǎng)站的注冊用戶(hù)信息進(jìn)行Email營(yíng)銷(xiāo)的一種方式,如新聞郵件、會(huì )員快訊、電子刊物等。外部列表電子郵件營(yíng)銷(xiāo)是利用專(zhuān)業(yè)服務(wù)提供商的用戶(hù)電子郵件地址進(jìn)行電子郵件營(yíng)銷(xiāo),即以電子郵件廣告的形式向服務(wù)提供商的用戶(hù)發(fā)送信息。授權郵件營(yíng)銷(xiāo)是一種相對獨立的網(wǎng)絡(luò )營(yíng)銷(xiāo)方式體系,可以與其他網(wǎng)絡(luò )營(yíng)銷(xiāo)方式相結合,也可以獨立應用。
  3、資源合作推廣
  通過(guò)網(wǎng)站交換鏈接、交換廣告、內容合作、用戶(hù)資源合作等方式,達到目標相近者之間相互促進(jìn)的目的網(wǎng)站,其中最常用的資源合作方法是網(wǎng)站鏈接策略,利用網(wǎng)站合作伙伴之間的訪(fǎng)問(wèn)資源合作,相互促進(jìn)。
  每個(gè)企業(yè)網(wǎng)站都可以擁有自己的資源,可以表現為一定的流量、注冊用戶(hù)信息、有價(jià)值的內容和功能、網(wǎng)絡(luò )廣告位等,利用網(wǎng)站的資源進(jìn)行合作與合作伙伴共同實(shí)現資源共享、共同擴大利益的目的。在這些資源合作形式中,交換鏈接是最簡(jiǎn)單的合作方式,調查顯示,這也是推廣新網(wǎng)站的有效方式之一。交換鏈接或互惠鏈接是網(wǎng)站之間的一種簡(jiǎn)單的合作形式,具有一定的優(yōu)勢互補,即把對方網(wǎng)站的LOGO或網(wǎng)站@放在自己的網(wǎng)站 分別。>命名并設置對方網(wǎng)站的超鏈接,讓用戶(hù)從合作網(wǎng)站中發(fā)現自己的網(wǎng)站,從而達到相互促進(jìn)的目的。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。交換鏈接的作用主要表現在幾個(gè)方面:獲得流量,增加用戶(hù)瀏覽時(shí)的印象,增加搜索引擎排名優(yōu)勢,通過(guò)合作網(wǎng)站的推薦增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。并通過(guò)合作網(wǎng)站的推薦來(lái)增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。并通過(guò)合作網(wǎng)站的推薦來(lái)增加訪(fǎng)問(wèn)者的可信度。交換鏈接比能不能達到直接的效果,有著(zhù)更深層次的意義。一般來(lái)說(shuō),每個(gè)網(wǎng)站都傾向于鏈接到其他網(wǎng)站的鏈接值較高的網(wǎng)站,從而獲得其他網(wǎng)站的鏈接也意味著(zhù)得到伙伴和同行的認可網(wǎng)站 @> 在字段中。
  4、信息發(fā)布推廣
  并且由于越來(lái)越多有效的網(wǎng)站推廣方式的出現,信息發(fā)布在常用的網(wǎng)站推廣方式中。信息的重要性也大幅下降,因此依靠大量免費信息的發(fā)送方式并沒(méi)有太大的價(jià)值,但一些針對性強、專(zhuān)業(yè)性強的信息仍然可以引起人們的極大關(guān)注,尤其是當信息以相對較高的速度發(fā)布時(shí)-相關(guān)性。
  5、病毒式營(yíng)銷(xiāo)
  病毒式營(yíng)銷(xiāo)方式不是傳播病毒,而是利用用戶(hù)之間的主動(dòng)交流,讓信息像病毒一樣傳播,從而達到推廣的目的。病毒式營(yíng)銷(xiāo)方式本質(zhì)上是為用戶(hù)提供有價(jià)值的免費服務(wù),同時(shí),在一定的宣傳信息下,常用的工具包括免費電子書(shū)、免費軟件、免費FLASH作品、免費賀卡、免費郵箱、免費即時(shí)聊天工具等。 ,可以為用戶(hù)獲取信息、使用網(wǎng)絡(luò )服務(wù)、娛樂(lè )帶來(lái)方便。和內容。如果應用得當,這種病毒式營(yíng)銷(xiāo)策略通??梢砸苑浅5偷某杀救〉梅浅o@著(zhù)的效果。病毒式營(yíng)銷(xiāo)的詳細介紹和案例要素,請參考作者的《網(wǎng)絡(luò )營(yíng)銷(xiāo)基礎與實(shí)踐》
  6、快速網(wǎng)址推廣
  也就是說(shuō),合理利用網(wǎng)絡(luò )實(shí)名、常用網(wǎng)址等類(lèi)似關(guān)鍵詞網(wǎng)站快捷訪(fǎng)問(wèn)方式,實(shí)現網(wǎng)站推廣方式??旖菥W(wǎng)址使用自然語(yǔ)言與網(wǎng)站網(wǎng)址建立對應關(guān)系,為習慣使用中文的用戶(hù)提供了極大的便利。用戶(hù)只需要輸入一個(gè)比英文 URL 更容易記住的快捷 URL。您可以訪(fǎng)問(wèn) 網(wǎng)站 并使用您的母語(yǔ)或其他簡(jiǎn)單詞匯來(lái)“替換”一個(gè)更容易記住且更容易反映 網(wǎng)站 品牌形象的 URL,例如選擇公司名稱(chēng)或商標,主要產(chǎn)品名稱(chēng)等。作為一個(gè)中文網(wǎng)站,這可以極大地彌補英文網(wǎng)站宣傳的不便,因為它在網(wǎng)站推廣上有一定的價(jià)值。隨著(zhù)企業(yè)注冊快捷網(wǎng)站數量的增加,這些快捷網(wǎng)站的用戶(hù)數據也可以相當于一個(gè)搜索引擎。這樣,當用戶(hù)使用某個(gè)關(guān)鍵詞進(jìn)行搜索時(shí),即使與某個(gè)網(wǎng)站注冊的中文網(wǎng)站不一致,也有被用戶(hù)發(fā)現的機會(huì )。
  7、互聯(lián)網(wǎng)廣告
  網(wǎng)絡(luò )廣告是常用的網(wǎng)絡(luò )營(yíng)銷(xiāo)策略之一,在網(wǎng)絡(luò )品牌推廣、產(chǎn)品推廣、網(wǎng)站促銷(xiāo)等方面發(fā)揮著(zhù)重要作用。常見(jiàn)的網(wǎng)絡(luò )廣告形式有:BANNER廣告、關(guān)鍵詞廣告、分類(lèi)廣告、贊助廣告、Email廣告等。BANNER廣告所依賴(lài)的媒體是網(wǎng)頁(yè),關(guān)鍵詞廣告是一種搜索形式引擎營(yíng)銷(xiāo)和電子郵件廣告是一種許可的電子郵件營(yíng)銷(xiāo)??梢?jiàn),網(wǎng)絡(luò )廣告不可能獨立存在,需要與各種網(wǎng)絡(luò )工具相結合。只有將它們結合起來(lái)才能實(shí)現信息傳遞的功能。因此,也可以認為網(wǎng)絡(luò )廣告存在于各種網(wǎng)絡(luò )營(yíng)銷(xiāo)工具中,但具體表現不同。網(wǎng)絡(luò )廣告用戶(hù)推廣網(wǎng)站具有網(wǎng)絡(luò )媒體可選范圍廣、形式多樣、適用性強、投放及時(shí)等優(yōu)點(diǎn)。
  8、綜合網(wǎng)站宣傳
  除了上面介紹的常用網(wǎng)站推廣方式外,還有很多特殊的、臨時(shí)性的網(wǎng)站推廣方式,比如有獎問(wèn)答、網(wǎng)上優(yōu)惠券、有獎?wù){查、網(wǎng)上購物網(wǎng)站推廣比較購物和購物搜索引擎等,有的甚至使用建立輔助網(wǎng)站進(jìn)行推廣。有的網(wǎng)站推廣方式可能很巧妙,有的網(wǎng)站可能會(huì )使用某種強制的方式來(lái)達到推廣的目的,比如修改用戶(hù)瀏覽器的默認首頁(yè)設置,自動(dòng)添加到采集夾,甚至在用戶(hù)的計算機上。真正值得推廣的是合理文明的網(wǎng)站推廣方式,強制和破壞性的網(wǎng)站推廣方式應該拒絕和反對。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(Google周游器會(huì )定期抓取Web,較珍視網(wǎng)頁(yè)標志的形貌)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 97 次瀏覽 ? 2022-04-17 12:31 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(Google周游器會(huì )定期抓取Web,較珍視網(wǎng)頁(yè)標志的形貌)
  最初是從:;
  用戶(hù)可以獲得更準確的搜索結果。在綜合考慮群體緊張度和與特定查詢(xún)的相關(guān)性之后,拍攝多個(gè)快照的方法,一般來(lái)說(shuō),點(diǎn)擊進(jìn)去只會(huì )發(fā)現長(cháng)期過(guò)時(shí)的信息或垃圾信息?!耙环N基于詞匯的計算機化索引和檢索方法”,谷歌還通過(guò)分析相鄰頁(yè)面的內容來(lái)贏(yíng)得谷歌的信任。相反,從A頁(yè)面到B頁(yè)面的鏈接表明A頁(yè)面有B的投票權,所以我們在制作友情鏈接時(shí),一定要仔細規劃鏈接的文字和外觀(guān),確定哪些頁(yè)面壓力最大。提高系統服務(wù)質(zhì)量和效率,快速響應:谷歌收錄New網(wǎng)站兩種方式分別是:一、
  谷歌搜索引擎海關(guān)
  作為全球最大的多語(yǔ)種搜索引擎,谷歌發(fā)展迅速,具有很高的靈活性:谷歌網(wǎng)頁(yè)定期抓取網(wǎng)頁(yè),
  多注意網(wǎng)頁(yè)logo的外觀(guān):大多數時(shí)候,Google會(huì )在顯示搜索結果時(shí)顯示網(wǎng)頁(yè)的Deion。百度的搜索引擎人工化程度高,以后完成的下一次爬取對于新的網(wǎng)站,以及現有的網(wǎng)站www來(lái)說(shuō),都太詳細了,要看網(wǎng)頁(yè)的更新速度。搜索引擎優(yōu)化是在內容之上創(chuàng )建的,排名第二。它還創(chuàng )建了自己的一套標準,以便谷歌將最相關(guān)和最可靠的搜索結果放在首位。優(yōu)化網(wǎng)頁(yè)。百度與谷歌除了在某些方面有相似或相似之處外,還具有以下特點(diǎn):
  多注意第一印象收錄:網(wǎng)站百度的第一印象比較重要,com的變化和無(wú)效鏈接,偶爾甚至不相關(guān),都算是比較重要的內容放首先它。88151,谷歌利用的技能
  PageRank技術(shù):PageRank可以對網(wǎng)頁(yè)的張力做出客觀(guān)的評價(jià)。com/article/1/"class="UBBWordLink">在歷史的進(jìn)程中,已經(jīng)形成了自己的網(wǎng)頁(yè)收錄習慣,使其既適合網(wǎng)站定位又不失相關(guān)性,所以。研究Goolge收錄 @收錄網(wǎng)頁(yè)的風(fēng)俗有利于更好地迎合Google搜索引擎的口味,
  超文本分析:谷歌的搜索引擎也分析網(wǎng)頁(yè)內容。相對而言,谷歌的技術(shù)不接受簡(jiǎn)單的網(wǎng)絡(luò )文本掃描(網(wǎng)站Blog Marketing Tools Publishers可以使用meta標簽來(lái)控制這個(gè).like text),PageRank不計算直接鏈接的數量,使用的技術(shù)百度
  《一種在互聯(lián)網(wǎng)上識別鏡像和準鏡像網(wǎng)站的方法》。確保將最相關(guān)的結果返回給用戶(hù)的查詢(xún)。
  2、我們需要用大量相關(guān)內容補充核心關(guān)鍵詞或其他相關(guān)長(cháng)尾關(guān)鍵詞,以達到提高網(wǎng)頁(yè)收錄量和收錄排名的目的。
  重視收錄日期:百度非常重視網(wǎng)頁(yè)的收錄日期。
  更珍惜首頁(yè):百度對首頁(yè)的重視程度遠高于谷歌,用戶(hù)體驗有所妥協(xié),占據更大空間;隨著(zhù)互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,百度收錄特色
  百度是全球最大的中文搜索引擎,具有添加隱形詞的能力。確定網(wǎng)站核心關(guān)鍵詞(產(chǎn)品和服務(wù)關(guān)鍵詞)后,
  SEO優(yōu)化開(kāi)發(fā)和實(shí)施策略
  在了解了搜索引擎排名原理后,百度提供的網(wǎng)頁(yè)快照結果并沒(méi)有分析相對位置的絕對路徑,反而落后于超文本分析。然而。
  更加關(guān)注鏈接的文字外觀(guān):Google會(huì )根據詞匯索引和檢索系統,將鏈接的文字外觀(guān)作為關(guān)鍵詞進(jìn)行索引,以提高檢索質(zhì)量??梢酝ㄟ^(guò)以下方式解決:
  1. 越早獲得收錄,排名越高。節省網(wǎng)絡(luò )資源和本地資源。保存當前信息狀態(tài)。關(guān)鍵詞策略——SEO的核心
  網(wǎng)站 的內容以關(guān)鍵詞為補充,PageRank 會(huì )根據其獲得的票數來(lái)評估 B 頁(yè)面的張力。最終提高網(wǎng)站的銷(xiāo)售或宣傳技巧的能力,該方法解決了搜索引擎重復獲取相似信息的問(wèn)題。通過(guò)向 Google 提交 網(wǎng)站 登錄數據。獲取有效數據:并決定對快照信息的一系列分析。與谷歌相比,
  相關(guān)性和相關(guān)性:Google 使用 PageRank 技術(shù)檢查整個(gè)網(wǎng)絡(luò )鏈接結構,//www,chinabaike,以確定哪些頁(yè)面與正在執行的特定搜索相關(guān)。這可以給百度一個(gè)更好的第一印象。谷歌收錄具有以下特點(diǎn)
  靈敏度很高。
  百度搜索引擎收錄自定義
  1. SEO(搜索引擎優(yōu)化)研究確定各種搜索引擎如何抓取互聯(lián)網(wǎng)頁(yè)面,如何索引以及如何確定特定關(guān)鍵字的搜索結果排名的技巧;所以它基本上在百度的搜索結果中。收錄 的時(shí)間標記清楚。如果谷歌對外部鏈接網(wǎng)站的評價(jià)高,收錄出現的頻率高,那么創(chuàng )建新站點(diǎn)的速度也相應高,所以,
  2.輕松訪(fǎng)問(wèn)不斷變化的在線(xiàn)信息環(huán)境。在某種程度上,內容的變化在搜索結果中起到了中介作用。后者的收錄速度比較快,“一種利用快照記錄和分析在線(xiàn)信息的方法”,人們決定在搜索引擎中搜索關(guān)鍵詞來(lái)獲取必要的信息。越來(lái)越廣泛的要領(lǐng),
  1.前者取決于新創(chuàng )建的網(wǎng)站的外部鏈接網(wǎng)站的收錄出現的頻率,網(wǎng)站最好在登錄前豐富內容百度搜索引擎,原創(chuàng )內容多一點(diǎn),網(wǎng)頁(yè)的關(guān)鍵詞與內容的相關(guān)性高一點(diǎn),從而增加網(wǎng)站的流量。它并不特定于某個(gè)內容頁(yè)面(當它認為它還不夠時(shí))。通過(guò)網(wǎng)站的外部鏈接,中文網(wǎng)頁(yè)的搜索技術(shù)在某種程度上領(lǐng)先于谷歌。并增加了其“百度快照”的用戶(hù)數,
  對網(wǎng)頁(yè)更新敏感:百度對網(wǎng)頁(yè)更新比谷歌更敏感。為了讓搜索引擎知道這個(gè) 網(wǎng)站 做了什么,這意味著(zhù)在某種程度上,可能由人們來(lái)決定是否 收錄 一個(gè)頁(yè)面而不是機器。這與上面提到的“珍惜第一收錄印象”一脈相承,百度搜索引擎每周更新一次??赡苓@和百度的本地特性有關(guān),百度在顯示搜索結果時(shí)經(jīng)常會(huì )顯示網(wǎng)站首頁(yè)。開(kāi)發(fā)和實(shí)施SEO,經(jīng)過(guò)詞法分析處理,
  完美位置的鏈接更受重視:百度在收錄頁(yè)面時(shí)更看重完美位置的收錄。新的網(wǎng)站為收錄的日期會(huì )提前,這樣可以提高搜索引擎排名;這個(gè)網(wǎng)站的核心是什么,大量網(wǎng)頁(yè)的索引也是其搜索結果排名點(diǎn)的參考。
  . 頻率在幾天到一個(gè)月之間,方法是在互聯(lián)網(wǎng)上解決特定的一條信息。 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(Google周游器會(huì )定期抓取Web,較珍視網(wǎng)頁(yè)標志的形貌)
  最初是從:;
  用戶(hù)可以獲得更準確的搜索結果。在綜合考慮群體緊張度和與特定查詢(xún)的相關(guān)性之后,拍攝多個(gè)快照的方法,一般來(lái)說(shuō),點(diǎn)擊進(jìn)去只會(huì )發(fā)現長(cháng)期過(guò)時(shí)的信息或垃圾信息?!耙环N基于詞匯的計算機化索引和檢索方法”,谷歌還通過(guò)分析相鄰頁(yè)面的內容來(lái)贏(yíng)得谷歌的信任。相反,從A頁(yè)面到B頁(yè)面的鏈接表明A頁(yè)面有B的投票權,所以我們在制作友情鏈接時(shí),一定要仔細規劃鏈接的文字和外觀(guān),確定哪些頁(yè)面壓力最大。提高系統服務(wù)質(zhì)量和效率,快速響應:谷歌收錄New網(wǎng)站兩種方式分別是:一、
  谷歌搜索引擎海關(guān)
  作為全球最大的多語(yǔ)種搜索引擎,谷歌發(fā)展迅速,具有很高的靈活性:谷歌網(wǎng)頁(yè)定期抓取網(wǎng)頁(yè),
  多注意網(wǎng)頁(yè)logo的外觀(guān):大多數時(shí)候,Google會(huì )在顯示搜索結果時(shí)顯示網(wǎng)頁(yè)的Deion。百度的搜索引擎人工化程度高,以后完成的下一次爬取對于新的網(wǎng)站,以及現有的網(wǎng)站www來(lái)說(shuō),都太詳細了,要看網(wǎng)頁(yè)的更新速度。搜索引擎優(yōu)化是在內容之上創(chuàng )建的,排名第二。它還創(chuàng )建了自己的一套標準,以便谷歌將最相關(guān)和最可靠的搜索結果放在首位。優(yōu)化網(wǎng)頁(yè)。百度與谷歌除了在某些方面有相似或相似之處外,還具有以下特點(diǎn):
  多注意第一印象收錄:網(wǎng)站百度的第一印象比較重要,com的變化和無(wú)效鏈接,偶爾甚至不相關(guān),都算是比較重要的內容放首先它。88151,谷歌利用的技能
  PageRank技術(shù):PageRank可以對網(wǎng)頁(yè)的張力做出客觀(guān)的評價(jià)。com/article/1/"class="UBBWordLink">在歷史的進(jìn)程中,已經(jīng)形成了自己的網(wǎng)頁(yè)收錄習慣,使其既適合網(wǎng)站定位又不失相關(guān)性,所以。研究Goolge收錄 @收錄網(wǎng)頁(yè)的風(fēng)俗有利于更好地迎合Google搜索引擎的口味,
  超文本分析:谷歌的搜索引擎也分析網(wǎng)頁(yè)內容。相對而言,谷歌的技術(shù)不接受簡(jiǎn)單的網(wǎng)絡(luò )文本掃描(網(wǎng)站Blog Marketing Tools Publishers可以使用meta標簽來(lái)控制這個(gè).like text),PageRank不計算直接鏈接的數量,使用的技術(shù)百度
  《一種在互聯(lián)網(wǎng)上識別鏡像和準鏡像網(wǎng)站的方法》。確保將最相關(guān)的結果返回給用戶(hù)的查詢(xún)。
  2、我們需要用大量相關(guān)內容補充核心關(guān)鍵詞或其他相關(guān)長(cháng)尾關(guān)鍵詞,以達到提高網(wǎng)頁(yè)收錄量和收錄排名的目的。
  重視收錄日期:百度非常重視網(wǎng)頁(yè)的收錄日期。
  更珍惜首頁(yè):百度對首頁(yè)的重視程度遠高于谷歌,用戶(hù)體驗有所妥協(xié),占據更大空間;隨著(zhù)互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,百度收錄特色
  百度是全球最大的中文搜索引擎,具有添加隱形詞的能力。確定網(wǎng)站核心關(guān)鍵詞(產(chǎn)品和服務(wù)關(guān)鍵詞)后,
  SEO優(yōu)化開(kāi)發(fā)和實(shí)施策略
  在了解了搜索引擎排名原理后,百度提供的網(wǎng)頁(yè)快照結果并沒(méi)有分析相對位置的絕對路徑,反而落后于超文本分析。然而。
  更加關(guān)注鏈接的文字外觀(guān):Google會(huì )根據詞匯索引和檢索系統,將鏈接的文字外觀(guān)作為關(guān)鍵詞進(jìn)行索引,以提高檢索質(zhì)量??梢酝ㄟ^(guò)以下方式解決:
  1. 越早獲得收錄,排名越高。節省網(wǎng)絡(luò )資源和本地資源。保存當前信息狀態(tài)。關(guān)鍵詞策略——SEO的核心
  網(wǎng)站 的內容以關(guān)鍵詞為補充,PageRank 會(huì )根據其獲得的票數來(lái)評估 B 頁(yè)面的張力。最終提高網(wǎng)站的銷(xiāo)售或宣傳技巧的能力,該方法解決了搜索引擎重復獲取相似信息的問(wèn)題。通過(guò)向 Google 提交 網(wǎng)站 登錄數據。獲取有效數據:并決定對快照信息的一系列分析。與谷歌相比,
  相關(guān)性和相關(guān)性:Google 使用 PageRank 技術(shù)檢查整個(gè)網(wǎng)絡(luò )鏈接結構,//www,chinabaike,以確定哪些頁(yè)面與正在執行的特定搜索相關(guān)。這可以給百度一個(gè)更好的第一印象。谷歌收錄具有以下特點(diǎn)
  靈敏度很高。
  百度搜索引擎收錄自定義
  1. SEO(搜索引擎優(yōu)化)研究確定各種搜索引擎如何抓取互聯(lián)網(wǎng)頁(yè)面,如何索引以及如何確定特定關(guān)鍵字的搜索結果排名的技巧;所以它基本上在百度的搜索結果中。收錄 的時(shí)間標記清楚。如果谷歌對外部鏈接網(wǎng)站的評價(jià)高,收錄出現的頻率高,那么創(chuàng )建新站點(diǎn)的速度也相應高,所以,
  2.輕松訪(fǎng)問(wèn)不斷變化的在線(xiàn)信息環(huán)境。在某種程度上,內容的變化在搜索結果中起到了中介作用。后者的收錄速度比較快,“一種利用快照記錄和分析在線(xiàn)信息的方法”,人們決定在搜索引擎中搜索關(guān)鍵詞來(lái)獲取必要的信息。越來(lái)越廣泛的要領(lǐng),
  1.前者取決于新創(chuàng )建的網(wǎng)站的外部鏈接網(wǎng)站的收錄出現的頻率,網(wǎng)站最好在登錄前豐富內容百度搜索引擎,原創(chuàng )內容多一點(diǎn),網(wǎng)頁(yè)的關(guān)鍵詞與內容的相關(guān)性高一點(diǎn),從而增加網(wǎng)站的流量。它并不特定于某個(gè)內容頁(yè)面(當它認為它還不夠時(shí))。通過(guò)網(wǎng)站的外部鏈接,中文網(wǎng)頁(yè)的搜索技術(shù)在某種程度上領(lǐng)先于谷歌。并增加了其“百度快照”的用戶(hù)數,
  對網(wǎng)頁(yè)更新敏感:百度對網(wǎng)頁(yè)更新比谷歌更敏感。為了讓搜索引擎知道這個(gè) 網(wǎng)站 做了什么,這意味著(zhù)在某種程度上,可能由人們來(lái)決定是否 收錄 一個(gè)頁(yè)面而不是機器。這與上面提到的“珍惜第一收錄印象”一脈相承,百度搜索引擎每周更新一次??赡苓@和百度的本地特性有關(guān),百度在顯示搜索結果時(shí)經(jīng)常會(huì )顯示網(wǎng)站首頁(yè)。開(kāi)發(fā)和實(shí)施SEO,經(jīng)過(guò)詞法分析處理,
  完美位置的鏈接更受重視:百度在收錄頁(yè)面時(shí)更看重完美位置的收錄。新的網(wǎng)站為收錄的日期會(huì )提前,這樣可以提高搜索引擎排名;這個(gè)網(wǎng)站的核心是什么,大量網(wǎng)頁(yè)的索引也是其搜索結果排名點(diǎn)的參考。
  . 頻率在幾天到一個(gè)月之間,方法是在互聯(lián)網(wǎng)上解決特定的一條信息。

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(搜狗實(shí)驗室《搜索引擎用戶(hù)查詢(xún)日志(SogouQ)》(組圖))

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-04-17 11:39 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(搜狗實(shí)驗室《搜索引擎用戶(hù)查詢(xún)日志(SogouQ)》(組圖))
  數據——可以簡(jiǎn)單地理解為人們行為的符號表示。信息技術(shù)的發(fā)展使計算機能夠無(wú)時(shí)無(wú)刻地記錄人們的數據,而人們在計算機面前早已是“透明的人”。一切都在運動(dòng),對于數據來(lái)說(shuō),它總是在變化。當我們分析數據時(shí),我們希望發(fā)現模式、趨勢,并從不斷變化的數據中提取有價(jià)值的內容。好的數據是未開(kāi)發(fā)的金礦。一份好的數據分析報告可以幫助管理者明確策略,不斷優(yōu)化調整策略,也可以幫助產(chǎn)品經(jīng)理更好地把握產(chǎn)品的運行情況,有針對性地不斷升級優(yōu)化產(chǎn)品,提升客戶(hù)體驗,增強用戶(hù)粘性. ,
  2、分析目的
  不同的域有不同的域用于分析目的。比如基金公司的數據分析,更多的是對所投資股票的價(jià)值分析。電商企業(yè)的數據分析會(huì )關(guān)注漏斗的轉化率。結合本文的實(shí)際案例分析,我們數據分析的主要目的如下:(1)驗證我們的判斷。例如:我們根據經(jīng)驗判斷會(huì )有更多的知識去探索某個(gè)領(lǐng)域晚上。來(lái)驗證你的判斷是否正確。(2)用戶(hù)興趣發(fā)現和商機發(fā)現。例如:某關(guān)鍵詞被檢索的頻率很高,說(shuō)明它很有可能成為熱點(diǎn)熱點(diǎn),所以提前做好熱點(diǎn)準備,以獲取流量?jì)?yōu)勢。(3) 防范風(fēng)險。例如:某關(guān)鍵詞在某區域短時(shí)間內出現高頻率,很??有可能會(huì )出現區域性風(fēng)險。有關(guān)部門(mén)或企業(yè)應提前介入處置,化解風(fēng)險,盡可能減少損失。
  3、數據準備
  既然是實(shí)踐,就要分析真實(shí)數據。本文數據來(lái)自搜狗實(shí)驗室的《搜索引擎用戶(hù)查詢(xún)日志(SogouQ)》(資料地址: )。使用了搜狗實(shí)驗室提供的簡(jiǎn)化版數據。該數據包收錄一天的檢索數據。數據壓縮包為63MB,解壓后的數據包大小為144MB。數據格式為:訪(fǎng)問(wèn)時(shí)間\tuser ID\t[查詢(xún)詞]\返回結果中URL的trank\用戶(hù)點(diǎn)擊的t序列號\t用戶(hù)點(diǎn)擊的URL。用戶(hù)ID是在用戶(hù)使用瀏覽器訪(fǎng)問(wèn)搜索引擎時(shí)根據cookie信息自動(dòng)分配的,即同時(shí)使用瀏覽器輸入的不同查詢(xún)對應同一個(gè)用戶(hù)ID。
  數據樣本如下:
  00:00:3774412[360SecurityGuard]8 /softweb/software/firewall/antivirus/20067/17938.html
  這主要是為了直觀(guān)地向您展示數據格式。更詳細的數據可以去搜狗實(shí)驗室官網(wǎng)。
  4、分析過(guò)程
  4.1 不同時(shí)間段的檢索
  我們以小時(shí)為單位,分為24小時(shí),全天查看用戶(hù)檢索情況。首先,在 Python 程序中導入 CSV 文件。這個(gè)太基礎了,這里就不多說(shuō)了。由于源數據的時(shí)間格式是“時(shí):分:秒”,我們準備每小時(shí)分析一次。為了便于操作,我們將源數據“小時(shí):分鐘:秒”處理為僅保留小時(shí)。之后我們將數據格式化為 DataFrame 數據格式。使用groupby功能準時(shí)操作。使用 size() 聚合和顯示分組數據。由于本文主要講解思路,這里只展示部分源碼。如需操作說(shuō)明,可以關(guān)注我的微信公眾號:佳佳原創(chuàng )。在公眾號留言,我看到會(huì )第一時(shí)間回復你。
  
  上圖中的print()函數主要用于查看生成的數據。您也可以將其注釋掉。根據操作生成對應的數據,根據數據生成分析折線(xiàn)圖,如下圖所示:
  
  如果需要不斷微調折線(xiàn)圖的生成,而每一代數據的計算時(shí)間較長(cháng),其實(shí)可以先保存生成的數據,然后在調整折線(xiàn)圖的元素時(shí),結果數據可直接使用,無(wú)需重新計算。數據,可以節省很多時(shí)間。
  在我們將數據可視化之后,原創(chuàng )的密集數據變得更加清晰。我們可以很容易直觀(guān)的看到用戶(hù)的檢索頻率在早上4:00左右最少,下午16:00左右檢索頻率最高。也反映了網(wǎng)民的上網(wǎng)習慣。如果我們是廣告主,我們可以根據這種情況對不同時(shí)間段的廣告進(jìn)行有針對性的定價(jià)。而如果我們需要做廣告,我們也知道在哪個(gè)時(shí)間段做廣告,廣告的曝光率是相對最高的。4.2 不同用戶(hù)的檢索情況接下來(lái)我們來(lái)分析一下不同用戶(hù)的檢索情況。查看哪些用戶(hù)搜索最多。這個(gè)分析需要用到Python DataFrame中的count()操作,即:groupby(user ID).count()。之后,我們用新生成的數據構造一個(gè)DataFrame,取前50個(gè)用戶(hù)數據,做一個(gè)降序操作。部分源代碼如下所示:
  
  上圖Console中顯示的數據是當天檢索量排名前50的用戶(hù)。有興趣的同學(xué)可以到搜狗實(shí)驗室官網(wǎng)下載這個(gè)數據,看看當天檢索量為431的客戶(hù)檢索到了什么。一定是重度依賴(lài)網(wǎng)絡(luò )的朋友。具體參觀(guān)什么,我們后面再看。經(jīng)過(guò)數據分析,我們決定抽取前20名用戶(hù),用條形圖來(lái)展示他們的檢索情況。選擇20個(gè)用戶(hù)的主要原因是,一是為了讓圖表美觀(guān),二是縮小數據范圍,集中分析少數用戶(hù),節省分析成本。前20名用戶(hù)的檢索情況如下圖所示:
  
  由于數據量大且時(shí)間關(guān)系,我們接下來(lái)選擇其中一位用戶(hù)對其檢索數據進(jìn)行分析。然后轉到下一部分。
  4.3 用戶(hù)檢索數據分析
  我們選取檢索量最大的用戶(hù)“147154”,分析他一天的檢索情況。我們先來(lái)看看這個(gè)用戶(hù)在不同時(shí)間段的檢索量。08 2 09 6420 57 21 21822 90 左邊是時(shí)間數據,右邊是檢索量。這個(gè)用戶(hù)似乎在晚上 21:00 搜索的頻率更高。讓我們分析一下這個(gè)用戶(hù)檢索到了哪些內容。同時(shí),對用戶(hù)搜索詞的搜索量進(jìn)行倒序排序。如下:
  
  由于數據有限,我們也不知道用戶(hù)的年齡、職業(yè)和性別。但搜索的內容卻相當令人驚訝。也客觀(guān)地表明,每一個(gè)看似正常的人,都有不為人知的一面。如果想深入分析,可以從搜狗實(shí)驗室下載這個(gè)數據,使用本文提供的分析中排名前20的用戶(hù)ID,直接檢索這20個(gè)用戶(hù)在數據中的搜索結果。4.4 不同的搜索關(guān)鍵詞
  接下來(lái),我們將從全天的角度分析當天不同關(guān)鍵詞的檢索情況?;痉治鏊悸肥翘崛‘斕焖嘘P(guān)鍵詞的數量,然后通過(guò)詞頻云圖直觀(guān)展示。根據數據,我們生成詞頻信息。同樣,為了方便觀(guān)察,我們按詞頻倒序排列。由于數據量大,我們只展示其中的一部分。如下所示:
  
  為了展示詞頻云圖,我們需要引入“import 采集s”和“import wordcloud”這兩個(gè)庫。具體用法可以參考相關(guān)資料,這里不再贅述。如果您在使用過(guò)程中有任何問(wèn)題,也可以隨時(shí)與我聯(lián)系。我看到了,會(huì )盡快回復你。由于大部分搜索詞還是比較“奇怪”的,所以不用看的那么清楚,只要知道大致的分析思路即可。根據詞頻生成詞頻云圖,如下圖所示:
  
  5、分析總結有時(shí)候對方提供的數據在導入時(shí)或多或少都會(huì )出現一些問(wèn)題,比如:和我們處理格式有些差異,編碼問(wèn)題。這就需要我們在數據分析前對數據進(jìn)行梳理,在導入數據時(shí)處理異常,同時(shí)解決一些可能影響分析的垃圾數據。俗話(huà)說(shuō)“垃圾進(jìn),垃圾出”。因此,在進(jìn)行數據分析之前,確保數據的真實(shí)、可靠和有效是非常必要和非常重要的。對于數據分析,不同的領(lǐng)域、不同的場(chǎng)景、不同的目標有不同的數據分析方法和方法,這就需要我們對癥下藥?;ヂ?lián)網(wǎng)公司和電商公司網(wǎng)站更關(guān)注用戶(hù)留存分析,轉化率和訪(fǎng)問(wèn)軌跡。金融行業(yè)的公司,比如基金公司,更傾向于做時(shí)間序列分析和趨勢分析。本文的分析更多是通過(guò)數據提取和可視化發(fā)現一些潛在的情況。通過(guò)我們這次對用戶(hù)檢索數據的分析,最直觀(guān)的感受就是網(wǎng)絡(luò )平臺就像一個(gè)濃縮的社會(huì )。雖然大家都在網(wǎng)上搜索,沒(méi)有人認識任何人,但在某種程度上還是有一些聯(lián)系的。在這個(gè)平臺上,有好人和壞人,也有在日常生活中對不同表情做出反應的人。正是因為在線(xiàn)檢索的匿名性,個(gè)人的行為沒(méi)有偽裝,也反映了更真實(shí)的個(gè)人。從這個(gè)角度來(lái)看,網(wǎng)絡(luò )數據分析的結果往往優(yōu)于離線(xiàn)數據分析。雖然我們現在注重隱私保護,但如果是出于公共安全的目的,其實(shí)可以進(jìn)行相關(guān)的數據分析和預警,提前發(fā)現可能的違法犯罪情況。比如一個(gè)人經(jīng)常搜索如何綁架等惡毒詞,也在一定程度上客觀(guān)反映了他的心理狀態(tài),然后結合他的行動(dòng)軌跡、購物記錄、記分卡等綜合判斷這個(gè)人的概率實(shí)施違法犯罪,及早預防和降低危害公共安全的風(fēng)險。技術(shù)是一把雙刃劍。為了真正發(fā)揮技術(shù)的價(jià)值,我們需要更加理性、科學(xué)地掌握和使用技術(shù),讓技術(shù)真正為人服務(wù)。數據分析也是如此。企業(yè)或個(gè)人價(jià)值觀(guān)的好壞也決定了數據分析結果的價(jià)值。無(wú)論如何,如果每個(gè)企業(yè)和每個(gè)人都能將“不作惡”作為其行為準則的底線(xiàn),世界將會(huì )變得更加美好。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~ 其行為準則的底線(xiàn)。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~ 其行為準則的底線(xiàn)。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~ 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(搜狗實(shí)驗室《搜索引擎用戶(hù)查詢(xún)日志(SogouQ)》(組圖))
  數據——可以簡(jiǎn)單地理解為人們行為的符號表示。信息技術(shù)的發(fā)展使計算機能夠無(wú)時(shí)無(wú)刻地記錄人們的數據,而人們在計算機面前早已是“透明的人”。一切都在運動(dòng),對于數據來(lái)說(shuō),它總是在變化。當我們分析數據時(shí),我們希望發(fā)現模式、趨勢,并從不斷變化的數據中提取有價(jià)值的內容。好的數據是未開(kāi)發(fā)的金礦。一份好的數據分析報告可以幫助管理者明確策略,不斷優(yōu)化調整策略,也可以幫助產(chǎn)品經(jīng)理更好地把握產(chǎn)品的運行情況,有針對性地不斷升級優(yōu)化產(chǎn)品,提升客戶(hù)體驗,增強用戶(hù)粘性. ,
  2、分析目的
  不同的域有不同的域用于分析目的。比如基金公司的數據分析,更多的是對所投資股票的價(jià)值分析。電商企業(yè)的數據分析會(huì )關(guān)注漏斗的轉化率。結合本文的實(shí)際案例分析,我們數據分析的主要目的如下:(1)驗證我們的判斷。例如:我們根據經(jīng)驗判斷會(huì )有更多的知識去探索某個(gè)領(lǐng)域晚上。來(lái)驗證你的判斷是否正確。(2)用戶(hù)興趣發(fā)現和商機發(fā)現。例如:某關(guān)鍵詞被檢索的頻率很高,說(shuō)明它很有可能成為熱點(diǎn)熱點(diǎn),所以提前做好熱點(diǎn)準備,以獲取流量?jì)?yōu)勢。(3) 防范風(fēng)險。例如:某關(guān)鍵詞在某區域短時(shí)間內出現高頻率,很??有可能會(huì )出現區域性風(fēng)險。有關(guān)部門(mén)或企業(yè)應提前介入處置,化解風(fēng)險,盡可能減少損失。
  3、數據準備
  既然是實(shí)踐,就要分析真實(shí)數據。本文數據來(lái)自搜狗實(shí)驗室的《搜索引擎用戶(hù)查詢(xún)日志(SogouQ)》(資料地址: )。使用了搜狗實(shí)驗室提供的簡(jiǎn)化版數據。該數據包收錄一天的檢索數據。數據壓縮包為63MB,解壓后的數據包大小為144MB。數據格式為:訪(fǎng)問(wèn)時(shí)間\tuser ID\t[查詢(xún)詞]\返回結果中URL的trank\用戶(hù)點(diǎn)擊的t序列號\t用戶(hù)點(diǎn)擊的URL。用戶(hù)ID是在用戶(hù)使用瀏覽器訪(fǎng)問(wèn)搜索引擎時(shí)根據cookie信息自動(dòng)分配的,即同時(shí)使用瀏覽器輸入的不同查詢(xún)對應同一個(gè)用戶(hù)ID。
  數據樣本如下:
  00:00:3774412[360SecurityGuard]8 /softweb/software/firewall/antivirus/20067/17938.html
  這主要是為了直觀(guān)地向您展示數據格式。更詳細的數據可以去搜狗實(shí)驗室官網(wǎng)。
  4、分析過(guò)程
  4.1 不同時(shí)間段的檢索
  我們以小時(shí)為單位,分為24小時(shí),全天查看用戶(hù)檢索情況。首先,在 Python 程序中導入 CSV 文件。這個(gè)太基礎了,這里就不多說(shuō)了。由于源數據的時(shí)間格式是“時(shí):分:秒”,我們準備每小時(shí)分析一次。為了便于操作,我們將源數據“小時(shí):分鐘:秒”處理為僅保留小時(shí)。之后我們將數據格式化為 DataFrame 數據格式。使用groupby功能準時(shí)操作。使用 size() 聚合和顯示分組數據。由于本文主要講解思路,這里只展示部分源碼。如需操作說(shuō)明,可以關(guān)注我的微信公眾號:佳佳原創(chuàng )。在公眾號留言,我看到會(huì )第一時(shí)間回復你。
  
  上圖中的print()函數主要用于查看生成的數據。您也可以將其注釋掉。根據操作生成對應的數據,根據數據生成分析折線(xiàn)圖,如下圖所示:
  
  如果需要不斷微調折線(xiàn)圖的生成,而每一代數據的計算時(shí)間較長(cháng),其實(shí)可以先保存生成的數據,然后在調整折線(xiàn)圖的元素時(shí),結果數據可直接使用,無(wú)需重新計算。數據,可以節省很多時(shí)間。
  在我們將數據可視化之后,原創(chuàng )的密集數據變得更加清晰。我們可以很容易直觀(guān)的看到用戶(hù)的檢索頻率在早上4:00左右最少,下午16:00左右檢索頻率最高。也反映了網(wǎng)民的上網(wǎng)習慣。如果我們是廣告主,我們可以根據這種情況對不同時(shí)間段的廣告進(jìn)行有針對性的定價(jià)。而如果我們需要做廣告,我們也知道在哪個(gè)時(shí)間段做廣告,廣告的曝光率是相對最高的。4.2 不同用戶(hù)的檢索情況接下來(lái)我們來(lái)分析一下不同用戶(hù)的檢索情況。查看哪些用戶(hù)搜索最多。這個(gè)分析需要用到Python DataFrame中的count()操作,即:groupby(user ID).count()。之后,我們用新生成的數據構造一個(gè)DataFrame,取前50個(gè)用戶(hù)數據,做一個(gè)降序操作。部分源代碼如下所示:
  
  上圖Console中顯示的數據是當天檢索量排名前50的用戶(hù)。有興趣的同學(xué)可以到搜狗實(shí)驗室官網(wǎng)下載這個(gè)數據,看看當天檢索量為431的客戶(hù)檢索到了什么。一定是重度依賴(lài)網(wǎng)絡(luò )的朋友。具體參觀(guān)什么,我們后面再看。經(jīng)過(guò)數據分析,我們決定抽取前20名用戶(hù),用條形圖來(lái)展示他們的檢索情況。選擇20個(gè)用戶(hù)的主要原因是,一是為了讓圖表美觀(guān),二是縮小數據范圍,集中分析少數用戶(hù),節省分析成本。前20名用戶(hù)的檢索情況如下圖所示:
  
  由于數據量大且時(shí)間關(guān)系,我們接下來(lái)選擇其中一位用戶(hù)對其檢索數據進(jìn)行分析。然后轉到下一部分。
  4.3 用戶(hù)檢索數據分析
  我們選取檢索量最大的用戶(hù)“147154”,分析他一天的檢索情況。我們先來(lái)看看這個(gè)用戶(hù)在不同時(shí)間段的檢索量。08 2 09 6420 57 21 21822 90 左邊是時(shí)間數據,右邊是檢索量。這個(gè)用戶(hù)似乎在晚上 21:00 搜索的頻率更高。讓我們分析一下這個(gè)用戶(hù)檢索到了哪些內容。同時(shí),對用戶(hù)搜索詞的搜索量進(jìn)行倒序排序。如下:
  
  由于數據有限,我們也不知道用戶(hù)的年齡、職業(yè)和性別。但搜索的內容卻相當令人驚訝。也客觀(guān)地表明,每一個(gè)看似正常的人,都有不為人知的一面。如果想深入分析,可以從搜狗實(shí)驗室下載這個(gè)數據,使用本文提供的分析中排名前20的用戶(hù)ID,直接檢索這20個(gè)用戶(hù)在數據中的搜索結果。4.4 不同的搜索關(guān)鍵詞
  接下來(lái),我們將從全天的角度分析當天不同關(guān)鍵詞的檢索情況?;痉治鏊悸肥翘崛‘斕焖嘘P(guān)鍵詞的數量,然后通過(guò)詞頻云圖直觀(guān)展示。根據數據,我們生成詞頻信息。同樣,為了方便觀(guān)察,我們按詞頻倒序排列。由于數據量大,我們只展示其中的一部分。如下所示:
  
  為了展示詞頻云圖,我們需要引入“import 采集s”和“import wordcloud”這兩個(gè)庫。具體用法可以參考相關(guān)資料,這里不再贅述。如果您在使用過(guò)程中有任何問(wèn)題,也可以隨時(shí)與我聯(lián)系。我看到了,會(huì )盡快回復你。由于大部分搜索詞還是比較“奇怪”的,所以不用看的那么清楚,只要知道大致的分析思路即可。根據詞頻生成詞頻云圖,如下圖所示:
  
  5、分析總結有時(shí)候對方提供的數據在導入時(shí)或多或少都會(huì )出現一些問(wèn)題,比如:和我們處理格式有些差異,編碼問(wèn)題。這就需要我們在數據分析前對數據進(jìn)行梳理,在導入數據時(shí)處理異常,同時(shí)解決一些可能影響分析的垃圾數據。俗話(huà)說(shuō)“垃圾進(jìn),垃圾出”。因此,在進(jìn)行數據分析之前,確保數據的真實(shí)、可靠和有效是非常必要和非常重要的。對于數據分析,不同的領(lǐng)域、不同的場(chǎng)景、不同的目標有不同的數據分析方法和方法,這就需要我們對癥下藥?;ヂ?lián)網(wǎng)公司和電商公司網(wǎng)站更關(guān)注用戶(hù)留存分析,轉化率和訪(fǎng)問(wèn)軌跡。金融行業(yè)的公司,比如基金公司,更傾向于做時(shí)間序列分析和趨勢分析。本文的分析更多是通過(guò)數據提取和可視化發(fā)現一些潛在的情況。通過(guò)我們這次對用戶(hù)檢索數據的分析,最直觀(guān)的感受就是網(wǎng)絡(luò )平臺就像一個(gè)濃縮的社會(huì )。雖然大家都在網(wǎng)上搜索,沒(méi)有人認識任何人,但在某種程度上還是有一些聯(lián)系的。在這個(gè)平臺上,有好人和壞人,也有在日常生活中對不同表情做出反應的人。正是因為在線(xiàn)檢索的匿名性,個(gè)人的行為沒(méi)有偽裝,也反映了更真實(shí)的個(gè)人。從這個(gè)角度來(lái)看,網(wǎng)絡(luò )數據分析的結果往往優(yōu)于離線(xiàn)數據分析。雖然我們現在注重隱私保護,但如果是出于公共安全的目的,其實(shí)可以進(jìn)行相關(guān)的數據分析和預警,提前發(fā)現可能的違法犯罪情況。比如一個(gè)人經(jīng)常搜索如何綁架等惡毒詞,也在一定程度上客觀(guān)反映了他的心理狀態(tài),然后結合他的行動(dòng)軌跡、購物記錄、記分卡等綜合判斷這個(gè)人的概率實(shí)施違法犯罪,及早預防和降低危害公共安全的風(fēng)險。技術(shù)是一把雙刃劍。為了真正發(fā)揮技術(shù)的價(jià)值,我們需要更加理性、科學(xué)地掌握和使用技術(shù),讓技術(shù)真正為人服務(wù)。數據分析也是如此。企業(yè)或個(gè)人價(jià)值觀(guān)的好壞也決定了數據分析結果的價(jià)值。無(wú)論如何,如果每個(gè)企業(yè)和每個(gè)人都能將“不作惡”作為其行為準則的底線(xiàn),世界將會(huì )變得更加美好。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~ 其行為準則的底線(xiàn)。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~ 其行為準則的底線(xiàn)。原創(chuàng ) 不容易,如果覺(jué)得這篇文章對你有幫助,請多多轉發(fā)。感謝閱讀~

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(SEO搜索引擎優(yōu)化的99個(gè)技巧結果進(jìn)行排序,看誰(shuí)最初)

網(wǎng)站優(yōu)化 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 113 次瀏覽 ? 2022-04-16 17:45 ? 來(lái)自相關(guān)話(huà)題

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(SEO搜索引擎優(yōu)化的99個(gè)技巧結果進(jìn)行排序,看誰(shuí)最初)
  整理分享SEO搜索引擎優(yōu)化的99個(gè)技巧
  SEO 對搜索引擎中的搜索結果進(jìn)行排名,以查看誰(shuí)首先被用戶(hù)看到。事實(shí)上,這些排名是通過(guò)搜索引擎算法實(shí)現的。先做SEO優(yōu)化的人,一定要有佛教的心態(tài),戒驕戒躁。
  其次,要有優(yōu)化的方法和技巧。讓我們寫(xiě)下關(guān)于SEO優(yōu)化的99個(gè)技巧:
  一、SEO網(wǎng)站優(yōu)化
  404錯誤頁(yè)面:
  1、使用根目錄下的index.html制作404錯誤頁(yè)面(更好的用戶(hù)體驗)
  2、404 錯誤頁(yè)面需要用 robots 協(xié)議阻止(防止 收錄 中心化)
  301重定向:
  3、301 重定向阻止 網(wǎng)站double收錄 和池 網(wǎng)站weights
  4、 索引后綴也需要在 網(wǎng)站 啟動(dòng)開(kāi)始時(shí)從服務(wù)器/空間中刪除(與 301) 的影響相同
  5、使用301-derrivative weights給目標網(wǎng)站過(guò)程中更高效和最小的損失權重
  網(wǎng)址優(yōu)化:
  6、網(wǎng)站文章列級可淺可不深,短可長(cháng)(有利于網(wǎng)站收錄)
  7、網(wǎng)站中的模板中,“/”代表根目錄或網(wǎng)站當前(頁(yè)面)域名URl
  8、文章列的子列也可以升級為二級列,把文件放到根目錄下即可
  9、網(wǎng)站最好將站點(diǎn)內的路徑設置為絕對路徑,這樣更安全,可以防止黑帽下載整個(gè)站點(diǎn)
  10、網(wǎng)站url最好是靜態(tài)鏈接或者偽靜態(tài),動(dòng)態(tài)鏈接蜘蛛爬的壓力很大
  機器人協(xié)議:
  11、Robot協(xié)議如果添加網(wǎng)站后端,可以使用*代替一些字符來(lái)保證安全
  12、Robots協(xié)議可以更好的輔助搜索引擎蜘蛛爬取我們的網(wǎng)站,提高爬取效率
  13、網(wǎng)站如果上線(xiàn)后第二天修改還沒(méi)有完成,可以使用Disallow:/屏蔽整個(gè)站點(diǎn)
  站點(diǎn)地圖網(wǎng)站地圖:
  14、Sitemap采集整個(gè)站點(diǎn)網(wǎng)站的鏈接,三種格式:XML、TXT和HTML 15、Sitemap可以在程序中使用網(wǎng)站的內容太多了。在中添加了自動(dòng)更新生成
  16、Sitemap 最好把三種格式都上傳,加入robots協(xié)議,提示蜘蛛爬取
  網(wǎng)站TDK:
  17、T標簽可以通過(guò)分詞技術(shù)清晰顯示關(guān)鍵詞、標題、品牌和地區
  18、K標簽不是沒(méi)用的,它們可以幫助搜索引擎識別網(wǎng)站主題和查詢(xún)排名
  19、適當出現在D標簽關(guān)鍵詞也有一定幾率出現在關(guān)鍵詞詞庫(練習)
  20、網(wǎng)站的TDK不僅要考慮搜索引擎排名,還要考慮用戶(hù)體驗來(lái)吸引點(diǎn)擊
  詳情:網(wǎng)頁(yè)鏈接 查看全部

  搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法(SEO搜索引擎優(yōu)化的99個(gè)技巧結果進(jìn)行排序,看誰(shuí)最初)
  整理分享SEO搜索引擎優(yōu)化的99個(gè)技巧
  SEO 對搜索引擎中的搜索結果進(jìn)行排名,以查看誰(shuí)首先被用戶(hù)看到。事實(shí)上,這些排名是通過(guò)搜索引擎算法實(shí)現的。先做SEO優(yōu)化的人,一定要有佛教的心態(tài),戒驕戒躁。
  其次,要有優(yōu)化的方法和技巧。讓我們寫(xiě)下關(guān)于SEO優(yōu)化的99個(gè)技巧:
  一、SEO網(wǎng)站優(yōu)化
  404錯誤頁(yè)面:
  1、使用根目錄下的index.html制作404錯誤頁(yè)面(更好的用戶(hù)體驗)
  2、404 錯誤頁(yè)面需要用 robots 協(xié)議阻止(防止 收錄 中心化)
  301重定向:
  3、301 重定向阻止 網(wǎng)站double收錄 和池 網(wǎng)站weights
  4、 索引后綴也需要在 網(wǎng)站 啟動(dòng)開(kāi)始時(shí)從服務(wù)器/空間中刪除(與 301) 的影響相同
  5、使用301-derrivative weights給目標網(wǎng)站過(guò)程中更高效和最小的損失權重
  網(wǎng)址優(yōu)化:
  6、網(wǎng)站文章列級可淺可不深,短可長(cháng)(有利于網(wǎng)站收錄)
  7、網(wǎng)站中的模板中,“/”代表根目錄或網(wǎng)站當前(頁(yè)面)域名URl
  8、文章列的子列也可以升級為二級列,把文件放到根目錄下即可
  9、網(wǎng)站最好將站點(diǎn)內的路徑設置為絕對路徑,這樣更安全,可以防止黑帽下載整個(gè)站點(diǎn)
  10、網(wǎng)站url最好是靜態(tài)鏈接或者偽靜態(tài),動(dòng)態(tài)鏈接蜘蛛爬的壓力很大
  機器人協(xié)議:
  11、Robot協(xié)議如果添加網(wǎng)站后端,可以使用*代替一些字符來(lái)保證安全
  12、Robots協(xié)議可以更好的輔助搜索引擎蜘蛛爬取我們的網(wǎng)站,提高爬取效率
  13、網(wǎng)站如果上線(xiàn)后第二天修改還沒(méi)有完成,可以使用Disallow:/屏蔽整個(gè)站點(diǎn)
  站點(diǎn)地圖網(wǎng)站地圖:
  14、Sitemap采集整個(gè)站點(diǎn)網(wǎng)站的鏈接,三種格式:XML、TXT和HTML 15、Sitemap可以在程序中使用網(wǎng)站的內容太多了。在中添加了自動(dòng)更新生成
  16、Sitemap 最好把三種格式都上傳,加入robots協(xié)議,提示蜘蛛爬取
  網(wǎng)站TDK:
  17、T標簽可以通過(guò)分詞技術(shù)清晰顯示關(guān)鍵詞、標題、品牌和地區
  18、K標簽不是沒(méi)用的,它們可以幫助搜索引擎識別網(wǎng)站主題和查詢(xún)排名
  19、適當出現在D標簽關(guān)鍵詞也有一定幾率出現在關(guān)鍵詞詞庫(練習)
  20、網(wǎng)站的TDK不僅要考慮搜索引擎排名,還要考慮用戶(hù)體驗來(lái)吸引點(diǎn)擊
  詳情:網(wǎng)頁(yè)鏈接

官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区