最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

<form id="yqkhq"></form>

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

搜索引擎框架介紹

優(yōu)采云發(fā)布時(shí)間: 2022-05-21 02:21

　　搜索引擎框架介紹

　　歡迎將公眾號設置為星標，技術(shù)文章第一時(shí)間看到。我們將一如既往精選技術(shù)好文，提供有價(jià)值的閱讀。如果文章對你有幫助，歡迎點(diǎn)個(gè)在看鼓勵作者。

　　技術(shù)經(jīng)驗交流：

　　

　　一、搜索引擎基礎介紹1. 什么是搜索引擎

　　搜索引擎，通常指的是收集了萬(wàn)維網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對網(wǎng)頁(yè)中的每一個(gè)詞（即關(guān)鍵詞）進(jìn)行索引，建立索引數據庫的全文搜索引擎。當用戶(hù)查找某個(gè)關(guān)鍵詞的時(shí)候，所有在頁(yè)面內容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結果被搜出來(lái)。再經(jīng)過(guò)復雜的算法進(jìn)行排序(或者包含商業(yè)化的競價(jià)排名、商業(yè)推廣或者廣告)后，這些結果將按照與搜索關(guān)鍵詞的相關(guān)度高低（或與相關(guān)度毫無(wú)關(guān)系），依次排列。

　　2. 傳統的搜索與搜索引擎對比

　　2.1 傳統做法

　?。?）文檔中使用系統的Find查找

　?。?）mysql中使用like模糊查詢(xún)

　　存在問(wèn)題：

　?。?）海量數據中不能及時(shí)響應,少量數據可以通過(guò)傳統的MySql建立索引解決

　?。?）一些無(wú)用詞不能進(jìn)行過(guò)濾，沒(méi)法分詞

　?。?）數據量大的話(huà)難以拓展

　?。?）相同的數據難以進(jìn)行相似度最高的進(jìn)行排序

　　2.2 搜索引擎做法

　?。?）存儲非結構化的數據

　?。?）快速檢索和響應我們需要的信息，快-準

　?。?）進(jìn)行相關(guān)性的排序，過(guò)濾等

　?。?）可以去掉停用詞(沒(méi)有特殊含義的詞，比如英文的a,is等，中文：這，的，是等)，框架一般支持可以自定義停用詞

　　二、常見(jiàn)搜索引擎框架介紹與比較1. Java 全文搜索引擎框架 Lucene

　　1.1 簡(jiǎn)介

　　Lucene的開(kāi)發(fā)語(yǔ)言是Java，也是Java家族中最為出名的一個(gè)開(kāi)源搜索引擎，在Java世界中已經(jīng)是標準的全文檢索程序，它提供了完整的查詢(xún)引擎和索引引擎，沒(méi)有中文分詞引擎，需要自己去實(shí)現，因此用Lucene去做一個(gè)搜素引擎需要自己去架構，另外它不支持實(shí)時(shí)搜索。但是solr和elasticsearch都是基于Lucene封裝。

　　1.2 優(yōu)點(diǎn)

　　成熟的解決方案，有很多的成功案例。apache 頂級項目，正在持續快速的進(jìn)步。龐大而活躍的開(kāi)發(fā)社區，大量的開(kāi)發(fā)人員。它只是一個(gè)類(lèi)庫，有足夠的定制和優(yōu)化空間：經(jīng)過(guò)簡(jiǎn)單定制，就可以滿(mǎn)足絕大部分常見(jiàn)的需求；經(jīng)過(guò)優(yōu)化，可以支持 10億+ 量級的搜索。

　　1.3 缺點(diǎn)

　　需要額外的開(kāi)發(fā)工作。所有的擴展，分布式，可靠性等都需要自己實(shí)現；非實(shí)時(shí)，從建索引到可以搜索中間有一個(gè)時(shí)間延遲，而當前的“近實(shí)時(shí)”(Lucene Near Real Time search)搜索方案的可擴展性有待進(jìn)一步完善.

　　2. Apache Solr

　　2.1 簡(jiǎn)介

　　Solr是一個(gè)高性能，采用Java開(kāi)發(fā)，基于Lucene的全文搜索服務(wù)器。文檔通過(guò)Http利用XML加到一個(gè)搜索集合中。查詢(xún)該集合也是通過(guò) http收到一個(gè)XML/JSON響應來(lái)實(shí)現。它的主要特性包括：高效、靈活的緩存功能，垂直搜索功能，高亮顯示搜索結果，通過(guò)索引復制來(lái)提高可用性，提供一套強大Data Schema來(lái)定義字段，類(lèi)型和設置文本分析，提供基于Web的管理界面等。

　　2.2 優(yōu)點(diǎn)

　?。?）Solr有一個(gè)更大、更成熟的用戶(hù)、開(kāi)發(fā)和貢獻者社區。

　?。?）支持添加多種格式的索引，如：HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。

　?。?）Solr比較成熟、穩定。

　?。?）不考慮建索引的同時(shí)進(jìn)行搜索，速度更快。

　　2.3 缺點(diǎn)

　　建立索引時(shí)，搜索效率下降，實(shí)時(shí)索引搜索效率不高

　　3. Elastic Search

　　3.1 簡(jiǎn)介

　　ElasticSearch是一個(gè)基于Lucene構建的開(kāi)源，分布式，RESTful搜索引擎。設計用于云計算中，能夠達到實(shí)時(shí)搜索，穩定，可靠，快速，安裝使用方便。支持通過(guò)HTTP使用JSON進(jìn)行數據索引。

　　3.2 優(yōu)點(diǎn)

　?。?）Elasticsearch是分布式的。不需要其他組件，分發(fā)是實(shí)時(shí)的，被叫做”P(pán)ush replication”。

　?。?）Elasticsearch 完全支持 Apache Lucene 的接近實(shí)時(shí)的搜索。

　?。?）處理多租戶(hù)（multitenancy）不需要特殊配置，而Solr則需要更多的高級設置。

　?。?）Elasticsearch 采用 Gateway 的概念，使得完備份更加簡(jiǎn)單。

　　各節點(diǎn)組成對等的網(wǎng)絡(luò )結構，某些節點(diǎn)出現故障時(shí)會(huì )自動(dòng)分配其他節點(diǎn)代替其進(jìn)行工作。

　　3.3 缺點(diǎn)

　　還不夠自動(dòng)（不適合當前新的Index Warmup API）

　　4. Elasticsearch 與 Solr 的比較總結

　?。?）二者安裝都很簡(jiǎn)單

　?。?）Solr 利用 Zookeeper 進(jìn)行分布式管理，而 Elasticsearch 自身帶有分布式協(xié)調管理功能;

　?。?）Solr 支持更多格式的數據，而 Elasticsearch 僅支持json文件格式；

　?。?）Solr 官方提供的功能更多，而 Elasticsearch 本身更注重于核心功能，高級功能多有第三方插件提供；

　?。?）Solr 在傳統的搜索應用中表現好于 Elasticsearch，但在處理實(shí)時(shí)搜索應用時(shí)效率明顯低于 Elasticsearch。

　?。?）總之，Solr 是傳統搜索應用的有力解決方案，但 Elasticsearch 更適用于新興的實(shí)時(shí)搜索應用。

　　5. Sphinx

　　5.1 簡(jiǎn)介

　　Sphinx一個(gè)基于SQL的全文檢索引擎，特別為一些腳本語(yǔ)言（PHP,Python，Perl，Ruby）設計搜索API接口。

　　Sphinx是一個(gè)用C++語(yǔ)言寫(xiě)的開(kāi)源搜索引擎，也是現在比較主流的搜索引擎之一，在建立索引的事件方面比Lucene快50%，但是索引文件比Lucene要大一倍，因此Sphinx在索引的建立方面是空間換取事件的策略，在檢索速度上，和lucene相差不大，但檢索精準度方面Lucene要優(yōu)于Sphinx，另外在加入中文分詞引擎難度方面，Lucene要優(yōu)于Sphinx.其中Sphinx支持實(shí)時(shí)搜索，使用起來(lái)比較簡(jiǎn)單方便.

　　Sphinx可以非常容易的與SQL數據庫和腳本語(yǔ)言集成。當前系統內置MySQL和PostgreSQL 數據庫數據源的支持，也支持從標準輸入讀取特定格式的XML數據。通過(guò)修改源代碼，用戶(hù)可以自行增加新的數據源（例如：其他類(lèi)型的DBMS 的原生支持）

　　5.2 特點(diǎn)

　?。?）高速的建立索引(在當代CPU上，峰值性能可達到10 MB/秒);

　?。?）高性能的搜索(在2 – 4GB 的文本數據上，平均每次檢索響應時(shí)間小于0.1秒);

　?。?）可處理海量數據(目前已知可以處理超過(guò)100 GB的文本數據, 在單一CPU的系統上可處理100 M 文檔);

　?。?）提供了優(yōu)秀的相關(guān)度算法，基于短語(yǔ)相似度和統計（BM25）的復合Ranking方法;

　?。?）支持分布式搜索;

　?。?）支持短語(yǔ)搜索

　?。?）提供文檔摘要生成

　?。?）可作為MySQL的存儲引擎提供搜索服務(wù);

　?。?）支持布爾、短語(yǔ)、詞語(yǔ)相似度等多種檢索模式;

　?。?0）文檔支持多個(gè)全文檢索字段(最大不超過(guò)32個(gè));

　?。?1）文檔支持多個(gè)額外的屬性信息(例如：分組信息，時(shí)間戳等);

　?。?2）支持斷詞;

　　6. Katta

　　6.1 簡(jiǎn)介

　　基于 Lucene 的，支持分布式，可擴展，具有容錯功能，準實(shí)時(shí)的搜索方案。

　　6.2 優(yōu)點(diǎn)

　　開(kāi)箱即用，可以與 Hadoop 配合實(shí)現分布式。具備擴展和容錯機制。

　　6.3 缺點(diǎn)

　　只是搜索方案，建索引部分還是需要自己實(shí)現。在搜索功能上，只實(shí)現了最基本的需求。成功案例較少，項目的成熟度稍微差一些。因為需要支持分布式，對于一些復雜的查詢(xún)需求，定制的難度會(huì )比較大。

　　三、參考文章

0

2022-05-21

搜索引擎進(jìn)行信息檢索的優(yōu)化策略方法

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

<td id="sb08m"></td>