搜索引擎框架介紹
優(yōu)采云 發(fā)布時(shí)間: 2022-05-21 02:21搜索引擎框架介紹
歡迎將公眾號設置為星標,技術(shù)文章第一時(shí)間看到。我們將一如既往精選技術(shù)好文,提供有價(jià)值的閱讀。如果文章對你有幫助,歡迎點(diǎn)個(gè)在看鼓勵作者。
技術(shù)經(jīng)驗交流:
一、搜索引擎基礎介紹1. 什么是搜索引擎
搜索引擎,通常指的是收集了萬(wàn)維網(wǎng)上幾千萬(wàn)到幾十億個(gè)網(wǎng)頁(yè)并對網(wǎng)頁(yè)中的每一個(gè)詞(即關(guān)鍵詞)進(jìn)行索引,建立索引數據庫的全文搜索引擎。當用戶(hù)查找某個(gè)關(guān)鍵詞的時(shí)候,所有在頁(yè)面內容中包含了該關(guān)鍵詞的網(wǎng)頁(yè)都將作為搜索結果被搜出來(lái)。再經(jīng)過(guò)復雜的算法進(jìn)行排序(或者包含商業(yè)化的競價(jià)排名、商業(yè)推廣或者廣告)后,這些結果將按照與搜索關(guān)鍵詞的相關(guān)度高低(或與相關(guān)度毫無(wú)關(guān)系),依次排列。
2. 傳統的搜索與搜索引擎對比
2.1 傳統做法
?。?)文檔中使用系統的Find查找
?。?)mysql中使用like模糊查詢(xún)
存在問(wèn)題:
?。?)海量數據中不能及時(shí)響應,少量數據可以通過(guò)傳統的MySql建立索引解決
?。?)一些無(wú)用詞不能進(jìn)行過(guò)濾,沒(méi)法分詞
?。?)數據量大的話(huà)難以拓展
?。?)相同的數據難以進(jìn)行相似度最高的進(jìn)行排序
2.2 搜索引擎做法
?。?)存儲非結構化的數據
?。?)快速檢索和響應我們需要的信息,快-準
?。?)進(jìn)行相關(guān)性的排序,過(guò)濾等
?。?)可以去掉停用詞(沒(méi)有特殊含義的詞,比如英文的a,is等,中文: 這,的,是等),框架一般支持可以自定義停用詞
二、常見(jiàn)搜索引擎框架介紹與比較1. Java 全文搜索引擎框架 Lucene
1.1 簡(jiǎn)介
Lucene的開(kāi)發(fā)語(yǔ)言是Java,也是Java家族中最為出名的一個(gè)開(kāi)源搜索引擎,在Java世界中已經(jīng)是標準的全文檢索程序,它提供了完整的查詢(xún)引擎和索引引擎,沒(méi)有中文分詞引擎,需要自己去實(shí)現,因此用Lucene去做一個(gè)搜素引擎需要自己去架構,另外它不支持實(shí)時(shí)搜索。但是solr和elasticsearch都是基于Lucene封裝。
1.2 優(yōu)點(diǎn)
成熟的解決方案,有很多的成功案例。apache 頂級項目,正在持續快速的進(jìn)步。龐大而活躍的開(kāi)發(fā)社區,大量的開(kāi)發(fā)人員。它只是一個(gè)類(lèi)庫,有足夠的定制和優(yōu)化空間:經(jīng)過(guò)簡(jiǎn)單定制,就可以滿(mǎn)足絕大部分常見(jiàn)的需求;經(jīng)過(guò)優(yōu)化,可以支持 10億+ 量級的搜索。
1.3 缺點(diǎn)
需要額外的開(kāi)發(fā)工作。所有的擴展,分布式,可靠性等都需要自己實(shí)現;非實(shí)時(shí),從建索引到可以搜索中間有一個(gè)時(shí)間延遲,而當前的“近實(shí)時(shí)”(Lucene Near Real Time search)搜索方案的可擴展性有待進(jìn)一步完善.
2. Apache Solr
2.1 簡(jiǎn)介
Solr是一個(gè)高性能,采用Java開(kāi)發(fā),基于Lucene的全文搜索服務(wù)器。文檔通過(guò)Http利用XML加到一個(gè)搜索集合中。查詢(xún)該集合也是通過(guò) http收到一個(gè)XML/JSON響應來(lái)實(shí)現。它的主要特性包括:高效、靈活的緩存功能,垂直搜索功能,高亮顯示搜索結果,通過(guò)索引復制來(lái)提高可用性,提 供一套強大Data Schema來(lái)定義字段,類(lèi)型和設置文本分析,提供基于Web的管理界面等。
2.2 優(yōu)點(diǎn)
?。?)Solr有一個(gè)更大、更成熟的用戶(hù)、開(kāi)發(fā)和貢獻者社區。
?。?)支持添加多種格式的索引,如:HTML、PDF、微軟 Office 系列軟件格式以及 JSON、XML、CSV 等純文本格式。
?。?)Solr比較成熟、穩定。
?。?)不考慮建索引的同時(shí)進(jìn)行搜索,速度更快。
2.3 缺點(diǎn)
建立索引時(shí),搜索效率下降,實(shí)時(shí)索引搜索效率不高
3. Elastic Search
3.1 簡(jiǎn)介
ElasticSearch是一個(gè)基于Lucene構建的開(kāi)源,分布式,RESTful搜索引擎。設計用于云計算中,能夠達到實(shí)時(shí)搜索,穩定,可靠,快速,安裝使用方便。支持通過(guò)HTTP使用JSON進(jìn)行數據索引。
3.2 優(yōu)點(diǎn)
?。?)Elasticsearch是分布式的。不需要其他組件,分發(fā)是實(shí)時(shí)的,被叫做”P(pán)ush replication”。
?。?)Elasticsearch 完全支持 Apache Lucene 的接近實(shí)時(shí)的搜索。
?。?)處理多租戶(hù)(multitenancy)不需要特殊配置,而Solr則需要更多的高級設置。
?。?)Elasticsearch 采用 Gateway 的概念,使得完備份更加簡(jiǎn)單。
各節點(diǎn)組成對等的網(wǎng)絡(luò )結構,某些節點(diǎn)出現故障時(shí)會(huì )自動(dòng)分配其他節點(diǎn)代替其進(jìn)行工作。
3.3 缺點(diǎn)
還不夠自動(dòng)(不適合當前新的Index Warmup API)
4. Elasticsearch 與 Solr 的比較總結
?。?)二者安裝都很簡(jiǎn)單
?。?)Solr 利用 Zookeeper 進(jìn)行分布式管理,而 Elasticsearch 自身帶有分布式協(xié)調管理功能;
?。?)Solr 支持更多格式的數據,而 Elasticsearch 僅支持json文件格式;
?。?)Solr 官方提供的功能更多,而 Elasticsearch 本身更注重于核心功能,高級功能多有第三方插件提供;
?。?)Solr 在傳統的搜索應用中表現好于 Elasticsearch,但在處理實(shí)時(shí)搜索應用時(shí)效率明顯低于 Elasticsearch。
?。?)總之,Solr 是傳統搜索應用的有力解決方案,但 Elasticsearch 更適用于新興的實(shí)時(shí)搜索應用。
5. Sphinx
5.1 簡(jiǎn)介
Sphinx一個(gè)基于SQL的全文檢索引擎,特別為一些腳本語(yǔ)言(PHP,Python,Perl,Ruby)設計搜索API接口。
Sphinx是一個(gè)用C++語(yǔ)言寫(xiě)的開(kāi)源搜索引擎,也是現在比較主流的搜索引擎之一,在建立索引的事件方面比Lucene快50%,但是索引文件比Lucene要大一倍,因此Sphinx在索引的建立方面是空間換取事件的策略,在檢索速度上,和lucene相差不大,但檢索精準度方面Lucene要優(yōu)于Sphinx,另外在加入中文分詞引擎難度方面,Lucene要優(yōu)于Sphinx.其中Sphinx支持實(shí)時(shí)搜索,使用起來(lái)比較簡(jiǎn)單方便.
Sphinx可以非常容易的與SQL數據庫和腳本語(yǔ)言集成。當前系統內置MySQL和PostgreSQL 數據庫數據源的支持,也支持從標準輸入讀取特定格式 的XML數據。通過(guò)修改源代碼,用戶(hù)可以自行增加新的數據源(例如:其他類(lèi)型的DBMS 的原生支持)
5.2 特點(diǎn)
?。?)高速的建立索引(在當代CPU上,峰值性能可達到10 MB/秒);
?。?)高性能的搜索(在2 – 4GB 的文本數據上,平均每次檢索響應時(shí)間小于0.1秒);
?。?)可處理海量數據(目前已知可以處理超過(guò)100 GB的文本數據, 在單一CPU的系統上可 處理100 M 文檔);
?。?)提供了優(yōu)秀的相關(guān)度算法,基于短語(yǔ)相似度和統計(BM25)的復合Ranking方法;
?。?)支持分布式搜索;
?。?)支持短語(yǔ)搜索
?。?)提供文檔摘要生成
?。?)可作為MySQL的存儲引擎提供搜索服務(wù);
?。?)支持布爾、短語(yǔ)、詞語(yǔ)相似度等多種檢索模式;
?。?0)文檔支持多個(gè)全文檢索字段(最大不超過(guò)32個(gè));
?。?1)文檔支持多個(gè)額外的屬性信息(例如:分組信息,時(shí)間戳等);
?。?2)支持斷詞;
6. Katta
6.1 簡(jiǎn)介
基于 Lucene 的,支持分布式,可擴展,具有容錯功能,準實(shí)時(shí)的搜索方案。
6.2 優(yōu)點(diǎn)
開(kāi)箱即用,可以與 Hadoop 配合實(shí)現分布式。具備擴展和容錯機制。
6.3 缺點(diǎn)
只是搜索方案,建索引部分還是需要自己實(shí)現。在搜索功能上,只實(shí)現了最基本的需求。成功案例較少,項目的成熟度稍微差一些。因為需要支持分布式,對于一些復雜的查詢(xún)需求,定制的難度會(huì )比較大。
三、參考文章