開(kāi)源搜索引擎介紹與比較
優(yōu)采云 發(fā)布時(shí)間: 2022-06-05 15:10開(kāi)源搜索引擎介紹與比較
情報分析師
全國警務(wù)人員和情報人員都在關(guān)注
開(kāi)放源代碼搜索引擎為人們學(xué)習、研究并掌握搜索技術(shù)提供了極好的途徑與素材,推動(dòng)了搜索技術(shù)的普及與發(fā)展,使越來(lái)越多的人開(kāi)始了解并推廣使用搜索技術(shù)。使用開(kāi)源搜索引擎,可以大大縮短構建搜索應用的周期,并可根據應用需求打造個(gè)性化搜索應用,甚至構建符合特定需求的搜索引擎系統。搜索引擎的開(kāi)源,無(wú)論是對技術(shù)人員還是普通用戶(hù),都是一個(gè)福音。
搜索引擎的工作流程主要分為三步:從互聯(lián)網(wǎng)抓取網(wǎng)頁(yè)→創(chuàng )建抓取網(wǎng)頁(yè)的索引庫→從索引庫中進(jìn)行搜索。
首先需要一個(gè)能訪(fǎng)問(wèn)網(wǎng)絡(luò )的爬蟲(chóng)器程序,依據URL之間的關(guān)聯(lián)性自動(dòng)爬行整個(gè)互聯(lián)網(wǎng),并對爬行過(guò)的網(wǎng)頁(yè)進(jìn)行抓取收集。當網(wǎng)頁(yè)被收集回來(lái)后,采用索引分析程序進(jìn)行網(wǎng)頁(yè)信息的分析,依據一定的相關(guān)度算法(如超鏈接算法)進(jìn)行大量計算,創(chuàng )建倒排序的索引庫。索引庫建好后用戶(hù)就可以通過(guò)提供的搜索界面提交關(guān)鍵詞進(jìn)行搜索,依據特定的排序算法返回搜索結果。因此,搜索引擎并不是對互聯(lián)網(wǎng)進(jìn)行直接搜索,而是對已抓取網(wǎng)頁(yè)索引庫的搜索,這也是能快速返回搜索結果的原因,索引在其中扮演了最為重要的角色,索引算法的效率直接影響搜索引擎的效率,是評測搜索引擎是否高效的關(guān)鍵因素。
網(wǎng)頁(yè)爬行器、索引器、查詢(xún)器共同構成了搜索引擎的重要組成單元,針對特定的語(yǔ)言,如中文、韓文等,還需要分詞器進(jìn)行分詞,一般情況下,分詞器與索引器一起使用創(chuàng )建特定語(yǔ)言的索引庫。而開(kāi)放源代碼的搜索引擎為用戶(hù)提供了極大的透明性,開(kāi)放的源代碼、公開(kāi)的排序算法、隨意的可定制性,相比于商業(yè)搜索引擎而言,更為用戶(hù)所需要。目前,開(kāi)放源代碼的搜索引擎項目也有一些,主要集在中搜索引擎開(kāi)發(fā)工具包與架構、Web搜索引擎、文件搜索引擎幾個(gè)方面,本文概要介紹一下當前比較流行且相對比較成熟的幾個(gè)搜索引擎項目。
開(kāi)源搜索引擎工具包
1.Lucene
Lucene是目前最為流行的開(kāi)放源代碼全文搜索引擎工具包,隸屬于A(yíng)pache基金會(huì ),由資深全文索引/檢索專(zhuān)家Doug Cutting所發(fā)起,并以其妻子的中間名作為項目的名稱(chēng)。Lucene不是一個(gè)具有完整特征的搜索應用程序,而是一個(gè)專(zhuān)注于文本索引和搜索的工具包,能夠為應用程序添加索引與搜索能力?;贚ucene在索引及搜索方面的優(yōu)秀表現,雖然由Java編寫(xiě)的Lucene具有天生的跨平臺性,但仍被改編為許多其他語(yǔ)言的版本:Perl、Python、C++、.Net等。
同其他開(kāi)源項目一樣,Lucene具有非常好的架構,能夠方便地在其基礎上進(jìn)行研究與開(kāi)發(fā),添加新功能或者開(kāi)發(fā)新系統。Lucene本身只支持文本文件及少量語(yǔ)種的索引,并且不具備爬蟲(chóng)功能,而這正是Lucene的魅力所在,通過(guò)Lucene提供的豐富接口,我們可以根據自身的需要在其上添加具體語(yǔ)言的分詞器,針對具體文檔的文本解析器等,而這些具體的功能實(shí)現都可以借助于一些已有的相關(guān)開(kāi)源軟件項目、甚至是商業(yè)軟件來(lái)完成,這也保證了Lucene在索引及搜索方面的專(zhuān)注性。目前,通過(guò)在Lucene的基礎上加入爬行器、文本解析器等也形成了一些新的開(kāi)源項目,如LIUS、Nutch等。并且Lucene的索引數據結構已經(jīng)成了一種事實(shí)上的標準,為許多搜索引擎所采用。
2.LIUS
LIUS即Lucene Index Update and Search的縮寫(xiě),它是以L(fǎng)ucene為基礎發(fā)展起來(lái)的一種文本索引框架,和Lucene一樣,同樣可以看作搜索引擎開(kāi)發(fā)工具包。它在Lucene的基礎上作了一些相應的研究及添加了一些新的功能。LIUS借助于許多開(kāi)源軟件,可以直接對各種不同格式/類(lèi)型的文檔進(jìn)行文本解析與索引,這些文檔格式包括MS Word、MS Excel、MS PowerPoing、RTF、PDF、XML、HTML、TXT、Open Office及JavaBeans等,對Java Beans的支持對于進(jìn)行數據庫索引非常有用,在用戶(hù)進(jìn)行對象關(guān)系映射(如:Hibernate、JDO、TopLink、Torque等)的數據庫連接編程時(shí)會(huì )變得更加精確。LIUS還在Lucene的基礎上增加了索引更新功能,使針對索引的維護功能進(jìn)一步完善。并且支持混和索引,可以把同一目錄下與某一條件相關(guān)的所有內容整合到一起,這種功能對于需要對多種不同格式的文檔同時(shí)進(jìn)行索引時(shí)非常有用。
3.Egothor
Egothor是一款開(kāi)源的高性能全文搜索引擎,適用于基于全文搜索功能的搜索應用,它具有與Luccene類(lèi)似的核心算法,這個(gè)項目已經(jīng)存在了很多年,并且擁有一些積極的開(kāi)發(fā)人員及用戶(hù)團體。項目發(fā)起者Leo Galambos是捷克布拉格查理大學(xué)數學(xué)與物理學(xué)院的一名高級助理教授,他在博士*敏*感*詞*期間發(fā)起了此項目。
更多的時(shí)候,我們把Egothor看作一個(gè)用于全文搜索引擎的Java庫,能夠為具體的應用程序添加全文搜索功能。它提供了擴展的Boolean模塊,使得它能被作為Boolean模塊或者Vector模塊使用,并且Egothor具有一些其他搜索引擎所不具有的特有功能:它采用新的動(dòng)態(tài)算法以有效提高索引更新的速度,并且支持平行的查詢(xún)方式,可有效提高查詢(xún)效率。在Egothor的發(fā)行版中,加入了爬行器、文本解析器等許多增強易用性的應用程序,融入了Golomb、Elias-Gamma等多種高效的壓縮方法,支持多種常用文檔格式的文本解析,如HTML、PDF、PS、微軟Office文檔、XLS等,提供了GUI的索引界面及基于A(yíng)pplet或者Web的查詢(xún)方式。另外,Egothor還能被方便地配置成獨立的搜索引擎、元數據搜索器、點(diǎn)對點(diǎn)的HUB等多種體的應用系統。
4.Xapian
Xapian是基于GPL發(fā)布的搜索引擎開(kāi)發(fā)庫,它采用C++語(yǔ)言編寫(xiě),通過(guò)其提供綁定程序包可以使Perl、Python、PHP、Java、Tck、C#、Ruby等語(yǔ)言方便地使用它。
Xapian還是一個(gè)具有高適應性的工具集,使開(kāi)發(fā)人員能夠方便地為他們的應用程序添加高級索引及搜索功能。它支持信息檢索的概率模型及豐富的布爾查詢(xún)操作。Xapian的發(fā)布包通常由兩部分組成:xapian-core及xapian-bindings,前者是核心主程序,后者是與其他語(yǔ)言進(jìn)行綁定的程序包。
Xapian為程序開(kāi)發(fā)者提供了豐富的API及文檔進(jìn)行程序的編制,而且還提供了許多編程實(shí)例及一個(gè)基于Xapian的應用程序Omega,Omega由索引器及基于CGI的前端搜索組成,能夠為HTML、PHP、PDF、PostScript、OpenOffice/StarOffice、RTF等多種格式的文檔編制索引,通過(guò)使用Perl DBI模塊甚至能為MySQL、PostgreSQL、SQLite、Sybase、MS SQL、LDAP、ODBC等關(guān)系數據庫編制索引,并能以CSV或XML格式從前端導出搜索結果,程序開(kāi)發(fā)者可以在此基礎上進(jìn)行擴展。
5.Compass
Compass是在Lucene上實(shí)現的開(kāi)源搜索引擎架構,相對比于Lucene而言,提供更加簡(jiǎn)潔的搜索引擎API。增加了索引事務(wù)處理的支持,使其能夠更方便地與數據庫等事務(wù)處理應用進(jìn)行整合。它更新時(shí)無(wú)需刪除原文檔,更加簡(jiǎn)單更加高效。資源與搜索引擎之間采用映射機制,此種機制使得那些已經(jīng)使用了Lucene或者不支持對象及XML的應用程序遷移到Compass上進(jìn)行開(kāi)發(fā)變得非常容易。
Compass還能與Hibernate、Spring等架構進(jìn)行集成,因此如果想在Hibernate、Spring項目中加入搜索引擎功能,Compass是個(gè)極好的選擇。
開(kāi)源Web搜索引擎系統
1.Nutch
Nutch是Lucene的作者Doug Cutting發(fā)起的另一個(gè)開(kāi)源項目,它是構建于Lucene基礎上的完整的Web搜索引擎系統,雖然誕生時(shí)間不長(cháng),但卻以其優(yōu)良血統及簡(jiǎn)潔方便的使用方式而廣收歡迎。我們可以使用Nutch搭建類(lèi)似Google的完整的搜索引擎系統,進(jìn)行局域網(wǎng)、互聯(lián)網(wǎng)的搜索。
2.YaCy
YaCy是一款基于P2P(peer-to-peer)的分布式開(kāi)源Web搜索引擎系統,采用Java語(yǔ)言進(jìn)行編寫(xiě),其核心是分布在數百臺計算機上的被稱(chēng)為YaCy-peer的計算機程序,基于P2P網(wǎng)絡(luò )構成了YaCy網(wǎng)絡(luò ),整個(gè)網(wǎng)絡(luò )是一個(gè)分散的架構,在其中所有的YaCy-peers都處于對等的地位,沒(méi)有統一的中心服務(wù)器,每個(gè)YaCy-peer都能獨立的進(jìn)行互聯(lián)網(wǎng)的爬行抓取、分析及創(chuàng )建索引庫,通過(guò)P2P網(wǎng)絡(luò )與其他YaCy-peers進(jìn)行共享,并且每個(gè)YaCy-peer又都是一個(gè)獨立的代理服務(wù)器,能夠對本機用戶(hù)使用過(guò)的網(wǎng)頁(yè)進(jìn)行索引,并且采取多機制來(lái)保護用戶(hù)的隱私,同時(shí)用戶(hù)也通過(guò)本機運行的Web服務(wù)器進(jìn)行查詢(xún)及返回查詢(xún)結果。
YaCy搜索引擎主要包括五個(gè)部分,除普通搜索引擎所具有的爬行器、索引器、反排序的索引庫外,它還包括了一個(gè)非常豐富的搜索與管理界面以及用于數據共享的P2P網(wǎng)絡(luò )。
開(kāi)源桌面搜索引擎系統
1.Regain
regain是一款與Web搜索引擎類(lèi)似的桌面搜索引擎系統,其不同之處在于regain不是對Internet內容的搜索,而是針對自己的文檔或文件的搜索,使用regain可以輕松地在幾秒內完成大量數據(許多個(gè)G)的搜索。Regain采用了Lucene的搜索語(yǔ)法,因此支持多種查詢(xún)方式,支持多索引的搜索及基于文件類(lèi)型的高級搜索,并且能實(shí)現URL重寫(xiě)及文件到HTTP的橋接,并且對中文也提供了較好的支持。
Regain提供了兩種版本:桌面搜索及服務(wù)器搜索。桌面搜索提供了對普通桌面計算機的文檔與局域網(wǎng)環(huán)境下的網(wǎng)頁(yè)的快速搜索。服務(wù)器版本主要安裝在Web服務(wù)器上,為網(wǎng)站及局域網(wǎng)環(huán)境下的文件服務(wù)器進(jìn)行搜索。
Regain使用Java編寫(xiě),因此可以實(shí)現跨平臺安裝,能安裝于Windows、Linux、Mac OS及Solaris上。服務(wù)器版本需要JSPs環(huán)境及標簽庫(tag library),因此需要安裝一個(gè)Tomcat容器。而桌面版自帶了一個(gè)小型的Web服務(wù)器,安裝非常簡(jiǎn)單。
2.Zilverline
Zilverline是一款以L(fǎng)ucene為基礎的桌面搜索引擎,采用了Spring框架,它主要用于個(gè)人本地磁盤(pán)及局域網(wǎng)內容的搜索,支持多種語(yǔ)言,并且具有自己的中文名字:銀錢(qián)查打引擎。Zilverline提供了豐富的文檔格式的索引支持,如微軟Office文檔、RTF、Java、CHM等,甚至能夠為歸檔文件編制索引進(jìn)行搜索,如zip、rar及其他歸檔文件,在索引過(guò)程中,Zilverline從zip、rar、chm等歸檔文件中抽取文件來(lái)編制索引。Zilverline可以支持增量索引的方式,只對新文件編制索引,同時(shí)也支持定期自動(dòng)索引,其索引庫能被存放于Zilverline能夠訪(fǎng)問(wèn)到的地方,甚至是DVD中。同時(shí),Zilverline還支持文件路徑到URL的映射,這樣可以使用戶(hù)遠程搜索本地文件。
Zilverline提供了個(gè)人及研究、商業(yè)應用兩種許可方式,其發(fā)布形式為一個(gè)簡(jiǎn)單的war包,可以從其官方網(wǎng)站下載()。Zilverline的運行環(huán)境需要Java環(huán)境及Servlet容器,一般使用Tomcat即可。在確保正確安裝JDK及Tomcat容器后只需將Zilverline的war包(zilverline-1.5.0.war)拷貝到Tomcat的webapps目錄后重啟Tomcat容器即可開(kāi)始使用Zilverline搜索引擎了。