最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

航天四創(chuàng )搜索服務(wù)系統(CSSv5.1)系統功能頻道管理

優(yōu)采云 發(fā)布時(shí)間: 2021-06-12 00:01

  航天四創(chuàng )搜索服務(wù)系統(CSSv5.1)系統功能頻道管理

  1)系統要求

  Content采集Search服務(wù)系統經(jīng)過(guò)不斷的實(shí)踐和改進(jìn),已經(jīng)成為功能更加先進(jìn)、成熟的產(chǎn)品。為行業(yè)用戶(hù)提供針對性強、針對性強的垂直搜索服務(wù)。它被政府、國有企業(yè)和公共機構使用。不錯的選擇。

  CSSv5.1 的主要特點(diǎn)如下:

 ?。?)定位獨一無(wú)二:面向政府、企事業(yè)單位,以實(shí)用為主,易學(xué)易用。

 ?。?)有一個(gè)明確的目標:為用戶(hù)提供面向互聯(lián)網(wǎng)的信息采集、自定義索引和站點(diǎn)搜索服務(wù),并支持各種功能模塊的集成應用。

 ?。?)快速實(shí)施:專(zhuān)業(yè)實(shí)施人員一周內即可部署、安裝、調試系統。

 ?。?)運維簡(jiǎn)單:應用智能引導方式,提供基礎配置邏輯,有效降低系統運維難度,改變非程序員操作難,讓產(chǎn)品擁有“傻瓜式" 特征。

 ?。?)免費升級:運維期間,公司免費將產(chǎn)品升級到最新發(fā)布的版本。

  (6)性?xún)r(jià)比高:航天四創(chuàng )搜索服務(wù)系統與市場(chǎng)同類(lèi)產(chǎn)品相比,以強大的功能和低廉的價(jià)格為核心競爭力。

  2)系統框架

  

  3)系統函數

  渠道管理

  頻道管理是定義采集任務(wù)信息并提取信息的管理模塊。不同的采集 網(wǎng)站按頻道分類(lèi)。通道可以收錄一項或多項任務(wù)。用戶(hù)可以根據分類(lèi)需要或習慣,將一些相關(guān)的網(wǎng)站歸為一個(gè)類(lèi)別,定義為一個(gè)頻道。

  l 抓取配置:定義采集任務(wù)的優(yōu)先級,分配采集器,設置更新周期等運行設置。

  l 調度配置:設置抓取任務(wù)為自動(dòng)抓取或定時(shí)抓取。

  l 解析配置:設置抓取任務(wù)的頁(yè)面解析規則和元數據提議規則。

  采集器管理

  添加采集器的ip和端口,為采集服務(wù)的檢測提供基礎配置管理。

  任務(wù)導出

  用戶(hù)可以使用采集導出功能將采集任務(wù)下載的站點(diǎn)數據以XML文件的形式導出,并集成到其他業(yè)務(wù)系統中。 采集Export 提供根據任務(wù)組合、頁(yè)面發(fā)布時(shí)間、每頁(yè)導出記錄數、文件類(lèi)型、是否收錄圖片導出數據的功能。

  索引庫管理

  可以創(chuàng )建多個(gè)索引庫,每個(gè)索引庫可以添加多個(gè)索引條目。系統采用中文分詞技術(shù),可設置索引項的分詞和模糊匹配。

  同義詞管理

  用戶(hù)可以使用詞典管理功能為索引過(guò)程創(chuàng )建同義詞詞典。具體操作包括創(chuàng )建同義詞、刪除同義詞、搜索同義詞。

  索引設置

  索引庫的基本配置,包括索引庫路徑、服務(wù)器地址等,提供系統定時(shí)自動(dòng)處理索引庫操作的功能。

  分類(lèi)樹(shù)管理

  用戶(hù)可以在類(lèi)目編號管理中定義父類(lèi)或子類(lèi)。在定義的分類(lèi)樹(shù)中,分類(lèi)在分類(lèi)樹(shù)中的位置是可以移動(dòng)的,但是分類(lèi)只能在同一層級之間移動(dòng),不能越級移動(dòng)。如果移動(dòng)了父類(lèi),那么父類(lèi)下的所有子類(lèi)也將被移動(dòng)。移動(dòng)。

  分類(lèi)規則管理

  分類(lèi)規則管理中可以定義分類(lèi)規則的各種屬性,包括分類(lèi)之間的關(guān)系、是否有效、關(guān)鍵詞、來(lái)源、文件類(lèi)型等。

  分類(lèi)信息發(fā)布管理

  可以管理分類(lèi)下的信息發(fā)布。

  信息導出管理

  用戶(hù)可以將定義的類(lèi)別下的信息導出并存儲在自己的文件目錄中。

  4)系統功能

  松耦合架構,支持各功能模塊的擴展應用

  由于數據采集和內容檢索的廣泛應用,系統設計采用松耦合架構,各功能模塊相對獨立,使得采集和索引不僅僅是搜索服務(wù)系統的核心業(yè)務(wù),還有其他業(yè)務(wù)系統集成。

  多機采集,分布式部署,適應*敏*感*詞*采集任務(wù)

  系統支持一臺機器或多臺機器上的采集任務(wù)。用戶(hù)可以通過(guò)注冊來(lái)聲明一個(gè)新的采集器。當采集任務(wù)過(guò)大時(shí),采集器和數據庫的分布式部署可以處理海量數據。

  基于超鏈接分析等技術(shù),實(shí)現對各種數據的有效處理

  能夠采集多種網(wǎng)頁(yè)類(lèi)型,包括:靜態(tài)網(wǎng)頁(yè),如html、xml、shtml等; JavaScript 生成的動(dòng)態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)超鏈接信息。

  提供不同信息類(lèi)型的分析

  包括動(dòng)態(tài)網(wǎng)頁(yè)信息和靜態(tài)網(wǎng)頁(yè)信息的分析附件,鏈接采集支持自定義爬取規則。根據目前的經(jīng)驗,正則表達式和通配符是一種比較簡(jiǎn)單的覆蓋鏈接范圍的方式 除了表達方式之外,考慮到邏輯判斷的需要,即一個(gè)正則表達式不能完全表達,邏輯可以完成通過(guò)動(dòng)態(tài)腳本。

  多頁(yè)面解析方式,系統維護簡(jiǎn)單好用

  利用XPATH逆向生成工具和在線(xiàn)驗證方式,實(shí)現所見(jiàn)即所得的元數據提取規則設置,改善只有技術(shù)人員才能維護的維護條件,提高系統維護的便捷性。

  多種信息導出方式,支持信息復用

  選擇采集task和cms列的對應關(guān)系,通過(guò)授權驗證后以cms提供的web服務(wù)接口的形式導出信息。

  對于外部系統請求數據的過(guò)程,獲取信息有兩種方式,一種是XML導出,另一種是Web服務(wù)接口。

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区