紅葉文章采集器3.6綠色版
優(yōu)采云 發(fā)布時(shí)間: 2020-04-18 09:52
超級強悍的網(wǎng)站文章采集器,本軟件全名為紅葉文章采集器,英文名稱(chēng)Fast_Spider,屬于蜘蛛爬蟲(chóng)類(lèi)程序,用于從指定網(wǎng)站采集海量精華文章,將直接扔掉其中的垃圾網(wǎng)頁(yè)信息,僅保存具備閱讀價(jià)值和瀏覽價(jià)值的精華文章,自動(dòng)執行HTM-TXT轉換。本軟件為紅色軟件解壓即可使用!
軟件特色
(1)本軟件采用清華天網(wǎng)MD5指紋排重算法,對于相像相同的網(wǎng)頁(yè)信息,不再重復保存。
(2)采集信息涵義:[[HT]]表示網(wǎng)頁(yè)標題,[[HA]]表示文章標題,[[HC]]表示10個(gè)權重關(guān)鍵字,[[UR]]表示網(wǎng)頁(yè)中的圖片鏈接,[[TXT]]之后為正文。
(3)蜘蛛性能:本軟件開(kāi)啟300個(gè)線(xiàn)程來(lái)保證采集效率。通過(guò)采集100萬(wàn)精華文章來(lái)執行壓力測試,以普通網(wǎng)民的聯(lián)網(wǎng)計算機為參考標準,單臺計算機可以在一天內遍歷200萬(wàn)網(wǎng)頁(yè)、采集20萬(wàn)精華文章,100萬(wàn)精華文章僅需5天就可采集完畢。
(4) 正式版與免費版的區別在于:正式版準許將采集的精華文章數據手動(dòng)保存為ACCESS數據庫。購買(mǎi)正式版請聯(lián)系QQ(970093569)。
操作方法
(1)使用前,必須確保你的計算機可以連通網(wǎng)路,且防火墻不要攔截本軟件。
(2)運行SETUP.EXE和setup2.exe,以安裝操作系統system32支持庫。
(3)運行spider.exe,輸入網(wǎng)址入口,先點(diǎn)"人工添加"按鈕,再點(diǎn)"啟動(dòng)"按鈕,將開(kāi)始執行采集。
注意事項
(1)抓取深度:填寫(xiě)0表示不限制抓取深度;填寫(xiě)3表示抓到第3層。
(2)通用蜘蛛模式與分類(lèi)蜘蛛模式的區別:假定網(wǎng)址入口為“;,若選擇通用蜘蛛模式,將遍歷“baidu.com”里面的每一個(gè)網(wǎng)頁(yè);若選擇分類(lèi)蜘蛛模式,則只遍歷“youxi.baidu.com”里面的每一個(gè)網(wǎng)頁(yè)。
(3) 按鈕“從MDB導出”:網(wǎng)址入口從TASK.MDB中批量導出。
(4)本軟件采集的原則是不越站,例如給的入口是“;,就只在百度站點(diǎn)內部抓取。
(5)本軟件采集過(guò)程中,偶爾會(huì )彈出一個(gè)或數個(gè)“錯誤對話(huà)框”,請不予理會(huì ),倘若關(guān)掉“錯誤對話(huà)框”,采集軟件都會(huì )死掉。
(6)使用者怎么選擇采集題材:例如你若果采集 “股票類(lèi)”文章,只需把這些“股票類(lèi)”站點(diǎn)作為網(wǎng)址入口即可。
超級強悍的網(wǎng)站文章采集器,本軟件全名為紅葉文章采集器,英文名稱(chēng)Fast_Spider,屬于蜘蛛爬蟲(chóng)類(lèi)程序,用于從指定網(wǎng)站采集海量精華文章文章采集,將直接扔掉其中的垃圾網(wǎng)頁(yè)信息,僅保存具備閱讀價(jià)值和瀏覽價(jià)值的精華文章,自動(dòng)執行HTM-TXT轉換。本軟件為紅色軟件解壓即可使用!
軟件特色
(1)本軟件采用清華天網(wǎng)MD5指紋排重算法,對于相像相同的網(wǎng)頁(yè)信息,不再重復保存。
(2)采集信息涵義:[[HT]]表示網(wǎng)頁(yè)標題,[[HA]]表示文章標題文章采集軟件下載,[[HC]]表示10個(gè)權重關(guān)鍵字,[[UR]]表示網(wǎng)頁(yè)中的圖片鏈接,[[TXT]]之后為正文。
(3)蜘蛛性能:本軟件開(kāi)啟300個(gè)線(xiàn)程來(lái)保證采集效率。通過(guò)采集100萬(wàn)精華文章來(lái)執行壓力測試,以普通網(wǎng)民的聯(lián)網(wǎng)計算機為參考標準,單臺計算機可以在一天內遍歷200萬(wàn)網(wǎng)頁(yè)、采集20萬(wàn)精華文章,100萬(wàn)精華文章僅需5天就可采集完畢。
(4) 正式版與免費版的區別在于:正式版準許將采集的精華文章數據手動(dòng)保存為ACCESS數據庫。購買(mǎi)正式版請聯(lián)系QQ(970093569)。
操作方法
(1)使用前,必須確保你的計算機可以連通網(wǎng)路文章采集軟件下載,且防火墻不要攔截本軟件。
(2)運行SETUP.EXE和setup2.exe,以安裝操作系統system32支持庫。
(3)運行spider.exe,輸入網(wǎng)址入口,先點(diǎn)"人工添加"按鈕,再點(diǎn)"啟動(dòng)"按鈕,將開(kāi)始執行采集。
注意事項
(1)抓取深度:填寫(xiě)0表示不限制抓取深度;填寫(xiě)3表示抓到第3層。
(2)通用蜘蛛模式與分類(lèi)蜘蛛模式的區別:假定網(wǎng)址入口為“;,若選擇通用蜘蛛模式,將遍歷“baidu.com”里面的每一個(gè)網(wǎng)頁(yè);若選擇分類(lèi)蜘蛛模式,則只遍歷“youxi.baidu.com”里面的每一個(gè)網(wǎng)頁(yè)。
(3) 按鈕“從MDB導出”:網(wǎng)址入口從TASK.MDB中批量導出。
(4)本軟件采集的原則是不越站,例如給的入口是“;,就只在百度站點(diǎn)內部抓取。
(5)本軟件采集過(guò)程中,偶爾會(huì )彈出一個(gè)或數個(gè)“錯誤對話(huà)框”,請不予理會(huì ),倘若關(guān)掉“錯誤對話(huà)框”,采集軟件都會(huì )死掉。
(6)使用者怎么選擇采集題材:例如你若果采集 “股票類(lèi)”文章,只需把這些“股票類(lèi)”站點(diǎn)作為網(wǎng)址入口即可。