
命令模式
batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 524 次瀏覽 ? 2020-08-03 17:00
batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配置方式參數解讀
更新時(shí)間:2008年07月11日 08:44:35 轉載作者:
主要的功能頁(yè)面為pagecollect.php和batchcollect.php要實(shí)現采集,默認方法是按照配置好的采集規則,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
前言
要實(shí)現采集,默認方法是按照配置好的采集規則文章定時(shí)自動(dòng)采集,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
而實(shí)現定時(shí)采集,與人工在瀏覽器遞交有些區別,主要分兩大步驟:
一、編寫(xiě)采集的url和相關(guān)參數,訪(fǎng)問(wèn)這個(gè)url即可實(shí)現想要的采集模式。(這個(gè)url直接在瀏覽器遞交同樣可以實(shí)現采集)
二、把定時(shí)訪(fǎng)問(wèn)這個(gè)url的功能加到系統的定時(shí)任務(wù)上面,實(shí)現無(wú)人值守的定時(shí)采集。
具體實(shí)現方式請參考下邊內容:
1、對采集配置文件的解釋
任何一個(gè)采集都會(huì )用到兩個(gè)采集配置文件(跟后臺采集規則配置對應),都可以用文本編輯器打開(kāi)查看。
其中/configs/article/collectsite.php是對總的采集站點(diǎn)配置,記錄了一共容許采集哪幾個(gè)站點(diǎn)。
里面包含類(lèi)似這樣的內容:
$jieqiCollectsite['1']['name']='采集站點(diǎn)一';
$jieqiCollectsite['1']['config']='abc_com';
$jieqiCollectsite['1']['url']='';
$jieqiCollectsite['1']['subarticleid']='floor($articleid/1000)';
$jieqiCollectsite['1']['enable']='1';
$jieqiCollectsite['2']['name']='采集站點(diǎn)二';
$jieqiCollectsite['2']['config']='def_net';
$jieqiCollectsite['2']['url']='';
$jieqiCollectsite['2']['subarticleid']='';
$jieqiCollectsite['2']['enable']='1';
參數涵義解釋如下:
['1']-這里的1表示采集網(wǎng)站的數字序號,不同的采集站序號不能重復。
['name']-采集網(wǎng)站名稱(chēng)。
['config']-網(wǎng)站英文標示,這個(gè)網(wǎng)站采集規則配置文件有關(guān),比如這個(gè)值是abc_com,那么采集規則配置文件就是/configs/article/site_abc_com.php。
['url']-采集網(wǎng)站網(wǎng)址。
['subarticleid']-采集網(wǎng)站,文章子序號運算方法,本項目主要為了兼容原先程序,新版本上面文章子序號可以通過(guò)采集獲得。
['enable']-是否容許采集,1表示準許,0表示嚴禁,默認為1。
如上面所說(shuō),每個(gè)采集網(wǎng)站有個(gè)專(zhuān)門(mén)的采集規則配置文件,/configs/article/目錄下以site_開(kāi)頭的php文件,如/configs/article/site_abc_com.php。
里面內容都與后臺采集規則設置相對應,具體細節不一一解釋。需要了解的是本文件上面內容分兩大部份,前面內容都是對網(wǎng)站內容采集規則的配置,而最前面$jieqiCollect['listcollect']['0'],$jieqiCollect['listcollect']['1']這樣的設置是對網(wǎng)站"批量采集規則"的配置,比如按近來(lái)更新采集、按排行榜采集,可以設置多個(gè)。['0']這里的數字0表示批量采集類(lèi)別的數字序號,同一個(gè)網(wǎng)站也不能重復。
2、編寫(xiě)采集內容的url及參數
這里的采集是針對多篇文章批量采集,分兩種模式:
一、按頁(yè)面批量采集,比如采集最新更新列表或則排行榜列表,每個(gè)鏈接采集一頁(yè)。
鏈接格式如下:
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為collect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
collectname-數字類(lèi)型,按頁(yè)面批量采集的類(lèi)別序號,見(jiàn)配置文件site_xxxx.php上面下邊的。$jieqiCollect['listcollect']['0']這樣配置的數字。
startpageid--頁(yè)碼標志,表示從列表的第幾頁(yè)開(kāi)始采集。一般是數字類(lèi)型,有些網(wǎng)站也可能是字符串。
maxpagenum--數字類(lèi)型,表示表示一共采集幾頁(yè)。(默認為1,如果要采集多頁(yè),是須要瀏覽器跳轉的,只有在windows環(huán)境下調用瀏覽器時(shí)侯有效,linux下調用wget時(shí)侯最多只能采集一頁(yè),需要采集多頁(yè)可設置多個(gè)采集命令。)
notaddnew--數字類(lèi)型,0-表示采集全部文章,1-表示只更新本站已有的文章。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
二、按照文章序號批量采集
鏈接格式如下:
,234,345&jieqi_username=admin&jieqi_userpassword=1234
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為bcollect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
batchids-要采集的對方網(wǎng)站文章序號(不是本地的文章序號),采集多個(gè)文章,序號用英語(yǔ)冒號分開(kāi),如123,234,345。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
注:一個(gè)url須要放在IE瀏覽器上面遞交的時(shí)侯,整個(gè)url最大寬度度不要超過(guò)2083字節,所以通常建議這兒的url不要設置成很長(cháng),文章多的可以分拆成多個(gè)url。
3、利用系統任務(wù)實(shí)現定時(shí)采集
一、windows環(huán)境下做法
windows上面可以用系統的任務(wù)計劃來(lái)實(shí)現定時(shí)執行程序,不過(guò)首先須要制做一個(gè)批處理文件,在這個(gè)文件上面用命令來(lái)調用瀏覽器來(lái)執行采集url。需要注意的是命令只能打開(kāi)瀏覽器而不會(huì )采集好以后手動(dòng)關(guān)掉,要實(shí)現采集完手動(dòng)關(guān)掉可以通過(guò)javascript實(shí)現。自動(dòng)關(guān)掉本窗口的js代碼為:
這里的參數3000是指延后關(guān)掉時(shí)間,單位是微秒,3000表示延后3秒關(guān)掉。
這段代碼可以在兩個(gè)地方加入:
一個(gè)是加入到提示信息模板/themes/風(fēng)格名稱(chēng)/msgwin.html上面,和之間加入前面那段js。這樣的療效是整個(gè)系統任何提示信息頁(yè)面就會(huì )在3秒鐘后手動(dòng)關(guān)掉。
如果您希望僅僅手動(dòng)關(guān)掉采集成功后的提示頁(yè)面,可以在采集提示信息的語(yǔ)言包上面加入以上javascript,這個(gè)配置文件是/modules/article/lang/lang_collect.php,里面$jieqiLang['article']['batch_collect_success']是采集成功的提示信息,這個(gè)值原先是:
'恭喜您,全部文章采集完成!';
改成下邊這樣即可手動(dòng)關(guān)掉
'恭喜您,全部文章采集完成!';
建立批處理文件方式如下:
在任意目錄構建一個(gè)后綴名為.bat的文件文章定時(shí)自動(dòng)采集,比如D:\collect.bat,然后用文本編輯器輸入類(lèi)似下邊的代碼
@echooff
"explorer"";siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234"
"explorer"";siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234"
exit
其中
第一句@echooff是表示關(guān)掉顯示
最后一句exit表示執行完退出
中間每行表示一個(gè)采集命令(可以設置多行),就是借助系統的瀏覽器來(lái)執行后面編輯好的采集url。
使用這樣的格式:
"explorer""url"
前面部份是命令,后面是采集的url,也可以使用這樣的格式:
"%programfiles%\InternetExplorer\IEXPLORE.EXE""url"
前面部份是ie瀏覽器的路徑,后面是采集的url。
這兩種命令模式的區別是,有多行命令的時(shí)侯,前者會(huì )打開(kāi)多個(gè)瀏覽器窗口同時(shí)執行;而后者先打開(kāi)瀏覽器執行第一個(gè)命令,必須等這個(gè)瀏覽器關(guān)掉后才能重新打開(kāi)一個(gè)瀏覽器執行第二個(gè)命令。
編輯好里面的bat文件后,開(kāi)始在任務(wù)計劃上面添加執行這個(gè)任務(wù),主要步驟如下(每半小時(shí)執行一次采集):
a、打開(kāi)"控制面板",進(jìn)入"任務(wù)計劃"。
b、點(diǎn)"添加任務(wù)計劃"打開(kāi)任務(wù)計劃向導進(jìn)行添加任務(wù)。
c、點(diǎn)"下一步",然后點(diǎn)"瀏覽"選擇要執行的程序。(例子上面就是選擇D:\collect.bat)
d、設置任務(wù)名稱(chēng)及執行頻度,比如選擇"每天",點(diǎn)"下一步"。
e、選擇最開(kāi)始執行的時(shí)間和日期,一般設置比當前時(shí)間前面一點(diǎn)就行,點(diǎn)"下一步"。
f、設置執行的用戶(hù)名和密碼(本操作系統的賬號),點(diǎn)"下一步"。
g、選擇"在單擊"完成"時(shí),打開(kāi)此任務(wù)的中級屬性",點(diǎn)"完成"。
h、在"日程安排"里面,點(diǎn)"高級",選擇"重復任務(wù)",設置"每30分鐘"執行一次。
i、保存以上設置后即完成系統任務(wù)計劃。
二、linux環(huán)境下做法
linux下可以借助的系統定時(shí)任務(wù)來(lái)執行,也同樣須要先制做一個(gè)批處理的腳本,方法如下
在任意目錄構建一個(gè)后綴為.sh的文件,比如/www/collect.sh,需要形參可執行權限,如chmod755/www/collect.sh
里面內容如下: 查看全部
更新時(shí)間:2008年07月11日 08:44:35 轉載作者:
主要的功能頁(yè)面為pagecollect.php和batchcollect.php要實(shí)現采集,默認方法是按照配置好的采集規則,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
前言
要實(shí)現采集,默認方法是按照配置好的采集規則文章定時(shí)自動(dòng)采集,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
而實(shí)現定時(shí)采集,與人工在瀏覽器遞交有些區別,主要分兩大步驟:
一、編寫(xiě)采集的url和相關(guān)參數,訪(fǎng)問(wèn)這個(gè)url即可實(shí)現想要的采集模式。(這個(gè)url直接在瀏覽器遞交同樣可以實(shí)現采集)
二、把定時(shí)訪(fǎng)問(wèn)這個(gè)url的功能加到系統的定時(shí)任務(wù)上面,實(shí)現無(wú)人值守的定時(shí)采集。
具體實(shí)現方式請參考下邊內容:
1、對采集配置文件的解釋
任何一個(gè)采集都會(huì )用到兩個(gè)采集配置文件(跟后臺采集規則配置對應),都可以用文本編輯器打開(kāi)查看。
其中/configs/article/collectsite.php是對總的采集站點(diǎn)配置,記錄了一共容許采集哪幾個(gè)站點(diǎn)。
里面包含類(lèi)似這樣的內容:
$jieqiCollectsite['1']['name']='采集站點(diǎn)一';
$jieqiCollectsite['1']['config']='abc_com';
$jieqiCollectsite['1']['url']='';
$jieqiCollectsite['1']['subarticleid']='floor($articleid/1000)';
$jieqiCollectsite['1']['enable']='1';
$jieqiCollectsite['2']['name']='采集站點(diǎn)二';
$jieqiCollectsite['2']['config']='def_net';
$jieqiCollectsite['2']['url']='';
$jieqiCollectsite['2']['subarticleid']='';
$jieqiCollectsite['2']['enable']='1';
參數涵義解釋如下:
['1']-這里的1表示采集網(wǎng)站的數字序號,不同的采集站序號不能重復。
['name']-采集網(wǎng)站名稱(chēng)。
['config']-網(wǎng)站英文標示,這個(gè)網(wǎng)站采集規則配置文件有關(guān),比如這個(gè)值是abc_com,那么采集規則配置文件就是/configs/article/site_abc_com.php。
['url']-采集網(wǎng)站網(wǎng)址。
['subarticleid']-采集網(wǎng)站,文章子序號運算方法,本項目主要為了兼容原先程序,新版本上面文章子序號可以通過(guò)采集獲得。
['enable']-是否容許采集,1表示準許,0表示嚴禁,默認為1。
如上面所說(shuō),每個(gè)采集網(wǎng)站有個(gè)專(zhuān)門(mén)的采集規則配置文件,/configs/article/目錄下以site_開(kāi)頭的php文件,如/configs/article/site_abc_com.php。
里面內容都與后臺采集規則設置相對應,具體細節不一一解釋。需要了解的是本文件上面內容分兩大部份,前面內容都是對網(wǎng)站內容采集規則的配置,而最前面$jieqiCollect['listcollect']['0'],$jieqiCollect['listcollect']['1']這樣的設置是對網(wǎng)站"批量采集規則"的配置,比如按近來(lái)更新采集、按排行榜采集,可以設置多個(gè)。['0']這里的數字0表示批量采集類(lèi)別的數字序號,同一個(gè)網(wǎng)站也不能重復。
2、編寫(xiě)采集內容的url及參數
這里的采集是針對多篇文章批量采集,分兩種模式:
一、按頁(yè)面批量采集,比如采集最新更新列表或則排行榜列表,每個(gè)鏈接采集一頁(yè)。
鏈接格式如下:
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為collect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
collectname-數字類(lèi)型,按頁(yè)面批量采集的類(lèi)別序號,見(jiàn)配置文件site_xxxx.php上面下邊的。$jieqiCollect['listcollect']['0']這樣配置的數字。
startpageid--頁(yè)碼標志,表示從列表的第幾頁(yè)開(kāi)始采集。一般是數字類(lèi)型,有些網(wǎng)站也可能是字符串。
maxpagenum--數字類(lèi)型,表示表示一共采集幾頁(yè)。(默認為1,如果要采集多頁(yè),是須要瀏覽器跳轉的,只有在windows環(huán)境下調用瀏覽器時(shí)侯有效,linux下調用wget時(shí)侯最多只能采集一頁(yè),需要采集多頁(yè)可設置多個(gè)采集命令。)
notaddnew--數字類(lèi)型,0-表示采集全部文章,1-表示只更新本站已有的文章。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
二、按照文章序號批量采集
鏈接格式如下:
,234,345&jieqi_username=admin&jieqi_userpassword=1234
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為bcollect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
batchids-要采集的對方網(wǎng)站文章序號(不是本地的文章序號),采集多個(gè)文章,序號用英語(yǔ)冒號分開(kāi),如123,234,345。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
注:一個(gè)url須要放在IE瀏覽器上面遞交的時(shí)侯,整個(gè)url最大寬度度不要超過(guò)2083字節,所以通常建議這兒的url不要設置成很長(cháng),文章多的可以分拆成多個(gè)url。
3、利用系統任務(wù)實(shí)現定時(shí)采集
一、windows環(huán)境下做法
windows上面可以用系統的任務(wù)計劃來(lái)實(shí)現定時(shí)執行程序,不過(guò)首先須要制做一個(gè)批處理文件,在這個(gè)文件上面用命令來(lái)調用瀏覽器來(lái)執行采集url。需要注意的是命令只能打開(kāi)瀏覽器而不會(huì )采集好以后手動(dòng)關(guān)掉,要實(shí)現采集完手動(dòng)關(guān)掉可以通過(guò)javascript實(shí)現。自動(dòng)關(guān)掉本窗口的js代碼為:
這里的參數3000是指延后關(guān)掉時(shí)間,單位是微秒,3000表示延后3秒關(guān)掉。
這段代碼可以在兩個(gè)地方加入:
一個(gè)是加入到提示信息模板/themes/風(fēng)格名稱(chēng)/msgwin.html上面,和之間加入前面那段js。這樣的療效是整個(gè)系統任何提示信息頁(yè)面就會(huì )在3秒鐘后手動(dòng)關(guān)掉。
如果您希望僅僅手動(dòng)關(guān)掉采集成功后的提示頁(yè)面,可以在采集提示信息的語(yǔ)言包上面加入以上javascript,這個(gè)配置文件是/modules/article/lang/lang_collect.php,里面$jieqiLang['article']['batch_collect_success']是采集成功的提示信息,這個(gè)值原先是:
'恭喜您,全部文章采集完成!';
改成下邊這樣即可手動(dòng)關(guān)掉
'恭喜您,全部文章采集完成!';
建立批處理文件方式如下:
在任意目錄構建一個(gè)后綴名為.bat的文件文章定時(shí)自動(dòng)采集,比如D:\collect.bat,然后用文本編輯器輸入類(lèi)似下邊的代碼
@echooff
"explorer"";siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234"
"explorer"";siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234"
exit
其中
第一句@echooff是表示關(guān)掉顯示
最后一句exit表示執行完退出
中間每行表示一個(gè)采集命令(可以設置多行),就是借助系統的瀏覽器來(lái)執行后面編輯好的采集url。
使用這樣的格式:
"explorer""url"
前面部份是命令,后面是采集的url,也可以使用這樣的格式:
"%programfiles%\InternetExplorer\IEXPLORE.EXE""url"
前面部份是ie瀏覽器的路徑,后面是采集的url。
這兩種命令模式的區別是,有多行命令的時(shí)侯,前者會(huì )打開(kāi)多個(gè)瀏覽器窗口同時(shí)執行;而后者先打開(kāi)瀏覽器執行第一個(gè)命令,必須等這個(gè)瀏覽器關(guān)掉后才能重新打開(kāi)一個(gè)瀏覽器執行第二個(gè)命令。
編輯好里面的bat文件后,開(kāi)始在任務(wù)計劃上面添加執行這個(gè)任務(wù),主要步驟如下(每半小時(shí)執行一次采集):
a、打開(kāi)"控制面板",進(jìn)入"任務(wù)計劃"。
b、點(diǎn)"添加任務(wù)計劃"打開(kāi)任務(wù)計劃向導進(jìn)行添加任務(wù)。
c、點(diǎn)"下一步",然后點(diǎn)"瀏覽"選擇要執行的程序。(例子上面就是選擇D:\collect.bat)
d、設置任務(wù)名稱(chēng)及執行頻度,比如選擇"每天",點(diǎn)"下一步"。
e、選擇最開(kāi)始執行的時(shí)間和日期,一般設置比當前時(shí)間前面一點(diǎn)就行,點(diǎn)"下一步"。
f、設置執行的用戶(hù)名和密碼(本操作系統的賬號),點(diǎn)"下一步"。
g、選擇"在單擊"完成"時(shí),打開(kāi)此任務(wù)的中級屬性",點(diǎn)"完成"。
h、在"日程安排"里面,點(diǎn)"高級",選擇"重復任務(wù)",設置"每30分鐘"執行一次。
i、保存以上設置后即完成系統任務(wù)計劃。
二、linux環(huán)境下做法
linux下可以借助的系統定時(shí)任務(wù)來(lái)執行,也同樣須要先制做一個(gè)批處理的腳本,方法如下
在任意目錄構建一個(gè)后綴為.sh的文件,比如/www/collect.sh,需要形參可執行權限,如chmod755/www/collect.sh
里面內容如下: 查看全部
batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配置方式參數解讀
更新時(shí)間:2008年07月11日 08:44:35 轉載作者:
主要的功能頁(yè)面為pagecollect.php和batchcollect.php要實(shí)現采集,默認方法是按照配置好的采集規則,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
前言
要實(shí)現采集,默認方法是按照配置好的采集規則文章定時(shí)自動(dòng)采集,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
而實(shí)現定時(shí)采集,與人工在瀏覽器遞交有些區別,主要分兩大步驟:
一、編寫(xiě)采集的url和相關(guān)參數,訪(fǎng)問(wèn)這個(gè)url即可實(shí)現想要的采集模式。(這個(gè)url直接在瀏覽器遞交同樣可以實(shí)現采集)
二、把定時(shí)訪(fǎng)問(wèn)這個(gè)url的功能加到系統的定時(shí)任務(wù)上面,實(shí)現無(wú)人值守的定時(shí)采集。
具體實(shí)現方式請參考下邊內容:
1、對采集配置文件的解釋
任何一個(gè)采集都會(huì )用到兩個(gè)采集配置文件(跟后臺采集規則配置對應),都可以用文本編輯器打開(kāi)查看。
其中/configs/article/collectsite.php是對總的采集站點(diǎn)配置,記錄了一共容許采集哪幾個(gè)站點(diǎn)。
里面包含類(lèi)似這樣的內容:
$jieqiCollectsite['1']['name']='采集站點(diǎn)一';
$jieqiCollectsite['1']['config']='abc_com';
$jieqiCollectsite['1']['url']='';
$jieqiCollectsite['1']['subarticleid']='floor($articleid/1000)';
$jieqiCollectsite['1']['enable']='1';
$jieqiCollectsite['2']['name']='采集站點(diǎn)二';
$jieqiCollectsite['2']['config']='def_net';
$jieqiCollectsite['2']['url']='';
$jieqiCollectsite['2']['subarticleid']='';
$jieqiCollectsite['2']['enable']='1';
參數涵義解釋如下:
['1']-這里的1表示采集網(wǎng)站的數字序號,不同的采集站序號不能重復。
['name']-采集網(wǎng)站名稱(chēng)。
['config']-網(wǎng)站英文標示,這個(gè)網(wǎng)站采集規則配置文件有關(guān),比如這個(gè)值是abc_com,那么采集規則配置文件就是/configs/article/site_abc_com.php。
['url']-采集網(wǎng)站網(wǎng)址。
['subarticleid']-采集網(wǎng)站,文章子序號運算方法,本項目主要為了兼容原先程序,新版本上面文章子序號可以通過(guò)采集獲得。
['enable']-是否容許采集,1表示準許,0表示嚴禁,默認為1。
如上面所說(shuō),每個(gè)采集網(wǎng)站有個(gè)專(zhuān)門(mén)的采集規則配置文件,/configs/article/目錄下以site_開(kāi)頭的php文件,如/configs/article/site_abc_com.php。
里面內容都與后臺采集規則設置相對應,具體細節不一一解釋。需要了解的是本文件上面內容分兩大部份,前面內容都是對網(wǎng)站內容采集規則的配置,而最前面$jieqiCollect['listcollect']['0'],$jieqiCollect['listcollect']['1']這樣的設置是對網(wǎng)站"批量采集規則"的配置,比如按近來(lái)更新采集、按排行榜采集,可以設置多個(gè)。['0']這里的數字0表示批量采集類(lèi)別的數字序號,同一個(gè)網(wǎng)站也不能重復。
2、編寫(xiě)采集內容的url及參數
這里的采集是針對多篇文章批量采集,分兩種模式:
一、按頁(yè)面批量采集,比如采集最新更新列表或則排行榜列表,每個(gè)鏈接采集一頁(yè)。
鏈接格式如下:
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為collect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
collectname-數字類(lèi)型,按頁(yè)面批量采集的類(lèi)別序號,見(jiàn)配置文件site_xxxx.php上面下邊的。$jieqiCollect['listcollect']['0']這樣配置的數字。
startpageid--頁(yè)碼標志,表示從列表的第幾頁(yè)開(kāi)始采集。一般是數字類(lèi)型,有些網(wǎng)站也可能是字符串。
maxpagenum--數字類(lèi)型,表示表示一共采集幾頁(yè)。(默認為1,如果要采集多頁(yè),是須要瀏覽器跳轉的,只有在windows環(huán)境下調用瀏覽器時(shí)侯有效,linux下調用wget時(shí)侯最多只能采集一頁(yè),需要采集多頁(yè)可設置多個(gè)采集命令。)
notaddnew--數字類(lèi)型,0-表示采集全部文章,1-表示只更新本站已有的文章。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
二、按照文章序號批量采集
鏈接格式如下:
,234,345&jieqi_username=admin&jieqi_userpassword=1234
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為bcollect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
batchids-要采集的對方網(wǎng)站文章序號(不是本地的文章序號),采集多個(gè)文章,序號用英語(yǔ)冒號分開(kāi),如123,234,345。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
注:一個(gè)url須要放在IE瀏覽器上面遞交的時(shí)侯,整個(gè)url最大寬度度不要超過(guò)2083字節,所以通常建議這兒的url不要設置成很長(cháng),文章多的可以分拆成多個(gè)url。
3、利用系統任務(wù)實(shí)現定時(shí)采集
一、windows環(huán)境下做法
windows上面可以用系統的任務(wù)計劃來(lái)實(shí)現定時(shí)執行程序,不過(guò)首先須要制做一個(gè)批處理文件,在這個(gè)文件上面用命令來(lái)調用瀏覽器來(lái)執行采集url。需要注意的是命令只能打開(kāi)瀏覽器而不會(huì )采集好以后手動(dòng)關(guān)掉,要實(shí)現采集完手動(dòng)關(guān)掉可以通過(guò)javascript實(shí)現。自動(dòng)關(guān)掉本窗口的js代碼為:
這里的參數3000是指延后關(guān)掉時(shí)間,單位是微秒,3000表示延后3秒關(guān)掉。
這段代碼可以在兩個(gè)地方加入:
一個(gè)是加入到提示信息模板/themes/風(fēng)格名稱(chēng)/msgwin.html上面,和之間加入前面那段js。這樣的療效是整個(gè)系統任何提示信息頁(yè)面就會(huì )在3秒鐘后手動(dòng)關(guān)掉。
如果您希望僅僅手動(dòng)關(guān)掉采集成功后的提示頁(yè)面,可以在采集提示信息的語(yǔ)言包上面加入以上javascript,這個(gè)配置文件是/modules/article/lang/lang_collect.php,里面$jieqiLang['article']['batch_collect_success']是采集成功的提示信息,這個(gè)值原先是:
'恭喜您,全部文章采集完成!';
改成下邊這樣即可手動(dòng)關(guān)掉
'恭喜您,全部文章采集完成!';
建立批處理文件方式如下:
在任意目錄構建一個(gè)后綴名為.bat的文件文章定時(shí)自動(dòng)采集,比如D:\collect.bat,然后用文本編輯器輸入類(lèi)似下邊的代碼
@echooff
"explorer"";siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234"
"explorer"";siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234"
exit
其中
第一句@echooff是表示關(guān)掉顯示
最后一句exit表示執行完退出
中間每行表示一個(gè)采集命令(可以設置多行),就是借助系統的瀏覽器來(lái)執行后面編輯好的采集url。
使用這樣的格式:
"explorer""url"
前面部份是命令,后面是采集的url,也可以使用這樣的格式:
"%programfiles%\InternetExplorer\IEXPLORE.EXE""url"
前面部份是ie瀏覽器的路徑,后面是采集的url。
這兩種命令模式的區別是,有多行命令的時(shí)侯,前者會(huì )打開(kāi)多個(gè)瀏覽器窗口同時(shí)執行;而后者先打開(kāi)瀏覽器執行第一個(gè)命令,必須等這個(gè)瀏覽器關(guān)掉后才能重新打開(kāi)一個(gè)瀏覽器執行第二個(gè)命令。
編輯好里面的bat文件后,開(kāi)始在任務(wù)計劃上面添加執行這個(gè)任務(wù),主要步驟如下(每半小時(shí)執行一次采集):
a、打開(kāi)"控制面板",進(jìn)入"任務(wù)計劃"。
b、點(diǎn)"添加任務(wù)計劃"打開(kāi)任務(wù)計劃向導進(jìn)行添加任務(wù)。
c、點(diǎn)"下一步",然后點(diǎn)"瀏覽"選擇要執行的程序。(例子上面就是選擇D:\collect.bat)
d、設置任務(wù)名稱(chēng)及執行頻度,比如選擇"每天",點(diǎn)"下一步"。
e、選擇最開(kāi)始執行的時(shí)間和日期,一般設置比當前時(shí)間前面一點(diǎn)就行,點(diǎn)"下一步"。
f、設置執行的用戶(hù)名和密碼(本操作系統的賬號),點(diǎn)"下一步"。
g、選擇"在單擊"完成"時(shí),打開(kāi)此任務(wù)的中級屬性",點(diǎn)"完成"。
h、在"日程安排"里面,點(diǎn)"高級",選擇"重復任務(wù)",設置"每30分鐘"執行一次。
i、保存以上設置后即完成系統任務(wù)計劃。
二、linux環(huán)境下做法
linux下可以借助的系統定時(shí)任務(wù)來(lái)執行,也同樣須要先制做一個(gè)批處理的腳本,方法如下
在任意目錄構建一個(gè)后綴為.sh的文件,比如/www/collect.sh,需要形參可執行權限,如chmod755/www/collect.sh
里面內容如下:
batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配
采集交流 ? 優(yōu)采云 發(fā)表了文章 ? 0 個(gè)評論 ? 524 次瀏覽 ? 2020-08-03 17:00
batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配置方式參數解讀
更新時(shí)間:2008年07月11日 08:44:35 轉載作者:
主要的功能頁(yè)面為pagecollect.php和batchcollect.php要實(shí)現采集,默認方法是按照配置好的采集規則,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
前言
要實(shí)現采集,默認方法是按照配置好的采集規則文章定時(shí)自動(dòng)采集,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
而實(shí)現定時(shí)采集,與人工在瀏覽器遞交有些區別,主要分兩大步驟:
一、編寫(xiě)采集的url和相關(guān)參數,訪(fǎng)問(wèn)這個(gè)url即可實(shí)現想要的采集模式。(這個(gè)url直接在瀏覽器遞交同樣可以實(shí)現采集)
二、把定時(shí)訪(fǎng)問(wèn)這個(gè)url的功能加到系統的定時(shí)任務(wù)上面,實(shí)現無(wú)人值守的定時(shí)采集。
具體實(shí)現方式請參考下邊內容:
1、對采集配置文件的解釋
任何一個(gè)采集都會(huì )用到兩個(gè)采集配置文件(跟后臺采集規則配置對應),都可以用文本編輯器打開(kāi)查看。
其中/configs/article/collectsite.php是對總的采集站點(diǎn)配置,記錄了一共容許采集哪幾個(gè)站點(diǎn)。
里面包含類(lèi)似這樣的內容:
$jieqiCollectsite['1']['name']='采集站點(diǎn)一';
$jieqiCollectsite['1']['config']='abc_com';
$jieqiCollectsite['1']['url']='';
$jieqiCollectsite['1']['subarticleid']='floor($articleid/1000)';
$jieqiCollectsite['1']['enable']='1';
$jieqiCollectsite['2']['name']='采集站點(diǎn)二';
$jieqiCollectsite['2']['config']='def_net';
$jieqiCollectsite['2']['url']='';
$jieqiCollectsite['2']['subarticleid']='';
$jieqiCollectsite['2']['enable']='1';
參數涵義解釋如下:
['1']-這里的1表示采集網(wǎng)站的數字序號,不同的采集站序號不能重復。
['name']-采集網(wǎng)站名稱(chēng)。
['config']-網(wǎng)站英文標示,這個(gè)網(wǎng)站采集規則配置文件有關(guān),比如這個(gè)值是abc_com,那么采集規則配置文件就是/configs/article/site_abc_com.php。
['url']-采集網(wǎng)站網(wǎng)址。
['subarticleid']-采集網(wǎng)站,文章子序號運算方法,本項目主要為了兼容原先程序,新版本上面文章子序號可以通過(guò)采集獲得。
['enable']-是否容許采集,1表示準許,0表示嚴禁,默認為1。
如上面所說(shuō),每個(gè)采集網(wǎng)站有個(gè)專(zhuān)門(mén)的采集規則配置文件,/configs/article/目錄下以site_開(kāi)頭的php文件,如/configs/article/site_abc_com.php。
里面內容都與后臺采集規則設置相對應,具體細節不一一解釋。需要了解的是本文件上面內容分兩大部份,前面內容都是對網(wǎng)站內容采集規則的配置,而最前面$jieqiCollect['listcollect']['0'],$jieqiCollect['listcollect']['1']這樣的設置是對網(wǎng)站"批量采集規則"的配置,比如按近來(lái)更新采集、按排行榜采集,可以設置多個(gè)。['0']這里的數字0表示批量采集類(lèi)別的數字序號,同一個(gè)網(wǎng)站也不能重復。
2、編寫(xiě)采集內容的url及參數
這里的采集是針對多篇文章批量采集,分兩種模式:
一、按頁(yè)面批量采集,比如采集最新更新列表或則排行榜列表,每個(gè)鏈接采集一頁(yè)。
鏈接格式如下:
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為collect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
collectname-數字類(lèi)型,按頁(yè)面批量采集的類(lèi)別序號,見(jiàn)配置文件site_xxxx.php上面下邊的。$jieqiCollect['listcollect']['0']這樣配置的數字。
startpageid--頁(yè)碼標志,表示從列表的第幾頁(yè)開(kāi)始采集。一般是數字類(lèi)型,有些網(wǎng)站也可能是字符串。
maxpagenum--數字類(lèi)型,表示表示一共采集幾頁(yè)。(默認為1,如果要采集多頁(yè),是須要瀏覽器跳轉的,只有在windows環(huán)境下調用瀏覽器時(shí)侯有效,linux下調用wget時(shí)侯最多只能采集一頁(yè),需要采集多頁(yè)可設置多個(gè)采集命令。)
notaddnew--數字類(lèi)型,0-表示采集全部文章,1-表示只更新本站已有的文章。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
二、按照文章序號批量采集
鏈接格式如下:
,234,345&jieqi_username=admin&jieqi_userpassword=1234
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為bcollect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
batchids-要采集的對方網(wǎng)站文章序號(不是本地的文章序號),采集多個(gè)文章,序號用英語(yǔ)冒號分開(kāi),如123,234,345。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
注:一個(gè)url須要放在IE瀏覽器上面遞交的時(shí)侯,整個(gè)url最大寬度度不要超過(guò)2083字節,所以通常建議這兒的url不要設置成很長(cháng),文章多的可以分拆成多個(gè)url。
3、利用系統任務(wù)實(shí)現定時(shí)采集
一、windows環(huán)境下做法
windows上面可以用系統的任務(wù)計劃來(lái)實(shí)現定時(shí)執行程序,不過(guò)首先須要制做一個(gè)批處理文件,在這個(gè)文件上面用命令來(lái)調用瀏覽器來(lái)執行采集url。需要注意的是命令只能打開(kāi)瀏覽器而不會(huì )采集好以后手動(dòng)關(guān)掉,要實(shí)現采集完手動(dòng)關(guān)掉可以通過(guò)javascript實(shí)現。自動(dòng)關(guān)掉本窗口的js代碼為:
這里的參數3000是指延后關(guān)掉時(shí)間,單位是微秒,3000表示延后3秒關(guān)掉。
這段代碼可以在兩個(gè)地方加入:
一個(gè)是加入到提示信息模板/themes/風(fēng)格名稱(chēng)/msgwin.html上面,和之間加入前面那段js。這樣的療效是整個(gè)系統任何提示信息頁(yè)面就會(huì )在3秒鐘后手動(dòng)關(guān)掉。
如果您希望僅僅手動(dòng)關(guān)掉采集成功后的提示頁(yè)面,可以在采集提示信息的語(yǔ)言包上面加入以上javascript,這個(gè)配置文件是/modules/article/lang/lang_collect.php,里面$jieqiLang['article']['batch_collect_success']是采集成功的提示信息,這個(gè)值原先是:
'恭喜您,全部文章采集完成!';
改成下邊這樣即可手動(dòng)關(guān)掉
'恭喜您,全部文章采集完成!';
建立批處理文件方式如下:
在任意目錄構建一個(gè)后綴名為.bat的文件文章定時(shí)自動(dòng)采集,比如D:\collect.bat,然后用文本編輯器輸入類(lèi)似下邊的代碼
@echooff
"explorer"";siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234"
"explorer"";siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234"
exit
其中
第一句@echooff是表示關(guān)掉顯示
最后一句exit表示執行完退出
中間每行表示一個(gè)采集命令(可以設置多行),就是借助系統的瀏覽器來(lái)執行后面編輯好的采集url。
使用這樣的格式:
"explorer""url"
前面部份是命令,后面是采集的url,也可以使用這樣的格式:
"%programfiles%\InternetExplorer\IEXPLORE.EXE""url"
前面部份是ie瀏覽器的路徑,后面是采集的url。
這兩種命令模式的區別是,有多行命令的時(shí)侯,前者會(huì )打開(kāi)多個(gè)瀏覽器窗口同時(shí)執行;而后者先打開(kāi)瀏覽器執行第一個(gè)命令,必須等這個(gè)瀏覽器關(guān)掉后才能重新打開(kāi)一個(gè)瀏覽器執行第二個(gè)命令。
編輯好里面的bat文件后,開(kāi)始在任務(wù)計劃上面添加執行這個(gè)任務(wù),主要步驟如下(每半小時(shí)執行一次采集):
a、打開(kāi)"控制面板",進(jìn)入"任務(wù)計劃"。
b、點(diǎn)"添加任務(wù)計劃"打開(kāi)任務(wù)計劃向導進(jìn)行添加任務(wù)。
c、點(diǎn)"下一步",然后點(diǎn)"瀏覽"選擇要執行的程序。(例子上面就是選擇D:\collect.bat)
d、設置任務(wù)名稱(chēng)及執行頻度,比如選擇"每天",點(diǎn)"下一步"。
e、選擇最開(kāi)始執行的時(shí)間和日期,一般設置比當前時(shí)間前面一點(diǎn)就行,點(diǎn)"下一步"。
f、設置執行的用戶(hù)名和密碼(本操作系統的賬號),點(diǎn)"下一步"。
g、選擇"在單擊"完成"時(shí),打開(kāi)此任務(wù)的中級屬性",點(diǎn)"完成"。
h、在"日程安排"里面,點(diǎn)"高級",選擇"重復任務(wù)",設置"每30分鐘"執行一次。
i、保存以上設置后即完成系統任務(wù)計劃。
二、linux環(huán)境下做法
linux下可以借助的系統定時(shí)任務(wù)來(lái)執行,也同樣須要先制做一個(gè)批處理的腳本,方法如下
在任意目錄構建一個(gè)后綴為.sh的文件,比如/www/collect.sh,需要形參可執行權限,如chmod755/www/collect.sh
里面內容如下: 查看全部
更新時(shí)間:2008年07月11日 08:44:35 轉載作者:
主要的功能頁(yè)面為pagecollect.php和batchcollect.php要實(shí)現采集,默認方法是按照配置好的采集規則,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
前言
要實(shí)現采集,默認方法是按照配置好的采集規則文章定時(shí)自動(dòng)采集,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
而實(shí)現定時(shí)采集,與人工在瀏覽器遞交有些區別,主要分兩大步驟:
一、編寫(xiě)采集的url和相關(guān)參數,訪(fǎng)問(wèn)這個(gè)url即可實(shí)現想要的采集模式。(這個(gè)url直接在瀏覽器遞交同樣可以實(shí)現采集)
二、把定時(shí)訪(fǎng)問(wèn)這個(gè)url的功能加到系統的定時(shí)任務(wù)上面,實(shí)現無(wú)人值守的定時(shí)采集。
具體實(shí)現方式請參考下邊內容:
1、對采集配置文件的解釋
任何一個(gè)采集都會(huì )用到兩個(gè)采集配置文件(跟后臺采集規則配置對應),都可以用文本編輯器打開(kāi)查看。
其中/configs/article/collectsite.php是對總的采集站點(diǎn)配置,記錄了一共容許采集哪幾個(gè)站點(diǎn)。
里面包含類(lèi)似這樣的內容:
$jieqiCollectsite['1']['name']='采集站點(diǎn)一';
$jieqiCollectsite['1']['config']='abc_com';
$jieqiCollectsite['1']['url']='';
$jieqiCollectsite['1']['subarticleid']='floor($articleid/1000)';
$jieqiCollectsite['1']['enable']='1';
$jieqiCollectsite['2']['name']='采集站點(diǎn)二';
$jieqiCollectsite['2']['config']='def_net';
$jieqiCollectsite['2']['url']='';
$jieqiCollectsite['2']['subarticleid']='';
$jieqiCollectsite['2']['enable']='1';
參數涵義解釋如下:
['1']-這里的1表示采集網(wǎng)站的數字序號,不同的采集站序號不能重復。
['name']-采集網(wǎng)站名稱(chēng)。
['config']-網(wǎng)站英文標示,這個(gè)網(wǎng)站采集規則配置文件有關(guān),比如這個(gè)值是abc_com,那么采集規則配置文件就是/configs/article/site_abc_com.php。
['url']-采集網(wǎng)站網(wǎng)址。
['subarticleid']-采集網(wǎng)站,文章子序號運算方法,本項目主要為了兼容原先程序,新版本上面文章子序號可以通過(guò)采集獲得。
['enable']-是否容許采集,1表示準許,0表示嚴禁,默認為1。
如上面所說(shuō),每個(gè)采集網(wǎng)站有個(gè)專(zhuān)門(mén)的采集規則配置文件,/configs/article/目錄下以site_開(kāi)頭的php文件,如/configs/article/site_abc_com.php。
里面內容都與后臺采集規則設置相對應,具體細節不一一解釋。需要了解的是本文件上面內容分兩大部份,前面內容都是對網(wǎng)站內容采集規則的配置,而最前面$jieqiCollect['listcollect']['0'],$jieqiCollect['listcollect']['1']這樣的設置是對網(wǎng)站"批量采集規則"的配置,比如按近來(lái)更新采集、按排行榜采集,可以設置多個(gè)。['0']這里的數字0表示批量采集類(lèi)別的數字序號,同一個(gè)網(wǎng)站也不能重復。
2、編寫(xiě)采集內容的url及參數
這里的采集是針對多篇文章批量采集,分兩種模式:
一、按頁(yè)面批量采集,比如采集最新更新列表或則排行榜列表,每個(gè)鏈接采集一頁(yè)。
鏈接格式如下:
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為collect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
collectname-數字類(lèi)型,按頁(yè)面批量采集的類(lèi)別序號,見(jiàn)配置文件site_xxxx.php上面下邊的。$jieqiCollect['listcollect']['0']這樣配置的數字。
startpageid--頁(yè)碼標志,表示從列表的第幾頁(yè)開(kāi)始采集。一般是數字類(lèi)型,有些網(wǎng)站也可能是字符串。
maxpagenum--數字類(lèi)型,表示表示一共采集幾頁(yè)。(默認為1,如果要采集多頁(yè),是須要瀏覽器跳轉的,只有在windows環(huán)境下調用瀏覽器時(shí)侯有效,linux下調用wget時(shí)侯最多只能采集一頁(yè),需要采集多頁(yè)可設置多個(gè)采集命令。)
notaddnew--數字類(lèi)型,0-表示采集全部文章,1-表示只更新本站已有的文章。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
二、按照文章序號批量采集
鏈接格式如下:
,234,345&jieqi_username=admin&jieqi_userpassword=1234
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為bcollect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
batchids-要采集的對方網(wǎng)站文章序號(不是本地的文章序號),采集多個(gè)文章,序號用英語(yǔ)冒號分開(kāi),如123,234,345。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
注:一個(gè)url須要放在IE瀏覽器上面遞交的時(shí)侯,整個(gè)url最大寬度度不要超過(guò)2083字節,所以通常建議這兒的url不要設置成很長(cháng),文章多的可以分拆成多個(gè)url。
3、利用系統任務(wù)實(shí)現定時(shí)采集
一、windows環(huán)境下做法
windows上面可以用系統的任務(wù)計劃來(lái)實(shí)現定時(shí)執行程序,不過(guò)首先須要制做一個(gè)批處理文件,在這個(gè)文件上面用命令來(lái)調用瀏覽器來(lái)執行采集url。需要注意的是命令只能打開(kāi)瀏覽器而不會(huì )采集好以后手動(dòng)關(guān)掉,要實(shí)現采集完手動(dòng)關(guān)掉可以通過(guò)javascript實(shí)現。自動(dòng)關(guān)掉本窗口的js代碼為:
這里的參數3000是指延后關(guān)掉時(shí)間,單位是微秒,3000表示延后3秒關(guān)掉。
這段代碼可以在兩個(gè)地方加入:
一個(gè)是加入到提示信息模板/themes/風(fēng)格名稱(chēng)/msgwin.html上面,和之間加入前面那段js。這樣的療效是整個(gè)系統任何提示信息頁(yè)面就會(huì )在3秒鐘后手動(dòng)關(guān)掉。
如果您希望僅僅手動(dòng)關(guān)掉采集成功后的提示頁(yè)面,可以在采集提示信息的語(yǔ)言包上面加入以上javascript,這個(gè)配置文件是/modules/article/lang/lang_collect.php,里面$jieqiLang['article']['batch_collect_success']是采集成功的提示信息,這個(gè)值原先是:
'恭喜您,全部文章采集完成!';
改成下邊這樣即可手動(dòng)關(guān)掉
'恭喜您,全部文章采集完成!';
建立批處理文件方式如下:
在任意目錄構建一個(gè)后綴名為.bat的文件文章定時(shí)自動(dòng)采集,比如D:\collect.bat,然后用文本編輯器輸入類(lèi)似下邊的代碼
@echooff
"explorer"";siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234"
"explorer"";siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234"
exit
其中
第一句@echooff是表示關(guān)掉顯示
最后一句exit表示執行完退出
中間每行表示一個(gè)采集命令(可以設置多行),就是借助系統的瀏覽器來(lái)執行后面編輯好的采集url。
使用這樣的格式:
"explorer""url"
前面部份是命令,后面是采集的url,也可以使用這樣的格式:
"%programfiles%\InternetExplorer\IEXPLORE.EXE""url"
前面部份是ie瀏覽器的路徑,后面是采集的url。
這兩種命令模式的區別是,有多行命令的時(shí)侯,前者會(huì )打開(kāi)多個(gè)瀏覽器窗口同時(shí)執行;而后者先打開(kāi)瀏覽器執行第一個(gè)命令,必須等這個(gè)瀏覽器關(guān)掉后才能重新打開(kāi)一個(gè)瀏覽器執行第二個(gè)命令。
編輯好里面的bat文件后,開(kāi)始在任務(wù)計劃上面添加執行這個(gè)任務(wù),主要步驟如下(每半小時(shí)執行一次采集):
a、打開(kāi)"控制面板",進(jìn)入"任務(wù)計劃"。
b、點(diǎn)"添加任務(wù)計劃"打開(kāi)任務(wù)計劃向導進(jìn)行添加任務(wù)。
c、點(diǎn)"下一步",然后點(diǎn)"瀏覽"選擇要執行的程序。(例子上面就是選擇D:\collect.bat)
d、設置任務(wù)名稱(chēng)及執行頻度,比如選擇"每天",點(diǎn)"下一步"。
e、選擇最開(kāi)始執行的時(shí)間和日期,一般設置比當前時(shí)間前面一點(diǎn)就行,點(diǎn)"下一步"。
f、設置執行的用戶(hù)名和密碼(本操作系統的賬號),點(diǎn)"下一步"。
g、選擇"在單擊"完成"時(shí),打開(kāi)此任務(wù)的中級屬性",點(diǎn)"完成"。
h、在"日程安排"里面,點(diǎn)"高級",選擇"重復任務(wù)",設置"每30分鐘"執行一次。
i、保存以上設置后即完成系統任務(wù)計劃。
二、linux環(huán)境下做法
linux下可以借助的系統定時(shí)任務(wù)來(lái)執行,也同樣須要先制做一個(gè)批處理的腳本,方法如下
在任意目錄構建一個(gè)后綴為.sh的文件,比如/www/collect.sh,需要形參可執行權限,如chmod755/www/collect.sh
里面內容如下: 查看全部
batchcollect pagecollect來(lái)自官方杰奇jieqi定時(shí)采集配置方式參數解讀
更新時(shí)間:2008年07月11日 08:44:35 轉載作者:
主要的功能頁(yè)面為pagecollect.php和batchcollect.php要實(shí)現采集,默認方法是按照配置好的采集規則,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
前言
要實(shí)現采集,默認方法是按照配置好的采集規則文章定時(shí)自動(dòng)采集,在瀏覽器遞交相應的參數即可完成前面的采集入庫全部動(dòng)作。
而實(shí)現定時(shí)采集,與人工在瀏覽器遞交有些區別,主要分兩大步驟:
一、編寫(xiě)采集的url和相關(guān)參數,訪(fǎng)問(wèn)這個(gè)url即可實(shí)現想要的采集模式。(這個(gè)url直接在瀏覽器遞交同樣可以實(shí)現采集)
二、把定時(shí)訪(fǎng)問(wèn)這個(gè)url的功能加到系統的定時(shí)任務(wù)上面,實(shí)現無(wú)人值守的定時(shí)采集。
具體實(shí)現方式請參考下邊內容:
1、對采集配置文件的解釋
任何一個(gè)采集都會(huì )用到兩個(gè)采集配置文件(跟后臺采集規則配置對應),都可以用文本編輯器打開(kāi)查看。
其中/configs/article/collectsite.php是對總的采集站點(diǎn)配置,記錄了一共容許采集哪幾個(gè)站點(diǎn)。
里面包含類(lèi)似這樣的內容:
$jieqiCollectsite['1']['name']='采集站點(diǎn)一';
$jieqiCollectsite['1']['config']='abc_com';
$jieqiCollectsite['1']['url']='';
$jieqiCollectsite['1']['subarticleid']='floor($articleid/1000)';
$jieqiCollectsite['1']['enable']='1';
$jieqiCollectsite['2']['name']='采集站點(diǎn)二';
$jieqiCollectsite['2']['config']='def_net';
$jieqiCollectsite['2']['url']='';
$jieqiCollectsite['2']['subarticleid']='';
$jieqiCollectsite['2']['enable']='1';
參數涵義解釋如下:
['1']-這里的1表示采集網(wǎng)站的數字序號,不同的采集站序號不能重復。
['name']-采集網(wǎng)站名稱(chēng)。
['config']-網(wǎng)站英文標示,這個(gè)網(wǎng)站采集規則配置文件有關(guān),比如這個(gè)值是abc_com,那么采集規則配置文件就是/configs/article/site_abc_com.php。
['url']-采集網(wǎng)站網(wǎng)址。
['subarticleid']-采集網(wǎng)站,文章子序號運算方法,本項目主要為了兼容原先程序,新版本上面文章子序號可以通過(guò)采集獲得。
['enable']-是否容許采集,1表示準許,0表示嚴禁,默認為1。
如上面所說(shuō),每個(gè)采集網(wǎng)站有個(gè)專(zhuān)門(mén)的采集規則配置文件,/configs/article/目錄下以site_開(kāi)頭的php文件,如/configs/article/site_abc_com.php。
里面內容都與后臺采集規則設置相對應,具體細節不一一解釋。需要了解的是本文件上面內容分兩大部份,前面內容都是對網(wǎng)站內容采集規則的配置,而最前面$jieqiCollect['listcollect']['0'],$jieqiCollect['listcollect']['1']這樣的設置是對網(wǎng)站"批量采集規則"的配置,比如按近來(lái)更新采集、按排行榜采集,可以設置多個(gè)。['0']這里的數字0表示批量采集類(lèi)別的數字序號,同一個(gè)網(wǎng)站也不能重復。
2、編寫(xiě)采集內容的url及參數
這里的采集是針對多篇文章批量采集,分兩種模式:
一、按頁(yè)面批量采集,比如采集最新更新列表或則排行榜列表,每個(gè)鏈接采集一頁(yè)。
鏈接格式如下:
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為collect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
collectname-數字類(lèi)型,按頁(yè)面批量采集的類(lèi)別序號,見(jiàn)配置文件site_xxxx.php上面下邊的。$jieqiCollect['listcollect']['0']這樣配置的數字。
startpageid--頁(yè)碼標志,表示從列表的第幾頁(yè)開(kāi)始采集。一般是數字類(lèi)型,有些網(wǎng)站也可能是字符串。
maxpagenum--數字類(lèi)型,表示表示一共采集幾頁(yè)。(默認為1,如果要采集多頁(yè),是須要瀏覽器跳轉的,只有在windows環(huán)境下調用瀏覽器時(shí)侯有效,linux下調用wget時(shí)侯最多只能采集一頁(yè),需要采集多頁(yè)可設置多個(gè)采集命令。)
notaddnew--數字類(lèi)型,0-表示采集全部文章,1-表示只更新本站已有的文章。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
二、按照文章序號批量采集
鏈接格式如下:
,234,345&jieqi_username=admin&jieqi_userpassword=1234
參數含意解釋如下:
-是指您的網(wǎng)址。
action-字符串,程序執行的動(dòng)作命令,固定值為bcollect。
siteid-數字類(lèi)型,要采集的網(wǎng)站序號,具體那個(gè)網(wǎng)站對應哪些序號見(jiàn)配置文件collectsite.php。
batchids-要采集的對方網(wǎng)站文章序號(不是本地的文章序號),采集多個(gè)文章,序號用英語(yǔ)冒號分開(kāi),如123,234,345。
jieqi_username-字符串,用戶(hù)名(這個(gè)用戶(hù)必須是本站有權限采集的用戶(hù))。
jieqi_userpassword-字符串,用戶(hù)密碼。
注:一個(gè)url須要放在IE瀏覽器上面遞交的時(shí)侯,整個(gè)url最大寬度度不要超過(guò)2083字節,所以通常建議這兒的url不要設置成很長(cháng),文章多的可以分拆成多個(gè)url。
3、利用系統任務(wù)實(shí)現定時(shí)采集
一、windows環(huán)境下做法
windows上面可以用系統的任務(wù)計劃來(lái)實(shí)現定時(shí)執行程序,不過(guò)首先須要制做一個(gè)批處理文件,在這個(gè)文件上面用命令來(lái)調用瀏覽器來(lái)執行采集url。需要注意的是命令只能打開(kāi)瀏覽器而不會(huì )采集好以后手動(dòng)關(guān)掉,要實(shí)現采集完手動(dòng)關(guān)掉可以通過(guò)javascript實(shí)現。自動(dòng)關(guān)掉本窗口的js代碼為:
這里的參數3000是指延后關(guān)掉時(shí)間,單位是微秒,3000表示延后3秒關(guān)掉。
這段代碼可以在兩個(gè)地方加入:
一個(gè)是加入到提示信息模板/themes/風(fēng)格名稱(chēng)/msgwin.html上面,和之間加入前面那段js。這樣的療效是整個(gè)系統任何提示信息頁(yè)面就會(huì )在3秒鐘后手動(dòng)關(guān)掉。
如果您希望僅僅手動(dòng)關(guān)掉采集成功后的提示頁(yè)面,可以在采集提示信息的語(yǔ)言包上面加入以上javascript,這個(gè)配置文件是/modules/article/lang/lang_collect.php,里面$jieqiLang['article']['batch_collect_success']是采集成功的提示信息,這個(gè)值原先是:
'恭喜您,全部文章采集完成!';
改成下邊這樣即可手動(dòng)關(guān)掉
'恭喜您,全部文章采集完成!';
建立批處理文件方式如下:
在任意目錄構建一個(gè)后綴名為.bat的文件文章定時(shí)自動(dòng)采集,比如D:\collect.bat,然后用文本編輯器輸入類(lèi)似下邊的代碼
@echooff
"explorer"";siteid=1&collectname=0&startpageid=1&maxpagenum=1&notaddnew=0&jieqi_username=admin&jieqi_userpassword=1234"
"explorer"";siteid=1&batchids=123,234,345&jieqi_username=admin&jieqi_userpassword=1234"
exit
其中
第一句@echooff是表示關(guān)掉顯示
最后一句exit表示執行完退出
中間每行表示一個(gè)采集命令(可以設置多行),就是借助系統的瀏覽器來(lái)執行后面編輯好的采集url。
使用這樣的格式:
"explorer""url"
前面部份是命令,后面是采集的url,也可以使用這樣的格式:
"%programfiles%\InternetExplorer\IEXPLORE.EXE""url"
前面部份是ie瀏覽器的路徑,后面是采集的url。
這兩種命令模式的區別是,有多行命令的時(shí)侯,前者會(huì )打開(kāi)多個(gè)瀏覽器窗口同時(shí)執行;而后者先打開(kāi)瀏覽器執行第一個(gè)命令,必須等這個(gè)瀏覽器關(guān)掉后才能重新打開(kāi)一個(gè)瀏覽器執行第二個(gè)命令。
編輯好里面的bat文件后,開(kāi)始在任務(wù)計劃上面添加執行這個(gè)任務(wù),主要步驟如下(每半小時(shí)執行一次采集):
a、打開(kāi)"控制面板",進(jìn)入"任務(wù)計劃"。
b、點(diǎn)"添加任務(wù)計劃"打開(kāi)任務(wù)計劃向導進(jìn)行添加任務(wù)。
c、點(diǎn)"下一步",然后點(diǎn)"瀏覽"選擇要執行的程序。(例子上面就是選擇D:\collect.bat)
d、設置任務(wù)名稱(chēng)及執行頻度,比如選擇"每天",點(diǎn)"下一步"。
e、選擇最開(kāi)始執行的時(shí)間和日期,一般設置比當前時(shí)間前面一點(diǎn)就行,點(diǎn)"下一步"。
f、設置執行的用戶(hù)名和密碼(本操作系統的賬號),點(diǎn)"下一步"。
g、選擇"在單擊"完成"時(shí),打開(kāi)此任務(wù)的中級屬性",點(diǎn)"完成"。
h、在"日程安排"里面,點(diǎn)"高級",選擇"重復任務(wù)",設置"每30分鐘"執行一次。
i、保存以上設置后即完成系統任務(wù)計劃。
二、linux環(huán)境下做法
linux下可以借助的系統定時(shí)任務(wù)來(lái)執行,也同樣須要先制做一個(gè)批處理的腳本,方法如下
在任意目錄構建一個(gè)后綴為.sh的文件,比如/www/collect.sh,需要形參可執行權限,如chmod755/www/collect.sh
里面內容如下: