火車(chē)頭采集器教程..
優(yōu)采云 發(fā)布時(shí)間: 2020-04-19 11:03火車(chē)頭采集器 使用流程說(shuō)明? 一、軟件安裝? 二、新建站點(diǎn)? 三、采集網(wǎng)址 ? 四、采集內容 ? 五、發(fā)布內容 ? 六、任務(wù)采集 ? 七、導出數據一、軟件安裝須要安裝軟件: (1) WAMP5-v1.7.4 (2) phpcms (3) LocoySpiderV2009SP4_Build20090807 (火車(chē)頭采集器) 注:每次采集前須要將wamp5打開(kāi)后,在用火車(chē)頭采集。一、軟件安裝1、wamp5_1.7.4安裝完成后,解壓縮phpcms后 將phpcms1剪切下來(lái)放在D:\wamp\www\目錄下, 將phpcms1更名為phpcms。 2、打開(kāi)WAMP5,啟動(dòng)PHP settings欄目中的 short open tag。 3、安裝PHP,輸入 進(jìn)行。4、解壓LocoySpiderV2009SP4_Build20090807 將Module文件下的phpcms2008-090109文件下 的locoy.php復制到D:\wamp\www\phpcms下。安裝部份完成二、新建站點(diǎn)打開(kāi)火車(chē)頭軟件(LocoySpider.exe) 界面如下圖:二、新建站點(diǎn)第一步:新建站點(diǎn)(如右圖) 第二步:點(diǎn)擊“新建站點(diǎn)”后出現如下界面。
填寫(xiě)站點(diǎn)名和站點(diǎn)網(wǎng)址點(diǎn)擊“更新”三、采集網(wǎng)址新建好的站點(diǎn)會(huì )排列在窗口一側“站點(diǎn)&任務(wù)列表”中。右擊新建好的站點(diǎn),點(diǎn)擊 “從該站點(diǎn)新建任務(wù)”,出現如下界面。 以本列表為例:三、采集網(wǎng)址點(diǎn)擊向導添加后出現如下界面:批量/多頁(yè)三、采集網(wǎng)址單條網(wǎng)址選項下:三、采集網(wǎng)址填寫(xiě)完成后,點(diǎn)擊“完成”。則出現以下界面:三、采集網(wǎng)址注釋?zhuān)?1、在選擇目標站時(shí),最好選擇文章更新快,文章質(zhì)量高(少廣告詞、圖片、鏈接、 視頻、flash等),內容豐富而且在業(yè)界有一定權威性的站點(diǎn)。 2、過(guò)于滯后的文章不要采集。(例如:08年、09年的文章) 3、在選擇列表的過(guò)程中最好以站點(diǎn)為單位,不要以某個(gè)列表為單位火車(chē)頭采集教程,這樣采集效 率會(huì )事半功倍。 4、在選擇目標站時(shí)盡量不要選擇動(dòng)態(tài)頁(yè),多選擇可以用數字或字母(*)代替的 靜態(tài)頁(yè)。 5、在采集過(guò)程中遇見(jiàn)不需要采集的文章,可以通過(guò)“不得包含”功能將其過(guò)濾掉。三、采集網(wǎng)址完成采集網(wǎng)址步驟過(guò)后,點(diǎn)擊“開(kāi)始測試網(wǎng)址采集”按鈕。會(huì )出現如下界面:三、采集網(wǎng)址在檢測采集連接無(wú)誤的情況下,點(diǎn)擊“返回更改設置”后,出現如下界面:四、采集內容選擇“第二步:采集內容規則”后,出現如下界面。四、采集內容選擇“添加標簽”后,出現如下界面。
四、采集內容將“標題”、 “資訊內容”、“內容摘要”、“信息關(guān)鍵詞”、“meta關(guān)鍵詞”、 “meta描述”、“責任編輯”、“信息來(lái)源”添加到標簽名中,將其他不需要的標簽 名稱(chēng)刪掉,出現如下界面。四、采集內容下邊分別說(shuō)明“標題”、“內容摘要”、“信息關(guān)鍵詞”、“meta關(guān)鍵詞”、 “meta描述”、“責任編輯”、“信息來(lái)源”、“資訊內容”各個(gè)標簽的采集規則。采集頁(yè)面以為例。第一、標題查看本頁(yè)面“源文件”搜索title代碼,找到文章內容部份。如下圖:注釋?zhuān)阂话闱闆r下檢索<title></title>都可以采集到我們須要的標題標簽,但因為 這篇文章此代碼中設計到其他網(wǎng)站logo及列表分類(lèi)不確定信息,所以選擇 <div id=“title”><h1></h1>中內容來(lái)替代。如果沒(méi)有合適數組,可借助“內容排 除”選項進(jìn)行篩選。四、采集內容雙擊上圖窗口中的“標題”標簽,將“源代碼”中對應的標題開(kāi)始代碼和結束代碼分 別輸入到開(kāi)始字符段和結束字符段中火車(chē)頭采集教程,點(diǎn)擊確定,標題標簽設置完成。四、采集內容第二、資訊內容查看本頁(yè)面“源文件”,找到文章內容部份。
如下圖:四、采集內容1、雙擊上圖窗口中的“資訊內容”標簽,將“源代碼”中對應的資訊內容開(kāi)始代 碼和結束代碼分別輸入到開(kāi)始字符段和結束字符段中。2、勾選“HTML標簽排除”中的“鏈接”、“層”、“Span”、“圖象”、“腳本” 選項。 3、選擇“內容排除”中的添加項,將資訊內容代碼中的無(wú)用代碼和文本添加在此 選項中,過(guò)濾廢物信息。 4、點(diǎn)擊確定,資訊內容標簽設置完成。 如下圖:四、采集內容四、采集內容注釋?zhuān)?在資訊內容采集過(guò)程中最主要的是對垃圾信息的刪掉,其中須要注意的有以下幾項: 1、廣告語(yǔ) (例如:<A href="; target=_blank>2010年建材行業(yè)十大評比活動(dòng)完滿(mǎn)謝幕,電話(huà):01062298529</A>) 2、特殊標簽 (例如:<IFRAME><sytle>標簽,大部分標簽會(huì )在“HTML標簽排除”中刪掉。) 3、網(wǎng)站logo (例如:【<STRONG><A href=" ; target=_blank>慧聰 建材網(wǎng)</A></STRONG>】) 4、文章中銘感文字 (例如:點(diǎn)擊下一頁(yè)、點(diǎn)擊查看更多圖片、視頻、責任編輯、評論、【熱點(diǎn)導讀】、 【相關(guān)新聞】等與文章正文無(wú)關(guān)的文字。
?。┧?、采集內容第三、內容描述、meta描述查看本頁(yè)面“源文件” 搜索description代碼,找到文章描述部份。如下圖:四、采集內容將“源代碼”中對應的描述開(kāi)始代碼和結束代碼分別輸入到開(kāi)始字符段和結束字符 段中,點(diǎn)擊確定,內容描述和meta描述標簽設置完成。注釋?zhuān)河行┪恼旅枋霾糠菰O有大量廣告語(yǔ)或與本文無(wú)關(guān)的內容,這樣的文章描述我 們不給與采集??梢詫祟}的采集方法復制到描述采集中。四、采集內容第四、信息關(guān)鍵詞、meta關(guān)鍵詞查看本頁(yè)面“源文件” 搜索keywords代碼,找到文章關(guān)鍵詞部份。如下圖:四、采集內容將“源代碼”中對應的關(guān)鍵詞開(kāi)始代碼和結束代碼分別輸入到開(kāi)始字符段和結束字 符段中,點(diǎn)擊確定,信息關(guān)鍵詞和meta關(guān)鍵詞標簽設置完成。注釋?zhuān)河行┪恼玛P(guān)鍵詞部份設有大量廣告語(yǔ)或與本文無(wú)關(guān)的內容,這樣的文章關(guān)鍵 詞我們不給與采集??梢詫祟}的采集方法復制到關(guān)鍵詞采集中。四、采集內容第五、責任編輯雙擊責任編輯標簽,選擇“自定義固定格式的數據”,在固定的字符串選項中填寫(xiě) 自己的名稱(chēng),點(diǎn)擊確定,責任編輯設定完成。四、采集內容第六、信息來(lái)源雙擊責任編輯標簽,選擇“自定義固定格式的數據”,在固定的字符串選項中填寫(xiě) 信息來(lái)源,點(diǎn)擊確定,信息來(lái)源設定完成。
四、采集內容第七、分頁(yè)在“頁(yè)面內容分頁(yè)區域/樣式設置”中將分頁(yè)部份代碼輸入其中,用(*)代替即 可。如下圖: (注釋?zhuān)焊髡镜姆猪?yè)代碼不同,需要具體剖析,采集分頁(yè)的文章在我們后臺將成 為一篇通篇文章。建議少采集分頁(yè)多的文章,影響用戶(hù)體驗。)四、采集內容規則填寫(xiě)完成后,返回至第一步“測試網(wǎng)址采集”。雙擊所采集到的任一文章地址。 則會(huì )自己彈出如下界面。(注釋?zhuān)航ㄗh多測試幾篇文章,減少垃圾代碼出現。)采集內容階段完成,點(diǎn)擊步入發(fā)布內容設置五、發(fā)布內容1、啟動(dòng)以下兩項,點(diǎn)擊“定義web在線(xiàn)發(fā)布到網(wǎng)站全局設置”。五、發(fā)布內容2、點(diǎn)擊添加,選擇phpcms2008 新聞發(fā)布模塊 3、在“網(wǎng)站/cms根地址”:輸入 4、點(diǎn)擊“在動(dòng)車(chē)外置瀏覽器中登陸”五、發(fā)布內容5、在地址欄輸入: 6、輸入用戶(hù)名phpcms密碼phpcms五、發(fā)布內容7、登錄點(diǎn)擊“確認登陸發(fā)布成功后即可關(guān)掉該窗口”,關(guān)掉此窗口。獲得五、發(fā)布內容9、選擇“系統設置”中的“添加欄目”,點(diǎn)擊下一步8、登錄本地后臺(在瀏覽器中輸入:。賬號密碼phpcms)五、發(fā)布內容10、輸入欄目名稱(chēng)、欄目目錄,點(diǎn)擊確定,在本地后臺會(huì )出現對應列表。11、點(diǎn)擊獲取列表后便可等對應ID,選擇這次采集的對應列表。
五、發(fā)布內容12、在配置名中輸入要采集的欄目名稱(chēng),點(diǎn)擊保存配置。13、設置完成后點(diǎn)擊保存。發(fā)布內容部份結束六、任務(wù)采集將剛才編撰好的規則保存后,程序則會(huì )手動(dòng)跳轉到主界面。右鍵點(diǎn)擊設置好的任 務(wù),選擇開(kāi)始采集。在采集完成后系統會(huì )手動(dòng)提醒采集完成。七、導出數據采集數據在火車(chē)頭\Data文件中。雙擊mdb格式文件,右鍵選擇content選項,導出為Excel格式。七、導出數據建議將采集文檔都置于一個(gè)文件夾里,有利于后續工作進(jìn)行。七、導出數據打開(kāi)導入的Excel文檔,將ID、已采、已發(fā)、縮略圖、PageUrl、處 理中等無(wú)關(guān)數據刪掉,只保留“標題”、 “資訊內容”、“內容摘要”、 “信息關(guān)鍵詞”、“meta關(guān)鍵詞”、“meta描述”、“責任編輯”、“信息來(lái)源”?!镌贓xcel中對采集文章進(jìn)行最后篩選更改:1、刪除內容缺位的文章。 2、刪除所有標題中帶有(圖)(組圖)(視頻)的文章。 3、檢查資訊內容中錯亂代碼,如有發(fā)覺(jué)錯誤借助ctrl+F對進(jìn)行批量替換。七、導出數據導出數據庫 打開(kāi)后臺,點(diǎn)擊內容管理→資訊信息管理→批量導出資訊。選擇須要導出采集信息的列表名稱(chēng),將更改好的采集文檔上傳數據庫,點(diǎn)擊導出。導出數據部份完成