最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

<source id="nnbng"></source>

全自動(dòng)文章采集、AI生成、自動(dòng)發(fā)布，網(wǎng)站自媒體全搞定！立即注冊

火車(chē)頭采集器教程..

優(yōu)采云發(fā)布時(shí)間: 2020-04-19 11:03

　　火車(chē)頭采集器使用流程說(shuō)明? 一、軟件安裝? 二、新建站點(diǎn)? 三、采集網(wǎng)址 ? 四、采集內容 ? 五、發(fā)布內容 ? 六、任務(wù)采集 ? 七、導出數據一、軟件安裝須要安裝軟件：（１） WAMP5-v1.7.4 （２） phpcms （３） LocoySpiderV2009SP4_Build20090807 （火車(chē)頭采集器）注：每次采集前須要將wamp5打開(kāi)后，在用火車(chē)頭采集。一、軟件安裝1、wamp5_1.7.4安裝完成后，解壓縮phpcms后將phpcms1剪切下來(lái)放在D:\wamp\www\目錄下，將phpcms1更名為phpcms。 2、打開(kāi)WAMP5，啟動(dòng)PHP settings欄目中的 short open tag。 3、安裝PHP，輸入進(jìn)行。4、解壓LocoySpiderV2009SP4_Build20090807 將Module文件下的phpcms2008-090109文件下的locoy.php復制到D:\wamp\www\phpcms下。安裝部份完成二、新建站點(diǎn)打開(kāi)火車(chē)頭軟件（LocoySpider.exe）界面如下圖：二、新建站點(diǎn)第一步：新建站點(diǎn)（如右圖）第二步：點(diǎn)擊“新建站點(diǎn)”后出現如下界面。

　　填寫(xiě)站點(diǎn)名和站點(diǎn)網(wǎng)址點(diǎn)擊“更新”三、采集網(wǎng)址新建好的站點(diǎn)會(huì )排列在窗口一側“站點(diǎn)&任務(wù)列表”中。右擊新建好的站點(diǎn)，點(diǎn)擊 “從該站點(diǎn)新建任務(wù)”，出現如下界面。以本列表為例：三、采集網(wǎng)址點(diǎn)擊向導添加后出現如下界面：批量/多頁(yè)三、采集網(wǎng)址單條網(wǎng)址選項下：三、采集網(wǎng)址填寫(xiě)完成后，點(diǎn)擊“完成”。則出現以下界面：三、采集網(wǎng)址注釋?zhuān)?1、在選擇目標站時(shí)，最好選擇文章更新快，文章質(zhì)量高（少廣告詞、圖片、鏈接、視頻、flash等），內容豐富而且在業(yè)界有一定權威性的站點(diǎn)。 2、過(guò)于滯后的文章不要采集。（例如：08年、09年的文章） 3、在選擇列表的過(guò)程中最好以站點(diǎn)為單位，不要以某個(gè)列表為單位火車(chē)頭采集教程，這樣采集效率會(huì )事半功倍。 4、在選擇目標站時(shí)盡量不要選擇動(dòng)態(tài)頁(yè)，多選擇可以用數字或字母（*）代替的靜態(tài)頁(yè)。 5、在采集過(guò)程中遇見(jiàn)不需要采集的文章，可以通過(guò)“不得包含”功能將其過(guò)濾掉。三、采集網(wǎng)址完成采集網(wǎng)址步驟過(guò)后，點(diǎn)擊“開(kāi)始測試網(wǎng)址采集”按鈕。會(huì )出現如下界面：三、采集網(wǎng)址在檢測采集連接無(wú)誤的情況下，點(diǎn)擊“返回更改設置”后，出現如下界面：四、采集內容選擇“第二步：采集內容規則”后，出現如下界面。四、采集內容選擇“添加標簽”后，出現如下界面。

　　四、采集內容將“標題”、 “資訊內容”、“內容摘要”、“信息關(guān)鍵詞”、“meta關(guān)鍵詞”、 “meta描述”、“責任編輯”、“信息來(lái)源”添加到標簽名中，將其他不需要的標簽名稱(chēng)刪掉，出現如下界面。四、采集內容下邊分別說(shuō)明“標題”、“內容摘要”、“信息關(guān)鍵詞”、“meta關(guān)鍵詞”、 “meta描述”、“責任編輯”、“信息來(lái)源”、“資訊內容”各個(gè)標簽的采集規則。采集頁(yè)面以為例。第一、標題查看本頁(yè)面“源文件”搜索title代碼，找到文章內容部份。如下圖：注釋?zhuān)阂话闱闆r下檢索<title></title>都可以采集到我們須要的標題標簽，但因為這篇文章此代碼中設計到其他網(wǎng)站logo及列表分類(lèi)不確定信息，所以選擇 <div id=“title”><h1></h1>中內容來(lái)替代。如果沒(méi)有合適數組，可借助“內容排除”選項進(jìn)行篩選。四、采集內容雙擊上圖窗口中的“標題”標簽，將“源代碼”中對應的標題開(kāi)始代碼和結束代碼分別輸入到開(kāi)始字符段和結束字符段中火車(chē)頭采集教程，點(diǎn)擊確定，標題標簽設置完成。四、采集內容第二、資訊內容查看本頁(yè)面“源文件”，找到文章內容部份。

　　如下圖：四、采集內容1、雙擊上圖窗口中的“資訊內容”標簽，將“源代碼”中對應的資訊內容開(kāi)始代碼和結束代碼分別輸入到開(kāi)始字符段和結束字符段中。2、勾選“HTML標簽排除”中的“鏈接”、“層”、“Span”、“圖象”、“腳本” 選項。 3、選擇“內容排除”中的添加項，將資訊內容代碼中的無(wú)用代碼和文本添加在此選項中，過(guò)濾廢物信息。 4、點(diǎn)擊確定，資訊內容標簽設置完成。如下圖：四、采集內容四、采集內容注釋?zhuān)?在資訊內容采集過(guò)程中最主要的是對垃圾信息的刪掉，其中須要注意的有以下幾項： 1、廣告語(yǔ) （例如：<A href="; target=_blank>2010年建材行業(yè)十大評比活動(dòng)完滿(mǎn)謝幕，電話(huà)：01062298529</A>） 2、特殊標簽（例如：<IFRAME><sytle>標簽，大部分標簽會(huì )在“HTML標簽排除”中刪掉。） 3、網(wǎng)站logo （例如：【<STRONG><A href=" ; target=_blank>慧聰建材網(wǎng)</A></STRONG>】） 4、文章中銘感文字（例如：點(diǎn)擊下一頁(yè)、點(diǎn)擊查看更多圖片、視頻、責任編輯、評論、【熱點(diǎn)導讀】、【相關(guān)新聞】等與文章正文無(wú)關(guān)的文字。

　?。┧?、采集內容第三、內容描述、meta描述查看本頁(yè)面“源文件” 搜索description代碼，找到文章描述部份。如下圖：四、采集內容將“源代碼”中對應的描述開(kāi)始代碼和結束代碼分別輸入到開(kāi)始字符段和結束字符段中，點(diǎn)擊確定，內容描述和meta描述標簽設置完成。注釋?zhuān)河行┪恼旅枋霾糠菰O有大量廣告語(yǔ)或與本文無(wú)關(guān)的內容，這樣的文章描述我們不給與采集?？梢詫祟}的采集方法復制到描述采集中。四、采集內容第四、信息關(guān)鍵詞、meta關(guān)鍵詞查看本頁(yè)面“源文件” 搜索keywords代碼，找到文章關(guān)鍵詞部份。如下圖：四、采集內容將“源代碼”中對應的關(guān)鍵詞開(kāi)始代碼和結束代碼分別輸入到開(kāi)始字符段和結束字符段中，點(diǎn)擊確定，信息關(guān)鍵詞和meta關(guān)鍵詞標簽設置完成。注釋?zhuān)河行┪恼玛P(guān)鍵詞部份設有大量廣告語(yǔ)或與本文無(wú)關(guān)的內容，這樣的文章關(guān)鍵詞我們不給與采集?？梢詫祟}的采集方法復制到關(guān)鍵詞采集中。四、采集內容第五、責任編輯雙擊責任編輯標簽，選擇“自定義固定格式的數據”，在固定的字符串選項中填寫(xiě) 自己的名稱(chēng)，點(diǎn)擊確定，責任編輯設定完成。四、采集內容第六、信息來(lái)源雙擊責任編輯標簽，選擇“自定義固定格式的數據”，在固定的字符串選項中填寫(xiě) 信息來(lái)源，點(diǎn)擊確定，信息來(lái)源設定完成。

　　四、采集內容第七、分頁(yè)在“頁(yè)面內容分頁(yè)區域/樣式設置”中將分頁(yè)部份代碼輸入其中，用（*）代替即可。如下圖：（注釋?zhuān)焊髡镜姆猪?yè)代碼不同，需要具體剖析，采集分頁(yè)的文章在我們后臺將成為一篇通篇文章。建議少采集分頁(yè)多的文章，影響用戶(hù)體驗。）四、采集內容規則填寫(xiě)完成后，返回至第一步“測試網(wǎng)址采集”。雙擊所采集到的任一文章地址。則會(huì )自己彈出如下界面。（注釋?zhuān)航ㄗh多測試幾篇文章，減少垃圾代碼出現。）采集內容階段完成，點(diǎn)擊步入發(fā)布內容設置五、發(fā)布內容1、啟動(dòng)以下兩項，點(diǎn)擊“定義web在線(xiàn)發(fā)布到網(wǎng)站全局設置”。五、發(fā)布內容2、點(diǎn)擊添加，選擇phpcms2008 新聞發(fā)布模塊 3、在“網(wǎng)站/cms根地址”：輸入 4、點(diǎn)擊“在動(dòng)車(chē)外置瀏覽器中登陸”五、發(fā)布內容5、在地址欄輸入： 6、輸入用戶(hù)名phpcms密碼phpcms五、發(fā)布內容7、登錄點(diǎn)擊“確認登陸發(fā)布成功后即可關(guān)掉該窗口”，關(guān)掉此窗口。獲得五、發(fā)布內容9、選擇“系統設置”中的“添加欄目”，點(diǎn)擊下一步8、登錄本地后臺（在瀏覽器中輸入：。賬號密碼phpcms）五、發(fā)布內容10、輸入欄目名稱(chēng)、欄目目錄，點(diǎn)擊確定，在本地后臺會(huì )出現對應列表。11、點(diǎn)擊獲取列表后便可等對應ID，選擇這次采集的對應列表。

　　五、發(fā)布內容12、在配置名中輸入要采集的欄目名稱(chēng)，點(diǎn)擊保存配置。13、設置完成后點(diǎn)擊保存。發(fā)布內容部份結束六、任務(wù)采集將剛才編撰好的規則保存后，程序則會(huì )手動(dòng)跳轉到主界面。右鍵點(diǎn)擊設置好的任務(wù)，選擇開(kāi)始采集。在采集完成后系統會(huì )手動(dòng)提醒采集完成。七、導出數據采集數據在火車(chē)頭\Data文件中。雙擊mdb格式文件，右鍵選擇content選項，導出為Excel格式。七、導出數據建議將采集文檔都置于一個(gè)文件夾里，有利于后續工作進(jìn)行。七、導出數據打開(kāi)導入的Excel文檔，將ID、已采、已發(fā)、縮略圖、PageUrl、處理中等無(wú)關(guān)數據刪掉，只保留“標題”、 “資訊內容”、“內容摘要”、 “信息關(guān)鍵詞”、“meta關(guān)鍵詞”、“meta描述”、“責任編輯”、“信息來(lái)源”?！镌贓xcel中對采集文章進(jìn)行最后篩選更改：1、刪除內容缺位的文章。 2、刪除所有標題中帶有（圖）（組圖）（視頻）的文章。 3、檢查資訊內容中錯亂代碼，如有發(fā)覺(jué)錯誤借助ctrl+F對進(jìn)行批量替換。七、導出數據導出數據庫打開(kāi)后臺，點(diǎn)擊內容管理→資訊信息管理→批量導出資訊。選擇須要導出采集信息的列表名稱(chēng)，將更改好的采集文檔上傳數據庫，點(diǎn)擊導出。導出數據部份完成

0

2020-04-19

火車(chē)頭軟件關(guān)鍵詞分類(lèi)

0 個(gè)評論

要回復文章請先登錄或注冊

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

<small id="ypipi"></small>

<style id="ypipi"></style>

<style id="ypipi"></style>