最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

織夢(mèng)采集俠2.7定向采集設置教程

優(yōu)采云 發(fā)布時(shí)間: 2020-06-11 08:00

  定向采集是織夢(mèng)采集俠亮點(diǎn)功能之一,簡(jiǎn)單配置采集規則即可精確采集到文章標題、作者、來(lái)源、內容和分頁(yè),通過(guò)這篇教程你們可以懂得怎樣配置這種采集規則,從而簡(jiǎn)單便捷 的采集內容,熟悉該方式后,您將會(huì )拋棄傳統復雜的采集方式,采用織夢(mèng)采集俠的定向采集 功能進(jìn)行采集。 和傳統的采集方式相比,織夢(mèng)采集俠的定向采集功能更為簡(jiǎn)單,不需要編撰復雜的采集 規則,可供設置的地方就這么幾項,簡(jiǎn)單配置一下即可采集內容。 定向采集規則設置: 1)目標頁(yè)面編碼 目標頁(yè)面編碼的設置最為簡(jiǎn)單,您只須要查看一下您要采集的網(wǎng)站頁(yè)面所采用的是哪些 編碼即可,查看方式很簡(jiǎn)單,打開(kāi)您要采集的網(wǎng)頁(yè),點(diǎn)擊滑鼠右鍵,點(diǎn)擊查看網(wǎng)站源碼,搜 索charset,查看charset 后面緊隨的是utf-8 還是gb2312,然后在采集規則設置目標 頁(yè)面編碼設置對應的編碼即可。 2)列表URL 列表URL 是您要采集網(wǎng)站的列表 列表URL 一般是你須要采集的文章的列表頁(yè),因為只有列表頁(yè)才有諸多被采集文章的 URL,通過(guò)列表URL 規則和文章URL 規則,可以匹配出該列表頁(yè)符合文章URL 規則的文 章頁(yè)URL 如果只是單純采集列表頁(yè)的第一頁(yè),直接輸入該列表URL就行,如我要采集站長(cháng)之家 的優(yōu)化欄目的第一頁(yè),那列表URL 就輸入:,即可。

   采集第一頁(yè)的內容的益處就是可以不用采集老舊的新聞,而且有新更新也可以及時(shí)采集到, 如果須要采集該欄目的所有內容,那也可以通過(guò)設置鍵值的方法,匹配所有列表URL 匹配URL規則的方式也很簡(jiǎn)單,你只須要查看列表分頁(yè)的不同,加個(gè)鍵值即可,如 站長(cháng)之家的優(yōu)化欄目:,這是首頁(yè)的, 第一頁(yè)的URL 是: 第二頁(yè)的URL 是: 第三頁(yè)的URL 是: 通過(guò)觀(guān)察列表URL 的變化,可以看出第一頁(yè)就是1.shtml,第二頁(yè)就是2.shtml,第 三頁(yè)就是3.shtml,變換的就是頁(yè)腳而已,列表頁(yè)的URL 通配符是 [開(kāi)始頁(yè)-結束頁(yè)] 如你要采集欄目前二十頁(yè)的,那么列表URL規則就是: [1-20].shtml,看到其中的區別了吧,就是在變換 的部份加入鍵值采集俠規則,從開(kāi)始頁(yè)到結束頁(yè)即可。 3)文章URL 文章URL 規則和列表URL 規則設置差不多,也是通配變換的部份,只是鍵值不一樣 而已,文章URL 使用轉義 來(lái)匹配,有采集規則編撰經(jīng)驗的用戶(hù)可以很容易理解,通配符可以取代一個(gè)或多個(gè)真正的字符,通過(guò)下邊反例愈發(fā)直觀(guān)的了解鍵值的使用技巧。 :///web/2011/0926/211705.shtml 通配后的URL 就是:(*)/(*)/(*).shtml 也就是說(shuō)數字部份是變換的部份,可以看得出他的URL 結構是年/月日/文章ID的方式, 年月日和文章ID 是會(huì )變換的,所以就通配這三部份內容就行。

   我們可以輸入列表URL 規則和文章URL 規則,然后點(diǎn)擊測試,會(huì )聽(tīng)到右圖的測試結果, 也就是匹配成功了,已經(jīng)列舉成功匹配的列表URL 和文章URL,測試的時(shí)侯只顯示前十條 結果以供觀(guān)察是否早已匹配成功。 4)標題規則、作者規則、來(lái)源規則、內容規則和分頁(yè)規則的寫(xiě)法 標題、作者、來(lái)源、內容和分頁(yè)規則的寫(xiě)法都是一樣的,懂得其中一項的寫(xiě)法,其他幾 項都懂得了,我如今就一一舉例怎么設置,有編撰過(guò)傳統采集規則的用戶(hù),對插件的規則寫(xiě) 法會(huì )很容易上手,新用戶(hù)也是很容易理解的。 [規則說(shuō)明]:”起始無(wú)重復HTML[內容]結尾無(wú)重復HTML”,簡(jiǎn)單的說(shuō),右鍵查看文章 源碼,標題內容用 [內容] 來(lái)取代,然后就是緊接著(zhù)標題內容左右兩側的代碼,下面是舉例 說(shuō)明,用戶(hù)可以更直觀(guān)的了解。 比如我要采集站長(cháng)之家優(yōu)化欄目上面的文章,打開(kāi)文章列表中其中一篇, SEO關(guān)鍵字策略規劃方法心得分享 標題規則 打開(kāi)后,右鍵查看源碼,通過(guò)查看源碼,我們可以看見(jiàn)標題“SEO 關(guān)鍵字策略規劃方法 心得分享”出現的地方有2 SEO關(guān)鍵字策略規劃方法心得分享 按照這兩段代碼,我們可以寫(xiě)出標題規則為 這樣的寫(xiě)法就符合插件的規則要求,同[內容]代替要采集的部份,只取其中一個(gè)規則即 作者規則的寫(xiě)法和標題寫(xiě)法一致,只要找出作者所在位置,和左右兩側的代碼就行,用[內容]代替作者,該篇文章中沒(méi)有顯示文章作者,所以在此就不演示了。

   來(lái)源規則 瀏覽網(wǎng)頁(yè)我們可以看見(jiàn)該篇文章的來(lái)源是,同樣是查看文章源碼,搜索查 看“”所在位置,我們可以看見(jiàn) 來(lái)源: 這段代碼中包含了來(lái)源,我們采用同樣的方式用[內容]對要采集的“來(lái)源”進(jìn)行替換,來(lái) 源規則則是: 來(lái)源: [內容] 內容規則 內容規則和其他規則的寫(xiě)法一樣,只是內容過(guò)多,不便捷搜索查找,得自己瀏覽源碼找 到內容部份,內容部份占的位置也是比較多的,查找上去也是很容易的。 從上兩張圖中我們可以找出文章開(kāi)頭是“網(wǎng)絡(luò )上談SEO 的文章是滿(mǎn)天紛飛”,結尾是“轉 載請提供出處。不勝謝謝?!?,包含文章正文的html 分別是

  只要取一小部份不同的就行,內容規則則是: 招分銷(xiāo)商

  [內容]

  分頁(yè)規則 “SEO 關(guān)鍵字策略規劃方法心得分享”該篇文章沒(méi)有分頁(yè),我就取“電子商務(wù)關(guān)鍵數字優(yōu) 化(線(xiàn)上部份,上)()” 這篇文章給你們做演示。 通過(guò)查看源碼,我們找到分頁(yè)部份的那段代碼,如下圖: 分頁(yè)規則的寫(xiě)法則和其他規則的寫(xiě)法也是一樣的,將[內容]替換帶有分頁(yè)URL 的地方 就行,分頁(yè)規則是:

  [內容]

  寫(xiě)到這兒,我想你們也懂得怎樣設置采集規則了,是不是很簡(jiǎn)單?插件提供測試功能, 在使你們測試規則是否有效,如下圖般設置好,然后點(diǎn)擊測試按鍵。 如果不需要采集作者和來(lái)源信息,那只須要設置標題、內容和分頁(yè)規則即可。 將會(huì )看見(jiàn)測試結果如下圖: 可以看出各項內容都可以精確采集了,但在上圖中卻沒(méi)有顯示分頁(yè)鏈接,其實(shí)這個(gè)并不 是規則編撰錯誤的,而是測試的第一篇文章中沒(méi)有分頁(yè),所以不顯示分頁(yè)鏈接,不過(guò)你們可 以單獨測試一下分頁(yè)規則是有效采集俠規則,就是列表URL 和文章URL 不進(jìn)行通配,直接填入列表 URL 和文章URL,然后設置好分頁(yè)規則,點(diǎn)擊測試即可見(jiàn)到分頁(yè)鏈接,如下圖: 如果不寫(xiě)采集規則,全部設置手動(dòng)的話(huà),標題和內容是可以采集到的,作者、來(lái)源、和 分頁(yè)未必可以挺好的采集到,只有符合插件手動(dòng)規則的才行。正文部份借助插件的正文提取 算法進(jìn)行提取,如果網(wǎng)頁(yè)排版形式不夠規范的話(huà),可能會(huì )提取到有多余,或者提取少了的現 象,如果想精確采集,建議還是寫(xiě)上采集規則。 無(wú)廣告彈窗全文字TXT 小說(shuō)網(wǎng)----去書(shū)吧---

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区