最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

搜索引擎如何抓取網(wǎng)頁(yè)(有關(guān)url的頁(yè)面抓取過(guò)程講述url頁(yè)面的抓取流程)

優(yōu)采云 發(fā)布時(shí)間: 2021-09-13 08:13

  搜索引擎如何抓取網(wǎng)頁(yè)(有關(guān)url的頁(yè)面抓取過(guò)程講述url頁(yè)面的抓取流程)

  url,即統一資源定位器,通過(guò)對url的分析,可以更好的了解頁(yè)面的爬取過(guò)程。今天給大家講講URL頁(yè)面的抓取過(guò)程。

  一、url 是什么意思?

  URL,英文全稱(chēng)是“uniform resource locator”,中文翻譯是“uniform resource locator”。

  在網(wǎng)站優(yōu)化中,要求每個(gè)頁(yè)面只有一個(gè)唯一的統一資源定位符(URL),但往往很多網(wǎng)站對應同一頁(yè)面上的多個(gè)URL,如果都被搜索引擎搜索到的話(huà)收錄而且沒(méi)有URL重定向,權重不集中,通常稱(chēng)為URL不規則。

  二、url 的組成

  Uniform Resource Locator (URL) 由三部分組成:協(xié)議方案、主機名和資源名。

  例如:

  www.***.com /sitemap.html

  其中,https為協(xié)議方案,***.com為主機名,sitemap.html為資源。當然也可以是.pdf、.php、.word等格式。

  三、頁(yè)面抓取過(guò)程簡(jiǎn)述

  無(wú)論是我們平時(shí)使用的網(wǎng)絡(luò )瀏覽器還是網(wǎng)絡(luò )爬蟲(chóng),雖然有兩個(gè)不同的客戶(hù)端,但是獲取頁(yè)面的方式是一樣的。頁(yè)面抓取過(guò)程如下:

 ?、龠B接DNS服務(wù)器

  客戶(hù)端會(huì )先連接DNS域名服務(wù)器,DNS服務(wù)器將主機名(***.com)轉換成IP地址發(fā)回給客戶(hù)端。

  PS:本來(lái)我們用125.52.10.45這個(gè)地址來(lái)訪(fǎng)問(wèn)某個(gè)網(wǎng)站。為了便于記憶和使用,我們使用DNS域名系統轉換為***.com。這就是 DNS 域名系統的作用。

 ?、谶B接IP地址服務(wù)器

  這個(gè)IP服務(wù)器下可能有很多程序(網(wǎng)站),可以通過(guò)端口號來(lái)區分。同時(shí)每個(gè)程序(網(wǎng)站)都會(huì )*敏*感*詞*新的連接請求的端口,HTTP網(wǎng)站默認是80,HTTPS網(wǎng)站默認是443。

  不過(guò),一般情況下,80和443端口號默認是不會(huì )出現的。

  例如:

  ***.com:443/ = ***.com/

  ***.com:80/ = ***.com/

 ?、?建立連接并發(fā)送頁(yè)面請求

  客戶(hù)端與服務(wù)器建立連接后,會(huì )發(fā)送一個(gè)頁(yè)面請求,通常是get或者post。

  獲取站點(diǎn)地圖.html HTTPS/1.0

  獲取HTTPS協(xié)議下的頁(yè)面站點(diǎn)地圖并返回給客戶(hù)端。如果稍后需要獲取更多頁(yè)面,請發(fā)送另一個(gè)請求,否則將關(guān)閉連接。

  PS:一般情況下,/seo/sitemap.html 可能會(huì )更清晰一些。也就是在***.com/下的seo文件夾中發(fā)送sitemap.html的頁(yè)面請求。

0 個(gè)評論

要回復文章請先登錄注冊


官方客服QQ群

微信人工客服

QQ人工客服


線(xiàn)

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区