最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

<ul id="oiuw4"><sup id="oiuw4"></sup></ul>

文章采集api

文章采集api

全部?jì)热?/a>

精華
推薦
我的收藏
關(guān)于話(huà)題

使用優(yōu)采云可以幫助企業(yè)自動(dòng)收集信息的簡(jiǎn)單方法

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 63 次瀏覽 ? 2023-02-11 14:32 ? 來(lái)自相關(guān)話(huà)題

　　隨著(zhù)科技的發(fā)展，越來(lái)越多的企業(yè)都開(kāi)始使用文章采集API來(lái)獲取有價(jià)值的信息。文章采集API是一種可以幫助企業(yè)自動(dòng)收集信息的簡(jiǎn)單方法，它可以通過(guò)掃描網(wǎng)頁(yè)或其他文檔，將新聞、博客、企業(yè)網(wǎng)站、行業(yè)信息和其他各種信息采集到一個(gè)地方。這樣，企業(yè)就可以獲得有價(jià)值的信息，并更好地分析市場(chǎng)，從而更快地作出正確的決定。
　　
　　隨著(zhù)文章采集API越來(lái)越受到重視，各大企業(yè)都在尋找一些能夠幫助他們快速、準確地采集信息的工具。這時(shí)候就需要優(yōu)采云出場(chǎng)了。優(yōu)采云是一家專(zhuān)門(mén)針對文章采集領(lǐng)域的公司，它通過(guò)SEO優(yōu)化，使你能夠快速準確地采集到想要的信息。此外，它還能夠幫助你根據你所需要的內容進(jìn)行分詞、語(yǔ)義分析，并提供大數據分析服務(wù)。
　　
　　使用優(yōu)采云可以大大減少人工采集信息所耗費的時(shí)間和成本，因此能夠幫助企業(yè)降低成本并提高效率，相應地也能夠幫助企業(yè)節省時(shí)間。此外，不同于其他文章采集工具，優(yōu)采云還能夠根據你的特定需要對內容進(jìn)行語(yǔ)義分析，然后將其整理成易于理解的形式。這意味著(zhù)你不用浪費時(shí)間去理解內容中所包含的信息，而是將時(shí)間用在如何使用這些信息上面。
　　
　　總之，使用文章采集API是一個(gè)很好的選擇，特別是當你想要快速、準確地獲取有價(jià)值信息時(shí)。而使用優(yōu)采云就是最好的選擇了：它不僅能夠快速準確地幫你采集信息，還能夠根據你所需要的內容進(jìn)行語(yǔ)義分析并提供大數據分析服務(wù)。所有想要嘗試文章采集API的人都可以前往www.bjpromise.cn來(lái)親身感受一下這一神奇工具帶來(lái)的便利性。查看全部

　　隨著(zhù)科技的發(fā)展，越來(lái)越多的企業(yè)都開(kāi)始使用文章采集API來(lái)獲取有價(jià)值的信息。文章采集API是一種可以幫助企業(yè)自動(dòng)收集信息的簡(jiǎn)單方法，它可以通過(guò)掃描網(wǎng)頁(yè)或其他文檔，將新聞、博客、企業(yè)網(wǎng)站、行業(yè)信息和其他各種信息采集到一個(gè)地方。這樣，企業(yè)就可以獲得有價(jià)值的信息，并更好地分析市場(chǎng)，從而更快地作出正確的決定。
　　

　　隨著(zhù)文章采集API越來(lái)越受到重視，各大企業(yè)都在尋找一些能夠幫助他們快速、準確地采集信息的工具。這時(shí)候就需要優(yōu)采云出場(chǎng)了。優(yōu)采云是一家專(zhuān)門(mén)針對文章采集領(lǐng)域的公司，它通過(guò)SEO優(yōu)化，使你能夠快速準確地采集到想要的信息。此外，它還能夠幫助你根據你所需要的內容進(jìn)行分詞、語(yǔ)義分析，并提供大數據分析服務(wù)。
　　

　　使用優(yōu)采云可以大大減少人工采集信息所耗費的時(shí)間和成本，因此能夠幫助企業(yè)降低成本并提高效率，相應地也能夠幫助企業(yè)節省時(shí)間。此外，不同于其他文章采集工具，優(yōu)采云還能夠根據你的特定需要對內容進(jìn)行語(yǔ)義分析，然后將其整理成易于理解的形式。這意味著(zhù)你不用浪費時(shí)間去理解內容中所包含的信息，而是將時(shí)間用在如何使用這些信息上面。
　　

　　總之，使用文章采集API是一個(gè)很好的選擇，特別是當你想要快速、準確地獲取有價(jià)值信息時(shí)。而使用優(yōu)采云就是最好的選擇了：它不僅能夠快速準確地幫你采集信息，還能夠根據你所需要的內容進(jìn)行語(yǔ)義分析并提供大數據分析服務(wù)。所有想要嘗試文章采集API的人都可以前往www.bjpromise.cn來(lái)親身感受一下這一神奇工具帶來(lái)的便利性。

教程:手把手教你實(shí)現zabbix對Kubernetes的監控

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-12-22 13:17 ? 來(lái)自相關(guān)話(huà)題

　　教程:手把手教你實(shí)現zabbix對Kubernetes的監控
　　教你如何實(shí)現Kubernetes Zabbix 6.0新特性的zabbix監控
　　Zabbix 6.0 LTS新增了Kubernetes監控功能，可以采集Kubernetes系統中多個(gè)維度的指標。今天來(lái)實(shí)現Zabbix6.0對K8S的監控。
　　建筑學(xué)
　　指標模板
　　K8S集群及組件模板
　　模板名稱(chēng)解釋
　　通過(guò) HTTP 的 Kubernetes API 服務(wù)器
　　K8S ApiServer組件指標模板
　　HTTP 的 Kubernetes 集群狀態(tài)
　　K8S集群指標模板
　　HTTP 的 Kubernetes 控制器管理器
　　K8S ControllerManager組件指標模板
　　Kubernetes kubelet 通過(guò) HTTP
　　K8S Kubelet組件指標模板
　　通過(guò) HTTP 的 Kubernetes 節點(diǎn)
　　K8S集群節點(diǎn)發(fā)現及狀態(tài)指示模板
　　HTTP 的 Kubernetes 調度器
　　K8S Scheduler組件指標模板
　　K8S節點(diǎn)基本信息指標模板
　　模板名稱(chēng)解釋
　　Zabbix 代理的 Linux
　　OS Linux系統監控模板
　　方法
　　主要監測方式
　　代理人
　　通過(guò)zabbix agent客戶(hù)端采集集群節點(diǎn)的CPU、內存、磁盤(pán)等基本信息指標。
　　無(wú)代理
　　通過(guò)Zabbix內置的“HTTP代理”和“腳本”兩種監控項，無(wú)需安裝客戶(hù)端，通過(guò)訪(fǎng)問(wèn)被監控終端的API接口即可采集監控指標數據。主要用于K8S集群、服務(wù)組件以及pod容器狀態(tài)和性能指標的采集。
　　機器分布
　　此實(shí)現使用兩個(gè)虛擬機
　　主機名 IP
　　k8s-master01
　　192.168.119.81
　　k8s-node01
　　192.168.119.91
　　部署Zabbix Proxy、代理
　　在K8S集群中部署Zabbix Proxy和Zabbix Agent監控組件，這里使用官方的Helm Chart進(jìn)行安裝。
　　文檔：%2Fheads%2Freelease%2F6.0
　　1.首先需要安裝Helm工具
　　wget tar zxvf helm-v3.8.1-linux-amd64.tar.gz cp linux-amd64/helm /usr/local/bin/helm
　　2. 添加 Helm Chart 存儲庫
　　helm repo 添加 zabbix-chart-6.0 helm repo 列表
　　3.下載Zabbix Helm Chart并解壓
　　helm pull zabbix-chart-6.0/zabbix-helm-chrt tar xf zabbix-helm-chrt-1.1.1.tgz
　　配置 Chart.yaml
　　主要記錄當前Chart的基本信息，包括版本、名稱(chēng)、依賴(lài)等。
　　
　　參數說(shuō)明
　　api版本
　　圖表 API 版本
　　姓名
　　圖表名稱(chēng)
　　描述
　　描述
　　家
　　項目主頁(yè)的URL
　　圖標
　　用作圖標的 SVG 或 PNG 圖像 URL
　　類(lèi)型
　　圖表類(lèi)型
　　版本
　　語(yǔ)義 2 版本
　　應用版本
　　收錄的應用程序版本
　　依賴(lài)關(guān)系
　　依賴(lài)的Chart列表，緩存在同級下的charts目錄中
　　配置 values.yaml
　　主要定義templates目錄下K8S資源對象的配置文件變量值。
　　1.Zabbix Proxy和Agent參數配置
　　參數值解釋
　　全名覆蓋
　　扎比克斯
　　覆蓋完全限定的應用程序名稱(chēng)
　　kubeStateMetricsEnabled
　　真的
　　部署 kube-state-metrics
　　zabbixProxy.image.tag
　　高山-6.0.1
　　ZabbixProxy Docker鏡像標簽，用于指定ZabbixProxy的版本
　　zabbixProxy.env.ZBX_HOSTNAME
　　zabbix-代理-k8s
　　ZabbixProxy 主機名
　　zabbixProxy.env.ZBX_SERVER_HOST
　　Zabbix服務(wù)器地址
　　zabbixAgent.image.tag
　　高山-6.0.1
　　ZabbiAgent Docker鏡像標簽，用于指定ZabbiAgent版本
　　2. kube-state-metrics依賴(lài)Chart參數配置
　　參數值解釋
　　圖像.存儲庫
　　bitnami/kube 狀態(tài)指標
　　kube-state-metrics 鏡像庫配置
　　圖片.tag
　　2.2.0
　　kube-state-metrics 容器鏡像版本
　　1.創(chuàng )建監控命名空間
　　kubectl 創(chuàng )建命名空間監控
　　
　　2.Helm安裝Zabbix Chart
　　cd zabbix-helm-chrt helm 安裝 zabbix。 --dependency-update -n 監控
　　3.查看K8S Zabbix Pod
　　kubectl get pods -n monitoring -o wide
　　4.獲取API接口訪(fǎng)問(wèn)令牌
　　kubectl 獲取秘密 zabbix-service-account -n monitoring -o jsonpath={.data.token} | base64-d
　　集群節點(diǎn)監控
　　1.在頁(yè)面創(chuàng )建Zabbix Proxy
　　注意這里的代理ip地址是kubectl獲取的值
　　2.創(chuàng )建“k8s-nodes”并掛載“Kubernets nodes by HTTP”自動(dòng)發(fā)現節點(diǎn)主機。
　　集群節點(diǎn)監控-宏變量配置
　　1.宏變量
　　{$KUBE.API.ENDPOINT} :6443/api
　　{$KUBE.API.TOKEN}之前獲取的一長(cháng)串值
　　{$KUBE.NODES.ENDPOINT.NAME} zabbix-agent
　　2.查看K8S服務(wù)端點(diǎn)信息
　　kubectl get ep -n 監控
　　集群節點(diǎn)監控效果
　　1.自動(dòng)發(fā)現節點(diǎn)主機
　　2.最新數據
　　集群服務(wù)監控
　　創(chuàng )建“k8s-cluster”并掛載“Kubernetes cluster state by HTTP”以自動(dòng)發(fā)現服務(wù)組件。
　　集群服務(wù)監控-宏變量配置
　　{$KUBE.API.HOST} 192.168.119.81
{$KUBE.API.PORT} 6443
{$KUBE.API.TOKEN}
{$KUBE.API_SERVER.PORT} 6443
{$KUBE.API_SERVER.SCHEME} https
{$KUBE.CONTROLLER_MANAGER.PORT} 10252
{$KUBE.CONTROLLER_MANAGER.SCHEME} http
{$KUBE.KUBELET.PORT} 10250
{$KUBE.KUBELET.SCHEME} https
{$KUBE.SCHEDULER.PORT} 10251
{$KUBE.SCHEDULER.SCHEME} http
{$KUBE.STATE.ENDPOINT.NAME} zabbix-kube-state-metrics
　　集群服務(wù)監控效果
　　1.自動(dòng)發(fā)現集群服務(wù)組件主機
　　2.最新數據
　　至此，我們就完成了Zabbix6.0對K8S的監控。
　　教程:愛(ài)站SEO工具包 V1.11.11
　　愛(ài)站 SEO Toolkit 是一個(gè)強大的網(wǎng)站管理員工具集合。集成了愛(ài)站的關(guān)鍵詞查詢(xún)挖掘、百度外鏈等多項功能，為站長(cháng)提供絕對的福利。是專(zhuān)業(yè)seo事業(yè)必備的工具箱。
　　【主要功能】
　　1.百度外鏈助手。
　　2.關(guān)鍵詞監控。
　　3.收錄率和死鏈接檢測。
　　4.站外排名。
　　5.關(guān)鍵詞挖掘。
　　特征：
　　百度外鏈助手：批量獲取站點(diǎn)外鏈并進(jìn)行垃圾外鏈檢測和狀態(tài)碼查詢(xún)，批量篩選/過(guò)濾，輕松獲取需要拒絕的垃圾外鏈。
　　關(guān)鍵詞監測：實(shí)時(shí)監測全站關(guān)鍵詞排名，覆蓋百度/搜狗/360等國內主流搜索引擎，并記錄指定關(guān)鍵詞的歷史排名數據，支持自定義添加、相關(guān)推薦、關(guān)鍵詞挖掘和競品搜索關(guān)鍵詞借鑒其他方式添加，排名一目了然！
　　
　　收錄率/斷鏈檢測：收錄查詢(xún)整網(wǎng)站頁(yè)面并計算網(wǎng)站頁(yè)面收錄率，批量查詢(xún)整站頁(yè)面狀態(tài)碼檢測死鏈接，提供死鏈接入口頁(yè)面，支持nofollow過(guò)濾、指定目錄頁(yè)面查詢(xún)，具有很強的可擴展性。一鍵獲取數據！
　　站外排行：每次打開(kāi)VPN，你的網(wǎng)站、QQ、推廣助手都會(huì )是好牌嗎？您可以在不使用 VPN 的情況下在不同的地方查看關(guān)鍵詞排名信息。支持百度/搜狗/360等主流搜索引擎，無(wú)需驗證碼，想查就查！
　　關(guān)鍵詞挖掘：支持百度索引批量查詢(xún)和關(guān)鍵詞挖掘功能，可快速批量查詢(xún)導出指定級別索引的關(guān)鍵詞。關(guān)鍵詞挖掘可以挖掘出愛(ài)站開(kāi)通愛(ài)站的所有數據，支持關(guān)聯(lián)/過(guò)濾/過(guò)濾/導出等功能
　　站群查詢(xún)：批量查詢(xún)權重/反向鏈/pr/收錄/大量站點(diǎn)記錄信息等數據，支持內頁(yè)查詢(xún)，支持數據批量篩選導出。
　　日志分析：支持所有格式的日志，覆蓋所有搜索引擎蜘蛛。批量分析用戶(hù)和蜘蛛的狀態(tài)碼，蜘蛛爬取頁(yè)面/目錄/ip排名，同時(shí)提供生動(dòng)的圖標，讓蜘蛛和用戶(hù)的行為一目了然！
　　工具箱：每次打開(kāi)VPN，你的網(wǎng)站、QQ、推廣助手會(huì )不會(huì )卡？您可以在不使用 VPN 的情況下在不同的地方查看關(guān)鍵詞排名信息。支持百度/搜狗/360等主流搜索引擎，無(wú)需驗證碼，想查就查！
　　常見(jiàn)問(wèn)題：
　　動(dòng)態(tài)鏈接庫（DLL）初始化例程失敗的解決方法
　　出現這個(gè)問(wèn)題的原因是我們的軟件沒(méi)有數字簽名。進(jìn)入后臺進(jìn)程后，McAfee等殺毒軟件將dll文件隔離。
　　解決方法是完全關(guān)閉或卸載殺毒軟件，然后運行愛(ài)站SEO工具包。（尤其是McAfee，因為大部分win7系統自帶McAfee，狀態(tài)欄不顯示）
　　愛(ài)站SEO工具包殺毒軟件誤報說(shuō)明
　　免責聲明：本官方版愛(ài)站SEO工具包軟件絕對不含任何病毒
　　殺毒軟件誤報的原因包括但不限于：
　　殺毒軟件或安全衛士病毒庫更新錯誤，
　　
　　殺毒軟件或安全衛士公司的技術(shù)問(wèn)題，
　　愛(ài)站在上線(xiàn)更新前已經(jīng)通過(guò)國內外知名殺毒軟件和安全軟件提交測試，通過(guò)安全監控后才會(huì )上線(xiàn)發(fā)布。
　　關(guān)鍵詞監控采集不到索引和排名是什么原因
　　近日新版工具包發(fā)布后，收到部分用戶(hù)反饋，軟件升級后，關(guān)鍵詞監測功能無(wú)法查詢(xún)索引或排名？
　　為了提升用戶(hù)體驗，新版本重新設計了軟件的UI風(fēng)格，查詢(xún)排名或索引需要在采集查詢(xún)數據前先勾選采集項。
　　【百度網(wǎng)址主動(dòng)推送工具常見(jiàn)問(wèn)題解答】
　　1、是否需要添加網(wǎng)址？
　　答：可以加也可以不加，程序會(huì )判斷URL，沒(méi)有加過(guò)的URL會(huì )自動(dòng)加進(jìn)去
　　2、同一個(gè)賬號下所有網(wǎng)站的TOKEN值是否相同？
　　答：一樣的
　　3.重復提交已發(fā)布的鏈接有什么問(wèn)題？
　　答：會(huì )有兩個(gè)影響。首先，它會(huì )浪費你的提交配額。每個(gè)站點(diǎn)每天的提交數量有限制。如果您已經(jīng)提交了舊鏈接，當有新鏈接時(shí)，您可能會(huì )因為配額用完而無(wú)法提交。其次，如果您頻繁重復提交舊鏈接，我們會(huì )降低您的配額，您可能會(huì )失去權限主動(dòng)推送功能
　　【更新日志】查看全部

　　教程:手把手教你實(shí)現zabbix對Kubernetes的監控
　　教你如何實(shí)現Kubernetes Zabbix 6.0新特性的zabbix監控
　　Zabbix 6.0 LTS新增了Kubernetes監控功能，可以采集Kubernetes系統中多個(gè)維度的指標。今天來(lái)實(shí)現Zabbix6.0對K8S的監控。
　　建筑學(xué)
　　指標模板
　　K8S集群及組件模板
　　模板名稱(chēng)解釋
　　通過(guò) HTTP 的 Kubernetes API 服務(wù)器
　　K8S ApiServer組件指標模板
　　HTTP 的 Kubernetes 集群狀態(tài)
　　K8S集群指標模板
　　HTTP 的 Kubernetes 控制器管理器
　　K8S ControllerManager組件指標模板
　　Kubernetes kubelet 通過(guò) HTTP
　　K8S Kubelet組件指標模板
　　通過(guò) HTTP 的 Kubernetes 節點(diǎn)
　　K8S集群節點(diǎn)發(fā)現及狀態(tài)指示模板
　　HTTP 的 Kubernetes 調度器
　　K8S Scheduler組件指標模板
　　K8S節點(diǎn)基本信息指標模板
　　模板名稱(chēng)解釋
　　Zabbix 代理的 Linux
　　OS Linux系統監控模板
　　方法
　　主要監測方式
　　代理人
　　通過(guò)zabbix agent客戶(hù)端采集集群節點(diǎn)的CPU、內存、磁盤(pán)等基本信息指標。
　　無(wú)代理
　　通過(guò)Zabbix內置的“HTTP代理”和“腳本”兩種監控項，無(wú)需安裝客戶(hù)端，通過(guò)訪(fǎng)問(wèn)被監控終端的API接口即可采集監控指標數據。主要用于K8S集群、服務(wù)組件以及pod容器狀態(tài)和性能指標的采集。
　　機器分布
　　此實(shí)現使用兩個(gè)虛擬機
　　主機名 IP
　　k8s-master01
　　192.168.119.81
　　k8s-node01
　　192.168.119.91
　　部署Zabbix Proxy、代理
　　在K8S集群中部署Zabbix Proxy和Zabbix Agent監控組件，這里使用官方的Helm Chart進(jìn)行安裝。
　　文檔：%2Fheads%2Freelease%2F6.0
　　1.首先需要安裝Helm工具
　　wget tar zxvf helm-v3.8.1-linux-amd64.tar.gz cp linux-amd64/helm /usr/local/bin/helm
　　2. 添加 Helm Chart 存儲庫
　　helm repo 添加 zabbix-chart-6.0 helm repo 列表
　　3.下載Zabbix Helm Chart并解壓
　　helm pull zabbix-chart-6.0/zabbix-helm-chrt tar xf zabbix-helm-chrt-1.1.1.tgz
　　配置 Chart.yaml
　　主要記錄當前Chart的基本信息，包括版本、名稱(chēng)、依賴(lài)等。
　　

　　參數說(shuō)明
　　api版本
　　圖表 API 版本
　　姓名
　　圖表名稱(chēng)
　　描述
　　描述
　　家
　　項目主頁(yè)的URL
　　圖標
　　用作圖標的 SVG 或 PNG 圖像 URL
　　類(lèi)型
　　圖表類(lèi)型
　　版本
　　語(yǔ)義 2 版本
　　應用版本
　　收錄的應用程序版本
　　依賴(lài)關(guān)系
　　依賴(lài)的Chart列表，緩存在同級下的charts目錄中
　　配置 values.yaml
　　主要定義templates目錄下K8S資源對象的配置文件變量值。
　　1.Zabbix Proxy和Agent參數配置
　　參數值解釋
　　全名覆蓋
　　扎比克斯
　　覆蓋完全限定的應用程序名稱(chēng)
　　kubeStateMetricsEnabled
　　真的
　　部署 kube-state-metrics
　　zabbixProxy.image.tag
　　高山-6.0.1
　　ZabbixProxy Docker鏡像標簽，用于指定ZabbixProxy的版本
　　zabbixProxy.env.ZBX_HOSTNAME
　　zabbix-代理-k8s
　　ZabbixProxy 主機名
　　zabbixProxy.env.ZBX_SERVER_HOST
　　Zabbix服務(wù)器地址
　　zabbixAgent.image.tag
　　高山-6.0.1
　　ZabbiAgent Docker鏡像標簽，用于指定ZabbiAgent版本
　　2. kube-state-metrics依賴(lài)Chart參數配置
　　參數值解釋
　　圖像.存儲庫
　　bitnami/kube 狀態(tài)指標
　　kube-state-metrics 鏡像庫配置
　　圖片.tag
　　2.2.0
　　kube-state-metrics 容器鏡像版本
　　1.創(chuàng )建監控命名空間
　　kubectl 創(chuàng )建命名空間監控
　　

　　2.Helm安裝Zabbix Chart
　　cd zabbix-helm-chrt helm 安裝 zabbix。 --dependency-update -n 監控
　　3.查看K8S Zabbix Pod
　　kubectl get pods -n monitoring -o wide
　　4.獲取API接口訪(fǎng)問(wèn)令牌
　　kubectl 獲取秘密 zabbix-service-account -n monitoring -o jsonpath={.data.token} | base64-d
　　集群節點(diǎn)監控
　　1.在頁(yè)面創(chuàng )建Zabbix Proxy
　　注意這里的代理ip地址是kubectl獲取的值
　　2.創(chuàng )建“k8s-nodes”并掛載“Kubernets nodes by HTTP”自動(dòng)發(fā)現節點(diǎn)主機。
　　集群節點(diǎn)監控-宏變量配置
　　1.宏變量
　　{$KUBE.API.ENDPOINT} :6443/api
　　{$KUBE.API.TOKEN}之前獲取的一長(cháng)串值
　　{$KUBE.NODES.ENDPOINT.NAME} zabbix-agent
　　2.查看K8S服務(wù)端點(diǎn)信息
　　kubectl get ep -n 監控
　　集群節點(diǎn)監控效果
　　1.自動(dòng)發(fā)現節點(diǎn)主機
　　2.最新數據
　　集群服務(wù)監控
　　創(chuàng )建“k8s-cluster”并掛載“Kubernetes cluster state by HTTP”以自動(dòng)發(fā)現服務(wù)組件。
　　集群服務(wù)監控-宏變量配置
　　{$KUBE.API.HOST} 192.168.119.81
{$KUBE.API.PORT} 6443
{$KUBE.API.TOKEN}
{$KUBE.API_SERVER.PORT} 6443
{$KUBE.API_SERVER.SCHEME} https
{$KUBE.CONTROLLER_MANAGER.PORT} 10252
{$KUBE.CONTROLLER_MANAGER.SCHEME} http
{$KUBE.KUBELET.PORT} 10250
{$KUBE.KUBELET.SCHEME} https
{$KUBE.SCHEDULER.PORT} 10251
{$KUBE.SCHEDULER.SCHEME} http
{$KUBE.STATE.ENDPOINT.NAME} zabbix-kube-state-metrics
　　集群服務(wù)監控效果
　　1.自動(dòng)發(fā)現集群服務(wù)組件主機
　　2.最新數據
　　至此，我們就完成了Zabbix6.0對K8S的監控。
　　教程:愛(ài)站SEO工具包 V1.11.11
　　愛(ài)站 SEO Toolkit 是一個(gè)強大的網(wǎng)站管理員工具集合。集成了愛(ài)站的關(guān)鍵詞查詢(xún)挖掘、百度外鏈等多項功能，為站長(cháng)提供絕對的福利。是專(zhuān)業(yè)seo事業(yè)必備的工具箱。
　　【主要功能】
　　1.百度外鏈助手。
　　2.關(guān)鍵詞監控。
　　3.收錄率和死鏈接檢測。
　　4.站外排名。
　　5.關(guān)鍵詞挖掘。
　　特征：
　　百度外鏈助手：批量獲取站點(diǎn)外鏈并進(jìn)行垃圾外鏈檢測和狀態(tài)碼查詢(xún)，批量篩選/過(guò)濾，輕松獲取需要拒絕的垃圾外鏈。
　　關(guān)鍵詞監測：實(shí)時(shí)監測全站關(guān)鍵詞排名，覆蓋百度/搜狗/360等國內主流搜索引擎，并記錄指定關(guān)鍵詞的歷史排名數據，支持自定義添加、相關(guān)推薦、關(guān)鍵詞挖掘和競品搜索關(guān)鍵詞借鑒其他方式添加，排名一目了然！
　　

　　收錄率/斷鏈檢測：收錄查詢(xún)整網(wǎng)站頁(yè)面并計算網(wǎng)站頁(yè)面收錄率，批量查詢(xún)整站頁(yè)面狀態(tài)碼檢測死鏈接，提供死鏈接入口頁(yè)面，支持nofollow過(guò)濾、指定目錄頁(yè)面查詢(xún)，具有很強的可擴展性。一鍵獲取數據！
　　站外排行：每次打開(kāi)VPN，你的網(wǎng)站、QQ、推廣助手都會(huì )是好牌嗎？您可以在不使用 VPN 的情況下在不同的地方查看關(guān)鍵詞排名信息。支持百度/搜狗/360等主流搜索引擎，無(wú)需驗證碼，想查就查！
　　關(guān)鍵詞挖掘：支持百度索引批量查詢(xún)和關(guān)鍵詞挖掘功能，可快速批量查詢(xún)導出指定級別索引的關(guān)鍵詞。關(guān)鍵詞挖掘可以挖掘出愛(ài)站開(kāi)通愛(ài)站的所有數據，支持關(guān)聯(lián)/過(guò)濾/過(guò)濾/導出等功能
　　站群查詢(xún)：批量查詢(xún)權重/反向鏈/pr/收錄/大量站點(diǎn)記錄信息等數據，支持內頁(yè)查詢(xún)，支持數據批量篩選導出。
　　日志分析：支持所有格式的日志，覆蓋所有搜索引擎蜘蛛。批量分析用戶(hù)和蜘蛛的狀態(tài)碼，蜘蛛爬取頁(yè)面/目錄/ip排名，同時(shí)提供生動(dòng)的圖標，讓蜘蛛和用戶(hù)的行為一目了然！
　　工具箱：每次打開(kāi)VPN，你的網(wǎng)站、QQ、推廣助手會(huì )不會(huì )卡？您可以在不使用 VPN 的情況下在不同的地方查看關(guān)鍵詞排名信息。支持百度/搜狗/360等主流搜索引擎，無(wú)需驗證碼，想查就查！
　　常見(jiàn)問(wèn)題：
　　動(dòng)態(tài)鏈接庫（DLL）初始化例程失敗的解決方法
　　出現這個(gè)問(wèn)題的原因是我們的軟件沒(méi)有數字簽名。進(jìn)入后臺進(jìn)程后，McAfee等殺毒軟件將dll文件隔離。
　　解決方法是完全關(guān)閉或卸載殺毒軟件，然后運行愛(ài)站SEO工具包。（尤其是McAfee，因為大部分win7系統自帶McAfee，狀態(tài)欄不顯示）
　　愛(ài)站SEO工具包殺毒軟件誤報說(shuō)明
　　免責聲明：本官方版愛(ài)站SEO工具包軟件絕對不含任何病毒
　　殺毒軟件誤報的原因包括但不限于：
　　殺毒軟件或安全衛士病毒庫更新錯誤，
　　

　　殺毒軟件或安全衛士公司的技術(shù)問(wèn)題，
　　愛(ài)站在上線(xiàn)更新前已經(jīng)通過(guò)國內外知名殺毒軟件和安全軟件提交測試，通過(guò)安全監控后才會(huì )上線(xiàn)發(fā)布。
　　關(guān)鍵詞監控采集不到索引和排名是什么原因
　　近日新版工具包發(fā)布后，收到部分用戶(hù)反饋，軟件升級后，關(guān)鍵詞監測功能無(wú)法查詢(xún)索引或排名？
　　為了提升用戶(hù)體驗，新版本重新設計了軟件的UI風(fēng)格，查詢(xún)排名或索引需要在采集查詢(xún)數據前先勾選采集項。
　　【百度網(wǎng)址主動(dòng)推送工具常見(jiàn)問(wèn)題解答】
　　1、是否需要添加網(wǎng)址？
　　答：可以加也可以不加，程序會(huì )判斷URL，沒(méi)有加過(guò)的URL會(huì )自動(dòng)加進(jìn)去
　　2、同一個(gè)賬號下所有網(wǎng)站的TOKEN值是否相同？
　　答：一樣的
　　3.重復提交已發(fā)布的鏈接有什么問(wèn)題？
　　答：會(huì )有兩個(gè)影響。首先，它會(huì )浪費你的提交配額。每個(gè)站點(diǎn)每天的提交數量有限制。如果您已經(jīng)提交了舊鏈接，當有新鏈接時(shí)，您可能會(huì )因為配額用完而無(wú)法提交。其次，如果您頻繁重復提交舊鏈接，我們會(huì )降低您的配額，您可能會(huì )失去權限主動(dòng)推送功能
　　【更新日志】

分享文章:可能吧的文章是如何排版的？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 133 次瀏覽 ? 2022-12-16 22:16 ? 來(lái)自相關(guān)話(huà)題

　　分享文章:可能吧的文章是如何排版的？
　　A Chan 杰森吳
　　閱讀這篇文章
　　關(guān)于
　　6分鐘
　　我發(fā)現無(wú)論我寫(xiě)哪個(gè)文章，都會(huì )有讀者在留言區問(wèn)我，我的文章排版是什么編輯器，我的回答是，市面上的微信排版工具我沒(méi)有'不要用它們，不是因為它們設計不好，而是因為所有的排版工具都不符合書(shū)寫(xiě)規律。
　　這個(gè)文章，會(huì )告訴你我的文章是怎么排版的。
　　1個(gè)
　　排版不僅僅是錦上添花
　　當我在 2006 年開(kāi)始寫(xiě)博客時(shí)，我認為內容是核心，排版不重要。但自從2008年看了一些屏幕閱讀體驗相關(guān)的研究報告后，我開(kāi)始關(guān)注排版，開(kāi)始在博客上嘗試不同的排版方式。不能說(shuō)我的排版是最好的，但是在一個(gè)小圈子里，已經(jīng)引起了注意。如果你在 Google 中搜索“maybe typesetting”，你會(huì )發(fā)現很多文章都是別人研究過(guò)我當時(shí)是如何排版的。
　　好的排版不僅賞心悅目，更重要的是我們可以適當調整排版，讓內容的呈現符合用戶(hù)在屏幕上的閱讀習慣。
　　我在《可能學(xué)院》有一個(gè)講座課程《微信內容運營(yíng)》，在課程中我定義了一個(gè)新的職位：內容管理員。
　　產(chǎn)品經(jīng)理關(guān)注用戶(hù)需求，根據用戶(hù)需求開(kāi)發(fā)功能。產(chǎn)品經(jīng)理不是什么都專(zhuān)，但是什么都懂一點(diǎn)。內容管理者不再是傳統意義上的記者或編輯，而是一個(gè)專(zhuān)注于內容生產(chǎn)線(xiàn)方方面面的角色。他們根據讀者的需求制作內容。他們好像不是什么都專(zhuān)精，但是什么都懂一點(diǎn)。
　　注意上面提到的“生產(chǎn)”二字。在注重讀者需求的時(shí)代，內容不僅僅是寫(xiě)作，而是“生產(chǎn)”。在“生產(chǎn)”的過(guò)程中，閱讀體驗和閱讀習慣是內容管理者必須關(guān)心的環(huán)節。它們不是錦上添花，而是整個(gè)內容生產(chǎn)線(xiàn)的重要組成部分。
　　2個(gè)
　　什么是寫(xiě)作規則？
　　我的文章一般都比較長(cháng)，比如" "，8000多字，""，6000多字。這些文章是一口氣寫(xiě)的，前者我寫(xiě)了5個(gè)小時(shí)，后者4個(gè)小時(shí)。
　　不過(guò)寫(xiě)作的時(shí)間并不是主要的，主要的時(shí)間都花在了搜集資料上。比如在寫(xiě)文章之前，微信公眾平臺的API文檔和谷歌PWA文檔都看了一遍，在開(kāi)始寫(xiě)之前在谷歌上搜集了很多資料。
　　把所有的材料采集起來(lái)，記在心里，我開(kāi)始閉關(guān)寫(xiě)作。
　　寫(xiě)作是一次性完成的。
　　就是說(shuō)我采集了足夠多的素材，把自己放在一個(gè)別人不能打擾的空間里，比如家里，比如咖啡店，比如酒店，從第一個(gè)字到最后一個(gè)字，把文章完成寫(xiě)作。
　　我試過(guò)多次寫(xiě) 文章都無(wú)濟于事，因為這會(huì )使文章情緒不連貫。比如今天覺(jué)得支付寶腦子有屎，就寫(xiě)了半篇文章，第二天可能覺(jué)得其實(shí)還好，就是水了。這樣，文章前后的情緒就會(huì )不一致。這樣的文章，會(huì )讓讀者感到困惑。
　　所以，我習慣了一次性寫(xiě)一個(gè)文章。相信大多數作家也有這個(gè)習慣。
　　3個(gè)
　　為什么我不用什么微信排版工具？
　　微信公眾平臺的編輯功能確實(shí)很弱，默認功能很難做出優(yōu)秀的排版。所以很多公司都開(kāi)發(fā)了微信排版工具。
　　幾乎所有的微信排版工具都有類(lèi)似于下面這個(gè)排版工具的頁(yè)面結構：
　　用戶(hù)在左側選擇內容類(lèi)型，然后選擇一種樣式，編輯器中會(huì )出現收錄該樣式的卡片，用戶(hù)再在卡片中填寫(xiě)內容。
　　我不使用任何排字機的原因包括：
　　易撞衫：你用的款式其他公眾號也用過(guò)，沒(méi)特色。
　　
　　不夠精致：大部分排版工具的樣式，從顏色、行距、字號等，都沒(méi)有經(jīng)過(guò)精心設計。
　　不符合書(shū)寫(xiě)規則
　　第3點(diǎn)是重點(diǎn)。
　　寫(xiě)作是一個(gè)連貫的過(guò)程，但大多數微信排版人員人為地將連貫的過(guò)程分開(kāi)。本來(lái)，寫(xiě)完字幕后，應該馬上敲鍵盤(pán)寫(xiě)內容，但在這些排版設備中，需要先選擇一個(gè)模板，然后在模板中填寫(xiě)內容。你必須打斷你的寫(xiě)作，將你的手從鍵盤(pán)移到鼠標，然后再移回鍵盤(pán)。
　　對我來(lái)說(shuō)，體驗很糟糕。
　　可能有人會(huì )說(shuō)，你可以先用寫(xiě)字板寫(xiě)好，然后在排字機里一段一段地粘貼，這樣一口氣寫(xiě)完，再“專(zhuān)心”排版？
　　想一想，《不要開(kāi)發(fā)App》文章 8000字，二級標題，三級標題加起來(lái)10到20，我需要付出多大的努力才能完成排版？
　　對我來(lái)說(shuō)，這種體驗仍然很糟糕。
　　4個(gè)
　　文章可能是如何排版的？
　　昨天，一個(gè)可能性學(xué)院的學(xué)生問(wèn)我，每次寫(xiě)文章，我在排版上花費了多少時(shí)間。我的回答是最快的時(shí)候是1秒，但是一般需要10-20秒。
　　這就是我寫(xiě)作和排版的方式。
　　4.1
　　開(kāi)始在安靜的編輯器中輸入
　　在 Mac 和 iPhone 上，我都買(mǎi)了 Ulysses，我認為它是最好的寫(xiě)作工具，因為它足夠安靜：
　　如上圖所示，我經(jīng)常全屏寫(xiě)，一口氣寫(xiě)完文章。
　　4.2
　　使用降價(jià)
　　Markdown 是一種專(zhuān)門(mén)為寫(xiě)作者準備的排版語(yǔ)言。它不是一種編程語(yǔ)言。學(xué)習 Markdown 通常只需要 5-10 分鐘。
　　使用 Markdown 的好處是當你需要排版文字時(shí)，你的手不需要離開(kāi)鍵盤(pán)。比如需要寫(xiě)二級標題，在正文前加兩個(gè)#號，三級標題加三個(gè)#號。要使文本加粗，請在文本兩邊添加兩個(gè)星號。
　　就像上圖一樣簡(jiǎn)單。
　　你可以在谷歌上輕松找到各種 Markdown 教程，相信我，只需 5-10 分鐘即可學(xué)會(huì )。
　　4.3
　　一鍵排版書(shū)寫(xiě)的文章
　　使用Markdown和Ulysses來(lái)寫(xiě)的好處是寫(xiě)好的文章可以直接輸出成HTML格式。所以我寫(xiě)了一個(gè)腳本，用我的排版樣式批量替換HTML中的標簽。整個(gè)過(guò)程在1秒內完成。
　　例如，我會(huì )標記段落
　　批量替換為字號15px、字間距1px、行間距28px的文字。
　　再比如，我自己定義了一個(gè)標簽。批量替換時(shí)，該標題將替換為文章頂部的閱讀時(shí)間塊。
　　對我來(lái)說(shuō)，寫(xiě)作必須一氣呵成，排版不能打斷寫(xiě)作。在流水線(xiàn)上，排版是寫(xiě)完之后來(lái)的。
　　4.4
　　將排版文章粘貼到微信編輯器
　　
　　一鍵替換后的文章還是HTML格式。如果用瀏覽器打開(kāi)，全選，復制粘貼到微信編輯器，樣式可能會(huì )亂。
　　我的做法是復制html文件的源碼，在在線(xiàn)CKEditor編輯器中粘貼源碼，然后復制到微信編輯器中，這樣樣式就不會(huì )亂了。
　　5個(gè)
　　問(wèn)題來(lái)了，如何一鍵排版？
　　沒(méi)做過(guò)個(gè)人主頁(yè)或者沒(méi)有技術(shù)背景的人，再看之前的排版流程，可能會(huì )有些懵。其實(shí)并不難。我不是技術(shù)出身，也不是設計師。所有的設計和排版代碼都是通過(guò)谷歌學(xué)習和嘗試的。
　　如果你對 HTML 和 CSS 一無(wú)所知，你有兩個(gè)選擇：
　　5.1
　　選一個(gè)
　　這是最好的選擇。
　　找公司設計師為您設計一套或多套版面樣式。
　　找公司的前端工程師幫你把這些設計好的樣式寫(xiě)成HTML和CSS。需要注意的是，微信并不是支持所有的CSS代碼。
　　還在找這個(gè)前端工程師，讓他幫你寫(xiě)一個(gè)腳本，批量替換純HTML的排版樣式。?
　　5.2
　　選擇兩個(gè)
　　這是我的路徑，你可以參考一下。
　　花半天時(shí)間學(xué)習 HTML 標記。
　　花 2 天時(shí)間學(xué)習常用的 CSS 標簽。
　　在公眾號后臺寫(xiě)一篇文章文章，發(fā)給自己預覽，用電腦Chrome打開(kāi)。
　　打開(kāi)Chrome的開(kāi)發(fā)者工具，找到你要調整的元素，把你學(xué)過(guò)的CSS標記寫(xiě)進(jìn)去，調整到你覺(jué)得合適為止。
　　記下要替換的 H2、H3、P 等標簽的樣式。
　　花 1 天時(shí)間學(xué)習如何編寫(xiě)收錄替換函數的簡(jiǎn)單 Python 腳本。
　　將要替換的元素寫(xiě)入此 Python 腳本。
　　一鍵排版。
　　不要被這 8 個(gè)“復雜”步驟嚇倒。在電腦上調試樣式，瀏覽器不會(huì )死機或死機。關(guān)鍵是多嘗試，用谷歌尋找學(xué)習資料和解決方案。
　　6個(gè)
　　不要依賴(lài)樣板教程
　　以上是我的排版方法。
　　我不會(huì )在這個(gè)文章里告訴你，也不會(huì )在以后的文章里告訴你，應該用多大的字號，用什么顏色，排版的時(shí)候行距應該多高。
　　其實(shí)你很容易在網(wǎng)上找到各種（微信）排版教程，告訴你應該使用16px字體大小，#888字體顏色，1.2rem行間距等等。
　　不要把這些教程當作鐵律。如果有人告訴你16px的字號最適合微信排版，千萬(wàn)別信。所有基于模板的教程都是教學(xué)示例。跟著(zhù)這些例子得到很多啟發(fā)是好事，但不要照搬，因為不同的公眾號，不同的內容類(lèi)型，對排版的要求是不一樣的。
　　關(guān)鍵是多嘗試。谷歌是我們嘗試一切的好幫手。還有，你怎么努力，電腦都不會(huì )壞，你怕什么？
　　順便說(shuō)一句，關(guān)于“不要開(kāi)發(fā)APP”這個(gè)話(huà)題，我們請來(lái)了微信口碑極佳的Yoli來(lái)和可能性學(xué)院分享。點(diǎn)擊閱讀原文報名本次分享。
　　分享文章:偽原創(chuàng )的文章很難收錄嗎（圖文）
　　難收錄偽原創(chuàng ) 文章嗎
　　問(wèn)：偽原創(chuàng ) 文章難收錄嗎？
　　補充問(wèn)題：網(wǎng)站更新了200多個(gè)偽原創(chuàng )文章，但收錄的文章很少，難偽原創(chuàng )文章收錄嗎？
　　答：原則上，偽原創(chuàng )文章本身是好的，為什么偽原創(chuàng )文章收錄少？筆者認為原因有三：
　　1. 網(wǎng)站重量輕，偽原創(chuàng )文章收錄少
　　
　　百度會(huì )綜合考慮網(wǎng)站在頁(yè)面收錄和關(guān)鍵詞排名中的整體權重，你可以看到那些大網(wǎng)站，即使沒(méi)有實(shí)際內容文章，或者復制粘貼文章，收錄還是很快的。還有考慮網(wǎng)站是否降級，如果網(wǎng)站降級，也會(huì )影響偽原創(chuàng )文章的收錄。
　　從理論上講，如果網(wǎng)站的權重沒(méi)有特別的問(wèn)題，偽原創(chuàng )文章的數量也不是問(wèn)題，當然這里需要考慮時(shí)間的問(wèn)題。也就是說(shuō)偽原創(chuàng )文章收錄是暫時(shí)的，過(guò)一會(huì )兒就會(huì )釋放。
　　2.
　　偽原創(chuàng )文章本身質(zhì)量低會(huì )導致收錄
　　雖然偽原創(chuàng )文章偽原創(chuàng )，
　　
　　還要注重質(zhì)量，如果只是亂七八糟的偽原創(chuàng )，收錄肯定不理想。大家都知道，穆鋒工作室有代筆文章生意，筆者查了幾網(wǎng)站，發(fā)現偽原創(chuàng )文章收錄率還是很高的。因此，如果你想提高你的偽原創(chuàng )文章收錄，記得注意文章的質(zhì)量。
　　3、車(chē)站優(yōu)化不到位，導致偽原創(chuàng )文章收錄少
　　頁(yè)面收錄不僅是頁(yè)面本身文章問(wèn)題，還與現場(chǎng)優(yōu)化有關(guān)，比如網(wǎng)站是否提供了文章頁(yè)面的入口鏈接，比如網(wǎng)站上的文章是否嚴重重復等等。網(wǎng)站SEO優(yōu)化是系統的，要素是相互關(guān)聯(lián)的，如果其他方面出現問(wèn)題，那么也會(huì )影響偽原創(chuàng )文章的收錄。
　　筆者曾經(jīng)更新過(guò)一篇叫低質(zhì)量偽原創(chuàng )文章的文章就是這樣一坑文章，你可以去看看，了解偽原創(chuàng )文章質(zhì)量的重要性，此外，你也可以學(xué)習如何寫(xiě)偽原創(chuàng )文章。
　　關(guān)于偽原創(chuàng )文章收錄問(wèn)題，筆者從三個(gè)方面給大家講解。如果你網(wǎng)站偽原創(chuàng )文章收錄不理想，那么你不妨重點(diǎn)從這些方面進(jìn)行分析，基本上原因就在這里。對于很多網(wǎng)站來(lái)說(shuō)，想要完全原創(chuàng )文章是不現實(shí)的，所以偽原創(chuàng )文章是必不可少的，但是大家在編輯偽原創(chuàng )文章的時(shí)候一定要注意質(zhì)量，否則會(huì )直接影響收錄和排名。查看全部

　　分享文章:可能吧的文章是如何排版的？
　　A Chan 杰森吳
　　閱讀這篇文章
　　關(guān)于
　　6分鐘
　　我發(fā)現無(wú)論我寫(xiě)哪個(gè)文章，都會(huì )有讀者在留言區問(wèn)我，我的文章排版是什么編輯器，我的回答是，市面上的微信排版工具我沒(méi)有'不要用它們，不是因為它們設計不好，而是因為所有的排版工具都不符合書(shū)寫(xiě)規律。
　　這個(gè)文章，會(huì )告訴你我的文章是怎么排版的。
　　1個(gè)
　　排版不僅僅是錦上添花
　　當我在 2006 年開(kāi)始寫(xiě)博客時(shí)，我認為內容是核心，排版不重要。但自從2008年看了一些屏幕閱讀體驗相關(guān)的研究報告后，我開(kāi)始關(guān)注排版，開(kāi)始在博客上嘗試不同的排版方式。不能說(shuō)我的排版是最好的，但是在一個(gè)小圈子里，已經(jīng)引起了注意。如果你在 Google 中搜索“maybe typesetting”，你會(huì )發(fā)現很多文章都是別人研究過(guò)我當時(shí)是如何排版的。
　　好的排版不僅賞心悅目，更重要的是我們可以適當調整排版，讓內容的呈現符合用戶(hù)在屏幕上的閱讀習慣。
　　我在《可能學(xué)院》有一個(gè)講座課程《微信內容運營(yíng)》，在課程中我定義了一個(gè)新的職位：內容管理員。
　　產(chǎn)品經(jīng)理關(guān)注用戶(hù)需求，根據用戶(hù)需求開(kāi)發(fā)功能。產(chǎn)品經(jīng)理不是什么都專(zhuān)，但是什么都懂一點(diǎn)。內容管理者不再是傳統意義上的記者或編輯，而是一個(gè)專(zhuān)注于內容生產(chǎn)線(xiàn)方方面面的角色。他們根據讀者的需求制作內容。他們好像不是什么都專(zhuān)精，但是什么都懂一點(diǎn)。
　　注意上面提到的“生產(chǎn)”二字。在注重讀者需求的時(shí)代，內容不僅僅是寫(xiě)作，而是“生產(chǎn)”。在“生產(chǎn)”的過(guò)程中，閱讀體驗和閱讀習慣是內容管理者必須關(guān)心的環(huán)節。它們不是錦上添花，而是整個(gè)內容生產(chǎn)線(xiàn)的重要組成部分。
　　2個(gè)
　　什么是寫(xiě)作規則？
　　我的文章一般都比較長(cháng)，比如" "，8000多字，""，6000多字。這些文章是一口氣寫(xiě)的，前者我寫(xiě)了5個(gè)小時(shí)，后者4個(gè)小時(shí)。
　　不過(guò)寫(xiě)作的時(shí)間并不是主要的，主要的時(shí)間都花在了搜集資料上。比如在寫(xiě)文章之前，微信公眾平臺的API文檔和谷歌PWA文檔都看了一遍，在開(kāi)始寫(xiě)之前在谷歌上搜集了很多資料。
　　把所有的材料采集起來(lái)，記在心里，我開(kāi)始閉關(guān)寫(xiě)作。
　　寫(xiě)作是一次性完成的。
　　就是說(shuō)我采集了足夠多的素材，把自己放在一個(gè)別人不能打擾的空間里，比如家里，比如咖啡店，比如酒店，從第一個(gè)字到最后一個(gè)字，把文章完成寫(xiě)作。
　　我試過(guò)多次寫(xiě) 文章都無(wú)濟于事，因為這會(huì )使文章情緒不連貫。比如今天覺(jué)得支付寶腦子有屎，就寫(xiě)了半篇文章，第二天可能覺(jué)得其實(shí)還好，就是水了。這樣，文章前后的情緒就會(huì )不一致。這樣的文章，會(huì )讓讀者感到困惑。
　　所以，我習慣了一次性寫(xiě)一個(gè)文章。相信大多數作家也有這個(gè)習慣。
　　3個(gè)
　　為什么我不用什么微信排版工具？
　　微信公眾平臺的編輯功能確實(shí)很弱，默認功能很難做出優(yōu)秀的排版。所以很多公司都開(kāi)發(fā)了微信排版工具。
　　幾乎所有的微信排版工具都有類(lèi)似于下面這個(gè)排版工具的頁(yè)面結構：
　　用戶(hù)在左側選擇內容類(lèi)型，然后選擇一種樣式，編輯器中會(huì )出現收錄該樣式的卡片，用戶(hù)再在卡片中填寫(xiě)內容。
　　我不使用任何排字機的原因包括：
　　易撞衫：你用的款式其他公眾號也用過(guò)，沒(méi)特色。
　　

　　不夠精致：大部分排版工具的樣式，從顏色、行距、字號等，都沒(méi)有經(jīng)過(guò)精心設計。
　　不符合書(shū)寫(xiě)規則
　　第3點(diǎn)是重點(diǎn)。
　　寫(xiě)作是一個(gè)連貫的過(guò)程，但大多數微信排版人員人為地將連貫的過(guò)程分開(kāi)。本來(lái)，寫(xiě)完字幕后，應該馬上敲鍵盤(pán)寫(xiě)內容，但在這些排版設備中，需要先選擇一個(gè)模板，然后在模板中填寫(xiě)內容。你必須打斷你的寫(xiě)作，將你的手從鍵盤(pán)移到鼠標，然后再移回鍵盤(pán)。
　　對我來(lái)說(shuō)，體驗很糟糕。
　　可能有人會(huì )說(shuō)，你可以先用寫(xiě)字板寫(xiě)好，然后在排字機里一段一段地粘貼，這樣一口氣寫(xiě)完，再“專(zhuān)心”排版？
　　想一想，《不要開(kāi)發(fā)App》文章 8000字，二級標題，三級標題加起來(lái)10到20，我需要付出多大的努力才能完成排版？
　　對我來(lái)說(shuō)，這種體驗仍然很糟糕。
　　4個(gè)
　　文章可能是如何排版的？
　　昨天，一個(gè)可能性學(xué)院的學(xué)生問(wèn)我，每次寫(xiě)文章，我在排版上花費了多少時(shí)間。我的回答是最快的時(shí)候是1秒，但是一般需要10-20秒。
　　這就是我寫(xiě)作和排版的方式。
　　4.1
　　開(kāi)始在安靜的編輯器中輸入
　　在 Mac 和 iPhone 上，我都買(mǎi)了 Ulysses，我認為它是最好的寫(xiě)作工具，因為它足夠安靜：
　　如上圖所示，我經(jīng)常全屏寫(xiě)，一口氣寫(xiě)完文章。
　　4.2
　　使用降價(jià)
　　Markdown 是一種專(zhuān)門(mén)為寫(xiě)作者準備的排版語(yǔ)言。它不是一種編程語(yǔ)言。學(xué)習 Markdown 通常只需要 5-10 分鐘。
　　使用 Markdown 的好處是當你需要排版文字時(shí)，你的手不需要離開(kāi)鍵盤(pán)。比如需要寫(xiě)二級標題，在正文前加兩個(gè)#號，三級標題加三個(gè)#號。要使文本加粗，請在文本兩邊添加兩個(gè)星號。
　　就像上圖一樣簡(jiǎn)單。
　　你可以在谷歌上輕松找到各種 Markdown 教程，相信我，只需 5-10 分鐘即可學(xué)會(huì )。
　　4.3
　　一鍵排版書(shū)寫(xiě)的文章
　　使用Markdown和Ulysses來(lái)寫(xiě)的好處是寫(xiě)好的文章可以直接輸出成HTML格式。所以我寫(xiě)了一個(gè)腳本，用我的排版樣式批量替換HTML中的標簽。整個(gè)過(guò)程在1秒內完成。
　　例如，我會(huì )標記段落
　　批量替換為字號15px、字間距1px、行間距28px的文字。
　　再比如，我自己定義了一個(gè)標簽。批量替換時(shí)，該標題將替換為文章頂部的閱讀時(shí)間塊。
　　對我來(lái)說(shuō)，寫(xiě)作必須一氣呵成，排版不能打斷寫(xiě)作。在流水線(xiàn)上，排版是寫(xiě)完之后來(lái)的。
　　4.4
　　將排版文章粘貼到微信編輯器
　　

　　一鍵替換后的文章還是HTML格式。如果用瀏覽器打開(kāi)，全選，復制粘貼到微信編輯器，樣式可能會(huì )亂。
　　我的做法是復制html文件的源碼，在在線(xiàn)CKEditor編輯器中粘貼源碼，然后復制到微信編輯器中，這樣樣式就不會(huì )亂了。
　　5個(gè)
　　問(wèn)題來(lái)了，如何一鍵排版？
　　沒(méi)做過(guò)個(gè)人主頁(yè)或者沒(méi)有技術(shù)背景的人，再看之前的排版流程，可能會(huì )有些懵。其實(shí)并不難。我不是技術(shù)出身，也不是設計師。所有的設計和排版代碼都是通過(guò)谷歌學(xué)習和嘗試的。
　　如果你對 HTML 和 CSS 一無(wú)所知，你有兩個(gè)選擇：
　　5.1
　　選一個(gè)
　　這是最好的選擇。
　　找公司設計師為您設計一套或多套版面樣式。
　　找公司的前端工程師幫你把這些設計好的樣式寫(xiě)成HTML和CSS。需要注意的是，微信并不是支持所有的CSS代碼。
　　還在找這個(gè)前端工程師，讓他幫你寫(xiě)一個(gè)腳本，批量替換純HTML的排版樣式。?
　　5.2
　　選擇兩個(gè)
　　這是我的路徑，你可以參考一下。
　　花半天時(shí)間學(xué)習 HTML 標記。
　　花 2 天時(shí)間學(xué)習常用的 CSS 標簽。
　　在公眾號后臺寫(xiě)一篇文章文章，發(fā)給自己預覽，用電腦Chrome打開(kāi)。
　　打開(kāi)Chrome的開(kāi)發(fā)者工具，找到你要調整的元素，把你學(xué)過(guò)的CSS標記寫(xiě)進(jìn)去，調整到你覺(jué)得合適為止。
　　記下要替換的 H2、H3、P 等標簽的樣式。
　　花 1 天時(shí)間學(xué)習如何編寫(xiě)收錄替換函數的簡(jiǎn)單 Python 腳本。
　　將要替換的元素寫(xiě)入此 Python 腳本。
　　一鍵排版。
　　不要被這 8 個(gè)“復雜”步驟嚇倒。在電腦上調試樣式，瀏覽器不會(huì )死機或死機。關(guān)鍵是多嘗試，用谷歌尋找學(xué)習資料和解決方案。
　　6個(gè)
　　不要依賴(lài)樣板教程
　　以上是我的排版方法。
　　我不會(huì )在這個(gè)文章里告訴你，也不會(huì )在以后的文章里告訴你，應該用多大的字號，用什么顏色，排版的時(shí)候行距應該多高。
　　其實(shí)你很容易在網(wǎng)上找到各種（微信）排版教程，告訴你應該使用16px字體大小，#888字體顏色，1.2rem行間距等等。
　　不要把這些教程當作鐵律。如果有人告訴你16px的字號最適合微信排版，千萬(wàn)別信。所有基于模板的教程都是教學(xué)示例。跟著(zhù)這些例子得到很多啟發(fā)是好事，但不要照搬，因為不同的公眾號，不同的內容類(lèi)型，對排版的要求是不一樣的。
　　關(guān)鍵是多嘗試。谷歌是我們嘗試一切的好幫手。還有，你怎么努力，電腦都不會(huì )壞，你怕什么？
　　順便說(shuō)一句，關(guān)于“不要開(kāi)發(fā)APP”這個(gè)話(huà)題，我們請來(lái)了微信口碑極佳的Yoli來(lái)和可能性學(xué)院分享。點(diǎn)擊閱讀原文報名本次分享。
　　分享文章:偽原創(chuàng )的文章很難收錄嗎（圖文）
　　難收錄偽原創(chuàng ) 文章嗎
　　問(wèn)：偽原創(chuàng ) 文章難收錄嗎？
　　補充問(wèn)題：網(wǎng)站更新了200多個(gè)偽原創(chuàng )文章，但收錄的文章很少，難偽原創(chuàng )文章收錄嗎？
　　答：原則上，偽原創(chuàng )文章本身是好的，為什么偽原創(chuàng )文章收錄少？筆者認為原因有三：
　　1. 網(wǎng)站重量輕，偽原創(chuàng )文章收錄少
　　

　　百度會(huì )綜合考慮網(wǎng)站在頁(yè)面收錄和關(guān)鍵詞排名中的整體權重，你可以看到那些大網(wǎng)站，即使沒(méi)有實(shí)際內容文章，或者復制粘貼文章，收錄還是很快的。還有考慮網(wǎng)站是否降級，如果網(wǎng)站降級，也會(huì )影響偽原創(chuàng )文章的收錄。
　　從理論上講，如果網(wǎng)站的權重沒(méi)有特別的問(wèn)題，偽原創(chuàng )文章的數量也不是問(wèn)題，當然這里需要考慮時(shí)間的問(wèn)題。也就是說(shuō)偽原創(chuàng )文章收錄是暫時(shí)的，過(guò)一會(huì )兒就會(huì )釋放。
　　2.
　　偽原創(chuàng )文章本身質(zhì)量低會(huì )導致收錄
　　雖然偽原創(chuàng )文章偽原創(chuàng )，
　　

　　還要注重質(zhì)量，如果只是亂七八糟的偽原創(chuàng )，收錄肯定不理想。大家都知道，穆鋒工作室有代筆文章生意，筆者查了幾網(wǎng)站，發(fā)現偽原創(chuàng )文章收錄率還是很高的。因此，如果你想提高你的偽原創(chuàng )文章收錄，記得注意文章的質(zhì)量。
　　3、車(chē)站優(yōu)化不到位，導致偽原創(chuàng )文章收錄少
　　頁(yè)面收錄不僅是頁(yè)面本身文章問(wèn)題，還與現場(chǎng)優(yōu)化有關(guān)，比如網(wǎng)站是否提供了文章頁(yè)面的入口鏈接，比如網(wǎng)站上的文章是否嚴重重復等等。網(wǎng)站SEO優(yōu)化是系統的，要素是相互關(guān)聯(lián)的，如果其他方面出現問(wèn)題，那么也會(huì )影響偽原創(chuàng )文章的收錄。
　　筆者曾經(jīng)更新過(guò)一篇叫低質(zhì)量偽原創(chuàng )文章的文章就是這樣一坑文章，你可以去看看，了解偽原創(chuàng )文章質(zhì)量的重要性，此外，你也可以學(xué)習如何寫(xiě)偽原創(chuàng )文章。
　　關(guān)于偽原創(chuàng )文章收錄問(wèn)題，筆者從三個(gè)方面給大家講解。如果你網(wǎng)站偽原創(chuàng )文章收錄不理想，那么你不妨重點(diǎn)從這些方面進(jìn)行分析，基本上原因就在這里。對于很多網(wǎng)站來(lái)說(shuō)，想要完全原創(chuàng )文章是不現實(shí)的，所以偽原創(chuàng )文章是必不可少的，但是大家在編輯偽原創(chuàng )文章的時(shí)候一定要注意質(zhì)量，否則會(huì )直接影響收錄和排名。

解決方案:蘋(píng)果cmsv10如何開(kāi)放api采集接口供他人采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 1025 次瀏覽 ? 2022-12-14 16:58 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:蘋(píng)果cmsv10如何開(kāi)放api采集接口供他人采集
　　2021-05-05
　　操作步驟：蘋(píng)果cms管理后臺：系統>>開(kāi)啟API配置>>
　?、俳涌陂_(kāi)關(guān)：打開(kāi)
　?、?是否收費：根據自己的需要設定
　　
　?、哿斜砻宽?yè)顯示個(gè)數：推薦默認20個(gè)
　?、軋D片域名：需要顯示圖片的完整訪(fǎng)問(wèn)路徑，http:開(kāi)頭，/結尾，不包括上傳目錄”（默認填寫(xiě)如圖），直接填寫(xiě)自己的網(wǎng)站地址，如果你的圖片地址在其他網(wǎng)站，請正確填寫(xiě)圖片所在地址鏈接。
　?、莘诸?lèi)過(guò)濾參數：列出需要展示的分類(lèi)id，如11,12,13" 如果不填則默認為采集開(kāi)放所有分類(lèi)，
　?、迶祿^(guò)濾參數：SQL查詢(xún)條件如vod_status=1（默認為空不填）
　?、邤祿彺鏁r(shí)間：以秒為單位，建議3600以上，根據需要填寫(xiě)。
　　
　?、嘀付úシ沤M：指定播放組如優(yōu)酷
　?、崾跈嘤蛎喝绻_(kāi)啟收費模式，可以填寫(xiě)授權域名，如果不收費，默認為空。
　　注意：如果只是想給別人打開(kāi)界面采集，只需要填寫(xiě)圖片域名，設置界面開(kāi)關(guān)即可。設置好之后就可以把接口發(fā)給別人采集，采集接口是：你的域名/api.php/provide/vod/?ac=list
　　最新版:非找你微信編輯器綠色版 V3.0 免費版（非找你微信編輯器綠色版 V3
　　關(guān)于非找你微信編輯器綠色版V3.0免費版，以及非找你微信編輯器綠色版V3.0使用方法。許多人不知道這一點(diǎn)。小新將為您解答以上問(wèn)題?，F在就讓我們一起來(lái)看看吧！
　　非找你編輯器綠色版是一款方便易用的微信編輯器。軟件界面美觀(guān)，新版編輯器支持使用舊版素材模板。只需復制舊版本的模板鏈接，在新版本采集中導入即可，運行時(shí)不會(huì )出現排版問(wèn)題。非常適合玩公眾號的朋友。
　　【特征】
　　
　　1、編輯器收錄上千素材模塊（動(dòng)態(tài)圖片、精美插畫(huà)、封面圖、流行表情等）；
　　2、編輯器提供文章搜索&采集功能（可搜索采集他人公眾號文章排版修改應用）；
　　3、提供豐富的全文模板，只要會(huì )修改文字和替換圖片，即可快速排版漂亮公眾號文章；
　　4.沒(méi)有網(wǎng)絡(luò )也可以使用。
　　【如何秒刷新功能】
　　
　　1.在編輯區輸入圖形后，
　　2.選中要排版的段落，點(diǎn)擊模塊樣式中的素材，選中的段落會(huì )自動(dòng)套用樣式模塊
　　注意：選擇的文字和圖形要與選擇的模塊樣式相對應，即如果選擇純文本，則使用文章段落模塊，如果選擇圖片+文字，則使用圖形和文本混合模塊
　　這篇文章就分享到這里，希望對大家有所幫助。查看全部

　　解決方案:蘋(píng)果cmsv10如何開(kāi)放api采集接口供他人采集
　　2021-05-05
　　操作步驟：蘋(píng)果cms管理后臺：系統>>開(kāi)啟API配置>>
　?、俳涌陂_(kāi)關(guān)：打開(kāi)
　?、?是否收費：根據自己的需要設定
　　

　?、哿斜砻宽?yè)顯示個(gè)數：推薦默認20個(gè)
　?、軋D片域名：需要顯示圖片的完整訪(fǎng)問(wèn)路徑，http:開(kāi)頭，/結尾，不包括上傳目錄”（默認填寫(xiě)如圖），直接填寫(xiě)自己的網(wǎng)站地址，如果你的圖片地址在其他網(wǎng)站，請正確填寫(xiě)圖片所在地址鏈接。
　?、莘诸?lèi)過(guò)濾參數：列出需要展示的分類(lèi)id，如11,12,13" 如果不填則默認為采集開(kāi)放所有分類(lèi)，
　?、迶祿^(guò)濾參數：SQL查詢(xún)條件如vod_status=1（默認為空不填）
　?、邤祿彺鏁r(shí)間：以秒為單位，建議3600以上，根據需要填寫(xiě)。
　　

　?、嘀付úシ沤M：指定播放組如優(yōu)酷
　?、崾跈嘤蛎喝绻_(kāi)啟收費模式，可以填寫(xiě)授權域名，如果不收費，默認為空。
　　注意：如果只是想給別人打開(kāi)界面采集，只需要填寫(xiě)圖片域名，設置界面開(kāi)關(guān)即可。設置好之后就可以把接口發(fā)給別人采集，采集接口是：你的域名/api.php/provide/vod/?ac=list
　　最新版:非找你微信編輯器綠色版 V3.0 免費版（非找你微信編輯器綠色版 V3
　　關(guān)于非找你微信編輯器綠色版V3.0免費版，以及非找你微信編輯器綠色版V3.0使用方法。許多人不知道這一點(diǎn)。小新將為您解答以上問(wèn)題?，F在就讓我們一起來(lái)看看吧！
　　非找你編輯器綠色版是一款方便易用的微信編輯器。軟件界面美觀(guān)，新版編輯器支持使用舊版素材模板。只需復制舊版本的模板鏈接，在新版本采集中導入即可，運行時(shí)不會(huì )出現排版問(wèn)題。非常適合玩公眾號的朋友。
　　【特征】
　　

　　1、編輯器收錄上千素材模塊（動(dòng)態(tài)圖片、精美插畫(huà)、封面圖、流行表情等）；
　　2、編輯器提供文章搜索&采集功能（可搜索采集他人公眾號文章排版修改應用）；
　　3、提供豐富的全文模板，只要會(huì )修改文字和替換圖片，即可快速排版漂亮公眾號文章；
　　4.沒(méi)有網(wǎng)絡(luò )也可以使用。
　　【如何秒刷新功能】
　　

　　1.在編輯區輸入圖形后，
　　2.選中要排版的段落，點(diǎn)擊模塊樣式中的素材，選中的段落會(huì )自動(dòng)套用樣式模塊
　　注意：選擇的文字和圖形要與選擇的模塊樣式相對應，即如果選擇純文本，則使用文章段落模塊，如果選擇圖片+文字，則使用圖形和文本混合模塊
　　這篇文章就分享到這里，希望對大家有所幫助。

解決方案:使用 Nginx 構建前端日志統計服務(wù)（打點(diǎn)采集）服務(wù)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 223 次瀏覽 ? 2022-12-12 09:52 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:使用 Nginx 構建前端日志統計服務(wù)（打點(diǎn)采集）服務(wù)
　　在工作中，我們經(jīng)常會(huì )遇到需要“數據支持”決策的情況，那么你有沒(méi)有想過(guò)這些數據從何而來(lái)？如果業(yè)務(wù)涉及Web服務(wù)，這些數據的來(lái)源之一就是服務(wù)器上各個(gè)服務(wù)器的請求數據。如果我們區分專(zhuān)門(mén)用于統計的數據，一些服務(wù)器專(zhuān)注于接收“統計類(lèi)型”的請求，那么這些產(chǎn)生的日志就是“管理日志”。
　　本文將介紹如何在容器中使用Nginx來(lái)簡(jiǎn)單搭建一個(gè)支持前端使用的統計（dot采集）服務(wù)，避免引入過(guò)多的技術(shù)棧，增加維護成本。
　　寫(xiě)在前面
　　不知道大家有沒(méi)有想過(guò)一個(gè)問(wèn)題。當一個(gè)頁(yè)面有很多打點(diǎn)事件時(shí)，打開(kāi)頁(yè)面時(shí)會(huì )同時(shí)發(fā)起無(wú)數個(gè)請求。此時(shí)，非寬帶環(huán)境下的用戶(hù)體驗將不復存在，打點(diǎn)服務(wù)器也將面臨友軍的攻擊。業(yè)務(wù) DDoS 行為。
　　因此，這幾年，一些公司不斷將數據統計方案從GET方案切換到POST方案，結合自研定制化SDK，將客戶(hù)端的數據統計“打包合并”，并以一定的頻率上報增量日志。極大的解決了前端的性能問(wèn)題，減輕了服務(wù)器的壓力。
　　五年前，我分享了如何搭建一個(gè)易于擴展的前端統計腳本，有興趣的可以看看。
　　Nginx環(huán)境下POST請求的問(wèn)題
　　看到本節的標題，你可能會(huì )覺(jué)得一頭霧水。POST 與 Nginx 交互是家常便飯，那有什么問(wèn)題呢？
　　我們來(lái)做一個(gè)小實(shí)驗，使用容器啟動(dòng)一個(gè) Nginx 服務(wù)：
　　docker run --rm -it -p 3000:80 nginx:1.19.3-alpine
　　然后在日常業(yè)務(wù)中使用curl模擬POST請求：
　　curl -d '{"key1":"value1", "key2":"value2"}' -X POST http://localhost:3000
　　你會(huì )看到如下返回結果：
　　
405 Not Allowed
405 Not Allowed
nginx/1.19.3
　　根據圖查看Nginx模塊modules/ngx_http_stub_status_module.c和http/ngx_http_special_response.c的源碼可以看到如下實(shí)現：
　　static ngx_int_t
ngx_http_stub_status_handler(ngx_http_request_t *r)
{
size_t size;
ngx_int_t rc;
ngx_buf_t *b;
ngx_chain_t out;
ngx_atomic_int_t ap, hn, ac, rq, rd, wr, wa;
if (!(r->method & (NGX_HTTP_GET|NGX_HTTP_HEAD))) {
return NGX_HTTP_NOT_ALLOWED;
}
...
}
...
static char ngx_http_error_405_page[] =
"" CRLF
"405 Not Allowed" CRLF
"" CRLF
"405 Not Allowed" CRLF
;
#define NGX_HTTP_OFF_4XX (NGX_HTTP_LAST_3XX - 301 + NGX_HTTP_OFF_3XX)
...
ngx_string(ngx_http_error_405_page),
ngx_string(ngx_http_error_406_page),
...
　　沒(méi)錯，NGINX默認是不支持記錄POST請求的，根據RFC7231會(huì )顯示錯誤碼405。所以一般情況下，我們會(huì )使用Lua/Java/PHP/Go/Node等動(dòng)態(tài)語(yǔ)言進(jìn)行輔助分析。
　　那么如何解決這個(gè)問(wèn)題呢？是否可以不借助外力，單純使用性能好、重量輕的Nginx來(lái)完成對POST請求的支持？
　　讓Nginx“原生”支持POST請求
　　為了更清楚的展示配置，我們接下來(lái)使用compose啟動(dòng)Nginx進(jìn)行實(shí)驗。在編寫(xiě)腳本之前，我們需要先獲取配置文件，使用如下命令行將指定版本Nginx的配置文件保存到當前目錄。
　　docker run --rm -it nginx:1.19.3-alpine cat /etc/nginx/conf.d/default.conf > default.conf
　　默認配置文件內容如下：
　　server {
listen 80;
server_name localhost;
#charset koi8-r;
#access_log /var/log/nginx/host.access.log main;
location / {
root /usr/share/nginx/html;
index index.html index.htm;
}
#error_page 404 /404.html;
# redirect server error pages to the static page /50x.html
#
error_page 500 502 503 504 /50x.html;
location = /50x.html {
root /usr/share/nginx/html;
}
# proxy the PHP scripts to Apache listening on 127.0.0.1:80
#
#location ~ \.php$ {
# proxy_pass http://127.0.0.1;
#}
# pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
#
#location ~ \.php$ {
# root html;
# fastcgi_pass 127.0.0.1:9000;
# fastcgi_index index.php;
# fastcgi_param SCRIPT_FILENAME /scripts$fastcgi_script_name;
# include fastcgi_params;
#}
# deny access to .htaccess files, if Apache's document root
# concurs with nginx's one
#
#location ~ /\.ht {
# deny all;
#}
}
　　稍微壓縮一下，我們得到一個(gè)更簡(jiǎn)單的配置文件并添加一行 error_page 405 =200 $uri; 對它：
　　server {
listen 80;
server_name localhost;
charset utf-8;
location / {
return 200 "soulteary";
}
error_page 405 =200 $uri;
}
　　將本節開(kāi)頭的命令重寫(xiě)為docker-compose.yml，并添加volumes將剛剛導出的配置文件映射到容器中，方便后續使用compose啟動(dòng)容器進(jìn)行驗證。
　　version: "3"
services:
ngx:
image: nginx:1.19.3-alpine
restart: always
ports:
- 3000:80
volumes:
- ./default.conf/:/etc/nginx/conf.d/default.conf
　　使用docker-compose up啟動(dòng)服務(wù)，然后使用之前的curl模擬POST驗證請求是否正常。
　　curl -d '{"key1":"value1", "key2":"value2"}' -H "Content-Type: application/json" -H "origin:gray.baai.ac.cn" -X POST http://localhost:3000
soulteary
　　執行后，Nginx的日志記錄中除了會(huì )返回字符串“soulteary”外，還會(huì )有一條看起來(lái)很正常的記錄：
　　ngx_1 | 192.168.16.1 - - [31/Oct/2020:14:24:48 +0000] "POST / HTTP/1.1" 200 0 "-" "curl/7.64.1" "-"
　　但是，如果細心的話(huà)，你會(huì )發(fā)現我們發(fā)送的數據并沒(méi)有收錄在日志中，那么如何解決這個(gè)問(wèn)題呢？
　　修復 Nginx 日志中丟失的 POST 數據
　　這個(gè)問(wèn)題其實(shí)是家常便飯。默認的Nginx服務(wù)器日志格式是不收錄POST Body的（性能考慮），沒(méi)有proxy_pass也不會(huì )解析POST Body。
　　首先執行以下命令：
　　docker run --rm -it nginx:1.19.3-alpine cat /etc/nginx/nginx.conf
　　可以看到默認的log_format配置規則是沒(méi)有任何關(guān)于POST Body的數據的。
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
<p>
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
sendfile on;
#tcp_nopush on;
keepalive_timeout 65;
#gzip on;
include /etc/nginx/conf.d/*.conf;
}
</p>
　　所以解決這個(gè)問(wèn)題并不難。添加新的日志格式，添加POST Body變量（request_body），然后添加proxy_pass路徑，激活Nginx解析POST Body的處理邏輯。
　　考慮到維護問(wèn)題，我們之前的配置文件合并到這個(gè)配置中，定義了一個(gè)名為/internal-api-path的路徑：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
access_log /var/log/nginx/access.log main;
sendfile on;
keepalive_timeout 65;
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
# access_log off;
default_type application/json;
return 200 '{"code": 0, data:"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　將新的配置文件保存為nginx.conf后，在compose中調整volumes配置信息，再次使用docker-compose up啟動(dòng)服務(wù)。
　　volumes:
- ./nginx.conf/:/etc/nginx/nginx.conf
　　再次使用curl模擬之前的POST請求，會(huì )看到Nginx日志中多了兩條記錄。第一條記錄收錄我們需要的 POST 數據：
　　192.168.192.1 - - [31/Oct/2020:15:05:48 +0000] "POST / HTTP/1.1" 200 29 "-" "curl/7.64.1" "-" {\x22key1\x22:\x22value1\x22, \x22key2\x22:\x22value2\x22}
127.0.0.1 - - [31/Oct/2020:15:05:48 +0000] "POST /internal-api-path HTTP/1.0" 200 29 "-" "curl/7.64.1" "-" -
　　但是這里還有很多不完善的地方：
　　接下來(lái)，讓我們繼續解決這些問(wèn)題。
　　改進(jìn) Nginx 配置，優(yōu)化日志記錄
　　首先在日志格式中加入escape=json參數，讓Nginx解析日志請求中的JSON數據：
　　log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
　　然后，關(guān)閉access_log；在不需要記錄日志的路徑中設置指令，避免記錄不必要的日志。
　　location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, data:"soulteary"}';
}
　　然后使用Nginx的map命令和Nginx中的條件判斷過(guò)濾非POST請求的日志記錄，拒絕處理非POST請求。
　　map $request_method $loggable {
default 0;
POST 1;
}
...
server {
location / {
if ( $request_method !~ ^POST$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
proxy_pass http://127.0.0.1/internal-api-path;
}
...
}
　　再次使用curl請求，會(huì )看到日志可以正常解析，不會(huì )出現兩條日志。
　　192.168.224.1 - [31/Oct/2020:15:19:59 +0000] "POST / HTTP/1.1" 200 29 "" "curl/7.64.1" "" {\"key1\":\"value1\", \"key2\":\"value2\"}
　　同時(shí)，不再記錄任何非POST請求。使用POST請求時(shí)，會(huì )提示405錯誤狀態(tài)。
　　這時(shí)候你可能會(huì )好奇，為什么這個(gè)405和上一篇不一樣，不會(huì )重定向到200呢？這是因為這個(gè)405是我們根據觸發(fā)條件“手動(dòng)設置”的，而不是Nginx邏輯運行過(guò)程中判斷出來(lái)的新結果。
　　目前的Nginx配置如下：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
sendfile on;
keepalive_timeout 65;
map $request_method $loggable {
default 0;
POST 1;
}
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
if ( $request_method !~ ^POST$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, "data":"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　但是真的到這里了嗎？
　　模擬前端客戶(hù)端常見(jiàn)的跨域請求
　　我們打開(kāi)熟悉的“百度”，在控制臺輸入如下代碼，模擬一個(gè)常見(jiàn)的業(yè)務(wù)跨域請求。
　　async function testCorsPost(url = '', data = {}) {
const response = await fetch(url, {
method: 'POST',
mode: 'cors',
cache: 'no-cache',
credentials: 'same-origin',
headers: { 'Content-Type': 'application/json' },
redirect: 'follow',
referrerPolicy: 'no-referrer',
body: JSON.stringify(data)
});
return response.json();
}
testCorsPost('http://localhost:3000', { hello: "soulteary" }).then(data => console.log(data));
<p>
</p>
　　代碼執行后，會(huì )看到經(jīng)典的提示信息：
　　Access to fetch at 'http://localhost:3000/' from origin 'https://www.baidu.com' has been blocked by CORS policy: Response to preflight request doesn't pass access control check: No 'Access-Control-Allow-Origin' header is present on the requested resource. If an opaque response serves your needs, set the request's mode to 'no-cors' to fetch the resource with CORS disabled.
POST http://localhost:3000/ net::ERR_FAILED
　　查看網(wǎng)絡(luò )面板，您將看到兩個(gè)失敗的新請求：
　　請求地址：:3000/
　　讓我們繼續調整配置以解決這個(gè)常見(jiàn)問(wèn)題。
　　使用Nginx解決前端跨域問(wèn)題
　　我們首先調整之前的過(guò)濾規則，允許處理 OPTIONS 請求。
　　if ( $request_method !~ ^(POST|OPTIONS)$ ) { return 405; }
　　跨域請求是常見(jiàn)的前端場(chǎng)景，很多人會(huì )懶得用“*”來(lái)解決問(wèn)題，但是Chrome等現代瀏覽器在新版本的某些場(chǎng)景下不能使用這種松散的規則，為了業(yè)務(wù)安全，一般來(lái)說(shuō)，我們會(huì )在服務(wù)器設置一個(gè)允許跨域請求的域名白名單。參考上面的方法，我們可以很容易的定義一個(gè)類(lèi)似如下的Nginx map配置來(lái)拒絕所有前端未授權的跨域請求：
　　map $http_origin $corsHost {
default 0;
"~(.*).soulteary.com" 1;
"~(.*).baidu.com" 1;
}
server {
...
location / {
...
if ( $corsHost = 0 ) { return 405; }
...
}
}
　　這里有個(gè)竅門(mén)。Nginx 路由中的規則與級別編程語(yǔ)言并不完全相似。它們可以按順序執行并具有“優(yōu)先/覆蓋”關(guān)系。所以，為了讓前端能夠正常調用接口進(jìn)行數據提交，這里需要這樣寫(xiě)規則，有四行代碼冗余。
　　if ( $corsHost = 0 ) { return 405; }
if ( $corsHost = 1 ) {
# 不需要 Cookie
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
}
# OPTION 請求返回 204 ，并去掉 BODY響應，因 NGINX 限制，需要重復上面的前四行配置
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain charset=UTF-8';
add_header 'Content-Length' 0;
return 204;
}
　　再次在網(wǎng)頁(yè)上執行之前的JavaScript代碼，會(huì )發(fā)現請求可以正常執行，前端數據會(huì )返回：
　　{code: 0, data: "soulteary"}
　　在Nginx的日志中，符合預期的會(huì )多出一條記錄：
　　172.20.0.1 - [31/Oct/2020:15:49:17 +0000] "POST / HTTP/1.1" 200 31 "" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36" "" {\"hello\":\"soulteary\"}
　　如果使用curl執行前面的命令，繼續模擬純接口調用，會(huì )發(fā)現405錯誤響應。這是因為我們的請求中沒(méi)有收錄origin請求頭，無(wú)法表明我們的來(lái)源身份。在請求中使用-H參數完成這個(gè)數據，就可以得到預期的返回：
　　curl -d '{"key1":"value1", "key2":"value2"}' -H "Content-Type: application/json" -H "origin:www.baidu.com" -X POST http://localhost:3000/
{"code": 0, "data":"soulteary"}
　　比較完整的Nginx配置
　　至此，我們基本實(shí)現了通用的采集功能，滿(mǎn)足基本需求的Nginx配置信息如下：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
sendfile on;
keepalive_timeout 65;
map $request_method $loggable {
default 0;
POST 1;
}
map $http_origin $corsHost {
default 0;
"~(.*).soulteary.com" 1;
"~(.*).baidu.com" 1;
}
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
if ( $request_method !~ ^(POST|OPTIONS)$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
if ( $corsHost = 0 ) { return 405; }
if ( $corsHost = 1 ) {
# 不需要 Cookie
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
}
# OPTION 請求返回 204 ，并去掉 BODY響應，因 NGINX 限制，需要重復上面的前四行配置
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain charset=UTF-8';
add_header 'Content-Length' 0;
return 204;
}
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, "data":"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　如果結合容器使用，我們只需要為其單獨添加一個(gè)額外的路由定義來(lái)進(jìn)行健康檢查，就可以實(shí)現一個(gè)簡(jiǎn)單穩定的采集服務(wù)。繼續連接后續的數據傳輸和處理程序。
　　location /health {
access_log off;
return 200;
}
　　compose配置文件，相比之前，只多了幾行健康檢查定義：
　　version: "3"
services:
ngx:
image: nginx:1.19.3-alpine
restart: always
ports:
- 3000:80
volumes:
- /etc/localtime:/etc/localtime:ro
- /etc/timezone:/etc/timezone:ro
- ./nginx.conf:/etc/nginx/nginx.conf
healthcheck:
test: wget --spider localhost/health || exit 1
interval: 5s
timeout: 10s
retries: 3
　　結合 Traefik，實(shí)例可以很容易地水平擴展以處理更多的請求。有興趣的可以看看我之前的文章。
　　最后
　　本文只介紹了數據采集的表層內容，更多內容以后有時(shí)間可能會(huì )詳細介紹。毛孩的貓糧要付尾款了，先寫(xiě)到這里吧。
　　解決方案:最簡(jiǎn)單的自助建站系統？
　　觸動(dòng)心靈
　　構建網(wǎng)站使用網(wǎng)站構建軟件可以花更少的錢(qián)并獲得快速的結果。建好網(wǎng)站后，不用請人維護網(wǎng)站。1. 首創(chuàng )頁(yè)面可視化編輯，所見(jiàn)即所得
　　1) 無(wú)需模板，只需選擇您需要的欄目模塊組件網(wǎng)站，即可自由編輯界面；
　　2）無(wú)需提前規劃布局，直接拖動(dòng)網(wǎng)站版塊，自由改變大小、位置和顯示的數據信息，實(shí)現網(wǎng)站精準布局；
　　
　　3) 無(wú)需美工，直接選擇選中的組件樣式即可創(chuàng )建統一的網(wǎng)站；
　　4）網(wǎng)站施工過(guò)程完全可視化操作，網(wǎng)站前臺設計效果為網(wǎng)站真實(shí)效果。2.全面的DIV CSS結構，網(wǎng)站更規范，網(wǎng)速更快，推廣更優(yōu)化
　　頁(yè)面布局全面采用DIV CSS架構，真正做到W3C內容與性能分離，充分保證網(wǎng)站頁(yè)面加載速度，更有利于搜索引擎優(yōu)化。
　　3.自動(dòng)新聞在線(xiàn)采集，告別繁瑣的手動(dòng)操作
　　4.強大的自定義表單功能，鼠標拖放即可完成表單創(chuàng )建
　　5. 便捷精細的SEO優(yōu)化，網(wǎng)站推廣效果更佳
　　
　　6. 精準權限控制，網(wǎng)站管理輕松
　　7.網(wǎng)站一鍵分離，輕松滿(mǎn)足各種操作需求
　　8.圖片在線(xiàn)編輯器，鼠標拖動(dòng)繪制精美
　　九、多種技術(shù)加密，全方位保障軟件和網(wǎng)站的安全
　　10、超強組件庫，實(shí)現所有用戶(hù)資源共享，確保所有網(wǎng)站都走在時(shí)代前沿查看全部

　　解決方案:使用 Nginx 構建前端日志統計服務(wù)（打點(diǎn)采集）服務(wù)
　　在工作中，我們經(jīng)常會(huì )遇到需要“數據支持”決策的情況，那么你有沒(méi)有想過(guò)這些數據從何而來(lái)？如果業(yè)務(wù)涉及Web服務(wù)，這些數據的來(lái)源之一就是服務(wù)器上各個(gè)服務(wù)器的請求數據。如果我們區分專(zhuān)門(mén)用于統計的數據，一些服務(wù)器專(zhuān)注于接收“統計類(lèi)型”的請求，那么這些產(chǎn)生的日志就是“管理日志”。
　　本文將介紹如何在容器中使用Nginx來(lái)簡(jiǎn)單搭建一個(gè)支持前端使用的統計（dot采集）服務(wù)，避免引入過(guò)多的技術(shù)棧，增加維護成本。
　　寫(xiě)在前面
　　不知道大家有沒(méi)有想過(guò)一個(gè)問(wèn)題。當一個(gè)頁(yè)面有很多打點(diǎn)事件時(shí)，打開(kāi)頁(yè)面時(shí)會(huì )同時(shí)發(fā)起無(wú)數個(gè)請求。此時(shí)，非寬帶環(huán)境下的用戶(hù)體驗將不復存在，打點(diǎn)服務(wù)器也將面臨友軍的攻擊。業(yè)務(wù) DDoS 行為。
　　因此，這幾年，一些公司不斷將數據統計方案從GET方案切換到POST方案，結合自研定制化SDK，將客戶(hù)端的數據統計“打包合并”，并以一定的頻率上報增量日志。極大的解決了前端的性能問(wèn)題，減輕了服務(wù)器的壓力。
　　五年前，我分享了如何搭建一個(gè)易于擴展的前端統計腳本，有興趣的可以看看。
　　Nginx環(huán)境下POST請求的問(wèn)題
　　看到本節的標題，你可能會(huì )覺(jué)得一頭霧水。POST 與 Nginx 交互是家常便飯，那有什么問(wèn)題呢？
　　我們來(lái)做一個(gè)小實(shí)驗，使用容器啟動(dòng)一個(gè) Nginx 服務(wù)：
　　docker run --rm -it -p 3000:80 nginx:1.19.3-alpine
　　然后在日常業(yè)務(wù)中使用curl模擬POST請求：
　　curl -d '{"key1":"value1", "key2":"value2"}' -X POST http://localhost:3000
　　你會(huì )看到如下返回結果：
　　
405 Not Allowed
405 Not Allowed
nginx/1.19.3
　　根據圖查看Nginx模塊modules/ngx_http_stub_status_module.c和http/ngx_http_special_response.c的源碼可以看到如下實(shí)現：
　　static ngx_int_t
ngx_http_stub_status_handler(ngx_http_request_t *r)
{
size_t size;
ngx_int_t rc;
ngx_buf_t *b;
ngx_chain_t out;
ngx_atomic_int_t ap, hn, ac, rq, rd, wr, wa;
if (!(r->method & (NGX_HTTP_GET|NGX_HTTP_HEAD))) {
return NGX_HTTP_NOT_ALLOWED;
}
...
}
...
static char ngx_http_error_405_page[] =
"" CRLF
"405 Not Allowed" CRLF
"" CRLF
"405 Not Allowed" CRLF
;
#define NGX_HTTP_OFF_4XX (NGX_HTTP_LAST_3XX - 301 + NGX_HTTP_OFF_3XX)
...
ngx_string(ngx_http_error_405_page),
ngx_string(ngx_http_error_406_page),
...
　　沒(méi)錯，NGINX默認是不支持記錄POST請求的，根據RFC7231會(huì )顯示錯誤碼405。所以一般情況下，我們會(huì )使用Lua/Java/PHP/Go/Node等動(dòng)態(tài)語(yǔ)言進(jìn)行輔助分析。
　　那么如何解決這個(gè)問(wèn)題呢？是否可以不借助外力，單純使用性能好、重量輕的Nginx來(lái)完成對POST請求的支持？
　　讓Nginx“原生”支持POST請求
　　為了更清楚的展示配置，我們接下來(lái)使用compose啟動(dòng)Nginx進(jìn)行實(shí)驗。在編寫(xiě)腳本之前，我們需要先獲取配置文件，使用如下命令行將指定版本Nginx的配置文件保存到當前目錄。
　　docker run --rm -it nginx:1.19.3-alpine cat /etc/nginx/conf.d/default.conf > default.conf
　　默認配置文件內容如下：
　　server {
listen 80;
server_name localhost;
#charset koi8-r;
#access_log /var/log/nginx/host.access.log main;
location / {
root /usr/share/nginx/html;
index index.html index.htm;
}
#error_page 404 /404.html;
# redirect server error pages to the static page /50x.html
#
error_page 500 502 503 504 /50x.html;
location = /50x.html {
root /usr/share/nginx/html;
}
# proxy the PHP scripts to Apache listening on 127.0.0.1:80
#
#location ~ \.php$ {
# proxy_pass http://127.0.0.1;
#}
# pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
#
#location ~ \.php$ {
# root html;
# fastcgi_pass 127.0.0.1:9000;
# fastcgi_index index.php;
# fastcgi_param SCRIPT_FILENAME /scripts$fastcgi_script_name;
# include fastcgi_params;
#}
# deny access to .htaccess files, if Apache's document root
# concurs with nginx's one
#
#location ~ /\.ht {
# deny all;
#}
}
　　稍微壓縮一下，我們得到一個(gè)更簡(jiǎn)單的配置文件并添加一行 error_page 405 =200 $uri; 對它：
　　server {
listen 80;
server_name localhost;
charset utf-8;
location / {
return 200 "soulteary";
}
error_page 405 =200 $uri;
}
　　將本節開(kāi)頭的命令重寫(xiě)為docker-compose.yml，并添加volumes將剛剛導出的配置文件映射到容器中，方便后續使用compose啟動(dòng)容器進(jìn)行驗證。
　　version: "3"
services:
ngx:
image: nginx:1.19.3-alpine
restart: always
ports:
- 3000:80
volumes:
- ./default.conf/:/etc/nginx/conf.d/default.conf
　　使用docker-compose up啟動(dòng)服務(wù)，然后使用之前的curl模擬POST驗證請求是否正常。
　　curl -d '{"key1":"value1", "key2":"value2"}' -H "Content-Type: application/json" -H "origin:gray.baai.ac.cn" -X POST http://localhost:3000
soulteary
　　執行后，Nginx的日志記錄中除了會(huì )返回字符串“soulteary”外，還會(huì )有一條看起來(lái)很正常的記錄：
　　ngx_1 | 192.168.16.1 - - [31/Oct/2020:14:24:48 +0000] "POST / HTTP/1.1" 200 0 "-" "curl/7.64.1" "-"
　　但是，如果細心的話(huà)，你會(huì )發(fā)現我們發(fā)送的數據并沒(méi)有收錄在日志中，那么如何解決這個(gè)問(wèn)題呢？
　　修復 Nginx 日志中丟失的 POST 數據
　　這個(gè)問(wèn)題其實(shí)是家常便飯。默認的Nginx服務(wù)器日志格式是不收錄POST Body的（性能考慮），沒(méi)有proxy_pass也不會(huì )解析POST Body。
　　首先執行以下命令：
　　docker run --rm -it nginx:1.19.3-alpine cat /etc/nginx/nginx.conf
　　可以看到默認的log_format配置規則是沒(méi)有任何關(guān)于POST Body的數據的。
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
<p>

'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
sendfile on;
#tcp_nopush on;
keepalive_timeout 65;
#gzip on;
include /etc/nginx/conf.d/*.conf;
}
</p>
　　所以解決這個(gè)問(wèn)題并不難。添加新的日志格式，添加POST Body變量（request_body），然后添加proxy_pass路徑，激活Nginx解析POST Body的處理邏輯。
　　考慮到維護問(wèn)題，我們之前的配置文件合并到這個(gè)配置中，定義了一個(gè)名為/internal-api-path的路徑：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
access_log /var/log/nginx/access.log main;
sendfile on;
keepalive_timeout 65;
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
# access_log off;
default_type application/json;
return 200 '{"code": 0, data:"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　將新的配置文件保存為nginx.conf后，在compose中調整volumes配置信息，再次使用docker-compose up啟動(dòng)服務(wù)。
　　volumes:
- ./nginx.conf/:/etc/nginx/nginx.conf
　　再次使用curl模擬之前的POST請求，會(huì )看到Nginx日志中多了兩條記錄。第一條記錄收錄我們需要的 POST 數據：
　　192.168.192.1 - - [31/Oct/2020:15:05:48 +0000] "POST / HTTP/1.1" 200 29 "-" "curl/7.64.1" "-" {\x22key1\x22:\x22value1\x22, \x22key2\x22:\x22value2\x22}
127.0.0.1 - - [31/Oct/2020:15:05:48 +0000] "POST /internal-api-path HTTP/1.0" 200 29 "-" "curl/7.64.1" "-" -
　　但是這里還有很多不完善的地方：
　　接下來(lái)，讓我們繼續解決這些問(wèn)題。
　　改進(jìn) Nginx 配置，優(yōu)化日志記錄
　　首先在日志格式中加入escape=json參數，讓Nginx解析日志請求中的JSON數據：
　　log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
　　然后，關(guān)閉access_log；在不需要記錄日志的路徑中設置指令，避免記錄不必要的日志。
　　location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, data:"soulteary"}';
}
　　然后使用Nginx的map命令和Nginx中的條件判斷過(guò)濾非POST請求的日志記錄，拒絕處理非POST請求。
　　map $request_method $loggable {
default 0;
POST 1;
}
...
server {
location / {
if ( $request_method !~ ^POST$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
proxy_pass http://127.0.0.1/internal-api-path;
}
...
}
　　再次使用curl請求，會(huì )看到日志可以正常解析，不會(huì )出現兩條日志。
　　192.168.224.1 - [31/Oct/2020:15:19:59 +0000] "POST / HTTP/1.1" 200 29 "" "curl/7.64.1" "" {\"key1\":\"value1\", \"key2\":\"value2\"}
　　同時(shí)，不再記錄任何非POST請求。使用POST請求時(shí)，會(huì )提示405錯誤狀態(tài)。
　　這時(shí)候你可能會(huì )好奇，為什么這個(gè)405和上一篇不一樣，不會(huì )重定向到200呢？這是因為這個(gè)405是我們根據觸發(fā)條件“手動(dòng)設置”的，而不是Nginx邏輯運行過(guò)程中判斷出來(lái)的新結果。
　　目前的Nginx配置如下：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
sendfile on;
keepalive_timeout 65;
map $request_method $loggable {
default 0;
POST 1;
}
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
if ( $request_method !~ ^POST$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, "data":"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　但是真的到這里了嗎？
　　模擬前端客戶(hù)端常見(jiàn)的跨域請求
　　我們打開(kāi)熟悉的“百度”，在控制臺輸入如下代碼，模擬一個(gè)常見(jiàn)的業(yè)務(wù)跨域請求。
　　async function testCorsPost(url = '', data = {}) {
const response = await fetch(url, {
method: 'POST',
mode: 'cors',
cache: 'no-cache',
credentials: 'same-origin',
headers: { 'Content-Type': 'application/json' },
redirect: 'follow',
referrerPolicy: 'no-referrer',
body: JSON.stringify(data)
});
return response.json();
}
testCorsPost('http://localhost:3000', { hello: "soulteary" }).then(data => console.log(data));
<p>

</p>
　　代碼執行后，會(huì )看到經(jīng)典的提示信息：
　　Access to fetch at 'http://localhost:3000/' from origin 'https://www.baidu.com' has been blocked by CORS policy: Response to preflight request doesn't pass access control check: No 'Access-Control-Allow-Origin' header is present on the requested resource. If an opaque response serves your needs, set the request's mode to 'no-cors' to fetch the resource with CORS disabled.
POST http://localhost:3000/ net::ERR_FAILED
　　查看網(wǎng)絡(luò )面板，您將看到兩個(gè)失敗的新請求：
　　請求地址：:3000/
　　讓我們繼續調整配置以解決這個(gè)常見(jiàn)問(wèn)題。
　　使用Nginx解決前端跨域問(wèn)題
　　我們首先調整之前的過(guò)濾規則，允許處理 OPTIONS 請求。
　　if ( $request_method !~ ^(POST|OPTIONS)$ ) { return 405; }
　　跨域請求是常見(jiàn)的前端場(chǎng)景，很多人會(huì )懶得用“*”來(lái)解決問(wèn)題，但是Chrome等現代瀏覽器在新版本的某些場(chǎng)景下不能使用這種松散的規則，為了業(yè)務(wù)安全，一般來(lái)說(shuō)，我們會(huì )在服務(wù)器設置一個(gè)允許跨域請求的域名白名單。參考上面的方法，我們可以很容易的定義一個(gè)類(lèi)似如下的Nginx map配置來(lái)拒絕所有前端未授權的跨域請求：
　　map $http_origin $corsHost {
default 0;
"~(.*).soulteary.com" 1;
"~(.*).baidu.com" 1;
}
server {
...
location / {
...
if ( $corsHost = 0 ) { return 405; }
...
}
}
　　這里有個(gè)竅門(mén)。Nginx 路由中的規則與級別編程語(yǔ)言并不完全相似。它們可以按順序執行并具有“優(yōu)先/覆蓋”關(guān)系。所以，為了讓前端能夠正常調用接口進(jìn)行數據提交，這里需要這樣寫(xiě)規則，有四行代碼冗余。
　　if ( $corsHost = 0 ) { return 405; }
if ( $corsHost = 1 ) {
# 不需要 Cookie
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
}
# OPTION 請求返回 204 ，并去掉 BODY響應，因 NGINX 限制，需要重復上面的前四行配置
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain charset=UTF-8';
add_header 'Content-Length' 0;
return 204;
}
　　再次在網(wǎng)頁(yè)上執行之前的JavaScript代碼，會(huì )發(fā)現請求可以正常執行，前端數據會(huì )返回：
　　{code: 0, data: "soulteary"}
　　在Nginx的日志中，符合預期的會(huì )多出一條記錄：
　　172.20.0.1 - [31/Oct/2020:15:49:17 +0000] "POST / HTTP/1.1" 200 31 "" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36" "" {\"hello\":\"soulteary\"}
　　如果使用curl執行前面的命令，繼續模擬純接口調用，會(huì )發(fā)現405錯誤響應。這是因為我們的請求中沒(méi)有收錄origin請求頭，無(wú)法表明我們的來(lái)源身份。在請求中使用-H參數完成這個(gè)數據，就可以得到預期的返回：
　　curl -d '{"key1":"value1", "key2":"value2"}' -H "Content-Type: application/json" -H "origin:www.baidu.com" -X POST http://localhost:3000/
{"code": 0, "data":"soulteary"}
　　比較完整的Nginx配置
　　至此，我們基本實(shí)現了通用的采集功能，滿(mǎn)足基本需求的Nginx配置信息如下：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
sendfile on;
keepalive_timeout 65;
map $request_method $loggable {
default 0;
POST 1;
}
map $http_origin $corsHost {
default 0;
"~(.*).soulteary.com" 1;
"~(.*).baidu.com" 1;
}
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
if ( $request_method !~ ^(POST|OPTIONS)$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
if ( $corsHost = 0 ) { return 405; }
if ( $corsHost = 1 ) {
# 不需要 Cookie
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
}
# OPTION 請求返回 204 ，并去掉 BODY響應，因 NGINX 限制，需要重復上面的前四行配置
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain charset=UTF-8';
add_header 'Content-Length' 0;
return 204;
}
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, "data":"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　如果結合容器使用，我們只需要為其單獨添加一個(gè)額外的路由定義來(lái)進(jìn)行健康檢查，就可以實(shí)現一個(gè)簡(jiǎn)單穩定的采集服務(wù)。繼續連接后續的數據傳輸和處理程序。
　　location /health {
access_log off;
return 200;
}
　　compose配置文件，相比之前，只多了幾行健康檢查定義：
　　version: "3"
services:
ngx:
image: nginx:1.19.3-alpine
restart: always
ports:
- 3000:80
volumes:
- /etc/localtime:/etc/localtime:ro
- /etc/timezone:/etc/timezone:ro
- ./nginx.conf:/etc/nginx/nginx.conf
healthcheck:
test: wget --spider localhost/health || exit 1
interval: 5s
timeout: 10s
retries: 3
　　結合 Traefik，實(shí)例可以很容易地水平擴展以處理更多的請求。有興趣的可以看看我之前的文章。
　　最后
　　本文只介紹了數據采集的表層內容，更多內容以后有時(shí)間可能會(huì )詳細介紹。毛孩的貓糧要付尾款了，先寫(xiě)到這里吧。
　　解決方案:最簡(jiǎn)單的自助建站系統？
　　觸動(dòng)心靈
　　構建網(wǎng)站使用網(wǎng)站構建軟件可以花更少的錢(qián)并獲得快速的結果。建好網(wǎng)站后，不用請人維護網(wǎng)站。1. 首創(chuàng )頁(yè)面可視化編輯，所見(jiàn)即所得
　　1) 無(wú)需模板，只需選擇您需要的欄目模塊組件網(wǎng)站，即可自由編輯界面；
　　2）無(wú)需提前規劃布局，直接拖動(dòng)網(wǎng)站版塊，自由改變大小、位置和顯示的數據信息，實(shí)現網(wǎng)站精準布局；
　　

　　3) 無(wú)需美工，直接選擇選中的組件樣式即可創(chuàng )建統一的網(wǎng)站；
　　4）網(wǎng)站施工過(guò)程完全可視化操作，網(wǎng)站前臺設計效果為網(wǎng)站真實(shí)效果。2.全面的DIV CSS結構，網(wǎng)站更規范，網(wǎng)速更快，推廣更優(yōu)化
　　頁(yè)面布局全面采用DIV CSS架構，真正做到W3C內容與性能分離，充分保證網(wǎng)站頁(yè)面加載速度，更有利于搜索引擎優(yōu)化。
　　3.自動(dòng)新聞在線(xiàn)采集，告別繁瑣的手動(dòng)操作
　　4.強大的自定義表單功能，鼠標拖放即可完成表單創(chuàng )建
　　5. 便捷精細的SEO優(yōu)化，網(wǎng)站推廣效果更佳
　　

　　6. 精準權限控制，網(wǎng)站管理輕松
　　7.網(wǎng)站一鍵分離，輕松滿(mǎn)足各種操作需求
　　8.圖片在線(xiàn)編輯器，鼠標拖動(dòng)繪制精美
　　九、多種技術(shù)加密，全方位保障軟件和網(wǎng)站的安全
　　10、超強組件庫，實(shí)現所有用戶(hù)資源共享，確保所有網(wǎng)站都走在時(shí)代前沿

解密:計算機讀取數據的接囗教程

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2022-12-11 19:51 ? 來(lái)自相關(guān)話(huà)題

　　解密:計算機讀取數據的接囗教程
　　今天給大家介紹優(yōu)采云采集如何獲取數據API鏈接，優(yōu)采云采集獲取數據API鏈接的方法，讓您輕松解決問(wèn)題. 優(yōu)采云采集如何獲取數據API鏈接
　　具體方法如下： 1
　　java、cs、php示例代碼點(diǎn)擊下載
　　本教程講解數據API的使用
　　注意：只有在有效期內的旗艦版用戶(hù)才能使用數據API
　　如何獲取數據API鏈接？
　　1、打開(kāi)任務(wù)配置界面，如下圖：
　　
　　2個(gè)
　　2、點(diǎn)擊Next，直到最后一步，選擇Generate Data Export API接口，如下圖：
　　3個(gè)
　　3、點(diǎn)擊后會(huì )有彈窗，從彈窗復制API鏈接，查看API示例：
　　4個(gè)
　　最終API鏈接格式為：{開(kāi)始時(shí)間}&to={結束時(shí)間}，key由系統自動(dòng)生成，請勿修改！
　　最后使用的時(shí)候需要把{start time}和{end time}替換成你想要獲取數據的時(shí)間間隔（采集time），比如：
　　
　　/SkieerDataAPI/GetData?key=key&from=2014-11-11
　　12:00&to=2014-11-11 13:00，時(shí)間間隔最長(cháng)一小時(shí)（總數據量不超過(guò)1000，如果超過(guò)1000，請
　　利用
　　). pageindex 是頁(yè)碼，pageSize 是該頁(yè)顯示的數據量。例如pageindex=3&pageSize=100表示??請求第三頁(yè)的數據，每頁(yè)按照100條數據進(jìn)行劃分。5個(gè)
　　如何使用數據API？
　　數據 API 以 XML 格式返回數據。您的程序可以通過(guò)API定時(shí)獲取云端采集指定時(shí)間段的數據。API返回的數據格式如下：
　　以上就是優(yōu)采云采集如何獲取數據API鏈接，優(yōu)采云采集如何獲取數據API鏈接的教程，希望本文能幫到大家解決問(wèn)題。
　　解密:星座生辰八字算命系統超強大功能程序源碼下載,文章內容可采集
　　今天給大家帶來(lái)一個(gè)屬于算命星座范疇的程序系統。
　　目前是市面上功能強大的算命系統，包含姓名打分、八字測算、各種吉兇查詢(xún)、各種在線(xiàn)靈簽，非采集文章，
而是純功能性?xún)热?，真正的測算系統，用戶(hù)回頭率高，網(wǎng)站PV訪(fǎng)問(wèn)量大概是IP的5倍之多。
　　算命系統變現超快，支付轉化率相當高。做過(guò)算命的網(wǎng)站都知道
　　程序比較強大，內涵內容也比較豐富
　　十二生肖在線(xiàn)求簽
　　吉兇查詢(xún)八字計算
　　寶寶名字評分
　　完整名單
　　周公解夢(mèng)等等，就不一一說(shuō)了，大家自己去了解吧！
　　順便說(shuō)一下，文章發(fā)布了其他這樣的系統，但是這個(gè)程序還有一個(gè)優(yōu)點(diǎn)是文章也可以采集！
　　
　　安裝教程：
　　安裝環(huán)境PHP5.6+MYSQL5.7；
　　PS：PHP版本不能超過(guò)5.6否則會(huì )報錯，不能低于5.6因為系統不支持
　　必須支持偽靜態(tài)。
　　對于初始安裝，必須遵循以下步驟：
　　1.解壓壓縮包到根目錄
　　2.綁定域名和訪(fǎng)問(wèn)權限進(jìn)入安裝步驟
　　3.根據提示輸入數據庫的相關(guān)信息
　　4.登錄后臺
　　5.系統設置-數據庫恢復-依次導入數據庫
　　6.系統設置-站點(diǎn)設置-設置網(wǎng)站信息
　　7.系統設置-SEO設置-設置網(wǎng)站SEO信息
　　8、設置偽靜態(tài)——在寶塔中選擇thinkphp——在偽靜態(tài)設置中填寫(xiě)虛擬主機【詳見(jiàn)源碼安裝包】
　　
　　9. 文章管理-添加文章【星座文章采集】
　　10. 設置網(wǎng)站并添加背景項文章和數據。前端打分名字時(shí)會(huì )自動(dòng)保存寶寶名字的數據。
　　好了，故事就這樣結束了，下面附上小編的測試demo圖：
　　本站發(fā)布的資源均來(lái)自互聯(lián)網(wǎng)，僅供研究學(xué)習之用，不得將軟件用于商業(yè)或非法用途，否則一切后果由用戶(hù)自行承擔！如果侵犯了您的權益，請聯(lián)系我們！您必須在下載后 24 小時(shí)內將其從您的手機和計算機中徹底刪除。如果您喜歡本程序，請支持正版軟件，購買(mǎi)注冊，獲得更優(yōu)質(zhì)的正版服務(wù)。如有侵權，請聯(lián)系我們處理！
　　善能緣代碼? 超強星座生肖算命系統程序源碼下載，文章內容可用采集
　　常問(wèn)問(wèn)題
　　免費下載或VIP會(huì )員專(zhuān)享資源是否可以直接用于商業(yè)用途？
　　本站所有資源版權歸原作者所有。此處提供的資源僅供參考和學(xué)習使用，請勿直接用于商業(yè)用途。如因商業(yè)使用引起版權糾紛，一切責任由用戶(hù)自行承擔。更多說(shuō)明請參考VIP介紹。
　　提示下載完成但無(wú)法解壓或打開(kāi)文件？
　　最常見(jiàn)的情況是下載不完整：可以將下載的壓縮包與網(wǎng)盤(pán)容量進(jìn)行比較，如果小于網(wǎng)盤(pán)提示的容量，就是這個(gè)原因。這是瀏覽器下載bug，建議使用百度網(wǎng)盤(pán)軟件或迅雷下載。如果排除這種情況，您可以在相應資源下方留言，或者聯(lián)系我們。通用解壓密碼：
　　山能SVIP 查看全部

　　解密:計算機讀取數據的接囗教程
　　今天給大家介紹優(yōu)采云采集如何獲取數據API鏈接，優(yōu)采云采集獲取數據API鏈接的方法，讓您輕松解決問(wèn)題. 優(yōu)采云采集如何獲取數據API鏈接
　　具體方法如下： 1
　　java、cs、php示例代碼點(diǎn)擊下載
　　本教程講解數據API的使用
　　注意：只有在有效期內的旗艦版用戶(hù)才能使用數據API
　　如何獲取數據API鏈接？
　　1、打開(kāi)任務(wù)配置界面，如下圖：
　　

　　2個(gè)
　　2、點(diǎn)擊Next，直到最后一步，選擇Generate Data Export API接口，如下圖：
　　3個(gè)
　　3、點(diǎn)擊后會(huì )有彈窗，從彈窗復制API鏈接，查看API示例：
　　4個(gè)
　　最終API鏈接格式為：{開(kāi)始時(shí)間}&to={結束時(shí)間}，key由系統自動(dòng)生成，請勿修改！
　　最后使用的時(shí)候需要把{start time}和{end time}替換成你想要獲取數據的時(shí)間間隔（采集time），比如：
　　

　　/SkieerDataAPI/GetData?key=key&from=2014-11-11
　　12:00&to=2014-11-11 13:00，時(shí)間間隔最長(cháng)一小時(shí)（總數據量不超過(guò)1000，如果超過(guò)1000，請
　　利用
　　). pageindex 是頁(yè)碼，pageSize 是該頁(yè)顯示的數據量。例如pageindex=3&pageSize=100表示??請求第三頁(yè)的數據，每頁(yè)按照100條數據進(jìn)行劃分。5個(gè)
　　如何使用數據API？
　　數據 API 以 XML 格式返回數據。您的程序可以通過(guò)API定時(shí)獲取云端采集指定時(shí)間段的數據。API返回的數據格式如下：
　　以上就是優(yōu)采云采集如何獲取數據API鏈接，優(yōu)采云采集如何獲取數據API鏈接的教程，希望本文能幫到大家解決問(wèn)題。
　　解密:星座生辰八字算命系統超強大功能程序源碼下載,文章內容可采集
　　今天給大家帶來(lái)一個(gè)屬于算命星座范疇的程序系統。
　　目前是市面上功能強大的算命系統，包含姓名打分、八字測算、各種吉兇查詢(xún)、各種在線(xiàn)靈簽，非采集文章，
而是純功能性?xún)热?，真正的測算系統，用戶(hù)回頭率高，網(wǎng)站PV訪(fǎng)問(wèn)量大概是IP的5倍之多。
　　算命系統變現超快，支付轉化率相當高。做過(guò)算命的網(wǎng)站都知道
　　程序比較強大，內涵內容也比較豐富
　　十二生肖在線(xiàn)求簽
　　吉兇查詢(xún)八字計算
　　寶寶名字評分
　　完整名單
　　周公解夢(mèng)等等，就不一一說(shuō)了，大家自己去了解吧！
　　順便說(shuō)一下，文章發(fā)布了其他這樣的系統，但是這個(gè)程序還有一個(gè)優(yōu)點(diǎn)是文章也可以采集！
　　

　　安裝教程：
　　安裝環(huán)境PHP5.6+MYSQL5.7；
　　PS：PHP版本不能超過(guò)5.6否則會(huì )報錯，不能低于5.6因為系統不支持
　　必須支持偽靜態(tài)。
　　對于初始安裝，必須遵循以下步驟：
　　1.解壓壓縮包到根目錄
　　2.綁定域名和訪(fǎng)問(wèn)權限進(jìn)入安裝步驟
　　3.根據提示輸入數據庫的相關(guān)信息
　　4.登錄后臺
　　5.系統設置-數據庫恢復-依次導入數據庫
　　6.系統設置-站點(diǎn)設置-設置網(wǎng)站信息
　　7.系統設置-SEO設置-設置網(wǎng)站SEO信息
　　8、設置偽靜態(tài)——在寶塔中選擇thinkphp——在偽靜態(tài)設置中填寫(xiě)虛擬主機【詳見(jiàn)源碼安裝包】
　　

　　9. 文章管理-添加文章【星座文章采集】
　　10. 設置網(wǎng)站并添加背景項文章和數據。前端打分名字時(shí)會(huì )自動(dòng)保存寶寶名字的數據。
　　好了，故事就這樣結束了，下面附上小編的測試demo圖：
　　本站發(fā)布的資源均來(lái)自互聯(lián)網(wǎng)，僅供研究學(xué)習之用，不得將軟件用于商業(yè)或非法用途，否則一切后果由用戶(hù)自行承擔！如果侵犯了您的權益，請聯(lián)系我們！您必須在下載后 24 小時(shí)內將其從您的手機和計算機中徹底刪除。如果您喜歡本程序，請支持正版軟件，購買(mǎi)注冊，獲得更優(yōu)質(zhì)的正版服務(wù)。如有侵權，請聯(lián)系我們處理！
　　善能緣代碼? 超強星座生肖算命系統程序源碼下載，文章內容可用采集
　　常問(wèn)問(wèn)題
　　免費下載或VIP會(huì )員專(zhuān)享資源是否可以直接用于商業(yè)用途？
　　本站所有資源版權歸原作者所有。此處提供的資源僅供參考和學(xué)習使用，請勿直接用于商業(yè)用途。如因商業(yè)使用引起版權糾紛，一切責任由用戶(hù)自行承擔。更多說(shuō)明請參考VIP介紹。
　　提示下載完成但無(wú)法解壓或打開(kāi)文件？
　　最常見(jiàn)的情況是下載不完整：可以將下載的壓縮包與網(wǎng)盤(pán)容量進(jìn)行比較，如果小于網(wǎng)盤(pán)提示的容量，就是這個(gè)原因。這是瀏覽器下載bug，建議使用百度網(wǎng)盤(pán)軟件或迅雷下載。如果排除這種情況，您可以在相應資源下方留言，或者聯(lián)系我們。通用解壓密碼：
　　山能SVIP

解決方案:基于A(yíng)PI的圖像采集程序

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2022-12-10 01:32 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:基于A(yíng)PI的圖像采集程序
　　
　　================================================ == =======================WIN32應用：視頻采集測試項目概述================= ================================================ ====== === 應用程序向導已經(jīng)為您創(chuàng )建了這個(gè)視頻捕獲測試應用程序。本文檔概述了構成視頻捕獲測試應用程序的每個(gè)文件的內容。Video Capture Test.vcproj 這是使用 AppWizard 生成的 VC++ 項目的主要項目文件。它收錄有關(guān)生成文件的 Visual C++ 版本的信息，以及有關(guān)使用應用程序向導選擇的平臺、配置和項目功能的信息。Video Capture Test.cpp 這是主要的應用程序源文件。//////////////////////////////////////////////// // ///////////////////////////應用程序向導創(chuàng )建了以下資源： Video Capture Test.rc 這是所有資源的來(lái)源程序列表使用的 Microsoft Windows 資源。它包括存儲在 RES 子目錄中的圖標、位圖和光標。該文件可以直接在 Microsoft Visual C++ 中編輯。
　　
　　Resource.h 這是定義新資源 ID 的標準頭文件。Microsoft Visual C++ 讀取并更新此文件。Video Capture Test.ico 這是用作應用程序圖標 (32x32) 的圖標文件。此圖標收錄在主要資源文件 VideoCaptureTest.rc 中。small.ico 這是一個(gè)圖標文件，其中收錄較小版本 (16x16) 的應用程序圖標。此圖標收錄在主要資源文件 VideoCaptureTest.rc 中。//////////////////////////////////////////////// // ///////////////////////// 其他標準文件：StdAfx.h、StdAfx.cpp 這些文件用于生成視頻采集測試.pch 預編譯頭 (PCH) 文件和名為 StdAfx.obj 的預編譯類(lèi)型文件。//////////////////////////////////////////////// // /////////////////////////// 附加說(shuō)明：AppWizard 使用“TODO：” 指示應添加或自定義的源代碼部分。//////////////////////////////////////////////// // ///////////////////////////
　　匯總:石青分類(lèi)信息群發(fā)工具 1.4.9.10 綠色版
　　藍晶分類(lèi)信息群發(fā)工具是一款簡(jiǎn)單實(shí)用的分類(lèi)信息戰自動(dòng)群發(fā)軟件，先進(jìn)的驗證碼識別技術(shù)，發(fā)布信息方便快捷，建立外鏈，可以發(fā)送信息到趕集網(wǎng)，58等國內知名分類(lèi)站群發(fā)，只要簡(jiǎn)單輸入賬號密碼，填寫(xiě)發(fā)送內容，其他藍晶分類(lèi)信息群發(fā)工具都會(huì )為您解決。
　　藍晶分類(lèi)信息群發(fā)工具功能介紹：
　　1、支持分類(lèi)站點(diǎn)多，是一般同類(lèi)軟件的很多倍；
　　2、綠色軟件免安裝，容量小，軟件下載包只有4M多；
　　3、全剎車(chē)驗證碼識別，高效快捷；
　　4.在線(xiàn)升級，全部免費；
　　5、貼心的鏈接替換功能，提供短域名服務(wù)，有效增加SEO外鏈；
　　
　　6、系統自動(dòng)調整發(fā)送速度，不像一些同類(lèi)軟件需要用戶(hù)進(jìn)行復雜的設置；
　　7、自動(dòng)搜索代理服務(wù)器，確保發(fā)送時(shí)IP不被封；
　　8. 100%模擬人工發(fā)送，一般情況下很少被K；
　　9、支持win2000以上所有平臺，包括winxp、win2003、vista、win7等；
　　10.多核發(fā)送，發(fā)送時(shí)充分利用機器，沒(méi)有任何拖延和滯后。
　　石青分類(lèi)信息群發(fā)工具更新日志：
　　V1.4.6.10
　　
　　1.改善群發(fā)消息間隔過(guò)長(cháng)??的問(wèn)題
　　2.對大站模式做了性能升級
　　3.更新驗證題庫
　　V1.4.4.10
　　1、修復id為3、10、19的分類(lèi)站無(wú)效問(wèn)題；
　　2.修復了文本編輯模塊中的一些復制錯誤；
　　3.修復部分坐標按界面web方式發(fā)送；查看全部

　　解決方案:基于A(yíng)PI的圖像采集程序
　　

　　================================================ == =======================WIN32應用：視頻采集測試項目概述================= ================================================ ====== === 應用程序向導已經(jīng)為您創(chuàng )建了這個(gè)視頻捕獲測試應用程序。本文檔概述了構成視頻捕獲測試應用程序的每個(gè)文件的內容。Video Capture Test.vcproj 這是使用 AppWizard 生成的 VC++ 項目的主要項目文件。它收錄有關(guān)生成文件的 Visual C++ 版本的信息，以及有關(guān)使用應用程序向導選擇的平臺、配置和項目功能的信息。Video Capture Test.cpp 這是主要的應用程序源文件。//////////////////////////////////////////////// // ///////////////////////////應用程序向導創(chuàng )建了以下資源： Video Capture Test.rc 這是所有資源的來(lái)源程序列表使用的 Microsoft Windows 資源。它包括存儲在 RES 子目錄中的圖標、位圖和光標。該文件可以直接在 Microsoft Visual C++ 中編輯。
　　

　　Resource.h 這是定義新資源 ID 的標準頭文件。Microsoft Visual C++ 讀取并更新此文件。Video Capture Test.ico 這是用作應用程序圖標 (32x32) 的圖標文件。此圖標收錄在主要資源文件 VideoCaptureTest.rc 中。small.ico 這是一個(gè)圖標文件，其中收錄較小版本 (16x16) 的應用程序圖標。此圖標收錄在主要資源文件 VideoCaptureTest.rc 中。//////////////////////////////////////////////// // ///////////////////////// 其他標準文件：StdAfx.h、StdAfx.cpp 這些文件用于生成視頻采集測試.pch 預編譯頭 (PCH) 文件和名為 StdAfx.obj 的預編譯類(lèi)型文件。//////////////////////////////////////////////// // /////////////////////////// 附加說(shuō)明：AppWizard 使用“TODO：” 指示應添加或自定義的源代碼部分。//////////////////////////////////////////////// // ///////////////////////////
　　匯總:石青分類(lèi)信息群發(fā)工具 1.4.9.10 綠色版
　　藍晶分類(lèi)信息群發(fā)工具是一款簡(jiǎn)單實(shí)用的分類(lèi)信息戰自動(dòng)群發(fā)軟件，先進(jìn)的驗證碼識別技術(shù)，發(fā)布信息方便快捷，建立外鏈，可以發(fā)送信息到趕集網(wǎng)，58等國內知名分類(lèi)站群發(fā)，只要簡(jiǎn)單輸入賬號密碼，填寫(xiě)發(fā)送內容，其他藍晶分類(lèi)信息群發(fā)工具都會(huì )為您解決。
　　藍晶分類(lèi)信息群發(fā)工具功能介紹：
　　1、支持分類(lèi)站點(diǎn)多，是一般同類(lèi)軟件的很多倍；
　　2、綠色軟件免安裝，容量小，軟件下載包只有4M多；
　　3、全剎車(chē)驗證碼識別，高效快捷；
　　4.在線(xiàn)升級，全部免費；
　　5、貼心的鏈接替換功能，提供短域名服務(wù)，有效增加SEO外鏈；
　　

　　6、系統自動(dòng)調整發(fā)送速度，不像一些同類(lèi)軟件需要用戶(hù)進(jìn)行復雜的設置；
　　7、自動(dòng)搜索代理服務(wù)器，確保發(fā)送時(shí)IP不被封；
　　8. 100%模擬人工發(fā)送，一般情況下很少被K；
　　9、支持win2000以上所有平臺，包括winxp、win2003、vista、win7等；
　　10.多核發(fā)送，發(fā)送時(shí)充分利用機器，沒(méi)有任何拖延和滯后。
　　石青分類(lèi)信息群發(fā)工具更新日志：
　　V1.4.6.10
　　

　　1.改善群發(fā)消息間隔過(guò)長(cháng)??的問(wèn)題
　　2.對大站模式做了性能升級
　　3.更新驗證題庫
　　V1.4.4.10
　　1、修復id為3、10、19的分類(lèi)站無(wú)效問(wèn)題；
　　2.修復了文本編輯模塊中的一些復制錯誤；
　　3.修復部分坐標按界面web方式發(fā)送；

免費獲取:公眾號最新文章獲取API

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 187 次瀏覽 ? 2022-12-09 13:54 ? 來(lái)自相關(guān)話(huà)題

　　免費獲取:公眾號最新文章獲取API
　　公眾號平臺每天都有數百萬(wàn)的公眾號為這個(gè)生態(tài)做貢獻，其價(jià)值不言而喻。
　　我們合作的企業(yè)客戶(hù)中有科技、財經(jīng)媒體平臺、科研機構、政府機構等，有的是內容平臺，希望能方便的轉載文章，而不是手動(dòng)復制粘貼每篇文章，效率低下。有的專(zhuān)門(mén)從事數據研究分析、競品研究、輿情監測，檢查傳播趨勢、敏感輿情等。
　　由于微信是一個(gè)封閉的內容生態(tài)系統，從頭開(kāi)始構建公眾號數據采集系統，不僅會(huì )耗費大量的人力和財力。系統穩定性維護也是一個(gè)大問(wèn)題，每天都需要面對不同的問(wèn)題。反爬策略。
　　所以，最好的辦法就是把專(zhuān)業(yè)的事交給專(zhuān)業(yè)的人。它為您節省時(shí)間和成本。
　　
　　我們能提供什么？
　　我們可以根據客戶(hù)需求定制獲取用戶(hù)指定公眾號的數據，包括但不限于：
　　公眾號最新文章獲取，包括公眾號文章鏈接、標題、發(fā)布時(shí)間、封面圖、作者、摘要等字段的數據。公眾號文章閱讀量獲取，包括文章閱讀量、點(diǎn)數、評論數、瀏覽量等公眾號文章獲取選中的評論，包括評論內容、評論時(shí)長(cháng)、評論點(diǎn)贊數，評論者的昵稱(chēng)等
　　接口列表：
　　
　　返回格式：
　　以上接口均提供免費試用服務(wù)。我們擁有5年穩定的接口服務(wù)，服務(wù)過(guò)上百家企業(yè)用戶(hù)，能夠為用戶(hù)提供穩定、專(zhuān)業(yè)的數據解決方案。如果您對公眾號有其他需求，歡迎咨詢(xún)。
　　最新版:為什么我的網(wǎng)站或網(wǎng)頁(yè)在百度上搜索不到
　　為什么我的網(wǎng)站或網(wǎng)頁(yè)在百度上搜不到？如果你新建了一個(gè)站點(diǎn)，沒(méi)有在網(wǎng)站設置百度蜘蛛的封禁，百度會(huì )自動(dòng)搜索你網(wǎng)站到收錄。只是收錄的周期比較長(cháng)，一般是7-30天，因為百度需要時(shí)間來(lái)驗證網(wǎng)站的內容和質(zhì)量。所以，在新站做推廣的時(shí)候，建議做基礎的關(guān)鍵詞優(yōu)化和搜索引擎提交，記得不斷更新網(wǎng)站的內容，爭取外鏈，有利于提升網(wǎng)站在百度的人氣排名方便百度收錄。
　　新網(wǎng)站百度不收錄注意事項：
　　1、新站服務(wù)器/空間不穩定，有時(shí)網(wǎng)站打不開(kāi)，導致蜘蛛難以抓取網(wǎng)頁(yè)；
　　2、網(wǎng)站收錄非法詞，被搜索引擎攻擊，此類(lèi)站點(diǎn)不會(huì )被收錄；
　　3、新站被黑重定向或掛機，導致網(wǎng)站無(wú)法正常訪(fǎng)問(wèn)，搜索引擎不是收錄不安全站點(diǎn)；
　　4、域名雙重解析不操作301重定向，搜索引擎不知道哪個(gè)是主域名；
　　5、網(wǎng)站內容不完善就上線(xiàn)，頻繁修改內容，導致搜索引擎不喜歡網(wǎng)頁(yè)，不喜歡收錄；
　　6、網(wǎng)站標題過(guò)長(cháng)，堆砌列出，作弊和快速排序優(yōu)化導致頁(yè)面不在收錄；
　　7、新站收錄排名不穩定屬正?，F象；
　　8. 網(wǎng)站機器人被禁止，導致蜘蛛無(wú)法抓取網(wǎng)頁(yè)，所以沒(méi)有收錄等；
　　以上為網(wǎng)站百度收錄未分享的內容，新建一個(gè)百度收錄分享的網(wǎng)站內容，希望對您有所幫助。創(chuàng )建網(wǎng)站或擁有新網(wǎng)頁(yè)后，為了讓網(wǎng)站盡快被搜索到，您可以將網(wǎng)址提交給各大搜索引擎，加快收錄的搜索速度。另外，優(yōu)質(zhì)域名的收錄速度會(huì )遠高于二級域名，所以建議在創(chuàng )建后購買(mǎi)或綁定優(yōu)質(zhì)域名網(wǎng)站，對網(wǎng)站的收錄有幫助，同時(shí)創(chuàng )建網(wǎng)站后最好經(jīng)常更新內容，也能增加關(guān)注度搜索引擎，
　　
　　本文介紹幾大搜索引擎提交收錄的方法
　?。剀疤崾荆禾峤痪W(wǎng)址收錄后，并不代表網(wǎng)站馬上就能被搜索引擎搜索到，需要等待搜索引擎一段時(shí)間的處理時(shí)間）：
　　為什么網(wǎng)站內容沒(méi)有被收錄百度？百度沒(méi)有收錄網(wǎng)站，可能是因為新的網(wǎng)站。
　　目前百度蜘蛛有兩種爬取方式，一種是主動(dòng)爬取，另一種是在百度站長(cháng)平臺的鏈接提交工具中獲取數據。如果網(wǎng)站內容長(cháng)期沒(méi)有收錄，建議使用主動(dòng)推送功能推送首頁(yè)數據，有利于抓取內頁(yè)數據.
　　當然，這些都是針對新站未開(kāi)發(fā)的收錄的解決方案。如果不是新站，not收錄是什么原因？分析百度沒(méi)有收錄網(wǎng)站內容的原因。
　　首先，網(wǎng)站內容質(zhì)量。
　　如果網(wǎng)站的大量?jì)热菔墙栌脛e人的，百度不會(huì )收錄，百度也會(huì )加強對收錄網(wǎng)站的審核。
　　搜索引擎傾向于青睞高質(zhì)量的原創(chuàng )內容，原創(chuàng )文章更能滿(mǎn)足用戶(hù)需求，同時(shí)可以提升用戶(hù)體驗。
　　原創(chuàng )內容獨特，如果在網(wǎng)上找不到想要的文章，網(wǎng)站很容易脫穎而出，獲得百度權重。
　　第二，蜘蛛爬取失敗。
　　百度站長(cháng)平臺研究百度蜘蛛的日常爬行。網(wǎng)站更新內容時(shí)，可以將此內容提交給百度，或者通過(guò)百度站長(cháng)平臺的抓取診斷進(jìn)行測試，看抓取是否正常。
　　三是積極推進(jìn)抓取限額。
　　
　　如果網(wǎng)站的頁(yè)面數量突然增加，會(huì )影響蜘蛛對收錄的抓取，所以網(wǎng)站在保證訪(fǎng)問(wèn)穩定的同時(shí)一定要注意網(wǎng)站的安全。
　　四、Robots.txt文件。
　　Robots 文件告訴搜索引擎要抓取哪些頁(yè)面，不要抓取哪些頁(yè)面。有些站長(cháng)會(huì )屏蔽一些不重要的文件，禁止蜘蛛抓取，可能會(huì )屏蔽重要的頁(yè)面，可以查看Robots。
　　第五，標題經(jīng)常變化。
　　如果網(wǎng)站的標題經(jīng)常變化，搜索引擎就不知道網(wǎng)站的內容到底想表達什么，網(wǎng)站的內容會(huì )與標題不匹配，從而影響網(wǎng)頁(yè)的收錄時(shí)間而錯過(guò) 收錄最佳時(shí)間。
　　如果你的網(wǎng)站已經(jīng)上線(xiàn)30天以上，百度還沒(méi)有為網(wǎng)站實(shí)現收錄，你可以檢查是否存在以下問(wèn)題：是否關(guān)閉了網(wǎng)站允許搜索引擎的選項收錄？如果關(guān)閉此選項，搜索引擎蜘蛛將不會(huì )訪(fǎng)問(wèn)該頁(yè)面；
　　您搜索的關(guān)鍵詞是否與網(wǎng)站推廣的關(guān)鍵詞一致，或者網(wǎng)站排名比較靠后；
　　您的網(wǎng)站內容是否定期更新？搜索引擎不喜歡收錄少的頁(yè)面和舊的內容網(wǎng)站；
　　網(wǎng)站是否被百度拉黑。新建的網(wǎng)站只能被搜索引擎（如百度、谷歌等）搜索到收錄。收錄的過(guò)程由搜索引擎自動(dòng)完成，一般時(shí)間為1到3個(gè)月。也可以提交收錄來(lái)加快收錄的速度。查看全部

　　免費獲取:公眾號最新文章獲取API
　　公眾號平臺每天都有數百萬(wàn)的公眾號為這個(gè)生態(tài)做貢獻，其價(jià)值不言而喻。
　　我們合作的企業(yè)客戶(hù)中有科技、財經(jīng)媒體平臺、科研機構、政府機構等，有的是內容平臺，希望能方便的轉載文章，而不是手動(dòng)復制粘貼每篇文章，效率低下。有的專(zhuān)門(mén)從事數據研究分析、競品研究、輿情監測，檢查傳播趨勢、敏感輿情等。
　　由于微信是一個(gè)封閉的內容生態(tài)系統，從頭開(kāi)始構建公眾號數據采集系統，不僅會(huì )耗費大量的人力和財力。系統穩定性維護也是一個(gè)大問(wèn)題，每天都需要面對不同的問(wèn)題。反爬策略。
　　所以，最好的辦法就是把專(zhuān)業(yè)的事交給專(zhuān)業(yè)的人。它為您節省時(shí)間和成本。
　　

　　我們能提供什么？
　　我們可以根據客戶(hù)需求定制獲取用戶(hù)指定公眾號的數據，包括但不限于：
　　公眾號最新文章獲取，包括公眾號文章鏈接、標題、發(fā)布時(shí)間、封面圖、作者、摘要等字段的數據。公眾號文章閱讀量獲取，包括文章閱讀量、點(diǎn)數、評論數、瀏覽量等公眾號文章獲取選中的評論，包括評論內容、評論時(shí)長(cháng)、評論點(diǎn)贊數，評論者的昵稱(chēng)等
　　接口列表：
　　

　　返回格式：
　　以上接口均提供免費試用服務(wù)。我們擁有5年穩定的接口服務(wù)，服務(wù)過(guò)上百家企業(yè)用戶(hù)，能夠為用戶(hù)提供穩定、專(zhuān)業(yè)的數據解決方案。如果您對公眾號有其他需求，歡迎咨詢(xún)。
　　最新版:為什么我的網(wǎng)站或網(wǎng)頁(yè)在百度上搜索不到
　　為什么我的網(wǎng)站或網(wǎng)頁(yè)在百度上搜不到？如果你新建了一個(gè)站點(diǎn)，沒(méi)有在網(wǎng)站設置百度蜘蛛的封禁，百度會(huì )自動(dòng)搜索你網(wǎng)站到收錄。只是收錄的周期比較長(cháng)，一般是7-30天，因為百度需要時(shí)間來(lái)驗證網(wǎng)站的內容和質(zhì)量。所以，在新站做推廣的時(shí)候，建議做基礎的關(guān)鍵詞優(yōu)化和搜索引擎提交，記得不斷更新網(wǎng)站的內容，爭取外鏈，有利于提升網(wǎng)站在百度的人氣排名方便百度收錄。
　　新網(wǎng)站百度不收錄注意事項：
　　1、新站服務(wù)器/空間不穩定，有時(shí)網(wǎng)站打不開(kāi)，導致蜘蛛難以抓取網(wǎng)頁(yè)；
　　2、網(wǎng)站收錄非法詞，被搜索引擎攻擊，此類(lèi)站點(diǎn)不會(huì )被收錄；
　　3、新站被黑重定向或掛機，導致網(wǎng)站無(wú)法正常訪(fǎng)問(wèn)，搜索引擎不是收錄不安全站點(diǎn)；
　　4、域名雙重解析不操作301重定向，搜索引擎不知道哪個(gè)是主域名；
　　5、網(wǎng)站內容不完善就上線(xiàn)，頻繁修改內容，導致搜索引擎不喜歡網(wǎng)頁(yè)，不喜歡收錄；
　　6、網(wǎng)站標題過(guò)長(cháng)，堆砌列出，作弊和快速排序優(yōu)化導致頁(yè)面不在收錄；
　　7、新站收錄排名不穩定屬正?，F象；
　　8. 網(wǎng)站機器人被禁止，導致蜘蛛無(wú)法抓取網(wǎng)頁(yè)，所以沒(méi)有收錄等；
　　以上為網(wǎng)站百度收錄未分享的內容，新建一個(gè)百度收錄分享的網(wǎng)站內容，希望對您有所幫助。創(chuàng )建網(wǎng)站或擁有新網(wǎng)頁(yè)后，為了讓網(wǎng)站盡快被搜索到，您可以將網(wǎng)址提交給各大搜索引擎，加快收錄的搜索速度。另外，優(yōu)質(zhì)域名的收錄速度會(huì )遠高于二級域名，所以建議在創(chuàng )建后購買(mǎi)或綁定優(yōu)質(zhì)域名網(wǎng)站，對網(wǎng)站的收錄有幫助，同時(shí)創(chuàng )建網(wǎng)站后最好經(jīng)常更新內容，也能增加關(guān)注度搜索引擎，
　　

　　本文介紹幾大搜索引擎提交收錄的方法
　?。剀疤崾荆禾峤痪W(wǎng)址收錄后，并不代表網(wǎng)站馬上就能被搜索引擎搜索到，需要等待搜索引擎一段時(shí)間的處理時(shí)間）：
　　為什么網(wǎng)站內容沒(méi)有被收錄百度？百度沒(méi)有收錄網(wǎng)站，可能是因為新的網(wǎng)站。
　　目前百度蜘蛛有兩種爬取方式，一種是主動(dòng)爬取，另一種是在百度站長(cháng)平臺的鏈接提交工具中獲取數據。如果網(wǎng)站內容長(cháng)期沒(méi)有收錄，建議使用主動(dòng)推送功能推送首頁(yè)數據，有利于抓取內頁(yè)數據.
　　當然，這些都是針對新站未開(kāi)發(fā)的收錄的解決方案。如果不是新站，not收錄是什么原因？分析百度沒(méi)有收錄網(wǎng)站內容的原因。
　　首先，網(wǎng)站內容質(zhì)量。
　　如果網(wǎng)站的大量?jì)热菔墙栌脛e人的，百度不會(huì )收錄，百度也會(huì )加強對收錄網(wǎng)站的審核。
　　搜索引擎傾向于青睞高質(zhì)量的原創(chuàng )內容，原創(chuàng )文章更能滿(mǎn)足用戶(hù)需求，同時(shí)可以提升用戶(hù)體驗。
　　原創(chuàng )內容獨特，如果在網(wǎng)上找不到想要的文章，網(wǎng)站很容易脫穎而出，獲得百度權重。
　　第二，蜘蛛爬取失敗。
　　百度站長(cháng)平臺研究百度蜘蛛的日常爬行。網(wǎng)站更新內容時(shí)，可以將此內容提交給百度，或者通過(guò)百度站長(cháng)平臺的抓取診斷進(jìn)行測試，看抓取是否正常。
　　三是積極推進(jìn)抓取限額。
　　

　　如果網(wǎng)站的頁(yè)面數量突然增加，會(huì )影響蜘蛛對收錄的抓取，所以網(wǎng)站在保證訪(fǎng)問(wèn)穩定的同時(shí)一定要注意網(wǎng)站的安全。
　　四、Robots.txt文件。
　　Robots 文件告訴搜索引擎要抓取哪些頁(yè)面，不要抓取哪些頁(yè)面。有些站長(cháng)會(huì )屏蔽一些不重要的文件，禁止蜘蛛抓取，可能會(huì )屏蔽重要的頁(yè)面，可以查看Robots。
　　第五，標題經(jīng)常變化。
　　如果網(wǎng)站的標題經(jīng)常變化，搜索引擎就不知道網(wǎng)站的內容到底想表達什么，網(wǎng)站的內容會(huì )與標題不匹配，從而影響網(wǎng)頁(yè)的收錄時(shí)間而錯過(guò) 收錄最佳時(shí)間。
　　如果你的網(wǎng)站已經(jīng)上線(xiàn)30天以上，百度還沒(méi)有為網(wǎng)站實(shí)現收錄，你可以檢查是否存在以下問(wèn)題：是否關(guān)閉了網(wǎng)站允許搜索引擎的選項收錄？如果關(guān)閉此選項，搜索引擎蜘蛛將不會(huì )訪(fǎng)問(wèn)該頁(yè)面；
　　您搜索的關(guān)鍵詞是否與網(wǎng)站推廣的關(guān)鍵詞一致，或者網(wǎng)站排名比較靠后；
　　您的網(wǎng)站內容是否定期更新？搜索引擎不喜歡收錄少的頁(yè)面和舊的內容網(wǎng)站；
　　網(wǎng)站是否被百度拉黑。新建的網(wǎng)站只能被搜索引擎（如百度、谷歌等）搜索到收錄。收錄的過(guò)程由搜索引擎自動(dòng)完成，一般時(shí)間為1到3個(gè)月。也可以提交收錄來(lái)加快收錄的速度。

分享文章:呆錯文章管理系統一鍵API采集與綁定分類(lèi)的圖文教程－呆錯后臺管理框架

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2022-12-08 04:52 ? 來(lái)自相關(guān)話(huà)題

　　分享文章:呆錯文章管理系統一鍵API采集與綁定分類(lèi)的圖文教程－呆錯后臺管理框架
　　采集功能介紹（文章管理系統的核心采集功能包括以下三個(gè)模塊）
　　API采集設置
　　
　　了解文章管理系統的采集功能后，我們使用API??客戶(hù)端連接采集API服務(wù)器。我們只需要在后臺填寫(xiě)網(wǎng)址和密碼即可。點(diǎn)擊它（背景 > 文章 > 采集管理）添加采集。
　　API采集轉換分類(lèi)
　　
　　當資源站的分類(lèi)不是我們想要的分類(lèi)名稱(chēng)或者分類(lèi)已經(jīng)在我們自己的文章系統中構建時(shí)，這時(shí)候就需要使用“綁定分類(lèi)”的功能，設置會(huì )彈出點(diǎn)擊按鈕框后up，只需要將需要轉換或重命名的列類(lèi)別一一重命名即可，如下圖。
　　免費云采集教程:步驟3：修改Xpath
　　前幾天寫(xiě)的關(guān)于“大數據”的文章得到了很多朋友的認可?！八鼜哪睦飦?lái)的？
　　我們可以簡(jiǎn)單列舉：
　　1、企業(yè)產(chǎn)生的用戶(hù)數據
　　比如BAT這樣的公司，擁有龐大的用戶(hù)群，用戶(hù)的任何行為都會(huì )成為他們數據源的一部分
　　2、數據平臺購買(mǎi)數據
　　比如從全國數據中心數據市場(chǎng)購買(mǎi)等。
　　3. 政府機構公開(kāi)數據
　　比如統計局和銀行的公開(kāi)數據。
　　4.數據管理公司
　　比如艾瑞咨詢(xún)等。
　　5.爬蟲(chóng)獲取網(wǎng)絡(luò )數據
　　利用網(wǎng)絡(luò )爬蟲(chóng)技術(shù)爬取網(wǎng)絡(luò )數據以供使用。
　　所以其實(shí)對于中小企業(yè)或者個(gè)人來(lái)說(shuō)，想要獲取“大數據或者海量數據”，最劃算的方法就是利用“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)”來(lái)獲取有效數據，所以“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)”這幾年也很流行！
　　今天我就來(lái)給大家講解一下“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)的原理與實(shí)現”！
　　1、什么是網(wǎng)絡(luò )爬蟲(chóng)？
　　網(wǎng)絡(luò )爬蟲(chóng)（也稱(chēng)為網(wǎng)絡(luò )蜘蛛、網(wǎng)絡(luò )機器人，在 FOAF 社區中更常被稱(chēng)為網(wǎng)絡(luò )追趕者）是一種按照一定規則自動(dòng)抓取萬(wàn)維網(wǎng)上信息的程序或腳本。簡(jiǎn)單地說(shuō)，它是一個(gè)請求網(wǎng)站并提取數據的自動(dòng)化程序。
　　最著(zhù)名的網(wǎng)絡(luò )爬蟲(chóng)應用程序是谷歌和百度的應用程序。
　　這兩大搜索引擎每天都會(huì )從互聯(lián)網(wǎng)上抓取大量的數據，然后對數據進(jìn)行分析處理，最后通過(guò)搜索展現給我們?？梢哉f(shuō)網(wǎng)絡(luò )爬蟲(chóng)是搜索引擎的基礎！
　　2. 網(wǎng)絡(luò )爬蟲(chóng)的工作流程和原理
　　網(wǎng)絡(luò )爬蟲(chóng)是搜索引擎爬蟲(chóng)系統的重要組成部分。爬蟲(chóng)的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地，形成鏡像備份或網(wǎng)絡(luò )內容。
　　(1) 網(wǎng)絡(luò )爬蟲(chóng)的基本結構和工作流程
　　一般網(wǎng)絡(luò )爬蟲(chóng)的框架如圖所示：
　　網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下：
　　1.首先選擇一部分精挑細選的種子網(wǎng)址；
　　2、將這些網(wǎng)址放入待抓取的網(wǎng)址隊列中；
　　3、從待抓網(wǎng)址隊列中取出待抓網(wǎng)址，解析DNS，獲取主機ip，下載該網(wǎng)址對應的網(wǎng)頁(yè)，存入下載的網(wǎng)頁(yè)庫中。另外，將這些網(wǎng)址放入已抓取的網(wǎng)址隊列中。
　　4、分析已經(jīng)抓取的URL隊列中的URL，分析其中的其他URL，將URL放入待抓取的URL隊列中，進(jìn)入下一個(gè)循環(huán)。
　　(2) 從爬蟲(chóng)的角度劃分互聯(lián)網(wǎng)
　　相應地，互聯(lián)網(wǎng)上的所有頁(yè)面都可以分為五個(gè)部分：
　　1.下載過(guò)期的網(wǎng)頁(yè)
　　2、下載過(guò)期的網(wǎng)頁(yè)：抓取的網(wǎng)頁(yè)實(shí)際上是互聯(lián)網(wǎng)內容的鏡像和備份?；ヂ?lián)網(wǎng)是動(dòng)態(tài)變化的，互聯(lián)網(wǎng)上的部分內容發(fā)生了變化。這時(shí)，這部分抓取的網(wǎng)頁(yè)已經(jīng)過(guò)期了。
　　3.待下載網(wǎng)頁(yè)：待抓取的URL隊列中的那些頁(yè)面
　　4、可知網(wǎng)頁(yè)：尚未被抓取的URL，不在待抓取的URL隊列中，但可以通過(guò)分析已抓取的頁(yè)面或待抓取的URL對應的頁(yè)面得到，是被認為是已知網(wǎng)頁(yè)。
　　5、還有一些網(wǎng)頁(yè)是爬蟲(chóng)無(wú)法直接爬取下載的。稱(chēng)為不可知頁(yè)面。
　　(3) 爬取策略
　　在爬蟲(chóng)系統中，待爬取的URL隊列是一個(gè)非常重要的部分。URL隊列中待抓取的URL的排列順序也是一個(gè)很重要的問(wèn)題，因為這涉及到先抓取哪個(gè)頁(yè)面，后抓取哪個(gè)頁(yè)面。確定這些 URL 順序的方法稱(chēng)為抓取策略。下面重點(diǎn)介紹幾種常見(jiàn)的爬取策略：
　　1.深度優(yōu)先遍歷策略
　　深度優(yōu)先遍歷策略意味著(zhù)網(wǎng)絡(luò )爬蟲(chóng)將從起始頁(yè)開(kāi)始，逐個(gè)鏈接。處理完這一行后，它將轉到下一個(gè)起始頁(yè)并繼續跟蹤鏈接。我們以下圖為例：
　　遍歷路徑：AFG EHI BCD
　　2.廣度優(yōu)先遍歷策略
　　廣度優(yōu)先遍歷策略的基本思想是將新下載的網(wǎng)頁(yè)中找到的鏈接直接插入待抓取的URL隊列的尾部。也就是說(shuō)，網(wǎng)絡(luò )爬蟲(chóng)會(huì )先爬取初始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)，然后選擇其中一個(gè)鏈接的網(wǎng)頁(yè)，繼續爬取該網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。還是以上圖為例：
　　遍歷路徑：ABCDEF GHI
　　3.反向鏈接計數策略
　　反向鏈接的數量是指一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)的鏈接指向的次數。反向鏈接數表示網(wǎng)頁(yè)內容被其他人推薦的程度。因此，在很多情況下，搜索引擎的抓取系統會(huì )使用這個(gè)指標來(lái)評估網(wǎng)頁(yè)的重要性，從而決定抓取不同網(wǎng)頁(yè)的順序。
　　在真實(shí)的網(wǎng)絡(luò )環(huán)境中，由于廣告鏈接和作弊鏈接的存在，反向鏈接的數量不可能完全等于其他鏈接的重要性。因此，搜索引擎傾向于考慮一些可靠數量的反向鏈接。
　　4.部分PageRank策略
　　Partial PageRank算法借鑒了PageRank算法的思想：對于下載的網(wǎng)頁(yè)，連同要抓取的URL隊列中的URL，組成一個(gè)網(wǎng)頁(yè)集合，計算每個(gè)頁(yè)面的PageRank值。計算完成后，將要抓取的URL隊列中的URL進(jìn)行計算，URL按照PageRank值的高低排序，依次抓取頁(yè)面。
　　如果每次抓取一個(gè)頁(yè)面都重新計算PageRank值，折衷的做法是：每抓取K頁(yè)后，重新計算PageRank值。但是這種情況還有一個(gè)問(wèn)題：對于下載頁(yè)面中分析出來(lái)的鏈接，也就是我們前面提到的那部分未知網(wǎng)頁(yè)，暫時(shí)沒(méi)有PageRank值。為了解決這個(gè)問(wèn)題，會(huì )給這些頁(yè)面一個(gè)臨時(shí)的PageRank值：從這個(gè)網(wǎng)頁(yè)的所有傳入鏈接傳入的PageRank值會(huì )被聚合，從而形成未知頁(yè)面的PageRank值，從而參與排行。以下示例說(shuō)明：
　　5. OPIC戰略策略
　　該算法實(shí)際上是頁(yè)面的重要性分數。在算法開(kāi)始之前，給所有頁(yè)面相同的初始現金（cash）。某個(gè)頁(yè)面P被下載后，將P的現金分配給從P分析出來(lái)的所有鏈接，P的現金清空。待抓取的 URL 隊列中的所有頁(yè)面都按照現金數量排序。
　　6、大站點(diǎn)優(yōu)先策略
　　對于所有待抓取的URL隊列中的網(wǎng)頁(yè)，根據它們的網(wǎng)站進(jìn)行分類(lèi)。對于網(wǎng)站有大量需要下載的頁(yè)面，會(huì )優(yōu)先下載。因此該策略也稱(chēng)為大站優(yōu)先策略。
　　(4)更新策略
　　互聯(lián)網(wǎng)是實(shí)時(shí)變化的，而且是高度動(dòng)態(tài)的。網(wǎng)頁(yè)更新策略主要是決定什么時(shí)候更新之前下載過(guò)的頁(yè)面。常見(jiàn)的更新策略有以下三種：
　　1.歷史參考策略
　　顧名思義，就是根據過(guò)去頁(yè)面的歷史更新數據，預測未來(lái)頁(yè)面什么時(shí)候會(huì )發(fā)生變化。通常，預測是通過(guò)對泊松過(guò)程建模來(lái)進(jìn)行的。
　　2. 用戶(hù)體驗策略雖然搜索引擎可以針對某個(gè)查詢(xún)條件返回數量龐大的結果，但用戶(hù)往往只關(guān)注結果的前幾頁(yè)。因此，爬蟲(chóng)系統可以?xún)?yōu)先更新那些出現在查詢(xún)結果前幾頁(yè)的頁(yè)面，然后再更新后面的那些頁(yè)面。此更新策略還需要使用歷史信息。用戶(hù)體驗策略保留了網(wǎng)頁(yè)的多個(gè)歷史版本，根據過(guò)去每次內容變化對搜索質(zhì)量的影響，得到一個(gè)平均值，以此值作為決定何時(shí)重新抓取的依據。3.整群抽樣策略
　　上述兩種更新策略都有一個(gè)前提：都需要網(wǎng)頁(yè)的歷史信息。這種方式存在兩個(gè)問(wèn)題：第一，如果系統為每個(gè)系統保存多個(gè)版本的歷史信息，無(wú)疑會(huì )增加很多系統負擔；第二，如果新網(wǎng)頁(yè)根本沒(méi)有歷史信息，則無(wú)法確定更新策略。
　　該策略認為網(wǎng)頁(yè)有很多屬性，具有相似屬性的網(wǎng)頁(yè)可以認為具有相似的更新頻率。計算某類(lèi)網(wǎng)頁(yè)的更新頻率，只需要對該類(lèi)網(wǎng)頁(yè)進(jìn)行采樣，將其更新周期作為整個(gè)類(lèi)的更新周期即可?；舅悸啡缦拢?br /> 　　(5) 分布式爬蟲(chóng)系統結構一般來(lái)說(shuō)，爬蟲(chóng)系統需要面對整個(gè)互聯(lián)網(wǎng)上億級的網(wǎng)頁(yè)。單個(gè)爬蟲(chóng)無(wú)法完成這樣的任務(wù)。通常需要多個(gè)抓取器一起處理。一般來(lái)說(shuō)，爬蟲(chóng)系統往往是分布式的三層結構。如圖所示：
　　底層是分布在不同地理位置的數據中心。每個(gè)數據中心都有若干個(gè)爬蟲(chóng)服務(wù)器，每個(gè)爬蟲(chóng)服務(wù)器上可能會(huì )部署幾套爬蟲(chóng)程序。這樣就構成了一個(gè)基本的分布式爬蟲(chóng)系統。
　　對于一個(gè)數據中心的不同服務(wù)器，有幾種協(xié)同工作的方式：
　　1.主從
　　主從基本結構如圖所示：
　　對于主從模式，有一個(gè)專(zhuān)門(mén)的Master服務(wù)器來(lái)維護要抓取的URL隊列，負責將每次抓取的URL分發(fā)給不同的Slave服務(wù)器，Slave服務(wù)器負責實(shí)際的網(wǎng)頁(yè)下載工作. Master服務(wù)器除了維護要抓取的URL隊列和分發(fā)URL外，還負責調解各個(gè)Slave服務(wù)器的負載。為了防止一些Slave服務(wù)器太閑或者太累。
　　在這種模式下，Master容易成為系統的瓶頸。
　　2.點(diǎn)對點(diǎn)
　　點(diǎn)對點(diǎn)方程的基本結構如圖所示：
　　在這種模式下，所有的爬蟲(chóng)服務(wù)器都沒(méi)有分工差異。每個(gè)爬取服務(wù)器可以從需要爬取的URL隊列中獲取URL，然后計算該URL主域名的哈希值H，然后計算H mod m（其中m為服務(wù)器數量，上圖為例如，m 為 3)，計算出的數量就是處理該 URL 的主機的數量。
　　示例：假設對于URL，計算器哈希值H=8，m=3，則H mod m=2，所以編號為2的服務(wù)器爬取該鏈接。假設此時(shí)server 0拿到了url，就會(huì )把url傳給server 2，由server 2抓取。
　　這種模型的一個(gè)問(wèn)題是，當一臺服務(wù)器掛掉或添加一臺新服務(wù)器時(shí)，所有 URL 的哈希余數的結果都會(huì )發(fā)生變化。也就是說(shuō)，這種方法的可擴展性不好。針對這種情況，提出了另一種改進(jìn)方案。這種改進(jìn)方案是通過(guò)一致性哈希來(lái)確定服務(wù)器分工。
　　其基本結構如圖所示：
　　Consistent Hashing對URL的主域名進(jìn)行哈希運算，映射為0-232之間的數字。這個(gè)范圍平均分配給m臺服務(wù)器，根據url主域名哈希運算的取值范圍來(lái)判斷爬取哪個(gè)服務(wù)器。
　　如果某臺服務(wù)器出現問(wèn)題，本該由該服務(wù)器負責的網(wǎng)頁(yè)就會(huì )被順時(shí)針順時(shí)針抓取到下一臺服務(wù)器。這樣即使某臺服務(wù)器出現問(wèn)題，也不會(huì )影響其他工作。
　　3. 常見(jiàn)網(wǎng)絡(luò )爬蟲(chóng)的種類(lèi)
　　1. 通用網(wǎng)絡(luò )爬蟲(chóng)
　　爬取目標資源在整個(gè)互聯(lián)網(wǎng)中，爬取的目標數據是巨大的。爬取性能要求非常高。應用于大型搜索引擎，具有很高的應用價(jià)值。
　　一般網(wǎng)絡(luò )爬蟲(chóng)的基本組成：初始URL采集、URL隊列、頁(yè)面爬取模塊、頁(yè)面分析模塊、頁(yè)面數據庫、鏈接過(guò)濾模塊等。
　　一般網(wǎng)絡(luò )爬蟲(chóng)的爬取策略：主要有深度優(yōu)先爬取策略和廣度優(yōu)先爬取策略。
　　2. 專(zhuān)注爬蟲(chóng)
　　在與主題相關(guān)的頁(yè)面中定位抓取目標
　　主要用于特定信息的爬取，主要為特定人群提供服務(wù)
　　重點(diǎn)介紹網(wǎng)絡(luò )爬蟲(chóng)的基本組成：初始URL、URL隊列、頁(yè)面爬取模塊、頁(yè)面分析模塊、頁(yè)面數據庫、連接過(guò)濾模塊、內容評估模塊、鏈接評估模塊等。
　　專(zhuān)注于網(wǎng)絡(luò )爬蟲(chóng)的爬取策略：
　　1）基于內容評價(jià)的爬蟲(chóng)策略
　　2）基于鏈接評價(jià)的爬蟲(chóng)策略
　　3）基于強化學(xué)習的爬蟲(chóng)策略
　　4）基于上下文圖的爬蟲(chóng)策略
　　3.增量網(wǎng)絡(luò )爬蟲(chóng)
　　增量更新是指更新時(shí)只更新變化的部分，不更新未變化的部分。只抓取內容發(fā)生變化的網(wǎng)頁(yè)或新生成的網(wǎng)頁(yè)，可以在一定程度上保證抓取到的網(wǎng)頁(yè)。, 如果可能的話(huà)，一個(gè)新的頁(yè)面
　　4.深網(wǎng)爬蟲(chóng)
　　Surface網(wǎng)頁(yè)：無(wú)需提交表單，使用靜態(tài)鏈接即可到達的靜態(tài)網(wǎng)頁(yè)
　　Deep Web：隱藏在表單后面，無(wú)法通過(guò)靜態(tài)鏈接直接獲取。是提交某個(gè)關(guān)鍵詞后才能獲得的網(wǎng)頁(yè)。
　　深網(wǎng)爬蟲(chóng)最重要的部分是填表部分
　　深網(wǎng)爬蟲(chóng)的基本組成：URL列表、LVS列表（LVS是指標簽/值集合，即填寫(xiě)表單的數據源）爬取控制器、解析器、LVS控制器、表單分析器、表單處理器、響應分析裝置等
　　深網(wǎng)爬蟲(chóng)填表分為兩種：
　　基于領(lǐng)域知識的表單填寫(xiě)（構建一個(gè)關(guān)鍵詞庫來(lái)填寫(xiě)表單，需要的時(shí)候根據語(yǔ)義分析選擇對應的關(guān)鍵詞進(jìn)行填寫(xiě)）
　　基于網(wǎng)頁(yè)結構分析的表單填寫(xiě)（一般在字段有限的情況下使用，該方法會(huì )根據網(wǎng)頁(yè)結構進(jìn)行分析，自動(dòng)填寫(xiě)表單）
　　四、教你實(shí)現一個(gè)簡(jiǎn)單的網(wǎng)絡(luò )爬蟲(chóng)
　　(1)、爬蟲(chóng)流程
　　在構建程序之前，我們首先需要了解一下爬蟲(chóng)的具體過(guò)程。
　　一個(gè)簡(jiǎn)單的爬蟲(chóng)程序有以下過(guò)程：
　　用文字表達，就是：
　　1、從任務(wù)庫（可以是MySQL等關(guān)系型數據庫）中選擇種子URL；
　　2.在程序中初始化一個(gè)URL隊列，將種子URL加入到隊列中；
　　3、如果URL隊列不為空，則將隊列頭部的URL出隊；如果 URL 隊列為空，程序將退出；
　　4、程序根據出隊的URL反映對應的解析類(lèi)，同時(shí)創(chuàng )建一個(gè)新的線(xiàn)程開(kāi)始解析任務(wù)；
　　5、程序會(huì )下載該URL指向的網(wǎng)頁(yè)，判斷該頁(yè)面是詳情頁(yè)還是列表頁(yè)（如博客中的博客詳情、博文列表）。如果是詳情頁(yè)，它會(huì )解析出頁(yè)面內容存入數據庫。如果是列表頁(yè)，則提取頁(yè)面鏈接加入URL隊列；
　　6.解析任務(wù)完成后，重復步驟3。
　?。ǘ┏绦蚪Y構
　　我們已經(jīng)知道了爬蟲(chóng)的具體流程，現在我們需要一個(gè)合理的程序結構來(lái)實(shí)現它。
　　首先介紹一下這個(gè)簡(jiǎn)單的爬蟲(chóng)程序的主要結構組件：
　　然后，看看程序中的工具類(lèi)和實(shí)體類(lèi)。
　　最后，根據類(lèi)的作用，我們將其放置在上面流程圖中的相應位置。具體示意圖如下：
　　我們現在已經(jīng)完成了實(shí)際流程到程序邏輯的翻譯。接下來(lái)，我們將通過(guò)源碼的介紹，深入到程序的細節。
　　(3)、任務(wù)調度、初始化隊列
　　在簡(jiǎn)單的爬蟲(chóng)程序中，任務(wù)調度和初始化隊列都是在SpiderApplication類(lèi)中完成的。
　　(4)、插件工廠(chǎng)
　　在URL循環(huán)調度中，有一個(gè)語(yǔ)句需要我們注意：
　　AbstractPlugin plugin = PluginFactory.getInstance().getPlugin(task);
　　其中，AbstractPlugin是繼承自Thread的抽象插件類(lèi)。
　　這個(gè)語(yǔ)句的意思是插件工廠(chǎng)根據url實(shí)例化繼承自AbstractPlugin的指定插件。
　　插件工廠(chǎng)也可以理解為解析類(lèi)工廠(chǎng)。
　　在這個(gè)程序中，插件工廠(chǎng)的實(shí)現主要依賴(lài)三個(gè)方面：
　　1.插件
　　包插件；
　　導入 java.lang.annotation.*;
　　/**
　　* 插件說(shuō)明
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　@Target({ElementType.TYPE})
　　@Retention(RetentionPolicy.RUNTIME)
　　@Documented
　　公共@interface插件{
　　String value() 默認"";
　　}
　　Plugin其實(shí)是一個(gè)注解接口，在Plugin的支持下，我們可以通過(guò)注解@Plugin讓程序識別插件類(lèi)。這就好比在SpringMVC中，我們通過(guò)@[emailprotected]等來(lái)標識每一個(gè)Bean。
　　2.Xmu插件
　　@Plugin(值="")
　　公共類(lèi) XmuPlugin 擴展 AbstractPlugin {
　　}
　　XmuPlugin是眾多插件（解析類(lèi)）中的一種，作用由注解@Plugin標注，其具體標識（即對應于哪個(gè)url）由注解中的值標注。
　　3.插件工廠(chǎng)
　　包裝廠(chǎng)；
　　進(jìn)口實(shí)體。任務(wù);
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入插件.AbstractPlugin；
　　導入插件。插件；
　　導入 util.CommonUtil；
　　導入java.io.文件；
　　
　　導入 java.lang.annotation.Annotation；
　　導入 java.lang.reflect.Constructor；
　　導入 java.util.ArrayList；
　　導入 java.util.HashMap；
　　導入java.util.List；
　　導入 java.util.Map；
　　/**
　　* 插件工廠(chǎng)
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　公共類(lèi) PluginFactory {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(PluginFactory.class);
　　private static final PluginFactory factory = new PluginFactory();
　　私有列表> classList = new ArrayList>();
　　private Map pluginMapping = new HashMap();
　　私人插件工廠(chǎng)（）{
　　掃描包（“插件”）；
　　如果 (classList.size() > 0) {
　　初始化插件映射（）；
　　}
　　}
　　公共靜態(tài) PluginFactory getInstance() {
　　返廠(chǎng)；
　　}
　　/**
　　* 掃描包、分包
　　*
　　* @param 包名
　　*/
　　私人無(wú)效掃描包（字符串包名）{
　　嘗試 {
　　字符串路徑 = getSrcPath() + 文件。分隔符 + changePackageNameToPath(packageName);
　　文件目錄=新文件（路徑）；
　　文件 [] 文件 = 目錄。列表文件（）；
　　如果（文件==空）{
　　logger.warn("包名不存在！");
　　返回;
　　}
　　對于（文件文件：文件）{
　　如果（文件。isDirectory（））{
　　scanPackage(packageName + "."+ file.getName());
　　} 別的 {
　　Class clazz = Class.forName(packageName + "."+ file.getName().split("\\.")[0]);
　　classList.add(clazz);
　　}
　　}
　　} 趕上（異常 e）{
　　logger.error("掃描包異常：", e);
　　}
　　}
　　/**
　　* 獲取根路徑
　　*
　　* @返回
　　*/
　　私有字符串 getSrcPath() {
　　返回系統。getProperty("用戶(hù)目錄") +
　　文件分隔符+"src"+
　　文件分隔符+"main"+
　　文件分隔符 + "java";
　　}
　　/**
　　* 將包名轉換為路徑格式
　　*
　　* @param 包名
　　* @返回
　　*/
　　私有字符串 changePackageNameToPath(String packageName) {
　　返回 packageName.replaceAll("\\.", File.separator);
　　}
　　/**
　　* 初始化插件容器
　　*/
　　私有無(wú)效 initPluginMapping() {
　　對于（類(lèi)克拉茲：類(lèi)列表）{
　　注釋 annotation = clazz. getAnnotation（插件。類(lèi)）；
　　如果（注釋?zhuān)? null）{
　　pluginMapping.put(((插件)注解).value(), clazz.getName());
　　}
　　}
　　}
　　/**
　　* 通過(guò)反射實(shí)例化插件對象
　　* @param 任務(wù)
　　* @返回
　　*/
　　public AbstractPlugin getPlugin（任務(wù)任務(wù)）{
　　if (task == null || task.getUrl() == null) {
　　logger.warn("非法任務(wù)！");
　　返回空值；
　　}
　　如果 (pluginMapping.size() == 0) {
　　logger.warn("當前包中沒(méi)有插件！");
　　返回空值；
　　}
　　對象對象=空；
　　字符串插件名稱(chēng) = CommonUtil。getHost(task.getUrl());
　　字符串 pluginClass = pluginMapping。得到（插件名稱(chēng)）；
　　如果（pluginClass == null）{
　　logger.warn("沒(méi)有名為"+ pluginName +"的插件");
　　返回空值；
　　}
　　嘗試 {
　　("找到解析插件："+ pluginClass);
　　階級克拉茲=階級。名稱(chēng)（插件類(lèi)）；
　　構造函數構造函數= clazz。getConstructor（任務(wù)。類(lèi)）；
　　對象 = 構造函數。新實(shí)例（任務(wù)）；
　　} 趕上（異常 e）{
　　logger.error("反射異常：", e);
　　}
　　返回（抽象插件）對象；
　　}
　　}
　　PluginFactory 有兩個(gè)主要功能：
　　掃描插件包下@Plugin注解的插件類(lèi)；
　　根據 url 反射指定插件類(lèi)。
　　(5)、分析插件
　　正如我們上面所說(shuō)，分析插件其實(shí)對應于每一個(gè)網(wǎng)站分析類(lèi)。
　　在實(shí)際的爬蟲(chóng)分析中，總會(huì )有很多類(lèi)似甚至相同的分析任務(wù)，比如鏈接提取。因此，在分析插件中，我們首先要實(shí)現一個(gè)父接口來(lái)提供這些公共方法。
　　在這個(gè)程序中，插件父接口就是上面提到的AbstractPlugin類(lèi)：
　　包插件；
　　進(jìn)口實(shí)體。任務(wù);
　　進(jìn)口過(guò)濾器。和過(guò)濾器；
　　進(jìn)口過(guò)濾器。文件擴展過(guò)濾器；
　　進(jìn)口過(guò)濾器。鏈接提取器；
　　進(jìn)口過(guò)濾器。鏈接過(guò)濾器；
　　導入 mons.lang3.StringUtils；
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入服務(wù).DownloadService；
　　導入 util.CommonUtil；
　　導入 java.util.ArrayList；
　　導入java.util.List；
　　/**
　　* 插件抽象類(lèi)
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　公共抽象類(lèi) AbstractPlugin 擴展線(xiàn)程 {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(AbstractPlugin.class);
　　受保護的任務(wù)任務(wù)；
　　protected DownloadService downloadService = new DownloadService();
　　私有列表 urlList = new ArrayList();
　　公共抽象插件（任務(wù)任務(wù)）{
　　this.task = 任務(wù)；
　　}
　　@覆蓋
　　公共無(wú)效運行（）{
　　("{} 開(kāi)始運行...", task.getUrl());
　　字符串主體 = 下載服務(wù)。getResponseBody（任務(wù)）；
　　如果 (StringUtils.isNotEmpty(body)) {
　　如果 (isDetailPage(task.getUrl())) {
　　
　　("開(kāi)始解析詳情頁(yè)...");
　　解析內容（正文）；
　　} 別的 {
　　("開(kāi)始解析列表頁(yè)...");
　　提取頁(yè)面鏈接（正文）；
　　}
　　}
　　}
　　public void extractPageLinks(String body) {
　　LinkFilter hostFilter = new LinkFilter() {
　　字符串 urlHost = CommonUtil。getUrlPrefix(task.getUrl());
　　公共布爾接受（字符串鏈接）{
　　返回鏈接。收錄（urlHost）；
　　}
　　};
　　String[] fileExtensions = (".xls,.xml,.txt,.pdf,.jpg,.mp3,.mp4,.doc,.mpg,.mpeg,.jpeg,.gif,.png,.js,.郵編,"+
　　".rar,.exe,.swf,.rm,.ra,.asf,.css,.bmp,.pdf,.z,.gz,.tar,.cpio,.class").split("," );
　　LinkFilter fileExtensionFilter = new FileExtensionFilter(fileExtensions);
　　AndFilter filter = new AndFilter(new LinkFilter[]{hostFilter, fileExtensionFilter});
　　urlList = 鏈接提取器。extractLinks(task.getUrl(), body, filter);
　　}
　　公共列表 getUrlList() {
　　返回網(wǎng)址列表；
　　}
　　public abstract void parseContent(String body);
　　public abstract boolean isDetailPage(String url);
　　}
　　父接口定義了兩條規則：
　　解析規則，即何時(shí)解析文本，何時(shí)提取列表鏈接；
　　提取鏈接規則，即過(guò)濾掉哪些不需要的鏈接。
　　但是我們注意到父接口中用來(lái)解析網(wǎng)站 body內容的parseContent(String body)是一個(gè)抽象方法。而這正是實(shí)際的插件類(lèi)應該做的。這里，我們以 XmuPlugin 為例：
　　包插件；
　　進(jìn)口實(shí)體。任務(wù);
　　導入 org.jsoup.nodes.Document；
　　導入 org.jsoup.nodes.Element；
　　導入 org.jsoup.select.Elements；
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入 util.CommonUtil；
　　導入 util.FileUtils；
　　導入 java.text.SimpleDateFormat；
　　導入java.util.Date；
　　/**
　　* xmu插件
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　@Plugin(值="")
　　公共類(lèi) XmuPlugin 擴展 AbstractPlugin {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(XmuPlugin.class);
　　公共 XmuPlugin（任務(wù)任務(wù)）{
　　超級（任務(wù)）；
　　}
　　@覆蓋
　　public void parseContent(String body) {
　　文檔 doc = CommonUtil. 獲取文檔（正文）；
　　嘗試 {
　　String title = doc.select("p.h1").first().text();
　　String publishTimeStr = doc.select("p.right-content").first().text();
　　publishTimeStr = CommonUtil.match(publishTimeStr,"(\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2} )")[1];
　　日期發(fā)布時(shí)間 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(publishTimeStr);
　　字符串內容=””;
　　元素元素 = 文檔。選擇（“p.MsoNormal”）;
　　對于（元素元素：元素）{
　　內容 +="\n"+ 元素。文本（）;
　　}
　　("標題:"+標題);
　　("發(fā)布時(shí)間:"+ 發(fā)布時(shí)間);
　?。ā皟热荩骸?內容）；
　　FileUtils.writeFile(title + ".txt", 內容);
　　} 趕上（異常 e）{
　　logger.error("解析內容異常："+ task.getUrl(), e);
　　}
　　}
　　@覆蓋
　　public boolean isDetailPage(String url) {
　　返回 CommonUtil.isMatch(url,"&a=show&catid=\\d+&id=\\d+");
　　}
　　}
　　在 XmuPlugin 中，我們做了兩件事：
　　定義詳情頁(yè)的具體規則；
　　解析出具體的文本內容。
　　(6)、采集例子
　　至此，我們就成功完成了Java簡(jiǎn)單爬蟲(chóng)程序。接下來(lái)，讓我們看看采集的實(shí)際情況。
　　5.分享幾個(gè)好用的網(wǎng)絡(luò )爬蟲(chóng)工具和教程
　　很多人看了文章，會(huì )說(shuō)寫(xiě)的文章太深奧，需要編程才能實(shí)現數據爬取。有什么簡(jiǎn)單的方法或工具可以實(shí)現嗎？解決后給大家分享幾個(gè)好用的網(wǎng)絡(luò )爬蟲(chóng)工具，使用起來(lái)非常簡(jiǎn)單，也可以達到相應的效果。
　　1. 優(yōu)采云云爬蟲(chóng)
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云Cloud是一個(gè)大數據應用開(kāi)發(fā)平臺，為開(kāi)發(fā)者提供一整套數據采集、數據分析和機器學(xué)習開(kāi)發(fā)工具，為企業(yè)提供專(zhuān)業(yè)的數據抓取和實(shí)時(shí)監控。數據監控和數據分析服務(wù)。
　　優(yōu)勢：功能強大，涉及云爬蟲(chóng)、API、機器學(xué)習、數據清洗、數據售賣(mài)、數據定制和私有化部署等；
　　純云端操作，跨系統操作無(wú)壓力，隱私保護，可隱藏用戶(hù)IP。
　　提供云爬蟲(chóng)市場(chǎng)，零基礎用戶(hù)可直接調用開(kāi)發(fā)的爬蟲(chóng)，開(kāi)發(fā)者基于官方云開(kāi)發(fā)環(huán)境開(kāi)發(fā)上傳自己的爬蟲(chóng)程序；
　　領(lǐng)先的防爬技術(shù)，如直接獲取代理IP、自動(dòng)識別登錄驗證碼等，全程自動(dòng)化，無(wú)需人工參與；
　　豐富的發(fā)布接口，采集結果以豐富的表格形式展示；
　　缺點(diǎn)：它的優(yōu)點(diǎn)在一定程度上也成為了它的缺點(diǎn)，因為它是一個(gè)面向開(kāi)發(fā)者的爬蟲(chóng)開(kāi)發(fā)系統，提供了豐富的開(kāi)發(fā)功能。網(wǎng)站看起來(lái)很技術(shù)很專(zhuān)業(yè)，雖然官網(wǎng)也提供了云爬蟲(chóng)市場(chǎng)等現成的爬蟲(chóng)產(chǎn)品，面向廣大爬蟲(chóng)開(kāi)發(fā)者開(kāi)放，豐富爬蟲(chóng)市場(chǎng)的內容，零技術(shù)基礎的用戶(hù)不太容易看懂，所以有一定的使用門(mén)檻。
　　是否免費：免費用戶(hù)沒(méi)有采集功能和出口限制，不需要積分。
　　有開(kāi)發(fā)能力的用戶(hù)可以自行開(kāi)發(fā)爬蟲(chóng)實(shí)現免費效果，沒(méi)有開(kāi)發(fā)能力的用戶(hù)需要到爬蟲(chóng)市場(chǎng)尋找免費的爬蟲(chóng)。
　　2. 優(yōu)采云采集器
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云采集器是一個(gè)可視化的采集器，內置采集模板，支持各種網(wǎng)頁(yè)數據采集。
　　優(yōu)點(diǎn)：支持自定義模式，可視采集操作，簡(jiǎn)單易用；
　　支持簡(jiǎn)單采集模式，提供官方采集模板，支持云端采集操作；
　　支持代理IP切換、驗證碼服務(wù)等反屏蔽措施；
　　支持多種數據格式導出。
　　缺點(diǎn)：功能使用門(mén)檻比較高，很多功能在本地采集有限制，云端采集收費較高；
　　采集速度比較慢，很多操作都要卡。云采集說(shuō)快了10倍但是不明顯；
　　僅支持 Windows 版本，不支持其他操作系統。
　　是否免費：號稱(chēng)免費，但實(shí)際上導出數據需要積分，可以做任務(wù)積累積分，但一般情況下基本需要購買(mǎi)積分。
　　3. 優(yōu)采云采集器
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云采集器是前谷歌搜索技術(shù)團隊基于人工智能技術(shù)開(kāi)發(fā)的新一代網(wǎng)頁(yè)采集軟件。該軟件功能強大，操作極其簡(jiǎn)單。
　　優(yōu)點(diǎn)：支持智能采集模式，輸入URL即可智能識別采集對象，無(wú)需配置采集規則，操作非常簡(jiǎn)單；
　　支持流程圖模式，可視化操作流程，可以通過(guò)簡(jiǎn)單的操作生成各種復雜的采集規則；
　　支持反屏蔽措施，如代理IP切換等；
　　支持多種數據格式導出；
　　支持定時(shí)采集和自動(dòng)發(fā)布，豐富的發(fā)布接口；
　　支持 Windows、Mac 和 Linux 版本。
　　缺點(diǎn)：軟件發(fā)布時(shí)間不長(cháng)，部分功能還在完善中，暫時(shí)不支持云端采集功能
　　是否免費：完全免費，采集數據和手動(dòng)導出采集結果沒(méi)有限制，不需要積分
　　4.使用“優(yōu)采云采集器”來(lái)爬取數據實(shí)例
　　使用優(yōu)采云采集瀑布網(wǎng)站圖片（百度圖片采集
　　例如）方法。
　　采集網(wǎng)站：
　　%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90
　　第 1 步：創(chuàng )建一個(gè) 采集任務(wù)
　　1）進(jìn)入主界面，選擇自定義模式
　　2）將上述網(wǎng)址的網(wǎng)址復制粘貼到網(wǎng)站輸入框中，點(diǎn)擊“保存網(wǎng)址”
　　3) 系統自動(dòng)打開(kāi)網(wǎng)頁(yè)。我們發(fā)現百度圖片網(wǎng)是一個(gè)瀑布網(wǎng)頁(yè)，每次下拉加載都會(huì )出現新的數據。當圖片足夠多的時(shí)候，可以加載無(wú)數次。所以本網(wǎng)頁(yè)涉及到AJAX技術(shù)，需要設置AJAX超時(shí)時(shí)間，保證采集時(shí)不會(huì )遺漏數據。
　　選擇“打開(kāi)網(wǎng)頁(yè)”步驟，打開(kāi)“高級選項”，勾選“頁(yè)面加載后向下滾動(dòng)”，設置滾動(dòng)次數為“5次”（根據自己需要設置），時(shí)間為“2秒”，以及“向下滾動(dòng)一屏”的滾動(dòng)方法；最后點(diǎn)擊“確定”
　　注：例如網(wǎng)站，沒(méi)有翻頁(yè)按鈕，滾動(dòng)次數和滾動(dòng)方式會(huì )影響數據量采集，可根據需要設置
　　第 2 步：采集圖片網(wǎng)址
　　1) 選擇頁(yè)面第一張圖片，系統會(huì )自動(dòng)識別相似圖片。在操作提示框中，選擇“全選”
　　2）選擇“采集以下圖片地址”
　　第 3 步：修改 XPath
　　1) 選擇“循環(huán)”步驟并打開(kāi)“高級選項”?？梢钥吹絻?yōu)采云系統自動(dòng)使用“不固定元素列表”循環(huán)，Xpath為： //DIV[@id='imgid']/DIV[1]/UL[1]/LI
　　2）復制這個(gè)Xpath：//DIV[@id='imgid']/DIV[1]/UL[1]/LI到火狐瀏覽器中觀(guān)察——只能定位到網(wǎng)頁(yè)中的22張圖片
　　3）我們需要一個(gè)能夠在網(wǎng)頁(yè)中定位所有需要的圖片的XPath。觀(guān)察網(wǎng)頁(yè)源碼，修改Xpath為：//DIV[@id='imgid']/DIV/UL[1]/LI，網(wǎng)頁(yè)中所有需要的圖片都位于
　　4）將修改后的Xpath：//DIV[@id='imgid']/DIV/UL[1]/LI復制粘貼到優(yōu)采云中相應位置，完成后點(diǎn)擊“確定”
　　5) 點(diǎn)擊“保存”，然后點(diǎn)擊“啟動(dòng)采集”，這里選擇“啟動(dòng)本地采集”
　　第 4 步：數據采集和導出
　　1）采集完成后，會(huì )彈出提示，選擇導出數據
　　2）選擇合適的導出方式導出采集好的數據
　　第 5 步：將圖像 URL 批量轉換為圖像
　　經(jīng)過(guò)上面的操作，我們就得到了我們要采集的圖片的url。接下來(lái)，使用優(yōu)采云專(zhuān)用圖片批量下載工具，將采集圖片URL中的圖片下載并保存到本地電腦。
　　圖片批量下載工具：
　　1）下載優(yōu)采云圖片批量下載工具，雙擊文件中的MyDownloader.app.exe文件打開(kāi)軟件
　　2）打開(kāi)文件菜單，選擇從EXCEL導入（目前只支持EXCEL格式文件）
　　3）進(jìn)行相關(guān)設置，設置完成后點(diǎn)擊確定導入文件
　　選擇EXCEL文件：導入你需要的EXCEL文件下載圖片地址
　　EXCEL表名：對應數據表的名稱(chēng)
　　文件URL列名：表中URL對應的列名
　　保存文件夾名稱(chēng)：EXCEL中需要單獨一欄列出圖片要保存到文件夾的路徑，可以設置不同的圖片保存在不同的文件夾中
　　如果要將文件保存到文件夾中，路徑需要以“\”結尾，例如：“D:\Sync\”，如果下載后要按照指定的文件名保存文件，則需要收錄特定文件名，例如“D :\Sync\1.jpg”
　　如果下載的文件路徑和文件名完全相同，則刪除現有文件查看全部

　　分享文章:呆錯文章管理系統一鍵API采集與綁定分類(lèi)的圖文教程－呆錯后臺管理框架
　　采集功能介紹（文章管理系統的核心采集功能包括以下三個(gè)模塊）
　　API采集設置
　　

　　了解文章管理系統的采集功能后，我們使用API??客戶(hù)端連接采集API服務(wù)器。我們只需要在后臺填寫(xiě)網(wǎng)址和密碼即可。點(diǎn)擊它（背景 > 文章 > 采集管理）添加采集。
　　API采集轉換分類(lèi)
　　

　　當資源站的分類(lèi)不是我們想要的分類(lèi)名稱(chēng)或者分類(lèi)已經(jīng)在我們自己的文章系統中構建時(shí)，這時(shí)候就需要使用“綁定分類(lèi)”的功能，設置會(huì )彈出點(diǎn)擊按鈕框后up，只需要將需要轉換或重命名的列類(lèi)別一一重命名即可，如下圖。
　　免費云采集教程:步驟3：修改Xpath
　　前幾天寫(xiě)的關(guān)于“大數據”的文章得到了很多朋友的認可?！八鼜哪睦飦?lái)的？
　　我們可以簡(jiǎn)單列舉：
　　1、企業(yè)產(chǎn)生的用戶(hù)數據
　　比如BAT這樣的公司，擁有龐大的用戶(hù)群，用戶(hù)的任何行為都會(huì )成為他們數據源的一部分
　　2、數據平臺購買(mǎi)數據
　　比如從全國數據中心數據市場(chǎng)購買(mǎi)等。
　　3. 政府機構公開(kāi)數據
　　比如統計局和銀行的公開(kāi)數據。
　　4.數據管理公司
　　比如艾瑞咨詢(xún)等。
　　5.爬蟲(chóng)獲取網(wǎng)絡(luò )數據
　　利用網(wǎng)絡(luò )爬蟲(chóng)技術(shù)爬取網(wǎng)絡(luò )數據以供使用。
　　所以其實(shí)對于中小企業(yè)或者個(gè)人來(lái)說(shuō)，想要獲取“大數據或者海量數據”，最劃算的方法就是利用“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)”來(lái)獲取有效數據，所以“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)”這幾年也很流行！
　　今天我就來(lái)給大家講解一下“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)的原理與實(shí)現”！
　　1、什么是網(wǎng)絡(luò )爬蟲(chóng)？
　　網(wǎng)絡(luò )爬蟲(chóng)（也稱(chēng)為網(wǎng)絡(luò )蜘蛛、網(wǎng)絡(luò )機器人，在 FOAF 社區中更常被稱(chēng)為網(wǎng)絡(luò )追趕者）是一種按照一定規則自動(dòng)抓取萬(wàn)維網(wǎng)上信息的程序或腳本。簡(jiǎn)單地說(shuō)，它是一個(gè)請求網(wǎng)站并提取數據的自動(dòng)化程序。
　　最著(zhù)名的網(wǎng)絡(luò )爬蟲(chóng)應用程序是谷歌和百度的應用程序。
　　這兩大搜索引擎每天都會(huì )從互聯(lián)網(wǎng)上抓取大量的數據，然后對數據進(jìn)行分析處理，最后通過(guò)搜索展現給我們?？梢哉f(shuō)網(wǎng)絡(luò )爬蟲(chóng)是搜索引擎的基礎！
　　2. 網(wǎng)絡(luò )爬蟲(chóng)的工作流程和原理
　　網(wǎng)絡(luò )爬蟲(chóng)是搜索引擎爬蟲(chóng)系統的重要組成部分。爬蟲(chóng)的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地，形成鏡像備份或網(wǎng)絡(luò )內容。
　　(1) 網(wǎng)絡(luò )爬蟲(chóng)的基本結構和工作流程
　　一般網(wǎng)絡(luò )爬蟲(chóng)的框架如圖所示：
　　網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下：
　　1.首先選擇一部分精挑細選的種子網(wǎng)址；
　　2、將這些網(wǎng)址放入待抓取的網(wǎng)址隊列中；
　　3、從待抓網(wǎng)址隊列中取出待抓網(wǎng)址，解析DNS，獲取主機ip，下載該網(wǎng)址對應的網(wǎng)頁(yè)，存入下載的網(wǎng)頁(yè)庫中。另外，將這些網(wǎng)址放入已抓取的網(wǎng)址隊列中。
　　4、分析已經(jīng)抓取的URL隊列中的URL，分析其中的其他URL，將URL放入待抓取的URL隊列中，進(jìn)入下一個(gè)循環(huán)。
　　(2) 從爬蟲(chóng)的角度劃分互聯(lián)網(wǎng)
　　相應地，互聯(lián)網(wǎng)上的所有頁(yè)面都可以分為五個(gè)部分：
　　1.下載過(guò)期的網(wǎng)頁(yè)
　　2、下載過(guò)期的網(wǎng)頁(yè)：抓取的網(wǎng)頁(yè)實(shí)際上是互聯(lián)網(wǎng)內容的鏡像和備份?；ヂ?lián)網(wǎng)是動(dòng)態(tài)變化的，互聯(lián)網(wǎng)上的部分內容發(fā)生了變化。這時(shí)，這部分抓取的網(wǎng)頁(yè)已經(jīng)過(guò)期了。
　　3.待下載網(wǎng)頁(yè)：待抓取的URL隊列中的那些頁(yè)面
　　4、可知網(wǎng)頁(yè)：尚未被抓取的URL，不在待抓取的URL隊列中，但可以通過(guò)分析已抓取的頁(yè)面或待抓取的URL對應的頁(yè)面得到，是被認為是已知網(wǎng)頁(yè)。
　　5、還有一些網(wǎng)頁(yè)是爬蟲(chóng)無(wú)法直接爬取下載的。稱(chēng)為不可知頁(yè)面。
　　(3) 爬取策略
　　在爬蟲(chóng)系統中，待爬取的URL隊列是一個(gè)非常重要的部分。URL隊列中待抓取的URL的排列順序也是一個(gè)很重要的問(wèn)題，因為這涉及到先抓取哪個(gè)頁(yè)面，后抓取哪個(gè)頁(yè)面。確定這些 URL 順序的方法稱(chēng)為抓取策略。下面重點(diǎn)介紹幾種常見(jiàn)的爬取策略：
　　1.深度優(yōu)先遍歷策略
　　深度優(yōu)先遍歷策略意味著(zhù)網(wǎng)絡(luò )爬蟲(chóng)將從起始頁(yè)開(kāi)始，逐個(gè)鏈接。處理完這一行后，它將轉到下一個(gè)起始頁(yè)并繼續跟蹤鏈接。我們以下圖為例：
　　遍歷路徑：AFG EHI BCD
　　2.廣度優(yōu)先遍歷策略
　　廣度優(yōu)先遍歷策略的基本思想是將新下載的網(wǎng)頁(yè)中找到的鏈接直接插入待抓取的URL隊列的尾部。也就是說(shuō)，網(wǎng)絡(luò )爬蟲(chóng)會(huì )先爬取初始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)，然后選擇其中一個(gè)鏈接的網(wǎng)頁(yè)，繼續爬取該網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。還是以上圖為例：
　　遍歷路徑：ABCDEF GHI
　　3.反向鏈接計數策略
　　反向鏈接的數量是指一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)的鏈接指向的次數。反向鏈接數表示網(wǎng)頁(yè)內容被其他人推薦的程度。因此，在很多情況下，搜索引擎的抓取系統會(huì )使用這個(gè)指標來(lái)評估網(wǎng)頁(yè)的重要性，從而決定抓取不同網(wǎng)頁(yè)的順序。
　　在真實(shí)的網(wǎng)絡(luò )環(huán)境中，由于廣告鏈接和作弊鏈接的存在，反向鏈接的數量不可能完全等于其他鏈接的重要性。因此，搜索引擎傾向于考慮一些可靠數量的反向鏈接。
　　4.部分PageRank策略
　　Partial PageRank算法借鑒了PageRank算法的思想：對于下載的網(wǎng)頁(yè)，連同要抓取的URL隊列中的URL，組成一個(gè)網(wǎng)頁(yè)集合，計算每個(gè)頁(yè)面的PageRank值。計算完成后，將要抓取的URL隊列中的URL進(jìn)行計算，URL按照PageRank值的高低排序，依次抓取頁(yè)面。
　　如果每次抓取一個(gè)頁(yè)面都重新計算PageRank值，折衷的做法是：每抓取K頁(yè)后，重新計算PageRank值。但是這種情況還有一個(gè)問(wèn)題：對于下載頁(yè)面中分析出來(lái)的鏈接，也就是我們前面提到的那部分未知網(wǎng)頁(yè)，暫時(shí)沒(méi)有PageRank值。為了解決這個(gè)問(wèn)題，會(huì )給這些頁(yè)面一個(gè)臨時(shí)的PageRank值：從這個(gè)網(wǎng)頁(yè)的所有傳入鏈接傳入的PageRank值會(huì )被聚合，從而形成未知頁(yè)面的PageRank值，從而參與排行。以下示例說(shuō)明：
　　5. OPIC戰略策略
　　該算法實(shí)際上是頁(yè)面的重要性分數。在算法開(kāi)始之前，給所有頁(yè)面相同的初始現金（cash）。某個(gè)頁(yè)面P被下載后，將P的現金分配給從P分析出來(lái)的所有鏈接，P的現金清空。待抓取的 URL 隊列中的所有頁(yè)面都按照現金數量排序。
　　6、大站點(diǎn)優(yōu)先策略
　　對于所有待抓取的URL隊列中的網(wǎng)頁(yè)，根據它們的網(wǎng)站進(jìn)行分類(lèi)。對于網(wǎng)站有大量需要下載的頁(yè)面，會(huì )優(yōu)先下載。因此該策略也稱(chēng)為大站優(yōu)先策略。
　　(4)更新策略
　　互聯(lián)網(wǎng)是實(shí)時(shí)變化的，而且是高度動(dòng)態(tài)的。網(wǎng)頁(yè)更新策略主要是決定什么時(shí)候更新之前下載過(guò)的頁(yè)面。常見(jiàn)的更新策略有以下三種：
　　1.歷史參考策略
　　顧名思義，就是根據過(guò)去頁(yè)面的歷史更新數據，預測未來(lái)頁(yè)面什么時(shí)候會(huì )發(fā)生變化。通常，預測是通過(guò)對泊松過(guò)程建模來(lái)進(jìn)行的。
　　2. 用戶(hù)體驗策略雖然搜索引擎可以針對某個(gè)查詢(xún)條件返回數量龐大的結果，但用戶(hù)往往只關(guān)注結果的前幾頁(yè)。因此，爬蟲(chóng)系統可以?xún)?yōu)先更新那些出現在查詢(xún)結果前幾頁(yè)的頁(yè)面，然后再更新后面的那些頁(yè)面。此更新策略還需要使用歷史信息。用戶(hù)體驗策略保留了網(wǎng)頁(yè)的多個(gè)歷史版本，根據過(guò)去每次內容變化對搜索質(zhì)量的影響，得到一個(gè)平均值，以此值作為決定何時(shí)重新抓取的依據。3.整群抽樣策略
　　上述兩種更新策略都有一個(gè)前提：都需要網(wǎng)頁(yè)的歷史信息。這種方式存在兩個(gè)問(wèn)題：第一，如果系統為每個(gè)系統保存多個(gè)版本的歷史信息，無(wú)疑會(huì )增加很多系統負擔；第二，如果新網(wǎng)頁(yè)根本沒(méi)有歷史信息，則無(wú)法確定更新策略。
　　該策略認為網(wǎng)頁(yè)有很多屬性，具有相似屬性的網(wǎng)頁(yè)可以認為具有相似的更新頻率。計算某類(lèi)網(wǎng)頁(yè)的更新頻率，只需要對該類(lèi)網(wǎng)頁(yè)進(jìn)行采樣，將其更新周期作為整個(gè)類(lèi)的更新周期即可?；舅悸啡缦拢?br /> 　　(5) 分布式爬蟲(chóng)系統結構一般來(lái)說(shuō)，爬蟲(chóng)系統需要面對整個(gè)互聯(lián)網(wǎng)上億級的網(wǎng)頁(yè)。單個(gè)爬蟲(chóng)無(wú)法完成這樣的任務(wù)。通常需要多個(gè)抓取器一起處理。一般來(lái)說(shuō)，爬蟲(chóng)系統往往是分布式的三層結構。如圖所示：
　　底層是分布在不同地理位置的數據中心。每個(gè)數據中心都有若干個(gè)爬蟲(chóng)服務(wù)器，每個(gè)爬蟲(chóng)服務(wù)器上可能會(huì )部署幾套爬蟲(chóng)程序。這樣就構成了一個(gè)基本的分布式爬蟲(chóng)系統。
　　對于一個(gè)數據中心的不同服務(wù)器，有幾種協(xié)同工作的方式：
　　1.主從
　　主從基本結構如圖所示：
　　對于主從模式，有一個(gè)專(zhuān)門(mén)的Master服務(wù)器來(lái)維護要抓取的URL隊列，負責將每次抓取的URL分發(fā)給不同的Slave服務(wù)器，Slave服務(wù)器負責實(shí)際的網(wǎng)頁(yè)下載工作. Master服務(wù)器除了維護要抓取的URL隊列和分發(fā)URL外，還負責調解各個(gè)Slave服務(wù)器的負載。為了防止一些Slave服務(wù)器太閑或者太累。
　　在這種模式下，Master容易成為系統的瓶頸。
　　2.點(diǎn)對點(diǎn)
　　點(diǎn)對點(diǎn)方程的基本結構如圖所示：
　　在這種模式下，所有的爬蟲(chóng)服務(wù)器都沒(méi)有分工差異。每個(gè)爬取服務(wù)器可以從需要爬取的URL隊列中獲取URL，然后計算該URL主域名的哈希值H，然后計算H mod m（其中m為服務(wù)器數量，上圖為例如，m 為 3)，計算出的數量就是處理該 URL 的主機的數量。
　　示例：假設對于URL，計算器哈希值H=8，m=3，則H mod m=2，所以編號為2的服務(wù)器爬取該鏈接。假設此時(shí)server 0拿到了url，就會(huì )把url傳給server 2，由server 2抓取。
　　這種模型的一個(gè)問(wèn)題是，當一臺服務(wù)器掛掉或添加一臺新服務(wù)器時(shí)，所有 URL 的哈希余數的結果都會(huì )發(fā)生變化。也就是說(shuō)，這種方法的可擴展性不好。針對這種情況，提出了另一種改進(jìn)方案。這種改進(jìn)方案是通過(guò)一致性哈希來(lái)確定服務(wù)器分工。
　　其基本結構如圖所示：
　　Consistent Hashing對URL的主域名進(jìn)行哈希運算，映射為0-232之間的數字。這個(gè)范圍平均分配給m臺服務(wù)器，根據url主域名哈希運算的取值范圍來(lái)判斷爬取哪個(gè)服務(wù)器。
　　如果某臺服務(wù)器出現問(wèn)題，本該由該服務(wù)器負責的網(wǎng)頁(yè)就會(huì )被順時(shí)針順時(shí)針抓取到下一臺服務(wù)器。這樣即使某臺服務(wù)器出現問(wèn)題，也不會(huì )影響其他工作。
　　3. 常見(jiàn)網(wǎng)絡(luò )爬蟲(chóng)的種類(lèi)
　　1. 通用網(wǎng)絡(luò )爬蟲(chóng)
　　爬取目標資源在整個(gè)互聯(lián)網(wǎng)中，爬取的目標數據是巨大的。爬取性能要求非常高。應用于大型搜索引擎，具有很高的應用價(jià)值。
　　一般網(wǎng)絡(luò )爬蟲(chóng)的基本組成：初始URL采集、URL隊列、頁(yè)面爬取模塊、頁(yè)面分析模塊、頁(yè)面數據庫、鏈接過(guò)濾模塊等。
　　一般網(wǎng)絡(luò )爬蟲(chóng)的爬取策略：主要有深度優(yōu)先爬取策略和廣度優(yōu)先爬取策略。
　　2. 專(zhuān)注爬蟲(chóng)
　　在與主題相關(guān)的頁(yè)面中定位抓取目標
　　主要用于特定信息的爬取，主要為特定人群提供服務(wù)
　　重點(diǎn)介紹網(wǎng)絡(luò )爬蟲(chóng)的基本組成：初始URL、URL隊列、頁(yè)面爬取模塊、頁(yè)面分析模塊、頁(yè)面數據庫、連接過(guò)濾模塊、內容評估模塊、鏈接評估模塊等。
　　專(zhuān)注于網(wǎng)絡(luò )爬蟲(chóng)的爬取策略：
　　1）基于內容評價(jià)的爬蟲(chóng)策略
　　2）基于鏈接評價(jià)的爬蟲(chóng)策略
　　3）基于強化學(xué)習的爬蟲(chóng)策略
　　4）基于上下文圖的爬蟲(chóng)策略
　　3.增量網(wǎng)絡(luò )爬蟲(chóng)
　　增量更新是指更新時(shí)只更新變化的部分，不更新未變化的部分。只抓取內容發(fā)生變化的網(wǎng)頁(yè)或新生成的網(wǎng)頁(yè)，可以在一定程度上保證抓取到的網(wǎng)頁(yè)。, 如果可能的話(huà)，一個(gè)新的頁(yè)面
　　4.深網(wǎng)爬蟲(chóng)
　　Surface網(wǎng)頁(yè)：無(wú)需提交表單，使用靜態(tài)鏈接即可到達的靜態(tài)網(wǎng)頁(yè)
　　Deep Web：隱藏在表單后面，無(wú)法通過(guò)靜態(tài)鏈接直接獲取。是提交某個(gè)關(guān)鍵詞后才能獲得的網(wǎng)頁(yè)。
　　深網(wǎng)爬蟲(chóng)最重要的部分是填表部分
　　深網(wǎng)爬蟲(chóng)的基本組成：URL列表、LVS列表（LVS是指標簽/值集合，即填寫(xiě)表單的數據源）爬取控制器、解析器、LVS控制器、表單分析器、表單處理器、響應分析裝置等
　　深網(wǎng)爬蟲(chóng)填表分為兩種：
　　基于領(lǐng)域知識的表單填寫(xiě)（構建一個(gè)關(guān)鍵詞庫來(lái)填寫(xiě)表單，需要的時(shí)候根據語(yǔ)義分析選擇對應的關(guān)鍵詞進(jìn)行填寫(xiě)）
　　基于網(wǎng)頁(yè)結構分析的表單填寫(xiě)（一般在字段有限的情況下使用，該方法會(huì )根據網(wǎng)頁(yè)結構進(jìn)行分析，自動(dòng)填寫(xiě)表單）
　　四、教你實(shí)現一個(gè)簡(jiǎn)單的網(wǎng)絡(luò )爬蟲(chóng)
　　(1)、爬蟲(chóng)流程
　　在構建程序之前，我們首先需要了解一下爬蟲(chóng)的具體過(guò)程。
　　一個(gè)簡(jiǎn)單的爬蟲(chóng)程序有以下過(guò)程：
　　用文字表達，就是：
　　1、從任務(wù)庫（可以是MySQL等關(guān)系型數據庫）中選擇種子URL；
　　2.在程序中初始化一個(gè)URL隊列，將種子URL加入到隊列中；
　　3、如果URL隊列不為空，則將隊列頭部的URL出隊；如果 URL 隊列為空，程序將退出；
　　4、程序根據出隊的URL反映對應的解析類(lèi)，同時(shí)創(chuàng )建一個(gè)新的線(xiàn)程開(kāi)始解析任務(wù)；
　　5、程序會(huì )下載該URL指向的網(wǎng)頁(yè)，判斷該頁(yè)面是詳情頁(yè)還是列表頁(yè)（如博客中的博客詳情、博文列表）。如果是詳情頁(yè)，它會(huì )解析出頁(yè)面內容存入數據庫。如果是列表頁(yè)，則提取頁(yè)面鏈接加入URL隊列；
　　6.解析任務(wù)完成后，重復步驟3。
　?。ǘ┏绦蚪Y構
　　我們已經(jīng)知道了爬蟲(chóng)的具體流程，現在我們需要一個(gè)合理的程序結構來(lái)實(shí)現它。
　　首先介紹一下這個(gè)簡(jiǎn)單的爬蟲(chóng)程序的主要結構組件：
　　然后，看看程序中的工具類(lèi)和實(shí)體類(lèi)。
　　最后，根據類(lèi)的作用，我們將其放置在上面流程圖中的相應位置。具體示意圖如下：
　　我們現在已經(jīng)完成了實(shí)際流程到程序邏輯的翻譯。接下來(lái)，我們將通過(guò)源碼的介紹，深入到程序的細節。
　　(3)、任務(wù)調度、初始化隊列
　　在簡(jiǎn)單的爬蟲(chóng)程序中，任務(wù)調度和初始化隊列都是在SpiderApplication類(lèi)中完成的。
　　(4)、插件工廠(chǎng)
　　在URL循環(huán)調度中，有一個(gè)語(yǔ)句需要我們注意：
　　AbstractPlugin plugin = PluginFactory.getInstance().getPlugin(task);
　　其中，AbstractPlugin是繼承自Thread的抽象插件類(lèi)。
　　這個(gè)語(yǔ)句的意思是插件工廠(chǎng)根據url實(shí)例化繼承自AbstractPlugin的指定插件。
　　插件工廠(chǎng)也可以理解為解析類(lèi)工廠(chǎng)。
　　在這個(gè)程序中，插件工廠(chǎng)的實(shí)現主要依賴(lài)三個(gè)方面：
　　1.插件
　　包插件；
　　導入 java.lang.annotation.*;
　　/**
　　* 插件說(shuō)明
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　@Target({ElementType.TYPE})
　　@Retention(RetentionPolicy.RUNTIME)
　　@Documented
　　公共@interface插件{
　　String value() 默認"";
　　}
　　Plugin其實(shí)是一個(gè)注解接口，在Plugin的支持下，我們可以通過(guò)注解@Plugin讓程序識別插件類(lèi)。這就好比在SpringMVC中，我們通過(guò)@[emailprotected]等來(lái)標識每一個(gè)Bean。
　　2.Xmu插件
　　@Plugin(值="")
　　公共類(lèi) XmuPlugin 擴展 AbstractPlugin {
　　}
　　XmuPlugin是眾多插件（解析類(lèi)）中的一種，作用由注解@Plugin標注，其具體標識（即對應于哪個(gè)url）由注解中的值標注。
　　3.插件工廠(chǎng)
　　包裝廠(chǎng)；
　　進(jìn)口實(shí)體。任務(wù);
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入插件.AbstractPlugin；
　　導入插件。插件；
　　導入 util.CommonUtil；
　　導入java.io.文件；
　　

　　導入 java.lang.annotation.Annotation；
　　導入 java.lang.reflect.Constructor；
　　導入 java.util.ArrayList；
　　導入 java.util.HashMap；
　　導入java.util.List；
　　導入 java.util.Map；
　　/**
　　* 插件工廠(chǎng)
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　公共類(lèi) PluginFactory {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(PluginFactory.class);
　　private static final PluginFactory factory = new PluginFactory();
　　私有列表> classList = new ArrayList>();
　　private Map pluginMapping = new HashMap();
　　私人插件工廠(chǎng)（）{
　　掃描包（“插件”）；
　　如果 (classList.size() > 0) {
　　初始化插件映射（）；
　　}
　　}
　　公共靜態(tài) PluginFactory getInstance() {
　　返廠(chǎng)；
　　}
　　/**
　　* 掃描包、分包
　　*
　　* @param 包名
　　*/
　　私人無(wú)效掃描包（字符串包名）{
　　嘗試 {
　　字符串路徑 = getSrcPath() + 文件。分隔符 + changePackageNameToPath(packageName);
　　文件目錄=新文件（路徑）；
　　文件 [] 文件 = 目錄。列表文件（）；
　　如果（文件==空）{
　　logger.warn("包名不存在！");
　　返回;
　　}
　　對于（文件文件：文件）{
　　如果（文件。isDirectory（））{
　　scanPackage(packageName + "."+ file.getName());
　　} 別的 {
　　Class clazz = Class.forName(packageName + "."+ file.getName().split("\\.")[0]);
　　classList.add(clazz);
　　}
　　}
　　} 趕上（異常 e）{
　　logger.error("掃描包異常：", e);
　　}
　　}
　　/**
　　* 獲取根路徑
　　*
　　* @返回
　　*/
　　私有字符串 getSrcPath() {
　　返回系統。getProperty("用戶(hù)目錄") +
　　文件分隔符+"src"+
　　文件分隔符+"main"+
　　文件分隔符 + "java";
　　}
　　/**
　　* 將包名轉換為路徑格式
　　*
　　* @param 包名
　　* @返回
　　*/
　　私有字符串 changePackageNameToPath(String packageName) {
　　返回 packageName.replaceAll("\\.", File.separator);
　　}
　　/**
　　* 初始化插件容器
　　*/
　　私有無(wú)效 initPluginMapping() {
　　對于（類(lèi)克拉茲：類(lèi)列表）{
　　注釋 annotation = clazz. getAnnotation（插件。類(lèi)）；
　　如果（注釋?zhuān)? null）{
　　pluginMapping.put(((插件)注解).value(), clazz.getName());
　　}
　　}
　　}
　　/**
　　* 通過(guò)反射實(shí)例化插件對象
　　* @param 任務(wù)
　　* @返回
　　*/
　　public AbstractPlugin getPlugin（任務(wù)任務(wù)）{
　　if (task == null || task.getUrl() == null) {
　　logger.warn("非法任務(wù)！");
　　返回空值；
　　}
　　如果 (pluginMapping.size() == 0) {
　　logger.warn("當前包中沒(méi)有插件！");
　　返回空值；
　　}
　　對象對象=空；
　　字符串插件名稱(chēng) = CommonUtil。getHost(task.getUrl());
　　字符串 pluginClass = pluginMapping。得到（插件名稱(chēng)）；
　　如果（pluginClass == null）{
　　logger.warn("沒(méi)有名為"+ pluginName +"的插件");
　　返回空值；
　　}
　　嘗試 {
　　("找到解析插件："+ pluginClass);
　　階級克拉茲=階級。名稱(chēng)（插件類(lèi)）；
　　構造函數構造函數= clazz。getConstructor（任務(wù)。類(lèi)）；
　　對象 = 構造函數。新實(shí)例（任務(wù)）；
　　} 趕上（異常 e）{
　　logger.error("反射異常：", e);
　　}
　　返回（抽象插件）對象；
　　}
　　}
　　PluginFactory 有兩個(gè)主要功能：
　　掃描插件包下@Plugin注解的插件類(lèi)；
　　根據 url 反射指定插件類(lèi)。
　　(5)、分析插件
　　正如我們上面所說(shuō)，分析插件其實(shí)對應于每一個(gè)網(wǎng)站分析類(lèi)。
　　在實(shí)際的爬蟲(chóng)分析中，總會(huì )有很多類(lèi)似甚至相同的分析任務(wù)，比如鏈接提取。因此，在分析插件中，我們首先要實(shí)現一個(gè)父接口來(lái)提供這些公共方法。
　　在這個(gè)程序中，插件父接口就是上面提到的AbstractPlugin類(lèi)：
　　包插件；
　　進(jìn)口實(shí)體。任務(wù);
　　進(jìn)口過(guò)濾器。和過(guò)濾器；
　　進(jìn)口過(guò)濾器。文件擴展過(guò)濾器；
　　進(jìn)口過(guò)濾器。鏈接提取器；
　　進(jìn)口過(guò)濾器。鏈接過(guò)濾器；
　　導入 mons.lang3.StringUtils；
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入服務(wù).DownloadService；
　　導入 util.CommonUtil；
　　導入 java.util.ArrayList；
　　導入java.util.List；
　　/**
　　* 插件抽象類(lèi)
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　公共抽象類(lèi) AbstractPlugin 擴展線(xiàn)程 {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(AbstractPlugin.class);
　　受保護的任務(wù)任務(wù)；
　　protected DownloadService downloadService = new DownloadService();
　　私有列表 urlList = new ArrayList();
　　公共抽象插件（任務(wù)任務(wù)）{
　　this.task = 任務(wù)；
　　}
　　@覆蓋
　　公共無(wú)效運行（）{
　　("{} 開(kāi)始運行...", task.getUrl());
　　字符串主體 = 下載服務(wù)。getResponseBody（任務(wù)）；
　　如果 (StringUtils.isNotEmpty(body)) {
　　如果 (isDetailPage(task.getUrl())) {
　　

　　("開(kāi)始解析詳情頁(yè)...");
　　解析內容（正文）；
　　} 別的 {
　　("開(kāi)始解析列表頁(yè)...");
　　提取頁(yè)面鏈接（正文）；
　　}
　　}
　　}
　　public void extractPageLinks(String body) {
　　LinkFilter hostFilter = new LinkFilter() {
　　字符串 urlHost = CommonUtil。getUrlPrefix(task.getUrl());
　　公共布爾接受（字符串鏈接）{
　　返回鏈接。收錄（urlHost）；
　　}
　　};
　　String[] fileExtensions = (".xls,.xml,.txt,.pdf,.jpg,.mp3,.mp4,.doc,.mpg,.mpeg,.jpeg,.gif,.png,.js,.郵編,"+
　　".rar,.exe,.swf,.rm,.ra,.asf,.css,.bmp,.pdf,.z,.gz,.tar,.cpio,.class").split("," );
　　LinkFilter fileExtensionFilter = new FileExtensionFilter(fileExtensions);
　　AndFilter filter = new AndFilter(new LinkFilter[]{hostFilter, fileExtensionFilter});
　　urlList = 鏈接提取器。extractLinks(task.getUrl(), body, filter);
　　}
　　公共列表 getUrlList() {
　　返回網(wǎng)址列表；
　　}
　　public abstract void parseContent(String body);
　　public abstract boolean isDetailPage(String url);
　　}
　　父接口定義了兩條規則：
　　解析規則，即何時(shí)解析文本，何時(shí)提取列表鏈接；
　　提取鏈接規則，即過(guò)濾掉哪些不需要的鏈接。
　　但是我們注意到父接口中用來(lái)解析網(wǎng)站 body內容的parseContent(String body)是一個(gè)抽象方法。而這正是實(shí)際的插件類(lèi)應該做的。這里，我們以 XmuPlugin 為例：
　　包插件；
　　進(jìn)口實(shí)體。任務(wù);
　　導入 org.jsoup.nodes.Document；
　　導入 org.jsoup.nodes.Element；
　　導入 org.jsoup.select.Elements；
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入 util.CommonUtil；
　　導入 util.FileUtils；
　　導入 java.text.SimpleDateFormat；
　　導入java.util.Date；
　　/**
　　* xmu插件
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　@Plugin(值="")
　　公共類(lèi) XmuPlugin 擴展 AbstractPlugin {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(XmuPlugin.class);
　　公共 XmuPlugin（任務(wù)任務(wù)）{
　　超級（任務(wù)）；
　　}
　　@覆蓋
　　public void parseContent(String body) {
　　文檔 doc = CommonUtil. 獲取文檔（正文）；
　　嘗試 {
　　String title = doc.select("p.h1").first().text();
　　String publishTimeStr = doc.select("p.right-content").first().text();
　　publishTimeStr = CommonUtil.match(publishTimeStr,"(\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2} )")[1];
　　日期發(fā)布時(shí)間 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(publishTimeStr);
　　字符串內容=””;
　　元素元素 = 文檔。選擇（“p.MsoNormal”）;
　　對于（元素元素：元素）{
　　內容 +="\n"+ 元素。文本（）;
　　}
　　("標題:"+標題);
　　("發(fā)布時(shí)間:"+ 發(fā)布時(shí)間);
　?。ā皟热荩骸?內容）；
　　FileUtils.writeFile(title + ".txt", 內容);
　　} 趕上（異常 e）{
　　logger.error("解析內容異常："+ task.getUrl(), e);
　　}
　　}
　　@覆蓋
　　public boolean isDetailPage(String url) {
　　返回 CommonUtil.isMatch(url,"&a=show&catid=\\d+&id=\\d+");
　　}
　　}
　　在 XmuPlugin 中，我們做了兩件事：
　　定義詳情頁(yè)的具體規則；
　　解析出具體的文本內容。
　　(6)、采集例子
　　至此，我們就成功完成了Java簡(jiǎn)單爬蟲(chóng)程序。接下來(lái)，讓我們看看采集的實(shí)際情況。
　　5.分享幾個(gè)好用的網(wǎng)絡(luò )爬蟲(chóng)工具和教程
　　很多人看了文章，會(huì )說(shuō)寫(xiě)的文章太深奧，需要編程才能實(shí)現數據爬取。有什么簡(jiǎn)單的方法或工具可以實(shí)現嗎？解決后給大家分享幾個(gè)好用的網(wǎng)絡(luò )爬蟲(chóng)工具，使用起來(lái)非常簡(jiǎn)單，也可以達到相應的效果。
　　1. 優(yōu)采云云爬蟲(chóng)
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云Cloud是一個(gè)大數據應用開(kāi)發(fā)平臺，為開(kāi)發(fā)者提供一整套數據采集、數據分析和機器學(xué)習開(kāi)發(fā)工具，為企業(yè)提供專(zhuān)業(yè)的數據抓取和實(shí)時(shí)監控。數據監控和數據分析服務(wù)。
　　優(yōu)勢：功能強大，涉及云爬蟲(chóng)、API、機器學(xué)習、數據清洗、數據售賣(mài)、數據定制和私有化部署等；
　　純云端操作，跨系統操作無(wú)壓力，隱私保護，可隱藏用戶(hù)IP。
　　提供云爬蟲(chóng)市場(chǎng)，零基礎用戶(hù)可直接調用開(kāi)發(fā)的爬蟲(chóng)，開(kāi)發(fā)者基于官方云開(kāi)發(fā)環(huán)境開(kāi)發(fā)上傳自己的爬蟲(chóng)程序；
　　領(lǐng)先的防爬技術(shù)，如直接獲取代理IP、自動(dòng)識別登錄驗證碼等，全程自動(dòng)化，無(wú)需人工參與；
　　豐富的發(fā)布接口，采集結果以豐富的表格形式展示；
　　缺點(diǎn)：它的優(yōu)點(diǎn)在一定程度上也成為了它的缺點(diǎn)，因為它是一個(gè)面向開(kāi)發(fā)者的爬蟲(chóng)開(kāi)發(fā)系統，提供了豐富的開(kāi)發(fā)功能。網(wǎng)站看起來(lái)很技術(shù)很專(zhuān)業(yè)，雖然官網(wǎng)也提供了云爬蟲(chóng)市場(chǎng)等現成的爬蟲(chóng)產(chǎn)品，面向廣大爬蟲(chóng)開(kāi)發(fā)者開(kāi)放，豐富爬蟲(chóng)市場(chǎng)的內容，零技術(shù)基礎的用戶(hù)不太容易看懂，所以有一定的使用門(mén)檻。
　　是否免費：免費用戶(hù)沒(méi)有采集功能和出口限制，不需要積分。
　　有開(kāi)發(fā)能力的用戶(hù)可以自行開(kāi)發(fā)爬蟲(chóng)實(shí)現免費效果，沒(méi)有開(kāi)發(fā)能力的用戶(hù)需要到爬蟲(chóng)市場(chǎng)尋找免費的爬蟲(chóng)。
　　2. 優(yōu)采云采集器
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云采集器是一個(gè)可視化的采集器，內置采集模板，支持各種網(wǎng)頁(yè)數據采集。
　　優(yōu)點(diǎn)：支持自定義模式，可視采集操作，簡(jiǎn)單易用；
　　支持簡(jiǎn)單采集模式，提供官方采集模板，支持云端采集操作；
　　支持代理IP切換、驗證碼服務(wù)等反屏蔽措施；
　　支持多種數據格式導出。
　　缺點(diǎn)：功能使用門(mén)檻比較高，很多功能在本地采集有限制，云端采集收費較高；
　　采集速度比較慢，很多操作都要卡。云采集說(shuō)快了10倍但是不明顯；
　　僅支持 Windows 版本，不支持其他操作系統。
　　是否免費：號稱(chēng)免費，但實(shí)際上導出數據需要積分，可以做任務(wù)積累積分，但一般情況下基本需要購買(mǎi)積分。
　　3. 優(yōu)采云采集器
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云采集器是前谷歌搜索技術(shù)團隊基于人工智能技術(shù)開(kāi)發(fā)的新一代網(wǎng)頁(yè)采集軟件。該軟件功能強大，操作極其簡(jiǎn)單。
　　優(yōu)點(diǎn)：支持智能采集模式，輸入URL即可智能識別采集對象，無(wú)需配置采集規則，操作非常簡(jiǎn)單；
　　支持流程圖模式，可視化操作流程，可以通過(guò)簡(jiǎn)單的操作生成各種復雜的采集規則；
　　支持反屏蔽措施，如代理IP切換等；
　　支持多種數據格式導出；
　　支持定時(shí)采集和自動(dòng)發(fā)布，豐富的發(fā)布接口；
　　支持 Windows、Mac 和 Linux 版本。
　　缺點(diǎn)：軟件發(fā)布時(shí)間不長(cháng)，部分功能還在完善中，暫時(shí)不支持云端采集功能
　　是否免費：完全免費，采集數據和手動(dòng)導出采集結果沒(méi)有限制，不需要積分
　　4.使用“優(yōu)采云采集器”來(lái)爬取數據實(shí)例
　　使用優(yōu)采云采集瀑布網(wǎng)站圖片（百度圖片采集
　　例如）方法。
　　采集網(wǎng)站：
　　%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90
　　第 1 步：創(chuàng )建一個(gè) 采集任務(wù)
　　1）進(jìn)入主界面，選擇自定義模式
　　2）將上述網(wǎng)址的網(wǎng)址復制粘貼到網(wǎng)站輸入框中，點(diǎn)擊“保存網(wǎng)址”
　　3) 系統自動(dòng)打開(kāi)網(wǎng)頁(yè)。我們發(fā)現百度圖片網(wǎng)是一個(gè)瀑布網(wǎng)頁(yè)，每次下拉加載都會(huì )出現新的數據。當圖片足夠多的時(shí)候，可以加載無(wú)數次。所以本網(wǎng)頁(yè)涉及到AJAX技術(shù)，需要設置AJAX超時(shí)時(shí)間，保證采集時(shí)不會(huì )遺漏數據。
　　選擇“打開(kāi)網(wǎng)頁(yè)”步驟，打開(kāi)“高級選項”，勾選“頁(yè)面加載后向下滾動(dòng)”，設置滾動(dòng)次數為“5次”（根據自己需要設置），時(shí)間為“2秒”，以及“向下滾動(dòng)一屏”的滾動(dòng)方法；最后點(diǎn)擊“確定”
　　注：例如網(wǎng)站，沒(méi)有翻頁(yè)按鈕，滾動(dòng)次數和滾動(dòng)方式會(huì )影響數據量采集，可根據需要設置
　　第 2 步：采集圖片網(wǎng)址
　　1) 選擇頁(yè)面第一張圖片，系統會(huì )自動(dòng)識別相似圖片。在操作提示框中，選擇“全選”
　　2）選擇“采集以下圖片地址”
　　第 3 步：修改 XPath
　　1) 選擇“循環(huán)”步驟并打開(kāi)“高級選項”?？梢钥吹絻?yōu)采云系統自動(dòng)使用“不固定元素列表”循環(huán)，Xpath為： //DIV[@id='imgid']/DIV[1]/UL[1]/LI
　　2）復制這個(gè)Xpath：//DIV[@id='imgid']/DIV[1]/UL[1]/LI到火狐瀏覽器中觀(guān)察——只能定位到網(wǎng)頁(yè)中的22張圖片
　　3）我們需要一個(gè)能夠在網(wǎng)頁(yè)中定位所有需要的圖片的XPath。觀(guān)察網(wǎng)頁(yè)源碼，修改Xpath為：//DIV[@id='imgid']/DIV/UL[1]/LI，網(wǎng)頁(yè)中所有需要的圖片都位于
　　4）將修改后的Xpath：//DIV[@id='imgid']/DIV/UL[1]/LI復制粘貼到優(yōu)采云中相應位置，完成后點(diǎn)擊“確定”
　　5) 點(diǎn)擊“保存”，然后點(diǎn)擊“啟動(dòng)采集”，這里選擇“啟動(dòng)本地采集”
　　第 4 步：數據采集和導出
　　1）采集完成后，會(huì )彈出提示，選擇導出數據
　　2）選擇合適的導出方式導出采集好的數據
　　第 5 步：將圖像 URL 批量轉換為圖像
　　經(jīng)過(guò)上面的操作，我們就得到了我們要采集的圖片的url。接下來(lái)，使用優(yōu)采云專(zhuān)用圖片批量下載工具，將采集圖片URL中的圖片下載并保存到本地電腦。
　　圖片批量下載工具：
　　1）下載優(yōu)采云圖片批量下載工具，雙擊文件中的MyDownloader.app.exe文件打開(kāi)軟件
　　2）打開(kāi)文件菜單，選擇從EXCEL導入（目前只支持EXCEL格式文件）
　　3）進(jìn)行相關(guān)設置，設置完成后點(diǎn)擊確定導入文件
　　選擇EXCEL文件：導入你需要的EXCEL文件下載圖片地址
　　EXCEL表名：對應數據表的名稱(chēng)
　　文件URL列名：表中URL對應的列名
　　保存文件夾名稱(chēng)：EXCEL中需要單獨一欄列出圖片要保存到文件夾的路徑，可以設置不同的圖片保存在不同的文件夾中
　　如果要將文件保存到文件夾中，路徑需要以“\”結尾，例如：“D:\Sync\”，如果下載后要按照指定的文件名保存文件，則需要收錄特定文件名，例如“D :\Sync\1.jpg”
　　如果下載的文件路徑和文件名完全相同，則刪除現有文件

匯總:【C#】C#實(shí)現對網(wǎng)站數據的采集和抓取

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-12-08 00:25 ? 來(lái)自相關(guān)話(huà)題

　　匯總:【C#】C#實(shí)現對網(wǎng)站數據的采集和抓取
　　
　　本文介紹C#實(shí)例實(shí)現對網(wǎng)頁(yè)的抓取和分析。分享給大家，供大家參考。具體分析如下：下面是抓取和分析網(wǎng)頁(yè)的類(lèi)。其主要功能有： 1、提取網(wǎng)頁(yè)純文本，去除所有html標簽和javascript代碼 2、提取網(wǎng)頁(yè)鏈接，包括href、frame和iframe3，提取網(wǎng)頁(yè)標題等（其他標簽可以同理推導，正則相同） 4. 可以實(shí)現簡(jiǎn)單的表單提交和cookie保存 /** 作者：華中師范大學(xué)Sunjoy* 如果你改進(jìn)了這個(gè)類(lèi)，請給我一個(gè)代碼（ccnusjy在）* /使用系統；使用系統數據；使用系統。
　　
　　推薦文章:網(wǎng)頁(yè)文本采集,文章采集自動(dòng)發(fā)布
　　關(guān)于這一點(diǎn)，可以說(shuō)是大部分網(wǎng)站的通病。一些網(wǎng)站主頁(yè)雜亂無(wú)章，尤其是網(wǎng)站導航。沒(méi)有用戶(hù)可以感興趣的點(diǎn)擊的地方。都是關(guān)于我們的，公司榮譽(yù)，企業(yè)信息”等等，作為用戶(hù)，你會(huì )看這些內容嗎？
　　根據搜索結果不難看出，大部分企業(yè)網(wǎng)站根本無(wú)法閱讀。用戶(hù)點(diǎn)擊后，首頁(yè)沒(méi)有用戶(hù)想要繼續點(diǎn)擊的內容，直接導致用戶(hù)關(guān)閉頁(yè)面，導致停留時(shí)間過(guò)短。
　　還有一些網(wǎng)站，進(jìn)入首頁(yè)后彈出“歡迎訪(fǎng)問(wèn)什么，在線(xiàn)咨詢(xún)”之類(lèi)的窗口，關(guān)閉后過(guò)一會(huì )又彈出。用戶(hù)很懶惰，沒(méi)有耐心。他希望他點(diǎn)擊的頁(yè)面能直接看到他需要的東西；他不需要這種先關(guān)閉一堆廣告再找內容的頁(yè)面。哪個(gè)網(wǎng)站最終用戶(hù)找到了自己需要的東西，蜘蛛也能判斷出來(lái)，那么蜘蛛就會(huì )認為這個(gè)站點(diǎn)更符合用戶(hù)的體驗需求，從而提升排名。
　　3.基本優(yōu)化操作
　　這一點(diǎn)涉及的內容比較專(zhuān)業(yè)。所謂專(zhuān)業(yè)，只能說(shuō)是用專(zhuān)業(yè)的操作方法，讓用戶(hù)獲得更好的體驗，那么需要注意什么呢？
　　1. 網(wǎng)站內頁(yè)相關(guān)信息排版
　　說(shuō)到相關(guān)性，通俗地說(shuō)，當用戶(hù)訪(fǎng)問(wèn)一個(gè)內容頁(yè)面時(shí)，當該頁(yè)面沒(méi)有他需要的內容時(shí)，你能給他什么樣的建議。具體來(lái)說(shuō)，在同一個(gè)頁(yè)面上，你想向用戶(hù)推薦他可能更需要哪些相關(guān)信息。這就需要我們在文章的底部添加相關(guān)信息列表，方便用戶(hù)體驗，實(shí)現二次甚至三次內鏈轉化。
　　2.文章內容優(yōu)化
　　有了相關(guān)閱讀，用戶(hù)如何在頁(yè)面停留更久？我們一般的做法是拍攝1-3張高度相關(guān)的圖片，分發(fā)給文章；排版不宜過(guò)大或過(guò)??；間距和字符間距不宜太??；標題部分加粗或加紅顯示，讓用戶(hù)一目了然，有興趣從頭讀到尾；這樣自然會(huì )增加用戶(hù)在頁(yè)面的停留時(shí)間，蜘蛛會(huì )給你的網(wǎng)站頁(yè)面加分。
　　
　　3.錯誤頁(yè)面設置——404頁(yè)面
　　如果不小心刪除了文章，或者鏈接失效了，但是沒(méi)有找到，用戶(hù)點(diǎn)擊后頁(yè)面打不開(kāi)，出現錯誤頁(yè)面，也就是我們常說(shuō)的404頁(yè)面. 這個(gè)時(shí)候他是否會(huì )自動(dòng)跳回首頁(yè)或者返回，如果沒(méi)有，結果會(huì )導致用戶(hù)直接關(guān)閉當前窗口，導致停留時(shí)間過(guò)短，增加跳出率，所以這個(gè)頁(yè)面必須設置正確。
　　4.機器人文件設置
　　很多沒(méi)學(xué)過(guò)SEO的朋友可能沒(méi)有聽(tīng)說(shuō)過(guò)這個(gè)，就是網(wǎng)站的根目錄下有沒(méi)有一個(gè)文件，讓蜘蛛知道你的網(wǎng)站哪些信息沒(méi)有需要它爬行，這是需要的。通俗地說(shuō)，就是網(wǎng)站和蜘蛛之間的協(xié)議文件，必須收錄進(jìn)去。
　　5.站點(diǎn)地圖
　　所謂站點(diǎn)地圖，就是用工具抓取網(wǎng)站的鏈接，放到一個(gè)位置，讓蜘蛛通過(guò)你給的鏈接順利爬到整個(gè)站點(diǎn)，推廣收錄更快，從而產(chǎn)生排名。
　　站內SEO優(yōu)化6個(gè)致命錯誤站內SEO優(yōu)化的方法有很多種，有時(shí)候你一直在努力改善網(wǎng)站的文章，卻沒(méi)有注意站內優(yōu)化，網(wǎng)站的流量保持不變。還有一些疏忽大意、錯誤的優(yōu)化方式，或者優(yōu)化思路不同，最終導致優(yōu)化操作時(shí)網(wǎng)站不能收錄或者權限降低的問(wèn)題。
　　1、站內廣告凌亂
　　有些廣告投放得當，不會(huì )對用戶(hù)產(chǎn)生太大的影響。但是很多網(wǎng)站在投放廣告的時(shí)候很多都沒(méi)有把握。經(jīng)?？吹骄W(wǎng)站整個(gè)站頂，側邊欄，浮窗，彈窗，內容頁(yè)都沒(méi)有可以放廣告的地方。掉落，導致用戶(hù)在瀏覽內容時(shí)體驗不佳?？上攵?，這樣的網(wǎng)站有重復訪(fǎng)問(wèn)，極大地損害了用戶(hù)體驗。同時(shí)站長(cháng)廣告聯(lián)盟的實(shí)際收入有多少大家都知道。
　　2.頁(yè)面js效果
　　最常見(jiàn)的情況是，當你點(diǎn)擊網(wǎng)站時(shí)，你會(huì )得到一個(gè)十幾秒甚至更長(cháng)時(shí)間的幻燈片，訪(fǎng)問(wèn)者無(wú)法快進(jìn)，也不看。一些網(wǎng)站還在內容中使用了大量的Flash和廣告特效。我不知道這種方法的效果。我只知道如果不是一些特殊的網(wǎng)站，追求特殊效果的負面效果是延遲頁(yè)面加載時(shí)間和訪(fǎng)問(wèn)者時(shí)間，導致跳出率高。
　　
　　3.欄目?jì)热莼祀s
　　我說(shuō)的就是這個(gè)，包括很多有同樣疑問(wèn)的站長(cháng)。不管是公司網(wǎng)站、論壇還是個(gè)人網(wǎng)站，如果有節目，那么內容更新應該分類(lèi)，讓不同節目的內容各有特色，方便用戶(hù)瀏覽并檢查。而很多時(shí)候更新后內容亂七八糟，這也與建站時(shí)節目劃分設置不當有很大關(guān)系。直接的結果是，當我需要查找某類(lèi)內容時(shí)，我不知道是在哪個(gè)程序下發(fā)布的。
　　4. 文章說(shuō)話(huà)太多，注意力不集中
　　這是一個(gè)關(guān)系到每個(gè)人的寫(xiě)作水平和習慣的問(wèn)題。很多時(shí)候，百字能說(shuō)清楚的東西，百字難以表達，這完全違背了內容清晰、短小精悍的原則。大部分的參觀(guān)者都沒(méi)有那么大的耐心原封不動(dòng)地看完，就算留下來(lái)看一看，那形象也一定很差。結果是 100% 的高跳出率和糟糕的回訪(fǎng)率。網(wǎng)站內容自動(dòng) 采集，自動(dòng)上傳網(wǎng)站已更新
　　5.網(wǎng)站內容布局規劃老套路
　　每個(gè)人都有隨波逐流的習慣，而我在調整網(wǎng)站組織的時(shí)候，別人做什么，包括我自己，我也有循規蹈矩的習慣。在很多情況下，這確實(shí)是可以的，省時(shí)省力。騰訊不就是為了做大才學(xué)會(huì )這個(gè)方法的嗎？但是，如果一味跟風(fēng)而不知道別人為什么這樣做，如果別人能做好，變強，在我們手里可能就不是好事了。不一樣網(wǎng)站要根據自己的專(zhuān)業(yè)特點(diǎn)，設計容易針對人群，對搜索引擎友好的版面，加入更多的想法和用戶(hù)喜歡的方式。
　　6. 網(wǎng)站關(guān)鍵詞設置太多
　　這種情況經(jīng)常發(fā)生，很多網(wǎng)站管理者在設置網(wǎng)站關(guān)鍵詞時(shí)都認為“設置的關(guān)鍵詞越多，排名的機會(huì )就越大”。先不說(shuō)能不能優(yōu)化。合理的網(wǎng)站關(guān)鍵字設置要根據自己的網(wǎng)站規劃和數據狀況來(lái)確定。不是越多越好，而是越準越好。嗯，不然的話(huà)，關(guān)鍵詞數量設置太多，可能無(wú)法監控和推廣，優(yōu)化太分散了。結果，沒(méi)有一個(gè)關(guān)鍵字被推上去。
　　優(yōu)采云采集器云采集可以配置采集任務(wù)，然后關(guān)機，任務(wù)可以在云端執行，大量企業(yè)云，24*7不間斷運行，再也不用擔心IP被封、網(wǎng)絡(luò )中斷、瞬間采集海量數據。
　　優(yōu)采云有一個(gè)特殊的新手模式。由于很多人不懂技術(shù)，小白只需要跟著(zhù)操作就可以獲取主流網(wǎng)頁(yè)列表和詳情采集。用過(guò)的人都知道。查看全部

　　匯總:【C#】C#實(shí)現對網(wǎng)站數據的采集和抓取
　　

　　本文介紹C#實(shí)例實(shí)現對網(wǎng)頁(yè)的抓取和分析。分享給大家，供大家參考。具體分析如下：下面是抓取和分析網(wǎng)頁(yè)的類(lèi)。其主要功能有： 1、提取網(wǎng)頁(yè)純文本，去除所有html標簽和javascript代碼 2、提取網(wǎng)頁(yè)鏈接，包括href、frame和iframe3，提取網(wǎng)頁(yè)標題等（其他標簽可以同理推導，正則相同） 4. 可以實(shí)現簡(jiǎn)單的表單提交和cookie保存 /** 作者：華中師范大學(xué)Sunjoy* 如果你改進(jìn)了這個(gè)類(lèi)，請給我一個(gè)代碼（ccnusjy在）* /使用系統；使用系統數據；使用系統。
　　

　　推薦文章:網(wǎng)頁(yè)文本采集,文章采集自動(dòng)發(fā)布
　　關(guān)于這一點(diǎn)，可以說(shuō)是大部分網(wǎng)站的通病。一些網(wǎng)站主頁(yè)雜亂無(wú)章，尤其是網(wǎng)站導航。沒(méi)有用戶(hù)可以感興趣的點(diǎn)擊的地方。都是關(guān)于我們的，公司榮譽(yù)，企業(yè)信息”等等，作為用戶(hù)，你會(huì )看這些內容嗎？
　　根據搜索結果不難看出，大部分企業(yè)網(wǎng)站根本無(wú)法閱讀。用戶(hù)點(diǎn)擊后，首頁(yè)沒(méi)有用戶(hù)想要繼續點(diǎn)擊的內容，直接導致用戶(hù)關(guān)閉頁(yè)面，導致停留時(shí)間過(guò)短。
　　還有一些網(wǎng)站，進(jìn)入首頁(yè)后彈出“歡迎訪(fǎng)問(wèn)什么，在線(xiàn)咨詢(xún)”之類(lèi)的窗口，關(guān)閉后過(guò)一會(huì )又彈出。用戶(hù)很懶惰，沒(méi)有耐心。他希望他點(diǎn)擊的頁(yè)面能直接看到他需要的東西；他不需要這種先關(guān)閉一堆廣告再找內容的頁(yè)面。哪個(gè)網(wǎng)站最終用戶(hù)找到了自己需要的東西，蜘蛛也能判斷出來(lái)，那么蜘蛛就會(huì )認為這個(gè)站點(diǎn)更符合用戶(hù)的體驗需求，從而提升排名。
　　3.基本優(yōu)化操作
　　這一點(diǎn)涉及的內容比較專(zhuān)業(yè)。所謂專(zhuān)業(yè)，只能說(shuō)是用專(zhuān)業(yè)的操作方法，讓用戶(hù)獲得更好的體驗，那么需要注意什么呢？
　　1. 網(wǎng)站內頁(yè)相關(guān)信息排版
　　說(shuō)到相關(guān)性，通俗地說(shuō)，當用戶(hù)訪(fǎng)問(wèn)一個(gè)內容頁(yè)面時(shí)，當該頁(yè)面沒(méi)有他需要的內容時(shí)，你能給他什么樣的建議。具體來(lái)說(shuō)，在同一個(gè)頁(yè)面上，你想向用戶(hù)推薦他可能更需要哪些相關(guān)信息。這就需要我們在文章的底部添加相關(guān)信息列表，方便用戶(hù)體驗，實(shí)現二次甚至三次內鏈轉化。
　　2.文章內容優(yōu)化
　　有了相關(guān)閱讀，用戶(hù)如何在頁(yè)面停留更久？我們一般的做法是拍攝1-3張高度相關(guān)的圖片，分發(fā)給文章；排版不宜過(guò)大或過(guò)??；間距和字符間距不宜太??；標題部分加粗或加紅顯示，讓用戶(hù)一目了然，有興趣從頭讀到尾；這樣自然會(huì )增加用戶(hù)在頁(yè)面的停留時(shí)間，蜘蛛會(huì )給你的網(wǎng)站頁(yè)面加分。
　　

　　3.錯誤頁(yè)面設置——404頁(yè)面
　　如果不小心刪除了文章，或者鏈接失效了，但是沒(méi)有找到，用戶(hù)點(diǎn)擊后頁(yè)面打不開(kāi)，出現錯誤頁(yè)面，也就是我們常說(shuō)的404頁(yè)面. 這個(gè)時(shí)候他是否會(huì )自動(dòng)跳回首頁(yè)或者返回，如果沒(méi)有，結果會(huì )導致用戶(hù)直接關(guān)閉當前窗口，導致停留時(shí)間過(guò)短，增加跳出率，所以這個(gè)頁(yè)面必須設置正確。
　　4.機器人文件設置
　　很多沒(méi)學(xué)過(guò)SEO的朋友可能沒(méi)有聽(tīng)說(shuō)過(guò)這個(gè)，就是網(wǎng)站的根目錄下有沒(méi)有一個(gè)文件，讓蜘蛛知道你的網(wǎng)站哪些信息沒(méi)有需要它爬行，這是需要的。通俗地說(shuō)，就是網(wǎng)站和蜘蛛之間的協(xié)議文件，必須收錄進(jìn)去。
　　5.站點(diǎn)地圖
　　所謂站點(diǎn)地圖，就是用工具抓取網(wǎng)站的鏈接，放到一個(gè)位置，讓蜘蛛通過(guò)你給的鏈接順利爬到整個(gè)站點(diǎn)，推廣收錄更快，從而產(chǎn)生排名。
　　站內SEO優(yōu)化6個(gè)致命錯誤站內SEO優(yōu)化的方法有很多種，有時(shí)候你一直在努力改善網(wǎng)站的文章，卻沒(méi)有注意站內優(yōu)化，網(wǎng)站的流量保持不變。還有一些疏忽大意、錯誤的優(yōu)化方式，或者優(yōu)化思路不同，最終導致優(yōu)化操作時(shí)網(wǎng)站不能收錄或者權限降低的問(wèn)題。
　　1、站內廣告凌亂
　　有些廣告投放得當，不會(huì )對用戶(hù)產(chǎn)生太大的影響。但是很多網(wǎng)站在投放廣告的時(shí)候很多都沒(méi)有把握。經(jīng)?？吹骄W(wǎng)站整個(gè)站頂，側邊欄，浮窗，彈窗，內容頁(yè)都沒(méi)有可以放廣告的地方。掉落，導致用戶(hù)在瀏覽內容時(shí)體驗不佳?？上攵?，這樣的網(wǎng)站有重復訪(fǎng)問(wèn)，極大地損害了用戶(hù)體驗。同時(shí)站長(cháng)廣告聯(lián)盟的實(shí)際收入有多少大家都知道。
　　2.頁(yè)面js效果
　　最常見(jiàn)的情況是，當你點(diǎn)擊網(wǎng)站時(shí)，你會(huì )得到一個(gè)十幾秒甚至更長(cháng)時(shí)間的幻燈片，訪(fǎng)問(wèn)者無(wú)法快進(jìn)，也不看。一些網(wǎng)站還在內容中使用了大量的Flash和廣告特效。我不知道這種方法的效果。我只知道如果不是一些特殊的網(wǎng)站，追求特殊效果的負面效果是延遲頁(yè)面加載時(shí)間和訪(fǎng)問(wèn)者時(shí)間，導致跳出率高。
　　

　　3.欄目?jì)热莼祀s
　　我說(shuō)的就是這個(gè)，包括很多有同樣疑問(wèn)的站長(cháng)。不管是公司網(wǎng)站、論壇還是個(gè)人網(wǎng)站，如果有節目，那么內容更新應該分類(lèi)，讓不同節目的內容各有特色，方便用戶(hù)瀏覽并檢查。而很多時(shí)候更新后內容亂七八糟，這也與建站時(shí)節目劃分設置不當有很大關(guān)系。直接的結果是，當我需要查找某類(lèi)內容時(shí)，我不知道是在哪個(gè)程序下發(fā)布的。
　　4. 文章說(shuō)話(huà)太多，注意力不集中
　　這是一個(gè)關(guān)系到每個(gè)人的寫(xiě)作水平和習慣的問(wèn)題。很多時(shí)候，百字能說(shuō)清楚的東西，百字難以表達，這完全違背了內容清晰、短小精悍的原則。大部分的參觀(guān)者都沒(méi)有那么大的耐心原封不動(dòng)地看完，就算留下來(lái)看一看，那形象也一定很差。結果是 100% 的高跳出率和糟糕的回訪(fǎng)率。網(wǎng)站內容自動(dòng) 采集，自動(dòng)上傳網(wǎng)站已更新
　　5.網(wǎng)站內容布局規劃老套路
　　每個(gè)人都有隨波逐流的習慣，而我在調整網(wǎng)站組織的時(shí)候，別人做什么，包括我自己，我也有循規蹈矩的習慣。在很多情況下，這確實(shí)是可以的，省時(shí)省力。騰訊不就是為了做大才學(xué)會(huì )這個(gè)方法的嗎？但是，如果一味跟風(fēng)而不知道別人為什么這樣做，如果別人能做好，變強，在我們手里可能就不是好事了。不一樣網(wǎng)站要根據自己的專(zhuān)業(yè)特點(diǎn)，設計容易針對人群，對搜索引擎友好的版面，加入更多的想法和用戶(hù)喜歡的方式。
　　6. 網(wǎng)站關(guān)鍵詞設置太多
　　這種情況經(jīng)常發(fā)生，很多網(wǎng)站管理者在設置網(wǎng)站關(guān)鍵詞時(shí)都認為“設置的關(guān)鍵詞越多，排名的機會(huì )就越大”。先不說(shuō)能不能優(yōu)化。合理的網(wǎng)站關(guān)鍵字設置要根據自己的網(wǎng)站規劃和數據狀況來(lái)確定。不是越多越好，而是越準越好。嗯，不然的話(huà)，關(guān)鍵詞數量設置太多，可能無(wú)法監控和推廣，優(yōu)化太分散了。結果，沒(méi)有一個(gè)關(guān)鍵字被推上去。
　　優(yōu)采云采集器云采集可以配置采集任務(wù)，然后關(guān)機，任務(wù)可以在云端執行，大量企業(yè)云，24*7不間斷運行，再也不用擔心IP被封、網(wǎng)絡(luò )中斷、瞬間采集海量數據。
　　優(yōu)采云有一個(gè)特殊的新手模式。由于很多人不懂技術(shù)，小白只需要跟著(zhù)操作就可以獲取主流網(wǎng)頁(yè)列表和詳情采集。用過(guò)的人都知道。

解決方案:JM2022綜述 | 黃金領(lǐng)域: 為營(yíng)銷(xiāo)研究(新洞察)采集網(wǎng)絡(luò )數據

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 303 次瀏覽 ? 2022-12-07 20:21 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:JM2022綜述 | 黃金領(lǐng)域: 為營(yíng)銷(xiāo)研究(新洞察)采集網(wǎng)絡(luò )數據
　　
　　Boegershausen、Johannes、Hannes Datta、Abhishek Borah 和 Andrew Stephen?！包S金領(lǐng)域：抓取網(wǎng)絡(luò )數據以獲得營(yíng)銷(xiāo)洞察力?！?市場(chǎng)營(yíng)銷(xiāo)雜志 (2022)。
　　本文是JM不可多得的技術(shù)流程回顧文章。它很難閱讀，所以我們可能知道發(fā)生了什么?？纯从袥](méi)有你感興趣的研究（方法）就可以了。本文作者專(zhuān)門(mén)為這篇綜述開(kāi)發(fā)了一個(gè)網(wǎng)站，截圖如下
　　概括
　　市場(chǎng)營(yíng)銷(xiāo)學(xué)者越來(lái)越多地使用網(wǎng)絡(luò )爬蟲(chóng)和 API 接口從互聯(lián)網(wǎng)采集數據。盡管網(wǎng)絡(luò )數據被廣泛使用，但很少有學(xué)者關(guān)注采集過(guò)程中面臨的各種挑戰。研究人員如何確保采集的數據集有效？雖然現有資源強調提取網(wǎng)絡(luò )數據的技術(shù)細節，但作者提出了一個(gè)新的方法框架，重點(diǎn)是提高其有效性。該框架特別強調，解決有效性問(wèn)題需要在數據采集（選擇數據源、設計數據采集和提取數據）的三個(gè)階段共同考慮技術(shù)和法律/倫理問(wèn)題。作者進(jìn)一步審查了 300 篇營(yíng)銷(xiāo) Top5 期刊中使用網(wǎng)絡(luò )數據的論文，并總結了如何使用網(wǎng)絡(luò )數據來(lái)促進(jìn)營(yíng)銷(xiāo)研究。本文最后指出了未來(lái)研究的方向、高價(jià)值的網(wǎng)絡(luò )數據源和新方法。
　　關(guān)鍵詞：
　　-?web?scraping<br />-?application?programming?interface,?API<br />-?crawling<br />-?validity<br />-?user-generated?content<br />-?social?media<br />big?data<br />
　　一、網(wǎng)絡(luò )數據的魅力
　　社會(huì )和商業(yè)生活的加速數字化創(chuàng )造了前所未有的消費者和商業(yè)行為數字痕跡。每分鐘，全球用戶(hù)在 Google 上進(jìn)行 570 萬(wàn)次搜索，進(jìn)行 600 萬(wàn)次商業(yè)交易，并在 Instagram 上分享 65,000 張照片（Statista 2021）。由此產(chǎn)生的網(wǎng)絡(luò )數據——規模大、形式多樣，并且通?？梢栽诨ヂ?lián)網(wǎng)上公開(kāi)訪(fǎng)問(wèn)——對于想要量化消費、深入了解企業(yè)行為以及跟蹤難以或昂貴的社會(huì )活動(dòng)的營(yíng)銷(xiāo)學(xué)者來(lái)說(shuō)非常感興趣。觀(guān)察。這是一個(gè)潛在的金礦。網(wǎng)絡(luò )數據對營(yíng)銷(xiāo)研究的重要性體現在越來(lái)越多的有影響力的出版物中，這些出版物涵蓋消費者文化理論、消費者心理學(xué)、實(shí)證建模和營(yíng)銷(xiāo)策略等。
　　
　　經(jīng)過(guò)對營(yíng)銷(xiāo)領(lǐng)域排名前5的期刊（JM、JMR、JCR、JCP、MS）的313篇論文進(jìn)行整理，繪制出圖1（圖1）后，使用網(wǎng)絡(luò )數據的研究量呈快速上升趨勢。使用在線(xiàn)數據的論文比例將從2010年的4%增加到2020年的15%。作者313篇論文，數據獲取方式統計
　　使用在線(xiàn)數據的論文的平均引用次數為 7.55，遠高于非網(wǎng)絡(luò )數據的 3.90。
　　利用網(wǎng)絡(luò )數據做新的研究，大致有4種實(shí)現路徑
　　研究新現象、新場(chǎng)景繁榮生態(tài)價(jià)值促進(jìn)方法學(xué)進(jìn)步改進(jìn)測量結果（快、準、好、全）
　　2.data采集的方法框架
　　在使用**網(wǎng)絡(luò )爬蟲(chóng)和 API** 自動(dòng)采集網(wǎng)絡(luò )數據時(shí)，研究人員通常會(huì )在**研究有效性、技術(shù)可行性和法律/倫理風(fēng)險**1 之間權衡利弊。研究人員如何解決這些問(wèn)題？權衡通過(guò)增強或削弱統計結論有效性、內部有效性、結構有效性和外部有效性來(lái)塑造研究結果的可信度（Shadish、Cook 和 Campbell 2002）。
　　本文開(kāi)發(fā)了一個(gè)方法框架，為使用網(wǎng)絡(luò )爬蟲(chóng)和 API 自動(dòng)采集網(wǎng)絡(luò )數據提供了指導。圖 2 涵蓋三個(gè)關(guān)鍵階段
　　執行數據采集
　　研究人員通常從一組廣泛的潛在數據源開(kāi)始，然后根據三個(gè)關(guān)鍵考慮因素篩選出其中一些：有效性、技術(shù)可行性和法律/道德風(fēng)險。這三個(gè)考慮因素出現在倒金字塔的角落，底部的有效性強調了它們的重要性。鑒于在采集最終數據集之前難以預測最終數據集的確切特征，研究人員在設計、原型制作和改進(jìn)數據采集時(shí)經(jīng)常重新考慮這些因素。未能解決技術(shù)或法律/倫理問(wèn)題可能意味著(zhù)網(wǎng)絡(luò )數據無(wú)法為研究問(wèn)題提供有意義的信息。
　　
　　2.1 數據源面臨的挑戰（解決方案）探索潛在的網(wǎng)絡(luò )數據源考慮網(wǎng)絡(luò )爬蟲(chóng)的替代方案將數據與場(chǎng)景相結合
　　2.2 設計數據采集方案從頁(yè)面中提取信息，從有效性、合法性、技術(shù)可行性三個(gè)方面進(jìn)行論證。如何進(jìn)行數據采樣？數據采集多久一次（每天、每周、每月）
　　2.3 執行數據采集如何提高爬蟲(chóng)運行效率如何監控數據質(zhì)量組織數據文件（記錄）
　　一些參考資料
　　[1]Allard,?Thomas,?Lea?H.?Dunn,?and?Katherine?White.?"Negative?reviews,?positive?impact:?Consumer?empathetic?responding?to?unfair?word?of?mouth."?Journal?of?Marketing?84,?no.?4?(2020):?86-108.<br />[2]Gao,?Weihe,?Li?Ji,?Yong?Liu,?and?Qi?Sun.?"Branding?cultural?products?in?international?markets:?a?study?of?hollywood?movies?in?China."?Journal?of?Marketing?84,?no.?3?(2020):?86-105.<br />[3]Reich,?Taly,?and?Sam?J.?Maglio.?"Featuring?mistakes:?The?persuasive?impact?of?purchase?mistakes?in?online?reviews."?Journal?of?Marketing?84,?no.?1?(2020):?52-65.<br />[4]Lee,?Jeffrey?K.,?and?Ann?Kronrod.?"The?strength?of?weak-tie?consensus?language."?Journal?of?Marketing?Research?57,?no.?2?(2020):?353-374.<br />[5]Matz,?Sandra?C.,?Cristina?Segalin,?David?Stillwell,?Sandrine?R.?Müller,?and?Maarten?W.?Bos.?"Predicting?the?personal?appeal?of?marketing?images?using?computational?methods."?Journal?of?Consumer?Psychology?29,?no.?3?(2019):?370-390.<br />[6]Dai,?Hengchen,?and?Dennis?J.?Zhang.?"Prosocial?goal?pursuit?in?crowdfunding:?Evidence?from?kickstarter."?Journal?of?Marketing?Research?56,?no.?3?(2019):?498-517.<br />[7]Luffarelli,?Jonathan,?Mudra?Mukesh,?and?Ammara?Mahmood.?"Let?the?logo?do?the?talking:?The?influence?of?logo?descriptiveness?on?brand?equity."?Journal?of?Marketing?Research?56,?no.?5?(2019):?862-878.<br />[8]Bond,?Samuel?D.,?Stephen?X.?He,?and?Wen?Wen.?"Speaking?for?“free”:?Word?of?mouth?in?free-and?paid-product?settings."?Journal?of?Marketing?Research?56,?no.?2?(2019):?276-290.<br />[9]Han,?Kyuhong,?Jihye?Jung,?Vikas?Mittal,?Jinyong?Daniel?Zyung,?and?Hajo?Adam.?"Political?identity?and?financial?risk?taking:?Insights?from?social?dominance?orientation."?Journal?of?Marketing?Research?56,?no.?4?(2019):?581-601.<br />[10]Netzer,?Oded,?Alain?Lemaire,?and?Michal?Herzenstein.?"When?words?sweat:?Identifying?signals?for?loan?default?in?the?text?of?loan?applications."?Journal?of?Marketing?Research?56,?no.?6?(2019):?960-980.<br />[11]Toubia,?Olivier,?Garud?Iyengar,?Renée?Bunnell,?and?Alain?Lemaire.?"Extracting?features?of?entertainment?products:?A?guided?latent?dirichlet?allocation?approach?informed?by?the?psychology?of?media?consumption."?Journal?of?Marketing?Research?56,?no.?1?(2019):?18-36.<br />[12]Van?Laer,?Tom,?Jennifer?Edson?Escalas,?Stephan?Ludwig,?and?Ellis?A.?Van?Den?Hende.?"What?happens?in?Vegas?stays?on?TripAdvisor??A?theory?and?technique?to?understand?narrativity?in?consumer?reviews."?Journal?of?Consumer?Research?46,?no.?2?(2019):?267-285.<br />[13]Zhong,?Ning,?and?David?A.?Schweidel.?"Capturing?changes?in?social?media?content:?A?multiple?latent?changepoint?topic?model."?Marketing?Science?39,?no.?4?(2020):?827-846.<br />[14]Colicev,?Anatoli,?Ashwin?Malshe,?Koen?Pauwels,?and?Peter?O'Connor.?"Improving?consumer?mindset?metrics?and?shareholder?value?through?social?media:?The?different?roles?of?owned?and?earned?media."?Journal?of?Marketing?82,?no.?1?(2018):?37-56.<br />[15]Liu,?Xuan,?Savannah?Wei?Shi,?Thales?Teixeira,?and?Michel?Wedel.?"Video?content?marketing:?The?making?of?clips."?Journal?of?Marketing?82,?no.?4?(2018):?86-101.<br />[16]Liu,?Jia,?and?Olivier?Toubia.?"A?semantic?approach?for?estimating?consumer?content?preferences?from?online?search?queries."?Marketing?Science?37,?no.?6?(2018):?930-952.<br />[17]Nam,?Hyoryung,?Yogesh?V.?Joshi,?and?P.?K.?Kannan.?"Harvesting?brand?information?from?social?tags."?Journal?of?Marketing?81,?no.?4?(2017):?88-108.<br />[18]Packard,?Grant,?and?Jonah?Berger.?"How?language?shapes?word?of?mouth's?impact."?Journal?of?Marketing?Research?54,?no.?4?(2017):?572-588.<br />
　　
　　精選文章<p style="outline: 0px;color: rgb(63, 63, 63);font-size: 15px;letter-spacing: 0px;white-space: normal;font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;line-height: normal;">管理世界 | 使用文本分析詞構建并測量短視主義
　　管理世界 | 使用經(jīng)營(yíng)討論與分析測量企業(yè)數字化指標
　　支持開(kāi)票 | Python實(shí)證指標構建與文本分析
　　推薦 | 社科(經(jīng)管)文本分析快速指南<br style="outline: 0px;" />
　　視頻分享 | 文本分析在經(jīng)管研究中的應用
　　轉載 | 金融學(xué)文本大數據挖掘方法與研究進(jìn)展<br style="outline: 0px;" />
　　FinBERT | 金融文本BERT模型，可情感分析、識別ESG和FLS類(lèi)型</p>
　　<p style="outline: 0px;color: rgb(63, 63, 63);font-size: 15px;letter-spacing: 0px;white-space: normal;font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;line-height: normal;">100min視頻 | Python文本分析與會(huì )計
　　安裝python包出現報錯：Microsoft Visual 14.0 or greater is required. 怎么辦？
　　如何正確讀入文本數據不亂碼(解決文本亂碼問(wèn)題)
　　Faker庫 | 生成實(shí)驗數據</p>
　　解決方案:小程序用戶(hù)行為數據采集器講解
　　小程序用戶(hù)行為數據說(shuō)明采集器
　　
　?。?會(huì )員免費觀(guān)看
　　我有幸福的家庭
　　
　　進(jìn)入大數據時(shí)代后，很多企業(yè)都建立了自己的大數據分析平臺。企業(yè)有能力通過(guò)海量數據分析用戶(hù)行為，構建用戶(hù)畫(huà)像。這些數據很大一部分來(lái)自采集公司自己的應用客戶(hù)端?，F在小程序的興起，給公司帶來(lái)了大量的用戶(hù)，我們也需要采集用戶(hù)行為數據。作者開(kāi)發(fā)的采集器已在網(wǎng)易產(chǎn)品中廣泛使用，希望通過(guò)這次分享對大家有所幫助。
　　本期分享小程序用戶(hù)行為采集器開(kāi)發(fā)的實(shí)踐經(jīng)驗，會(huì )涉及到以下幾點(diǎn)：
　　用戶(hù)行為設計思路采集器；自動(dòng)采集小程序自帶信息；用戶(hù)分享跟進(jìn)追蹤信息采集設計；渠道推廣設計；主要API設計；實(shí)現一套SDK兼容微信小程序、字節跳動(dòng)小程序、支付寶小程序、百度小程序；采集器的編譯和打包；開(kāi)發(fā)文檔生成器Gitbook簡(jiǎn)介。查看全部

　　解決方案:JM2022綜述 | 黃金領(lǐng)域: 為營(yíng)銷(xiāo)研究(新洞察)采集網(wǎng)絡(luò )數據
　　
　　Boegershausen、Johannes、Hannes Datta、Abhishek Borah 和 Andrew Stephen?！包S金領(lǐng)域：抓取網(wǎng)絡(luò )數據以獲得營(yíng)銷(xiāo)洞察力?！?市場(chǎng)營(yíng)銷(xiāo)雜志 (2022)。
　　本文是JM不可多得的技術(shù)流程回顧文章。它很難閱讀，所以我們可能知道發(fā)生了什么?？纯从袥](méi)有你感興趣的研究（方法）就可以了。本文作者專(zhuān)門(mén)為這篇綜述開(kāi)發(fā)了一個(gè)網(wǎng)站，截圖如下
　　概括
　　市場(chǎng)營(yíng)銷(xiāo)學(xué)者越來(lái)越多地使用網(wǎng)絡(luò )爬蟲(chóng)和 API 接口從互聯(lián)網(wǎng)采集數據。盡管網(wǎng)絡(luò )數據被廣泛使用，但很少有學(xué)者關(guān)注采集過(guò)程中面臨的各種挑戰。研究人員如何確保采集的數據集有效？雖然現有資源強調提取網(wǎng)絡(luò )數據的技術(shù)細節，但作者提出了一個(gè)新的方法框架，重點(diǎn)是提高其有效性。該框架特別強調，解決有效性問(wèn)題需要在數據采集（選擇數據源、設計數據采集和提取數據）的三個(gè)階段共同考慮技術(shù)和法律/倫理問(wèn)題。作者進(jìn)一步審查了 300 篇營(yíng)銷(xiāo) Top5 期刊中使用網(wǎng)絡(luò )數據的論文，并總結了如何使用網(wǎng)絡(luò )數據來(lái)促進(jìn)營(yíng)銷(xiāo)研究。本文最后指出了未來(lái)研究的方向、高價(jià)值的網(wǎng)絡(luò )數據源和新方法。
　　關(guān)鍵詞：
　　-?web?scraping<br />-?application?programming?interface,?API<br />-?crawling<br />-?validity<br />-?user-generated?content<br />-?social?media<br />big?data<br />
　　一、網(wǎng)絡(luò )數據的魅力
　　社會(huì )和商業(yè)生活的加速數字化創(chuàng )造了前所未有的消費者和商業(yè)行為數字痕跡。每分鐘，全球用戶(hù)在 Google 上進(jìn)行 570 萬(wàn)次搜索，進(jìn)行 600 萬(wàn)次商業(yè)交易，并在 Instagram 上分享 65,000 張照片（Statista 2021）。由此產(chǎn)生的網(wǎng)絡(luò )數據——規模大、形式多樣，并且通?？梢栽诨ヂ?lián)網(wǎng)上公開(kāi)訪(fǎng)問(wèn)——對于想要量化消費、深入了解企業(yè)行為以及跟蹤難以或昂貴的社會(huì )活動(dòng)的營(yíng)銷(xiāo)學(xué)者來(lái)說(shuō)非常感興趣。觀(guān)察。這是一個(gè)潛在的金礦。網(wǎng)絡(luò )數據對營(yíng)銷(xiāo)研究的重要性體現在越來(lái)越多的有影響力的出版物中，這些出版物涵蓋消費者文化理論、消費者心理學(xué)、實(shí)證建模和營(yíng)銷(xiāo)策略等。
　　

　　經(jīng)過(guò)對營(yíng)銷(xiāo)領(lǐng)域排名前5的期刊（JM、JMR、JCR、JCP、MS）的313篇論文進(jìn)行整理，繪制出圖1（圖1）后，使用網(wǎng)絡(luò )數據的研究量呈快速上升趨勢。使用在線(xiàn)數據的論文比例將從2010年的4%增加到2020年的15%。作者313篇論文，數據獲取方式統計
　　使用在線(xiàn)數據的論文的平均引用次數為 7.55，遠高于非網(wǎng)絡(luò )數據的 3.90。
　　利用網(wǎng)絡(luò )數據做新的研究，大致有4種實(shí)現路徑
　　研究新現象、新場(chǎng)景繁榮生態(tài)價(jià)值促進(jìn)方法學(xué)進(jìn)步改進(jìn)測量結果（快、準、好、全）
　　2.data采集的方法框架
　　在使用**網(wǎng)絡(luò )爬蟲(chóng)和 API** 自動(dòng)采集網(wǎng)絡(luò )數據時(shí)，研究人員通常會(huì )在**研究有效性、技術(shù)可行性和法律/倫理風(fēng)險**1 之間權衡利弊。研究人員如何解決這些問(wèn)題？權衡通過(guò)增強或削弱統計結論有效性、內部有效性、結構有效性和外部有效性來(lái)塑造研究結果的可信度（Shadish、Cook 和 Campbell 2002）。
　　本文開(kāi)發(fā)了一個(gè)方法框架，為使用網(wǎng)絡(luò )爬蟲(chóng)和 API 自動(dòng)采集網(wǎng)絡(luò )數據提供了指導。圖 2 涵蓋三個(gè)關(guān)鍵階段
　　執行數據采集
　　研究人員通常從一組廣泛的潛在數據源開(kāi)始，然后根據三個(gè)關(guān)鍵考慮因素篩選出其中一些：有效性、技術(shù)可行性和法律/道德風(fēng)險。這三個(gè)考慮因素出現在倒金字塔的角落，底部的有效性強調了它們的重要性。鑒于在采集最終數據集之前難以預測最終數據集的確切特征，研究人員在設計、原型制作和改進(jìn)數據采集時(shí)經(jīng)常重新考慮這些因素。未能解決技術(shù)或法律/倫理問(wèn)題可能意味著(zhù)網(wǎng)絡(luò )數據無(wú)法為研究問(wèn)題提供有意義的信息。
　　

　　2.1 數據源面臨的挑戰（解決方案）探索潛在的網(wǎng)絡(luò )數據源考慮網(wǎng)絡(luò )爬蟲(chóng)的替代方案將數據與場(chǎng)景相結合
　　2.2 設計數據采集方案從頁(yè)面中提取信息，從有效性、合法性、技術(shù)可行性三個(gè)方面進(jìn)行論證。如何進(jìn)行數據采樣？數據采集多久一次（每天、每周、每月）
　　2.3 執行數據采集如何提高爬蟲(chóng)運行效率如何監控數據質(zhì)量組織數據文件（記錄）
　　一些參考資料
　　[1]Allard,?Thomas,?Lea?H.?Dunn,?and?Katherine?White.?"Negative?reviews,?positive?impact:?Consumer?empathetic?responding?to?unfair?word?of?mouth."?Journal?of?Marketing?84,?no.?4?(2020):?86-108.<br />[2]Gao,?Weihe,?Li?Ji,?Yong?Liu,?and?Qi?Sun.?"Branding?cultural?products?in?international?markets:?a?study?of?hollywood?movies?in?China."?Journal?of?Marketing?84,?no.?3?(2020):?86-105.<br />[3]Reich,?Taly,?and?Sam?J.?Maglio.?"Featuring?mistakes:?The?persuasive?impact?of?purchase?mistakes?in?online?reviews."?Journal?of?Marketing?84,?no.?1?(2020):?52-65.<br />[4]Lee,?Jeffrey?K.,?and?Ann?Kronrod.?"The?strength?of?weak-tie?consensus?language."?Journal?of?Marketing?Research?57,?no.?2?(2020):?353-374.<br />[5]Matz,?Sandra?C.,?Cristina?Segalin,?David?Stillwell,?Sandrine?R.?Müller,?and?Maarten?W.?Bos.?"Predicting?the?personal?appeal?of?marketing?images?using?computational?methods."?Journal?of?Consumer?Psychology?29,?no.?3?(2019):?370-390.<br />[6]Dai,?Hengchen,?and?Dennis?J.?Zhang.?"Prosocial?goal?pursuit?in?crowdfunding:?Evidence?from?kickstarter."?Journal?of?Marketing?Research?56,?no.?3?(2019):?498-517.<br />[7]Luffarelli,?Jonathan,?Mudra?Mukesh,?and?Ammara?Mahmood.?"Let?the?logo?do?the?talking:?The?influence?of?logo?descriptiveness?on?brand?equity."?Journal?of?Marketing?Research?56,?no.?5?(2019):?862-878.<br />[8]Bond,?Samuel?D.,?Stephen?X.?He,?and?Wen?Wen.?"Speaking?for?“free”:?Word?of?mouth?in?free-and?paid-product?settings."?Journal?of?Marketing?Research?56,?no.?2?(2019):?276-290.<br />[9]Han,?Kyuhong,?Jihye?Jung,?Vikas?Mittal,?Jinyong?Daniel?Zyung,?and?Hajo?Adam.?"Political?identity?and?financial?risk?taking:?Insights?from?social?dominance?orientation."?Journal?of?Marketing?Research?56,?no.?4?(2019):?581-601.<br />[10]Netzer,?Oded,?Alain?Lemaire,?and?Michal?Herzenstein.?"When?words?sweat:?Identifying?signals?for?loan?default?in?the?text?of?loan?applications."?Journal?of?Marketing?Research?56,?no.?6?(2019):?960-980.<br />[11]Toubia,?Olivier,?Garud?Iyengar,?Renée?Bunnell,?and?Alain?Lemaire.?"Extracting?features?of?entertainment?products:?A?guided?latent?dirichlet?allocation?approach?informed?by?the?psychology?of?media?consumption."?Journal?of?Marketing?Research?56,?no.?1?(2019):?18-36.<br />[12]Van?Laer,?Tom,?Jennifer?Edson?Escalas,?Stephan?Ludwig,?and?Ellis?A.?Van?Den?Hende.?"What?happens?in?Vegas?stays?on?TripAdvisor??A?theory?and?technique?to?understand?narrativity?in?consumer?reviews."?Journal?of?Consumer?Research?46,?no.?2?(2019):?267-285.<br />[13]Zhong,?Ning,?and?David?A.?Schweidel.?"Capturing?changes?in?social?media?content:?A?multiple?latent?changepoint?topic?model."?Marketing?Science?39,?no.?4?(2020):?827-846.<br />[14]Colicev,?Anatoli,?Ashwin?Malshe,?Koen?Pauwels,?and?Peter?O'Connor.?"Improving?consumer?mindset?metrics?and?shareholder?value?through?social?media:?The?different?roles?of?owned?and?earned?media."?Journal?of?Marketing?82,?no.?1?(2018):?37-56.<br />[15]Liu,?Xuan,?Savannah?Wei?Shi,?Thales?Teixeira,?and?Michel?Wedel.?"Video?content?marketing:?The?making?of?clips."?Journal?of?Marketing?82,?no.?4?(2018):?86-101.<br />[16]Liu,?Jia,?and?Olivier?Toubia.?"A?semantic?approach?for?estimating?consumer?content?preferences?from?online?search?queries."?Marketing?Science?37,?no.?6?(2018):?930-952.<br />[17]Nam,?Hyoryung,?Yogesh?V.?Joshi,?and?P.?K.?Kannan.?"Harvesting?brand?information?from?social?tags."?Journal?of?Marketing?81,?no.?4?(2017):?88-108.<br />[18]Packard,?Grant,?and?Jonah?Berger.?"How?language?shapes?word?of?mouth's?impact."?Journal?of?Marketing?Research?54,?no.?4?(2017):?572-588.<br />
　　
　　精選文章<p style="outline: 0px;color: rgb(63, 63, 63);font-size: 15px;letter-spacing: 0px;white-space: normal;font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;line-height: normal;">管理世界 | 使用文本分析詞構建并測量短視主義
　　管理世界 | 使用經(jīng)營(yíng)討論與分析測量企業(yè)數字化指標
　　支持開(kāi)票 | Python實(shí)證指標構建與文本分析
　　推薦 | 社科(經(jīng)管)文本分析快速指南<br style="outline: 0px;" />
　　視頻分享 | 文本分析在經(jīng)管研究中的應用
　　轉載 | 金融學(xué)文本大數據挖掘方法與研究進(jìn)展<br style="outline: 0px;" />
　　FinBERT | 金融文本BERT模型，可情感分析、識別ESG和FLS類(lèi)型</p>
　　<p style="outline: 0px;color: rgb(63, 63, 63);font-size: 15px;letter-spacing: 0px;white-space: normal;font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;line-height: normal;">100min視頻 | Python文本分析與會(huì )計
　　安裝python包出現報錯：Microsoft Visual 14.0 or greater is required. 怎么辦？
　　如何正確讀入文本數據不亂碼(解決文本亂碼問(wèn)題)
　　Faker庫 | 生成實(shí)驗數據</p>
　　解決方案:小程序用戶(hù)行為數據采集器講解
　　小程序用戶(hù)行為數據說(shuō)明采集器
　　

　?。?會(huì )員免費觀(guān)看
　　我有幸福的家庭
　　

　　進(jìn)入大數據時(shí)代后，很多企業(yè)都建立了自己的大數據分析平臺。企業(yè)有能力通過(guò)海量數據分析用戶(hù)行為，構建用戶(hù)畫(huà)像。這些數據很大一部分來(lái)自采集公司自己的應用客戶(hù)端?，F在小程序的興起，給公司帶來(lái)了大量的用戶(hù)，我們也需要采集用戶(hù)行為數據。作者開(kāi)發(fā)的采集器已在網(wǎng)易產(chǎn)品中廣泛使用，希望通過(guò)這次分享對大家有所幫助。
　　本期分享小程序用戶(hù)行為采集器開(kāi)發(fā)的實(shí)踐經(jīng)驗，會(huì )涉及到以下幾點(diǎn)：
　　用戶(hù)行為設計思路采集器；自動(dòng)采集小程序自帶信息；用戶(hù)分享跟進(jìn)追蹤信息采集設計；渠道推廣設計；主要API設計；實(shí)現一套SDK兼容微信小程序、字節跳動(dòng)小程序、支付寶小程序、百度小程序；采集器的編譯和打包；開(kāi)發(fā)文檔生成器Gitbook簡(jiǎn)介。

詳細數據:采集操縱桿數據

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 145 次瀏覽 ? 2022-12-07 14:54 ? 來(lái)自相關(guān)話(huà)題

　　詳細數據:采集操縱桿數據
　　
　　X-Plane Connect X-Plane Connect (XPC) 工具箱是一個(gè)開(kāi)源研究工具，用于與商業(yè)飛行模擬器軟件 X-Plane 進(jìn)行交互。XPC 允許用戶(hù)使用用 C、C++、Java、MATLAB 或 Python 編寫(xiě)的函數通過(guò)網(wǎng)絡(luò )實(shí)時(shí)控制飛行器，并從 X-Plane 模擬飛行器接收狀態(tài)信息。該研究工具已用于可視化飛行路徑、測試控制算法、模擬活動(dòng)空域或為內部飛行模擬軟件生成窗外視覺(jué)效果?？赡艿膽冒?XPlane 模擬的主動(dòng)控制、飛行可視化、飛行期間的記錄狀態(tài)或通過(guò) UDP 與任務(wù)交互。架構 XPC 由一個(gè) X-Plane 插件 (xpcPlugin) 和用多種語(yǔ)言編寫(xiě)的與插件交互的客戶(hù)端組成?？焖偃腴T(mén) 要開(kāi)始使用 X-Plane Connect，請執行以下操作。購買(mǎi)并安裝 X-Plane 9、10 或 11。從最新版本頁(yè)面下載 XPlaneConnect.zip 文件。將 .zip 存檔的內容復制到插件目錄
　　
　　教程:優(yōu)采云采集器如何抓取圖片數據_優(yōu)采云采集器數據抓取步驟
　　作者|肖法茂
　　資料來(lái)源|武陽(yáng)縣第一高級中學(xué)（編號：EC-MKT）。
　　html抓取移動(dòng)版、網(wǎng)頁(yè)采集提取數據教程，以自定義抓取方式為例-優(yōu)采云采集器._weixin_39883286博客-CSDN博客按鈕，選擇【自定義抓取方式】，可以看到優(yōu)采云自動(dòng)為我們選擇了【抓取圖片網(wǎng)址（IMG標簽的src屬性）】。這里只是抓取圖片時(shí)使用的抓圖方法，具體圖片采集優(yōu)采云采集器新手采集教程如何使用——上次軟件園教你如何安裝優(yōu)采云采集器，這次小編就帶你了解一下如何使用優(yōu)采云采集器，啟動(dòng)你的第一個(gè)數據采集，稍等片刻，軟件會(huì )自行啟動(dòng)將數據抓取到指定頁(yè)面。
　　
　　表數據采集圖形策略：優(yōu)采云采集器-百度體驗電腦軟件名稱(chēng)：優(yōu)采云采集大?。?0MB |版本：3.2|類(lèi)別讓我們看看如何使用優(yōu)采云采集器來(lái)采集表樣式的數據，以關(guān)鍵詞結果頁(yè)面的愛(ài)站關(guān)鍵詞挖掘“Messi”為例今天如何使用優(yōu)采云數據采集器（使用優(yōu)采云采集器抓取網(wǎng)絡(luò )數據）華夏文化傳播網(wǎng) 優(yōu)采云數據采集器如何使用，使用優(yōu)采云采集器抓取網(wǎng)站數據很多人不知道，現在讓我們來(lái)看看！2、登錄后，進(jìn)入軟件首頁(yè)，點(diǎn)擊任務(wù)->新建>自定義采集。
　　優(yōu)采云采集器如何
　　使用新手采集教程 - System Home 上次教你如何安裝優(yōu)采云采集器，這次小編就帶你了解如何使用優(yōu)采云采集器，啟動(dòng)你的第一個(gè)數據采集，稍晚一會(huì )兒，軟件會(huì )自行啟動(dòng)抓取數據到指定頁(yè)面?！皟?yōu)采云采集器”如何自定義捕獲選擇“采集以下數據” 4）選擇字段，點(diǎn)擊垃圾桶圖標，如果要在第8頁(yè)后采集短評論，需要在優(yōu)采云流程圖中添加登錄步驟（先登錄豆瓣賬號，再進(jìn)行短評論采集）。
　　
　　優(yōu)采云采集器如何使用優(yōu)采云采集器
　　詳細的圖形和文字使用策略軟件名稱(chēng)：優(yōu)采云采集器（網(wǎng)絡(luò )數據采集器） V6.4正式安裝版軟件大?。?7.6MB 更新時(shí)間：2017-05-19 第一步是打開(kāi)優(yōu)采云軟件，點(diǎn)擊快速啟動(dòng)，創(chuàng )建新任務(wù)的第二步優(yōu)采云采集器如何采集網(wǎng)頁(yè)文本內容-優(yōu)采云采集器采集網(wǎng)頁(yè)文本內容的方法-河東手機站優(yōu)采云采集器是一款多功能的網(wǎng)頁(yè)信息采集工具，該軟件采用新的信息捕獲模式，可以幫助用戶(hù)更快地采集網(wǎng)頁(yè)中的數據，并且可以在每個(gè)網(wǎng)頁(yè)模塊中。
　　——完—— 查看全部

　　詳細數據:采集操縱桿數據
　　

　　X-Plane Connect X-Plane Connect (XPC) 工具箱是一個(gè)開(kāi)源研究工具，用于與商業(yè)飛行模擬器軟件 X-Plane 進(jìn)行交互。XPC 允許用戶(hù)使用用 C、C++、Java、MATLAB 或 Python 編寫(xiě)的函數通過(guò)網(wǎng)絡(luò )實(shí)時(shí)控制飛行器，并從 X-Plane 模擬飛行器接收狀態(tài)信息。該研究工具已用于可視化飛行路徑、測試控制算法、模擬活動(dòng)空域或為內部飛行模擬軟件生成窗外視覺(jué)效果?？赡艿膽冒?XPlane 模擬的主動(dòng)控制、飛行可視化、飛行期間的記錄狀態(tài)或通過(guò) UDP 與任務(wù)交互。架構 XPC 由一個(gè) X-Plane 插件 (xpcPlugin) 和用多種語(yǔ)言編寫(xiě)的與插件交互的客戶(hù)端組成?？焖偃腴T(mén) 要開(kāi)始使用 X-Plane Connect，請執行以下操作。購買(mǎi)并安裝 X-Plane 9、10 或 11。從最新版本頁(yè)面下載 XPlaneConnect.zip 文件。將 .zip 存檔的內容復制到插件目錄
　　

　　教程:優(yōu)采云采集器如何抓取圖片數據_優(yōu)采云采集器數據抓取步驟
　　作者|肖法茂
　　資料來(lái)源|武陽(yáng)縣第一高級中學(xué)（編號：EC-MKT）。
　　html抓取移動(dòng)版、網(wǎng)頁(yè)采集提取數據教程，以自定義抓取方式為例-優(yōu)采云采集器._weixin_39883286博客-CSDN博客按鈕，選擇【自定義抓取方式】，可以看到優(yōu)采云自動(dòng)為我們選擇了【抓取圖片網(wǎng)址（IMG標簽的src屬性）】。這里只是抓取圖片時(shí)使用的抓圖方法，具體圖片采集優(yōu)采云采集器新手采集教程如何使用——上次軟件園教你如何安裝優(yōu)采云采集器，這次小編就帶你了解一下如何使用優(yōu)采云采集器，啟動(dòng)你的第一個(gè)數據采集，稍等片刻，軟件會(huì )自行啟動(dòng)將數據抓取到指定頁(yè)面。
　　

　　表數據采集圖形策略：優(yōu)采云采集器-百度體驗電腦軟件名稱(chēng)：優(yōu)采云采集大?。?0MB |版本：3.2|類(lèi)別讓我們看看如何使用優(yōu)采云采集器來(lái)采集表樣式的數據，以關(guān)鍵詞結果頁(yè)面的愛(ài)站關(guān)鍵詞挖掘“Messi”為例今天如何使用優(yōu)采云數據采集器（使用優(yōu)采云采集器抓取網(wǎng)絡(luò )數據）華夏文化傳播網(wǎng) 優(yōu)采云數據采集器如何使用，使用優(yōu)采云采集器抓取網(wǎng)站數據很多人不知道，現在讓我們來(lái)看看！2、登錄后，進(jìn)入軟件首頁(yè)，點(diǎn)擊任務(wù)->新建>自定義采集。
　　優(yōu)采云采集器如何
　　使用新手采集教程 - System Home 上次教你如何安裝優(yōu)采云采集器，這次小編就帶你了解如何使用優(yōu)采云采集器，啟動(dòng)你的第一個(gè)數據采集，稍晚一會(huì )兒，軟件會(huì )自行啟動(dòng)抓取數據到指定頁(yè)面?！皟?yōu)采云采集器”如何自定義捕獲選擇“采集以下數據” 4）選擇字段，點(diǎn)擊垃圾桶圖標，如果要在第8頁(yè)后采集短評論，需要在優(yōu)采云流程圖中添加登錄步驟（先登錄豆瓣賬號，再進(jìn)行短評論采集）。
　　

　　優(yōu)采云采集器如何使用優(yōu)采云采集器
　　詳細的圖形和文字使用策略軟件名稱(chēng)：優(yōu)采云采集器（網(wǎng)絡(luò )數據采集器） V6.4正式安裝版軟件大?。?7.6MB 更新時(shí)間：2017-05-19 第一步是打開(kāi)優(yōu)采云軟件，點(diǎn)擊快速啟動(dòng)，創(chuàng )建新任務(wù)的第二步優(yōu)采云采集器如何采集網(wǎng)頁(yè)文本內容-優(yōu)采云采集器采集網(wǎng)頁(yè)文本內容的方法-河東手機站優(yōu)采云采集器是一款多功能的網(wǎng)頁(yè)信息采集工具，該軟件采用新的信息捕獲模式，可以幫助用戶(hù)更快地采集網(wǎng)頁(yè)中的數據，并且可以在每個(gè)網(wǎng)頁(yè)模塊中。
　　——完——

最新版:Python網(wǎng)絡(luò )數據采集中文版 PDF電子書(shū)｜網(wǎng)盤(pán)下載附提取碼

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 173 次瀏覽 ? 2022-12-07 02:29 ? 來(lái)自相關(guān)話(huà)題

　　最新版:Python網(wǎng)絡(luò )數據采集中文版 PDF電子書(shū)｜網(wǎng)盤(pán)下載附提取碼
　　提取代碼：i99B內容介紹
　　
　　本書(shū)使用簡(jiǎn)潔有力的Python語(yǔ)言，介紹了網(wǎng)絡(luò )數據的采集，并為現代網(wǎng)絡(luò )中采集各種數據類(lèi)型提供了全面的指導。第一部分重點(diǎn)介紹網(wǎng)絡(luò )數據采集的基礎知識：如何在 Python 中從 Web 服務(wù)器請求信息，如何對服務(wù)器的響應進(jìn)行基本處理，以及如何以自動(dòng)化方式與網(wǎng)站進(jìn)行交互。第二部分介紹如何使用網(wǎng)絡(luò )爬蟲(chóng)來(lái)測試網(wǎng)站、自動(dòng)化處理以及如何以更多方式訪(fǎng)問(wèn)網(wǎng)絡(luò )。
　　作者簡(jiǎn)介
　　
　　瑞安·米切爾
　　數據科學(xué)家和軟件工程師目前在波士頓的LinkeDrive開(kāi)發(fā)公司的API和數據分析工具。此前，他在A(yíng)bine構建了網(wǎng)絡(luò )爬蟲(chóng)和網(wǎng)絡(luò )機器人。她經(jīng)常就網(wǎng)絡(luò )數據采集項目提供咨詢(xún)，主要是在金融和零售領(lǐng)域。他還是Instant Web Scraping with Java的作者。
　　教程:關(guān)鍵詞采集翻譯器（關(guān)鍵詞采集翻譯器下載）
　　目錄：
　　1.數據采集器翻譯
　　2.搜索翻譯
　　關(guān)鍵詞采集就是進(jìn)入我們的關(guān)鍵詞進(jìn)行全網(wǎng)文章采集,關(guān)鍵詞采集工具通度自媒體搭配資訊平臺熱門(mén)的文章，通過(guò)關(guān)鍵詞的工具實(shí)現關(guān)鍵詞采集文章內容的質(zhì)量保證采集讓我們能夠快速獲取大量相關(guān)的文章資料。
　　3. 關(guān)鍵詞采集工具
　　關(guān)鍵詞采集操作簡(jiǎn)單，我們只需要輸入我們感興趣的詞，比如最近比較多的“iPhone14pro”，我們就采集這個(gè)詞，和我們可以獲取很多關(guān)于A(yíng)pple文章的最新消息，通過(guò)下拉詞和相關(guān)詞實(shí)現文章的自動(dòng)生成。
　　
　　4.翻譯搜索引擎
　　關(guān)鍵詞采集工具允許我們確定關(guān)鍵詞的值并生成關(guān)鍵詞語(yǔ)義變化、準確性和匹配率。此外，它們將使我們能夠與同事同時(shí)在各種項目上進(jìn)行協(xié)作。從單一平臺創(chuàng )建、優(yōu)化、查看和共享。
　　5. 資料采集翻譯
　　這是采集關(guān)鍵詞的流行方式之一我們開(kāi)始輸入一個(gè)詞，搜索引擎的自動(dòng)完成功能及其下拉建議列表會(huì )為我們完成剩下的所有工作所以如果我們輸入“cat”，我們會(huì )看到“貓項圈”、“貓糧”等。這樣我們就可以?xún)?yōu)化搜索率
　　6.一鍵采集英文翻譯
　　此外，當用戶(hù)搜索并點(diǎn)擊相關(guān)內容時(shí)，我們可能會(huì )看到哪種格式最受歡迎簡(jiǎn)單的技術(shù)將引導我們產(chǎn)生許多積極的副作用和想法，具有特定的關(guān)鍵詞集群或個(gè)人關(guān)鍵詞。
　　7.翻譯搜索技術(shù)
　　
　　8. 翻譯和查詞軟件
　　選擇最有潛力的關(guān)鍵詞關(guān)鍵詞研究工具基于內容分析，使我們能夠確定最有前途的關(guān)鍵詞現在我們已經(jīng)創(chuàng )建了一組關(guān)鍵詞來(lái)申請，我們可以將數據導出到電子表格，然后選擇最能反映我們目標的數據關(guān)鍵詞我們可以將此任務(wù)發(fā)送給外包專(zhuān)家，并期望他們提供出色的副本。
　　9.搜索在線(xiàn)翻譯
　　偉大作家的提示和列表將幫助我們找到經(jīng)驗豐富的專(zhuān)家，他們將嘗試吸引我們的訂閱者不要忘記選擇具有潛力的關(guān)鍵詞
　　10.搜索翻譯功能
　　現在去這些論壇中的任何一個(gè)，找出人們在談?wù)撌裁醋顓⑴c的帖子是我們內容的潛力關(guān)鍵詞此外，我們可以在我們的 Facebook 群組中嘗試這種策略，而不是搜索谷歌，只是搜索利基市場(chǎng)Facebook 上的群組例如，我在 Facebook 上搜索“美味食譜”，得到以下結果。
　　關(guān)鍵詞研究是一個(gè)廣泛的主題，需要認真考慮。通過(guò)選擇適合我們的需求和風(fēng)格的正確策略，祝我們的 SEO 優(yōu)化好運。
　　翻譯查看全部

　　最新版:Python網(wǎng)絡(luò )數據采集中文版 PDF電子書(shū)｜網(wǎng)盤(pán)下載附提取碼
　　提取代碼：i99B內容介紹
　　

　　本書(shū)使用簡(jiǎn)潔有力的Python語(yǔ)言，介紹了網(wǎng)絡(luò )數據的采集，并為現代網(wǎng)絡(luò )中采集各種數據類(lèi)型提供了全面的指導。第一部分重點(diǎn)介紹網(wǎng)絡(luò )數據采集的基礎知識：如何在 Python 中從 Web 服務(wù)器請求信息，如何對服務(wù)器的響應進(jìn)行基本處理，以及如何以自動(dòng)化方式與網(wǎng)站進(jìn)行交互。第二部分介紹如何使用網(wǎng)絡(luò )爬蟲(chóng)來(lái)測試網(wǎng)站、自動(dòng)化處理以及如何以更多方式訪(fǎng)問(wèn)網(wǎng)絡(luò )。
　　作者簡(jiǎn)介
　　

　　瑞安·米切爾
　　數據科學(xué)家和軟件工程師目前在波士頓的LinkeDrive開(kāi)發(fā)公司的API和數據分析工具。此前，他在A(yíng)bine構建了網(wǎng)絡(luò )爬蟲(chóng)和網(wǎng)絡(luò )機器人。她經(jīng)常就網(wǎng)絡(luò )數據采集項目提供咨詢(xún)，主要是在金融和零售領(lǐng)域。他還是Instant Web Scraping with Java的作者。
　　教程:關(guān)鍵詞采集翻譯器（關(guān)鍵詞采集翻譯器下載）
　　目錄：
　　1.數據采集器翻譯
　　2.搜索翻譯
　　關(guān)鍵詞采集就是進(jìn)入我們的關(guān)鍵詞進(jìn)行全網(wǎng)文章采集,關(guān)鍵詞采集工具通度自媒體搭配資訊平臺熱門(mén)的文章，通過(guò)關(guān)鍵詞的工具實(shí)現關(guān)鍵詞采集文章內容的質(zhì)量保證采集讓我們能夠快速獲取大量相關(guān)的文章資料。
　　3. 關(guān)鍵詞采集工具
　　關(guān)鍵詞采集操作簡(jiǎn)單，我們只需要輸入我們感興趣的詞，比如最近比較多的“iPhone14pro”，我們就采集這個(gè)詞，和我們可以獲取很多關(guān)于A(yíng)pple文章的最新消息，通過(guò)下拉詞和相關(guān)詞實(shí)現文章的自動(dòng)生成。
　　

　　4.翻譯搜索引擎
　　關(guān)鍵詞采集工具允許我們確定關(guān)鍵詞的值并生成關(guān)鍵詞語(yǔ)義變化、準確性和匹配率。此外，它們將使我們能夠與同事同時(shí)在各種項目上進(jìn)行協(xié)作。從單一平臺創(chuàng )建、優(yōu)化、查看和共享。
　　5. 資料采集翻譯
　　這是采集關(guān)鍵詞的流行方式之一我們開(kāi)始輸入一個(gè)詞，搜索引擎的自動(dòng)完成功能及其下拉建議列表會(huì )為我們完成剩下的所有工作所以如果我們輸入“cat”，我們會(huì )看到“貓項圈”、“貓糧”等。這樣我們就可以?xún)?yōu)化搜索率
　　6.一鍵采集英文翻譯
　　此外，當用戶(hù)搜索并點(diǎn)擊相關(guān)內容時(shí)，我們可能會(huì )看到哪種格式最受歡迎簡(jiǎn)單的技術(shù)將引導我們產(chǎn)生許多積極的副作用和想法，具有特定的關(guān)鍵詞集群或個(gè)人關(guān)鍵詞。
　　7.翻譯搜索技術(shù)
　　

　　8. 翻譯和查詞軟件
　　選擇最有潛力的關(guān)鍵詞關(guān)鍵詞研究工具基于內容分析，使我們能夠確定最有前途的關(guān)鍵詞現在我們已經(jīng)創(chuàng )建了一組關(guān)鍵詞來(lái)申請，我們可以將數據導出到電子表格，然后選擇最能反映我們目標的數據關(guān)鍵詞我們可以將此任務(wù)發(fā)送給外包專(zhuān)家，并期望他們提供出色的副本。
　　9.搜索在線(xiàn)翻譯
　　偉大作家的提示和列表將幫助我們找到經(jīng)驗豐富的專(zhuān)家，他們將嘗試吸引我們的訂閱者不要忘記選擇具有潛力的關(guān)鍵詞
　　10.搜索翻譯功能
　　現在去這些論壇中的任何一個(gè)，找出人們在談?wù)撌裁醋顓⑴c的帖子是我們內容的潛力關(guān)鍵詞此外，我們可以在我們的 Facebook 群組中嘗試這種策略，而不是搜索谷歌，只是搜索利基市場(chǎng)Facebook 上的群組例如，我在 Facebook 上搜索“美味食譜”，得到以下結果。
　　關(guān)鍵詞研究是一個(gè)廣泛的主題，需要認真考慮。通過(guò)選擇適合我們的需求和風(fēng)格的正確策略，祝我們的 SEO 優(yōu)化好運。
　　翻譯

推薦文章:BBC英文文章采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 182 次瀏覽 ? 2022-12-06 06:34 ? 來(lái)自相關(guān)話(huà)題

　　推薦文章:BBC英文文章采集
　　本文以 BBC 的亞洲新聞為例，介紹如何使用優(yōu)采云采集。
　　采集網(wǎng)站：
　　采集內容包括：文章標題，文章正文
　　使用功能點(diǎn)：
　　l 尋呼列表和詳細信息提取
　　第 1 步：創(chuàng )建 BBC 英語(yǔ) 文章采集任務(wù)
　　1）進(jìn)入主界面，選擇“自定義模式”
　　2) 將采集的網(wǎng)址復制粘貼到網(wǎng)站輸入框，點(diǎn)擊“保存網(wǎng)址”
　　第 2 步：創(chuàng )建列表循環(huán)
　　1）在頁(yè)面右上角，打開(kāi)“流程”，顯示“流程設計器”和“自定義當前操作”兩個(gè)版塊。選擇頁(yè)面第一張圖片，系統會(huì )自動(dòng)識別頁(yè)面相似鏈接，選擇“全選”
　　
　　2）選擇“循環(huán)點(diǎn)擊每個(gè)鏈接”
　　3）設置超時(shí)和ajax滾動(dòng)
　　第 3 步：采集小說(shuō)內容
　　1）在頁(yè)面中選擇采集的文本標題（被選中的內容會(huì )變成綠色），選擇“采集該元素的文本”
　　2）在頁(yè)面中選擇要采集的文字內容（被選中的內容會(huì )變成綠色），選擇全選，
　　選擇“采集此元素的文本”
　　3）設置合并字段，選擇自定義數據字段，選擇自定義數據合并方式，
　　
　　然后選擇同一個(gè)字段多次提取，合并成一行。
　　4）修改字段名
　　5) 選擇“啟動(dòng)本地采集”
　　第四步：BBC英語(yǔ)文章數據采集并導出
　　1）采集完成后，會(huì )彈出提示，選擇“導出數據”。選擇“合適的導出方法”導出采集好的BBC英語(yǔ)文章數據
　　2）這里我們選擇excel作為導出格式，數據導出如下圖
　　分享文章:偽原創(chuàng )文章采集網(wǎng)站
　　偽原創(chuàng )文章采集網(wǎng)站程序，1網(wǎng)站更新：構建您自己的原創(chuàng )文章庫
　　2 寫(xiě) 偽原創(chuàng )文章。關(guān)鍵詞分析：偽原創(chuàng )文章采集器。
　　3 話(huà)題相關(guān)的文章：我們需要找到自己的關(guān)鍵詞來(lái)采集其他網(wǎng)站的內容，并以文章的形式更新。
　　4 站內相關(guān)文章：文章與網(wǎng)站主題相關(guān)。
　　
　　5文章標題和描述：在網(wǎng)站的首頁(yè)、欄目頁(yè)、內容頁(yè)、其他文章隨機調用等，然后添加首段和末段頁(yè)關(guān)鍵詞。
　　網(wǎng)站SEO更新文章和軟文：SEO偽原創(chuàng )文章發(fā)布技巧這些是這個(gè)網(wǎng)站旨在解決的問(wèn)題，但是一些文章相對不受歡迎，僅適用于網(wǎng)站而不是搜索引擎。
　　為什么有的網(wǎng)站更新文章非常多，而有的網(wǎng)站更新文章卻很少，甚至很多都發(fā)布在網(wǎng)上，訪(fǎng)問(wèn)不到互聯(lián)網(wǎng)在所有的重復。
　　我敢肯定很少有人看過(guò)它，但它已經(jīng)存在了很長(cháng)時(shí)間，現在網(wǎng)站有更多的內容和更好的 SEO，我們如何看待它？首先，讓我們談?wù)?網(wǎng)站的內容。
　　網(wǎng)站的內容是網(wǎng)站的靈魂。在不同的搜索引擎和用戶(hù)的心目中，大多數人的注意力都集中在網(wǎng)站上。我們都知道好的內容，搜索引擎非常喜歡原創(chuàng )內容，如果我們做高質(zhì)量的網(wǎng)站，如果我們文章不夠好，我們就不會(huì )得到更多的用戶(hù)關(guān)心。
　　所以原創(chuàng )文章在網(wǎng)站優(yōu)化中非常重要，那么如何做好網(wǎng)站內容呢？
　　
　　1、原創(chuàng )文章的標題是用戶(hù)的搜索習慣。
　　搜索引擎喜歡原創(chuàng )文章。如果您的文章標題和網(wǎng)站內容不匹配，搜索引擎不會(huì )很喜歡它。搜索引擎非常喜歡重復的內容。我們在寫(xiě)文章時(shí)，主要注意內容與標題的匹配，拓展文章內容的原創(chuàng )性質(zhì)，簡(jiǎn)潔明了。
　　2.文章第一段需要優(yōu)化
　　搜索引擎會(huì )認為我們的文章第一段很重要，所以第一段對于優(yōu)化來(lái)說(shuō)非常重要。例如，如果我們正在為“減肥”寫(xiě) 文章而我們的文章標題不夠好，我們可以在第一段中添加我們的品牌詞。當然，在文章的最后，我們需要添加一些品牌詞。
　　三、文章需求
　　相關(guān)文章查看全部

　　推薦文章:BBC英文文章采集
　　本文以 BBC 的亞洲新聞為例，介紹如何使用優(yōu)采云采集。
　　采集網(wǎng)站：
　　采集內容包括：文章標題，文章正文
　　使用功能點(diǎn)：
　　l 尋呼列表和詳細信息提取
　　第 1 步：創(chuàng )建 BBC 英語(yǔ) 文章采集任務(wù)
　　1）進(jìn)入主界面，選擇“自定義模式”
　　2) 將采集的網(wǎng)址復制粘貼到網(wǎng)站輸入框，點(diǎn)擊“保存網(wǎng)址”
　　第 2 步：創(chuàng )建列表循環(huán)
　　1）在頁(yè)面右上角，打開(kāi)“流程”，顯示“流程設計器”和“自定義當前操作”兩個(gè)版塊。選擇頁(yè)面第一張圖片，系統會(huì )自動(dòng)識別頁(yè)面相似鏈接，選擇“全選”
　　

　　2）選擇“循環(huán)點(diǎn)擊每個(gè)鏈接”
　　3）設置超時(shí)和ajax滾動(dòng)
　　第 3 步：采集小說(shuō)內容
　　1）在頁(yè)面中選擇采集的文本標題（被選中的內容會(huì )變成綠色），選擇“采集該元素的文本”
　　2）在頁(yè)面中選擇要采集的文字內容（被選中的內容會(huì )變成綠色），選擇全選，
　　選擇“采集此元素的文本”
　　3）設置合并字段，選擇自定義數據字段，選擇自定義數據合并方式，
　　

　　然后選擇同一個(gè)字段多次提取，合并成一行。
　　4）修改字段名
　　5) 選擇“啟動(dòng)本地采集”
　　第四步：BBC英語(yǔ)文章數據采集并導出
　　1）采集完成后，會(huì )彈出提示，選擇“導出數據”。選擇“合適的導出方法”導出采集好的BBC英語(yǔ)文章數據
　　2）這里我們選擇excel作為導出格式，數據導出如下圖
　　分享文章:偽原創(chuàng )文章采集網(wǎng)站
　　偽原創(chuàng )文章采集網(wǎng)站程序，1網(wǎng)站更新：構建您自己的原創(chuàng )文章庫
　　2 寫(xiě) 偽原創(chuàng )文章。關(guān)鍵詞分析：偽原創(chuàng )文章采集器。
　　3 話(huà)題相關(guān)的文章：我們需要找到自己的關(guān)鍵詞來(lái)采集其他網(wǎng)站的內容，并以文章的形式更新。
　　4 站內相關(guān)文章：文章與網(wǎng)站主題相關(guān)。
　　

　　5文章標題和描述：在網(wǎng)站的首頁(yè)、欄目頁(yè)、內容頁(yè)、其他文章隨機調用等，然后添加首段和末段頁(yè)關(guān)鍵詞。
　　網(wǎng)站SEO更新文章和軟文：SEO偽原創(chuàng )文章發(fā)布技巧這些是這個(gè)網(wǎng)站旨在解決的問(wèn)題，但是一些文章相對不受歡迎，僅適用于網(wǎng)站而不是搜索引擎。
　　為什么有的網(wǎng)站更新文章非常多，而有的網(wǎng)站更新文章卻很少，甚至很多都發(fā)布在網(wǎng)上，訪(fǎng)問(wèn)不到互聯(lián)網(wǎng)在所有的重復。
　　我敢肯定很少有人看過(guò)它，但它已經(jīng)存在了很長(cháng)時(shí)間，現在網(wǎng)站有更多的內容和更好的 SEO，我們如何看待它？首先，讓我們談?wù)?網(wǎng)站的內容。
　　網(wǎng)站的內容是網(wǎng)站的靈魂。在不同的搜索引擎和用戶(hù)的心目中，大多數人的注意力都集中在網(wǎng)站上。我們都知道好的內容，搜索引擎非常喜歡原創(chuàng )內容，如果我們做高質(zhì)量的網(wǎng)站，如果我們文章不夠好，我們就不會(huì )得到更多的用戶(hù)關(guān)心。
　　所以原創(chuàng )文章在網(wǎng)站優(yōu)化中非常重要，那么如何做好網(wǎng)站內容呢？
　　

　　1、原創(chuàng )文章的標題是用戶(hù)的搜索習慣。
　　搜索引擎喜歡原創(chuàng )文章。如果您的文章標題和網(wǎng)站內容不匹配，搜索引擎不會(huì )很喜歡它。搜索引擎非常喜歡重復的內容。我們在寫(xiě)文章時(shí)，主要注意內容與標題的匹配，拓展文章內容的原創(chuàng )性質(zhì)，簡(jiǎn)潔明了。
　　2.文章第一段需要優(yōu)化
　　搜索引擎會(huì )認為我們的文章第一段很重要，所以第一段對于優(yōu)化來(lái)說(shuō)非常重要。例如，如果我們正在為“減肥”寫(xiě) 文章而我們的文章標題不夠好，我們可以在第一段中添加我們的品牌詞。當然，在文章的最后，我們需要添加一些品牌詞。
　　三、文章需求
　　相關(guān)文章

教程:PHP簡(jiǎn)單獲取網(wǎng)站百度搜索方法

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 102 次瀏覽 ? 2022-12-06 05:33 ? 來(lái)自相關(guān)話(huà)題

　　教程:PHP簡(jiǎn)單獲取網(wǎng)站百度搜索方法
　　2.HTML code<html lang=“en”><head><meta charset=“utf-8”><title>jQuery UI 自動(dòng)完成 - 默認函數</標題><鏈接推薦項目框 type_博客清除修復“ data-url=”“ data-report-view='{”ab“：”new“，”spm“：”1001.2101.3001.6650.5“，”mod“：”popu_387“，”extra“：”{\“highlightScore\”：0.0，\“utm_medium\”：\“distribute.pc_ relevant.none-task-blog-2~default~OPENSEARCH~Rate-6-121953662-blog-128081290.pc_relevant_aa\”，\“dist_request_id\”：\“01_95499\“}”，“dist_request_id”：“01_95499”，“ab_ strategy”：“recoveryv3_v2”，“index”：“6”，“strategy”：“2~default~OPENSEARCH~Rate”，“dest”：“”}'>
　　添加標題
　　
　　搜索“時(shí)間因子”代碼/插件到網(wǎng)站文章和頁(yè)面，實(shí)現快速百度收錄
　　有山可吉的博客
　　12-15歲
　　
　　786我很久沒(méi)有登錄今日頭條搜索站長(cháng)
　　平臺了，今天登錄后，站長(cháng)發(fā)現今日頭條搜索支持時(shí)間因子已經(jīng)提交。簡(jiǎn)單來(lái)說(shuō)就是給網(wǎng)站增加一些時(shí)間元，讓頭條爬蟲(chóng)判斷我們文章的發(fā)布時(shí)間和更新時(shí)間，幫助搜索用戶(hù)獲得更滿(mǎn)意的搜索瀏覽體驗，幫助優(yōu)質(zhì)網(wǎng)站獲得更多的展示機會(huì )。因為我之前有百度搜索過(guò)熊掌的相關(guān)變身體驗，所以這次的變身會(huì )更容易。這一次，A7站長(cháng)將分享為WordPress網(wǎng)站添加標題搜索時(shí)間因子的方法。在WordPress網(wǎng)站文章和頁(yè)面中添加標題搜索“時(shí)間因子”代碼/插件，實(shí)現快速百度收錄-A7站長(cháng)一，標題搜索時(shí)間因子介紹官方
　　分享文章:偽原創(chuàng )文章生成網(wǎng)站(文章偽原創(chuàng )的方法)
　　閱讀本文提示語(yǔ)：文章偽原創(chuàng )方法，在線(xiàn)偽原創(chuàng )文章生成，偽原創(chuàng )文章手機生成器軟件下載
　　偽原創(chuàng )文章生成網(wǎng)站內容意味著(zhù)將多個(gè)短句和多個(gè)更復雜的等式整合到反映我們提供的內容的等式中。其技術(shù)解決了讀者難以理解和快速理解的問(wèn)題，IQIY將應用到每個(gè)具體問(wèn)題的解答中。
　　偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站偽原創(chuàng )文章生成，解決讀者短句子、排版和內容清理需求。
　　
　　1 80%的觀(guān)眾看完后，25%的觀(guān)眾會(huì )瀏覽網(wǎng)站，16%的觀(guān)眾看完后，25%的觀(guān)眾會(huì )看10篇文章文章。
　　這個(gè) 文章夠大了。用于在維護文章內容的同時(shí)優(yōu)化文章。
　　2段被截斷和字幕站
　　字幕是用戶(hù)輸入的字幕。關(guān)鍵字是字幕的關(guān)鍵字。那是文章閱讀。標題是指對作者的建議。
　　3個(gè)按鈕是一組，字幕是一系列的單詞。這表明文檔中有更多的單詞或十幾個(gè)單詞重復使用相同的關(guān)鍵字。有了這個(gè)優(yōu)化文章，我們稱(chēng)之為“軟文this”。
　　
　　2 軟文這本書(shū)第一段要好好寫(xiě)：終于，軟文這本書(shū)第二段要好好寫(xiě)：終于，軟刀第二段要好好寫(xiě)：終于，軟刀的最終用途是強調讀者將如何看待您的文章，以及您希望他們做什么以及如何行動(dòng)。到最后，讀者將看到您的網(wǎng)站鏈接地址。這樣軟刀的效果會(huì )很好。
　　3 軟文軟文第三個(gè)功能是列出所有的煩惱軟文，下面是軟文營(yíng)銷(xiāo)標題的寫(xiě)法：
　　1. 以非常有力的方式解釋問(wèn)題。這是營(yíng)銷(xiāo)最基本的功能。如果您的目的是讓其他人“關(guān)注您的品牌”，那么這個(gè) 軟文確實(shí)存在。如果你管理它，這個(gè)帳戶(hù)是非常必要的。
　　2. 使用該帳戶(hù)創(chuàng )建一個(gè)軟文，然后以這種方式工作。如果你有很少或非常少的軟文，你可以用這種類(lèi)型寫(xiě)軟文，使用“owns”、“needs”、“needs”等形式。
　　相關(guān)文章查看全部

　　教程:PHP簡(jiǎn)單獲取網(wǎng)站百度搜索方法
　　2.HTML code<html lang=“en”><head><meta charset=“utf-8”><title>jQuery UI 自動(dòng)完成 - 默認函數</標題><鏈接推薦項目框 type_博客清除修復“ data-url=”“ data-report-view='{”ab“：”new“，”spm“：”1001.2101.3001.6650.5“，”mod“：”popu_387“，”extra“：”{\“highlightScore\”：0.0，\“utm_medium\”：\“distribute.pc_ relevant.none-task-blog-2~default~OPENSEARCH~Rate-6-121953662-blog-128081290.pc_relevant_aa\”，\“dist_request_id\”：\“01_95499\“}”，“dist_request_id”：“01_95499”，“ab_ strategy”：“recoveryv3_v2”，“index”：“6”，“strategy”：“2~default~OPENSEARCH~Rate”，“dest”：“”}'>
　　添加標題
　　

　　搜索“時(shí)間因子”代碼/插件到網(wǎng)站文章和頁(yè)面，實(shí)現快速百度收錄
　　有山可吉的博客
　　12-15歲
　　

　　786我很久沒(méi)有登錄今日頭條搜索站長(cháng)
　　平臺了，今天登錄后，站長(cháng)發(fā)現今日頭條搜索支持時(shí)間因子已經(jīng)提交。簡(jiǎn)單來(lái)說(shuō)就是給網(wǎng)站增加一些時(shí)間元，讓頭條爬蟲(chóng)判斷我們文章的發(fā)布時(shí)間和更新時(shí)間，幫助搜索用戶(hù)獲得更滿(mǎn)意的搜索瀏覽體驗，幫助優(yōu)質(zhì)網(wǎng)站獲得更多的展示機會(huì )。因為我之前有百度搜索過(guò)熊掌的相關(guān)變身體驗，所以這次的變身會(huì )更容易。這一次，A7站長(cháng)將分享為WordPress網(wǎng)站添加標題搜索時(shí)間因子的方法。在WordPress網(wǎng)站文章和頁(yè)面中添加標題搜索“時(shí)間因子”代碼/插件，實(shí)現快速百度收錄-A7站長(cháng)一，標題搜索時(shí)間因子介紹官方
　　分享文章:偽原創(chuàng )文章生成網(wǎng)站(文章偽原創(chuàng )的方法)
　　閱讀本文提示語(yǔ)：文章偽原創(chuàng )方法，在線(xiàn)偽原創(chuàng )文章生成，偽原創(chuàng )文章手機生成器軟件下載
　　偽原創(chuàng )文章生成網(wǎng)站內容意味著(zhù)將多個(gè)短句和多個(gè)更復雜的等式整合到反映我們提供的內容的等式中。其技術(shù)解決了讀者難以理解和快速理解的問(wèn)題，IQIY將應用到每個(gè)具體問(wèn)題的解答中。
　　偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站偽原創(chuàng )文章生成，解決讀者短句子、排版和內容清理需求。
　　

　　1 80%的觀(guān)眾看完后，25%的觀(guān)眾會(huì )瀏覽網(wǎng)站，16%的觀(guān)眾看完后，25%的觀(guān)眾會(huì )看10篇文章文章。
　　這個(gè) 文章夠大了。用于在維護文章內容的同時(shí)優(yōu)化文章。
　　2段被截斷和字幕站
　　字幕是用戶(hù)輸入的字幕。關(guān)鍵字是字幕的關(guān)鍵字。那是文章閱讀。標題是指對作者的建議。
　　3個(gè)按鈕是一組，字幕是一系列的單詞。這表明文檔中有更多的單詞或十幾個(gè)單詞重復使用相同的關(guān)鍵字。有了這個(gè)優(yōu)化文章，我們稱(chēng)之為“軟文this”。
　　

　　2 軟文這本書(shū)第一段要好好寫(xiě)：終于，軟文這本書(shū)第二段要好好寫(xiě)：終于，軟刀第二段要好好寫(xiě)：終于，軟刀的最終用途是強調讀者將如何看待您的文章，以及您希望他們做什么以及如何行動(dòng)。到最后，讀者將看到您的網(wǎng)站鏈接地址。這樣軟刀的效果會(huì )很好。
　　3 軟文軟文第三個(gè)功能是列出所有的煩惱軟文，下面是軟文營(yíng)銷(xiāo)標題的寫(xiě)法：
　　1. 以非常有力的方式解釋問(wèn)題。這是營(yíng)銷(xiāo)最基本的功能。如果您的目的是讓其他人“關(guān)注您的品牌”，那么這個(gè) 軟文確實(shí)存在。如果你管理它，這個(gè)帳戶(hù)是非常必要的。
　　2. 使用該帳戶(hù)創(chuàng )建一個(gè)軟文，然后以這種方式工作。如果你有很少或非常少的軟文，你可以用這種類(lèi)型寫(xiě)軟文，使用“owns”、“needs”、“needs”等形式。
　　相關(guān)文章

技術(shù)文章:豆瓣采集api

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2022-12-03 17:34 ? 來(lái)自相關(guān)話(huà)題

　　技術(shù)文章:豆瓣采集api
　　豆瓣采集api相關(guān)博客
　　Scrapy采集《以人民的名義》豆瓣評測實(shí)驗報告
　　轉載請注明出處?。?！實(shí)驗對象：豆瓣電影-人民的名義實(shí)驗目的：通過(guò)使用scrapy框架采集《以人民的名義》對內容進(jìn)行評價(jià)，進(jìn)一步了解信息檢索的過(guò)程。實(shí)驗過(guò)程：分析采集實(shí)體->確定采集方法->制定爬蟲(chóng)規則->編寫(xiě)代碼調試->獲取數據人名ps：由于最近
　　?葉5年前813
　　【雪峰磁針石博客】2018最佳人工智能資料采集（爬蟲(chóng)）參考書(shū)下載
　　Network Data in Python 采集 Network Data in Python采集 - 2016.pdf 本書(shū)以簡(jiǎn)潔而強大的Python語(yǔ)言介紹了網(wǎng)絡(luò )數據采集，并對采集進(jìn)行了介紹。 > 現代網(wǎng)絡(luò )。為各種數據類(lèi)型提供了全面的指導。第 1 部分重點(diǎn)介紹 Web 數據的基礎知識采集：如何使用 Python 從 Web 服務(wù)器請求信息
　　Python人工智能命理4年前1733
　　大數據與云計算學(xué)習：Python網(wǎng)絡(luò )數據采集
　　
　　本文將介紹 Web 數據的基礎知識采集：如何使用 Python 從 Web 服務(wù)器請求信息如何對服務(wù)器響應進(jìn)行基本處理如何以自動(dòng)化方式與網(wǎng)站交互如何創(chuàng )建域名切換、信息采集和信息存儲功能的爬蟲(chóng)學(xué)習路徑爬蟲(chóng)的基本原理所謂爬蟲(chóng)就是一個(gè)自動(dòng)化的數據采集工具，你
　　晶心院 4年前 3650
　　2018中國開(kāi)源年度報告發(fā)布，阿里系領(lǐng)跑
　　近日，開(kāi)源社發(fā)布了《2018中國開(kāi)源年度報告》，以調研和數據報告的形式展示了中國開(kāi)源的全貌。其中，阿里系統一馬當先，在活躍開(kāi)源產(chǎn)品前5名中，阿里系統占據了4個(gè)。在這四個(gè)開(kāi)源產(chǎn)品中，只有 PouchContainer 是非前端產(chǎn)品。第二部分數據 2.1 指南針指南針
　　技術(shù)專(zhuān)家 4年前 2633
　　Shiro系列（一）——權限管理簡(jiǎn)介及原理
　　1、什么是權限管理？一般來(lái)說(shuō)，只要有用戶(hù)參與，系統就需要進(jìn)行權限管理。權限管理實(shí)現了對用戶(hù)訪(fǎng)問(wèn)系統指定功能的限制。根據管理員定義的安全規則或權限策略，限制用戶(hù)只能訪(fǎng)問(wèn)那些他們被授權的資源路徑。權限管理包括用戶(hù)認證和授權
　　風(fēng)影月 5年前 932
　　【最佳實(shí)踐】esrally：Elasticsearch官方壓測工具及詳細應用
　　
　　作者介紹樸享科技CTO魏斌，開(kāi)源軟件愛(ài)好者，國內首位Elastic認證工程師，《Elastic Daily》和《ElasticTalk》社區項目發(fā)起人，榮獲2019年度合伙人架構師特別貢獻獎彈性中國。對于 Elasticear
　　工程師A 2年前 237
　　《深入講解Windows Phone 8應用開(kāi)發(fā)》
　　內容開(kāi)發(fā)基礎第1章概述 1.1 Windows Phone的技術(shù)特點(diǎn) 1.1.1 Windows Phone的發(fā)展 1.1.2 Windows Phone 8簡(jiǎn)介 1.1.3 Windows Phone 8的新特性 1.2 Windows Phone
　　技術(shù)專(zhuān)家 5年前 1318
　　大公司都有哪些開(kāi)源項目~~~ 阿里、百度、騰訊、360、新浪、網(wǎng)易、小米等。
　　紅色字體是現階段比較流行的---------------------------------------- ------------------------------------------------- ---------------------奇虎36
　　徐茂君4年前3896
　　最新版:【汽車(chē)/二手】[西風(fēng)]微信文章采集專(zhuān)業(yè)版 2.0
　　
　　[西風(fēng)]微信文章采集專(zhuān)業(yè)版2.0.1商業(yè)版dz插件分享批量采集公眾號文章功能等功能詳情后臺可按微信號,關(guān)鍵字搜索后批量采集公眾號文章，無(wú)需任何配置，支持批量發(fā)布到帖子和門(mén)戶(hù)文章，批量發(fā)布時(shí)可選擇每個(gè)文章發(fā)布發(fā)布到塊。前端發(fā)帖可以采集單微信文章，只要在插件中設置啟用論壇和用戶(hù)組即可。定時(shí)采集是2.1版本后新增的，在插件設置頁(yè)面填寫(xiě)定時(shí)采集公眾號的微信號，一行一個(gè)，（如果你的服務(wù)器性能和帶寬不夠, 請只填一個(gè)），插件使用定時(shí)任務(wù)抓取最新和采集5篇文章文章為這里填寫(xiě)的公眾號（注：因為微信反采集措施嚴格多變，常規任務(wù)成功率可能較低）主要特點(diǎn) 1.采集文章中的圖片和視頻可以保留微信文章的原創(chuàng )格式 2.無(wú)需任何配置，通過(guò)微信號和關(guān)鍵字搜索后續批次采集3. 可以設置成員發(fā)帖。4. 批量發(fā)帖時(shí)，除了發(fā)到默認論壇外，還可以設置每個(gè)文章單獨發(fā)到任意論壇。單獨設置每個(gè)帖子使用的成員 5.可以批量發(fā)布到傳送門(mén)文章，每個(gè)文章傳送到的傳送門(mén)頻道發(fā)布時(shí)可以單獨設置。6、采集的文本狀態(tài)有提示，如果采集文本因故失敗，可以重復采集8。前端發(fā)帖時(shí)，小編會(huì )顯示微信圖標，點(diǎn)擊插入微信文章 URL 即可自動(dòng)插入微信文章 9. 支持發(fā)帖、傳送門(mén)文章審核功能1.安裝激活后，在插件后臺設置頁(yè)面，可以更改默認的會(huì )員uid和發(fā)布的論壇 2.點(diǎn)擊開(kāi)始采集，輸入微信號或關(guān)鍵字采集3。采集最新文章列表成功后，可以全選或者選擇要采集文本的文章（比如刪除不需要的文章文章), 開(kāi)始采集文本 4, 文本采集完成后，可以選擇論壇單獨發(fā)布到每個(gè)文章或者全部發(fā)布到默認論壇，點(diǎn)擊發(fā)布完成7，在采集記錄中，可以批量發(fā)布到傳送門(mén)文章，可以設置每個(gè)文章發(fā)布到的傳送門(mén)頻道（必須有可以使用的傳送門(mén)頻道） 8.設置前端發(fā)帖權限使用微信插入文章功能啟用用戶(hù)組和論壇采集按微信ID采集： 1.搜索微信號并點(diǎn)擊或直接填寫(xiě)微信ID和昵稱(chēng)并點(diǎn)擊開(kāi)始采集2。顯示你最近獲得的10-30個(gè)采集文章標題，點(diǎn)擊標題旁邊的復選框確認你想要哪個(gè)采集 3. 然后點(diǎn)擊采集文本 4，采集采集之后，可以選擇直接發(fā)布到采集結果下的模塊或者重新采集text by keyword采集1，輸入關(guān)鍵字，點(diǎn)擊Search 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認需要的采集 3. 點(diǎn)擊下方的采集按鈕并發(fā)布按鈕，釋放將完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集輸入關(guān)鍵字，點(diǎn)擊搜索 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認您要的采集 3. 點(diǎn)擊下方的采集按鈕發(fā)布按鈕，釋放完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集輸入關(guān)鍵字，點(diǎn)擊搜索 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認您要的采集 3. 點(diǎn)擊下方的采集按鈕發(fā)布按鈕，釋放完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)公眾號地址文章。每行一個(gè) 2. 單擊采集請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)公眾號地址文章。每行一個(gè) 2. 單擊采集
　　查看全部

　　技術(shù)文章:豆瓣采集api
　　豆瓣采集api相關(guān)博客
　　Scrapy采集《以人民的名義》豆瓣評測實(shí)驗報告
　　轉載請注明出處?。?！實(shí)驗對象：豆瓣電影-人民的名義實(shí)驗目的：通過(guò)使用scrapy框架采集《以人民的名義》對內容進(jìn)行評價(jià)，進(jìn)一步了解信息檢索的過(guò)程。實(shí)驗過(guò)程：分析采集實(shí)體->確定采集方法->制定爬蟲(chóng)規則->編寫(xiě)代碼調試->獲取數據人名ps：由于最近
　　?葉5年前813
　　【雪峰磁針石博客】2018最佳人工智能資料采集（爬蟲(chóng)）參考書(shū)下載
　　Network Data in Python 采集 Network Data in Python采集 - 2016.pdf 本書(shū)以簡(jiǎn)潔而強大的Python語(yǔ)言介紹了網(wǎng)絡(luò )數據采集，并對采集進(jìn)行了介紹。 > 現代網(wǎng)絡(luò )。為各種數據類(lèi)型提供了全面的指導。第 1 部分重點(diǎn)介紹 Web 數據的基礎知識采集：如何使用 Python 從 Web 服務(wù)器請求信息
　　Python人工智能命理4年前1733
　　大數據與云計算學(xué)習：Python網(wǎng)絡(luò )數據采集
　　

　　本文將介紹 Web 數據的基礎知識采集：如何使用 Python 從 Web 服務(wù)器請求信息如何對服務(wù)器響應進(jìn)行基本處理如何以自動(dòng)化方式與網(wǎng)站交互如何創(chuàng )建域名切換、信息采集和信息存儲功能的爬蟲(chóng)學(xué)習路徑爬蟲(chóng)的基本原理所謂爬蟲(chóng)就是一個(gè)自動(dòng)化的數據采集工具，你
　　晶心院 4年前 3650
　　2018中國開(kāi)源年度報告發(fā)布，阿里系領(lǐng)跑
　　近日，開(kāi)源社發(fā)布了《2018中國開(kāi)源年度報告》，以調研和數據報告的形式展示了中國開(kāi)源的全貌。其中，阿里系統一馬當先，在活躍開(kāi)源產(chǎn)品前5名中，阿里系統占據了4個(gè)。在這四個(gè)開(kāi)源產(chǎn)品中，只有 PouchContainer 是非前端產(chǎn)品。第二部分數據 2.1 指南針指南針
　　技術(shù)專(zhuān)家 4年前 2633
　　Shiro系列（一）——權限管理簡(jiǎn)介及原理
　　1、什么是權限管理？一般來(lái)說(shuō)，只要有用戶(hù)參與，系統就需要進(jìn)行權限管理。權限管理實(shí)現了對用戶(hù)訪(fǎng)問(wèn)系統指定功能的限制。根據管理員定義的安全規則或權限策略，限制用戶(hù)只能訪(fǎng)問(wèn)那些他們被授權的資源路徑。權限管理包括用戶(hù)認證和授權
　　風(fēng)影月 5年前 932
　　【最佳實(shí)踐】esrally：Elasticsearch官方壓測工具及詳細應用
　　

　　作者介紹樸享科技CTO魏斌，開(kāi)源軟件愛(ài)好者，國內首位Elastic認證工程師，《Elastic Daily》和《ElasticTalk》社區項目發(fā)起人，榮獲2019年度合伙人架構師特別貢獻獎彈性中國。對于 Elasticear
　　工程師A 2年前 237
　　《深入講解Windows Phone 8應用開(kāi)發(fā)》
　　內容開(kāi)發(fā)基礎第1章概述 1.1 Windows Phone的技術(shù)特點(diǎn) 1.1.1 Windows Phone的發(fā)展 1.1.2 Windows Phone 8簡(jiǎn)介 1.1.3 Windows Phone 8的新特性 1.2 Windows Phone
　　技術(shù)專(zhuān)家 5年前 1318
　　大公司都有哪些開(kāi)源項目~~~ 阿里、百度、騰訊、360、新浪、網(wǎng)易、小米等。
　　紅色字體是現階段比較流行的---------------------------------------- ------------------------------------------------- ---------------------奇虎36
　　徐茂君4年前3896
　　最新版:【汽車(chē)/二手】[西風(fēng)]微信文章采集專(zhuān)業(yè)版 2.0
　　

　　[西風(fēng)]微信文章采集專(zhuān)業(yè)版2.0.1商業(yè)版dz插件分享批量采集公眾號文章功能等功能詳情后臺可按微信號,關(guān)鍵字搜索后批量采集公眾號文章，無(wú)需任何配置，支持批量發(fā)布到帖子和門(mén)戶(hù)文章，批量發(fā)布時(shí)可選擇每個(gè)文章發(fā)布發(fā)布到塊。前端發(fā)帖可以采集單微信文章，只要在插件中設置啟用論壇和用戶(hù)組即可。定時(shí)采集是2.1版本后新增的，在插件設置頁(yè)面填寫(xiě)定時(shí)采集公眾號的微信號，一行一個(gè)，（如果你的服務(wù)器性能和帶寬不夠, 請只填一個(gè)），插件使用定時(shí)任務(wù)抓取最新和采集5篇文章文章為這里填寫(xiě)的公眾號（注：因為微信反采集措施嚴格多變，常規任務(wù)成功率可能較低）主要特點(diǎn) 1.采集文章中的圖片和視頻可以保留微信文章的原創(chuàng )格式 2.無(wú)需任何配置，通過(guò)微信號和關(guān)鍵字搜索后續批次采集3. 可以設置成員發(fā)帖。4. 批量發(fā)帖時(shí)，除了發(fā)到默認論壇外，還可以設置每個(gè)文章單獨發(fā)到任意論壇。單獨設置每個(gè)帖子使用的成員 5.可以批量發(fā)布到傳送門(mén)文章，每個(gè)文章傳送到的傳送門(mén)頻道發(fā)布時(shí)可以單獨設置。6、采集的文本狀態(tài)有提示，如果采集文本因故失敗，可以重復采集8。前端發(fā)帖時(shí)，小編會(huì )顯示微信圖標，點(diǎn)擊插入微信文章 URL 即可自動(dòng)插入微信文章 9. 支持發(fā)帖、傳送門(mén)文章審核功能1.安裝激活后，在插件后臺設置頁(yè)面，可以更改默認的會(huì )員uid和發(fā)布的論壇 2.點(diǎn)擊開(kāi)始采集，輸入微信號或關(guān)鍵字采集3。采集最新文章列表成功后，可以全選或者選擇要采集文本的文章（比如刪除不需要的文章文章), 開(kāi)始采集文本 4, 文本采集完成后，可以選擇論壇單獨發(fā)布到每個(gè)文章或者全部發(fā)布到默認論壇，點(diǎn)擊發(fā)布完成7，在采集記錄中，可以批量發(fā)布到傳送門(mén)文章，可以設置每個(gè)文章發(fā)布到的傳送門(mén)頻道（必須有可以使用的傳送門(mén)頻道） 8.設置前端發(fā)帖權限使用微信插入文章功能啟用用戶(hù)組和論壇采集按微信ID采集： 1.搜索微信號并點(diǎn)擊或直接填寫(xiě)微信ID和昵稱(chēng)并點(diǎn)擊開(kāi)始采集2。顯示你最近獲得的10-30個(gè)采集文章標題，點(diǎn)擊標題旁邊的復選框確認你想要哪個(gè)采集 3. 然后點(diǎn)擊采集文本 4，采集采集之后，可以選擇直接發(fā)布到采集結果下的模塊或者重新采集text by keyword采集1，輸入關(guān)鍵字，點(diǎn)擊Search 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認需要的采集 3. 點(diǎn)擊下方的采集按鈕并發(fā)布按鈕，釋放將完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集輸入關(guān)鍵字，點(diǎn)擊搜索 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認您要的采集 3. 點(diǎn)擊下方的采集按鈕發(fā)布按鈕，釋放完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集輸入關(guān)鍵字，點(diǎn)擊搜索 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認您要的采集 3. 點(diǎn)擊下方的采集按鈕發(fā)布按鈕，釋放完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)公眾號地址文章。每行一個(gè) 2. 單擊采集請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)公眾號地址文章。每行一個(gè) 2. 單擊采集
　　

操作細節:直播源碼前期該如何運營(yíng)？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 100 次瀏覽 ? 2022-11-28 20:18 ? 來(lái)自相關(guān)話(huà)題

　　操作細節:直播源碼前期該如何運營(yíng)？
　　如今，直播行業(yè)越來(lái)越火爆，擁有自己的直播平臺已經(jīng)成為大眾不可或缺的需求。有人說(shuō)一對一直播源碼開(kāi)發(fā)只需要三步？這對很多人來(lái)說(shuō)是難以置信的。今天，小編就教大家分三步搭建一個(gè)完整的直播系統。
　　第一步：分解一對一直播系統的開(kāi)發(fā)功能，了解你需要的直播功能
　　1、采集：通過(guò)SDK接口直接采??集用戶(hù)設備的視頻、音頻等數據。視頻采樣數據一般采用RGB或YUV格式，音頻采樣數據一般采用PCM格式。
　　2、預處理：通過(guò)SDK層面的接口對采集到的數據進(jìn)行潤滑，主要是圖像處理，如美化、水印、濾鏡等。GPU優(yōu)化加速，平衡手機功耗和效果。
　　3. 編碼：對采集到的數據進(jìn)行壓縮編碼。比較常用的視頻編碼是H.264，音頻是AAC。在分辨率、幀數、碼率等參數的設計中找到最佳平衡點(diǎn)，使它們匹配推送流所需的協(xié)議，提高上傳效率。
　　4、推拉流：推流就是將壓縮后的音視頻轉換成流數據上傳到服務(wù)器。拉流是指通過(guò)播放器獲取碼流，從服務(wù)端拉取支持RTMP、HTTP-FLV、HLS等協(xié)議的音視頻流。
　　
　　5、解碼：對拉流打包后的視頻數據進(jìn)行高性能解碼，讓直播更流暢。
　　6、播放：解碼后的音頻數據可在播放端播放，支持MP4、FLV、M3U8等多種視頻播放格式。
　　第二步：
　　1、App框架搭建，直接在A(yíng)PICloud Studio中創(chuàng )建應用框架，常用的頁(yè)面框架有3個(gè)選項；
　　2. 積木拼裝，使用Java編寫(xiě)您選擇的所有模塊的頁(yè)面和模塊調用，使用HTML5+CSS3構建應用界面UI，完成App編碼的全過(guò)程；
　　3、真機調試，通過(guò)模擬器和真機調試功能優(yōu)化App，一鍵優(yōu)化iOS、Android手機中的App；
　　4、云編譯，將應用圖標、啟動(dòng)頁(yè)和證書(shū)上傳到APICloud網(wǎng)站，一鍵“云編譯”同時(shí)生成iOS和Android原生安裝包；
　　
　　5、云修復，使用云修復快速迭代，隨時(shí)發(fā)布新版本、新功能，無(wú)需提交新的安裝包。
　　第三步，管理模塊
　　1、前端：移動(dòng)端和PC端頁(yè)面效果的展示設計與維護
　　2.后臺：管理運行，數據庫管理
　　————————————————
　　版權聲明：本文為CSDN博主“山東布谷科技小菜”原創(chuàng )文章，遵循CC 4.0 BY-SA版權協(xié)議。轉載請附上原文出處鏈接及本聲明。
　　原文鏈接：
　　專(zhuān)業(yè)知識:設計師該如何做知識管理（下）
　　知識管理是將數據/信息動(dòng)態(tài)地轉化為知識/智慧的過(guò)程，以幫助我們做出更好的決策、解決問(wèn)題并實(shí)現持續增長(cháng)。本文作者從5個(gè)環(huán)節分析了如何做好知識管理，一起來(lái)學(xué)習吧。
　　上一篇文章講了什么是知識管理，為什么要做知識管理。我們掌握了一個(gè)底層模型，知道只有將信息轉化為知識，才能更好地指導我們的決策和行為。
　　知其然，知其所以然，我們來(lái)說(shuō)說(shuō)如何做知識管理？
　　我們所做的一切都必須有一個(gè)目的。有了目標，我們就知道把注意力放在哪里，才不會(huì )偏離方向。
　　還記得知識管理的定義嗎？“數據/信息動(dòng)態(tài)轉化為知識/智慧的過(guò)程，幫助我們做出更好的決策和行動(dòng)，解決問(wèn)題，實(shí)現持續成長(cháng)?！?br /> 　　知識管理的最終目的不是管理知識，而是改變自己，解決自己的問(wèn)題，讓自己成長(cháng)。（注意我這里特意強調了“自我”，這個(gè)很重要）接下來(lái)我將根據自己以往的經(jīng)驗，在5個(gè)環(huán)節中介紹如何做好知識管理。
　　1.信息獲取
　　第一步聽(tīng)起來(lái)簡(jiǎn)單，但這一步的來(lái)源直接決定了信息的質(zhì)量。這個(gè)環(huán)節隱藏著(zhù)三個(gè)誤區：被動(dòng)閱讀、固有場(chǎng)景、無(wú)盡漩渦。
　　1.被動(dòng)閱讀的問(wèn)題
　　少數派中的大佬路易卡德曾說(shuō)過(guò)：
　　不是我們沒(méi)有時(shí)間讀書(shū)，而是我們沒(méi)有時(shí)間主動(dòng)讀書(shū)。在閱讀什么信息的問(wèn)題上，很多人不自覺(jué)地選擇了被動(dòng)。前面我們提到，這個(gè)時(shí)代最不可或缺的就是內容，而大部分的內容都會(huì )被平臺推送到你嘴里。
　　如果沒(méi)有限制，大部分的信息獲取可能會(huì )以各種推送為主：抖音推送的熱門(mén)短視頻；微信群里各大廠(chǎng)裁員的消息；站主更新提示等。
　　就這樣，在這種無(wú)意識的信息獲取狀態(tài)下，你的注意力和時(shí)間都在不斷被攫取。但是其中有多少對您來(lái)說(shuō)真正有價(jià)值？解決這個(gè)問(wèn)題的方法簡(jiǎn)單粗暴：擺脫推送（或隱式推送），重新奪回閱讀的主導權。然后，我們有足夠的注意力來(lái)選擇那些質(zhì)量更高的信息。
　　2. 固有場(chǎng)景的問(wèn)題
　　很多設計師朋友，包括我自己，都下意識地認為有價(jià)值的信息只存在于各大廠(chǎng)商的優(yōu)質(zhì)文章、書(shū)籍、教程中，所以其他的信息獲取方式都下意識地被屏蔽掉了。
　　但事實(shí)并非如此。在前文提到的DIKW模型中，我們將信息解釋為“經(jīng)過(guò)主觀(guān)解釋并賦予意義的數據”，可以去除不確定性，回答簡(jiǎn)單的問(wèn)題。但是沒(méi)有介質(zhì)限制。換句話(huà)說(shuō)，除了那些創(chuàng )作者和作家制作的圖文資料，我們日常生活中的每一個(gè)場(chǎng)景都可以成為信息的來(lái)源。
　　以我幾年前的工作為例。左下角作品的靈感來(lái)自于我參觀(guān)宜家時(shí)看到的一間樣板間。這是給我的信息；寶座場(chǎng)景，也屬于信息。
　　因此，大家可以隨時(shí)留意，捕捉平時(shí)不被注意的有價(jià)值的信息。
　　這里我推薦flomo這個(gè)工具，非常適合臨時(shí)捕捉那些動(dòng)態(tài)的、難以抓取的信息。身邊朋友提到的一個(gè)觀(guān)點(diǎn)，坐地鐵時(shí)的一閃而過(guò)的想法等等，都可以快速記錄在這個(gè)應用上。
　　3.無(wú)盡漩渦的問(wèn)題
　　但是，如果你毫無(wú)節制地接受，你很容易卷入無(wú)盡的信息漩渦，被信息吞噬。這是第三個(gè)問(wèn)題，無(wú)盡的漩渦。識別和過(guò)濾不是最高質(zhì)量的信息源是唯一的方法。比如那些抱怨無(wú)病沒(méi)營(yíng)養的訂閱號，低質(zhì)量無(wú)趣的推薦新聞，每天推送十幾條信息的朋友圈等等。
　　最后推薦一些我認為非常優(yōu)質(zhì)的設計公眾號的信息源——
　　2.信息采集
　　這一步聽(tīng)起來(lái)很簡(jiǎn)單，躺下也很容易。給大家舉個(gè)場(chǎng)景——第一個(gè)場(chǎng)景是把微信的傳訊助手當成一個(gè)信息采集
工具，每次看到覺(jué)得不錯的就直接扔傳訊助手，其實(shí)微信的功能初衷是這樣的實(shí)際上是多個(gè)設備的組合。文件與文件之間的同步不是信息的集合，必然導致后續信息的查找和管理困難。
　　第二種場(chǎng)景是將各個(gè)應用中的采集
信息采集
到自己的采集
夾中。信息完全碎片化，無(wú)法聚合在一處，直接導致無(wú)法統一管理和訪(fǎng)問(wèn)信息。
　　除了以上問(wèn)題，更多的朋友會(huì )選擇將采集
的信息做成筆記工具。也長(cháng)期使用筆記工具采集
資料，印象筆記、語(yǔ)雀等，但最后都越來(lái)越臃腫和混亂。請注意，此工具比前兩個(gè)更好，但不是最佳解決方案。
　　在我們常規的理解中，將整個(gè)網(wǎng)絡(luò )的分片聚合到一個(gè)容器中，資源用于網(wǎng)盤(pán)，內容用于筆記。但回到工具本身，筆記工具的初衷是個(gè)人創(chuàng )作。一旦筆記系統同時(shí)與處理（即信息采集
）和創(chuàng )造混為一談，混亂和崩潰只是時(shí)間問(wèn)題。
　　筆記系統為創(chuàng )作而生，主要目標人群依然是創(chuàng )作者。這也意味著(zhù)它的服務(wù)是為創(chuàng )作者而不是消費者而構建和完善的。
　　例如，現有的筆記工具很難提供閱讀進(jìn)度、批注、復習、自定義排版等功能，而這些功能在信息處理中起著(zhù)至關(guān)重要的作用。所以，不是筆記工具不好，而是不適合采集
信息。就好比你用菜刀刮胡子，用工具做它不擅長(cháng)的事情。在我看來(lái)，一個(gè)好的采集工具至少需要滿(mǎn)足以下四個(gè)標準。
　　
　　可以快速將全網(wǎng)內容聚合到一處，整體系統存在；可分類(lèi)搜索，快速訪(fǎng)問(wèn)；支持高亮和標注，方便關(guān)鍵詞捕捉和聯(lián)想；完全獨立于筆記，專(zhuān)心閱讀，符合消費者需求
　　而后來(lái)的閱讀工具基本符合這四個(gè)標準。
　　稍后閱讀并不是一個(gè)新概念。早在十年前就被提出，一系列經(jīng)典產(chǎn)品由此誕生，如pocket、instapaper、readablity等。
　　簡(jiǎn)單來(lái)說(shuō)，稍后閱讀就是當你在任何一個(gè)平臺上看到好的內容，你都可以采集
在一個(gè)地方，以后有時(shí)間再看。
　　它最大的作用是把閱讀和深度閱讀區分開(kāi)來(lái)。比如很多信息只夠瀏覽，不需要二次加工（比如新聞、頭條黨、低價(jià)值的素材），那么這些信息就可以直接過(guò)濾加工；
　　而那些真正有價(jià)值的信息，可以傳遞給后來(lái)的讀者，供我們后續深入閱讀。我用過(guò)五款閱讀器，Pocket、Instapaper、Again、Twilar 和 Cubox，最后決定將 Cubox 作為我的主要工具。
　　簡(jiǎn)單演示一下采集功能。
　　當然cubox也有缺點(diǎn)，比如只支持網(wǎng)頁(yè)采集
，只支持無(wú)登錄門(mén)檻的內容采集
（付費課程需要登錄，無(wú)法采集
）。
　　3、信息處理
　　這個(gè)鏈接通常被稱(chēng)為閱讀鏈接，也是最容易說(shuō)謊的鏈接。但正是這一步，才是將信息轉化為知識的關(guān)鍵一步。還記得知識管理的最終目標嗎？——解決“我自己”的問(wèn)題，讓“我自己”不斷成長(cháng)。這里我特別強調“我自己”。我用三個(gè)角度來(lái)解釋原因。
　　1.系統1和系統2
　　卡尼曼在《Thinking Fast and Slow》中提到了System 1和System 2的概念。
　　大腦更習慣于不假思索地自動(dòng)反應，所以大腦習慣于用已經(jīng)掌握的舊概念來(lái)理解新概念，以減少大腦能量消耗。否則，你會(huì )覺(jué)得每學(xué)一個(gè)資料都是新知識，又得花時(shí)間再學(xué)一遍。這里的舊概念是我自己的。
　　因此，聯(lián)想過(guò)去舊的認知，符合大腦第一系統的習慣，實(shí)現知識的聯(lián)系和流動(dòng)，不僅加深了理解，也進(jìn)一步驗證和完善了以前的知識體系。
　　2. 艾賓浩斯實(shí)驗
　　提到遺忘曲線(xiàn)，大家應該能想到艾賓豪斯。他曾進(jìn)行過(guò)一年多的兩組記憶實(shí)驗，在實(shí)驗過(guò)程中發(fā)現了一個(gè)有趣的現象。學(xué)生首先忘記的是，它基本上是不重要的、無(wú)意義的、無(wú)趣的、不熟悉的內容。
　　那么如何快速讓一件事情變得重要和有意義呢？就人性而言，每個(gè)人都最關(guān)心自己。因此，一旦信息與你自己相關(guān)，就與你的工作、生活相關(guān)，那么信息就變得重要、有意義，從而降低遺忘的優(yōu)先級。
　　三、知識的定義
　　讓我們回到知識的定義——只有能夠應用到工作和生活中，能夠指導行為的信息，才能算作知識。它適用于誰(shuí)的生活，指導誰(shuí)的行為？同樣，我自己也是。綜上所述，信息處理的關(guān)鍵是在輸入的同時(shí)加入一個(gè)思維動(dòng)作。這個(gè)思考動(dòng)作的關(guān)鍵是聯(lián)想自己。
　　這種自聯(lián)想的閱讀方式也可以稱(chēng)為功利閱讀，以“解決問(wèn)題”為最終導向，快速收獲對我們真正有用的信息，然后通過(guò)做行為引導來(lái)指導未來(lái)的行為。
　　聽(tīng)起來(lái)有點(diǎn)抽象，我舉個(gè)例子。
　　比如我們看大廠(chǎng)的文章，看到一篇競品分析方法的文章，你可以像往常一樣看完后選擇驚嘆“偉大”，然后就沒(méi)了。但你也可以選擇更進(jìn)一步，聯(lián)系你自己的想法：
　　只需多一步簡(jiǎn)單的思考，即可實(shí)現信息向知識的轉化。由此，可以快速落地到解決問(wèn)題的層面，并根據后續的反饋不斷迭代。
　　協(xié)會(huì )自己的信息就是這樣處理的。下一階段是我們的首要任務(wù)。
　　四、資料整理
　　這一步的目的是將加工階段得到的碎片化信息整合到一個(gè)系統中。那么如何整合呢？有現成的方法嗎？來(lái)看看大佬們怎么說(shuō)。
　　我們應該把知識想象成一棵樹(shù)，知道了最根本的道理，才能深入細節，樹(shù)干和樹(shù)枝，沒(méi)有樹(shù)葉就無(wú)處附著(zhù)?！?埃隆·馬斯克
　　如果您只是孤立地記住事物并試圖將它們拼湊在一起，您將無(wú)法真正理解任何東西……您必須依靠模型框架來(lái)組織您的體驗?！槔怼っ⒏?，《窮查理年鑒》
　　
　　由此可見(jiàn)，有相似之處：為了更好的理解，需要安排一個(gè)結構化的框架作為載體。
　　因此，信息集成的主要方法是建立知識樹(shù)。（也可以叫知識庫、知識系統等，沒(méi)有區別）
　　1.什么是知識樹(shù)
　　簡(jiǎn)單來(lái)說(shuō)，知識樹(shù)就是一個(gè)金字塔結構的知識體系。樹(shù)干對應骨架，樹(shù)葉對應知識，果實(shí)對應多次學(xué)習積累的智慧。其中，知識和經(jīng)驗恰好對應于dikw模型中的k和w。
　　2、為什么要用知識樹(shù)作為外腦，永久快速的存儲知識，訪(fǎng)問(wèn)金字塔結構，讓知識成為系統，抗碎片化。通過(guò)反復的存儲和存取，加快形成長(cháng)期記憶的步伐，記憶力更強
　　下面簡(jiǎn)單說(shuō)明一下第三點(diǎn)。當我們說(shuō)記住某事時(shí)，我們指的是長(cháng)期記憶。
　　從生物學(xué)上講，長(cháng)期記憶的形成和鞏固依賴(lài)于神經(jīng)元反復刺激后神經(jīng)元間突觸的強化和誕生。不斷的存取過(guò)程，其實(shí)就是對神經(jīng)元的反復刺激，讓我們在不知不覺(jué)中記住得更牢。
　　3.如何構建知識樹(shù)
　　我們可以想象一棵樹(shù)的生長(cháng)過(guò)程，先是枝條，然后是葉子。因此，第一步是構建框架。這一步要注意三點(diǎn)：
　　因為筆記系統作為外腦，需要在筆記的基礎上遵循mece原則：相互獨立，完全窮舉建立秩序：使用編碼系統（如杜威十進(jìn)制編碼）輔助我們按順序快速瀏覽和搜索
　　讓我們舉一個(gè)關(guān)于編碼系統的例子。假設我們要構建一個(gè)個(gè)人能力的知識樹(shù)框架，使用杜威十進(jìn)制編碼時(shí)就是這樣的：
　　頂層框架使用了數百位的漸進(jìn)式排序。比如一般能力、專(zhuān)業(yè)能力、影響力的序號分別是100、200、300……分等級采用十位數遞進(jìn)排序。比如職業(yè)能力下的子等級序號分別是210、220、230……
　　尾層按個(gè)位數遞進(jìn)排序。例如，布局能力的子級序號為211、212、213……通過(guò)這樣的三級嵌套編碼，可以簡(jiǎn)單高效地建立類(lèi)別的順序，提高了易用性。
　　第二步是填知識。這一步的指導原則是：只保留對你有用的，丟棄其他的。
　　因此，此時(shí)的文章不再是一個(gè)密不可分的整體，而是由標題、事實(shí)案例、金句、觀(guān)點(diǎn)、故事、思維方式等組成的素材集。然后，基于文中提到的“功利閱讀”信息處理，我們拆解了所有對我有用的部分。
　　比如一篇關(guān)于設計師如何做競品分析的文章，我覺(jué)得2個(gè)方法3個(gè)金句4個(gè)案例對我有用，可以單獨拆解。目的是為了快速收獲對我們有用的信息，保存到我們自己的知識庫中，為我所用。
　　這一步要注意四點(diǎn)：
　　附上自己的思考和感悟，與自己多一些聯(lián)系！這是將信息轉化為知識的關(guān)鍵；附上原創(chuàng )
出處和鏈接，當我們從拆解筆記看不懂時(shí)，可以通過(guò)鏈接追溯原文理解；多使用筆記的鏈接功能來(lái)創(chuàng )建信息通路。（比如概念工具可以建立一個(gè)數據庫，把這些提取出來(lái)的信息做成卡片。synced塊雙鏈功能可以把引用這張卡片的頁(yè)面串聯(lián)起來(lái)，如果知識類(lèi)型不夠或者有問(wèn)題，該框架可以隨時(shí)迭代，知識管理是一個(gè)連續的動(dòng)態(tài)過(guò)程，每一次迭代都是一次思維的梳理和升級。
　　接下來(lái)，我們終于來(lái)到了最后一步。
　　5.信息內部化
　　信息內化的目的是讓信息融入我們的身體，完全成為我們自己。說(shuō)到這里，就不得不提一位大師——理查德·費曼。他曾說(shuō)過(guò)：如果你不能把一個(gè)科學(xué)概念解釋得讓一個(gè)大一新生都能看懂，那說(shuō)明你還沒(méi)有真正理解它。
　　費曼的意思是，我們需要通過(guò)教學(xué)來(lái)面對自己的知識盲點(diǎn)，通過(guò)教學(xué)來(lái)查漏補缺。具體步驟是：
　　選擇一個(gè)你想內化的概念，假裝告訴外行你卡住了，解釋那些卡住的地方恰恰是你的盲點(diǎn)，你需要回到原創(chuàng )
材料重新學(xué)習和簡(jiǎn)化，直到你能流利地表達出來(lái)
　　當然，講外行只是其中一種教學(xué)方式，只要對外輸出，形式不限。比如：寫(xiě)作、在線(xiàn)分享、短視頻輸出，甚至是簡(jiǎn)單的自言自語(yǔ)等等。當然，寫(xiě)作仍然是我最推薦的對外輸出方式。
　　1、為什么推薦寫(xiě)作？
　　簡(jiǎn)單的從教而不學(xué)、投入成本、能力加持和影響四個(gè)角度說(shuō)說(shuō)寫(xiě)作的好處。
　　寫(xiě)作作為知識管理的最后一環(huán)，可以很好的以教代學(xué)，反向逼迫你查漏補缺，對知識點(diǎn)進(jìn)行深入思考，更有效的內化你所學(xué)，幫助你成長(cháng)；與短視頻、直播等輸出方式相比，寫(xiě)作的投入成本是最低的，不需要腳本、剪輯、配音等步驟；寫(xiě)作對其他相關(guān)能力有明顯加持：如邏輯能力、演講能力、報告能力等，值得一次寫(xiě)作提升多項能力；公開(kāi)寫(xiě)作意味著(zhù)持續曝光，持續曝光意味著(zhù)影響力提升。當一個(gè)設計師在行業(yè)內積累了一定的影響力后，這意味著(zhù)越來(lái)越多的機會(huì )和資源會(huì )來(lái)到你身邊。標題，講座，貨幣化等。
　　而且很多大廠(chǎng)設計師的能力模型和晉升機制，不僅有過(guò)硬的專(zhuān)業(yè)能力，還有對行業(yè)影響力的要求。因此，長(cháng)期寫(xiě)作對求職和晉升有積極的影響。
　　另外，我也在堅持寫(xiě)作。包括這篇文章在內的兩年半時(shí)間里，我在公眾號上一共輸出了100篇原創(chuàng )文章。
　　寫(xiě)作給我帶來(lái)的變化可以說(shuō)是翻天覆地的。我成了專(zhuān)欄作家；受邀給大學(xué)生做線(xiàn)下講座；受58UXD邀請在線(xiàn)分享；越來(lái)越多的朋友主動(dòng)聯(lián)系，結交了新的伙伴、貴人甚至伙伴；吸引更多的業(yè)務(wù)訂單，套現等。寫(xiě)作可能不會(huì )直接讓你賺錢(qián)，但一定會(huì )讓你變得更有價(jià)值。查看全部

　　操作細節:直播源碼前期該如何運營(yíng)？
　　如今，直播行業(yè)越來(lái)越火爆，擁有自己的直播平臺已經(jīng)成為大眾不可或缺的需求。有人說(shuō)一對一直播源碼開(kāi)發(fā)只需要三步？這對很多人來(lái)說(shuō)是難以置信的。今天，小編就教大家分三步搭建一個(gè)完整的直播系統。
　　第一步：分解一對一直播系統的開(kāi)發(fā)功能，了解你需要的直播功能
　　1、采集：通過(guò)SDK接口直接采??集用戶(hù)設備的視頻、音頻等數據。視頻采樣數據一般采用RGB或YUV格式，音頻采樣數據一般采用PCM格式。
　　2、預處理：通過(guò)SDK層面的接口對采集到的數據進(jìn)行潤滑，主要是圖像處理，如美化、水印、濾鏡等。GPU優(yōu)化加速，平衡手機功耗和效果。
　　3. 編碼：對采集到的數據進(jìn)行壓縮編碼。比較常用的視頻編碼是H.264，音頻是AAC。在分辨率、幀數、碼率等參數的設計中找到最佳平衡點(diǎn)，使它們匹配推送流所需的協(xié)議，提高上傳效率。
　　4、推拉流：推流就是將壓縮后的音視頻轉換成流數據上傳到服務(wù)器。拉流是指通過(guò)播放器獲取碼流，從服務(wù)端拉取支持RTMP、HTTP-FLV、HLS等協(xié)議的音視頻流。
　　

　　5、解碼：對拉流打包后的視頻數據進(jìn)行高性能解碼，讓直播更流暢。
　　6、播放：解碼后的音頻數據可在播放端播放，支持MP4、FLV、M3U8等多種視頻播放格式。
　　第二步：
　　1、App框架搭建，直接在A(yíng)PICloud Studio中創(chuàng )建應用框架，常用的頁(yè)面框架有3個(gè)選項；
　　2. 積木拼裝，使用Java編寫(xiě)您選擇的所有模塊的頁(yè)面和模塊調用，使用HTML5+CSS3構建應用界面UI，完成App編碼的全過(guò)程；
　　3、真機調試，通過(guò)模擬器和真機調試功能優(yōu)化App，一鍵優(yōu)化iOS、Android手機中的App；
　　4、云編譯，將應用圖標、啟動(dòng)頁(yè)和證書(shū)上傳到APICloud網(wǎng)站，一鍵“云編譯”同時(shí)生成iOS和Android原生安裝包；
　　

　　5、云修復，使用云修復快速迭代，隨時(shí)發(fā)布新版本、新功能，無(wú)需提交新的安裝包。
　　第三步，管理模塊
　　1、前端：移動(dòng)端和PC端頁(yè)面效果的展示設計與維護
　　2.后臺：管理運行，數據庫管理
　　————————————————
　　版權聲明：本文為CSDN博主“山東布谷科技小菜”原創(chuàng )文章，遵循CC 4.0 BY-SA版權協(xié)議。轉載請附上原文出處鏈接及本聲明。
　　原文鏈接：
　　專(zhuān)業(yè)知識:設計師該如何做知識管理（下）
　　知識管理是將數據/信息動(dòng)態(tài)地轉化為知識/智慧的過(guò)程，以幫助我們做出更好的決策、解決問(wèn)題并實(shí)現持續增長(cháng)。本文作者從5個(gè)環(huán)節分析了如何做好知識管理，一起來(lái)學(xué)習吧。
　　上一篇文章講了什么是知識管理，為什么要做知識管理。我們掌握了一個(gè)底層模型，知道只有將信息轉化為知識，才能更好地指導我們的決策和行為。
　　知其然，知其所以然，我們來(lái)說(shuō)說(shuō)如何做知識管理？
　　我們所做的一切都必須有一個(gè)目的。有了目標，我們就知道把注意力放在哪里，才不會(huì )偏離方向。
　　還記得知識管理的定義嗎？“數據/信息動(dòng)態(tài)轉化為知識/智慧的過(guò)程，幫助我們做出更好的決策和行動(dòng)，解決問(wèn)題，實(shí)現持續成長(cháng)?！?br /> 　　知識管理的最終目的不是管理知識，而是改變自己，解決自己的問(wèn)題，讓自己成長(cháng)。（注意我這里特意強調了“自我”，這個(gè)很重要）接下來(lái)我將根據自己以往的經(jīng)驗，在5個(gè)環(huán)節中介紹如何做好知識管理。
　　1.信息獲取
　　第一步聽(tīng)起來(lái)簡(jiǎn)單，但這一步的來(lái)源直接決定了信息的質(zhì)量。這個(gè)環(huán)節隱藏著(zhù)三個(gè)誤區：被動(dòng)閱讀、固有場(chǎng)景、無(wú)盡漩渦。
　　1.被動(dòng)閱讀的問(wèn)題
　　少數派中的大佬路易卡德曾說(shuō)過(guò)：
　　不是我們沒(méi)有時(shí)間讀書(shū)，而是我們沒(méi)有時(shí)間主動(dòng)讀書(shū)。在閱讀什么信息的問(wèn)題上，很多人不自覺(jué)地選擇了被動(dòng)。前面我們提到，這個(gè)時(shí)代最不可或缺的就是內容，而大部分的內容都會(huì )被平臺推送到你嘴里。
　　如果沒(méi)有限制，大部分的信息獲取可能會(huì )以各種推送為主：抖音推送的熱門(mén)短視頻；微信群里各大廠(chǎng)裁員的消息；站主更新提示等。
　　就這樣，在這種無(wú)意識的信息獲取狀態(tài)下，你的注意力和時(shí)間都在不斷被攫取。但是其中有多少對您來(lái)說(shuō)真正有價(jià)值？解決這個(gè)問(wèn)題的方法簡(jiǎn)單粗暴：擺脫推送（或隱式推送），重新奪回閱讀的主導權。然后，我們有足夠的注意力來(lái)選擇那些質(zhì)量更高的信息。
　　2. 固有場(chǎng)景的問(wèn)題
　　很多設計師朋友，包括我自己，都下意識地認為有價(jià)值的信息只存在于各大廠(chǎng)商的優(yōu)質(zhì)文章、書(shū)籍、教程中，所以其他的信息獲取方式都下意識地被屏蔽掉了。
　　但事實(shí)并非如此。在前文提到的DIKW模型中，我們將信息解釋為“經(jīng)過(guò)主觀(guān)解釋并賦予意義的數據”，可以去除不確定性，回答簡(jiǎn)單的問(wèn)題。但是沒(méi)有介質(zhì)限制。換句話(huà)說(shuō)，除了那些創(chuàng )作者和作家制作的圖文資料，我們日常生活中的每一個(gè)場(chǎng)景都可以成為信息的來(lái)源。
　　以我幾年前的工作為例。左下角作品的靈感來(lái)自于我參觀(guān)宜家時(shí)看到的一間樣板間。這是給我的信息；寶座場(chǎng)景，也屬于信息。
　　因此，大家可以隨時(shí)留意，捕捉平時(shí)不被注意的有價(jià)值的信息。
　　這里我推薦flomo這個(gè)工具，非常適合臨時(shí)捕捉那些動(dòng)態(tài)的、難以抓取的信息。身邊朋友提到的一個(gè)觀(guān)點(diǎn)，坐地鐵時(shí)的一閃而過(guò)的想法等等，都可以快速記錄在這個(gè)應用上。
　　3.無(wú)盡漩渦的問(wèn)題
　　但是，如果你毫無(wú)節制地接受，你很容易卷入無(wú)盡的信息漩渦，被信息吞噬。這是第三個(gè)問(wèn)題，無(wú)盡的漩渦。識別和過(guò)濾不是最高質(zhì)量的信息源是唯一的方法。比如那些抱怨無(wú)病沒(méi)營(yíng)養的訂閱號，低質(zhì)量無(wú)趣的推薦新聞，每天推送十幾條信息的朋友圈等等。
　　最后推薦一些我認為非常優(yōu)質(zhì)的設計公眾號的信息源——
　　2.信息采集
　　這一步聽(tīng)起來(lái)很簡(jiǎn)單，躺下也很容易。給大家舉個(gè)場(chǎng)景——第一個(gè)場(chǎng)景是把微信的傳訊助手當成一個(gè)信息采集
工具，每次看到覺(jué)得不錯的就直接扔傳訊助手，其實(shí)微信的功能初衷是這樣的實(shí)際上是多個(gè)設備的組合。文件與文件之間的同步不是信息的集合，必然導致后續信息的查找和管理困難。
　　第二種場(chǎng)景是將各個(gè)應用中的采集
信息采集
到自己的采集
夾中。信息完全碎片化，無(wú)法聚合在一處，直接導致無(wú)法統一管理和訪(fǎng)問(wèn)信息。
　　除了以上問(wèn)題，更多的朋友會(huì )選擇將采集
的信息做成筆記工具。也長(cháng)期使用筆記工具采集
資料，印象筆記、語(yǔ)雀等，但最后都越來(lái)越臃腫和混亂。請注意，此工具比前兩個(gè)更好，但不是最佳解決方案。
　　在我們常規的理解中，將整個(gè)網(wǎng)絡(luò )的分片聚合到一個(gè)容器中，資源用于網(wǎng)盤(pán)，內容用于筆記。但回到工具本身，筆記工具的初衷是個(gè)人創(chuàng )作。一旦筆記系統同時(shí)與處理（即信息采集
）和創(chuàng )造混為一談，混亂和崩潰只是時(shí)間問(wèn)題。
　　筆記系統為創(chuàng )作而生，主要目標人群依然是創(chuàng )作者。這也意味著(zhù)它的服務(wù)是為創(chuàng )作者而不是消費者而構建和完善的。
　　例如，現有的筆記工具很難提供閱讀進(jìn)度、批注、復習、自定義排版等功能，而這些功能在信息處理中起著(zhù)至關(guān)重要的作用。所以，不是筆記工具不好，而是不適合采集
信息。就好比你用菜刀刮胡子，用工具做它不擅長(cháng)的事情。在我看來(lái)，一個(gè)好的采集工具至少需要滿(mǎn)足以下四個(gè)標準。
　　

　　可以快速將全網(wǎng)內容聚合到一處，整體系統存在；可分類(lèi)搜索，快速訪(fǎng)問(wèn)；支持高亮和標注，方便關(guān)鍵詞捕捉和聯(lián)想；完全獨立于筆記，專(zhuān)心閱讀，符合消費者需求
　　而后來(lái)的閱讀工具基本符合這四個(gè)標準。
　　稍后閱讀并不是一個(gè)新概念。早在十年前就被提出，一系列經(jīng)典產(chǎn)品由此誕生，如pocket、instapaper、readablity等。
　　簡(jiǎn)單來(lái)說(shuō)，稍后閱讀就是當你在任何一個(gè)平臺上看到好的內容，你都可以采集
在一個(gè)地方，以后有時(shí)間再看。
　　它最大的作用是把閱讀和深度閱讀區分開(kāi)來(lái)。比如很多信息只夠瀏覽，不需要二次加工（比如新聞、頭條黨、低價(jià)值的素材），那么這些信息就可以直接過(guò)濾加工；
　　而那些真正有價(jià)值的信息，可以傳遞給后來(lái)的讀者，供我們后續深入閱讀。我用過(guò)五款閱讀器，Pocket、Instapaper、Again、Twilar 和 Cubox，最后決定將 Cubox 作為我的主要工具。
　　簡(jiǎn)單演示一下采集功能。
　　當然cubox也有缺點(diǎn)，比如只支持網(wǎng)頁(yè)采集
，只支持無(wú)登錄門(mén)檻的內容采集
（付費課程需要登錄，無(wú)法采集
）。
　　3、信息處理
　　這個(gè)鏈接通常被稱(chēng)為閱讀鏈接，也是最容易說(shuō)謊的鏈接。但正是這一步，才是將信息轉化為知識的關(guān)鍵一步。還記得知識管理的最終目標嗎？——解決“我自己”的問(wèn)題，讓“我自己”不斷成長(cháng)。這里我特別強調“我自己”。我用三個(gè)角度來(lái)解釋原因。
　　1.系統1和系統2
　　卡尼曼在《Thinking Fast and Slow》中提到了System 1和System 2的概念。
　　大腦更習慣于不假思索地自動(dòng)反應，所以大腦習慣于用已經(jīng)掌握的舊概念來(lái)理解新概念，以減少大腦能量消耗。否則，你會(huì )覺(jué)得每學(xué)一個(gè)資料都是新知識，又得花時(shí)間再學(xué)一遍。這里的舊概念是我自己的。
　　因此，聯(lián)想過(guò)去舊的認知，符合大腦第一系統的習慣，實(shí)現知識的聯(lián)系和流動(dòng)，不僅加深了理解，也進(jìn)一步驗證和完善了以前的知識體系。
　　2. 艾賓浩斯實(shí)驗
　　提到遺忘曲線(xiàn)，大家應該能想到艾賓豪斯。他曾進(jìn)行過(guò)一年多的兩組記憶實(shí)驗，在實(shí)驗過(guò)程中發(fā)現了一個(gè)有趣的現象。學(xué)生首先忘記的是，它基本上是不重要的、無(wú)意義的、無(wú)趣的、不熟悉的內容。
　　那么如何快速讓一件事情變得重要和有意義呢？就人性而言，每個(gè)人都最關(guān)心自己。因此，一旦信息與你自己相關(guān)，就與你的工作、生活相關(guān)，那么信息就變得重要、有意義，從而降低遺忘的優(yōu)先級。
　　三、知識的定義
　　讓我們回到知識的定義——只有能夠應用到工作和生活中，能夠指導行為的信息，才能算作知識。它適用于誰(shuí)的生活，指導誰(shuí)的行為？同樣，我自己也是。綜上所述，信息處理的關(guān)鍵是在輸入的同時(shí)加入一個(gè)思維動(dòng)作。這個(gè)思考動(dòng)作的關(guān)鍵是聯(lián)想自己。
　　這種自聯(lián)想的閱讀方式也可以稱(chēng)為功利閱讀，以“解決問(wèn)題”為最終導向，快速收獲對我們真正有用的信息，然后通過(guò)做行為引導來(lái)指導未來(lái)的行為。
　　聽(tīng)起來(lái)有點(diǎn)抽象，我舉個(gè)例子。
　　比如我們看大廠(chǎng)的文章，看到一篇競品分析方法的文章，你可以像往常一樣看完后選擇驚嘆“偉大”，然后就沒(méi)了。但你也可以選擇更進(jìn)一步，聯(lián)系你自己的想法：
　　只需多一步簡(jiǎn)單的思考，即可實(shí)現信息向知識的轉化。由此，可以快速落地到解決問(wèn)題的層面，并根據后續的反饋不斷迭代。
　　協(xié)會(huì )自己的信息就是這樣處理的。下一階段是我們的首要任務(wù)。
　　四、資料整理
　　這一步的目的是將加工階段得到的碎片化信息整合到一個(gè)系統中。那么如何整合呢？有現成的方法嗎？來(lái)看看大佬們怎么說(shuō)。
　　我們應該把知識想象成一棵樹(shù)，知道了最根本的道理，才能深入細節，樹(shù)干和樹(shù)枝，沒(méi)有樹(shù)葉就無(wú)處附著(zhù)?！?埃隆·馬斯克
　　如果您只是孤立地記住事物并試圖將它們拼湊在一起，您將無(wú)法真正理解任何東西……您必須依靠模型框架來(lái)組織您的體驗?！槔怼っ⒏?，《窮查理年鑒》
　　

　　由此可見(jiàn)，有相似之處：為了更好的理解，需要安排一個(gè)結構化的框架作為載體。
　　因此，信息集成的主要方法是建立知識樹(shù)。（也可以叫知識庫、知識系統等，沒(méi)有區別）
　　1.什么是知識樹(shù)
　　簡(jiǎn)單來(lái)說(shuō)，知識樹(shù)就是一個(gè)金字塔結構的知識體系。樹(shù)干對應骨架，樹(shù)葉對應知識，果實(shí)對應多次學(xué)習積累的智慧。其中，知識和經(jīng)驗恰好對應于dikw模型中的k和w。
　　2、為什么要用知識樹(shù)作為外腦，永久快速的存儲知識，訪(fǎng)問(wèn)金字塔結構，讓知識成為系統，抗碎片化。通過(guò)反復的存儲和存取，加快形成長(cháng)期記憶的步伐，記憶力更強
　　下面簡(jiǎn)單說(shuō)明一下第三點(diǎn)。當我們說(shuō)記住某事時(shí)，我們指的是長(cháng)期記憶。
　　從生物學(xué)上講，長(cháng)期記憶的形成和鞏固依賴(lài)于神經(jīng)元反復刺激后神經(jīng)元間突觸的強化和誕生。不斷的存取過(guò)程，其實(shí)就是對神經(jīng)元的反復刺激，讓我們在不知不覺(jué)中記住得更牢。
　　3.如何構建知識樹(shù)
　　我們可以想象一棵樹(shù)的生長(cháng)過(guò)程，先是枝條，然后是葉子。因此，第一步是構建框架。這一步要注意三點(diǎn)：
　　因為筆記系統作為外腦，需要在筆記的基礎上遵循mece原則：相互獨立，完全窮舉建立秩序：使用編碼系統（如杜威十進(jìn)制編碼）輔助我們按順序快速瀏覽和搜索
　　讓我們舉一個(gè)關(guān)于編碼系統的例子。假設我們要構建一個(gè)個(gè)人能力的知識樹(shù)框架，使用杜威十進(jìn)制編碼時(shí)就是這樣的：
　　頂層框架使用了數百位的漸進(jìn)式排序。比如一般能力、專(zhuān)業(yè)能力、影響力的序號分別是100、200、300……分等級采用十位數遞進(jìn)排序。比如職業(yè)能力下的子等級序號分別是210、220、230……
　　尾層按個(gè)位數遞進(jìn)排序。例如，布局能力的子級序號為211、212、213……通過(guò)這樣的三級嵌套編碼，可以簡(jiǎn)單高效地建立類(lèi)別的順序，提高了易用性。
　　第二步是填知識。這一步的指導原則是：只保留對你有用的，丟棄其他的。
　　因此，此時(shí)的文章不再是一個(gè)密不可分的整體，而是由標題、事實(shí)案例、金句、觀(guān)點(diǎn)、故事、思維方式等組成的素材集。然后，基于文中提到的“功利閱讀”信息處理，我們拆解了所有對我有用的部分。
　　比如一篇關(guān)于設計師如何做競品分析的文章，我覺(jué)得2個(gè)方法3個(gè)金句4個(gè)案例對我有用，可以單獨拆解。目的是為了快速收獲對我們有用的信息，保存到我們自己的知識庫中，為我所用。
　　這一步要注意四點(diǎn)：
　　附上自己的思考和感悟，與自己多一些聯(lián)系！這是將信息轉化為知識的關(guān)鍵；附上原創(chuàng )
出處和鏈接，當我們從拆解筆記看不懂時(shí)，可以通過(guò)鏈接追溯原文理解；多使用筆記的鏈接功能來(lái)創(chuàng )建信息通路。（比如概念工具可以建立一個(gè)數據庫，把這些提取出來(lái)的信息做成卡片。synced塊雙鏈功能可以把引用這張卡片的頁(yè)面串聯(lián)起來(lái)，如果知識類(lèi)型不夠或者有問(wèn)題，該框架可以隨時(shí)迭代，知識管理是一個(gè)連續的動(dòng)態(tài)過(guò)程，每一次迭代都是一次思維的梳理和升級。
　　接下來(lái)，我們終于來(lái)到了最后一步。
　　5.信息內部化
　　信息內化的目的是讓信息融入我們的身體，完全成為我們自己。說(shuō)到這里，就不得不提一位大師——理查德·費曼。他曾說(shuō)過(guò)：如果你不能把一個(gè)科學(xué)概念解釋得讓一個(gè)大一新生都能看懂，那說(shuō)明你還沒(méi)有真正理解它。
　　費曼的意思是，我們需要通過(guò)教學(xué)來(lái)面對自己的知識盲點(diǎn)，通過(guò)教學(xué)來(lái)查漏補缺。具體步驟是：
　　選擇一個(gè)你想內化的概念，假裝告訴外行你卡住了，解釋那些卡住的地方恰恰是你的盲點(diǎn)，你需要回到原創(chuàng )
材料重新學(xué)習和簡(jiǎn)化，直到你能流利地表達出來(lái)
　　當然，講外行只是其中一種教學(xué)方式，只要對外輸出，形式不限。比如：寫(xiě)作、在線(xiàn)分享、短視頻輸出，甚至是簡(jiǎn)單的自言自語(yǔ)等等。當然，寫(xiě)作仍然是我最推薦的對外輸出方式。
　　1、為什么推薦寫(xiě)作？
　　簡(jiǎn)單的從教而不學(xué)、投入成本、能力加持和影響四個(gè)角度說(shuō)說(shuō)寫(xiě)作的好處。
　　寫(xiě)作作為知識管理的最后一環(huán)，可以很好的以教代學(xué)，反向逼迫你查漏補缺，對知識點(diǎn)進(jìn)行深入思考，更有效的內化你所學(xué)，幫助你成長(cháng)；與短視頻、直播等輸出方式相比，寫(xiě)作的投入成本是最低的，不需要腳本、剪輯、配音等步驟；寫(xiě)作對其他相關(guān)能力有明顯加持：如邏輯能力、演講能力、報告能力等，值得一次寫(xiě)作提升多項能力；公開(kāi)寫(xiě)作意味著(zhù)持續曝光，持續曝光意味著(zhù)影響力提升。當一個(gè)設計師在行業(yè)內積累了一定的影響力后，這意味著(zhù)越來(lái)越多的機會(huì )和資源會(huì )來(lái)到你身邊。標題，講座，貨幣化等。
　　而且很多大廠(chǎng)設計師的能力模型和晉升機制，不僅有過(guò)硬的專(zhuān)業(yè)能力，還有對行業(yè)影響力的要求。因此，長(cháng)期寫(xiě)作對求職和晉升有積極的影響。
　　另外，我也在堅持寫(xiě)作。包括這篇文章在內的兩年半時(shí)間里，我在公眾號上一共輸出了100篇原創(chuàng )文章。
　　寫(xiě)作給我帶來(lái)的變化可以說(shuō)是翻天覆地的。我成了專(zhuān)欄作家；受邀給大學(xué)生做線(xiàn)下講座；受58UXD邀請在線(xiàn)分享；越來(lái)越多的朋友主動(dòng)聯(lián)系，結交了新的伙伴、貴人甚至伙伴；吸引更多的業(yè)務(wù)訂單，套現等。寫(xiě)作可能不會(huì )直接讓你賺錢(qián)，但一定會(huì )讓你變得更有價(jià)值。

文章采集api 技巧:Skywalking快速入門(mén)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 407 次瀏覽 ? 2022-11-28 20:17 ? 來(lái)自相關(guān)話(huà)題

　　文章采集api 技巧:Skywalking快速入門(mén)
　　空中漫步快速入門(mén)
　　文章目錄
　　1. 官方地址：阿帕奇空中漫步 2.下載源代碼
　　3. 空中漫步重要參考文件
　　了解有關(guān)空中漫步代理的更多信息
　　Skywalking+Elasticsearch安裝和應用程序（電子郵件警報）。
　　官方向導方案：孵化器-天空漫步/blob/5.x/docs/README.md
　　中文文檔在這里：incubator-skywalking/blob/5.x/docs/README_ZH.md
　　Centos 安裝空中漫步 8.9.1
　　空中漫步集群建筑
　　空中漫步集群部署
　　天空漫步官方下載地址
　　Skywalking的UI日志監控是如何做的，如何分析性能，以及如何監控警報。
　　基于天空漫步的服務(wù)鏈路跟蹤
　　_SkyWalking構建和使用分布式鏈路跟蹤系統
　　Skywalking后端 - 官方網(wǎng)站文檔
　　春天
　　引導鏈接跟蹤天空漫步簡(jiǎn)介
　　春天
　　云鏈接跟蹤天空漫步
　　skywalking09 - 異步線(xiàn)程鏈接延續（下圖）。
　　swUI 使用完整指南
　　SkyWalking 8.7 源代碼分析（6）：ExitSpan 和 LocalSpan、Link Trace Context、Context Adapter ContextManager、DataCarrier、發(fā)送到 OAP 的鏈接數據
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 6.2.0 中文文檔
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 6.2.0 中文文檔
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 8.0.0 中文文檔
　　春云偵探+齊普金實(shí)現服務(wù)跟蹤
　　4. 空中漫步源代碼分析
　　1）源代碼分析[必看]：
　　2）源代碼解析文章：
　　5.空中漫步關(guān)鍵部分——插件實(shí)現及原理
　　實(shí)際上，Skywalking的核心是插件（plug-ins）的實(shí)現，其他部分是針對采集
到的數據的服務(wù)。
　　為更好的了解插件體系，強烈建議讀一下官方Java-Plugin-Development-Guide.md文檔：/apache-skywalking-java-agent-8.9.0/docs/en/setup/service-agent/java-agent/Java-Plugin-Development-Guide.md
　　5.1 自定義插件的開(kāi)發(fā)
　　插件
　　分為兩類(lèi)：跟蹤插件和儀表插件
　　1）為自定義鏈接集合插件開(kāi)發(fā)跟蹤插件
　　追蹤插件的基本方法是利用字節碼操作技術(shù)和AOP概念來(lái)攔截Java方法，SkyWalking封裝了字節碼操作技術(shù)和追蹤上下文傳播，所以你只需要定義攔截點(diǎn)（即Spring中的入口點(diǎn)）。
　　SkyWalking提供了兩個(gè)API來(lái)攔截構造函數，實(shí)例方法和類(lèi)方法：
　　介紹第一種類(lèi)型：
　　繼承ClassInstanceMethodsEnhancePluginDefine類(lèi)，定義構造方法攔截點(diǎn)和實(shí)例方法攔截點(diǎn)。
繼承ClassStaticMethodsEnhancePluginDefine類(lèi)來(lái)定義 class method 的截點(diǎn)。
　　插件的步驟是通過(guò)繼承 ClassInstanceMethodsEnhancePluginDefine 類(lèi)來(lái)實(shí)現的。
　　步驟 1：定義需要增強的目標類(lèi)
　　@Override
protected ClassMatch enhanceClass() {
// 需要增強的類(lèi)的全限定名
return NameMatch.byName("com.dhgate.apsaras.access.filter.ApsarasProxyFileter");
}
　　ClassMatch 表示如何匹配目標類(lèi)。有4種方法：
　　byName：基于完整的類(lèi)名（包名.類(lèi)名）。
　　byClassAnnotationMatch：取決于目標類(lèi)中是否存在某些注解（注意：不支持繼承而來(lái)的注解）。
<p>
</p>
　　byMethodAnnotationMatch：取決于目標類(lèi)的方法中是否有某些注解（注意：不支持繼承而來(lái)的注解）。
　　byHierarchyMatch：基于目標類(lèi)的父類(lèi)或接口（官方不建議用這個(gè)，有很大的性能問(wèn)題）。
　　步驟二：定義實(shí)例方法截取點(diǎn)
　　@Override
public InstanceMethodsInterceptPoint[] getInstanceMethodsInterceptPoints() {
return new InstanceMethodsInterceptPoint[] {
new InstanceMethodsInterceptPoint() {
/**
* @return 類(lèi)某個(gè)具體的實(shí)例方法的匹配器
*/
@Override
public ElementMatcher getMethodsMatcher() {
return named("invoke");
}
/**
* @return 表示一個(gè)類(lèi)名，類(lèi)實(shí)例必須是instanceof InstanceMethodsAroundInterceptor。
*/
@Override
public String getMethodsInterceptor() {
return "org.apache.skywalking.apm.plugin.asf.dubbo.DubboInterceptor";
}
@Override
public boolean isOverrideArgs() {
return false;
}
}
};
}
　　步驟 3：將自定義插件類(lèi)添加到 skywalking-plugin.def 配置文件
　　例如：
　　dubbo-2.7.x=org.apache.skywalking.apm.plugin.asf.dubbo.DubboInstrumentation
　　為什么？
　　SkyWalkingAgent加載插件包--->new PluginBootstrap().loadPlugins()--->PluginResourcesResolver.getResources
　　步驟 4：實(shí)現攔截器
　　自定義實(shí)例方法攔截器并實(shí)現 org.apache.skywalking.apm.agent.core.plugin.interceptor.enhance.InstanceMethodsAroundInterceptor，它聲明在調用方法之前和之后以及異常處理期間使用核心 API。
　　/**
* A interceptor, which intercept method's invocation. The target methods will be defined in {@link
* ClassEnhancePluginDefine}'s subclass, most likely in {@link ClassInstanceMethodsEnhancePluginDefine}
*/
public interface InstanceMethodsAroundInterceptor {
/**
* 在目標方法調用之前調用
*
* @param result 攔截這個(gè)方法改變之后的結果
* @throws Throwable
*/
void beforeMethod(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, MethodInterceptResult result) throws Throwable;
/**
* 在目標方法調用之后調用。注意該方法會(huì )拋出異常。
<p>
*
* @param ret 方法的原返回值
* @return 該方法的實(shí)際返回值
* @throws Throwable
*/
Object afterMethod(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, Object ret) throws Throwable;
/**
* 發(fā)生異常時(shí)調用該方法。
*
* @param t the exception occur.
*/
void handleMethodException(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, Throwable t);
}
</p>
　　例如，DubboInterceptor。
　　2）自定義計量API各種指標插件的儀表插件開(kāi)發(fā)計量插件
　　代理插件可以使用計量 API 采集
指標以進(jìn)行后端分析。
　　核心接口：
　　Counter API 代表一個(gè)單調遞增的計數器，它自動(dòng)收集數據并報告給后端。
一系列圖標信息，
　　例如UI界面顯示的jvm圖標信息，通過(guò)這樣的插件采集
并上報給后端服務(wù)器：
　　6）Skywalking的OAP如何在ES中存儲采集
的信息
　　1）鏈接數據發(fā)送到 OAP 服務(wù)器
　　鏈路數據由代理探針中定義的插件攔截函數采集，通過(guò) grpc 發(fā)送到 OAP 服務(wù)，grpc 對上報數據進(jìn)行異步分析和處理，將數據解析為各個(gè)指標模塊，然后刪除數據庫。
　　2） OAP 服務(wù)器將鏈接數據存儲到 ES 中
　　8. 安裝
　　和探頭測試
　　8.1 本地編譯和打包的 APM
　　mvn clean package -Dmaven.test.skip=true
　　8.2 詹金斯構建代理
　　Jenkins build address： dhgate-skywalking-agent [Jenkins].
　　本地測試
　　步驟 1：有兩種方法可以啟動(dòng) oap 服務(wù)器和 UI
　　1）第一種類(lèi)型：直接IDEA啟動(dòng)：
　　OAP Server 啟動(dòng)條目：apache-skywalking-apm-8.9.1/oap-server/server-starter/src/main/java/org/apache/skywalking/oap/server/starter/OAPServerStartUp.java
　　skywalk UI 啟動(dòng)條目：apache-skywalking-apm-8.9.1/apm-webapp/src/main/java/org/apache/skywalking/oap/server/webapp/ApplicationStartUp.java
　　2）第二種類(lèi)型：解壓編譯好的打包，進(jìn)入bin目錄，啟動(dòng)OAP和web：
　　tar -xzvf apache-skywalking-apm-bin.tar.gz
　　CD /apache-skywalking-apm-bin/bin
　　./startup.sh
　　第 2 步：編譯 apache-skywalking-java-agent-8.9.0
　　復制 skywalking-agent .jar完整路徑并準備 jvm 參數：
　　-javaagent:/Users/yuanjiabo/Downloads/skywalkingdeploy/skywalking-agent/skywalking-agent.jar
-Dskywalking.agent.sample_n_per_3_secs=1000
-Dskywalking.agent.service_name=dhgate-xxx-xxx
-Dskywalking.agent.env_sign=G3 (or G4)
-Dskywalking.collector.backend_service=127.0.0.1:11800
　　步驟 3：修改想法啟動(dòng)類(lèi)的運行配置并添加 VM 選項參數：
　　步驟 4：?jiǎn)?dòng)項目并訪(fǎng)問(wèn)項目中的界面
　　步驟五：打開(kāi)本地空中漫步UI界面：：8688/，可以查看鏈路追蹤信息。
　　解密:百度起源算法,打擊偽原創(chuàng )和采集內容的網(wǎng)站(百度起源算法有哪些)
　　什么是百度原點(diǎn)算法？
　　百度原創(chuàng )算法是為了保護優(yōu)質(zhì)原創(chuàng )內容，建立比較完善的原創(chuàng )識別算法，打擊偽原創(chuàng )站和盜版站。建議站長(cháng)提高偽原創(chuàng )內容的質(zhì)量和要求。
　　百度原點(diǎn)算法解讀：
　　下面234it就給大家講解一下百度起源算法，什么是“重復聚合”、“鏈接指向分析”、“什么是價(jià)值分析系統判斷？”
　　
　　解讀一：什么是重復聚合？
　　通俗地說(shuō)，重復聚合就是將重復的文章放在一起，形成一個(gè)“候選集”，然后根據文章發(fā)布時(shí)間、評論、站點(diǎn)歷史、轉發(fā)軌跡等多種因素，對原創(chuàng )內容進(jìn)行識別和判斷。
　　解讀2：什么是鏈接指向判斷？
　　鏈接指向是指分析鏈接的指向。根據鏈接的指向方，指向鏈接越多，百度PR權重值越高，內容判定為原創(chuàng )內容。
　　解讀三：什么是價(jià)值分析系統判斷？
　　除了基本的排名因素外，在PR權重值相同的情況下，網(wǎng)頁(yè)關(guān)鍵詞判斷為原創(chuàng )內容的排名能力更強。
　　
　　搜索引擎為什么要推出“原點(diǎn)算法” 1. 采集
泛濫
　　分析：采集嚴重的領(lǐng)域主要集中在新聞和小說(shuō)領(lǐng)域。由于采集軟件越來(lái)越先進(jìn)，一個(gè)網(wǎng)站不被采集都很難。我們在網(wǎng)站上更新了一個(gè)高質(zhì)量的原創(chuàng )內容，幾天后查看該內容的關(guān)鍵詞排名時(shí)發(fā)現，由于權重因素，采集
該內容的站點(diǎn)關(guān)鍵詞排名比原來(lái)的網(wǎng)站還要好。對于中小網(wǎng)站來(lái)說(shuō)，搜索引擎的流量仍然占據著(zhù)很大的比重。如果長(cháng)期堅持更新優(yōu)質(zhì)的原創(chuàng )內容，卻得不到應有的回報，那么站點(diǎn)就會(huì )失去堅持原創(chuàng )的動(dòng)力，從而降低站點(diǎn)原創(chuàng )內容的比例。最后，
　　2. 提升用戶(hù)體驗
　　分析：其實(shí)我們都知道原創(chuàng )內容對于網(wǎng)站優(yōu)化的重要性，但是堅持更新原創(chuàng )內容是一件非常耗費時(shí)間的事情。為了解決這個(gè)問(wèn)題，市面上出現了內容采集軟件，它將采集到的過(guò)往文章簡(jiǎn)單加工成偽原創(chuàng )內容，但這類(lèi)文章的可讀性很差，用戶(hù)體驗不好，而且對搜索引擎不友好。優(yōu)化網(wǎng)站只需要記住一件事，就是不斷提升用戶(hù)體驗。這個(gè)話(huà)題永遠不會(huì )過(guò)時(shí)。雖然搜索引擎在某些方面還不夠完美，但它一直在朝著(zhù)好的方向努力。
　　3.鼓勵原創(chuàng )作者和原創(chuàng )內容
　　分析：只有對堅持更新優(yōu)質(zhì)原創(chuàng )內容的網(wǎng)站給予一定的權重，讓站長(cháng)享受到更新原創(chuàng )內容的好處，網(wǎng)站才會(huì )有堅持更新原創(chuàng )內容的動(dòng)力。查看全部

　　文章采集api 技巧:Skywalking快速入門(mén)
　　空中漫步快速入門(mén)
　　文章目錄
　　1. 官方地址：阿帕奇空中漫步 2.下載源代碼
　　3. 空中漫步重要參考文件
　　了解有關(guān)空中漫步代理的更多信息
　　Skywalking+Elasticsearch安裝和應用程序（電子郵件警報）。
　　官方向導方案：孵化器-天空漫步/blob/5.x/docs/README.md
　　中文文檔在這里：incubator-skywalking/blob/5.x/docs/README_ZH.md
　　Centos 安裝空中漫步 8.9.1
　　空中漫步集群建筑
　　空中漫步集群部署
　　天空漫步官方下載地址
　　Skywalking的UI日志監控是如何做的，如何分析性能，以及如何監控警報。
　　基于天空漫步的服務(wù)鏈路跟蹤
　　_SkyWalking構建和使用分布式鏈路跟蹤系統
　　Skywalking后端 - 官方網(wǎng)站文檔
　　春天
　　引導鏈接跟蹤天空漫步簡(jiǎn)介
　　春天
　　云鏈接跟蹤天空漫步
　　skywalking09 - 異步線(xiàn)程鏈接延續（下圖）。
　　swUI 使用完整指南
　　SkyWalking 8.7 源代碼分析（6）：ExitSpan 和 LocalSpan、Link Trace Context、Context Adapter ContextManager、DataCarrier、發(fā)送到 OAP 的鏈接數據
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 6.2.0 中文文檔
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 6.2.0 中文文檔
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 8.0.0 中文文檔
　　春云偵探+齊普金實(shí)現服務(wù)跟蹤
　　4. 空中漫步源代碼分析
　　1）源代碼分析[必看]：
　　2）源代碼解析文章：
　　5.空中漫步關(guān)鍵部分——插件實(shí)現及原理
　　實(shí)際上，Skywalking的核心是插件（plug-ins）的實(shí)現，其他部分是針對采集
到的數據的服務(wù)。
　　為更好的了解插件體系，強烈建議讀一下官方Java-Plugin-Development-Guide.md文檔：/apache-skywalking-java-agent-8.9.0/docs/en/setup/service-agent/java-agent/Java-Plugin-Development-Guide.md
　　5.1 自定義插件的開(kāi)發(fā)
　　插件
　　分為兩類(lèi)：跟蹤插件和儀表插件
　　1）為自定義鏈接集合插件開(kāi)發(fā)跟蹤插件
　　追蹤插件的基本方法是利用字節碼操作技術(shù)和AOP概念來(lái)攔截Java方法，SkyWalking封裝了字節碼操作技術(shù)和追蹤上下文傳播，所以你只需要定義攔截點(diǎn)（即Spring中的入口點(diǎn)）。
　　SkyWalking提供了兩個(gè)API來(lái)攔截構造函數，實(shí)例方法和類(lèi)方法：
　　介紹第一種類(lèi)型：
　　繼承ClassInstanceMethodsEnhancePluginDefine類(lèi)，定義構造方法攔截點(diǎn)和實(shí)例方法攔截點(diǎn)。
繼承ClassStaticMethodsEnhancePluginDefine類(lèi)來(lái)定義 class method 的截點(diǎn)。
　　插件的步驟是通過(guò)繼承 ClassInstanceMethodsEnhancePluginDefine 類(lèi)來(lái)實(shí)現的。
　　步驟 1：定義需要增強的目標類(lèi)
　　@Override
protected ClassMatch enhanceClass() {
// 需要增強的類(lèi)的全限定名
return NameMatch.byName("com.dhgate.apsaras.access.filter.ApsarasProxyFileter");
}
　　ClassMatch 表示如何匹配目標類(lèi)。有4種方法：
　　byName：基于完整的類(lèi)名（包名.類(lèi)名）。
　　byClassAnnotationMatch：取決于目標類(lèi)中是否存在某些注解（注意：不支持繼承而來(lái)的注解）。
<p>

</p>
　　byMethodAnnotationMatch：取決于目標類(lèi)的方法中是否有某些注解（注意：不支持繼承而來(lái)的注解）。
　　byHierarchyMatch：基于目標類(lèi)的父類(lèi)或接口（官方不建議用這個(gè)，有很大的性能問(wèn)題）。
　　步驟二：定義實(shí)例方法截取點(diǎn)
　　@Override
public InstanceMethodsInterceptPoint[] getInstanceMethodsInterceptPoints() {
return new InstanceMethodsInterceptPoint[] {
new InstanceMethodsInterceptPoint() {
/**
* @return 類(lèi)某個(gè)具體的實(shí)例方法的匹配器
*/
@Override
public ElementMatcher getMethodsMatcher() {
return named("invoke");
}
/**
* @return 表示一個(gè)類(lèi)名，類(lèi)實(shí)例必須是instanceof InstanceMethodsAroundInterceptor。
*/
@Override
public String getMethodsInterceptor() {
return "org.apache.skywalking.apm.plugin.asf.dubbo.DubboInterceptor";
}
@Override
public boolean isOverrideArgs() {
return false;
}
}
};
}
　　步驟 3：將自定義插件類(lèi)添加到 skywalking-plugin.def 配置文件
　　例如：
　　dubbo-2.7.x=org.apache.skywalking.apm.plugin.asf.dubbo.DubboInstrumentation
　　為什么？
　　SkyWalkingAgent加載插件包--->new PluginBootstrap().loadPlugins()--->PluginResourcesResolver.getResources
　　步驟 4：實(shí)現攔截器
　　自定義實(shí)例方法攔截器并實(shí)現 org.apache.skywalking.apm.agent.core.plugin.interceptor.enhance.InstanceMethodsAroundInterceptor，它聲明在調用方法之前和之后以及異常處理期間使用核心 API。
　　/**
* A interceptor, which intercept method's invocation. The target methods will be defined in {@link
* ClassEnhancePluginDefine}'s subclass, most likely in {@link ClassInstanceMethodsEnhancePluginDefine}
*/
public interface InstanceMethodsAroundInterceptor {
/**
* 在目標方法調用之前調用
*
* @param result 攔截這個(gè)方法改變之后的結果
* @throws Throwable
*/
void beforeMethod(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, MethodInterceptResult result) throws Throwable;
/**
* 在目標方法調用之后調用。注意該方法會(huì )拋出異常。
<p>

*
* @param ret 方法的原返回值
* @return 該方法的實(shí)際返回值
* @throws Throwable
*/
Object afterMethod(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, Object ret) throws Throwable;
/**
* 發(fā)生異常時(shí)調用該方法。
*
* @param t the exception occur.
*/
void handleMethodException(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, Throwable t);
}
</p>
　　例如，DubboInterceptor。
　　2）自定義計量API各種指標插件的儀表插件開(kāi)發(fā)計量插件
　　代理插件可以使用計量 API 采集
指標以進(jìn)行后端分析。
　　核心接口：
　　Counter API 代表一個(gè)單調遞增的計數器，它自動(dòng)收集數據并報告給后端。
一系列圖標信息，
　　例如UI界面顯示的jvm圖標信息，通過(guò)這樣的插件采集
并上報給后端服務(wù)器：
　　6）Skywalking的OAP如何在ES中存儲采集
的信息
　　1）鏈接數據發(fā)送到 OAP 服務(wù)器
　　鏈路數據由代理探針中定義的插件攔截函數采集，通過(guò) grpc 發(fā)送到 OAP 服務(wù)，grpc 對上報數據進(jìn)行異步分析和處理，將數據解析為各個(gè)指標模塊，然后刪除數據庫。
　　2） OAP 服務(wù)器將鏈接數據存儲到 ES 中
　　8. 安裝
　　和探頭測試
　　8.1 本地編譯和打包的 APM
　　mvn clean package -Dmaven.test.skip=true
　　8.2 詹金斯構建代理
　　Jenkins build address： dhgate-skywalking-agent [Jenkins].
　　本地測試
　　步驟 1：有兩種方法可以啟動(dòng) oap 服務(wù)器和 UI
　　1）第一種類(lèi)型：直接IDEA啟動(dòng)：
　　OAP Server 啟動(dòng)條目：apache-skywalking-apm-8.9.1/oap-server/server-starter/src/main/java/org/apache/skywalking/oap/server/starter/OAPServerStartUp.java
　　skywalk UI 啟動(dòng)條目：apache-skywalking-apm-8.9.1/apm-webapp/src/main/java/org/apache/skywalking/oap/server/webapp/ApplicationStartUp.java
　　2）第二種類(lèi)型：解壓編譯好的打包，進(jìn)入bin目錄，啟動(dòng)OAP和web：
　　tar -xzvf apache-skywalking-apm-bin.tar.gz
　　CD /apache-skywalking-apm-bin/bin
　　./startup.sh
　　第 2 步：編譯 apache-skywalking-java-agent-8.9.0
　　復制 skywalking-agent .jar完整路徑并準備 jvm 參數：
　　-javaagent:/Users/yuanjiabo/Downloads/skywalkingdeploy/skywalking-agent/skywalking-agent.jar
-Dskywalking.agent.sample_n_per_3_secs=1000
-Dskywalking.agent.service_name=dhgate-xxx-xxx
-Dskywalking.agent.env_sign=G3 (or G4)
-Dskywalking.collector.backend_service=127.0.0.1:11800
　　步驟 3：修改想法啟動(dòng)類(lèi)的運行配置并添加 VM 選項參數：
　　步驟 4：?jiǎn)?dòng)項目并訪(fǎng)問(wèn)項目中的界面
　　步驟五：打開(kāi)本地空中漫步UI界面：：8688/，可以查看鏈路追蹤信息。
　　解密:百度起源算法,打擊偽原創(chuàng )和采集內容的網(wǎng)站(百度起源算法有哪些)
　　什么是百度原點(diǎn)算法？
　　百度原創(chuàng )算法是為了保護優(yōu)質(zhì)原創(chuàng )內容，建立比較完善的原創(chuàng )識別算法，打擊偽原創(chuàng )站和盜版站。建議站長(cháng)提高偽原創(chuàng )內容的質(zhì)量和要求。
　　百度原點(diǎn)算法解讀：
　　下面234it就給大家講解一下百度起源算法，什么是“重復聚合”、“鏈接指向分析”、“什么是價(jià)值分析系統判斷？”
　　

　　解讀一：什么是重復聚合？
　　通俗地說(shuō)，重復聚合就是將重復的文章放在一起，形成一個(gè)“候選集”，然后根據文章發(fā)布時(shí)間、評論、站點(diǎn)歷史、轉發(fā)軌跡等多種因素，對原創(chuàng )內容進(jìn)行識別和判斷。
　　解讀2：什么是鏈接指向判斷？
　　鏈接指向是指分析鏈接的指向。根據鏈接的指向方，指向鏈接越多，百度PR權重值越高，內容判定為原創(chuàng )內容。
　　解讀三：什么是價(jià)值分析系統判斷？
　　除了基本的排名因素外，在PR權重值相同的情況下，網(wǎng)頁(yè)關(guān)鍵詞判斷為原創(chuàng )內容的排名能力更強。
　　

　　搜索引擎為什么要推出“原點(diǎn)算法” 1. 采集
泛濫
　　分析：采集嚴重的領(lǐng)域主要集中在新聞和小說(shuō)領(lǐng)域。由于采集軟件越來(lái)越先進(jìn)，一個(gè)網(wǎng)站不被采集都很難。我們在網(wǎng)站上更新了一個(gè)高質(zhì)量的原創(chuàng )內容，幾天后查看該內容的關(guān)鍵詞排名時(shí)發(fā)現，由于權重因素，采集
該內容的站點(diǎn)關(guān)鍵詞排名比原來(lái)的網(wǎng)站還要好。對于中小網(wǎng)站來(lái)說(shuō)，搜索引擎的流量仍然占據著(zhù)很大的比重。如果長(cháng)期堅持更新優(yōu)質(zhì)的原創(chuàng )內容，卻得不到應有的回報，那么站點(diǎn)就會(huì )失去堅持原創(chuàng )的動(dòng)力，從而降低站點(diǎn)原創(chuàng )內容的比例。最后，
　　2. 提升用戶(hù)體驗
　　分析：其實(shí)我們都知道原創(chuàng )內容對于網(wǎng)站優(yōu)化的重要性，但是堅持更新原創(chuàng )內容是一件非常耗費時(shí)間的事情。為了解決這個(gè)問(wèn)題，市面上出現了內容采集軟件，它將采集到的過(guò)往文章簡(jiǎn)單加工成偽原創(chuàng )內容，但這類(lèi)文章的可讀性很差，用戶(hù)體驗不好，而且對搜索引擎不友好。優(yōu)化網(wǎng)站只需要記住一件事，就是不斷提升用戶(hù)體驗。這個(gè)話(huà)題永遠不會(huì )過(guò)時(shí)。雖然搜索引擎在某些方面還不夠完美，但它一直在朝著(zhù)好的方向努力。
　　3.鼓勵原創(chuàng )作者和原創(chuàng )內容
　　分析：只有對堅持更新優(yōu)質(zhì)原創(chuàng )內容的網(wǎng)站給予一定的權重，讓站長(cháng)享受到更新原創(chuàng )內容的好處，網(wǎng)站才會(huì )有堅持更新原創(chuàng )內容的動(dòng)力。

最新版本:API網(wǎng)頁(yè)抓取是什么意思？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 92 次瀏覽 ? 2022-11-28 17:12 ? 來(lái)自相關(guān)話(huà)題

　　最新版本:API網(wǎng)頁(yè)抓取是什么意思？
　　API（Application Programming Interface，應用程序編程接口）是一些預定義的功能，旨在為應用程序和開(kāi)發(fā)人員提供訪(fǎng)問(wèn)一組基于軟件或硬件的例程的能力，而無(wú)需訪(fǎng)問(wèn)源代碼或了解內部工作機制細節。
　　API 是一組通信協(xié)議和過(guò)程，提供對服務(wù)、操作系統或應用程序數據的訪(fǎng)問(wèn)。
　　
　　通常，這用于開(kāi)發(fā)使用相同數據的其他應用程序。
　　假設有一個(gè)天氣預報公司或新聞頻道部分。他們可以創(chuàng )建一個(gè) API，允許其他開(kāi)發(fā)人員獲取他們的數據并用它做其他事情。它可以是天氣網(wǎng)站或移動(dòng)應用程序。
　　有人也可以將此信息用于研究。
　　此信息的所有者，即本示例中的預測公司，可以免費或收費提供此數據。他們還可以限制用戶(hù)可以在網(wǎng)站上提出的請求數量，或者指定他們可以訪(fǎng)問(wèn)的數據類(lèi)型。
　　
　　API 網(wǎng)絡(luò )抓取允許您從為其創(chuàng )建 API 的網(wǎng)站獲取數據。您可以使用此數據基于目標網(wǎng)站的數據創(chuàng )建另一個(gè)應用程序或網(wǎng)站。
　　但這與常規的網(wǎng)絡(luò )抓取有何不同？這一切都歸結為 API 的存在。并非所有網(wǎng)站都有 API。
　　例如，如果您想從電子商務(wù)網(wǎng)站抓取數據，他們可能沒(méi)有 API。因此，您將使用網(wǎng)絡(luò )抓取工具來(lái)提取價(jià)格和產(chǎn)品說(shuō)明等信息。
　　IPIDEA提供的代理IP資源遍布全球220+國家和地區，每天高達9000萬(wàn)個(gè)真實(shí)住宅IP資源，高速高可用。
　　最新版本:游戲私服發(fā)布網(wǎng)站采集插件源代碼免費下載
　　98游戲自動(dòng)采集插件是奇動(dòng)網(wǎng)最新推出的自動(dòng)智能采集插件，也是目前首款私服信息自動(dòng)采集插件。它可以自動(dòng)采集
游戲資訊和文章，同時(shí)支持SEO優(yōu)化，還可以自動(dòng)生成HTML靜態(tài)頁(yè)面，讓您的網(wǎng)站自動(dòng)更新...
　　采集插件介紹
　　98游戲合集插件導入奇動(dòng)合集插件，是一款專(zhuān)門(mén)為游戲發(fā)布網(wǎng)開(kāi)發(fā)的免費版插件。網(wǎng)站開(kāi)發(fā)采集
較多，信息真實(shí)可靠。采集時(shí)可自動(dòng)篩選、過(guò)濾、替換信息，集成文章采集器（支持偽原創(chuàng )）。
　　
　　免費版：可以采集
，是唯一免費的采集
插件，采集
只需要免費授權，采集
次數不限。不像其他一些采集
品，被限制，你郁悶！
　　支持游戲：傳奇（無(wú)聲、IP版）、傳世、魔域、天龍、誅仙、完美、征途、武夷、逐鹿、奇跡等眾多熱門(mén)站點(diǎn)。
　　同時(shí)采集使用說(shuō)明：
　　1. 游戲合集信息來(lái)源于眾多熱門(mén)游戲網(wǎng)站。采集
時(shí)可以選擇時(shí)間、版本、過(guò)濾特殊符號、限制同時(shí)條目數等功能。
　　
　　2.采集
后直接存儲，自動(dòng)過(guò)濾現有游戲，避免信息重復！
　　3、本系統采集
的游戲信息100%可靠，絕對是新游戲！查看全部

　　最新版本:API網(wǎng)頁(yè)抓取是什么意思？
　　API（Application Programming Interface，應用程序編程接口）是一些預定義的功能，旨在為應用程序和開(kāi)發(fā)人員提供訪(fǎng)問(wèn)一組基于軟件或硬件的例程的能力，而無(wú)需訪(fǎng)問(wèn)源代碼或了解內部工作機制細節。
　　API 是一組通信協(xié)議和過(guò)程，提供對服務(wù)、操作系統或應用程序數據的訪(fǎng)問(wèn)。
　　

　　通常，這用于開(kāi)發(fā)使用相同數據的其他應用程序。
　　假設有一個(gè)天氣預報公司或新聞頻道部分。他們可以創(chuàng )建一個(gè) API，允許其他開(kāi)發(fā)人員獲取他們的數據并用它做其他事情。它可以是天氣網(wǎng)站或移動(dòng)應用程序。
　　有人也可以將此信息用于研究。
　　此信息的所有者，即本示例中的預測公司，可以免費或收費提供此數據。他們還可以限制用戶(hù)可以在網(wǎng)站上提出的請求數量，或者指定他們可以訪(fǎng)問(wèn)的數據類(lèi)型。
　　

　　API 網(wǎng)絡(luò )抓取允許您從為其創(chuàng )建 API 的網(wǎng)站獲取數據。您可以使用此數據基于目標網(wǎng)站的數據創(chuàng )建另一個(gè)應用程序或網(wǎng)站。
　　但這與常規的網(wǎng)絡(luò )抓取有何不同？這一切都歸結為 API 的存在。并非所有網(wǎng)站都有 API。
　　例如，如果您想從電子商務(wù)網(wǎng)站抓取數據，他們可能沒(méi)有 API。因此，您將使用網(wǎng)絡(luò )抓取工具來(lái)提取價(jià)格和產(chǎn)品說(shuō)明等信息。
　　IPIDEA提供的代理IP資源遍布全球220+國家和地區，每天高達9000萬(wàn)個(gè)真實(shí)住宅IP資源，高速高可用。
　　最新版本:游戲私服發(fā)布網(wǎng)站采集插件源代碼免費下載
　　98游戲自動(dòng)采集插件是奇動(dòng)網(wǎng)最新推出的自動(dòng)智能采集插件，也是目前首款私服信息自動(dòng)采集插件。它可以自動(dòng)采集
游戲資訊和文章，同時(shí)支持SEO優(yōu)化，還可以自動(dòng)生成HTML靜態(tài)頁(yè)面，讓您的網(wǎng)站自動(dòng)更新...
　　采集插件介紹
　　98游戲合集插件導入奇動(dòng)合集插件，是一款專(zhuān)門(mén)為游戲發(fā)布網(wǎng)開(kāi)發(fā)的免費版插件。網(wǎng)站開(kāi)發(fā)采集
較多，信息真實(shí)可靠。采集時(shí)可自動(dòng)篩選、過(guò)濾、替換信息，集成文章采集器（支持偽原創(chuàng )）。
　　

　　免費版：可以采集
，是唯一免費的采集
插件，采集
只需要免費授權，采集
次數不限。不像其他一些采集
品，被限制，你郁悶！
　　支持游戲：傳奇（無(wú)聲、IP版）、傳世、魔域、天龍、誅仙、完美、征途、武夷、逐鹿、奇跡等眾多熱門(mén)站點(diǎn)。
　　同時(shí)采集使用說(shuō)明：
　　1. 游戲合集信息來(lái)源于眾多熱門(mén)游戲網(wǎng)站。采集
時(shí)可以選擇時(shí)間、版本、過(guò)濾特殊符號、限制同時(shí)條目數等功能。
　　

　　2.采集
后直接存儲，自動(dòng)過(guò)濾現有游戲，避免信息重復！
　　3、本系統采集
的游戲信息100%可靠，絕對是新游戲！

教程:音視頻直播——Android視頻采集(Camera2)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2022-11-27 22:22 ? 來(lái)自相關(guān)話(huà)題

　　教程:音視頻直播——Android視頻采集(Camera2)
　　介紹
　　今天給大家介紹一下如何在A(yíng)ndroid上抓取視頻。Android系統下有兩套視頻采集的API，分別是Camera和Camera2。Camera 是一個(gè)舊的 API，自 Android 5.0(21) 以來(lái)就被廢棄了。今天主要給大家介紹一下如何使用Camera2進(jìn)行視頻采集。原創(chuàng )
代碼可以在這里獲得（）
　　Camera2整體結構
　　Camera2結構圖
　　Camera2主類(lèi)介紹
　　onOpened：表示已成功打開(kāi)Camera。
　　onDisconnected：表單關(guān)閉與相機的連接。
　　onError: 未能打開(kāi)窗體中的相機。
　　
　　onConfigured：表格會(huì )話(huà)已成功創(chuàng )建。
　　onConfigureFailed：正式會(huì )話(huà)創(chuàng )建失敗。
　　onCaptureCompleted：圖像捕獲完成。
　　onCaptureProgressed：圖像正在處理中。
　　使用Camera2的基本流程
　　該方法第一個(gè)參數表示要開(kāi)啟的攝像頭ID；
　　第二個(gè)參數callback用于監控攝像頭的狀態(tài)；
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　TEMPLATE_PREVIEW（預覽）
　　TEMPLATE_RECORD（拍攝視頻）
　　TEMPLATE_STILL_CAPTURE（拍照）等參數。
　　
　　該方法的第一個(gè)參數是一個(gè)List集合，里面封裝了所有需要從攝像頭獲取圖片的Surface；
　　第二個(gè)參數StateCallback用于監聽(tīng)CameraCaptureSession的創(chuàng )建過(guò)程；
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　第一個(gè)參數是由上面提到的createCaptureRequest創(chuàng )建的CaptureRequest.Builder對象生成的。
　　第二個(gè)參數callback是Camera采集時(shí)的回調對象。
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　通過(guò)以上步驟，就可以從Camera設備中獲取視頻了。我們也可以通過(guò)Android的MediaRecorder類(lèi)將獲取到的視頻錄制下來(lái)進(jìn)行播放。對于MediaRecorder，我會(huì )在另一篇文章中介紹。
　　概括
　　通過(guò)上面對Camera2 API的使用分析，我們可以看出Camera2完全采用了異步架構模式。完成每一步Camera操作后，系統會(huì )通知用戶(hù)，用戶(hù)可以在回調中進(jìn)行下一步操作，而不必一直等待。采用這種模式的優(yōu)點(diǎn)是可以大大提高APP的工作效率，缺點(diǎn)是不夠直觀(guān)，增加了一些學(xué)習和開(kāi)發(fā)成本。
　　參考
　　谷歌示例 android-Camera2video
　　最新版本:網(wǎng)頁(yè)采集器（網(wǎng)頁(yè)采集器app）
　　目錄：
　　1.網(wǎng)站采集器
　　隨著(zhù)社會(huì )的不斷發(fā)展，人們越來(lái)越離不開(kāi)網(wǎng)絡(luò )。今天，小編就給大家盤(pán)點(diǎn)一下免費的網(wǎng)頁(yè)數據采集方法。只需點(diǎn)擊幾下鼠標，即可輕松采集網(wǎng)頁(yè)數據，無(wú)論是導出到excel還是自動(dòng)發(fā)布到網(wǎng)站都是可以的。詳細參考圖1、2、3、4！.
　　2.網(wǎng)頁(yè)數據采集器
　　企業(yè)人員通過(guò)抓取動(dòng)態(tài)網(wǎng)頁(yè)數據分析客戶(hù)行為，拓展新業(yè)務(wù)，同時(shí)也可以利用數據更好地了解競爭對手，分析競爭對手，超越競爭對手。網(wǎng)站人員實(shí)現自動(dòng)采集、定時(shí)發(fā)布、自動(dòng)SEO優(yōu)化，讓您的網(wǎng)站即刻擁有強大的內容支持，快速提升流量和知名度。
　　3.頁(yè)面采集
器
　　親自代替手工復制粘貼，提高效率，節省更多時(shí)間。解決學(xué)術(shù)研究或生活、工作等數據信息需求，徹底解決沒(méi)有素材的問(wèn)題，也告別了手動(dòng)復制粘貼的痛苦。
　　
　　4.網(wǎng)頁(yè)獲取系統
　　如何研究關(guān)鍵詞？了解如何開(kāi)始搜索引擎優(yōu)化可以幫助我們制定更好的排名策略。了解網(wǎng)站使用的關(guān)鍵詞可以幫助您了解您的品牌標識以及您的企業(yè)網(wǎng)站的產(chǎn)品或服務(wù)是什么？你提供什么服務(wù)？用戶(hù)通過(guò)關(guān)鍵詞搜索目標網(wǎng)站所使用的搜索詞，可以幫助用戶(hù)更好地了解公司的品牌和業(yè)務(wù)。
　　5.采集
瀏覽器
　　關(guān)鍵詞研究可以揭示人們在尋找什么，而不是你認為他們在尋找什么專(zhuān)注于優(yōu)化核心關(guān)鍵詞結合 SEO 技術(shù)，這將有助于排名和增加訪(fǎng)問(wèn)您網(wǎng)站的人數。
　　6.網(wǎng)頁(yè)數據采集軟件
　　如果你選擇一個(gè)與站點(diǎn)或商業(yè)市場(chǎng)無(wú)關(guān)的關(guān)鍵詞，并將這些關(guān)鍵詞放在站點(diǎn)中，該站點(diǎn)將在短時(shí)間內在搜索中排名靠前。
　　7. 瀏覽器采集
器
　　什么是核心關(guān)鍵詞分析？核心關(guān)鍵詞是關(guān)鍵詞，用戶(hù)通過(guò)搜索引擎關(guān)鍵詞找到相關(guān)網(wǎng)站，并在網(wǎng)站上購買(mǎi)產(chǎn)品和服務(wù)。是網(wǎng)站重點(diǎn)布局和優(yōu)化的關(guān)鍵詞核心關(guān)鍵詞的正確設置關(guān)系到網(wǎng)站后期的流量和交易量。我們做Google SEO核心的核心運營(yíng)。只有選擇合適的關(guān)鍵詞才會(huì )對您的網(wǎng)站產(chǎn)生實(shí)際的優(yōu)化效果。
　　8.采集
網(wǎng)頁(yè)數據
　　
　　否則，一些不是你網(wǎng)站核心的關(guān)鍵詞雖然會(huì )排在Google搜索的第一頁(yè)，但不會(huì )給網(wǎng)站帶來(lái)多少價(jià)值。
　　9.網(wǎng)頁(yè)采集工具
　　對核心關(guān)鍵詞最直接的理解就是讓你的目標客戶(hù)通過(guò)谷歌搜索找到你的網(wǎng)站關(guān)鍵詞，只有那些能夠吸引目標客戶(hù)訪(fǎng)問(wèn)你網(wǎng)站的關(guān)鍵詞才是真正的核心關(guān)鍵詞這就是核心關(guān)鍵詞如此重要的原因，因為它是決定你的網(wǎng)站或店鋪能否帶來(lái)銷(xiāo)量的主要核心因素。
　　10.網(wǎng)絡(luò )采集
器
　　如果沒(méi)有選對核心關(guān)鍵詞，那么就會(huì )有很多負面影響：網(wǎng)站上沒(méi)有有效的詢(xún)盤(pán)和訂單。該商店沒(méi)有更多交易。網(wǎng)站的轉化率會(huì )很低。造成不必要的工作和站點(diǎn)關(guān)鍵詞排名內耗。
　　檢查競爭對手的關(guān)鍵詞和挖掘競爭對手的關(guān)鍵詞是我最喜歡做的事情，因為它們已經(jīng)幫你檢測出哪些詞的流量高，哪些詞的流量一般，哪些詞的流量不是很大但是交通非常好。當然，別看別人的話(huà)流量高，自己照著(zhù)做就好了。一般來(lái)說(shuō)，這樣你會(huì )死的很慘。
　　因為別人都花時(shí)間積累了，為什么我們一做就能上來(lái)呢？所以選擇適合我們前期開(kāi)發(fā)的核心詞是非常重要的，因為核心詞的配套內容可以給你很多內容
　　主題測試文章，僅供測試使用。發(fā)布者：小編，轉載請注明出處：查看全部

　　教程:音視頻直播——Android視頻采集(Camera2)
　　介紹
　　今天給大家介紹一下如何在A(yíng)ndroid上抓取視頻。Android系統下有兩套視頻采集的API，分別是Camera和Camera2。Camera 是一個(gè)舊的 API，自 Android 5.0(21) 以來(lái)就被廢棄了。今天主要給大家介紹一下如何使用Camera2進(jìn)行視頻采集。原創(chuàng )
代碼可以在這里獲得（）
　　Camera2整體結構
　　Camera2結構圖
　　Camera2主類(lèi)介紹
　　onOpened：表示已成功打開(kāi)Camera。
　　onDisconnected：表單關(guān)閉與相機的連接。
　　onError: 未能打開(kāi)窗體中的相機。
　　

　　onConfigured：表格會(huì )話(huà)已成功創(chuàng )建。
　　onConfigureFailed：正式會(huì )話(huà)創(chuàng )建失敗。
　　onCaptureCompleted：圖像捕獲完成。
　　onCaptureProgressed：圖像正在處理中。
　　使用Camera2的基本流程
　　該方法第一個(gè)參數表示要開(kāi)啟的攝像頭ID；
　　第二個(gè)參數callback用于監控攝像頭的狀態(tài)；
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　TEMPLATE_PREVIEW（預覽）
　　TEMPLATE_RECORD（拍攝視頻）
　　TEMPLATE_STILL_CAPTURE（拍照）等參數。
　　

　　該方法的第一個(gè)參數是一個(gè)List集合，里面封裝了所有需要從攝像頭獲取圖片的Surface；
　　第二個(gè)參數StateCallback用于監聽(tīng)CameraCaptureSession的創(chuàng )建過(guò)程；
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　第一個(gè)參數是由上面提到的createCaptureRequest創(chuàng )建的CaptureRequest.Builder對象生成的。
　　第二個(gè)參數callback是Camera采集時(shí)的回調對象。
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　通過(guò)以上步驟，就可以從Camera設備中獲取視頻了。我們也可以通過(guò)Android的MediaRecorder類(lèi)將獲取到的視頻錄制下來(lái)進(jìn)行播放。對于MediaRecorder，我會(huì )在另一篇文章中介紹。
　　概括
　　通過(guò)上面對Camera2 API的使用分析，我們可以看出Camera2完全采用了異步架構模式。完成每一步Camera操作后，系統會(huì )通知用戶(hù)，用戶(hù)可以在回調中進(jìn)行下一步操作，而不必一直等待。采用這種模式的優(yōu)點(diǎn)是可以大大提高APP的工作效率，缺點(diǎn)是不夠直觀(guān)，增加了一些學(xué)習和開(kāi)發(fā)成本。
　　參考
　　谷歌示例 android-Camera2video
　　最新版本:網(wǎng)頁(yè)采集器（網(wǎng)頁(yè)采集器app）
　　目錄：
　　1.網(wǎng)站采集器
　　隨著(zhù)社會(huì )的不斷發(fā)展，人們越來(lái)越離不開(kāi)網(wǎng)絡(luò )。今天，小編就給大家盤(pán)點(diǎn)一下免費的網(wǎng)頁(yè)數據采集方法。只需點(diǎn)擊幾下鼠標，即可輕松采集網(wǎng)頁(yè)數據，無(wú)論是導出到excel還是自動(dòng)發(fā)布到網(wǎng)站都是可以的。詳細參考圖1、2、3、4！.
　　2.網(wǎng)頁(yè)數據采集器
　　企業(yè)人員通過(guò)抓取動(dòng)態(tài)網(wǎng)頁(yè)數據分析客戶(hù)行為，拓展新業(yè)務(wù)，同時(shí)也可以利用數據更好地了解競爭對手，分析競爭對手，超越競爭對手。網(wǎng)站人員實(shí)現自動(dòng)采集、定時(shí)發(fā)布、自動(dòng)SEO優(yōu)化，讓您的網(wǎng)站即刻擁有強大的內容支持，快速提升流量和知名度。
　　3.頁(yè)面采集
器
　　親自代替手工復制粘貼，提高效率，節省更多時(shí)間。解決學(xué)術(shù)研究或生活、工作等數據信息需求，徹底解決沒(méi)有素材的問(wèn)題，也告別了手動(dòng)復制粘貼的痛苦。
　　

　　4.網(wǎng)頁(yè)獲取系統
　　如何研究關(guān)鍵詞？了解如何開(kāi)始搜索引擎優(yōu)化可以幫助我們制定更好的排名策略。了解網(wǎng)站使用的關(guān)鍵詞可以幫助您了解您的品牌標識以及您的企業(yè)網(wǎng)站的產(chǎn)品或服務(wù)是什么？你提供什么服務(wù)？用戶(hù)通過(guò)關(guān)鍵詞搜索目標網(wǎng)站所使用的搜索詞，可以幫助用戶(hù)更好地了解公司的品牌和業(yè)務(wù)。
　　5.采集
瀏覽器
　　關(guān)鍵詞研究可以揭示人們在尋找什么，而不是你認為他們在尋找什么專(zhuān)注于優(yōu)化核心關(guān)鍵詞結合 SEO 技術(shù)，這將有助于排名和增加訪(fǎng)問(wèn)您網(wǎng)站的人數。
　　6.網(wǎng)頁(yè)數據采集軟件
　　如果你選擇一個(gè)與站點(diǎn)或商業(yè)市場(chǎng)無(wú)關(guān)的關(guān)鍵詞，并將這些關(guān)鍵詞放在站點(diǎn)中，該站點(diǎn)將在短時(shí)間內在搜索中排名靠前。
　　7. 瀏覽器采集
器
　　什么是核心關(guān)鍵詞分析？核心關(guān)鍵詞是關(guān)鍵詞，用戶(hù)通過(guò)搜索引擎關(guān)鍵詞找到相關(guān)網(wǎng)站，并在網(wǎng)站上購買(mǎi)產(chǎn)品和服務(wù)。是網(wǎng)站重點(diǎn)布局和優(yōu)化的關(guān)鍵詞核心關(guān)鍵詞的正確設置關(guān)系到網(wǎng)站后期的流量和交易量。我們做Google SEO核心的核心運營(yíng)。只有選擇合適的關(guān)鍵詞才會(huì )對您的網(wǎng)站產(chǎn)生實(shí)際的優(yōu)化效果。
　　8.采集
網(wǎng)頁(yè)數據
　　

　　否則，一些不是你網(wǎng)站核心的關(guān)鍵詞雖然會(huì )排在Google搜索的第一頁(yè)，但不會(huì )給網(wǎng)站帶來(lái)多少價(jià)值。
　　9.網(wǎng)頁(yè)采集工具
　　對核心關(guān)鍵詞最直接的理解就是讓你的目標客戶(hù)通過(guò)谷歌搜索找到你的網(wǎng)站關(guān)鍵詞，只有那些能夠吸引目標客戶(hù)訪(fǎng)問(wèn)你網(wǎng)站的關(guān)鍵詞才是真正的核心關(guān)鍵詞這就是核心關(guān)鍵詞如此重要的原因，因為它是決定你的網(wǎng)站或店鋪能否帶來(lái)銷(xiāo)量的主要核心因素。
　　10.網(wǎng)絡(luò )采集
器
　　如果沒(méi)有選對核心關(guān)鍵詞，那么就會(huì )有很多負面影響：網(wǎng)站上沒(méi)有有效的詢(xún)盤(pán)和訂單。該商店沒(méi)有更多交易。網(wǎng)站的轉化率會(huì )很低。造成不必要的工作和站點(diǎn)關(guān)鍵詞排名內耗。
　　檢查競爭對手的關(guān)鍵詞和挖掘競爭對手的關(guān)鍵詞是我最喜歡做的事情，因為它們已經(jīng)幫你檢測出哪些詞的流量高，哪些詞的流量一般，哪些詞的流量不是很大但是交通非常好。當然，別看別人的話(huà)流量高，自己照著(zhù)做就好了。一般來(lái)說(shuō)，這樣你會(huì )死的很慘。
　　因為別人都花時(shí)間積累了，為什么我們一做就能上來(lái)呢？所以選擇適合我們前期開(kāi)發(fā)的核心詞是非常重要的，因為核心詞的配套內容可以給你很多內容
　　主題測試文章，僅供測試使用。發(fā)布者：小編，轉載請注明出處：

1
2
3
4
>
>>

使用優(yōu)采云可以幫助企業(yè)自動(dòng)收集信息的簡(jiǎn)單方法

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 63 次瀏覽 ? 2023-02-11 14:32 ? 來(lái)自相關(guān)話(huà)題

　　隨著(zhù)科技的發(fā)展，越來(lái)越多的企業(yè)都開(kāi)始使用文章采集API來(lái)獲取有價(jià)值的信息。文章采集API是一種可以幫助企業(yè)自動(dòng)收集信息的簡(jiǎn)單方法，它可以通過(guò)掃描網(wǎng)頁(yè)或其他文檔，將新聞、博客、企業(yè)網(wǎng)站、行業(yè)信息和其他各種信息采集到一個(gè)地方。這樣，企業(yè)就可以獲得有價(jià)值的信息，并更好地分析市場(chǎng)，從而更快地作出正確的決定。
　　
　　隨著(zhù)文章采集API越來(lái)越受到重視，各大企業(yè)都在尋找一些能夠幫助他們快速、準確地采集信息的工具。這時(shí)候就需要優(yōu)采云出場(chǎng)了。優(yōu)采云是一家專(zhuān)門(mén)針對文章采集領(lǐng)域的公司，它通過(guò)SEO優(yōu)化，使你能夠快速準確地采集到想要的信息。此外，它還能夠幫助你根據你所需要的內容進(jìn)行分詞、語(yǔ)義分析，并提供大數據分析服務(wù)。
　　
　　使用優(yōu)采云可以大大減少人工采集信息所耗費的時(shí)間和成本，因此能夠幫助企業(yè)降低成本并提高效率，相應地也能夠幫助企業(yè)節省時(shí)間。此外，不同于其他文章采集工具，優(yōu)采云還能夠根據你的特定需要對內容進(jìn)行語(yǔ)義分析，然后將其整理成易于理解的形式。這意味著(zhù)你不用浪費時(shí)間去理解內容中所包含的信息，而是將時(shí)間用在如何使用這些信息上面。
　　
　　總之，使用文章采集API是一個(gè)很好的選擇，特別是當你想要快速、準確地獲取有價(jià)值信息時(shí)。而使用優(yōu)采云就是最好的選擇了：它不僅能夠快速準確地幫你采集信息，還能夠根據你所需要的內容進(jìn)行語(yǔ)義分析并提供大數據分析服務(wù)。所有想要嘗試文章采集API的人都可以前往www.bjpromise.cn來(lái)親身感受一下這一神奇工具帶來(lái)的便利性。查看全部

　　隨著(zhù)科技的發(fā)展，越來(lái)越多的企業(yè)都開(kāi)始使用文章采集API來(lái)獲取有價(jià)值的信息。文章采集API是一種可以幫助企業(yè)自動(dòng)收集信息的簡(jiǎn)單方法，它可以通過(guò)掃描網(wǎng)頁(yè)或其他文檔，將新聞、博客、企業(yè)網(wǎng)站、行業(yè)信息和其他各種信息采集到一個(gè)地方。這樣，企業(yè)就可以獲得有價(jià)值的信息，并更好地分析市場(chǎng)，從而更快地作出正確的決定。
　　

　　隨著(zhù)文章采集API越來(lái)越受到重視，各大企業(yè)都在尋找一些能夠幫助他們快速、準確地采集信息的工具。這時(shí)候就需要優(yōu)采云出場(chǎng)了。優(yōu)采云是一家專(zhuān)門(mén)針對文章采集領(lǐng)域的公司，它通過(guò)SEO優(yōu)化，使你能夠快速準確地采集到想要的信息。此外，它還能夠幫助你根據你所需要的內容進(jìn)行分詞、語(yǔ)義分析，并提供大數據分析服務(wù)。
　　

　　使用優(yōu)采云可以大大減少人工采集信息所耗費的時(shí)間和成本，因此能夠幫助企業(yè)降低成本并提高效率，相應地也能夠幫助企業(yè)節省時(shí)間。此外，不同于其他文章采集工具，優(yōu)采云還能夠根據你的特定需要對內容進(jìn)行語(yǔ)義分析，然后將其整理成易于理解的形式。這意味著(zhù)你不用浪費時(shí)間去理解內容中所包含的信息，而是將時(shí)間用在如何使用這些信息上面。
　　

　　總之，使用文章采集API是一個(gè)很好的選擇，特別是當你想要快速、準確地獲取有價(jià)值信息時(shí)。而使用優(yōu)采云就是最好的選擇了：它不僅能夠快速準確地幫你采集信息，還能夠根據你所需要的內容進(jìn)行語(yǔ)義分析并提供大數據分析服務(wù)。所有想要嘗試文章采集API的人都可以前往www.bjpromise.cn來(lái)親身感受一下這一神奇工具帶來(lái)的便利性。

教程:手把手教你實(shí)現zabbix對Kubernetes的監控

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 98 次瀏覽 ? 2022-12-22 13:17 ? 來(lái)自相關(guān)話(huà)題

　　教程:手把手教你實(shí)現zabbix對Kubernetes的監控
　　教你如何實(shí)現Kubernetes Zabbix 6.0新特性的zabbix監控
　　Zabbix 6.0 LTS新增了Kubernetes監控功能，可以采集Kubernetes系統中多個(gè)維度的指標。今天來(lái)實(shí)現Zabbix6.0對K8S的監控。
　　建筑學(xué)
　　指標模板
　　K8S集群及組件模板
　　模板名稱(chēng)解釋
　　通過(guò) HTTP 的 Kubernetes API 服務(wù)器
　　K8S ApiServer組件指標模板
　　HTTP 的 Kubernetes 集群狀態(tài)
　　K8S集群指標模板
　　HTTP 的 Kubernetes 控制器管理器
　　K8S ControllerManager組件指標模板
　　Kubernetes kubelet 通過(guò) HTTP
　　K8S Kubelet組件指標模板
　　通過(guò) HTTP 的 Kubernetes 節點(diǎn)
　　K8S集群節點(diǎn)發(fā)現及狀態(tài)指示模板
　　HTTP 的 Kubernetes 調度器
　　K8S Scheduler組件指標模板
　　K8S節點(diǎn)基本信息指標模板
　　模板名稱(chēng)解釋
　　Zabbix 代理的 Linux
　　OS Linux系統監控模板
　　方法
　　主要監測方式
　　代理人
　　通過(guò)zabbix agent客戶(hù)端采集集群節點(diǎn)的CPU、內存、磁盤(pán)等基本信息指標。
　　無(wú)代理
　　通過(guò)Zabbix內置的“HTTP代理”和“腳本”兩種監控項，無(wú)需安裝客戶(hù)端，通過(guò)訪(fǎng)問(wèn)被監控終端的API接口即可采集監控指標數據。主要用于K8S集群、服務(wù)組件以及pod容器狀態(tài)和性能指標的采集。
　　機器分布
　　此實(shí)現使用兩個(gè)虛擬機
　　主機名 IP
　　k8s-master01
　　192.168.119.81
　　k8s-node01
　　192.168.119.91
　　部署Zabbix Proxy、代理
　　在K8S集群中部署Zabbix Proxy和Zabbix Agent監控組件，這里使用官方的Helm Chart進(jìn)行安裝。
　　文檔：%2Fheads%2Freelease%2F6.0
　　1.首先需要安裝Helm工具
　　wget tar zxvf helm-v3.8.1-linux-amd64.tar.gz cp linux-amd64/helm /usr/local/bin/helm
　　2. 添加 Helm Chart 存儲庫
　　helm repo 添加 zabbix-chart-6.0 helm repo 列表
　　3.下載Zabbix Helm Chart并解壓
　　helm pull zabbix-chart-6.0/zabbix-helm-chrt tar xf zabbix-helm-chrt-1.1.1.tgz
　　配置 Chart.yaml
　　主要記錄當前Chart的基本信息，包括版本、名稱(chēng)、依賴(lài)等。
　　
　　參數說(shuō)明
　　api版本
　　圖表 API 版本
　　姓名
　　圖表名稱(chēng)
　　描述
　　描述
　　家
　　項目主頁(yè)的URL
　　圖標
　　用作圖標的 SVG 或 PNG 圖像 URL
　　類(lèi)型
　　圖表類(lèi)型
　　版本
　　語(yǔ)義 2 版本
　　應用版本
　　收錄的應用程序版本
　　依賴(lài)關(guān)系
　　依賴(lài)的Chart列表，緩存在同級下的charts目錄中
　　配置 values.yaml
　　主要定義templates目錄下K8S資源對象的配置文件變量值。
　　1.Zabbix Proxy和Agent參數配置
　　參數值解釋
　　全名覆蓋
　　扎比克斯
　　覆蓋完全限定的應用程序名稱(chēng)
　　kubeStateMetricsEnabled
　　真的
　　部署 kube-state-metrics
　　zabbixProxy.image.tag
　　高山-6.0.1
　　ZabbixProxy Docker鏡像標簽，用于指定ZabbixProxy的版本
　　zabbixProxy.env.ZBX_HOSTNAME
　　zabbix-代理-k8s
　　ZabbixProxy 主機名
　　zabbixProxy.env.ZBX_SERVER_HOST
　　Zabbix服務(wù)器地址
　　zabbixAgent.image.tag
　　高山-6.0.1
　　ZabbiAgent Docker鏡像標簽，用于指定ZabbiAgent版本
　　2. kube-state-metrics依賴(lài)Chart參數配置
　　參數值解釋
　　圖像.存儲庫
　　bitnami/kube 狀態(tài)指標
　　kube-state-metrics 鏡像庫配置
　　圖片.tag
　　2.2.0
　　kube-state-metrics 容器鏡像版本
　　1.創(chuàng )建監控命名空間
　　kubectl 創(chuàng )建命名空間監控
　　
　　2.Helm安裝Zabbix Chart
　　cd zabbix-helm-chrt helm 安裝 zabbix。 --dependency-update -n 監控
　　3.查看K8S Zabbix Pod
　　kubectl get pods -n monitoring -o wide
　　4.獲取API接口訪(fǎng)問(wèn)令牌
　　kubectl 獲取秘密 zabbix-service-account -n monitoring -o jsonpath={.data.token} | base64-d
　　集群節點(diǎn)監控
　　1.在頁(yè)面創(chuàng )建Zabbix Proxy
　　注意這里的代理ip地址是kubectl獲取的值
　　2.創(chuàng )建“k8s-nodes”并掛載“Kubernets nodes by HTTP”自動(dòng)發(fā)現節點(diǎn)主機。
　　集群節點(diǎn)監控-宏變量配置
　　1.宏變量
　　{$KUBE.API.ENDPOINT} :6443/api
　　{$KUBE.API.TOKEN}之前獲取的一長(cháng)串值
　　{$KUBE.NODES.ENDPOINT.NAME} zabbix-agent
　　2.查看K8S服務(wù)端點(diǎn)信息
　　kubectl get ep -n 監控
　　集群節點(diǎn)監控效果
　　1.自動(dòng)發(fā)現節點(diǎn)主機
　　2.最新數據
　　集群服務(wù)監控
　　創(chuàng )建“k8s-cluster”并掛載“Kubernetes cluster state by HTTP”以自動(dòng)發(fā)現服務(wù)組件。
　　集群服務(wù)監控-宏變量配置
　　{$KUBE.API.HOST} 192.168.119.81
{$KUBE.API.PORT} 6443
{$KUBE.API.TOKEN}
{$KUBE.API_SERVER.PORT} 6443
{$KUBE.API_SERVER.SCHEME} https
{$KUBE.CONTROLLER_MANAGER.PORT} 10252
{$KUBE.CONTROLLER_MANAGER.SCHEME} http
{$KUBE.KUBELET.PORT} 10250
{$KUBE.KUBELET.SCHEME} https
{$KUBE.SCHEDULER.PORT} 10251
{$KUBE.SCHEDULER.SCHEME} http
{$KUBE.STATE.ENDPOINT.NAME} zabbix-kube-state-metrics
　　集群服務(wù)監控效果
　　1.自動(dòng)發(fā)現集群服務(wù)組件主機
　　2.最新數據
　　至此，我們就完成了Zabbix6.0對K8S的監控。
　　教程:愛(ài)站SEO工具包 V1.11.11
　　愛(ài)站 SEO Toolkit 是一個(gè)強大的網(wǎng)站管理員工具集合。集成了愛(ài)站的關(guān)鍵詞查詢(xún)挖掘、百度外鏈等多項功能，為站長(cháng)提供絕對的福利。是專(zhuān)業(yè)seo事業(yè)必備的工具箱。
　　【主要功能】
　　1.百度外鏈助手。
　　2.關(guān)鍵詞監控。
　　3.收錄率和死鏈接檢測。
　　4.站外排名。
　　5.關(guān)鍵詞挖掘。
　　特征：
　　百度外鏈助手：批量獲取站點(diǎn)外鏈并進(jìn)行垃圾外鏈檢測和狀態(tài)碼查詢(xún)，批量篩選/過(guò)濾，輕松獲取需要拒絕的垃圾外鏈。
　　關(guān)鍵詞監測：實(shí)時(shí)監測全站關(guān)鍵詞排名，覆蓋百度/搜狗/360等國內主流搜索引擎，并記錄指定關(guān)鍵詞的歷史排名數據，支持自定義添加、相關(guān)推薦、關(guān)鍵詞挖掘和競品搜索關(guān)鍵詞借鑒其他方式添加，排名一目了然！
　　
　　收錄率/斷鏈檢測：收錄查詢(xún)整網(wǎng)站頁(yè)面并計算網(wǎng)站頁(yè)面收錄率，批量查詢(xún)整站頁(yè)面狀態(tài)碼檢測死鏈接，提供死鏈接入口頁(yè)面，支持nofollow過(guò)濾、指定目錄頁(yè)面查詢(xún)，具有很強的可擴展性。一鍵獲取數據！
　　站外排行：每次打開(kāi)VPN，你的網(wǎng)站、QQ、推廣助手都會(huì )是好牌嗎？您可以在不使用 VPN 的情況下在不同的地方查看關(guān)鍵詞排名信息。支持百度/搜狗/360等主流搜索引擎，無(wú)需驗證碼，想查就查！
　　關(guān)鍵詞挖掘：支持百度索引批量查詢(xún)和關(guān)鍵詞挖掘功能，可快速批量查詢(xún)導出指定級別索引的關(guān)鍵詞。關(guān)鍵詞挖掘可以挖掘出愛(ài)站開(kāi)通愛(ài)站的所有數據，支持關(guān)聯(lián)/過(guò)濾/過(guò)濾/導出等功能
　　站群查詢(xún)：批量查詢(xún)權重/反向鏈/pr/收錄/大量站點(diǎn)記錄信息等數據，支持內頁(yè)查詢(xún)，支持數據批量篩選導出。
　　日志分析：支持所有格式的日志，覆蓋所有搜索引擎蜘蛛。批量分析用戶(hù)和蜘蛛的狀態(tài)碼，蜘蛛爬取頁(yè)面/目錄/ip排名，同時(shí)提供生動(dòng)的圖標，讓蜘蛛和用戶(hù)的行為一目了然！
　　工具箱：每次打開(kāi)VPN，你的網(wǎng)站、QQ、推廣助手會(huì )不會(huì )卡？您可以在不使用 VPN 的情況下在不同的地方查看關(guān)鍵詞排名信息。支持百度/搜狗/360等主流搜索引擎，無(wú)需驗證碼，想查就查！
　　常見(jiàn)問(wèn)題：
　　動(dòng)態(tài)鏈接庫（DLL）初始化例程失敗的解決方法
　　出現這個(gè)問(wèn)題的原因是我們的軟件沒(méi)有數字簽名。進(jìn)入后臺進(jìn)程后，McAfee等殺毒軟件將dll文件隔離。
　　解決方法是完全關(guān)閉或卸載殺毒軟件，然后運行愛(ài)站SEO工具包。（尤其是McAfee，因為大部分win7系統自帶McAfee，狀態(tài)欄不顯示）
　　愛(ài)站SEO工具包殺毒軟件誤報說(shuō)明
　　免責聲明：本官方版愛(ài)站SEO工具包軟件絕對不含任何病毒
　　殺毒軟件誤報的原因包括但不限于：
　　殺毒軟件或安全衛士病毒庫更新錯誤，
　　
　　殺毒軟件或安全衛士公司的技術(shù)問(wèn)題，
　　愛(ài)站在上線(xiàn)更新前已經(jīng)通過(guò)國內外知名殺毒軟件和安全軟件提交測試，通過(guò)安全監控后才會(huì )上線(xiàn)發(fā)布。
　　關(guān)鍵詞監控采集不到索引和排名是什么原因
　　近日新版工具包發(fā)布后，收到部分用戶(hù)反饋，軟件升級后，關(guān)鍵詞監測功能無(wú)法查詢(xún)索引或排名？
　　為了提升用戶(hù)體驗，新版本重新設計了軟件的UI風(fēng)格，查詢(xún)排名或索引需要在采集查詢(xún)數據前先勾選采集項。
　　【百度網(wǎng)址主動(dòng)推送工具常見(jiàn)問(wèn)題解答】
　　1、是否需要添加網(wǎng)址？
　　答：可以加也可以不加，程序會(huì )判斷URL，沒(méi)有加過(guò)的URL會(huì )自動(dòng)加進(jìn)去
　　2、同一個(gè)賬號下所有網(wǎng)站的TOKEN值是否相同？
　　答：一樣的
　　3.重復提交已發(fā)布的鏈接有什么問(wèn)題？
　　答：會(huì )有兩個(gè)影響。首先，它會(huì )浪費你的提交配額。每個(gè)站點(diǎn)每天的提交數量有限制。如果您已經(jīng)提交了舊鏈接，當有新鏈接時(shí)，您可能會(huì )因為配額用完而無(wú)法提交。其次，如果您頻繁重復提交舊鏈接，我們會(huì )降低您的配額，您可能會(huì )失去權限主動(dòng)推送功能
　　【更新日志】查看全部

　　教程:手把手教你實(shí)現zabbix對Kubernetes的監控
　　教你如何實(shí)現Kubernetes Zabbix 6.0新特性的zabbix監控
　　Zabbix 6.0 LTS新增了Kubernetes監控功能，可以采集Kubernetes系統中多個(gè)維度的指標。今天來(lái)實(shí)現Zabbix6.0對K8S的監控。
　　建筑學(xué)
　　指標模板
　　K8S集群及組件模板
　　模板名稱(chēng)解釋
　　通過(guò) HTTP 的 Kubernetes API 服務(wù)器
　　K8S ApiServer組件指標模板
　　HTTP 的 Kubernetes 集群狀態(tài)
　　K8S集群指標模板
　　HTTP 的 Kubernetes 控制器管理器
　　K8S ControllerManager組件指標模板
　　Kubernetes kubelet 通過(guò) HTTP
　　K8S Kubelet組件指標模板
　　通過(guò) HTTP 的 Kubernetes 節點(diǎn)
　　K8S集群節點(diǎn)發(fā)現及狀態(tài)指示模板
　　HTTP 的 Kubernetes 調度器
　　K8S Scheduler組件指標模板
　　K8S節點(diǎn)基本信息指標模板
　　模板名稱(chēng)解釋
　　Zabbix 代理的 Linux
　　OS Linux系統監控模板
　　方法
　　主要監測方式
　　代理人
　　通過(guò)zabbix agent客戶(hù)端采集集群節點(diǎn)的CPU、內存、磁盤(pán)等基本信息指標。
　　無(wú)代理
　　通過(guò)Zabbix內置的“HTTP代理”和“腳本”兩種監控項，無(wú)需安裝客戶(hù)端，通過(guò)訪(fǎng)問(wèn)被監控終端的API接口即可采集監控指標數據。主要用于K8S集群、服務(wù)組件以及pod容器狀態(tài)和性能指標的采集。
　　機器分布
　　此實(shí)現使用兩個(gè)虛擬機
　　主機名 IP
　　k8s-master01
　　192.168.119.81
　　k8s-node01
　　192.168.119.91
　　部署Zabbix Proxy、代理
　　在K8S集群中部署Zabbix Proxy和Zabbix Agent監控組件，這里使用官方的Helm Chart進(jìn)行安裝。
　　文檔：%2Fheads%2Freelease%2F6.0
　　1.首先需要安裝Helm工具
　　wget tar zxvf helm-v3.8.1-linux-amd64.tar.gz cp linux-amd64/helm /usr/local/bin/helm
　　2. 添加 Helm Chart 存儲庫
　　helm repo 添加 zabbix-chart-6.0 helm repo 列表
　　3.下載Zabbix Helm Chart并解壓
　　helm pull zabbix-chart-6.0/zabbix-helm-chrt tar xf zabbix-helm-chrt-1.1.1.tgz
　　配置 Chart.yaml
　　主要記錄當前Chart的基本信息，包括版本、名稱(chēng)、依賴(lài)等。
　　

　　參數說(shuō)明
　　api版本
　　圖表 API 版本
　　姓名
　　圖表名稱(chēng)
　　描述
　　描述
　　家
　　項目主頁(yè)的URL
　　圖標
　　用作圖標的 SVG 或 PNG 圖像 URL
　　類(lèi)型
　　圖表類(lèi)型
　　版本
　　語(yǔ)義 2 版本
　　應用版本
　　收錄的應用程序版本
　　依賴(lài)關(guān)系
　　依賴(lài)的Chart列表，緩存在同級下的charts目錄中
　　配置 values.yaml
　　主要定義templates目錄下K8S資源對象的配置文件變量值。
　　1.Zabbix Proxy和Agent參數配置
　　參數值解釋
　　全名覆蓋
　　扎比克斯
　　覆蓋完全限定的應用程序名稱(chēng)
　　kubeStateMetricsEnabled
　　真的
　　部署 kube-state-metrics
　　zabbixProxy.image.tag
　　高山-6.0.1
　　ZabbixProxy Docker鏡像標簽，用于指定ZabbixProxy的版本
　　zabbixProxy.env.ZBX_HOSTNAME
　　zabbix-代理-k8s
　　ZabbixProxy 主機名
　　zabbixProxy.env.ZBX_SERVER_HOST
　　Zabbix服務(wù)器地址
　　zabbixAgent.image.tag
　　高山-6.0.1
　　ZabbiAgent Docker鏡像標簽，用于指定ZabbiAgent版本
　　2. kube-state-metrics依賴(lài)Chart參數配置
　　參數值解釋
　　圖像.存儲庫
　　bitnami/kube 狀態(tài)指標
　　kube-state-metrics 鏡像庫配置
　　圖片.tag
　　2.2.0
　　kube-state-metrics 容器鏡像版本
　　1.創(chuàng )建監控命名空間
　　kubectl 創(chuàng )建命名空間監控
　　

　　2.Helm安裝Zabbix Chart
　　cd zabbix-helm-chrt helm 安裝 zabbix。 --dependency-update -n 監控
　　3.查看K8S Zabbix Pod
　　kubectl get pods -n monitoring -o wide
　　4.獲取API接口訪(fǎng)問(wèn)令牌
　　kubectl 獲取秘密 zabbix-service-account -n monitoring -o jsonpath={.data.token} | base64-d
　　集群節點(diǎn)監控
　　1.在頁(yè)面創(chuàng )建Zabbix Proxy
　　注意這里的代理ip地址是kubectl獲取的值
　　2.創(chuàng )建“k8s-nodes”并掛載“Kubernets nodes by HTTP”自動(dòng)發(fā)現節點(diǎn)主機。
　　集群節點(diǎn)監控-宏變量配置
　　1.宏變量
　　{$KUBE.API.ENDPOINT} :6443/api
　　{$KUBE.API.TOKEN}之前獲取的一長(cháng)串值
　　{$KUBE.NODES.ENDPOINT.NAME} zabbix-agent
　　2.查看K8S服務(wù)端點(diǎn)信息
　　kubectl get ep -n 監控
　　集群節點(diǎn)監控效果
　　1.自動(dòng)發(fā)現節點(diǎn)主機
　　2.最新數據
　　集群服務(wù)監控
　　創(chuàng )建“k8s-cluster”并掛載“Kubernetes cluster state by HTTP”以自動(dòng)發(fā)現服務(wù)組件。
　　集群服務(wù)監控-宏變量配置
　　{$KUBE.API.HOST} 192.168.119.81
{$KUBE.API.PORT} 6443
{$KUBE.API.TOKEN}
{$KUBE.API_SERVER.PORT} 6443
{$KUBE.API_SERVER.SCHEME} https
{$KUBE.CONTROLLER_MANAGER.PORT} 10252
{$KUBE.CONTROLLER_MANAGER.SCHEME} http
{$KUBE.KUBELET.PORT} 10250
{$KUBE.KUBELET.SCHEME} https
{$KUBE.SCHEDULER.PORT} 10251
{$KUBE.SCHEDULER.SCHEME} http
{$KUBE.STATE.ENDPOINT.NAME} zabbix-kube-state-metrics
　　集群服務(wù)監控效果
　　1.自動(dòng)發(fā)現集群服務(wù)組件主機
　　2.最新數據
　　至此，我們就完成了Zabbix6.0對K8S的監控。
　　教程:愛(ài)站SEO工具包 V1.11.11
　　愛(ài)站 SEO Toolkit 是一個(gè)強大的網(wǎng)站管理員工具集合。集成了愛(ài)站的關(guān)鍵詞查詢(xún)挖掘、百度外鏈等多項功能，為站長(cháng)提供絕對的福利。是專(zhuān)業(yè)seo事業(yè)必備的工具箱。
　　【主要功能】
　　1.百度外鏈助手。
　　2.關(guān)鍵詞監控。
　　3.收錄率和死鏈接檢測。
　　4.站外排名。
　　5.關(guān)鍵詞挖掘。
　　特征：
　　百度外鏈助手：批量獲取站點(diǎn)外鏈并進(jìn)行垃圾外鏈檢測和狀態(tài)碼查詢(xún)，批量篩選/過(guò)濾，輕松獲取需要拒絕的垃圾外鏈。
　　關(guān)鍵詞監測：實(shí)時(shí)監測全站關(guān)鍵詞排名，覆蓋百度/搜狗/360等國內主流搜索引擎，并記錄指定關(guān)鍵詞的歷史排名數據，支持自定義添加、相關(guān)推薦、關(guān)鍵詞挖掘和競品搜索關(guān)鍵詞借鑒其他方式添加，排名一目了然！
　　

　　收錄率/斷鏈檢測：收錄查詢(xún)整網(wǎng)站頁(yè)面并計算網(wǎng)站頁(yè)面收錄率，批量查詢(xún)整站頁(yè)面狀態(tài)碼檢測死鏈接，提供死鏈接入口頁(yè)面，支持nofollow過(guò)濾、指定目錄頁(yè)面查詢(xún)，具有很強的可擴展性。一鍵獲取數據！
　　站外排行：每次打開(kāi)VPN，你的網(wǎng)站、QQ、推廣助手都會(huì )是好牌嗎？您可以在不使用 VPN 的情況下在不同的地方查看關(guān)鍵詞排名信息。支持百度/搜狗/360等主流搜索引擎，無(wú)需驗證碼，想查就查！
　　關(guān)鍵詞挖掘：支持百度索引批量查詢(xún)和關(guān)鍵詞挖掘功能，可快速批量查詢(xún)導出指定級別索引的關(guān)鍵詞。關(guān)鍵詞挖掘可以挖掘出愛(ài)站開(kāi)通愛(ài)站的所有數據，支持關(guān)聯(lián)/過(guò)濾/過(guò)濾/導出等功能
　　站群查詢(xún)：批量查詢(xún)權重/反向鏈/pr/收錄/大量站點(diǎn)記錄信息等數據，支持內頁(yè)查詢(xún)，支持數據批量篩選導出。
　　日志分析：支持所有格式的日志，覆蓋所有搜索引擎蜘蛛。批量分析用戶(hù)和蜘蛛的狀態(tài)碼，蜘蛛爬取頁(yè)面/目錄/ip排名，同時(shí)提供生動(dòng)的圖標，讓蜘蛛和用戶(hù)的行為一目了然！
　　工具箱：每次打開(kāi)VPN，你的網(wǎng)站、QQ、推廣助手會(huì )不會(huì )卡？您可以在不使用 VPN 的情況下在不同的地方查看關(guān)鍵詞排名信息。支持百度/搜狗/360等主流搜索引擎，無(wú)需驗證碼，想查就查！
　　常見(jiàn)問(wèn)題：
　　動(dòng)態(tài)鏈接庫（DLL）初始化例程失敗的解決方法
　　出現這個(gè)問(wèn)題的原因是我們的軟件沒(méi)有數字簽名。進(jìn)入后臺進(jìn)程后，McAfee等殺毒軟件將dll文件隔離。
　　解決方法是完全關(guān)閉或卸載殺毒軟件，然后運行愛(ài)站SEO工具包。（尤其是McAfee，因為大部分win7系統自帶McAfee，狀態(tài)欄不顯示）
　　愛(ài)站SEO工具包殺毒軟件誤報說(shuō)明
　　免責聲明：本官方版愛(ài)站SEO工具包軟件絕對不含任何病毒
　　殺毒軟件誤報的原因包括但不限于：
　　殺毒軟件或安全衛士病毒庫更新錯誤，
　　

　　殺毒軟件或安全衛士公司的技術(shù)問(wèn)題，
　　愛(ài)站在上線(xiàn)更新前已經(jīng)通過(guò)國內外知名殺毒軟件和安全軟件提交測試，通過(guò)安全監控后才會(huì )上線(xiàn)發(fā)布。
　　關(guān)鍵詞監控采集不到索引和排名是什么原因
　　近日新版工具包發(fā)布后，收到部分用戶(hù)反饋，軟件升級后，關(guān)鍵詞監測功能無(wú)法查詢(xún)索引或排名？
　　為了提升用戶(hù)體驗，新版本重新設計了軟件的UI風(fēng)格，查詢(xún)排名或索引需要在采集查詢(xún)數據前先勾選采集項。
　　【百度網(wǎng)址主動(dòng)推送工具常見(jiàn)問(wèn)題解答】
　　1、是否需要添加網(wǎng)址？
　　答：可以加也可以不加，程序會(huì )判斷URL，沒(méi)有加過(guò)的URL會(huì )自動(dòng)加進(jìn)去
　　2、同一個(gè)賬號下所有網(wǎng)站的TOKEN值是否相同？
　　答：一樣的
　　3.重復提交已發(fā)布的鏈接有什么問(wèn)題？
　　答：會(huì )有兩個(gè)影響。首先，它會(huì )浪費你的提交配額。每個(gè)站點(diǎn)每天的提交數量有限制。如果您已經(jīng)提交了舊鏈接，當有新鏈接時(shí)，您可能會(huì )因為配額用完而無(wú)法提交。其次，如果您頻繁重復提交舊鏈接，我們會(huì )降低您的配額，您可能會(huì )失去權限主動(dòng)推送功能
　　【更新日志】

分享文章:可能吧的文章是如何排版的？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 133 次瀏覽 ? 2022-12-16 22:16 ? 來(lái)自相關(guān)話(huà)題

　　分享文章:可能吧的文章是如何排版的？
　　A Chan 杰森吳
　　閱讀這篇文章
　　關(guān)于
　　6分鐘
　　我發(fā)現無(wú)論我寫(xiě)哪個(gè)文章，都會(huì )有讀者在留言區問(wèn)我，我的文章排版是什么編輯器，我的回答是，市面上的微信排版工具我沒(méi)有'不要用它們，不是因為它們設計不好，而是因為所有的排版工具都不符合書(shū)寫(xiě)規律。
　　這個(gè)文章，會(huì )告訴你我的文章是怎么排版的。
　　1個(gè)
　　排版不僅僅是錦上添花
　　當我在 2006 年開(kāi)始寫(xiě)博客時(shí)，我認為內容是核心，排版不重要。但自從2008年看了一些屏幕閱讀體驗相關(guān)的研究報告后，我開(kāi)始關(guān)注排版，開(kāi)始在博客上嘗試不同的排版方式。不能說(shuō)我的排版是最好的，但是在一個(gè)小圈子里，已經(jīng)引起了注意。如果你在 Google 中搜索“maybe typesetting”，你會(huì )發(fā)現很多文章都是別人研究過(guò)我當時(shí)是如何排版的。
　　好的排版不僅賞心悅目，更重要的是我們可以適當調整排版，讓內容的呈現符合用戶(hù)在屏幕上的閱讀習慣。
　　我在《可能學(xué)院》有一個(gè)講座課程《微信內容運營(yíng)》，在課程中我定義了一個(gè)新的職位：內容管理員。
　　產(chǎn)品經(jīng)理關(guān)注用戶(hù)需求，根據用戶(hù)需求開(kāi)發(fā)功能。產(chǎn)品經(jīng)理不是什么都專(zhuān)，但是什么都懂一點(diǎn)。內容管理者不再是傳統意義上的記者或編輯，而是一個(gè)專(zhuān)注于內容生產(chǎn)線(xiàn)方方面面的角色。他們根據讀者的需求制作內容。他們好像不是什么都專(zhuān)精，但是什么都懂一點(diǎn)。
　　注意上面提到的“生產(chǎn)”二字。在注重讀者需求的時(shí)代，內容不僅僅是寫(xiě)作，而是“生產(chǎn)”。在“生產(chǎn)”的過(guò)程中，閱讀體驗和閱讀習慣是內容管理者必須關(guān)心的環(huán)節。它們不是錦上添花，而是整個(gè)內容生產(chǎn)線(xiàn)的重要組成部分。
　　2個(gè)
　　什么是寫(xiě)作規則？
　　我的文章一般都比較長(cháng)，比如" "，8000多字，""，6000多字。這些文章是一口氣寫(xiě)的，前者我寫(xiě)了5個(gè)小時(shí)，后者4個(gè)小時(shí)。
　　不過(guò)寫(xiě)作的時(shí)間并不是主要的，主要的時(shí)間都花在了搜集資料上。比如在寫(xiě)文章之前，微信公眾平臺的API文檔和谷歌PWA文檔都看了一遍，在開(kāi)始寫(xiě)之前在谷歌上搜集了很多資料。
　　把所有的材料采集起來(lái)，記在心里，我開(kāi)始閉關(guān)寫(xiě)作。
　　寫(xiě)作是一次性完成的。
　　就是說(shuō)我采集了足夠多的素材，把自己放在一個(gè)別人不能打擾的空間里，比如家里，比如咖啡店，比如酒店，從第一個(gè)字到最后一個(gè)字，把文章完成寫(xiě)作。
　　我試過(guò)多次寫(xiě) 文章都無(wú)濟于事，因為這會(huì )使文章情緒不連貫。比如今天覺(jué)得支付寶腦子有屎，就寫(xiě)了半篇文章，第二天可能覺(jué)得其實(shí)還好，就是水了。這樣，文章前后的情緒就會(huì )不一致。這樣的文章，會(huì )讓讀者感到困惑。
　　所以，我習慣了一次性寫(xiě)一個(gè)文章。相信大多數作家也有這個(gè)習慣。
　　3個(gè)
　　為什么我不用什么微信排版工具？
　　微信公眾平臺的編輯功能確實(shí)很弱，默認功能很難做出優(yōu)秀的排版。所以很多公司都開(kāi)發(fā)了微信排版工具。
　　幾乎所有的微信排版工具都有類(lèi)似于下面這個(gè)排版工具的頁(yè)面結構：
　　用戶(hù)在左側選擇內容類(lèi)型，然后選擇一種樣式，編輯器中會(huì )出現收錄該樣式的卡片，用戶(hù)再在卡片中填寫(xiě)內容。
　　我不使用任何排字機的原因包括：
　　易撞衫：你用的款式其他公眾號也用過(guò)，沒(méi)特色。
　　
　　不夠精致：大部分排版工具的樣式，從顏色、行距、字號等，都沒(méi)有經(jīng)過(guò)精心設計。
　　不符合書(shū)寫(xiě)規則
　　第3點(diǎn)是重點(diǎn)。
　　寫(xiě)作是一個(gè)連貫的過(guò)程，但大多數微信排版人員人為地將連貫的過(guò)程分開(kāi)。本來(lái)，寫(xiě)完字幕后，應該馬上敲鍵盤(pán)寫(xiě)內容，但在這些排版設備中，需要先選擇一個(gè)模板，然后在模板中填寫(xiě)內容。你必須打斷你的寫(xiě)作，將你的手從鍵盤(pán)移到鼠標，然后再移回鍵盤(pán)。
　　對我來(lái)說(shuō)，體驗很糟糕。
　　可能有人會(huì )說(shuō)，你可以先用寫(xiě)字板寫(xiě)好，然后在排字機里一段一段地粘貼，這樣一口氣寫(xiě)完，再“專(zhuān)心”排版？
　　想一想，《不要開(kāi)發(fā)App》文章 8000字，二級標題，三級標題加起來(lái)10到20，我需要付出多大的努力才能完成排版？
　　對我來(lái)說(shuō)，這種體驗仍然很糟糕。
　　4個(gè)
　　文章可能是如何排版的？
　　昨天，一個(gè)可能性學(xué)院的學(xué)生問(wèn)我，每次寫(xiě)文章，我在排版上花費了多少時(shí)間。我的回答是最快的時(shí)候是1秒，但是一般需要10-20秒。
　　這就是我寫(xiě)作和排版的方式。
　　4.1
　　開(kāi)始在安靜的編輯器中輸入
　　在 Mac 和 iPhone 上，我都買(mǎi)了 Ulysses，我認為它是最好的寫(xiě)作工具，因為它足夠安靜：
　　如上圖所示，我經(jīng)常全屏寫(xiě)，一口氣寫(xiě)完文章。
　　4.2
　　使用降價(jià)
　　Markdown 是一種專(zhuān)門(mén)為寫(xiě)作者準備的排版語(yǔ)言。它不是一種編程語(yǔ)言。學(xué)習 Markdown 通常只需要 5-10 分鐘。
　　使用 Markdown 的好處是當你需要排版文字時(shí)，你的手不需要離開(kāi)鍵盤(pán)。比如需要寫(xiě)二級標題，在正文前加兩個(gè)#號，三級標題加三個(gè)#號。要使文本加粗，請在文本兩邊添加兩個(gè)星號。
　　就像上圖一樣簡(jiǎn)單。
　　你可以在谷歌上輕松找到各種 Markdown 教程，相信我，只需 5-10 分鐘即可學(xué)會(huì )。
　　4.3
　　一鍵排版書(shū)寫(xiě)的文章
　　使用Markdown和Ulysses來(lái)寫(xiě)的好處是寫(xiě)好的文章可以直接輸出成HTML格式。所以我寫(xiě)了一個(gè)腳本，用我的排版樣式批量替換HTML中的標簽。整個(gè)過(guò)程在1秒內完成。
　　例如，我會(huì )標記段落
　　批量替換為字號15px、字間距1px、行間距28px的文字。
　　再比如，我自己定義了一個(gè)標簽。批量替換時(shí)，該標題將替換為文章頂部的閱讀時(shí)間塊。
　　對我來(lái)說(shuō)，寫(xiě)作必須一氣呵成，排版不能打斷寫(xiě)作。在流水線(xiàn)上，排版是寫(xiě)完之后來(lái)的。
　　4.4
　　將排版文章粘貼到微信編輯器
　　
　　一鍵替換后的文章還是HTML格式。如果用瀏覽器打開(kāi)，全選，復制粘貼到微信編輯器，樣式可能會(huì )亂。
　　我的做法是復制html文件的源碼，在在線(xiàn)CKEditor編輯器中粘貼源碼，然后復制到微信編輯器中，這樣樣式就不會(huì )亂了。
　　5個(gè)
　　問(wèn)題來(lái)了，如何一鍵排版？
　　沒(méi)做過(guò)個(gè)人主頁(yè)或者沒(méi)有技術(shù)背景的人，再看之前的排版流程，可能會(huì )有些懵。其實(shí)并不難。我不是技術(shù)出身，也不是設計師。所有的設計和排版代碼都是通過(guò)谷歌學(xué)習和嘗試的。
　　如果你對 HTML 和 CSS 一無(wú)所知，你有兩個(gè)選擇：
　　5.1
　　選一個(gè)
　　這是最好的選擇。
　　找公司設計師為您設計一套或多套版面樣式。
　　找公司的前端工程師幫你把這些設計好的樣式寫(xiě)成HTML和CSS。需要注意的是，微信并不是支持所有的CSS代碼。
　　還在找這個(gè)前端工程師，讓他幫你寫(xiě)一個(gè)腳本，批量替換純HTML的排版樣式。?
　　5.2
　　選擇兩個(gè)
　　這是我的路徑，你可以參考一下。
　　花半天時(shí)間學(xué)習 HTML 標記。
　　花 2 天時(shí)間學(xué)習常用的 CSS 標簽。
　　在公眾號后臺寫(xiě)一篇文章文章，發(fā)給自己預覽，用電腦Chrome打開(kāi)。
　　打開(kāi)Chrome的開(kāi)發(fā)者工具，找到你要調整的元素，把你學(xué)過(guò)的CSS標記寫(xiě)進(jìn)去，調整到你覺(jué)得合適為止。
　　記下要替換的 H2、H3、P 等標簽的樣式。
　　花 1 天時(shí)間學(xué)習如何編寫(xiě)收錄替換函數的簡(jiǎn)單 Python 腳本。
　　將要替換的元素寫(xiě)入此 Python 腳本。
　　一鍵排版。
　　不要被這 8 個(gè)“復雜”步驟嚇倒。在電腦上調試樣式，瀏覽器不會(huì )死機或死機。關(guān)鍵是多嘗試，用谷歌尋找學(xué)習資料和解決方案。
　　6個(gè)
　　不要依賴(lài)樣板教程
　　以上是我的排版方法。
　　我不會(huì )在這個(gè)文章里告訴你，也不會(huì )在以后的文章里告訴你，應該用多大的字號，用什么顏色，排版的時(shí)候行距應該多高。
　　其實(shí)你很容易在網(wǎng)上找到各種（微信）排版教程，告訴你應該使用16px字體大小，#888字體顏色，1.2rem行間距等等。
　　不要把這些教程當作鐵律。如果有人告訴你16px的字號最適合微信排版，千萬(wàn)別信。所有基于模板的教程都是教學(xué)示例。跟著(zhù)這些例子得到很多啟發(fā)是好事，但不要照搬，因為不同的公眾號，不同的內容類(lèi)型，對排版的要求是不一樣的。
　　關(guān)鍵是多嘗試。谷歌是我們嘗試一切的好幫手。還有，你怎么努力，電腦都不會(huì )壞，你怕什么？
　　順便說(shuō)一句，關(guān)于“不要開(kāi)發(fā)APP”這個(gè)話(huà)題，我們請來(lái)了微信口碑極佳的Yoli來(lái)和可能性學(xué)院分享。點(diǎn)擊閱讀原文報名本次分享。
　　分享文章:偽原創(chuàng )的文章很難收錄嗎（圖文）
　　難收錄偽原創(chuàng ) 文章嗎
　　問(wèn)：偽原創(chuàng ) 文章難收錄嗎？
　　補充問(wèn)題：網(wǎng)站更新了200多個(gè)偽原創(chuàng )文章，但收錄的文章很少，難偽原創(chuàng )文章收錄嗎？
　　答：原則上，偽原創(chuàng )文章本身是好的，為什么偽原創(chuàng )文章收錄少？筆者認為原因有三：
　　1. 網(wǎng)站重量輕，偽原創(chuàng )文章收錄少
　　
　　百度會(huì )綜合考慮網(wǎng)站在頁(yè)面收錄和關(guān)鍵詞排名中的整體權重，你可以看到那些大網(wǎng)站，即使沒(méi)有實(shí)際內容文章，或者復制粘貼文章，收錄還是很快的。還有考慮網(wǎng)站是否降級，如果網(wǎng)站降級，也會(huì )影響偽原創(chuàng )文章的收錄。
　　從理論上講，如果網(wǎng)站的權重沒(méi)有特別的問(wèn)題，偽原創(chuàng )文章的數量也不是問(wèn)題，當然這里需要考慮時(shí)間的問(wèn)題。也就是說(shuō)偽原創(chuàng )文章收錄是暫時(shí)的，過(guò)一會(huì )兒就會(huì )釋放。
　　2.
　　偽原創(chuàng )文章本身質(zhì)量低會(huì )導致收錄
　　雖然偽原創(chuàng )文章偽原創(chuàng )，
　　
　　還要注重質(zhì)量，如果只是亂七八糟的偽原創(chuàng )，收錄肯定不理想。大家都知道，穆鋒工作室有代筆文章生意，筆者查了幾網(wǎng)站，發(fā)現偽原創(chuàng )文章收錄率還是很高的。因此，如果你想提高你的偽原創(chuàng )文章收錄，記得注意文章的質(zhì)量。
　　3、車(chē)站優(yōu)化不到位，導致偽原創(chuàng )文章收錄少
　　頁(yè)面收錄不僅是頁(yè)面本身文章問(wèn)題，還與現場(chǎng)優(yōu)化有關(guān)，比如網(wǎng)站是否提供了文章頁(yè)面的入口鏈接，比如網(wǎng)站上的文章是否嚴重重復等等。網(wǎng)站SEO優(yōu)化是系統的，要素是相互關(guān)聯(lián)的，如果其他方面出現問(wèn)題，那么也會(huì )影響偽原創(chuàng )文章的收錄。
　　筆者曾經(jīng)更新過(guò)一篇叫低質(zhì)量偽原創(chuàng )文章的文章就是這樣一坑文章，你可以去看看，了解偽原創(chuàng )文章質(zhì)量的重要性，此外，你也可以學(xué)習如何寫(xiě)偽原創(chuàng )文章。
　　關(guān)于偽原創(chuàng )文章收錄問(wèn)題，筆者從三個(gè)方面給大家講解。如果你網(wǎng)站偽原創(chuàng )文章收錄不理想，那么你不妨重點(diǎn)從這些方面進(jìn)行分析，基本上原因就在這里。對于很多網(wǎng)站來(lái)說(shuō)，想要完全原創(chuàng )文章是不現實(shí)的，所以偽原創(chuàng )文章是必不可少的，但是大家在編輯偽原創(chuàng )文章的時(shí)候一定要注意質(zhì)量，否則會(huì )直接影響收錄和排名。查看全部

　　分享文章:可能吧的文章是如何排版的？
　　A Chan 杰森吳
　　閱讀這篇文章
　　關(guān)于
　　6分鐘
　　我發(fā)現無(wú)論我寫(xiě)哪個(gè)文章，都會(huì )有讀者在留言區問(wèn)我，我的文章排版是什么編輯器，我的回答是，市面上的微信排版工具我沒(méi)有'不要用它們，不是因為它們設計不好，而是因為所有的排版工具都不符合書(shū)寫(xiě)規律。
　　這個(gè)文章，會(huì )告訴你我的文章是怎么排版的。
　　1個(gè)
　　排版不僅僅是錦上添花
　　當我在 2006 年開(kāi)始寫(xiě)博客時(shí)，我認為內容是核心，排版不重要。但自從2008年看了一些屏幕閱讀體驗相關(guān)的研究報告后，我開(kāi)始關(guān)注排版，開(kāi)始在博客上嘗試不同的排版方式。不能說(shuō)我的排版是最好的，但是在一個(gè)小圈子里，已經(jīng)引起了注意。如果你在 Google 中搜索“maybe typesetting”，你會(huì )發(fā)現很多文章都是別人研究過(guò)我當時(shí)是如何排版的。
　　好的排版不僅賞心悅目，更重要的是我們可以適當調整排版，讓內容的呈現符合用戶(hù)在屏幕上的閱讀習慣。
　　我在《可能學(xué)院》有一個(gè)講座課程《微信內容運營(yíng)》，在課程中我定義了一個(gè)新的職位：內容管理員。
　　產(chǎn)品經(jīng)理關(guān)注用戶(hù)需求，根據用戶(hù)需求開(kāi)發(fā)功能。產(chǎn)品經(jīng)理不是什么都專(zhuān)，但是什么都懂一點(diǎn)。內容管理者不再是傳統意義上的記者或編輯，而是一個(gè)專(zhuān)注于內容生產(chǎn)線(xiàn)方方面面的角色。他們根據讀者的需求制作內容。他們好像不是什么都專(zhuān)精，但是什么都懂一點(diǎn)。
　　注意上面提到的“生產(chǎn)”二字。在注重讀者需求的時(shí)代，內容不僅僅是寫(xiě)作，而是“生產(chǎn)”。在“生產(chǎn)”的過(guò)程中，閱讀體驗和閱讀習慣是內容管理者必須關(guān)心的環(huán)節。它們不是錦上添花，而是整個(gè)內容生產(chǎn)線(xiàn)的重要組成部分。
　　2個(gè)
　　什么是寫(xiě)作規則？
　　我的文章一般都比較長(cháng)，比如" "，8000多字，""，6000多字。這些文章是一口氣寫(xiě)的，前者我寫(xiě)了5個(gè)小時(shí)，后者4個(gè)小時(shí)。
　　不過(guò)寫(xiě)作的時(shí)間并不是主要的，主要的時(shí)間都花在了搜集資料上。比如在寫(xiě)文章之前，微信公眾平臺的API文檔和谷歌PWA文檔都看了一遍，在開(kāi)始寫(xiě)之前在谷歌上搜集了很多資料。
　　把所有的材料采集起來(lái)，記在心里，我開(kāi)始閉關(guān)寫(xiě)作。
　　寫(xiě)作是一次性完成的。
　　就是說(shuō)我采集了足夠多的素材，把自己放在一個(gè)別人不能打擾的空間里，比如家里，比如咖啡店，比如酒店，從第一個(gè)字到最后一個(gè)字，把文章完成寫(xiě)作。
　　我試過(guò)多次寫(xiě) 文章都無(wú)濟于事，因為這會(huì )使文章情緒不連貫。比如今天覺(jué)得支付寶腦子有屎，就寫(xiě)了半篇文章，第二天可能覺(jué)得其實(shí)還好，就是水了。這樣，文章前后的情緒就會(huì )不一致。這樣的文章，會(huì )讓讀者感到困惑。
　　所以，我習慣了一次性寫(xiě)一個(gè)文章。相信大多數作家也有這個(gè)習慣。
　　3個(gè)
　　為什么我不用什么微信排版工具？
　　微信公眾平臺的編輯功能確實(shí)很弱，默認功能很難做出優(yōu)秀的排版。所以很多公司都開(kāi)發(fā)了微信排版工具。
　　幾乎所有的微信排版工具都有類(lèi)似于下面這個(gè)排版工具的頁(yè)面結構：
　　用戶(hù)在左側選擇內容類(lèi)型，然后選擇一種樣式，編輯器中會(huì )出現收錄該樣式的卡片，用戶(hù)再在卡片中填寫(xiě)內容。
　　我不使用任何排字機的原因包括：
　　易撞衫：你用的款式其他公眾號也用過(guò)，沒(méi)特色。
　　

　　不夠精致：大部分排版工具的樣式，從顏色、行距、字號等，都沒(méi)有經(jīng)過(guò)精心設計。
　　不符合書(shū)寫(xiě)規則
　　第3點(diǎn)是重點(diǎn)。
　　寫(xiě)作是一個(gè)連貫的過(guò)程，但大多數微信排版人員人為地將連貫的過(guò)程分開(kāi)。本來(lái)，寫(xiě)完字幕后，應該馬上敲鍵盤(pán)寫(xiě)內容，但在這些排版設備中，需要先選擇一個(gè)模板，然后在模板中填寫(xiě)內容。你必須打斷你的寫(xiě)作，將你的手從鍵盤(pán)移到鼠標，然后再移回鍵盤(pán)。
　　對我來(lái)說(shuō)，體驗很糟糕。
　　可能有人會(huì )說(shuō)，你可以先用寫(xiě)字板寫(xiě)好，然后在排字機里一段一段地粘貼，這樣一口氣寫(xiě)完，再“專(zhuān)心”排版？
　　想一想，《不要開(kāi)發(fā)App》文章 8000字，二級標題，三級標題加起來(lái)10到20，我需要付出多大的努力才能完成排版？
　　對我來(lái)說(shuō)，這種體驗仍然很糟糕。
　　4個(gè)
　　文章可能是如何排版的？
　　昨天，一個(gè)可能性學(xué)院的學(xué)生問(wèn)我，每次寫(xiě)文章，我在排版上花費了多少時(shí)間。我的回答是最快的時(shí)候是1秒，但是一般需要10-20秒。
　　這就是我寫(xiě)作和排版的方式。
　　4.1
　　開(kāi)始在安靜的編輯器中輸入
　　在 Mac 和 iPhone 上，我都買(mǎi)了 Ulysses，我認為它是最好的寫(xiě)作工具，因為它足夠安靜：
　　如上圖所示，我經(jīng)常全屏寫(xiě)，一口氣寫(xiě)完文章。
　　4.2
　　使用降價(jià)
　　Markdown 是一種專(zhuān)門(mén)為寫(xiě)作者準備的排版語(yǔ)言。它不是一種編程語(yǔ)言。學(xué)習 Markdown 通常只需要 5-10 分鐘。
　　使用 Markdown 的好處是當你需要排版文字時(shí)，你的手不需要離開(kāi)鍵盤(pán)。比如需要寫(xiě)二級標題，在正文前加兩個(gè)#號，三級標題加三個(gè)#號。要使文本加粗，請在文本兩邊添加兩個(gè)星號。
　　就像上圖一樣簡(jiǎn)單。
　　你可以在谷歌上輕松找到各種 Markdown 教程，相信我，只需 5-10 分鐘即可學(xué)會(huì )。
　　4.3
　　一鍵排版書(shū)寫(xiě)的文章
　　使用Markdown和Ulysses來(lái)寫(xiě)的好處是寫(xiě)好的文章可以直接輸出成HTML格式。所以我寫(xiě)了一個(gè)腳本，用我的排版樣式批量替換HTML中的標簽。整個(gè)過(guò)程在1秒內完成。
　　例如，我會(huì )標記段落
　　批量替換為字號15px、字間距1px、行間距28px的文字。
　　再比如，我自己定義了一個(gè)標簽。批量替換時(shí)，該標題將替換為文章頂部的閱讀時(shí)間塊。
　　對我來(lái)說(shuō)，寫(xiě)作必須一氣呵成，排版不能打斷寫(xiě)作。在流水線(xiàn)上，排版是寫(xiě)完之后來(lái)的。
　　4.4
　　將排版文章粘貼到微信編輯器
　　

　　一鍵替換后的文章還是HTML格式。如果用瀏覽器打開(kāi)，全選，復制粘貼到微信編輯器，樣式可能會(huì )亂。
　　我的做法是復制html文件的源碼，在在線(xiàn)CKEditor編輯器中粘貼源碼，然后復制到微信編輯器中，這樣樣式就不會(huì )亂了。
　　5個(gè)
　　問(wèn)題來(lái)了，如何一鍵排版？
　　沒(méi)做過(guò)個(gè)人主頁(yè)或者沒(méi)有技術(shù)背景的人，再看之前的排版流程，可能會(huì )有些懵。其實(shí)并不難。我不是技術(shù)出身，也不是設計師。所有的設計和排版代碼都是通過(guò)谷歌學(xué)習和嘗試的。
　　如果你對 HTML 和 CSS 一無(wú)所知，你有兩個(gè)選擇：
　　5.1
　　選一個(gè)
　　這是最好的選擇。
　　找公司設計師為您設計一套或多套版面樣式。
　　找公司的前端工程師幫你把這些設計好的樣式寫(xiě)成HTML和CSS。需要注意的是，微信并不是支持所有的CSS代碼。
　　還在找這個(gè)前端工程師，讓他幫你寫(xiě)一個(gè)腳本，批量替換純HTML的排版樣式。?
　　5.2
　　選擇兩個(gè)
　　這是我的路徑，你可以參考一下。
　　花半天時(shí)間學(xué)習 HTML 標記。
　　花 2 天時(shí)間學(xué)習常用的 CSS 標簽。
　　在公眾號后臺寫(xiě)一篇文章文章，發(fā)給自己預覽，用電腦Chrome打開(kāi)。
　　打開(kāi)Chrome的開(kāi)發(fā)者工具，找到你要調整的元素，把你學(xué)過(guò)的CSS標記寫(xiě)進(jìn)去，調整到你覺(jué)得合適為止。
　　記下要替換的 H2、H3、P 等標簽的樣式。
　　花 1 天時(shí)間學(xué)習如何編寫(xiě)收錄替換函數的簡(jiǎn)單 Python 腳本。
　　將要替換的元素寫(xiě)入此 Python 腳本。
　　一鍵排版。
　　不要被這 8 個(gè)“復雜”步驟嚇倒。在電腦上調試樣式，瀏覽器不會(huì )死機或死機。關(guān)鍵是多嘗試，用谷歌尋找學(xué)習資料和解決方案。
　　6個(gè)
　　不要依賴(lài)樣板教程
　　以上是我的排版方法。
　　我不會(huì )在這個(gè)文章里告訴你，也不會(huì )在以后的文章里告訴你，應該用多大的字號，用什么顏色，排版的時(shí)候行距應該多高。
　　其實(shí)你很容易在網(wǎng)上找到各種（微信）排版教程，告訴你應該使用16px字體大小，#888字體顏色，1.2rem行間距等等。
　　不要把這些教程當作鐵律。如果有人告訴你16px的字號最適合微信排版，千萬(wàn)別信。所有基于模板的教程都是教學(xué)示例。跟著(zhù)這些例子得到很多啟發(fā)是好事，但不要照搬，因為不同的公眾號，不同的內容類(lèi)型，對排版的要求是不一樣的。
　　關(guān)鍵是多嘗試。谷歌是我們嘗試一切的好幫手。還有，你怎么努力，電腦都不會(huì )壞，你怕什么？
　　順便說(shuō)一句，關(guān)于“不要開(kāi)發(fā)APP”這個(gè)話(huà)題，我們請來(lái)了微信口碑極佳的Yoli來(lái)和可能性學(xué)院分享。點(diǎn)擊閱讀原文報名本次分享。
　　分享文章:偽原創(chuàng )的文章很難收錄嗎（圖文）
　　難收錄偽原創(chuàng ) 文章嗎
　　問(wèn)：偽原創(chuàng ) 文章難收錄嗎？
　　補充問(wèn)題：網(wǎng)站更新了200多個(gè)偽原創(chuàng )文章，但收錄的文章很少，難偽原創(chuàng )文章收錄嗎？
　　答：原則上，偽原創(chuàng )文章本身是好的，為什么偽原創(chuàng )文章收錄少？筆者認為原因有三：
　　1. 網(wǎng)站重量輕，偽原創(chuàng )文章收錄少
　　

　　百度會(huì )綜合考慮網(wǎng)站在頁(yè)面收錄和關(guān)鍵詞排名中的整體權重，你可以看到那些大網(wǎng)站，即使沒(méi)有實(shí)際內容文章，或者復制粘貼文章，收錄還是很快的。還有考慮網(wǎng)站是否降級，如果網(wǎng)站降級，也會(huì )影響偽原創(chuàng )文章的收錄。
　　從理論上講，如果網(wǎng)站的權重沒(méi)有特別的問(wèn)題，偽原創(chuàng )文章的數量也不是問(wèn)題，當然這里需要考慮時(shí)間的問(wèn)題。也就是說(shuō)偽原創(chuàng )文章收錄是暫時(shí)的，過(guò)一會(huì )兒就會(huì )釋放。
　　2.
　　偽原創(chuàng )文章本身質(zhì)量低會(huì )導致收錄
　　雖然偽原創(chuàng )文章偽原創(chuàng )，
　　

　　還要注重質(zhì)量，如果只是亂七八糟的偽原創(chuàng )，收錄肯定不理想。大家都知道，穆鋒工作室有代筆文章生意，筆者查了幾網(wǎng)站，發(fā)現偽原創(chuàng )文章收錄率還是很高的。因此，如果你想提高你的偽原創(chuàng )文章收錄，記得注意文章的質(zhì)量。
　　3、車(chē)站優(yōu)化不到位，導致偽原創(chuàng )文章收錄少
　　頁(yè)面收錄不僅是頁(yè)面本身文章問(wèn)題，還與現場(chǎng)優(yōu)化有關(guān)，比如網(wǎng)站是否提供了文章頁(yè)面的入口鏈接，比如網(wǎng)站上的文章是否嚴重重復等等。網(wǎng)站SEO優(yōu)化是系統的，要素是相互關(guān)聯(lián)的，如果其他方面出現問(wèn)題，那么也會(huì )影響偽原創(chuàng )文章的收錄。
　　筆者曾經(jīng)更新過(guò)一篇叫低質(zhì)量偽原創(chuàng )文章的文章就是這樣一坑文章，你可以去看看，了解偽原創(chuàng )文章質(zhì)量的重要性，此外，你也可以學(xué)習如何寫(xiě)偽原創(chuàng )文章。
　　關(guān)于偽原創(chuàng )文章收錄問(wèn)題，筆者從三個(gè)方面給大家講解。如果你網(wǎng)站偽原創(chuàng )文章收錄不理想，那么你不妨重點(diǎn)從這些方面進(jìn)行分析，基本上原因就在這里。對于很多網(wǎng)站來(lái)說(shuō)，想要完全原創(chuàng )文章是不現實(shí)的，所以偽原創(chuàng )文章是必不可少的，但是大家在編輯偽原創(chuàng )文章的時(shí)候一定要注意質(zhì)量，否則會(huì )直接影響收錄和排名。

解決方案:蘋(píng)果cmsv10如何開(kāi)放api采集接口供他人采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 1025 次瀏覽 ? 2022-12-14 16:58 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:蘋(píng)果cmsv10如何開(kāi)放api采集接口供他人采集
　　2021-05-05
　　操作步驟：蘋(píng)果cms管理后臺：系統>>開(kāi)啟API配置>>
　?、俳涌陂_(kāi)關(guān)：打開(kāi)
　?、?是否收費：根據自己的需要設定
　　
　?、哿斜砻宽?yè)顯示個(gè)數：推薦默認20個(gè)
　?、軋D片域名：需要顯示圖片的完整訪(fǎng)問(wèn)路徑，http:開(kāi)頭，/結尾，不包括上傳目錄”（默認填寫(xiě)如圖），直接填寫(xiě)自己的網(wǎng)站地址，如果你的圖片地址在其他網(wǎng)站，請正確填寫(xiě)圖片所在地址鏈接。
　?、莘诸?lèi)過(guò)濾參數：列出需要展示的分類(lèi)id，如11,12,13" 如果不填則默認為采集開(kāi)放所有分類(lèi)，
　?、迶祿^(guò)濾參數：SQL查詢(xún)條件如vod_status=1（默認為空不填）
　?、邤祿彺鏁r(shí)間：以秒為單位，建議3600以上，根據需要填寫(xiě)。
　　
　?、嘀付úシ沤M：指定播放組如優(yōu)酷
　?、崾跈嘤蛎喝绻_(kāi)啟收費模式，可以填寫(xiě)授權域名，如果不收費，默認為空。
　　注意：如果只是想給別人打開(kāi)界面采集，只需要填寫(xiě)圖片域名，設置界面開(kāi)關(guān)即可。設置好之后就可以把接口發(fā)給別人采集，采集接口是：你的域名/api.php/provide/vod/?ac=list
　　最新版:非找你微信編輯器綠色版 V3.0 免費版（非找你微信編輯器綠色版 V3
　　關(guān)于非找你微信編輯器綠色版V3.0免費版，以及非找你微信編輯器綠色版V3.0使用方法。許多人不知道這一點(diǎn)。小新將為您解答以上問(wèn)題?，F在就讓我們一起來(lái)看看吧！
　　非找你編輯器綠色版是一款方便易用的微信編輯器。軟件界面美觀(guān)，新版編輯器支持使用舊版素材模板。只需復制舊版本的模板鏈接，在新版本采集中導入即可，運行時(shí)不會(huì )出現排版問(wèn)題。非常適合玩公眾號的朋友。
　　【特征】
　　
　　1、編輯器收錄上千素材模塊（動(dòng)態(tài)圖片、精美插畫(huà)、封面圖、流行表情等）；
　　2、編輯器提供文章搜索&采集功能（可搜索采集他人公眾號文章排版修改應用）；
　　3、提供豐富的全文模板，只要會(huì )修改文字和替換圖片，即可快速排版漂亮公眾號文章；
　　4.沒(méi)有網(wǎng)絡(luò )也可以使用。
　　【如何秒刷新功能】
　　
　　1.在編輯區輸入圖形后，
　　2.選中要排版的段落，點(diǎn)擊模塊樣式中的素材，選中的段落會(huì )自動(dòng)套用樣式模塊
　　注意：選擇的文字和圖形要與選擇的模塊樣式相對應，即如果選擇純文本，則使用文章段落模塊，如果選擇圖片+文字，則使用圖形和文本混合模塊
　　這篇文章就分享到這里，希望對大家有所幫助。查看全部

　　解決方案:蘋(píng)果cmsv10如何開(kāi)放api采集接口供他人采集
　　2021-05-05
　　操作步驟：蘋(píng)果cms管理后臺：系統>>開(kāi)啟API配置>>
　?、俳涌陂_(kāi)關(guān)：打開(kāi)
　?、?是否收費：根據自己的需要設定
　　

　?、哿斜砻宽?yè)顯示個(gè)數：推薦默認20個(gè)
　?、軋D片域名：需要顯示圖片的完整訪(fǎng)問(wèn)路徑，http:開(kāi)頭，/結尾，不包括上傳目錄”（默認填寫(xiě)如圖），直接填寫(xiě)自己的網(wǎng)站地址，如果你的圖片地址在其他網(wǎng)站，請正確填寫(xiě)圖片所在地址鏈接。
　?、莘诸?lèi)過(guò)濾參數：列出需要展示的分類(lèi)id，如11,12,13" 如果不填則默認為采集開(kāi)放所有分類(lèi)，
　?、迶祿^(guò)濾參數：SQL查詢(xún)條件如vod_status=1（默認為空不填）
　?、邤祿彺鏁r(shí)間：以秒為單位，建議3600以上，根據需要填寫(xiě)。
　　

　?、嘀付úシ沤M：指定播放組如優(yōu)酷
　?、崾跈嘤蛎喝绻_(kāi)啟收費模式，可以填寫(xiě)授權域名，如果不收費，默認為空。
　　注意：如果只是想給別人打開(kāi)界面采集，只需要填寫(xiě)圖片域名，設置界面開(kāi)關(guān)即可。設置好之后就可以把接口發(fā)給別人采集，采集接口是：你的域名/api.php/provide/vod/?ac=list
　　最新版:非找你微信編輯器綠色版 V3.0 免費版（非找你微信編輯器綠色版 V3
　　關(guān)于非找你微信編輯器綠色版V3.0免費版，以及非找你微信編輯器綠色版V3.0使用方法。許多人不知道這一點(diǎn)。小新將為您解答以上問(wèn)題?，F在就讓我們一起來(lái)看看吧！
　　非找你編輯器綠色版是一款方便易用的微信編輯器。軟件界面美觀(guān)，新版編輯器支持使用舊版素材模板。只需復制舊版本的模板鏈接，在新版本采集中導入即可，運行時(shí)不會(huì )出現排版問(wèn)題。非常適合玩公眾號的朋友。
　　【特征】
　　

　　1、編輯器收錄上千素材模塊（動(dòng)態(tài)圖片、精美插畫(huà)、封面圖、流行表情等）；
　　2、編輯器提供文章搜索&采集功能（可搜索采集他人公眾號文章排版修改應用）；
　　3、提供豐富的全文模板，只要會(huì )修改文字和替換圖片，即可快速排版漂亮公眾號文章；
　　4.沒(méi)有網(wǎng)絡(luò )也可以使用。
　　【如何秒刷新功能】
　　

　　1.在編輯區輸入圖形后，
　　2.選中要排版的段落，點(diǎn)擊模塊樣式中的素材，選中的段落會(huì )自動(dòng)套用樣式模塊
　　注意：選擇的文字和圖形要與選擇的模塊樣式相對應，即如果選擇純文本，則使用文章段落模塊，如果選擇圖片+文字，則使用圖形和文本混合模塊
　　這篇文章就分享到這里，希望對大家有所幫助。

解決方案:使用 Nginx 構建前端日志統計服務(wù)（打點(diǎn)采集）服務(wù)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 223 次瀏覽 ? 2022-12-12 09:52 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:使用 Nginx 構建前端日志統計服務(wù)（打點(diǎn)采集）服務(wù)
　　在工作中，我們經(jīng)常會(huì )遇到需要“數據支持”決策的情況，那么你有沒(méi)有想過(guò)這些數據從何而來(lái)？如果業(yè)務(wù)涉及Web服務(wù)，這些數據的來(lái)源之一就是服務(wù)器上各個(gè)服務(wù)器的請求數據。如果我們區分專(zhuān)門(mén)用于統計的數據，一些服務(wù)器專(zhuān)注于接收“統計類(lèi)型”的請求，那么這些產(chǎn)生的日志就是“管理日志”。
　　本文將介紹如何在容器中使用Nginx來(lái)簡(jiǎn)單搭建一個(gè)支持前端使用的統計（dot采集）服務(wù)，避免引入過(guò)多的技術(shù)棧，增加維護成本。
　　寫(xiě)在前面
　　不知道大家有沒(méi)有想過(guò)一個(gè)問(wèn)題。當一個(gè)頁(yè)面有很多打點(diǎn)事件時(shí)，打開(kāi)頁(yè)面時(shí)會(huì )同時(shí)發(fā)起無(wú)數個(gè)請求。此時(shí)，非寬帶環(huán)境下的用戶(hù)體驗將不復存在，打點(diǎn)服務(wù)器也將面臨友軍的攻擊。業(yè)務(wù) DDoS 行為。
　　因此，這幾年，一些公司不斷將數據統計方案從GET方案切換到POST方案，結合自研定制化SDK，將客戶(hù)端的數據統計“打包合并”，并以一定的頻率上報增量日志。極大的解決了前端的性能問(wèn)題，減輕了服務(wù)器的壓力。
　　五年前，我分享了如何搭建一個(gè)易于擴展的前端統計腳本，有興趣的可以看看。
　　Nginx環(huán)境下POST請求的問(wèn)題
　　看到本節的標題，你可能會(huì )覺(jué)得一頭霧水。POST 與 Nginx 交互是家常便飯，那有什么問(wèn)題呢？
　　我們來(lái)做一個(gè)小實(shí)驗，使用容器啟動(dòng)一個(gè) Nginx 服務(wù)：
　　docker run --rm -it -p 3000:80 nginx:1.19.3-alpine
　　然后在日常業(yè)務(wù)中使用curl模擬POST請求：
　　curl -d '{"key1":"value1", "key2":"value2"}' -X POST http://localhost:3000
　　你會(huì )看到如下返回結果：
　　
405 Not Allowed
405 Not Allowed
nginx/1.19.3
　　根據圖查看Nginx模塊modules/ngx_http_stub_status_module.c和http/ngx_http_special_response.c的源碼可以看到如下實(shí)現：
　　static ngx_int_t
ngx_http_stub_status_handler(ngx_http_request_t *r)
{
size_t size;
ngx_int_t rc;
ngx_buf_t *b;
ngx_chain_t out;
ngx_atomic_int_t ap, hn, ac, rq, rd, wr, wa;
if (!(r->method & (NGX_HTTP_GET|NGX_HTTP_HEAD))) {
return NGX_HTTP_NOT_ALLOWED;
}
...
}
...
static char ngx_http_error_405_page[] =
"" CRLF
"405 Not Allowed" CRLF
"" CRLF
"405 Not Allowed" CRLF
;
#define NGX_HTTP_OFF_4XX (NGX_HTTP_LAST_3XX - 301 + NGX_HTTP_OFF_3XX)
...
ngx_string(ngx_http_error_405_page),
ngx_string(ngx_http_error_406_page),
...
　　沒(méi)錯，NGINX默認是不支持記錄POST請求的，根據RFC7231會(huì )顯示錯誤碼405。所以一般情況下，我們會(huì )使用Lua/Java/PHP/Go/Node等動(dòng)態(tài)語(yǔ)言進(jìn)行輔助分析。
　　那么如何解決這個(gè)問(wèn)題呢？是否可以不借助外力，單純使用性能好、重量輕的Nginx來(lái)完成對POST請求的支持？
　　讓Nginx“原生”支持POST請求
　　為了更清楚的展示配置，我們接下來(lái)使用compose啟動(dòng)Nginx進(jìn)行實(shí)驗。在編寫(xiě)腳本之前，我們需要先獲取配置文件，使用如下命令行將指定版本Nginx的配置文件保存到當前目錄。
　　docker run --rm -it nginx:1.19.3-alpine cat /etc/nginx/conf.d/default.conf > default.conf
　　默認配置文件內容如下：
　　server {
listen 80;
server_name localhost;
#charset koi8-r;
#access_log /var/log/nginx/host.access.log main;
location / {
root /usr/share/nginx/html;
index index.html index.htm;
}
#error_page 404 /404.html;
# redirect server error pages to the static page /50x.html
#
error_page 500 502 503 504 /50x.html;
location = /50x.html {
root /usr/share/nginx/html;
}
# proxy the PHP scripts to Apache listening on 127.0.0.1:80
#
#location ~ \.php$ {
# proxy_pass http://127.0.0.1;
#}
# pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
#
#location ~ \.php$ {
# root html;
# fastcgi_pass 127.0.0.1:9000;
# fastcgi_index index.php;
# fastcgi_param SCRIPT_FILENAME /scripts$fastcgi_script_name;
# include fastcgi_params;
#}
# deny access to .htaccess files, if Apache's document root
# concurs with nginx's one
#
#location ~ /\.ht {
# deny all;
#}
}
　　稍微壓縮一下，我們得到一個(gè)更簡(jiǎn)單的配置文件并添加一行 error_page 405 =200 $uri; 對它：
　　server {
listen 80;
server_name localhost;
charset utf-8;
location / {
return 200 "soulteary";
}
error_page 405 =200 $uri;
}
　　將本節開(kāi)頭的命令重寫(xiě)為docker-compose.yml，并添加volumes將剛剛導出的配置文件映射到容器中，方便后續使用compose啟動(dòng)容器進(jìn)行驗證。
　　version: "3"
services:
ngx:
image: nginx:1.19.3-alpine
restart: always
ports:
- 3000:80
volumes:
- ./default.conf/:/etc/nginx/conf.d/default.conf
　　使用docker-compose up啟動(dòng)服務(wù)，然后使用之前的curl模擬POST驗證請求是否正常。
　　curl -d '{"key1":"value1", "key2":"value2"}' -H "Content-Type: application/json" -H "origin:gray.baai.ac.cn" -X POST http://localhost:3000
soulteary
　　執行后，Nginx的日志記錄中除了會(huì )返回字符串“soulteary”外，還會(huì )有一條看起來(lái)很正常的記錄：
　　ngx_1 | 192.168.16.1 - - [31/Oct/2020:14:24:48 +0000] "POST / HTTP/1.1" 200 0 "-" "curl/7.64.1" "-"
　　但是，如果細心的話(huà)，你會(huì )發(fā)現我們發(fā)送的數據并沒(méi)有收錄在日志中，那么如何解決這個(gè)問(wèn)題呢？
　　修復 Nginx 日志中丟失的 POST 數據
　　這個(gè)問(wèn)題其實(shí)是家常便飯。默認的Nginx服務(wù)器日志格式是不收錄POST Body的（性能考慮），沒(méi)有proxy_pass也不會(huì )解析POST Body。
　　首先執行以下命令：
　　docker run --rm -it nginx:1.19.3-alpine cat /etc/nginx/nginx.conf
　　可以看到默認的log_format配置規則是沒(méi)有任何關(guān)于POST Body的數據的。
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
<p>
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
sendfile on;
#tcp_nopush on;
keepalive_timeout 65;
#gzip on;
include /etc/nginx/conf.d/*.conf;
}
</p>
　　所以解決這個(gè)問(wèn)題并不難。添加新的日志格式，添加POST Body變量（request_body），然后添加proxy_pass路徑，激活Nginx解析POST Body的處理邏輯。
　　考慮到維護問(wèn)題，我們之前的配置文件合并到這個(gè)配置中，定義了一個(gè)名為/internal-api-path的路徑：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
access_log /var/log/nginx/access.log main;
sendfile on;
keepalive_timeout 65;
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
# access_log off;
default_type application/json;
return 200 '{"code": 0, data:"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　將新的配置文件保存為nginx.conf后，在compose中調整volumes配置信息，再次使用docker-compose up啟動(dòng)服務(wù)。
　　volumes:
- ./nginx.conf/:/etc/nginx/nginx.conf
　　再次使用curl模擬之前的POST請求，會(huì )看到Nginx日志中多了兩條記錄。第一條記錄收錄我們需要的 POST 數據：
　　192.168.192.1 - - [31/Oct/2020:15:05:48 +0000] "POST / HTTP/1.1" 200 29 "-" "curl/7.64.1" "-" {\x22key1\x22:\x22value1\x22, \x22key2\x22:\x22value2\x22}
127.0.0.1 - - [31/Oct/2020:15:05:48 +0000] "POST /internal-api-path HTTP/1.0" 200 29 "-" "curl/7.64.1" "-" -
　　但是這里還有很多不完善的地方：
　　接下來(lái)，讓我們繼續解決這些問(wèn)題。
　　改進(jìn) Nginx 配置，優(yōu)化日志記錄
　　首先在日志格式中加入escape=json參數，讓Nginx解析日志請求中的JSON數據：
　　log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
　　然后，關(guān)閉access_log；在不需要記錄日志的路徑中設置指令，避免記錄不必要的日志。
　　location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, data:"soulteary"}';
}
　　然后使用Nginx的map命令和Nginx中的條件判斷過(guò)濾非POST請求的日志記錄，拒絕處理非POST請求。
　　map $request_method $loggable {
default 0;
POST 1;
}
...
server {
location / {
if ( $request_method !~ ^POST$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
proxy_pass http://127.0.0.1/internal-api-path;
}
...
}
　　再次使用curl請求，會(huì )看到日志可以正常解析，不會(huì )出現兩條日志。
　　192.168.224.1 - [31/Oct/2020:15:19:59 +0000] "POST / HTTP/1.1" 200 29 "" "curl/7.64.1" "" {\"key1\":\"value1\", \"key2\":\"value2\"}
　　同時(shí)，不再記錄任何非POST請求。使用POST請求時(shí)，會(huì )提示405錯誤狀態(tài)。
　　這時(shí)候你可能會(huì )好奇，為什么這個(gè)405和上一篇不一樣，不會(huì )重定向到200呢？這是因為這個(gè)405是我們根據觸發(fā)條件“手動(dòng)設置”的，而不是Nginx邏輯運行過(guò)程中判斷出來(lái)的新結果。
　　目前的Nginx配置如下：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
sendfile on;
keepalive_timeout 65;
map $request_method $loggable {
default 0;
POST 1;
}
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
if ( $request_method !~ ^POST$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, "data":"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　但是真的到這里了嗎？
　　模擬前端客戶(hù)端常見(jiàn)的跨域請求
　　我們打開(kāi)熟悉的“百度”，在控制臺輸入如下代碼，模擬一個(gè)常見(jiàn)的業(yè)務(wù)跨域請求。
　　async function testCorsPost(url = '', data = {}) {
const response = await fetch(url, {
method: 'POST',
mode: 'cors',
cache: 'no-cache',
credentials: 'same-origin',
headers: { 'Content-Type': 'application/json' },
redirect: 'follow',
referrerPolicy: 'no-referrer',
body: JSON.stringify(data)
});
return response.json();
}
testCorsPost('http://localhost:3000', { hello: "soulteary" }).then(data => console.log(data));
<p>
</p>
　　代碼執行后，會(huì )看到經(jīng)典的提示信息：
　　Access to fetch at 'http://localhost:3000/' from origin 'https://www.baidu.com' has been blocked by CORS policy: Response to preflight request doesn't pass access control check: No 'Access-Control-Allow-Origin' header is present on the requested resource. If an opaque response serves your needs, set the request's mode to 'no-cors' to fetch the resource with CORS disabled.
POST http://localhost:3000/ net::ERR_FAILED
　　查看網(wǎng)絡(luò )面板，您將看到兩個(gè)失敗的新請求：
　　請求地址：:3000/
　　讓我們繼續調整配置以解決這個(gè)常見(jiàn)問(wèn)題。
　　使用Nginx解決前端跨域問(wèn)題
　　我們首先調整之前的過(guò)濾規則，允許處理 OPTIONS 請求。
　　if ( $request_method !~ ^(POST|OPTIONS)$ ) { return 405; }
　　跨域請求是常見(jiàn)的前端場(chǎng)景，很多人會(huì )懶得用“*”來(lái)解決問(wèn)題，但是Chrome等現代瀏覽器在新版本的某些場(chǎng)景下不能使用這種松散的規則，為了業(yè)務(wù)安全，一般來(lái)說(shuō)，我們會(huì )在服務(wù)器設置一個(gè)允許跨域請求的域名白名單。參考上面的方法，我們可以很容易的定義一個(gè)類(lèi)似如下的Nginx map配置來(lái)拒絕所有前端未授權的跨域請求：
　　map $http_origin $corsHost {
default 0;
"~(.*).soulteary.com" 1;
"~(.*).baidu.com" 1;
}
server {
...
location / {
...
if ( $corsHost = 0 ) { return 405; }
...
}
}
　　這里有個(gè)竅門(mén)。Nginx 路由中的規則與級別編程語(yǔ)言并不完全相似。它們可以按順序執行并具有“優(yōu)先/覆蓋”關(guān)系。所以，為了讓前端能夠正常調用接口進(jìn)行數據提交，這里需要這樣寫(xiě)規則，有四行代碼冗余。
　　if ( $corsHost = 0 ) { return 405; }
if ( $corsHost = 1 ) {
# 不需要 Cookie
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
}
# OPTION 請求返回 204 ，并去掉 BODY響應，因 NGINX 限制，需要重復上面的前四行配置
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain charset=UTF-8';
add_header 'Content-Length' 0;
return 204;
}
　　再次在網(wǎng)頁(yè)上執行之前的JavaScript代碼，會(huì )發(fā)現請求可以正常執行，前端數據會(huì )返回：
　　{code: 0, data: "soulteary"}
　　在Nginx的日志中，符合預期的會(huì )多出一條記錄：
　　172.20.0.1 - [31/Oct/2020:15:49:17 +0000] "POST / HTTP/1.1" 200 31 "" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36" "" {\"hello\":\"soulteary\"}
　　如果使用curl執行前面的命令，繼續模擬純接口調用，會(huì )發(fā)現405錯誤響應。這是因為我們的請求中沒(méi)有收錄origin請求頭，無(wú)法表明我們的來(lái)源身份。在請求中使用-H參數完成這個(gè)數據，就可以得到預期的返回：
　　curl -d '{"key1":"value1", "key2":"value2"}' -H "Content-Type: application/json" -H "origin:www.baidu.com" -X POST http://localhost:3000/
{"code": 0, "data":"soulteary"}
　　比較完整的Nginx配置
　　至此，我們基本實(shí)現了通用的采集功能，滿(mǎn)足基本需求的Nginx配置信息如下：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
sendfile on;
keepalive_timeout 65;
map $request_method $loggable {
default 0;
POST 1;
}
map $http_origin $corsHost {
default 0;
"~(.*).soulteary.com" 1;
"~(.*).baidu.com" 1;
}
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
if ( $request_method !~ ^(POST|OPTIONS)$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
if ( $corsHost = 0 ) { return 405; }
if ( $corsHost = 1 ) {
# 不需要 Cookie
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
}
# OPTION 請求返回 204 ，并去掉 BODY響應，因 NGINX 限制，需要重復上面的前四行配置
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain charset=UTF-8';
add_header 'Content-Length' 0;
return 204;
}
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, "data":"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　如果結合容器使用，我們只需要為其單獨添加一個(gè)額外的路由定義來(lái)進(jìn)行健康檢查，就可以實(shí)現一個(gè)簡(jiǎn)單穩定的采集服務(wù)。繼續連接后續的數據傳輸和處理程序。
　　location /health {
access_log off;
return 200;
}
　　compose配置文件，相比之前，只多了幾行健康檢查定義：
　　version: "3"
services:
ngx:
image: nginx:1.19.3-alpine
restart: always
ports:
- 3000:80
volumes:
- /etc/localtime:/etc/localtime:ro
- /etc/timezone:/etc/timezone:ro
- ./nginx.conf:/etc/nginx/nginx.conf
healthcheck:
test: wget --spider localhost/health || exit 1
interval: 5s
timeout: 10s
retries: 3
　　結合 Traefik，實(shí)例可以很容易地水平擴展以處理更多的請求。有興趣的可以看看我之前的文章。
　　最后
　　本文只介紹了數據采集的表層內容，更多內容以后有時(shí)間可能會(huì )詳細介紹。毛孩的貓糧要付尾款了，先寫(xiě)到這里吧。
　　解決方案:最簡(jiǎn)單的自助建站系統？
　　觸動(dòng)心靈
　　構建網(wǎng)站使用網(wǎng)站構建軟件可以花更少的錢(qián)并獲得快速的結果。建好網(wǎng)站后，不用請人維護網(wǎng)站。1. 首創(chuàng )頁(yè)面可視化編輯，所見(jiàn)即所得
　　1) 無(wú)需模板，只需選擇您需要的欄目模塊組件網(wǎng)站，即可自由編輯界面；
　　2）無(wú)需提前規劃布局，直接拖動(dòng)網(wǎng)站版塊，自由改變大小、位置和顯示的數據信息，實(shí)現網(wǎng)站精準布局；
　　
　　3) 無(wú)需美工，直接選擇選中的組件樣式即可創(chuàng )建統一的網(wǎng)站；
　　4）網(wǎng)站施工過(guò)程完全可視化操作，網(wǎng)站前臺設計效果為網(wǎng)站真實(shí)效果。2.全面的DIV CSS結構，網(wǎng)站更規范，網(wǎng)速更快，推廣更優(yōu)化
　　頁(yè)面布局全面采用DIV CSS架構，真正做到W3C內容與性能分離，充分保證網(wǎng)站頁(yè)面加載速度，更有利于搜索引擎優(yōu)化。
　　3.自動(dòng)新聞在線(xiàn)采集，告別繁瑣的手動(dòng)操作
　　4.強大的自定義表單功能，鼠標拖放即可完成表單創(chuàng )建
　　5. 便捷精細的SEO優(yōu)化，網(wǎng)站推廣效果更佳
　　
　　6. 精準權限控制，網(wǎng)站管理輕松
　　7.網(wǎng)站一鍵分離，輕松滿(mǎn)足各種操作需求
　　8.圖片在線(xiàn)編輯器，鼠標拖動(dòng)繪制精美
　　九、多種技術(shù)加密，全方位保障軟件和網(wǎng)站的安全
　　10、超強組件庫，實(shí)現所有用戶(hù)資源共享，確保所有網(wǎng)站都走在時(shí)代前沿查看全部

　　解決方案:使用 Nginx 構建前端日志統計服務(wù)（打點(diǎn)采集）服務(wù)
　　在工作中，我們經(jīng)常會(huì )遇到需要“數據支持”決策的情況，那么你有沒(méi)有想過(guò)這些數據從何而來(lái)？如果業(yè)務(wù)涉及Web服務(wù)，這些數據的來(lái)源之一就是服務(wù)器上各個(gè)服務(wù)器的請求數據。如果我們區分專(zhuān)門(mén)用于統計的數據，一些服務(wù)器專(zhuān)注于接收“統計類(lèi)型”的請求，那么這些產(chǎn)生的日志就是“管理日志”。
　　本文將介紹如何在容器中使用Nginx來(lái)簡(jiǎn)單搭建一個(gè)支持前端使用的統計（dot采集）服務(wù)，避免引入過(guò)多的技術(shù)棧，增加維護成本。
　　寫(xiě)在前面
　　不知道大家有沒(méi)有想過(guò)一個(gè)問(wèn)題。當一個(gè)頁(yè)面有很多打點(diǎn)事件時(shí)，打開(kāi)頁(yè)面時(shí)會(huì )同時(shí)發(fā)起無(wú)數個(gè)請求。此時(shí)，非寬帶環(huán)境下的用戶(hù)體驗將不復存在，打點(diǎn)服務(wù)器也將面臨友軍的攻擊。業(yè)務(wù) DDoS 行為。
　　因此，這幾年，一些公司不斷將數據統計方案從GET方案切換到POST方案，結合自研定制化SDK，將客戶(hù)端的數據統計“打包合并”，并以一定的頻率上報增量日志。極大的解決了前端的性能問(wèn)題，減輕了服務(wù)器的壓力。
　　五年前，我分享了如何搭建一個(gè)易于擴展的前端統計腳本，有興趣的可以看看。
　　Nginx環(huán)境下POST請求的問(wèn)題
　　看到本節的標題，你可能會(huì )覺(jué)得一頭霧水。POST 與 Nginx 交互是家常便飯，那有什么問(wèn)題呢？
　　我們來(lái)做一個(gè)小實(shí)驗，使用容器啟動(dòng)一個(gè) Nginx 服務(wù)：
　　docker run --rm -it -p 3000:80 nginx:1.19.3-alpine
　　然后在日常業(yè)務(wù)中使用curl模擬POST請求：
　　curl -d '{"key1":"value1", "key2":"value2"}' -X POST http://localhost:3000
　　你會(huì )看到如下返回結果：
　　
405 Not Allowed
405 Not Allowed
nginx/1.19.3
　　根據圖查看Nginx模塊modules/ngx_http_stub_status_module.c和http/ngx_http_special_response.c的源碼可以看到如下實(shí)現：
　　static ngx_int_t
ngx_http_stub_status_handler(ngx_http_request_t *r)
{
size_t size;
ngx_int_t rc;
ngx_buf_t *b;
ngx_chain_t out;
ngx_atomic_int_t ap, hn, ac, rq, rd, wr, wa;
if (!(r->method & (NGX_HTTP_GET|NGX_HTTP_HEAD))) {
return NGX_HTTP_NOT_ALLOWED;
}
...
}
...
static char ngx_http_error_405_page[] =
"" CRLF
"405 Not Allowed" CRLF
"" CRLF
"405 Not Allowed" CRLF
;
#define NGX_HTTP_OFF_4XX (NGX_HTTP_LAST_3XX - 301 + NGX_HTTP_OFF_3XX)
...
ngx_string(ngx_http_error_405_page),
ngx_string(ngx_http_error_406_page),
...
　　沒(méi)錯，NGINX默認是不支持記錄POST請求的，根據RFC7231會(huì )顯示錯誤碼405。所以一般情況下，我們會(huì )使用Lua/Java/PHP/Go/Node等動(dòng)態(tài)語(yǔ)言進(jìn)行輔助分析。
　　那么如何解決這個(gè)問(wèn)題呢？是否可以不借助外力，單純使用性能好、重量輕的Nginx來(lái)完成對POST請求的支持？
　　讓Nginx“原生”支持POST請求
　　為了更清楚的展示配置，我們接下來(lái)使用compose啟動(dòng)Nginx進(jìn)行實(shí)驗。在編寫(xiě)腳本之前，我們需要先獲取配置文件，使用如下命令行將指定版本Nginx的配置文件保存到當前目錄。
　　docker run --rm -it nginx:1.19.3-alpine cat /etc/nginx/conf.d/default.conf > default.conf
　　默認配置文件內容如下：
　　server {
listen 80;
server_name localhost;
#charset koi8-r;
#access_log /var/log/nginx/host.access.log main;
location / {
root /usr/share/nginx/html;
index index.html index.htm;
}
#error_page 404 /404.html;
# redirect server error pages to the static page /50x.html
#
error_page 500 502 503 504 /50x.html;
location = /50x.html {
root /usr/share/nginx/html;
}
# proxy the PHP scripts to Apache listening on 127.0.0.1:80
#
#location ~ \.php$ {
# proxy_pass http://127.0.0.1;
#}
# pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000
#
#location ~ \.php$ {
# root html;
# fastcgi_pass 127.0.0.1:9000;
# fastcgi_index index.php;
# fastcgi_param SCRIPT_FILENAME /scripts$fastcgi_script_name;
# include fastcgi_params;
#}
# deny access to .htaccess files, if Apache's document root
# concurs with nginx's one
#
#location ~ /\.ht {
# deny all;
#}
}
　　稍微壓縮一下，我們得到一個(gè)更簡(jiǎn)單的配置文件并添加一行 error_page 405 =200 $uri; 對它：
　　server {
listen 80;
server_name localhost;
charset utf-8;
location / {
return 200 "soulteary";
}
error_page 405 =200 $uri;
}
　　將本節開(kāi)頭的命令重寫(xiě)為docker-compose.yml，并添加volumes將剛剛導出的配置文件映射到容器中，方便后續使用compose啟動(dòng)容器進(jìn)行驗證。
　　version: "3"
services:
ngx:
image: nginx:1.19.3-alpine
restart: always
ports:
- 3000:80
volumes:
- ./default.conf/:/etc/nginx/conf.d/default.conf
　　使用docker-compose up啟動(dòng)服務(wù)，然后使用之前的curl模擬POST驗證請求是否正常。
　　curl -d '{"key1":"value1", "key2":"value2"}' -H "Content-Type: application/json" -H "origin:gray.baai.ac.cn" -X POST http://localhost:3000
soulteary
　　執行后，Nginx的日志記錄中除了會(huì )返回字符串“soulteary”外，還會(huì )有一條看起來(lái)很正常的記錄：
　　ngx_1 | 192.168.16.1 - - [31/Oct/2020:14:24:48 +0000] "POST / HTTP/1.1" 200 0 "-" "curl/7.64.1" "-"
　　但是，如果細心的話(huà)，你會(huì )發(fā)現我們發(fā)送的數據并沒(méi)有收錄在日志中，那么如何解決這個(gè)問(wèn)題呢？
　　修復 Nginx 日志中丟失的 POST 數據
　　這個(gè)問(wèn)題其實(shí)是家常便飯。默認的Nginx服務(wù)器日志格式是不收錄POST Body的（性能考慮），沒(méi)有proxy_pass也不會(huì )解析POST Body。
　　首先執行以下命令：
　　docker run --rm -it nginx:1.19.3-alpine cat /etc/nginx/nginx.conf
　　可以看到默認的log_format配置規則是沒(méi)有任何關(guān)于POST Body的數據的。
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
<p>

'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for"';
access_log /var/log/nginx/access.log main;
sendfile on;
#tcp_nopush on;
keepalive_timeout 65;
#gzip on;
include /etc/nginx/conf.d/*.conf;
}
</p>
　　所以解決這個(gè)問(wèn)題并不難。添加新的日志格式，添加POST Body變量（request_body），然后添加proxy_pass路徑，激活Nginx解析POST Body的處理邏輯。
　　考慮到維護問(wèn)題，我們之前的配置文件合并到這個(gè)配置中，定義了一個(gè)名為/internal-api-path的路徑：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
access_log /var/log/nginx/access.log main;
sendfile on;
keepalive_timeout 65;
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
# access_log off;
default_type application/json;
return 200 '{"code": 0, data:"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　將新的配置文件保存為nginx.conf后，在compose中調整volumes配置信息，再次使用docker-compose up啟動(dòng)服務(wù)。
　　volumes:
- ./nginx.conf/:/etc/nginx/nginx.conf
　　再次使用curl模擬之前的POST請求，會(huì )看到Nginx日志中多了兩條記錄。第一條記錄收錄我們需要的 POST 數據：
　　192.168.192.1 - - [31/Oct/2020:15:05:48 +0000] "POST / HTTP/1.1" 200 29 "-" "curl/7.64.1" "-" {\x22key1\x22:\x22value1\x22, \x22key2\x22:\x22value2\x22}
127.0.0.1 - - [31/Oct/2020:15:05:48 +0000] "POST /internal-api-path HTTP/1.0" 200 29 "-" "curl/7.64.1" "-" -
　　但是這里還有很多不完善的地方：
　　接下來(lái)，讓我們繼續解決這些問(wèn)題。
　　改進(jìn) Nginx 配置，優(yōu)化日志記錄
　　首先在日志格式中加入escape=json參數，讓Nginx解析日志請求中的JSON數據：
　　log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
　　然后，關(guān)閉access_log；在不需要記錄日志的路徑中設置指令，避免記錄不必要的日志。
　　location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, data:"soulteary"}';
}
　　然后使用Nginx的map命令和Nginx中的條件判斷過(guò)濾非POST請求的日志記錄，拒絕處理非POST請求。
　　map $request_method $loggable {
default 0;
POST 1;
}
...
server {
location / {
if ( $request_method !~ ^POST$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
proxy_pass http://127.0.0.1/internal-api-path;
}
...
}
　　再次使用curl請求，會(huì )看到日志可以正常解析，不會(huì )出現兩條日志。
　　192.168.224.1 - [31/Oct/2020:15:19:59 +0000] "POST / HTTP/1.1" 200 29 "" "curl/7.64.1" "" {\"key1\":\"value1\", \"key2\":\"value2\"}
　　同時(shí)，不再記錄任何非POST請求。使用POST請求時(shí)，會(huì )提示405錯誤狀態(tài)。
　　這時(shí)候你可能會(huì )好奇，為什么這個(gè)405和上一篇不一樣，不會(huì )重定向到200呢？這是因為這個(gè)405是我們根據觸發(fā)條件“手動(dòng)設置”的，而不是Nginx邏輯運行過(guò)程中判斷出來(lái)的新結果。
　　目前的Nginx配置如下：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
sendfile on;
keepalive_timeout 65;
map $request_method $loggable {
default 0;
POST 1;
}
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
if ( $request_method !~ ^POST$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, "data":"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　但是真的到這里了嗎？
　　模擬前端客戶(hù)端常見(jiàn)的跨域請求
　　我們打開(kāi)熟悉的“百度”，在控制臺輸入如下代碼，模擬一個(gè)常見(jiàn)的業(yè)務(wù)跨域請求。
　　async function testCorsPost(url = '', data = {}) {
const response = await fetch(url, {
method: 'POST',
mode: 'cors',
cache: 'no-cache',
credentials: 'same-origin',
headers: { 'Content-Type': 'application/json' },
redirect: 'follow',
referrerPolicy: 'no-referrer',
body: JSON.stringify(data)
});
return response.json();
}
testCorsPost('http://localhost:3000', { hello: "soulteary" }).then(data => console.log(data));
<p>

</p>
　　代碼執行后，會(huì )看到經(jīng)典的提示信息：
　　Access to fetch at 'http://localhost:3000/' from origin 'https://www.baidu.com' has been blocked by CORS policy: Response to preflight request doesn't pass access control check: No 'Access-Control-Allow-Origin' header is present on the requested resource. If an opaque response serves your needs, set the request's mode to 'no-cors' to fetch the resource with CORS disabled.
POST http://localhost:3000/ net::ERR_FAILED
　　查看網(wǎng)絡(luò )面板，您將看到兩個(gè)失敗的新請求：
　　請求地址：:3000/
　　讓我們繼續調整配置以解決這個(gè)常見(jiàn)問(wèn)題。
　　使用Nginx解決前端跨域問(wèn)題
　　我們首先調整之前的過(guò)濾規則，允許處理 OPTIONS 請求。
　　if ( $request_method !~ ^(POST|OPTIONS)$ ) { return 405; }
　　跨域請求是常見(jiàn)的前端場(chǎng)景，很多人會(huì )懶得用“*”來(lái)解決問(wèn)題，但是Chrome等現代瀏覽器在新版本的某些場(chǎng)景下不能使用這種松散的規則，為了業(yè)務(wù)安全，一般來(lái)說(shuō)，我們會(huì )在服務(wù)器設置一個(gè)允許跨域請求的域名白名單。參考上面的方法，我們可以很容易的定義一個(gè)類(lèi)似如下的Nginx map配置來(lái)拒絕所有前端未授權的跨域請求：
　　map $http_origin $corsHost {
default 0;
"~(.*).soulteary.com" 1;
"~(.*).baidu.com" 1;
}
server {
...
location / {
...
if ( $corsHost = 0 ) { return 405; }
...
}
}
　　這里有個(gè)竅門(mén)。Nginx 路由中的規則與級別編程語(yǔ)言并不完全相似。它們可以按順序執行并具有“優(yōu)先/覆蓋”關(guān)系。所以，為了讓前端能夠正常調用接口進(jìn)行數據提交，這里需要這樣寫(xiě)規則，有四行代碼冗余。
　　if ( $corsHost = 0 ) { return 405; }
if ( $corsHost = 1 ) {
# 不需要 Cookie
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
}
# OPTION 請求返回 204 ，并去掉 BODY響應，因 NGINX 限制，需要重復上面的前四行配置
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain charset=UTF-8';
add_header 'Content-Length' 0;
return 204;
}
　　再次在網(wǎng)頁(yè)上執行之前的JavaScript代碼，會(huì )發(fā)現請求可以正常執行，前端數據會(huì )返回：
　　{code: 0, data: "soulteary"}
　　在Nginx的日志中，符合預期的會(huì )多出一條記錄：
　　172.20.0.1 - [31/Oct/2020:15:49:17 +0000] "POST / HTTP/1.1" 200 31 "" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36" "" {\"hello\":\"soulteary\"}
　　如果使用curl執行前面的命令，繼續模擬純接口調用，會(huì )發(fā)現405錯誤響應。這是因為我們的請求中沒(méi)有收錄origin請求頭，無(wú)法表明我們的來(lái)源身份。在請求中使用-H參數完成這個(gè)數據，就可以得到預期的返回：
　　curl -d '{"key1":"value1", "key2":"value2"}' -H "Content-Type: application/json" -H "origin:www.baidu.com" -X POST http://localhost:3000/
{"code": 0, "data":"soulteary"}
　　比較完整的Nginx配置
　　至此，我們基本實(shí)現了通用的采集功能，滿(mǎn)足基本需求的Nginx配置信息如下：
　　user nginx;
worker_processes auto;
error_log /var/log/nginx/error.log warn;
pid /var/run/nginx.pid;
events {
worker_connections 1024;
}
http {
include /etc/nginx/mime.types;
default_type application/octet-stream;
log_format main escape=json '$remote_addr - $remote_user [$time_local] "$request" '
'$status $body_bytes_sent "$http_referer" '
'"$http_user_agent" "$http_x_forwarded_for" $request_body';
sendfile on;
keepalive_timeout 65;
map $request_method $loggable {
default 0;
POST 1;
}
map $http_origin $corsHost {
default 0;
"~(.*).soulteary.com" 1;
"~(.*).baidu.com" 1;
}
server {
listen 80;
server_name localhost;
charset utf-8;
location / {
if ( $request_method !~ ^(POST|OPTIONS)$ ) { return 405; }
access_log /var/log/nginx/access.log main if=$loggable;
if ( $corsHost = 0 ) { return 405; }
if ( $corsHost = 1 ) {
# 不需要 Cookie
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
}
# OPTION 請求返回 204 ，并去掉 BODY響應，因 NGINX 限制，需要重復上面的前四行配置
if ($request_method = 'OPTIONS') {
add_header 'Access-Control-Allow-Credentials' 'false';
add_header 'Access-Control-Allow-Headers' 'Accept,Authorization,Cache-Control,Content-Type,DNT,If-Modified-Since,Keep-Alive,Origin,User-Agent,X-Mx-ReqToken,X-Requested-With,Date,Pragma';
add_header 'Access-Control-Allow-Methods' 'POST,OPTIONS';
add_header 'Access-Control-Allow-Origin' '$http_origin';
add_header 'Access-Control-Max-Age' 1728000;
add_header 'Content-Type' 'text/plain charset=UTF-8';
add_header 'Content-Length' 0;
return 204;
}
proxy_pass http://127.0.0.1/internal-api-path;
}
location /internal-api-path {
access_log off;
default_type application/json;
return 200 '{"code": 0, "data":"soulteary"}';
}
error_page 405 =200 $uri;
}
}
　　如果結合容器使用，我們只需要為其單獨添加一個(gè)額外的路由定義來(lái)進(jìn)行健康檢查，就可以實(shí)現一個(gè)簡(jiǎn)單穩定的采集服務(wù)。繼續連接后續的數據傳輸和處理程序。
　　location /health {
access_log off;
return 200;
}
　　compose配置文件，相比之前，只多了幾行健康檢查定義：
　　version: "3"
services:
ngx:
image: nginx:1.19.3-alpine
restart: always
ports:
- 3000:80
volumes:
- /etc/localtime:/etc/localtime:ro
- /etc/timezone:/etc/timezone:ro
- ./nginx.conf:/etc/nginx/nginx.conf
healthcheck:
test: wget --spider localhost/health || exit 1
interval: 5s
timeout: 10s
retries: 3
　　結合 Traefik，實(shí)例可以很容易地水平擴展以處理更多的請求。有興趣的可以看看我之前的文章。
　　最后
　　本文只介紹了數據采集的表層內容，更多內容以后有時(shí)間可能會(huì )詳細介紹。毛孩的貓糧要付尾款了，先寫(xiě)到這里吧。
　　解決方案:最簡(jiǎn)單的自助建站系統？
　　觸動(dòng)心靈
　　構建網(wǎng)站使用網(wǎng)站構建軟件可以花更少的錢(qián)并獲得快速的結果。建好網(wǎng)站后，不用請人維護網(wǎng)站。1. 首創(chuàng )頁(yè)面可視化編輯，所見(jiàn)即所得
　　1) 無(wú)需模板，只需選擇您需要的欄目模塊組件網(wǎng)站，即可自由編輯界面；
　　2）無(wú)需提前規劃布局，直接拖動(dòng)網(wǎng)站版塊，自由改變大小、位置和顯示的數據信息，實(shí)現網(wǎng)站精準布局；
　　

　　3) 無(wú)需美工，直接選擇選中的組件樣式即可創(chuàng )建統一的網(wǎng)站；
　　4）網(wǎng)站施工過(guò)程完全可視化操作，網(wǎng)站前臺設計效果為網(wǎng)站真實(shí)效果。2.全面的DIV CSS結構，網(wǎng)站更規范，網(wǎng)速更快，推廣更優(yōu)化
　　頁(yè)面布局全面采用DIV CSS架構，真正做到W3C內容與性能分離，充分保證網(wǎng)站頁(yè)面加載速度，更有利于搜索引擎優(yōu)化。
　　3.自動(dòng)新聞在線(xiàn)采集，告別繁瑣的手動(dòng)操作
　　4.強大的自定義表單功能，鼠標拖放即可完成表單創(chuàng )建
　　5. 便捷精細的SEO優(yōu)化，網(wǎng)站推廣效果更佳
　　

　　6. 精準權限控制，網(wǎng)站管理輕松
　　7.網(wǎng)站一鍵分離，輕松滿(mǎn)足各種操作需求
　　8.圖片在線(xiàn)編輯器，鼠標拖動(dòng)繪制精美
　　九、多種技術(shù)加密，全方位保障軟件和網(wǎng)站的安全
　　10、超強組件庫，實(shí)現所有用戶(hù)資源共享，確保所有網(wǎng)站都走在時(shí)代前沿

解密:計算機讀取數據的接囗教程

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 126 次瀏覽 ? 2022-12-11 19:51 ? 來(lái)自相關(guān)話(huà)題

　　解密:計算機讀取數據的接囗教程
　　今天給大家介紹優(yōu)采云采集如何獲取數據API鏈接，優(yōu)采云采集獲取數據API鏈接的方法，讓您輕松解決問(wèn)題. 優(yōu)采云采集如何獲取數據API鏈接
　　具體方法如下： 1
　　java、cs、php示例代碼點(diǎn)擊下載
　　本教程講解數據API的使用
　　注意：只有在有效期內的旗艦版用戶(hù)才能使用數據API
　　如何獲取數據API鏈接？
　　1、打開(kāi)任務(wù)配置界面，如下圖：
　　
　　2個(gè)
　　2、點(diǎn)擊Next，直到最后一步，選擇Generate Data Export API接口，如下圖：
　　3個(gè)
　　3、點(diǎn)擊后會(huì )有彈窗，從彈窗復制API鏈接，查看API示例：
　　4個(gè)
　　最終API鏈接格式為：{開(kāi)始時(shí)間}&to={結束時(shí)間}，key由系統自動(dòng)生成，請勿修改！
　　最后使用的時(shí)候需要把{start time}和{end time}替換成你想要獲取數據的時(shí)間間隔（采集time），比如：
　　
　　/SkieerDataAPI/GetData?key=key&from=2014-11-11
　　12:00&to=2014-11-11 13:00，時(shí)間間隔最長(cháng)一小時(shí)（總數據量不超過(guò)1000，如果超過(guò)1000，請
　　利用
　　). pageindex 是頁(yè)碼，pageSize 是該頁(yè)顯示的數據量。例如pageindex=3&pageSize=100表示??請求第三頁(yè)的數據，每頁(yè)按照100條數據進(jìn)行劃分。5個(gè)
　　如何使用數據API？
　　數據 API 以 XML 格式返回數據。您的程序可以通過(guò)API定時(shí)獲取云端采集指定時(shí)間段的數據。API返回的數據格式如下：
　　以上就是優(yōu)采云采集如何獲取數據API鏈接，優(yōu)采云采集如何獲取數據API鏈接的教程，希望本文能幫到大家解決問(wèn)題。
　　解密:星座生辰八字算命系統超強大功能程序源碼下載,文章內容可采集
　　今天給大家帶來(lái)一個(gè)屬于算命星座范疇的程序系統。
　　目前是市面上功能強大的算命系統，包含姓名打分、八字測算、各種吉兇查詢(xún)、各種在線(xiàn)靈簽，非采集文章，
而是純功能性?xún)热?，真正的測算系統，用戶(hù)回頭率高，網(wǎng)站PV訪(fǎng)問(wèn)量大概是IP的5倍之多。
　　算命系統變現超快，支付轉化率相當高。做過(guò)算命的網(wǎng)站都知道
　　程序比較強大，內涵內容也比較豐富
　　十二生肖在線(xiàn)求簽
　　吉兇查詢(xún)八字計算
　　寶寶名字評分
　　完整名單
　　周公解夢(mèng)等等，就不一一說(shuō)了，大家自己去了解吧！
　　順便說(shuō)一下，文章發(fā)布了其他這樣的系統，但是這個(gè)程序還有一個(gè)優(yōu)點(diǎn)是文章也可以采集！
　　
　　安裝教程：
　　安裝環(huán)境PHP5.6+MYSQL5.7；
　　PS：PHP版本不能超過(guò)5.6否則會(huì )報錯，不能低于5.6因為系統不支持
　　必須支持偽靜態(tài)。
　　對于初始安裝，必須遵循以下步驟：
　　1.解壓壓縮包到根目錄
　　2.綁定域名和訪(fǎng)問(wèn)權限進(jìn)入安裝步驟
　　3.根據提示輸入數據庫的相關(guān)信息
　　4.登錄后臺
　　5.系統設置-數據庫恢復-依次導入數據庫
　　6.系統設置-站點(diǎn)設置-設置網(wǎng)站信息
　　7.系統設置-SEO設置-設置網(wǎng)站SEO信息
　　8、設置偽靜態(tài)——在寶塔中選擇thinkphp——在偽靜態(tài)設置中填寫(xiě)虛擬主機【詳見(jiàn)源碼安裝包】
　　
　　9. 文章管理-添加文章【星座文章采集】
　　10. 設置網(wǎng)站并添加背景項文章和數據。前端打分名字時(shí)會(huì )自動(dòng)保存寶寶名字的數據。
　　好了，故事就這樣結束了，下面附上小編的測試demo圖：
　　本站發(fā)布的資源均來(lái)自互聯(lián)網(wǎng)，僅供研究學(xué)習之用，不得將軟件用于商業(yè)或非法用途，否則一切后果由用戶(hù)自行承擔！如果侵犯了您的權益，請聯(lián)系我們！您必須在下載后 24 小時(shí)內將其從您的手機和計算機中徹底刪除。如果您喜歡本程序，請支持正版軟件，購買(mǎi)注冊，獲得更優(yōu)質(zhì)的正版服務(wù)。如有侵權，請聯(lián)系我們處理！
　　善能緣代碼? 超強星座生肖算命系統程序源碼下載，文章內容可用采集
　　常問(wèn)問(wèn)題
　　免費下載或VIP會(huì )員專(zhuān)享資源是否可以直接用于商業(yè)用途？
　　本站所有資源版權歸原作者所有。此處提供的資源僅供參考和學(xué)習使用，請勿直接用于商業(yè)用途。如因商業(yè)使用引起版權糾紛，一切責任由用戶(hù)自行承擔。更多說(shuō)明請參考VIP介紹。
　　提示下載完成但無(wú)法解壓或打開(kāi)文件？
　　最常見(jiàn)的情況是下載不完整：可以將下載的壓縮包與網(wǎng)盤(pán)容量進(jìn)行比較，如果小于網(wǎng)盤(pán)提示的容量，就是這個(gè)原因。這是瀏覽器下載bug，建議使用百度網(wǎng)盤(pán)軟件或迅雷下載。如果排除這種情況，您可以在相應資源下方留言，或者聯(lián)系我們。通用解壓密碼：
　　山能SVIP 查看全部

　　解密:計算機讀取數據的接囗教程
　　今天給大家介紹優(yōu)采云采集如何獲取數據API鏈接，優(yōu)采云采集獲取數據API鏈接的方法，讓您輕松解決問(wèn)題. 優(yōu)采云采集如何獲取數據API鏈接
　　具體方法如下： 1
　　java、cs、php示例代碼點(diǎn)擊下載
　　本教程講解數據API的使用
　　注意：只有在有效期內的旗艦版用戶(hù)才能使用數據API
　　如何獲取數據API鏈接？
　　1、打開(kāi)任務(wù)配置界面，如下圖：
　　

　　2個(gè)
　　2、點(diǎn)擊Next，直到最后一步，選擇Generate Data Export API接口，如下圖：
　　3個(gè)
　　3、點(diǎn)擊后會(huì )有彈窗，從彈窗復制API鏈接，查看API示例：
　　4個(gè)
　　最終API鏈接格式為：{開(kāi)始時(shí)間}&to={結束時(shí)間}，key由系統自動(dòng)生成，請勿修改！
　　最后使用的時(shí)候需要把{start time}和{end time}替換成你想要獲取數據的時(shí)間間隔（采集time），比如：
　　

　　/SkieerDataAPI/GetData?key=key&from=2014-11-11
　　12:00&to=2014-11-11 13:00，時(shí)間間隔最長(cháng)一小時(shí)（總數據量不超過(guò)1000，如果超過(guò)1000，請
　　利用
　　). pageindex 是頁(yè)碼，pageSize 是該頁(yè)顯示的數據量。例如pageindex=3&pageSize=100表示??請求第三頁(yè)的數據，每頁(yè)按照100條數據進(jìn)行劃分。5個(gè)
　　如何使用數據API？
　　數據 API 以 XML 格式返回數據。您的程序可以通過(guò)API定時(shí)獲取云端采集指定時(shí)間段的數據。API返回的數據格式如下：
　　以上就是優(yōu)采云采集如何獲取數據API鏈接，優(yōu)采云采集如何獲取數據API鏈接的教程，希望本文能幫到大家解決問(wèn)題。
　　解密:星座生辰八字算命系統超強大功能程序源碼下載,文章內容可采集
　　今天給大家帶來(lái)一個(gè)屬于算命星座范疇的程序系統。
　　目前是市面上功能強大的算命系統，包含姓名打分、八字測算、各種吉兇查詢(xún)、各種在線(xiàn)靈簽，非采集文章，
而是純功能性?xún)热?，真正的測算系統，用戶(hù)回頭率高，網(wǎng)站PV訪(fǎng)問(wèn)量大概是IP的5倍之多。
　　算命系統變現超快，支付轉化率相當高。做過(guò)算命的網(wǎng)站都知道
　　程序比較強大，內涵內容也比較豐富
　　十二生肖在線(xiàn)求簽
　　吉兇查詢(xún)八字計算
　　寶寶名字評分
　　完整名單
　　周公解夢(mèng)等等，就不一一說(shuō)了，大家自己去了解吧！
　　順便說(shuō)一下，文章發(fā)布了其他這樣的系統，但是這個(gè)程序還有一個(gè)優(yōu)點(diǎn)是文章也可以采集！
　　

　　安裝教程：
　　安裝環(huán)境PHP5.6+MYSQL5.7；
　　PS：PHP版本不能超過(guò)5.6否則會(huì )報錯，不能低于5.6因為系統不支持
　　必須支持偽靜態(tài)。
　　對于初始安裝，必須遵循以下步驟：
　　1.解壓壓縮包到根目錄
　　2.綁定域名和訪(fǎng)問(wèn)權限進(jìn)入安裝步驟
　　3.根據提示輸入數據庫的相關(guān)信息
　　4.登錄后臺
　　5.系統設置-數據庫恢復-依次導入數據庫
　　6.系統設置-站點(diǎn)設置-設置網(wǎng)站信息
　　7.系統設置-SEO設置-設置網(wǎng)站SEO信息
　　8、設置偽靜態(tài)——在寶塔中選擇thinkphp——在偽靜態(tài)設置中填寫(xiě)虛擬主機【詳見(jiàn)源碼安裝包】
　　

　　9. 文章管理-添加文章【星座文章采集】
　　10. 設置網(wǎng)站并添加背景項文章和數據。前端打分名字時(shí)會(huì )自動(dòng)保存寶寶名字的數據。
　　好了，故事就這樣結束了，下面附上小編的測試demo圖：
　　本站發(fā)布的資源均來(lái)自互聯(lián)網(wǎng)，僅供研究學(xué)習之用，不得將軟件用于商業(yè)或非法用途，否則一切后果由用戶(hù)自行承擔！如果侵犯了您的權益，請聯(lián)系我們！您必須在下載后 24 小時(shí)內將其從您的手機和計算機中徹底刪除。如果您喜歡本程序，請支持正版軟件，購買(mǎi)注冊，獲得更優(yōu)質(zhì)的正版服務(wù)。如有侵權，請聯(lián)系我們處理！
　　善能緣代碼? 超強星座生肖算命系統程序源碼下載，文章內容可用采集
　　常問(wèn)問(wèn)題
　　免費下載或VIP會(huì )員專(zhuān)享資源是否可以直接用于商業(yè)用途？
　　本站所有資源版權歸原作者所有。此處提供的資源僅供參考和學(xué)習使用，請勿直接用于商業(yè)用途。如因商業(yè)使用引起版權糾紛，一切責任由用戶(hù)自行承擔。更多說(shuō)明請參考VIP介紹。
　　提示下載完成但無(wú)法解壓或打開(kāi)文件？
　　最常見(jiàn)的情況是下載不完整：可以將下載的壓縮包與網(wǎng)盤(pán)容量進(jìn)行比較，如果小于網(wǎng)盤(pán)提示的容量，就是這個(gè)原因。這是瀏覽器下載bug，建議使用百度網(wǎng)盤(pán)軟件或迅雷下載。如果排除這種情況，您可以在相應資源下方留言，或者聯(lián)系我們。通用解壓密碼：
　　山能SVIP

解決方案:基于A(yíng)PI的圖像采集程序

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2022-12-10 01:32 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:基于A(yíng)PI的圖像采集程序
　　
　　================================================ == =======================WIN32應用：視頻采集測試項目概述================= ================================================ ====== === 應用程序向導已經(jīng)為您創(chuàng )建了這個(gè)視頻捕獲測試應用程序。本文檔概述了構成視頻捕獲測試應用程序的每個(gè)文件的內容。Video Capture Test.vcproj 這是使用 AppWizard 生成的 VC++ 項目的主要項目文件。它收錄有關(guān)生成文件的 Visual C++ 版本的信息，以及有關(guān)使用應用程序向導選擇的平臺、配置和項目功能的信息。Video Capture Test.cpp 這是主要的應用程序源文件。//////////////////////////////////////////////// // ///////////////////////////應用程序向導創(chuàng )建了以下資源： Video Capture Test.rc 這是所有資源的來(lái)源程序列表使用的 Microsoft Windows 資源。它包括存儲在 RES 子目錄中的圖標、位圖和光標。該文件可以直接在 Microsoft Visual C++ 中編輯。
　　
　　Resource.h 這是定義新資源 ID 的標準頭文件。Microsoft Visual C++ 讀取并更新此文件。Video Capture Test.ico 這是用作應用程序圖標 (32x32) 的圖標文件。此圖標收錄在主要資源文件 VideoCaptureTest.rc 中。small.ico 這是一個(gè)圖標文件，其中收錄較小版本 (16x16) 的應用程序圖標。此圖標收錄在主要資源文件 VideoCaptureTest.rc 中。//////////////////////////////////////////////// // ///////////////////////// 其他標準文件：StdAfx.h、StdAfx.cpp 這些文件用于生成視頻采集測試.pch 預編譯頭 (PCH) 文件和名為 StdAfx.obj 的預編譯類(lèi)型文件。//////////////////////////////////////////////// // /////////////////////////// 附加說(shuō)明：AppWizard 使用“TODO：” 指示應添加或自定義的源代碼部分。//////////////////////////////////////////////// // ///////////////////////////
　　匯總:石青分類(lèi)信息群發(fā)工具 1.4.9.10 綠色版
　　藍晶分類(lèi)信息群發(fā)工具是一款簡(jiǎn)單實(shí)用的分類(lèi)信息戰自動(dòng)群發(fā)軟件，先進(jìn)的驗證碼識別技術(shù)，發(fā)布信息方便快捷，建立外鏈，可以發(fā)送信息到趕集網(wǎng)，58等國內知名分類(lèi)站群發(fā)，只要簡(jiǎn)單輸入賬號密碼，填寫(xiě)發(fā)送內容，其他藍晶分類(lèi)信息群發(fā)工具都會(huì )為您解決。
　　藍晶分類(lèi)信息群發(fā)工具功能介紹：
　　1、支持分類(lèi)站點(diǎn)多，是一般同類(lèi)軟件的很多倍；
　　2、綠色軟件免安裝，容量小，軟件下載包只有4M多；
　　3、全剎車(chē)驗證碼識別，高效快捷；
　　4.在線(xiàn)升級，全部免費；
　　5、貼心的鏈接替換功能，提供短域名服務(wù)，有效增加SEO外鏈；
　　
　　6、系統自動(dòng)調整發(fā)送速度，不像一些同類(lèi)軟件需要用戶(hù)進(jìn)行復雜的設置；
　　7、自動(dòng)搜索代理服務(wù)器，確保發(fā)送時(shí)IP不被封；
　　8. 100%模擬人工發(fā)送，一般情況下很少被K；
　　9、支持win2000以上所有平臺，包括winxp、win2003、vista、win7等；
　　10.多核發(fā)送，發(fā)送時(shí)充分利用機器，沒(méi)有任何拖延和滯后。
　　石青分類(lèi)信息群發(fā)工具更新日志：
　　V1.4.6.10
　　
　　1.改善群發(fā)消息間隔過(guò)長(cháng)??的問(wèn)題
　　2.對大站模式做了性能升級
　　3.更新驗證題庫
　　V1.4.4.10
　　1、修復id為3、10、19的分類(lèi)站無(wú)效問(wèn)題；
　　2.修復了文本編輯模塊中的一些復制錯誤；
　　3.修復部分坐標按界面web方式發(fā)送；查看全部

　　解決方案:基于A(yíng)PI的圖像采集程序
　　

　　================================================ == =======================WIN32應用：視頻采集測試項目概述================= ================================================ ====== === 應用程序向導已經(jīng)為您創(chuàng )建了這個(gè)視頻捕獲測試應用程序。本文檔概述了構成視頻捕獲測試應用程序的每個(gè)文件的內容。Video Capture Test.vcproj 這是使用 AppWizard 生成的 VC++ 項目的主要項目文件。它收錄有關(guān)生成文件的 Visual C++ 版本的信息，以及有關(guān)使用應用程序向導選擇的平臺、配置和項目功能的信息。Video Capture Test.cpp 這是主要的應用程序源文件。//////////////////////////////////////////////// // ///////////////////////////應用程序向導創(chuàng )建了以下資源： Video Capture Test.rc 這是所有資源的來(lái)源程序列表使用的 Microsoft Windows 資源。它包括存儲在 RES 子目錄中的圖標、位圖和光標。該文件可以直接在 Microsoft Visual C++ 中編輯。
　　

　　Resource.h 這是定義新資源 ID 的標準頭文件。Microsoft Visual C++ 讀取并更新此文件。Video Capture Test.ico 這是用作應用程序圖標 (32x32) 的圖標文件。此圖標收錄在主要資源文件 VideoCaptureTest.rc 中。small.ico 這是一個(gè)圖標文件，其中收錄較小版本 (16x16) 的應用程序圖標。此圖標收錄在主要資源文件 VideoCaptureTest.rc 中。//////////////////////////////////////////////// // ///////////////////////// 其他標準文件：StdAfx.h、StdAfx.cpp 這些文件用于生成視頻采集測試.pch 預編譯頭 (PCH) 文件和名為 StdAfx.obj 的預編譯類(lèi)型文件。//////////////////////////////////////////////// // /////////////////////////// 附加說(shuō)明：AppWizard 使用“TODO：” 指示應添加或自定義的源代碼部分。//////////////////////////////////////////////// // ///////////////////////////
　　匯總:石青分類(lèi)信息群發(fā)工具 1.4.9.10 綠色版
　　藍晶分類(lèi)信息群發(fā)工具是一款簡(jiǎn)單實(shí)用的分類(lèi)信息戰自動(dòng)群發(fā)軟件，先進(jìn)的驗證碼識別技術(shù)，發(fā)布信息方便快捷，建立外鏈，可以發(fā)送信息到趕集網(wǎng)，58等國內知名分類(lèi)站群發(fā)，只要簡(jiǎn)單輸入賬號密碼，填寫(xiě)發(fā)送內容，其他藍晶分類(lèi)信息群發(fā)工具都會(huì )為您解決。
　　藍晶分類(lèi)信息群發(fā)工具功能介紹：
　　1、支持分類(lèi)站點(diǎn)多，是一般同類(lèi)軟件的很多倍；
　　2、綠色軟件免安裝，容量小，軟件下載包只有4M多；
　　3、全剎車(chē)驗證碼識別，高效快捷；
　　4.在線(xiàn)升級，全部免費；
　　5、貼心的鏈接替換功能，提供短域名服務(wù)，有效增加SEO外鏈；
　　

　　6、系統自動(dòng)調整發(fā)送速度，不像一些同類(lèi)軟件需要用戶(hù)進(jìn)行復雜的設置；
　　7、自動(dòng)搜索代理服務(wù)器，確保發(fā)送時(shí)IP不被封；
　　8. 100%模擬人工發(fā)送，一般情況下很少被K；
　　9、支持win2000以上所有平臺，包括winxp、win2003、vista、win7等；
　　10.多核發(fā)送，發(fā)送時(shí)充分利用機器，沒(méi)有任何拖延和滯后。
　　石青分類(lèi)信息群發(fā)工具更新日志：
　　V1.4.6.10
　　

　　1.改善群發(fā)消息間隔過(guò)長(cháng)??的問(wèn)題
　　2.對大站模式做了性能升級
　　3.更新驗證題庫
　　V1.4.4.10
　　1、修復id為3、10、19的分類(lèi)站無(wú)效問(wèn)題；
　　2.修復了文本編輯模塊中的一些復制錯誤；
　　3.修復部分坐標按界面web方式發(fā)送；

免費獲取:公眾號最新文章獲取API

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 187 次瀏覽 ? 2022-12-09 13:54 ? 來(lái)自相關(guān)話(huà)題

　　免費獲取:公眾號最新文章獲取API
　　公眾號平臺每天都有數百萬(wàn)的公眾號為這個(gè)生態(tài)做貢獻，其價(jià)值不言而喻。
　　我們合作的企業(yè)客戶(hù)中有科技、財經(jīng)媒體平臺、科研機構、政府機構等，有的是內容平臺，希望能方便的轉載文章，而不是手動(dòng)復制粘貼每篇文章，效率低下。有的專(zhuān)門(mén)從事數據研究分析、競品研究、輿情監測，檢查傳播趨勢、敏感輿情等。
　　由于微信是一個(gè)封閉的內容生態(tài)系統，從頭開(kāi)始構建公眾號數據采集系統，不僅會(huì )耗費大量的人力和財力。系統穩定性維護也是一個(gè)大問(wèn)題，每天都需要面對不同的問(wèn)題。反爬策略。
　　所以，最好的辦法就是把專(zhuān)業(yè)的事交給專(zhuān)業(yè)的人。它為您節省時(shí)間和成本。
　　
　　我們能提供什么？
　　我們可以根據客戶(hù)需求定制獲取用戶(hù)指定公眾號的數據，包括但不限于：
　　公眾號最新文章獲取，包括公眾號文章鏈接、標題、發(fā)布時(shí)間、封面圖、作者、摘要等字段的數據。公眾號文章閱讀量獲取，包括文章閱讀量、點(diǎn)數、評論數、瀏覽量等公眾號文章獲取選中的評論，包括評論內容、評論時(shí)長(cháng)、評論點(diǎn)贊數，評論者的昵稱(chēng)等
　　接口列表：
　　
　　返回格式：
　　以上接口均提供免費試用服務(wù)。我們擁有5年穩定的接口服務(wù)，服務(wù)過(guò)上百家企業(yè)用戶(hù)，能夠為用戶(hù)提供穩定、專(zhuān)業(yè)的數據解決方案。如果您對公眾號有其他需求，歡迎咨詢(xún)。
　　最新版:為什么我的網(wǎng)站或網(wǎng)頁(yè)在百度上搜索不到
　　為什么我的網(wǎng)站或網(wǎng)頁(yè)在百度上搜不到？如果你新建了一個(gè)站點(diǎn)，沒(méi)有在網(wǎng)站設置百度蜘蛛的封禁，百度會(huì )自動(dòng)搜索你網(wǎng)站到收錄。只是收錄的周期比較長(cháng)，一般是7-30天，因為百度需要時(shí)間來(lái)驗證網(wǎng)站的內容和質(zhì)量。所以，在新站做推廣的時(shí)候，建議做基礎的關(guān)鍵詞優(yōu)化和搜索引擎提交，記得不斷更新網(wǎng)站的內容，爭取外鏈，有利于提升網(wǎng)站在百度的人氣排名方便百度收錄。
　　新網(wǎng)站百度不收錄注意事項：
　　1、新站服務(wù)器/空間不穩定，有時(shí)網(wǎng)站打不開(kāi)，導致蜘蛛難以抓取網(wǎng)頁(yè)；
　　2、網(wǎng)站收錄非法詞，被搜索引擎攻擊，此類(lèi)站點(diǎn)不會(huì )被收錄；
　　3、新站被黑重定向或掛機，導致網(wǎng)站無(wú)法正常訪(fǎng)問(wèn)，搜索引擎不是收錄不安全站點(diǎn)；
　　4、域名雙重解析不操作301重定向，搜索引擎不知道哪個(gè)是主域名；
　　5、網(wǎng)站內容不完善就上線(xiàn)，頻繁修改內容，導致搜索引擎不喜歡網(wǎng)頁(yè)，不喜歡收錄；
　　6、網(wǎng)站標題過(guò)長(cháng)，堆砌列出，作弊和快速排序優(yōu)化導致頁(yè)面不在收錄；
　　7、新站收錄排名不穩定屬正?，F象；
　　8. 網(wǎng)站機器人被禁止，導致蜘蛛無(wú)法抓取網(wǎng)頁(yè)，所以沒(méi)有收錄等；
　　以上為網(wǎng)站百度收錄未分享的內容，新建一個(gè)百度收錄分享的網(wǎng)站內容，希望對您有所幫助。創(chuàng )建網(wǎng)站或擁有新網(wǎng)頁(yè)后，為了讓網(wǎng)站盡快被搜索到，您可以將網(wǎng)址提交給各大搜索引擎，加快收錄的搜索速度。另外，優(yōu)質(zhì)域名的收錄速度會(huì )遠高于二級域名，所以建議在創(chuàng )建后購買(mǎi)或綁定優(yōu)質(zhì)域名網(wǎng)站，對網(wǎng)站的收錄有幫助，同時(shí)創(chuàng )建網(wǎng)站后最好經(jīng)常更新內容，也能增加關(guān)注度搜索引擎，
　　
　　本文介紹幾大搜索引擎提交收錄的方法
　?。剀疤崾荆禾峤痪W(wǎng)址收錄后，并不代表網(wǎng)站馬上就能被搜索引擎搜索到，需要等待搜索引擎一段時(shí)間的處理時(shí)間）：
　　為什么網(wǎng)站內容沒(méi)有被收錄百度？百度沒(méi)有收錄網(wǎng)站，可能是因為新的網(wǎng)站。
　　目前百度蜘蛛有兩種爬取方式，一種是主動(dòng)爬取，另一種是在百度站長(cháng)平臺的鏈接提交工具中獲取數據。如果網(wǎng)站內容長(cháng)期沒(méi)有收錄，建議使用主動(dòng)推送功能推送首頁(yè)數據，有利于抓取內頁(yè)數據.
　　當然，這些都是針對新站未開(kāi)發(fā)的收錄的解決方案。如果不是新站，not收錄是什么原因？分析百度沒(méi)有收錄網(wǎng)站內容的原因。
　　首先，網(wǎng)站內容質(zhì)量。
　　如果網(wǎng)站的大量?jì)热菔墙栌脛e人的，百度不會(huì )收錄，百度也會(huì )加強對收錄網(wǎng)站的審核。
　　搜索引擎傾向于青睞高質(zhì)量的原創(chuàng )內容，原創(chuàng )文章更能滿(mǎn)足用戶(hù)需求，同時(shí)可以提升用戶(hù)體驗。
　　原創(chuàng )內容獨特，如果在網(wǎng)上找不到想要的文章，網(wǎng)站很容易脫穎而出，獲得百度權重。
　　第二，蜘蛛爬取失敗。
　　百度站長(cháng)平臺研究百度蜘蛛的日常爬行。網(wǎng)站更新內容時(shí)，可以將此內容提交給百度，或者通過(guò)百度站長(cháng)平臺的抓取診斷進(jìn)行測試，看抓取是否正常。
　　三是積極推進(jìn)抓取限額。
　　
　　如果網(wǎng)站的頁(yè)面數量突然增加，會(huì )影響蜘蛛對收錄的抓取，所以網(wǎng)站在保證訪(fǎng)問(wèn)穩定的同時(shí)一定要注意網(wǎng)站的安全。
　　四、Robots.txt文件。
　　Robots 文件告訴搜索引擎要抓取哪些頁(yè)面，不要抓取哪些頁(yè)面。有些站長(cháng)會(huì )屏蔽一些不重要的文件，禁止蜘蛛抓取，可能會(huì )屏蔽重要的頁(yè)面，可以查看Robots。
　　第五，標題經(jīng)常變化。
　　如果網(wǎng)站的標題經(jīng)常變化，搜索引擎就不知道網(wǎng)站的內容到底想表達什么，網(wǎng)站的內容會(huì )與標題不匹配，從而影響網(wǎng)頁(yè)的收錄時(shí)間而錯過(guò) 收錄最佳時(shí)間。
　　如果你的網(wǎng)站已經(jīng)上線(xiàn)30天以上，百度還沒(méi)有為網(wǎng)站實(shí)現收錄，你可以檢查是否存在以下問(wèn)題：是否關(guān)閉了網(wǎng)站允許搜索引擎的選項收錄？如果關(guān)閉此選項，搜索引擎蜘蛛將不會(huì )訪(fǎng)問(wèn)該頁(yè)面；
　　您搜索的關(guān)鍵詞是否與網(wǎng)站推廣的關(guān)鍵詞一致，或者網(wǎng)站排名比較靠后；
　　您的網(wǎng)站內容是否定期更新？搜索引擎不喜歡收錄少的頁(yè)面和舊的內容網(wǎng)站；
　　網(wǎng)站是否被百度拉黑。新建的網(wǎng)站只能被搜索引擎（如百度、谷歌等）搜索到收錄。收錄的過(guò)程由搜索引擎自動(dòng)完成，一般時(shí)間為1到3個(gè)月。也可以提交收錄來(lái)加快收錄的速度。查看全部

　　免費獲取:公眾號最新文章獲取API
　　公眾號平臺每天都有數百萬(wàn)的公眾號為這個(gè)生態(tài)做貢獻，其價(jià)值不言而喻。
　　我們合作的企業(yè)客戶(hù)中有科技、財經(jīng)媒體平臺、科研機構、政府機構等，有的是內容平臺，希望能方便的轉載文章，而不是手動(dòng)復制粘貼每篇文章，效率低下。有的專(zhuān)門(mén)從事數據研究分析、競品研究、輿情監測，檢查傳播趨勢、敏感輿情等。
　　由于微信是一個(gè)封閉的內容生態(tài)系統，從頭開(kāi)始構建公眾號數據采集系統，不僅會(huì )耗費大量的人力和財力。系統穩定性維護也是一個(gè)大問(wèn)題，每天都需要面對不同的問(wèn)題。反爬策略。
　　所以，最好的辦法就是把專(zhuān)業(yè)的事交給專(zhuān)業(yè)的人。它為您節省時(shí)間和成本。
　　

　　我們能提供什么？
　　我們可以根據客戶(hù)需求定制獲取用戶(hù)指定公眾號的數據，包括但不限于：
　　公眾號最新文章獲取，包括公眾號文章鏈接、標題、發(fā)布時(shí)間、封面圖、作者、摘要等字段的數據。公眾號文章閱讀量獲取，包括文章閱讀量、點(diǎn)數、評論數、瀏覽量等公眾號文章獲取選中的評論，包括評論內容、評論時(shí)長(cháng)、評論點(diǎn)贊數，評論者的昵稱(chēng)等
　　接口列表：
　　

　　返回格式：
　　以上接口均提供免費試用服務(wù)。我們擁有5年穩定的接口服務(wù)，服務(wù)過(guò)上百家企業(yè)用戶(hù)，能夠為用戶(hù)提供穩定、專(zhuān)業(yè)的數據解決方案。如果您對公眾號有其他需求，歡迎咨詢(xún)。
　　最新版:為什么我的網(wǎng)站或網(wǎng)頁(yè)在百度上搜索不到
　　為什么我的網(wǎng)站或網(wǎng)頁(yè)在百度上搜不到？如果你新建了一個(gè)站點(diǎn)，沒(méi)有在網(wǎng)站設置百度蜘蛛的封禁，百度會(huì )自動(dòng)搜索你網(wǎng)站到收錄。只是收錄的周期比較長(cháng)，一般是7-30天，因為百度需要時(shí)間來(lái)驗證網(wǎng)站的內容和質(zhì)量。所以，在新站做推廣的時(shí)候，建議做基礎的關(guān)鍵詞優(yōu)化和搜索引擎提交，記得不斷更新網(wǎng)站的內容，爭取外鏈，有利于提升網(wǎng)站在百度的人氣排名方便百度收錄。
　　新網(wǎng)站百度不收錄注意事項：
　　1、新站服務(wù)器/空間不穩定，有時(shí)網(wǎng)站打不開(kāi)，導致蜘蛛難以抓取網(wǎng)頁(yè)；
　　2、網(wǎng)站收錄非法詞，被搜索引擎攻擊，此類(lèi)站點(diǎn)不會(huì )被收錄；
　　3、新站被黑重定向或掛機，導致網(wǎng)站無(wú)法正常訪(fǎng)問(wèn)，搜索引擎不是收錄不安全站點(diǎn)；
　　4、域名雙重解析不操作301重定向，搜索引擎不知道哪個(gè)是主域名；
　　5、網(wǎng)站內容不完善就上線(xiàn)，頻繁修改內容，導致搜索引擎不喜歡網(wǎng)頁(yè)，不喜歡收錄；
　　6、網(wǎng)站標題過(guò)長(cháng)，堆砌列出，作弊和快速排序優(yōu)化導致頁(yè)面不在收錄；
　　7、新站收錄排名不穩定屬正?，F象；
　　8. 網(wǎng)站機器人被禁止，導致蜘蛛無(wú)法抓取網(wǎng)頁(yè)，所以沒(méi)有收錄等；
　　以上為網(wǎng)站百度收錄未分享的內容，新建一個(gè)百度收錄分享的網(wǎng)站內容，希望對您有所幫助。創(chuàng )建網(wǎng)站或擁有新網(wǎng)頁(yè)后，為了讓網(wǎng)站盡快被搜索到，您可以將網(wǎng)址提交給各大搜索引擎，加快收錄的搜索速度。另外，優(yōu)質(zhì)域名的收錄速度會(huì )遠高于二級域名，所以建議在創(chuàng )建后購買(mǎi)或綁定優(yōu)質(zhì)域名網(wǎng)站，對網(wǎng)站的收錄有幫助，同時(shí)創(chuàng )建網(wǎng)站后最好經(jīng)常更新內容，也能增加關(guān)注度搜索引擎，
　　

　　本文介紹幾大搜索引擎提交收錄的方法
　?。剀疤崾荆禾峤痪W(wǎng)址收錄后，并不代表網(wǎng)站馬上就能被搜索引擎搜索到，需要等待搜索引擎一段時(shí)間的處理時(shí)間）：
　　為什么網(wǎng)站內容沒(méi)有被收錄百度？百度沒(méi)有收錄網(wǎng)站，可能是因為新的網(wǎng)站。
　　目前百度蜘蛛有兩種爬取方式，一種是主動(dòng)爬取，另一種是在百度站長(cháng)平臺的鏈接提交工具中獲取數據。如果網(wǎng)站內容長(cháng)期沒(méi)有收錄，建議使用主動(dòng)推送功能推送首頁(yè)數據，有利于抓取內頁(yè)數據.
　　當然，這些都是針對新站未開(kāi)發(fā)的收錄的解決方案。如果不是新站，not收錄是什么原因？分析百度沒(méi)有收錄網(wǎng)站內容的原因。
　　首先，網(wǎng)站內容質(zhì)量。
　　如果網(wǎng)站的大量?jì)热菔墙栌脛e人的，百度不會(huì )收錄，百度也會(huì )加強對收錄網(wǎng)站的審核。
　　搜索引擎傾向于青睞高質(zhì)量的原創(chuàng )內容，原創(chuàng )文章更能滿(mǎn)足用戶(hù)需求，同時(shí)可以提升用戶(hù)體驗。
　　原創(chuàng )內容獨特，如果在網(wǎng)上找不到想要的文章，網(wǎng)站很容易脫穎而出，獲得百度權重。
　　第二，蜘蛛爬取失敗。
　　百度站長(cháng)平臺研究百度蜘蛛的日常爬行。網(wǎng)站更新內容時(shí)，可以將此內容提交給百度，或者通過(guò)百度站長(cháng)平臺的抓取診斷進(jìn)行測試，看抓取是否正常。
　　三是積極推進(jìn)抓取限額。
　　

　　如果網(wǎng)站的頁(yè)面數量突然增加，會(huì )影響蜘蛛對收錄的抓取，所以網(wǎng)站在保證訪(fǎng)問(wèn)穩定的同時(shí)一定要注意網(wǎng)站的安全。
　　四、Robots.txt文件。
　　Robots 文件告訴搜索引擎要抓取哪些頁(yè)面，不要抓取哪些頁(yè)面。有些站長(cháng)會(huì )屏蔽一些不重要的文件，禁止蜘蛛抓取，可能會(huì )屏蔽重要的頁(yè)面，可以查看Robots。
　　第五，標題經(jīng)常變化。
　　如果網(wǎng)站的標題經(jīng)常變化，搜索引擎就不知道網(wǎng)站的內容到底想表達什么，網(wǎng)站的內容會(huì )與標題不匹配，從而影響網(wǎng)頁(yè)的收錄時(shí)間而錯過(guò) 收錄最佳時(shí)間。
　　如果你的網(wǎng)站已經(jīng)上線(xiàn)30天以上，百度還沒(méi)有為網(wǎng)站實(shí)現收錄，你可以檢查是否存在以下問(wèn)題：是否關(guān)閉了網(wǎng)站允許搜索引擎的選項收錄？如果關(guān)閉此選項，搜索引擎蜘蛛將不會(huì )訪(fǎng)問(wèn)該頁(yè)面；
　　您搜索的關(guān)鍵詞是否與網(wǎng)站推廣的關(guān)鍵詞一致，或者網(wǎng)站排名比較靠后；
　　您的網(wǎng)站內容是否定期更新？搜索引擎不喜歡收錄少的頁(yè)面和舊的內容網(wǎng)站；
　　網(wǎng)站是否被百度拉黑。新建的網(wǎng)站只能被搜索引擎（如百度、谷歌等）搜索到收錄。收錄的過(guò)程由搜索引擎自動(dòng)完成，一般時(shí)間為1到3個(gè)月。也可以提交收錄來(lái)加快收錄的速度。

分享文章:呆錯文章管理系統一鍵API采集與綁定分類(lèi)的圖文教程－呆錯后臺管理框架

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 172 次瀏覽 ? 2022-12-08 04:52 ? 來(lái)自相關(guān)話(huà)題

　　分享文章:呆錯文章管理系統一鍵API采集與綁定分類(lèi)的圖文教程－呆錯后臺管理框架
　　采集功能介紹（文章管理系統的核心采集功能包括以下三個(gè)模塊）
　　API采集設置
　　
　　了解文章管理系統的采集功能后，我們使用API??客戶(hù)端連接采集API服務(wù)器。我們只需要在后臺填寫(xiě)網(wǎng)址和密碼即可。點(diǎn)擊它（背景 > 文章 > 采集管理）添加采集。
　　API采集轉換分類(lèi)
　　
　　當資源站的分類(lèi)不是我們想要的分類(lèi)名稱(chēng)或者分類(lèi)已經(jīng)在我們自己的文章系統中構建時(shí)，這時(shí)候就需要使用“綁定分類(lèi)”的功能，設置會(huì )彈出點(diǎn)擊按鈕框后up，只需要將需要轉換或重命名的列類(lèi)別一一重命名即可，如下圖。
　　免費云采集教程:步驟3：修改Xpath
　　前幾天寫(xiě)的關(guān)于“大數據”的文章得到了很多朋友的認可?！八鼜哪睦飦?lái)的？
　　我們可以簡(jiǎn)單列舉：
　　1、企業(yè)產(chǎn)生的用戶(hù)數據
　　比如BAT這樣的公司，擁有龐大的用戶(hù)群，用戶(hù)的任何行為都會(huì )成為他們數據源的一部分
　　2、數據平臺購買(mǎi)數據
　　比如從全國數據中心數據市場(chǎng)購買(mǎi)等。
　　3. 政府機構公開(kāi)數據
　　比如統計局和銀行的公開(kāi)數據。
　　4.數據管理公司
　　比如艾瑞咨詢(xún)等。
　　5.爬蟲(chóng)獲取網(wǎng)絡(luò )數據
　　利用網(wǎng)絡(luò )爬蟲(chóng)技術(shù)爬取網(wǎng)絡(luò )數據以供使用。
　　所以其實(shí)對于中小企業(yè)或者個(gè)人來(lái)說(shuō)，想要獲取“大數據或者海量數據”，最劃算的方法就是利用“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)”來(lái)獲取有效數據，所以“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)”這幾年也很流行！
　　今天我就來(lái)給大家講解一下“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)的原理與實(shí)現”！
　　1、什么是網(wǎng)絡(luò )爬蟲(chóng)？
　　網(wǎng)絡(luò )爬蟲(chóng)（也稱(chēng)為網(wǎng)絡(luò )蜘蛛、網(wǎng)絡(luò )機器人，在 FOAF 社區中更常被稱(chēng)為網(wǎng)絡(luò )追趕者）是一種按照一定規則自動(dòng)抓取萬(wàn)維網(wǎng)上信息的程序或腳本。簡(jiǎn)單地說(shuō)，它是一個(gè)請求網(wǎng)站并提取數據的自動(dòng)化程序。
　　最著(zhù)名的網(wǎng)絡(luò )爬蟲(chóng)應用程序是谷歌和百度的應用程序。
　　這兩大搜索引擎每天都會(huì )從互聯(lián)網(wǎng)上抓取大量的數據，然后對數據進(jìn)行分析處理，最后通過(guò)搜索展現給我們?？梢哉f(shuō)網(wǎng)絡(luò )爬蟲(chóng)是搜索引擎的基礎！
　　2. 網(wǎng)絡(luò )爬蟲(chóng)的工作流程和原理
　　網(wǎng)絡(luò )爬蟲(chóng)是搜索引擎爬蟲(chóng)系統的重要組成部分。爬蟲(chóng)的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地，形成鏡像備份或網(wǎng)絡(luò )內容。
　　(1) 網(wǎng)絡(luò )爬蟲(chóng)的基本結構和工作流程
　　一般網(wǎng)絡(luò )爬蟲(chóng)的框架如圖所示：
　　網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下：
　　1.首先選擇一部分精挑細選的種子網(wǎng)址；
　　2、將這些網(wǎng)址放入待抓取的網(wǎng)址隊列中；
　　3、從待抓網(wǎng)址隊列中取出待抓網(wǎng)址，解析DNS，獲取主機ip，下載該網(wǎng)址對應的網(wǎng)頁(yè)，存入下載的網(wǎng)頁(yè)庫中。另外，將這些網(wǎng)址放入已抓取的網(wǎng)址隊列中。
　　4、分析已經(jīng)抓取的URL隊列中的URL，分析其中的其他URL，將URL放入待抓取的URL隊列中，進(jìn)入下一個(gè)循環(huán)。
　　(2) 從爬蟲(chóng)的角度劃分互聯(lián)網(wǎng)
　　相應地，互聯(lián)網(wǎng)上的所有頁(yè)面都可以分為五個(gè)部分：
　　1.下載過(guò)期的網(wǎng)頁(yè)
　　2、下載過(guò)期的網(wǎng)頁(yè)：抓取的網(wǎng)頁(yè)實(shí)際上是互聯(lián)網(wǎng)內容的鏡像和備份?；ヂ?lián)網(wǎng)是動(dòng)態(tài)變化的，互聯(lián)網(wǎng)上的部分內容發(fā)生了變化。這時(shí)，這部分抓取的網(wǎng)頁(yè)已經(jīng)過(guò)期了。
　　3.待下載網(wǎng)頁(yè)：待抓取的URL隊列中的那些頁(yè)面
　　4、可知網(wǎng)頁(yè)：尚未被抓取的URL，不在待抓取的URL隊列中，但可以通過(guò)分析已抓取的頁(yè)面或待抓取的URL對應的頁(yè)面得到，是被認為是已知網(wǎng)頁(yè)。
　　5、還有一些網(wǎng)頁(yè)是爬蟲(chóng)無(wú)法直接爬取下載的。稱(chēng)為不可知頁(yè)面。
　　(3) 爬取策略
　　在爬蟲(chóng)系統中，待爬取的URL隊列是一個(gè)非常重要的部分。URL隊列中待抓取的URL的排列順序也是一個(gè)很重要的問(wèn)題，因為這涉及到先抓取哪個(gè)頁(yè)面，后抓取哪個(gè)頁(yè)面。確定這些 URL 順序的方法稱(chēng)為抓取策略。下面重點(diǎn)介紹幾種常見(jiàn)的爬取策略：
　　1.深度優(yōu)先遍歷策略
　　深度優(yōu)先遍歷策略意味著(zhù)網(wǎng)絡(luò )爬蟲(chóng)將從起始頁(yè)開(kāi)始，逐個(gè)鏈接。處理完這一行后，它將轉到下一個(gè)起始頁(yè)并繼續跟蹤鏈接。我們以下圖為例：
　　遍歷路徑：AFG EHI BCD
　　2.廣度優(yōu)先遍歷策略
　　廣度優(yōu)先遍歷策略的基本思想是將新下載的網(wǎng)頁(yè)中找到的鏈接直接插入待抓取的URL隊列的尾部。也就是說(shuō)，網(wǎng)絡(luò )爬蟲(chóng)會(huì )先爬取初始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)，然后選擇其中一個(gè)鏈接的網(wǎng)頁(yè)，繼續爬取該網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。還是以上圖為例：
　　遍歷路徑：ABCDEF GHI
　　3.反向鏈接計數策略
　　反向鏈接的數量是指一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)的鏈接指向的次數。反向鏈接數表示網(wǎng)頁(yè)內容被其他人推薦的程度。因此，在很多情況下，搜索引擎的抓取系統會(huì )使用這個(gè)指標來(lái)評估網(wǎng)頁(yè)的重要性，從而決定抓取不同網(wǎng)頁(yè)的順序。
　　在真實(shí)的網(wǎng)絡(luò )環(huán)境中，由于廣告鏈接和作弊鏈接的存在，反向鏈接的數量不可能完全等于其他鏈接的重要性。因此，搜索引擎傾向于考慮一些可靠數量的反向鏈接。
　　4.部分PageRank策略
　　Partial PageRank算法借鑒了PageRank算法的思想：對于下載的網(wǎng)頁(yè)，連同要抓取的URL隊列中的URL，組成一個(gè)網(wǎng)頁(yè)集合，計算每個(gè)頁(yè)面的PageRank值。計算完成后，將要抓取的URL隊列中的URL進(jìn)行計算，URL按照PageRank值的高低排序，依次抓取頁(yè)面。
　　如果每次抓取一個(gè)頁(yè)面都重新計算PageRank值，折衷的做法是：每抓取K頁(yè)后，重新計算PageRank值。但是這種情況還有一個(gè)問(wèn)題：對于下載頁(yè)面中分析出來(lái)的鏈接，也就是我們前面提到的那部分未知網(wǎng)頁(yè)，暫時(shí)沒(méi)有PageRank值。為了解決這個(gè)問(wèn)題，會(huì )給這些頁(yè)面一個(gè)臨時(shí)的PageRank值：從這個(gè)網(wǎng)頁(yè)的所有傳入鏈接傳入的PageRank值會(huì )被聚合，從而形成未知頁(yè)面的PageRank值，從而參與排行。以下示例說(shuō)明：
　　5. OPIC戰略策略
　　該算法實(shí)際上是頁(yè)面的重要性分數。在算法開(kāi)始之前，給所有頁(yè)面相同的初始現金（cash）。某個(gè)頁(yè)面P被下載后，將P的現金分配給從P分析出來(lái)的所有鏈接，P的現金清空。待抓取的 URL 隊列中的所有頁(yè)面都按照現金數量排序。
　　6、大站點(diǎn)優(yōu)先策略
　　對于所有待抓取的URL隊列中的網(wǎng)頁(yè)，根據它們的網(wǎng)站進(jìn)行分類(lèi)。對于網(wǎng)站有大量需要下載的頁(yè)面，會(huì )優(yōu)先下載。因此該策略也稱(chēng)為大站優(yōu)先策略。
　　(4)更新策略
　　互聯(lián)網(wǎng)是實(shí)時(shí)變化的，而且是高度動(dòng)態(tài)的。網(wǎng)頁(yè)更新策略主要是決定什么時(shí)候更新之前下載過(guò)的頁(yè)面。常見(jiàn)的更新策略有以下三種：
　　1.歷史參考策略
　　顧名思義，就是根據過(guò)去頁(yè)面的歷史更新數據，預測未來(lái)頁(yè)面什么時(shí)候會(huì )發(fā)生變化。通常，預測是通過(guò)對泊松過(guò)程建模來(lái)進(jìn)行的。
　　2. 用戶(hù)體驗策略雖然搜索引擎可以針對某個(gè)查詢(xún)條件返回數量龐大的結果，但用戶(hù)往往只關(guān)注結果的前幾頁(yè)。因此，爬蟲(chóng)系統可以?xún)?yōu)先更新那些出現在查詢(xún)結果前幾頁(yè)的頁(yè)面，然后再更新后面的那些頁(yè)面。此更新策略還需要使用歷史信息。用戶(hù)體驗策略保留了網(wǎng)頁(yè)的多個(gè)歷史版本，根據過(guò)去每次內容變化對搜索質(zhì)量的影響，得到一個(gè)平均值，以此值作為決定何時(shí)重新抓取的依據。3.整群抽樣策略
　　上述兩種更新策略都有一個(gè)前提：都需要網(wǎng)頁(yè)的歷史信息。這種方式存在兩個(gè)問(wèn)題：第一，如果系統為每個(gè)系統保存多個(gè)版本的歷史信息，無(wú)疑會(huì )增加很多系統負擔；第二，如果新網(wǎng)頁(yè)根本沒(méi)有歷史信息，則無(wú)法確定更新策略。
　　該策略認為網(wǎng)頁(yè)有很多屬性，具有相似屬性的網(wǎng)頁(yè)可以認為具有相似的更新頻率。計算某類(lèi)網(wǎng)頁(yè)的更新頻率，只需要對該類(lèi)網(wǎng)頁(yè)進(jìn)行采樣，將其更新周期作為整個(gè)類(lèi)的更新周期即可?；舅悸啡缦拢?br /> 　　(5) 分布式爬蟲(chóng)系統結構一般來(lái)說(shuō)，爬蟲(chóng)系統需要面對整個(gè)互聯(lián)網(wǎng)上億級的網(wǎng)頁(yè)。單個(gè)爬蟲(chóng)無(wú)法完成這樣的任務(wù)。通常需要多個(gè)抓取器一起處理。一般來(lái)說(shuō)，爬蟲(chóng)系統往往是分布式的三層結構。如圖所示：
　　底層是分布在不同地理位置的數據中心。每個(gè)數據中心都有若干個(gè)爬蟲(chóng)服務(wù)器，每個(gè)爬蟲(chóng)服務(wù)器上可能會(huì )部署幾套爬蟲(chóng)程序。這樣就構成了一個(gè)基本的分布式爬蟲(chóng)系統。
　　對于一個(gè)數據中心的不同服務(wù)器，有幾種協(xié)同工作的方式：
　　1.主從
　　主從基本結構如圖所示：
　　對于主從模式，有一個(gè)專(zhuān)門(mén)的Master服務(wù)器來(lái)維護要抓取的URL隊列，負責將每次抓取的URL分發(fā)給不同的Slave服務(wù)器，Slave服務(wù)器負責實(shí)際的網(wǎng)頁(yè)下載工作. Master服務(wù)器除了維護要抓取的URL隊列和分發(fā)URL外，還負責調解各個(gè)Slave服務(wù)器的負載。為了防止一些Slave服務(wù)器太閑或者太累。
　　在這種模式下，Master容易成為系統的瓶頸。
　　2.點(diǎn)對點(diǎn)
　　點(diǎn)對點(diǎn)方程的基本結構如圖所示：
　　在這種模式下，所有的爬蟲(chóng)服務(wù)器都沒(méi)有分工差異。每個(gè)爬取服務(wù)器可以從需要爬取的URL隊列中獲取URL，然后計算該URL主域名的哈希值H，然后計算H mod m（其中m為服務(wù)器數量，上圖為例如，m 為 3)，計算出的數量就是處理該 URL 的主機的數量。
　　示例：假設對于URL，計算器哈希值H=8，m=3，則H mod m=2，所以編號為2的服務(wù)器爬取該鏈接。假設此時(shí)server 0拿到了url，就會(huì )把url傳給server 2，由server 2抓取。
　　這種模型的一個(gè)問(wèn)題是，當一臺服務(wù)器掛掉或添加一臺新服務(wù)器時(shí)，所有 URL 的哈希余數的結果都會(huì )發(fā)生變化。也就是說(shuō)，這種方法的可擴展性不好。針對這種情況，提出了另一種改進(jìn)方案。這種改進(jìn)方案是通過(guò)一致性哈希來(lái)確定服務(wù)器分工。
　　其基本結構如圖所示：
　　Consistent Hashing對URL的主域名進(jìn)行哈希運算，映射為0-232之間的數字。這個(gè)范圍平均分配給m臺服務(wù)器，根據url主域名哈希運算的取值范圍來(lái)判斷爬取哪個(gè)服務(wù)器。
　　如果某臺服務(wù)器出現問(wèn)題，本該由該服務(wù)器負責的網(wǎng)頁(yè)就會(huì )被順時(shí)針順時(shí)針抓取到下一臺服務(wù)器。這樣即使某臺服務(wù)器出現問(wèn)題，也不會(huì )影響其他工作。
　　3. 常見(jiàn)網(wǎng)絡(luò )爬蟲(chóng)的種類(lèi)
　　1. 通用網(wǎng)絡(luò )爬蟲(chóng)
　　爬取目標資源在整個(gè)互聯(lián)網(wǎng)中，爬取的目標數據是巨大的。爬取性能要求非常高。應用于大型搜索引擎，具有很高的應用價(jià)值。
　　一般網(wǎng)絡(luò )爬蟲(chóng)的基本組成：初始URL采集、URL隊列、頁(yè)面爬取模塊、頁(yè)面分析模塊、頁(yè)面數據庫、鏈接過(guò)濾模塊等。
　　一般網(wǎng)絡(luò )爬蟲(chóng)的爬取策略：主要有深度優(yōu)先爬取策略和廣度優(yōu)先爬取策略。
　　2. 專(zhuān)注爬蟲(chóng)
　　在與主題相關(guān)的頁(yè)面中定位抓取目標
　　主要用于特定信息的爬取，主要為特定人群提供服務(wù)
　　重點(diǎn)介紹網(wǎng)絡(luò )爬蟲(chóng)的基本組成：初始URL、URL隊列、頁(yè)面爬取模塊、頁(yè)面分析模塊、頁(yè)面數據庫、連接過(guò)濾模塊、內容評估模塊、鏈接評估模塊等。
　　專(zhuān)注于網(wǎng)絡(luò )爬蟲(chóng)的爬取策略：
　　1）基于內容評價(jià)的爬蟲(chóng)策略
　　2）基于鏈接評價(jià)的爬蟲(chóng)策略
　　3）基于強化學(xué)習的爬蟲(chóng)策略
　　4）基于上下文圖的爬蟲(chóng)策略
　　3.增量網(wǎng)絡(luò )爬蟲(chóng)
　　增量更新是指更新時(shí)只更新變化的部分，不更新未變化的部分。只抓取內容發(fā)生變化的網(wǎng)頁(yè)或新生成的網(wǎng)頁(yè)，可以在一定程度上保證抓取到的網(wǎng)頁(yè)。, 如果可能的話(huà)，一個(gè)新的頁(yè)面
　　4.深網(wǎng)爬蟲(chóng)
　　Surface網(wǎng)頁(yè)：無(wú)需提交表單，使用靜態(tài)鏈接即可到達的靜態(tài)網(wǎng)頁(yè)
　　Deep Web：隱藏在表單后面，無(wú)法通過(guò)靜態(tài)鏈接直接獲取。是提交某個(gè)關(guān)鍵詞后才能獲得的網(wǎng)頁(yè)。
　　深網(wǎng)爬蟲(chóng)最重要的部分是填表部分
　　深網(wǎng)爬蟲(chóng)的基本組成：URL列表、LVS列表（LVS是指標簽/值集合，即填寫(xiě)表單的數據源）爬取控制器、解析器、LVS控制器、表單分析器、表單處理器、響應分析裝置等
　　深網(wǎng)爬蟲(chóng)填表分為兩種：
　　基于領(lǐng)域知識的表單填寫(xiě)（構建一個(gè)關(guān)鍵詞庫來(lái)填寫(xiě)表單，需要的時(shí)候根據語(yǔ)義分析選擇對應的關(guān)鍵詞進(jìn)行填寫(xiě)）
　　基于網(wǎng)頁(yè)結構分析的表單填寫(xiě)（一般在字段有限的情況下使用，該方法會(huì )根據網(wǎng)頁(yè)結構進(jìn)行分析，自動(dòng)填寫(xiě)表單）
　　四、教你實(shí)現一個(gè)簡(jiǎn)單的網(wǎng)絡(luò )爬蟲(chóng)
　　(1)、爬蟲(chóng)流程
　　在構建程序之前，我們首先需要了解一下爬蟲(chóng)的具體過(guò)程。
　　一個(gè)簡(jiǎn)單的爬蟲(chóng)程序有以下過(guò)程：
　　用文字表達，就是：
　　1、從任務(wù)庫（可以是MySQL等關(guān)系型數據庫）中選擇種子URL；
　　2.在程序中初始化一個(gè)URL隊列，將種子URL加入到隊列中；
　　3、如果URL隊列不為空，則將隊列頭部的URL出隊；如果 URL 隊列為空，程序將退出；
　　4、程序根據出隊的URL反映對應的解析類(lèi)，同時(shí)創(chuàng )建一個(gè)新的線(xiàn)程開(kāi)始解析任務(wù)；
　　5、程序會(huì )下載該URL指向的網(wǎng)頁(yè)，判斷該頁(yè)面是詳情頁(yè)還是列表頁(yè)（如博客中的博客詳情、博文列表）。如果是詳情頁(yè)，它會(huì )解析出頁(yè)面內容存入數據庫。如果是列表頁(yè)，則提取頁(yè)面鏈接加入URL隊列；
　　6.解析任務(wù)完成后，重復步驟3。
　?。ǘ┏绦蚪Y構
　　我們已經(jīng)知道了爬蟲(chóng)的具體流程，現在我們需要一個(gè)合理的程序結構來(lái)實(shí)現它。
　　首先介紹一下這個(gè)簡(jiǎn)單的爬蟲(chóng)程序的主要結構組件：
　　然后，看看程序中的工具類(lèi)和實(shí)體類(lèi)。
　　最后，根據類(lèi)的作用，我們將其放置在上面流程圖中的相應位置。具體示意圖如下：
　　我們現在已經(jīng)完成了實(shí)際流程到程序邏輯的翻譯。接下來(lái)，我們將通過(guò)源碼的介紹，深入到程序的細節。
　　(3)、任務(wù)調度、初始化隊列
　　在簡(jiǎn)單的爬蟲(chóng)程序中，任務(wù)調度和初始化隊列都是在SpiderApplication類(lèi)中完成的。
　　(4)、插件工廠(chǎng)
　　在URL循環(huán)調度中，有一個(gè)語(yǔ)句需要我們注意：
　　AbstractPlugin plugin = PluginFactory.getInstance().getPlugin(task);
　　其中，AbstractPlugin是繼承自Thread的抽象插件類(lèi)。
　　這個(gè)語(yǔ)句的意思是插件工廠(chǎng)根據url實(shí)例化繼承自AbstractPlugin的指定插件。
　　插件工廠(chǎng)也可以理解為解析類(lèi)工廠(chǎng)。
　　在這個(gè)程序中，插件工廠(chǎng)的實(shí)現主要依賴(lài)三個(gè)方面：
　　1.插件
　　包插件；
　　導入 java.lang.annotation.*;
　　/**
　　* 插件說(shuō)明
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　@Target({ElementType.TYPE})
　　@Retention(RetentionPolicy.RUNTIME)
　　@Documented
　　公共@interface插件{
　　String value() 默認"";
　　}
　　Plugin其實(shí)是一個(gè)注解接口，在Plugin的支持下，我們可以通過(guò)注解@Plugin讓程序識別插件類(lèi)。這就好比在SpringMVC中，我們通過(guò)@[emailprotected]等來(lái)標識每一個(gè)Bean。
　　2.Xmu插件
　　@Plugin(值="")
　　公共類(lèi) XmuPlugin 擴展 AbstractPlugin {
　　}
　　XmuPlugin是眾多插件（解析類(lèi)）中的一種，作用由注解@Plugin標注，其具體標識（即對應于哪個(gè)url）由注解中的值標注。
　　3.插件工廠(chǎng)
　　包裝廠(chǎng)；
　　進(jìn)口實(shí)體。任務(wù);
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入插件.AbstractPlugin；
　　導入插件。插件；
　　導入 util.CommonUtil；
　　導入java.io.文件；
　　
　　導入 java.lang.annotation.Annotation；
　　導入 java.lang.reflect.Constructor；
　　導入 java.util.ArrayList；
　　導入 java.util.HashMap；
　　導入java.util.List；
　　導入 java.util.Map；
　　/**
　　* 插件工廠(chǎng)
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　公共類(lèi) PluginFactory {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(PluginFactory.class);
　　private static final PluginFactory factory = new PluginFactory();
　　私有列表> classList = new ArrayList>();
　　private Map pluginMapping = new HashMap();
　　私人插件工廠(chǎng)（）{
　　掃描包（“插件”）；
　　如果 (classList.size() > 0) {
　　初始化插件映射（）；
　　}
　　}
　　公共靜態(tài) PluginFactory getInstance() {
　　返廠(chǎng)；
　　}
　　/**
　　* 掃描包、分包
　　*
　　* @param 包名
　　*/
　　私人無(wú)效掃描包（字符串包名）{
　　嘗試 {
　　字符串路徑 = getSrcPath() + 文件。分隔符 + changePackageNameToPath(packageName);
　　文件目錄=新文件（路徑）；
　　文件 [] 文件 = 目錄。列表文件（）；
　　如果（文件==空）{
　　logger.warn("包名不存在！");
　　返回;
　　}
　　對于（文件文件：文件）{
　　如果（文件。isDirectory（））{
　　scanPackage(packageName + "."+ file.getName());
　　} 別的 {
　　Class clazz = Class.forName(packageName + "."+ file.getName().split("\\.")[0]);
　　classList.add(clazz);
　　}
　　}
　　} 趕上（異常 e）{
　　logger.error("掃描包異常：", e);
　　}
　　}
　　/**
　　* 獲取根路徑
　　*
　　* @返回
　　*/
　　私有字符串 getSrcPath() {
　　返回系統。getProperty("用戶(hù)目錄") +
　　文件分隔符+"src"+
　　文件分隔符+"main"+
　　文件分隔符 + "java";
　　}
　　/**
　　* 將包名轉換為路徑格式
　　*
　　* @param 包名
　　* @返回
　　*/
　　私有字符串 changePackageNameToPath(String packageName) {
　　返回 packageName.replaceAll("\\.", File.separator);
　　}
　　/**
　　* 初始化插件容器
　　*/
　　私有無(wú)效 initPluginMapping() {
　　對于（類(lèi)克拉茲：類(lèi)列表）{
　　注釋 annotation = clazz. getAnnotation（插件。類(lèi)）；
　　如果（注釋?zhuān)? null）{
　　pluginMapping.put(((插件)注解).value(), clazz.getName());
　　}
　　}
　　}
　　/**
　　* 通過(guò)反射實(shí)例化插件對象
　　* @param 任務(wù)
　　* @返回
　　*/
　　public AbstractPlugin getPlugin（任務(wù)任務(wù)）{
　　if (task == null || task.getUrl() == null) {
　　logger.warn("非法任務(wù)！");
　　返回空值；
　　}
　　如果 (pluginMapping.size() == 0) {
　　logger.warn("當前包中沒(méi)有插件！");
　　返回空值；
　　}
　　對象對象=空；
　　字符串插件名稱(chēng) = CommonUtil。getHost(task.getUrl());
　　字符串 pluginClass = pluginMapping。得到（插件名稱(chēng)）；
　　如果（pluginClass == null）{
　　logger.warn("沒(méi)有名為"+ pluginName +"的插件");
　　返回空值；
　　}
　　嘗試 {
　　("找到解析插件："+ pluginClass);
　　階級克拉茲=階級。名稱(chēng)（插件類(lèi)）；
　　構造函數構造函數= clazz。getConstructor（任務(wù)。類(lèi)）；
　　對象 = 構造函數。新實(shí)例（任務(wù)）；
　　} 趕上（異常 e）{
　　logger.error("反射異常：", e);
　　}
　　返回（抽象插件）對象；
　　}
　　}
　　PluginFactory 有兩個(gè)主要功能：
　　掃描插件包下@Plugin注解的插件類(lèi)；
　　根據 url 反射指定插件類(lèi)。
　　(5)、分析插件
　　正如我們上面所說(shuō)，分析插件其實(shí)對應于每一個(gè)網(wǎng)站分析類(lèi)。
　　在實(shí)際的爬蟲(chóng)分析中，總會(huì )有很多類(lèi)似甚至相同的分析任務(wù)，比如鏈接提取。因此，在分析插件中，我們首先要實(shí)現一個(gè)父接口來(lái)提供這些公共方法。
　　在這個(gè)程序中，插件父接口就是上面提到的AbstractPlugin類(lèi)：
　　包插件；
　　進(jìn)口實(shí)體。任務(wù);
　　進(jìn)口過(guò)濾器。和過(guò)濾器；
　　進(jìn)口過(guò)濾器。文件擴展過(guò)濾器；
　　進(jìn)口過(guò)濾器。鏈接提取器；
　　進(jìn)口過(guò)濾器。鏈接過(guò)濾器；
　　導入 mons.lang3.StringUtils；
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入服務(wù).DownloadService；
　　導入 util.CommonUtil；
　　導入 java.util.ArrayList；
　　導入java.util.List；
　　/**
　　* 插件抽象類(lèi)
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　公共抽象類(lèi) AbstractPlugin 擴展線(xiàn)程 {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(AbstractPlugin.class);
　　受保護的任務(wù)任務(wù)；
　　protected DownloadService downloadService = new DownloadService();
　　私有列表 urlList = new ArrayList();
　　公共抽象插件（任務(wù)任務(wù)）{
　　this.task = 任務(wù)；
　　}
　　@覆蓋
　　公共無(wú)效運行（）{
　　("{} 開(kāi)始運行...", task.getUrl());
　　字符串主體 = 下載服務(wù)。getResponseBody（任務(wù)）；
　　如果 (StringUtils.isNotEmpty(body)) {
　　如果 (isDetailPage(task.getUrl())) {
　　
　　("開(kāi)始解析詳情頁(yè)...");
　　解析內容（正文）；
　　} 別的 {
　　("開(kāi)始解析列表頁(yè)...");
　　提取頁(yè)面鏈接（正文）；
　　}
　　}
　　}
　　public void extractPageLinks(String body) {
　　LinkFilter hostFilter = new LinkFilter() {
　　字符串 urlHost = CommonUtil。getUrlPrefix(task.getUrl());
　　公共布爾接受（字符串鏈接）{
　　返回鏈接。收錄（urlHost）；
　　}
　　};
　　String[] fileExtensions = (".xls,.xml,.txt,.pdf,.jpg,.mp3,.mp4,.doc,.mpg,.mpeg,.jpeg,.gif,.png,.js,.郵編,"+
　　".rar,.exe,.swf,.rm,.ra,.asf,.css,.bmp,.pdf,.z,.gz,.tar,.cpio,.class").split("," );
　　LinkFilter fileExtensionFilter = new FileExtensionFilter(fileExtensions);
　　AndFilter filter = new AndFilter(new LinkFilter[]{hostFilter, fileExtensionFilter});
　　urlList = 鏈接提取器。extractLinks(task.getUrl(), body, filter);
　　}
　　公共列表 getUrlList() {
　　返回網(wǎng)址列表；
　　}
　　public abstract void parseContent(String body);
　　public abstract boolean isDetailPage(String url);
　　}
　　父接口定義了兩條規則：
　　解析規則，即何時(shí)解析文本，何時(shí)提取列表鏈接；
　　提取鏈接規則，即過(guò)濾掉哪些不需要的鏈接。
　　但是我們注意到父接口中用來(lái)解析網(wǎng)站 body內容的parseContent(String body)是一個(gè)抽象方法。而這正是實(shí)際的插件類(lèi)應該做的。這里，我們以 XmuPlugin 為例：
　　包插件；
　　進(jìn)口實(shí)體。任務(wù);
　　導入 org.jsoup.nodes.Document；
　　導入 org.jsoup.nodes.Element；
　　導入 org.jsoup.select.Elements；
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入 util.CommonUtil；
　　導入 util.FileUtils；
　　導入 java.text.SimpleDateFormat；
　　導入java.util.Date；
　　/**
　　* xmu插件
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　@Plugin(值="")
　　公共類(lèi) XmuPlugin 擴展 AbstractPlugin {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(XmuPlugin.class);
　　公共 XmuPlugin（任務(wù)任務(wù)）{
　　超級（任務(wù)）；
　　}
　　@覆蓋
　　public void parseContent(String body) {
　　文檔 doc = CommonUtil. 獲取文檔（正文）；
　　嘗試 {
　　String title = doc.select("p.h1").first().text();
　　String publishTimeStr = doc.select("p.right-content").first().text();
　　publishTimeStr = CommonUtil.match(publishTimeStr,"(\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2} )")[1];
　　日期發(fā)布時(shí)間 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(publishTimeStr);
　　字符串內容=””;
　　元素元素 = 文檔。選擇（“p.MsoNormal”）;
　　對于（元素元素：元素）{
　　內容 +="\n"+ 元素。文本（）;
　　}
　　("標題:"+標題);
　　("發(fā)布時(shí)間:"+ 發(fā)布時(shí)間);
　?。ā皟热荩骸?內容）；
　　FileUtils.writeFile(title + ".txt", 內容);
　　} 趕上（異常 e）{
　　logger.error("解析內容異常："+ task.getUrl(), e);
　　}
　　}
　　@覆蓋
　　public boolean isDetailPage(String url) {
　　返回 CommonUtil.isMatch(url,"&a=show&catid=\\d+&id=\\d+");
　　}
　　}
　　在 XmuPlugin 中，我們做了兩件事：
　　定義詳情頁(yè)的具體規則；
　　解析出具體的文本內容。
　　(6)、采集例子
　　至此，我們就成功完成了Java簡(jiǎn)單爬蟲(chóng)程序。接下來(lái)，讓我們看看采集的實(shí)際情況。
　　5.分享幾個(gè)好用的網(wǎng)絡(luò )爬蟲(chóng)工具和教程
　　很多人看了文章，會(huì )說(shuō)寫(xiě)的文章太深奧，需要編程才能實(shí)現數據爬取。有什么簡(jiǎn)單的方法或工具可以實(shí)現嗎？解決后給大家分享幾個(gè)好用的網(wǎng)絡(luò )爬蟲(chóng)工具，使用起來(lái)非常簡(jiǎn)單，也可以達到相應的效果。
　　1. 優(yōu)采云云爬蟲(chóng)
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云Cloud是一個(gè)大數據應用開(kāi)發(fā)平臺，為開(kāi)發(fā)者提供一整套數據采集、數據分析和機器學(xué)習開(kāi)發(fā)工具，為企業(yè)提供專(zhuān)業(yè)的數據抓取和實(shí)時(shí)監控。數據監控和數據分析服務(wù)。
　　優(yōu)勢：功能強大，涉及云爬蟲(chóng)、API、機器學(xué)習、數據清洗、數據售賣(mài)、數據定制和私有化部署等；
　　純云端操作，跨系統操作無(wú)壓力，隱私保護，可隱藏用戶(hù)IP。
　　提供云爬蟲(chóng)市場(chǎng)，零基礎用戶(hù)可直接調用開(kāi)發(fā)的爬蟲(chóng)，開(kāi)發(fā)者基于官方云開(kāi)發(fā)環(huán)境開(kāi)發(fā)上傳自己的爬蟲(chóng)程序；
　　領(lǐng)先的防爬技術(shù)，如直接獲取代理IP、自動(dòng)識別登錄驗證碼等，全程自動(dòng)化，無(wú)需人工參與；
　　豐富的發(fā)布接口，采集結果以豐富的表格形式展示；
　　缺點(diǎn)：它的優(yōu)點(diǎn)在一定程度上也成為了它的缺點(diǎn)，因為它是一個(gè)面向開(kāi)發(fā)者的爬蟲(chóng)開(kāi)發(fā)系統，提供了豐富的開(kāi)發(fā)功能。網(wǎng)站看起來(lái)很技術(shù)很專(zhuān)業(yè)，雖然官網(wǎng)也提供了云爬蟲(chóng)市場(chǎng)等現成的爬蟲(chóng)產(chǎn)品，面向廣大爬蟲(chóng)開(kāi)發(fā)者開(kāi)放，豐富爬蟲(chóng)市場(chǎng)的內容，零技術(shù)基礎的用戶(hù)不太容易看懂，所以有一定的使用門(mén)檻。
　　是否免費：免費用戶(hù)沒(méi)有采集功能和出口限制，不需要積分。
　　有開(kāi)發(fā)能力的用戶(hù)可以自行開(kāi)發(fā)爬蟲(chóng)實(shí)現免費效果，沒(méi)有開(kāi)發(fā)能力的用戶(hù)需要到爬蟲(chóng)市場(chǎng)尋找免費的爬蟲(chóng)。
　　2. 優(yōu)采云采集器
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云采集器是一個(gè)可視化的采集器，內置采集模板，支持各種網(wǎng)頁(yè)數據采集。
　　優(yōu)點(diǎn)：支持自定義模式，可視采集操作，簡(jiǎn)單易用；
　　支持簡(jiǎn)單采集模式，提供官方采集模板，支持云端采集操作；
　　支持代理IP切換、驗證碼服務(wù)等反屏蔽措施；
　　支持多種數據格式導出。
　　缺點(diǎn)：功能使用門(mén)檻比較高，很多功能在本地采集有限制，云端采集收費較高；
　　采集速度比較慢，很多操作都要卡。云采集說(shuō)快了10倍但是不明顯；
　　僅支持 Windows 版本，不支持其他操作系統。
　　是否免費：號稱(chēng)免費，但實(shí)際上導出數據需要積分，可以做任務(wù)積累積分，但一般情況下基本需要購買(mǎi)積分。
　　3. 優(yōu)采云采集器
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云采集器是前谷歌搜索技術(shù)團隊基于人工智能技術(shù)開(kāi)發(fā)的新一代網(wǎng)頁(yè)采集軟件。該軟件功能強大，操作極其簡(jiǎn)單。
　　優(yōu)點(diǎn)：支持智能采集模式，輸入URL即可智能識別采集對象，無(wú)需配置采集規則，操作非常簡(jiǎn)單；
　　支持流程圖模式，可視化操作流程，可以通過(guò)簡(jiǎn)單的操作生成各種復雜的采集規則；
　　支持反屏蔽措施，如代理IP切換等；
　　支持多種數據格式導出；
　　支持定時(shí)采集和自動(dòng)發(fā)布，豐富的發(fā)布接口；
　　支持 Windows、Mac 和 Linux 版本。
　　缺點(diǎn)：軟件發(fā)布時(shí)間不長(cháng)，部分功能還在完善中，暫時(shí)不支持云端采集功能
　　是否免費：完全免費，采集數據和手動(dòng)導出采集結果沒(méi)有限制，不需要積分
　　4.使用“優(yōu)采云采集器”來(lái)爬取數據實(shí)例
　　使用優(yōu)采云采集瀑布網(wǎng)站圖片（百度圖片采集
　　例如）方法。
　　采集網(wǎng)站：
　　%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90
　　第 1 步：創(chuàng )建一個(gè) 采集任務(wù)
　　1）進(jìn)入主界面，選擇自定義模式
　　2）將上述網(wǎng)址的網(wǎng)址復制粘貼到網(wǎng)站輸入框中，點(diǎn)擊“保存網(wǎng)址”
　　3) 系統自動(dòng)打開(kāi)網(wǎng)頁(yè)。我們發(fā)現百度圖片網(wǎng)是一個(gè)瀑布網(wǎng)頁(yè)，每次下拉加載都會(huì )出現新的數據。當圖片足夠多的時(shí)候，可以加載無(wú)數次。所以本網(wǎng)頁(yè)涉及到AJAX技術(shù)，需要設置AJAX超時(shí)時(shí)間，保證采集時(shí)不會(huì )遺漏數據。
　　選擇“打開(kāi)網(wǎng)頁(yè)”步驟，打開(kāi)“高級選項”，勾選“頁(yè)面加載后向下滾動(dòng)”，設置滾動(dòng)次數為“5次”（根據自己需要設置），時(shí)間為“2秒”，以及“向下滾動(dòng)一屏”的滾動(dòng)方法；最后點(diǎn)擊“確定”
　　注：例如網(wǎng)站，沒(méi)有翻頁(yè)按鈕，滾動(dòng)次數和滾動(dòng)方式會(huì )影響數據量采集，可根據需要設置
　　第 2 步：采集圖片網(wǎng)址
　　1) 選擇頁(yè)面第一張圖片，系統會(huì )自動(dòng)識別相似圖片。在操作提示框中，選擇“全選”
　　2）選擇“采集以下圖片地址”
　　第 3 步：修改 XPath
　　1) 選擇“循環(huán)”步驟并打開(kāi)“高級選項”?？梢钥吹絻?yōu)采云系統自動(dòng)使用“不固定元素列表”循環(huán)，Xpath為： //DIV[@id='imgid']/DIV[1]/UL[1]/LI
　　2）復制這個(gè)Xpath：//DIV[@id='imgid']/DIV[1]/UL[1]/LI到火狐瀏覽器中觀(guān)察——只能定位到網(wǎng)頁(yè)中的22張圖片
　　3）我們需要一個(gè)能夠在網(wǎng)頁(yè)中定位所有需要的圖片的XPath。觀(guān)察網(wǎng)頁(yè)源碼，修改Xpath為：//DIV[@id='imgid']/DIV/UL[1]/LI，網(wǎng)頁(yè)中所有需要的圖片都位于
　　4）將修改后的Xpath：//DIV[@id='imgid']/DIV/UL[1]/LI復制粘貼到優(yōu)采云中相應位置，完成后點(diǎn)擊“確定”
　　5) 點(diǎn)擊“保存”，然后點(diǎn)擊“啟動(dòng)采集”，這里選擇“啟動(dòng)本地采集”
　　第 4 步：數據采集和導出
　　1）采集完成后，會(huì )彈出提示，選擇導出數據
　　2）選擇合適的導出方式導出采集好的數據
　　第 5 步：將圖像 URL 批量轉換為圖像
　　經(jīng)過(guò)上面的操作，我們就得到了我們要采集的圖片的url。接下來(lái)，使用優(yōu)采云專(zhuān)用圖片批量下載工具，將采集圖片URL中的圖片下載并保存到本地電腦。
　　圖片批量下載工具：
　　1）下載優(yōu)采云圖片批量下載工具，雙擊文件中的MyDownloader.app.exe文件打開(kāi)軟件
　　2）打開(kāi)文件菜單，選擇從EXCEL導入（目前只支持EXCEL格式文件）
　　3）進(jìn)行相關(guān)設置，設置完成后點(diǎn)擊確定導入文件
　　選擇EXCEL文件：導入你需要的EXCEL文件下載圖片地址
　　EXCEL表名：對應數據表的名稱(chēng)
　　文件URL列名：表中URL對應的列名
　　保存文件夾名稱(chēng)：EXCEL中需要單獨一欄列出圖片要保存到文件夾的路徑，可以設置不同的圖片保存在不同的文件夾中
　　如果要將文件保存到文件夾中，路徑需要以“\”結尾，例如：“D:\Sync\”，如果下載后要按照指定的文件名保存文件，則需要收錄特定文件名，例如“D :\Sync\1.jpg”
　　如果下載的文件路徑和文件名完全相同，則刪除現有文件查看全部

　　分享文章:呆錯文章管理系統一鍵API采集與綁定分類(lèi)的圖文教程－呆錯后臺管理框架
　　采集功能介紹（文章管理系統的核心采集功能包括以下三個(gè)模塊）
　　API采集設置
　　

　　了解文章管理系統的采集功能后，我們使用API??客戶(hù)端連接采集API服務(wù)器。我們只需要在后臺填寫(xiě)網(wǎng)址和密碼即可。點(diǎn)擊它（背景 > 文章 > 采集管理）添加采集。
　　API采集轉換分類(lèi)
　　

　　當資源站的分類(lèi)不是我們想要的分類(lèi)名稱(chēng)或者分類(lèi)已經(jīng)在我們自己的文章系統中構建時(shí)，這時(shí)候就需要使用“綁定分類(lèi)”的功能，設置會(huì )彈出點(diǎn)擊按鈕框后up，只需要將需要轉換或重命名的列類(lèi)別一一重命名即可，如下圖。
　　免費云采集教程:步驟3：修改Xpath
　　前幾天寫(xiě)的關(guān)于“大數據”的文章得到了很多朋友的認可?！八鼜哪睦飦?lái)的？
　　我們可以簡(jiǎn)單列舉：
　　1、企業(yè)產(chǎn)生的用戶(hù)數據
　　比如BAT這樣的公司，擁有龐大的用戶(hù)群，用戶(hù)的任何行為都會(huì )成為他們數據源的一部分
　　2、數據平臺購買(mǎi)數據
　　比如從全國數據中心數據市場(chǎng)購買(mǎi)等。
　　3. 政府機構公開(kāi)數據
　　比如統計局和銀行的公開(kāi)數據。
　　4.數據管理公司
　　比如艾瑞咨詢(xún)等。
　　5.爬蟲(chóng)獲取網(wǎng)絡(luò )數據
　　利用網(wǎng)絡(luò )爬蟲(chóng)技術(shù)爬取網(wǎng)絡(luò )數據以供使用。
　　所以其實(shí)對于中小企業(yè)或者個(gè)人來(lái)說(shuō)，想要獲取“大數據或者海量數據”，最劃算的方法就是利用“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)”來(lái)獲取有效數據，所以“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)”這幾年也很流行！
　　今天我就來(lái)給大家講解一下“網(wǎng)絡(luò )爬蟲(chóng)技術(shù)的原理與實(shí)現”！
　　1、什么是網(wǎng)絡(luò )爬蟲(chóng)？
　　網(wǎng)絡(luò )爬蟲(chóng)（也稱(chēng)為網(wǎng)絡(luò )蜘蛛、網(wǎng)絡(luò )機器人，在 FOAF 社區中更常被稱(chēng)為網(wǎng)絡(luò )追趕者）是一種按照一定規則自動(dòng)抓取萬(wàn)維網(wǎng)上信息的程序或腳本。簡(jiǎn)單地說(shuō)，它是一個(gè)請求網(wǎng)站并提取數據的自動(dòng)化程序。
　　最著(zhù)名的網(wǎng)絡(luò )爬蟲(chóng)應用程序是谷歌和百度的應用程序。
　　這兩大搜索引擎每天都會(huì )從互聯(lián)網(wǎng)上抓取大量的數據，然后對數據進(jìn)行分析處理，最后通過(guò)搜索展現給我們?？梢哉f(shuō)網(wǎng)絡(luò )爬蟲(chóng)是搜索引擎的基礎！
　　2. 網(wǎng)絡(luò )爬蟲(chóng)的工作流程和原理
　　網(wǎng)絡(luò )爬蟲(chóng)是搜索引擎爬蟲(chóng)系統的重要組成部分。爬蟲(chóng)的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁(yè)下載到本地，形成鏡像備份或網(wǎng)絡(luò )內容。
　　(1) 網(wǎng)絡(luò )爬蟲(chóng)的基本結構和工作流程
　　一般網(wǎng)絡(luò )爬蟲(chóng)的框架如圖所示：
　　網(wǎng)絡(luò )爬蟲(chóng)的基本工作流程如下：
　　1.首先選擇一部分精挑細選的種子網(wǎng)址；
　　2、將這些網(wǎng)址放入待抓取的網(wǎng)址隊列中；
　　3、從待抓網(wǎng)址隊列中取出待抓網(wǎng)址，解析DNS，獲取主機ip，下載該網(wǎng)址對應的網(wǎng)頁(yè)，存入下載的網(wǎng)頁(yè)庫中。另外，將這些網(wǎng)址放入已抓取的網(wǎng)址隊列中。
　　4、分析已經(jīng)抓取的URL隊列中的URL，分析其中的其他URL，將URL放入待抓取的URL隊列中，進(jìn)入下一個(gè)循環(huán)。
　　(2) 從爬蟲(chóng)的角度劃分互聯(lián)網(wǎng)
　　相應地，互聯(lián)網(wǎng)上的所有頁(yè)面都可以分為五個(gè)部分：
　　1.下載過(guò)期的網(wǎng)頁(yè)
　　2、下載過(guò)期的網(wǎng)頁(yè)：抓取的網(wǎng)頁(yè)實(shí)際上是互聯(lián)網(wǎng)內容的鏡像和備份?；ヂ?lián)網(wǎng)是動(dòng)態(tài)變化的，互聯(lián)網(wǎng)上的部分內容發(fā)生了變化。這時(shí)，這部分抓取的網(wǎng)頁(yè)已經(jīng)過(guò)期了。
　　3.待下載網(wǎng)頁(yè)：待抓取的URL隊列中的那些頁(yè)面
　　4、可知網(wǎng)頁(yè)：尚未被抓取的URL，不在待抓取的URL隊列中，但可以通過(guò)分析已抓取的頁(yè)面或待抓取的URL對應的頁(yè)面得到，是被認為是已知網(wǎng)頁(yè)。
　　5、還有一些網(wǎng)頁(yè)是爬蟲(chóng)無(wú)法直接爬取下載的。稱(chēng)為不可知頁(yè)面。
　　(3) 爬取策略
　　在爬蟲(chóng)系統中，待爬取的URL隊列是一個(gè)非常重要的部分。URL隊列中待抓取的URL的排列順序也是一個(gè)很重要的問(wèn)題，因為這涉及到先抓取哪個(gè)頁(yè)面，后抓取哪個(gè)頁(yè)面。確定這些 URL 順序的方法稱(chēng)為抓取策略。下面重點(diǎn)介紹幾種常見(jiàn)的爬取策略：
　　1.深度優(yōu)先遍歷策略
　　深度優(yōu)先遍歷策略意味著(zhù)網(wǎng)絡(luò )爬蟲(chóng)將從起始頁(yè)開(kāi)始，逐個(gè)鏈接。處理完這一行后，它將轉到下一個(gè)起始頁(yè)并繼續跟蹤鏈接。我們以下圖為例：
　　遍歷路徑：AFG EHI BCD
　　2.廣度優(yōu)先遍歷策略
　　廣度優(yōu)先遍歷策略的基本思想是將新下載的網(wǎng)頁(yè)中找到的鏈接直接插入待抓取的URL隊列的尾部。也就是說(shuō)，網(wǎng)絡(luò )爬蟲(chóng)會(huì )先爬取初始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)，然后選擇其中一個(gè)鏈接的網(wǎng)頁(yè)，繼續爬取該網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。還是以上圖為例：
　　遍歷路徑：ABCDEF GHI
　　3.反向鏈接計數策略
　　反向鏈接的數量是指一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)的鏈接指向的次數。反向鏈接數表示網(wǎng)頁(yè)內容被其他人推薦的程度。因此，在很多情況下，搜索引擎的抓取系統會(huì )使用這個(gè)指標來(lái)評估網(wǎng)頁(yè)的重要性，從而決定抓取不同網(wǎng)頁(yè)的順序。
　　在真實(shí)的網(wǎng)絡(luò )環(huán)境中，由于廣告鏈接和作弊鏈接的存在，反向鏈接的數量不可能完全等于其他鏈接的重要性。因此，搜索引擎傾向于考慮一些可靠數量的反向鏈接。
　　4.部分PageRank策略
　　Partial PageRank算法借鑒了PageRank算法的思想：對于下載的網(wǎng)頁(yè)，連同要抓取的URL隊列中的URL，組成一個(gè)網(wǎng)頁(yè)集合，計算每個(gè)頁(yè)面的PageRank值。計算完成后，將要抓取的URL隊列中的URL進(jìn)行計算，URL按照PageRank值的高低排序，依次抓取頁(yè)面。
　　如果每次抓取一個(gè)頁(yè)面都重新計算PageRank值，折衷的做法是：每抓取K頁(yè)后，重新計算PageRank值。但是這種情況還有一個(gè)問(wèn)題：對于下載頁(yè)面中分析出來(lái)的鏈接，也就是我們前面提到的那部分未知網(wǎng)頁(yè)，暫時(shí)沒(méi)有PageRank值。為了解決這個(gè)問(wèn)題，會(huì )給這些頁(yè)面一個(gè)臨時(shí)的PageRank值：從這個(gè)網(wǎng)頁(yè)的所有傳入鏈接傳入的PageRank值會(huì )被聚合，從而形成未知頁(yè)面的PageRank值，從而參與排行。以下示例說(shuō)明：
　　5. OPIC戰略策略
　　該算法實(shí)際上是頁(yè)面的重要性分數。在算法開(kāi)始之前，給所有頁(yè)面相同的初始現金（cash）。某個(gè)頁(yè)面P被下載后，將P的現金分配給從P分析出來(lái)的所有鏈接，P的現金清空。待抓取的 URL 隊列中的所有頁(yè)面都按照現金數量排序。
　　6、大站點(diǎn)優(yōu)先策略
　　對于所有待抓取的URL隊列中的網(wǎng)頁(yè)，根據它們的網(wǎng)站進(jìn)行分類(lèi)。對于網(wǎng)站有大量需要下載的頁(yè)面，會(huì )優(yōu)先下載。因此該策略也稱(chēng)為大站優(yōu)先策略。
　　(4)更新策略
　　互聯(lián)網(wǎng)是實(shí)時(shí)變化的，而且是高度動(dòng)態(tài)的。網(wǎng)頁(yè)更新策略主要是決定什么時(shí)候更新之前下載過(guò)的頁(yè)面。常見(jiàn)的更新策略有以下三種：
　　1.歷史參考策略
　　顧名思義，就是根據過(guò)去頁(yè)面的歷史更新數據，預測未來(lái)頁(yè)面什么時(shí)候會(huì )發(fā)生變化。通常，預測是通過(guò)對泊松過(guò)程建模來(lái)進(jìn)行的。
　　2. 用戶(hù)體驗策略雖然搜索引擎可以針對某個(gè)查詢(xún)條件返回數量龐大的結果，但用戶(hù)往往只關(guān)注結果的前幾頁(yè)。因此，爬蟲(chóng)系統可以?xún)?yōu)先更新那些出現在查詢(xún)結果前幾頁(yè)的頁(yè)面，然后再更新后面的那些頁(yè)面。此更新策略還需要使用歷史信息。用戶(hù)體驗策略保留了網(wǎng)頁(yè)的多個(gè)歷史版本，根據過(guò)去每次內容變化對搜索質(zhì)量的影響，得到一個(gè)平均值，以此值作為決定何時(shí)重新抓取的依據。3.整群抽樣策略
　　上述兩種更新策略都有一個(gè)前提：都需要網(wǎng)頁(yè)的歷史信息。這種方式存在兩個(gè)問(wèn)題：第一，如果系統為每個(gè)系統保存多個(gè)版本的歷史信息，無(wú)疑會(huì )增加很多系統負擔；第二，如果新網(wǎng)頁(yè)根本沒(méi)有歷史信息，則無(wú)法確定更新策略。
　　該策略認為網(wǎng)頁(yè)有很多屬性，具有相似屬性的網(wǎng)頁(yè)可以認為具有相似的更新頻率。計算某類(lèi)網(wǎng)頁(yè)的更新頻率，只需要對該類(lèi)網(wǎng)頁(yè)進(jìn)行采樣，將其更新周期作為整個(gè)類(lèi)的更新周期即可?；舅悸啡缦拢?br /> 　　(5) 分布式爬蟲(chóng)系統結構一般來(lái)說(shuō)，爬蟲(chóng)系統需要面對整個(gè)互聯(lián)網(wǎng)上億級的網(wǎng)頁(yè)。單個(gè)爬蟲(chóng)無(wú)法完成這樣的任務(wù)。通常需要多個(gè)抓取器一起處理。一般來(lái)說(shuō)，爬蟲(chóng)系統往往是分布式的三層結構。如圖所示：
　　底層是分布在不同地理位置的數據中心。每個(gè)數據中心都有若干個(gè)爬蟲(chóng)服務(wù)器，每個(gè)爬蟲(chóng)服務(wù)器上可能會(huì )部署幾套爬蟲(chóng)程序。這樣就構成了一個(gè)基本的分布式爬蟲(chóng)系統。
　　對于一個(gè)數據中心的不同服務(wù)器，有幾種協(xié)同工作的方式：
　　1.主從
　　主從基本結構如圖所示：
　　對于主從模式，有一個(gè)專(zhuān)門(mén)的Master服務(wù)器來(lái)維護要抓取的URL隊列，負責將每次抓取的URL分發(fā)給不同的Slave服務(wù)器，Slave服務(wù)器負責實(shí)際的網(wǎng)頁(yè)下載工作. Master服務(wù)器除了維護要抓取的URL隊列和分發(fā)URL外，還負責調解各個(gè)Slave服務(wù)器的負載。為了防止一些Slave服務(wù)器太閑或者太累。
　　在這種模式下，Master容易成為系統的瓶頸。
　　2.點(diǎn)對點(diǎn)
　　點(diǎn)對點(diǎn)方程的基本結構如圖所示：
　　在這種模式下，所有的爬蟲(chóng)服務(wù)器都沒(méi)有分工差異。每個(gè)爬取服務(wù)器可以從需要爬取的URL隊列中獲取URL，然后計算該URL主域名的哈希值H，然后計算H mod m（其中m為服務(wù)器數量，上圖為例如，m 為 3)，計算出的數量就是處理該 URL 的主機的數量。
　　示例：假設對于URL，計算器哈希值H=8，m=3，則H mod m=2，所以編號為2的服務(wù)器爬取該鏈接。假設此時(shí)server 0拿到了url，就會(huì )把url傳給server 2，由server 2抓取。
　　這種模型的一個(gè)問(wèn)題是，當一臺服務(wù)器掛掉或添加一臺新服務(wù)器時(shí)，所有 URL 的哈希余數的結果都會(huì )發(fā)生變化。也就是說(shuō)，這種方法的可擴展性不好。針對這種情況，提出了另一種改進(jìn)方案。這種改進(jìn)方案是通過(guò)一致性哈希來(lái)確定服務(wù)器分工。
　　其基本結構如圖所示：
　　Consistent Hashing對URL的主域名進(jìn)行哈希運算，映射為0-232之間的數字。這個(gè)范圍平均分配給m臺服務(wù)器，根據url主域名哈希運算的取值范圍來(lái)判斷爬取哪個(gè)服務(wù)器。
　　如果某臺服務(wù)器出現問(wèn)題，本該由該服務(wù)器負責的網(wǎng)頁(yè)就會(huì )被順時(shí)針順時(shí)針抓取到下一臺服務(wù)器。這樣即使某臺服務(wù)器出現問(wèn)題，也不會(huì )影響其他工作。
　　3. 常見(jiàn)網(wǎng)絡(luò )爬蟲(chóng)的種類(lèi)
　　1. 通用網(wǎng)絡(luò )爬蟲(chóng)
　　爬取目標資源在整個(gè)互聯(lián)網(wǎng)中，爬取的目標數據是巨大的。爬取性能要求非常高。應用于大型搜索引擎，具有很高的應用價(jià)值。
　　一般網(wǎng)絡(luò )爬蟲(chóng)的基本組成：初始URL采集、URL隊列、頁(yè)面爬取模塊、頁(yè)面分析模塊、頁(yè)面數據庫、鏈接過(guò)濾模塊等。
　　一般網(wǎng)絡(luò )爬蟲(chóng)的爬取策略：主要有深度優(yōu)先爬取策略和廣度優(yōu)先爬取策略。
　　2. 專(zhuān)注爬蟲(chóng)
　　在與主題相關(guān)的頁(yè)面中定位抓取目標
　　主要用于特定信息的爬取，主要為特定人群提供服務(wù)
　　重點(diǎn)介紹網(wǎng)絡(luò )爬蟲(chóng)的基本組成：初始URL、URL隊列、頁(yè)面爬取模塊、頁(yè)面分析模塊、頁(yè)面數據庫、連接過(guò)濾模塊、內容評估模塊、鏈接評估模塊等。
　　專(zhuān)注于網(wǎng)絡(luò )爬蟲(chóng)的爬取策略：
　　1）基于內容評價(jià)的爬蟲(chóng)策略
　　2）基于鏈接評價(jià)的爬蟲(chóng)策略
　　3）基于強化學(xué)習的爬蟲(chóng)策略
　　4）基于上下文圖的爬蟲(chóng)策略
　　3.增量網(wǎng)絡(luò )爬蟲(chóng)
　　增量更新是指更新時(shí)只更新變化的部分，不更新未變化的部分。只抓取內容發(fā)生變化的網(wǎng)頁(yè)或新生成的網(wǎng)頁(yè)，可以在一定程度上保證抓取到的網(wǎng)頁(yè)。, 如果可能的話(huà)，一個(gè)新的頁(yè)面
　　4.深網(wǎng)爬蟲(chóng)
　　Surface網(wǎng)頁(yè)：無(wú)需提交表單，使用靜態(tài)鏈接即可到達的靜態(tài)網(wǎng)頁(yè)
　　Deep Web：隱藏在表單后面，無(wú)法通過(guò)靜態(tài)鏈接直接獲取。是提交某個(gè)關(guān)鍵詞后才能獲得的網(wǎng)頁(yè)。
　　深網(wǎng)爬蟲(chóng)最重要的部分是填表部分
　　深網(wǎng)爬蟲(chóng)的基本組成：URL列表、LVS列表（LVS是指標簽/值集合，即填寫(xiě)表單的數據源）爬取控制器、解析器、LVS控制器、表單分析器、表單處理器、響應分析裝置等
　　深網(wǎng)爬蟲(chóng)填表分為兩種：
　　基于領(lǐng)域知識的表單填寫(xiě)（構建一個(gè)關(guān)鍵詞庫來(lái)填寫(xiě)表單，需要的時(shí)候根據語(yǔ)義分析選擇對應的關(guān)鍵詞進(jìn)行填寫(xiě)）
　　基于網(wǎng)頁(yè)結構分析的表單填寫(xiě)（一般在字段有限的情況下使用，該方法會(huì )根據網(wǎng)頁(yè)結構進(jìn)行分析，自動(dòng)填寫(xiě)表單）
　　四、教你實(shí)現一個(gè)簡(jiǎn)單的網(wǎng)絡(luò )爬蟲(chóng)
　　(1)、爬蟲(chóng)流程
　　在構建程序之前，我們首先需要了解一下爬蟲(chóng)的具體過(guò)程。
　　一個(gè)簡(jiǎn)單的爬蟲(chóng)程序有以下過(guò)程：
　　用文字表達，就是：
　　1、從任務(wù)庫（可以是MySQL等關(guān)系型數據庫）中選擇種子URL；
　　2.在程序中初始化一個(gè)URL隊列，將種子URL加入到隊列中；
　　3、如果URL隊列不為空，則將隊列頭部的URL出隊；如果 URL 隊列為空，程序將退出；
　　4、程序根據出隊的URL反映對應的解析類(lèi)，同時(shí)創(chuàng )建一個(gè)新的線(xiàn)程開(kāi)始解析任務(wù)；
　　5、程序會(huì )下載該URL指向的網(wǎng)頁(yè)，判斷該頁(yè)面是詳情頁(yè)還是列表頁(yè)（如博客中的博客詳情、博文列表）。如果是詳情頁(yè)，它會(huì )解析出頁(yè)面內容存入數據庫。如果是列表頁(yè)，則提取頁(yè)面鏈接加入URL隊列；
　　6.解析任務(wù)完成后，重復步驟3。
　?。ǘ┏绦蚪Y構
　　我們已經(jīng)知道了爬蟲(chóng)的具體流程，現在我們需要一個(gè)合理的程序結構來(lái)實(shí)現它。
　　首先介紹一下這個(gè)簡(jiǎn)單的爬蟲(chóng)程序的主要結構組件：
　　然后，看看程序中的工具類(lèi)和實(shí)體類(lèi)。
　　最后，根據類(lèi)的作用，我們將其放置在上面流程圖中的相應位置。具體示意圖如下：
　　我們現在已經(jīng)完成了實(shí)際流程到程序邏輯的翻譯。接下來(lái)，我們將通過(guò)源碼的介紹，深入到程序的細節。
　　(3)、任務(wù)調度、初始化隊列
　　在簡(jiǎn)單的爬蟲(chóng)程序中，任務(wù)調度和初始化隊列都是在SpiderApplication類(lèi)中完成的。
　　(4)、插件工廠(chǎng)
　　在URL循環(huán)調度中，有一個(gè)語(yǔ)句需要我們注意：
　　AbstractPlugin plugin = PluginFactory.getInstance().getPlugin(task);
　　其中，AbstractPlugin是繼承自Thread的抽象插件類(lèi)。
　　這個(gè)語(yǔ)句的意思是插件工廠(chǎng)根據url實(shí)例化繼承自AbstractPlugin的指定插件。
　　插件工廠(chǎng)也可以理解為解析類(lèi)工廠(chǎng)。
　　在這個(gè)程序中，插件工廠(chǎng)的實(shí)現主要依賴(lài)三個(gè)方面：
　　1.插件
　　包插件；
　　導入 java.lang.annotation.*;
　　/**
　　* 插件說(shuō)明
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　@Target({ElementType.TYPE})
　　@Retention(RetentionPolicy.RUNTIME)
　　@Documented
　　公共@interface插件{
　　String value() 默認"";
　　}
　　Plugin其實(shí)是一個(gè)注解接口，在Plugin的支持下，我們可以通過(guò)注解@Plugin讓程序識別插件類(lèi)。這就好比在SpringMVC中，我們通過(guò)@[emailprotected]等來(lái)標識每一個(gè)Bean。
　　2.Xmu插件
　　@Plugin(值="")
　　公共類(lèi) XmuPlugin 擴展 AbstractPlugin {
　　}
　　XmuPlugin是眾多插件（解析類(lèi)）中的一種，作用由注解@Plugin標注，其具體標識（即對應于哪個(gè)url）由注解中的值標注。
　　3.插件工廠(chǎng)
　　包裝廠(chǎng)；
　　進(jìn)口實(shí)體。任務(wù);
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入插件.AbstractPlugin；
　　導入插件。插件；
　　導入 util.CommonUtil；
　　導入java.io.文件；
　　

　　導入 java.lang.annotation.Annotation；
　　導入 java.lang.reflect.Constructor；
　　導入 java.util.ArrayList；
　　導入 java.util.HashMap；
　　導入java.util.List；
　　導入 java.util.Map；
　　/**
　　* 插件工廠(chǎng)
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　公共類(lèi) PluginFactory {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(PluginFactory.class);
　　private static final PluginFactory factory = new PluginFactory();
　　私有列表> classList = new ArrayList>();
　　private Map pluginMapping = new HashMap();
　　私人插件工廠(chǎng)（）{
　　掃描包（“插件”）；
　　如果 (classList.size() > 0) {
　　初始化插件映射（）；
　　}
　　}
　　公共靜態(tài) PluginFactory getInstance() {
　　返廠(chǎng)；
　　}
　　/**
　　* 掃描包、分包
　　*
　　* @param 包名
　　*/
　　私人無(wú)效掃描包（字符串包名）{
　　嘗試 {
　　字符串路徑 = getSrcPath() + 文件。分隔符 + changePackageNameToPath(packageName);
　　文件目錄=新文件（路徑）；
　　文件 [] 文件 = 目錄。列表文件（）；
　　如果（文件==空）{
　　logger.warn("包名不存在！");
　　返回;
　　}
　　對于（文件文件：文件）{
　　如果（文件。isDirectory（））{
　　scanPackage(packageName + "."+ file.getName());
　　} 別的 {
　　Class clazz = Class.forName(packageName + "."+ file.getName().split("\\.")[0]);
　　classList.add(clazz);
　　}
　　}
　　} 趕上（異常 e）{
　　logger.error("掃描包異常：", e);
　　}
　　}
　　/**
　　* 獲取根路徑
　　*
　　* @返回
　　*/
　　私有字符串 getSrcPath() {
　　返回系統。getProperty("用戶(hù)目錄") +
　　文件分隔符+"src"+
　　文件分隔符+"main"+
　　文件分隔符 + "java";
　　}
　　/**
　　* 將包名轉換為路徑格式
　　*
　　* @param 包名
　　* @返回
　　*/
　　私有字符串 changePackageNameToPath(String packageName) {
　　返回 packageName.replaceAll("\\.", File.separator);
　　}
　　/**
　　* 初始化插件容器
　　*/
　　私有無(wú)效 initPluginMapping() {
　　對于（類(lèi)克拉茲：類(lèi)列表）{
　　注釋 annotation = clazz. getAnnotation（插件。類(lèi)）；
　　如果（注釋?zhuān)? null）{
　　pluginMapping.put(((插件)注解).value(), clazz.getName());
　　}
　　}
　　}
　　/**
　　* 通過(guò)反射實(shí)例化插件對象
　　* @param 任務(wù)
　　* @返回
　　*/
　　public AbstractPlugin getPlugin（任務(wù)任務(wù)）{
　　if (task == null || task.getUrl() == null) {
　　logger.warn("非法任務(wù)！");
　　返回空值；
　　}
　　如果 (pluginMapping.size() == 0) {
　　logger.warn("當前包中沒(méi)有插件！");
　　返回空值；
　　}
　　對象對象=空；
　　字符串插件名稱(chēng) = CommonUtil。getHost(task.getUrl());
　　字符串 pluginClass = pluginMapping。得到（插件名稱(chēng)）；
　　如果（pluginClass == null）{
　　logger.warn("沒(méi)有名為"+ pluginName +"的插件");
　　返回空值；
　　}
　　嘗試 {
　　("找到解析插件："+ pluginClass);
　　階級克拉茲=階級。名稱(chēng)（插件類(lèi)）；
　　構造函數構造函數= clazz。getConstructor（任務(wù)。類(lèi)）；
　　對象 = 構造函數。新實(shí)例（任務(wù)）；
　　} 趕上（異常 e）{
　　logger.error("反射異常：", e);
　　}
　　返回（抽象插件）對象；
　　}
　　}
　　PluginFactory 有兩個(gè)主要功能：
　　掃描插件包下@Plugin注解的插件類(lèi)；
　　根據 url 反射指定插件類(lèi)。
　　(5)、分析插件
　　正如我們上面所說(shuō)，分析插件其實(shí)對應于每一個(gè)網(wǎng)站分析類(lèi)。
　　在實(shí)際的爬蟲(chóng)分析中，總會(huì )有很多類(lèi)似甚至相同的分析任務(wù)，比如鏈接提取。因此，在分析插件中，我們首先要實(shí)現一個(gè)父接口來(lái)提供這些公共方法。
　　在這個(gè)程序中，插件父接口就是上面提到的AbstractPlugin類(lèi)：
　　包插件；
　　進(jìn)口實(shí)體。任務(wù);
　　進(jìn)口過(guò)濾器。和過(guò)濾器；
　　進(jìn)口過(guò)濾器。文件擴展過(guò)濾器；
　　進(jìn)口過(guò)濾器。鏈接提取器；
　　進(jìn)口過(guò)濾器。鏈接過(guò)濾器；
　　導入 mons.lang3.StringUtils；
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入服務(wù).DownloadService；
　　導入 util.CommonUtil；
　　導入 java.util.ArrayList；
　　導入java.util.List；
　　/**
　　* 插件抽象類(lèi)
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　公共抽象類(lèi) AbstractPlugin 擴展線(xiàn)程 {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(AbstractPlugin.class);
　　受保護的任務(wù)任務(wù)；
　　protected DownloadService downloadService = new DownloadService();
　　私有列表 urlList = new ArrayList();
　　公共抽象插件（任務(wù)任務(wù)）{
　　this.task = 任務(wù)；
　　}
　　@覆蓋
　　公共無(wú)效運行（）{
　　("{} 開(kāi)始運行...", task.getUrl());
　　字符串主體 = 下載服務(wù)。getResponseBody（任務(wù)）；
　　如果 (StringUtils.isNotEmpty(body)) {
　　如果 (isDetailPage(task.getUrl())) {
　　

　　("開(kāi)始解析詳情頁(yè)...");
　　解析內容（正文）；
　　} 別的 {
　　("開(kāi)始解析列表頁(yè)...");
　　提取頁(yè)面鏈接（正文）；
　　}
　　}
　　}
　　public void extractPageLinks(String body) {
　　LinkFilter hostFilter = new LinkFilter() {
　　字符串 urlHost = CommonUtil。getUrlPrefix(task.getUrl());
　　公共布爾接受（字符串鏈接）{
　　返回鏈接。收錄（urlHost）；
　　}
　　};
　　String[] fileExtensions = (".xls,.xml,.txt,.pdf,.jpg,.mp3,.mp4,.doc,.mpg,.mpeg,.jpeg,.gif,.png,.js,.郵編,"+
　　".rar,.exe,.swf,.rm,.ra,.asf,.css,.bmp,.pdf,.z,.gz,.tar,.cpio,.class").split("," );
　　LinkFilter fileExtensionFilter = new FileExtensionFilter(fileExtensions);
　　AndFilter filter = new AndFilter(new LinkFilter[]{hostFilter, fileExtensionFilter});
　　urlList = 鏈接提取器。extractLinks(task.getUrl(), body, filter);
　　}
　　公共列表 getUrlList() {
　　返回網(wǎng)址列表；
　　}
　　public abstract void parseContent(String body);
　　public abstract boolean isDetailPage(String url);
　　}
　　父接口定義了兩條規則：
　　解析規則，即何時(shí)解析文本，何時(shí)提取列表鏈接；
　　提取鏈接規則，即過(guò)濾掉哪些不需要的鏈接。
　　但是我們注意到父接口中用來(lái)解析網(wǎng)站 body內容的parseContent(String body)是一個(gè)抽象方法。而這正是實(shí)際的插件類(lèi)應該做的。這里，我們以 XmuPlugin 為例：
　　包插件；
　　進(jìn)口實(shí)體。任務(wù);
　　導入 org.jsoup.nodes.Document；
　　導入 org.jsoup.nodes.Element；
　　導入 org.jsoup.select.Elements；
　　導入 org.slf4j.Logger；
　　導入 org.slf4j.LoggerFactory；
　　導入 util.CommonUtil；
　　導入 util.FileUtils；
　　導入 java.text.SimpleDateFormat；
　　導入java.util.Date；
　　/**
　　* xmu插件
　　*
　　* @作者熊貓
　　* @日期 2017/12/01
　　*/
　　@Plugin(值="")
　　公共類(lèi) XmuPlugin 擴展 AbstractPlugin {
　　私有靜態(tài)最終記錄器記錄器 = LoggerFactory。getLogger(XmuPlugin.class);
　　公共 XmuPlugin（任務(wù)任務(wù)）{
　　超級（任務(wù)）；
　　}
　　@覆蓋
　　public void parseContent(String body) {
　　文檔 doc = CommonUtil. 獲取文檔（正文）；
　　嘗試 {
　　String title = doc.select("p.h1").first().text();
　　String publishTimeStr = doc.select("p.right-content").first().text();
　　publishTimeStr = CommonUtil.match(publishTimeStr,"(\\d{4}-\\d{2}-\\d{2} \\d{2}:\\d{2}:\\d{2} )")[1];
　　日期發(fā)布時(shí)間 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").parse(publishTimeStr);
　　字符串內容=””;
　　元素元素 = 文檔。選擇（“p.MsoNormal”）;
　　對于（元素元素：元素）{
　　內容 +="\n"+ 元素。文本（）;
　　}
　　("標題:"+標題);
　　("發(fā)布時(shí)間:"+ 發(fā)布時(shí)間);
　?。ā皟热荩骸?內容）；
　　FileUtils.writeFile(title + ".txt", 內容);
　　} 趕上（異常 e）{
　　logger.error("解析內容異常："+ task.getUrl(), e);
　　}
　　}
　　@覆蓋
　　public boolean isDetailPage(String url) {
　　返回 CommonUtil.isMatch(url,"&a=show&catid=\\d+&id=\\d+");
　　}
　　}
　　在 XmuPlugin 中，我們做了兩件事：
　　定義詳情頁(yè)的具體規則；
　　解析出具體的文本內容。
　　(6)、采集例子
　　至此，我們就成功完成了Java簡(jiǎn)單爬蟲(chóng)程序。接下來(lái)，讓我們看看采集的實(shí)際情況。
　　5.分享幾個(gè)好用的網(wǎng)絡(luò )爬蟲(chóng)工具和教程
　　很多人看了文章，會(huì )說(shuō)寫(xiě)的文章太深奧，需要編程才能實(shí)現數據爬取。有什么簡(jiǎn)單的方法或工具可以實(shí)現嗎？解決后給大家分享幾個(gè)好用的網(wǎng)絡(luò )爬蟲(chóng)工具，使用起來(lái)非常簡(jiǎn)單，也可以達到相應的效果。
　　1. 優(yōu)采云云爬蟲(chóng)
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云Cloud是一個(gè)大數據應用開(kāi)發(fā)平臺，為開(kāi)發(fā)者提供一整套數據采集、數據分析和機器學(xué)習開(kāi)發(fā)工具，為企業(yè)提供專(zhuān)業(yè)的數據抓取和實(shí)時(shí)監控。數據監控和數據分析服務(wù)。
　　優(yōu)勢：功能強大，涉及云爬蟲(chóng)、API、機器學(xué)習、數據清洗、數據售賣(mài)、數據定制和私有化部署等；
　　純云端操作，跨系統操作無(wú)壓力，隱私保護，可隱藏用戶(hù)IP。
　　提供云爬蟲(chóng)市場(chǎng)，零基礎用戶(hù)可直接調用開(kāi)發(fā)的爬蟲(chóng)，開(kāi)發(fā)者基于官方云開(kāi)發(fā)環(huán)境開(kāi)發(fā)上傳自己的爬蟲(chóng)程序；
　　領(lǐng)先的防爬技術(shù)，如直接獲取代理IP、自動(dòng)識別登錄驗證碼等，全程自動(dòng)化，無(wú)需人工參與；
　　豐富的發(fā)布接口，采集結果以豐富的表格形式展示；
　　缺點(diǎn)：它的優(yōu)點(diǎn)在一定程度上也成為了它的缺點(diǎn)，因為它是一個(gè)面向開(kāi)發(fā)者的爬蟲(chóng)開(kāi)發(fā)系統，提供了豐富的開(kāi)發(fā)功能。網(wǎng)站看起來(lái)很技術(shù)很專(zhuān)業(yè)，雖然官網(wǎng)也提供了云爬蟲(chóng)市場(chǎng)等現成的爬蟲(chóng)產(chǎn)品，面向廣大爬蟲(chóng)開(kāi)發(fā)者開(kāi)放，豐富爬蟲(chóng)市場(chǎng)的內容，零技術(shù)基礎的用戶(hù)不太容易看懂，所以有一定的使用門(mén)檻。
　　是否免費：免費用戶(hù)沒(méi)有采集功能和出口限制，不需要積分。
　　有開(kāi)發(fā)能力的用戶(hù)可以自行開(kāi)發(fā)爬蟲(chóng)實(shí)現免費效果，沒(méi)有開(kāi)發(fā)能力的用戶(hù)需要到爬蟲(chóng)市場(chǎng)尋找免費的爬蟲(chóng)。
　　2. 優(yōu)采云采集器
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云采集器是一個(gè)可視化的采集器，內置采集模板，支持各種網(wǎng)頁(yè)數據采集。
　　優(yōu)點(diǎn)：支持自定義模式，可視采集操作，簡(jiǎn)單易用；
　　支持簡(jiǎn)單采集模式，提供官方采集模板，支持云端采集操作；
　　支持代理IP切換、驗證碼服務(wù)等反屏蔽措施；
　　支持多種數據格式導出。
　　缺點(diǎn)：功能使用門(mén)檻比較高，很多功能在本地采集有限制，云端采集收費較高；
　　采集速度比較慢，很多操作都要卡。云采集說(shuō)快了10倍但是不明顯；
　　僅支持 Windows 版本，不支持其他操作系統。
　　是否免費：號稱(chēng)免費，但實(shí)際上導出數據需要積分，可以做任務(wù)積累積分，但一般情況下基本需要購買(mǎi)積分。
　　3. 優(yōu)采云采集器
　　官方網(wǎng)站：
　　簡(jiǎn)介：優(yōu)采云采集器是前谷歌搜索技術(shù)團隊基于人工智能技術(shù)開(kāi)發(fā)的新一代網(wǎng)頁(yè)采集軟件。該軟件功能強大，操作極其簡(jiǎn)單。
　　優(yōu)點(diǎn)：支持智能采集模式，輸入URL即可智能識別采集對象，無(wú)需配置采集規則，操作非常簡(jiǎn)單；
　　支持流程圖模式，可視化操作流程，可以通過(guò)簡(jiǎn)單的操作生成各種復雜的采集規則；
　　支持反屏蔽措施，如代理IP切換等；
　　支持多種數據格式導出；
　　支持定時(shí)采集和自動(dòng)發(fā)布，豐富的發(fā)布接口；
　　支持 Windows、Mac 和 Linux 版本。
　　缺點(diǎn)：軟件發(fā)布時(shí)間不長(cháng)，部分功能還在完善中，暫時(shí)不支持云端采集功能
　　是否免費：完全免費，采集數據和手動(dòng)導出采集結果沒(méi)有限制，不需要積分
　　4.使用“優(yōu)采云采集器”來(lái)爬取數據實(shí)例
　　使用優(yōu)采云采集瀑布網(wǎng)站圖片（百度圖片采集
　　例如）方法。
　　采集網(wǎng)站：
　　%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90
　　第 1 步：創(chuàng )建一個(gè) 采集任務(wù)
　　1）進(jìn)入主界面，選擇自定義模式
　　2）將上述網(wǎng)址的網(wǎng)址復制粘貼到網(wǎng)站輸入框中，點(diǎn)擊“保存網(wǎng)址”
　　3) 系統自動(dòng)打開(kāi)網(wǎng)頁(yè)。我們發(fā)現百度圖片網(wǎng)是一個(gè)瀑布網(wǎng)頁(yè)，每次下拉加載都會(huì )出現新的數據。當圖片足夠多的時(shí)候，可以加載無(wú)數次。所以本網(wǎng)頁(yè)涉及到AJAX技術(shù)，需要設置AJAX超時(shí)時(shí)間，保證采集時(shí)不會(huì )遺漏數據。
　　選擇“打開(kāi)網(wǎng)頁(yè)”步驟，打開(kāi)“高級選項”，勾選“頁(yè)面加載后向下滾動(dòng)”，設置滾動(dòng)次數為“5次”（根據自己需要設置），時(shí)間為“2秒”，以及“向下滾動(dòng)一屏”的滾動(dòng)方法；最后點(diǎn)擊“確定”
　　注：例如網(wǎng)站，沒(méi)有翻頁(yè)按鈕，滾動(dòng)次數和滾動(dòng)方式會(huì )影響數據量采集，可根據需要設置
　　第 2 步：采集圖片網(wǎng)址
　　1) 選擇頁(yè)面第一張圖片，系統會(huì )自動(dòng)識別相似圖片。在操作提示框中，選擇“全選”
　　2）選擇“采集以下圖片地址”
　　第 3 步：修改 XPath
　　1) 選擇“循環(huán)”步驟并打開(kāi)“高級選項”?？梢钥吹絻?yōu)采云系統自動(dòng)使用“不固定元素列表”循環(huán)，Xpath為： //DIV[@id='imgid']/DIV[1]/UL[1]/LI
　　2）復制這個(gè)Xpath：//DIV[@id='imgid']/DIV[1]/UL[1]/LI到火狐瀏覽器中觀(guān)察——只能定位到網(wǎng)頁(yè)中的22張圖片
　　3）我們需要一個(gè)能夠在網(wǎng)頁(yè)中定位所有需要的圖片的XPath。觀(guān)察網(wǎng)頁(yè)源碼，修改Xpath為：//DIV[@id='imgid']/DIV/UL[1]/LI，網(wǎng)頁(yè)中所有需要的圖片都位于
　　4）將修改后的Xpath：//DIV[@id='imgid']/DIV/UL[1]/LI復制粘貼到優(yōu)采云中相應位置，完成后點(diǎn)擊“確定”
　　5) 點(diǎn)擊“保存”，然后點(diǎn)擊“啟動(dòng)采集”，這里選擇“啟動(dòng)本地采集”
　　第 4 步：數據采集和導出
　　1）采集完成后，會(huì )彈出提示，選擇導出數據
　　2）選擇合適的導出方式導出采集好的數據
　　第 5 步：將圖像 URL 批量轉換為圖像
　　經(jīng)過(guò)上面的操作，我們就得到了我們要采集的圖片的url。接下來(lái)，使用優(yōu)采云專(zhuān)用圖片批量下載工具，將采集圖片URL中的圖片下載并保存到本地電腦。
　　圖片批量下載工具：
　　1）下載優(yōu)采云圖片批量下載工具，雙擊文件中的MyDownloader.app.exe文件打開(kāi)軟件
　　2）打開(kāi)文件菜單，選擇從EXCEL導入（目前只支持EXCEL格式文件）
　　3）進(jìn)行相關(guān)設置，設置完成后點(diǎn)擊確定導入文件
　　選擇EXCEL文件：導入你需要的EXCEL文件下載圖片地址
　　EXCEL表名：對應數據表的名稱(chēng)
　　文件URL列名：表中URL對應的列名
　　保存文件夾名稱(chēng)：EXCEL中需要單獨一欄列出圖片要保存到文件夾的路徑，可以設置不同的圖片保存在不同的文件夾中
　　如果要將文件保存到文件夾中，路徑需要以“\”結尾，例如：“D:\Sync\”，如果下載后要按照指定的文件名保存文件，則需要收錄特定文件名，例如“D :\Sync\1.jpg”
　　如果下載的文件路徑和文件名完全相同，則刪除現有文件

匯總:【C#】C#實(shí)現對網(wǎng)站數據的采集和抓取

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 121 次瀏覽 ? 2022-12-08 00:25 ? 來(lái)自相關(guān)話(huà)題

　　匯總:【C#】C#實(shí)現對網(wǎng)站數據的采集和抓取
　　
　　本文介紹C#實(shí)例實(shí)現對網(wǎng)頁(yè)的抓取和分析。分享給大家，供大家參考。具體分析如下：下面是抓取和分析網(wǎng)頁(yè)的類(lèi)。其主要功能有： 1、提取網(wǎng)頁(yè)純文本，去除所有html標簽和javascript代碼 2、提取網(wǎng)頁(yè)鏈接，包括href、frame和iframe3，提取網(wǎng)頁(yè)標題等（其他標簽可以同理推導，正則相同） 4. 可以實(shí)現簡(jiǎn)單的表單提交和cookie保存 /** 作者：華中師范大學(xué)Sunjoy* 如果你改進(jìn)了這個(gè)類(lèi)，請給我一個(gè)代碼（ccnusjy在）* /使用系統；使用系統數據；使用系統。
　　
　　推薦文章:網(wǎng)頁(yè)文本采集,文章采集自動(dòng)發(fā)布
　　關(guān)于這一點(diǎn)，可以說(shuō)是大部分網(wǎng)站的通病。一些網(wǎng)站主頁(yè)雜亂無(wú)章，尤其是網(wǎng)站導航。沒(méi)有用戶(hù)可以感興趣的點(diǎn)擊的地方。都是關(guān)于我們的，公司榮譽(yù)，企業(yè)信息”等等，作為用戶(hù)，你會(huì )看這些內容嗎？
　　根據搜索結果不難看出，大部分企業(yè)網(wǎng)站根本無(wú)法閱讀。用戶(hù)點(diǎn)擊后，首頁(yè)沒(méi)有用戶(hù)想要繼續點(diǎn)擊的內容，直接導致用戶(hù)關(guān)閉頁(yè)面，導致停留時(shí)間過(guò)短。
　　還有一些網(wǎng)站，進(jìn)入首頁(yè)后彈出“歡迎訪(fǎng)問(wèn)什么，在線(xiàn)咨詢(xún)”之類(lèi)的窗口，關(guān)閉后過(guò)一會(huì )又彈出。用戶(hù)很懶惰，沒(méi)有耐心。他希望他點(diǎn)擊的頁(yè)面能直接看到他需要的東西；他不需要這種先關(guān)閉一堆廣告再找內容的頁(yè)面。哪個(gè)網(wǎng)站最終用戶(hù)找到了自己需要的東西，蜘蛛也能判斷出來(lái)，那么蜘蛛就會(huì )認為這個(gè)站點(diǎn)更符合用戶(hù)的體驗需求，從而提升排名。
　　3.基本優(yōu)化操作
　　這一點(diǎn)涉及的內容比較專(zhuān)業(yè)。所謂專(zhuān)業(yè)，只能說(shuō)是用專(zhuān)業(yè)的操作方法，讓用戶(hù)獲得更好的體驗，那么需要注意什么呢？
　　1. 網(wǎng)站內頁(yè)相關(guān)信息排版
　　說(shuō)到相關(guān)性，通俗地說(shuō)，當用戶(hù)訪(fǎng)問(wèn)一個(gè)內容頁(yè)面時(shí)，當該頁(yè)面沒(méi)有他需要的內容時(shí)，你能給他什么樣的建議。具體來(lái)說(shuō)，在同一個(gè)頁(yè)面上，你想向用戶(hù)推薦他可能更需要哪些相關(guān)信息。這就需要我們在文章的底部添加相關(guān)信息列表，方便用戶(hù)體驗，實(shí)現二次甚至三次內鏈轉化。
　　2.文章內容優(yōu)化
　　有了相關(guān)閱讀，用戶(hù)如何在頁(yè)面停留更久？我們一般的做法是拍攝1-3張高度相關(guān)的圖片，分發(fā)給文章；排版不宜過(guò)大或過(guò)??；間距和字符間距不宜太??；標題部分加粗或加紅顯示，讓用戶(hù)一目了然，有興趣從頭讀到尾；這樣自然會(huì )增加用戶(hù)在頁(yè)面的停留時(shí)間，蜘蛛會(huì )給你的網(wǎng)站頁(yè)面加分。
　　
　　3.錯誤頁(yè)面設置——404頁(yè)面
　　如果不小心刪除了文章，或者鏈接失效了，但是沒(méi)有找到，用戶(hù)點(diǎn)擊后頁(yè)面打不開(kāi)，出現錯誤頁(yè)面，也就是我們常說(shuō)的404頁(yè)面. 這個(gè)時(shí)候他是否會(huì )自動(dòng)跳回首頁(yè)或者返回，如果沒(méi)有，結果會(huì )導致用戶(hù)直接關(guān)閉當前窗口，導致停留時(shí)間過(guò)短，增加跳出率，所以這個(gè)頁(yè)面必須設置正確。
　　4.機器人文件設置
　　很多沒(méi)學(xué)過(guò)SEO的朋友可能沒(méi)有聽(tīng)說(shuō)過(guò)這個(gè)，就是網(wǎng)站的根目錄下有沒(méi)有一個(gè)文件，讓蜘蛛知道你的網(wǎng)站哪些信息沒(méi)有需要它爬行，這是需要的。通俗地說(shuō)，就是網(wǎng)站和蜘蛛之間的協(xié)議文件，必須收錄進(jìn)去。
　　5.站點(diǎn)地圖
　　所謂站點(diǎn)地圖，就是用工具抓取網(wǎng)站的鏈接，放到一個(gè)位置，讓蜘蛛通過(guò)你給的鏈接順利爬到整個(gè)站點(diǎn)，推廣收錄更快，從而產(chǎn)生排名。
　　站內SEO優(yōu)化6個(gè)致命錯誤站內SEO優(yōu)化的方法有很多種，有時(shí)候你一直在努力改善網(wǎng)站的文章，卻沒(méi)有注意站內優(yōu)化，網(wǎng)站的流量保持不變。還有一些疏忽大意、錯誤的優(yōu)化方式，或者優(yōu)化思路不同，最終導致優(yōu)化操作時(shí)網(wǎng)站不能收錄或者權限降低的問(wèn)題。
　　1、站內廣告凌亂
　　有些廣告投放得當，不會(huì )對用戶(hù)產(chǎn)生太大的影響。但是很多網(wǎng)站在投放廣告的時(shí)候很多都沒(méi)有把握。經(jīng)?？吹骄W(wǎng)站整個(gè)站頂，側邊欄，浮窗，彈窗，內容頁(yè)都沒(méi)有可以放廣告的地方。掉落，導致用戶(hù)在瀏覽內容時(shí)體驗不佳?？上攵?，這樣的網(wǎng)站有重復訪(fǎng)問(wèn)，極大地損害了用戶(hù)體驗。同時(shí)站長(cháng)廣告聯(lián)盟的實(shí)際收入有多少大家都知道。
　　2.頁(yè)面js效果
　　最常見(jiàn)的情況是，當你點(diǎn)擊網(wǎng)站時(shí)，你會(huì )得到一個(gè)十幾秒甚至更長(cháng)時(shí)間的幻燈片，訪(fǎng)問(wèn)者無(wú)法快進(jìn)，也不看。一些網(wǎng)站還在內容中使用了大量的Flash和廣告特效。我不知道這種方法的效果。我只知道如果不是一些特殊的網(wǎng)站，追求特殊效果的負面效果是延遲頁(yè)面加載時(shí)間和訪(fǎng)問(wèn)者時(shí)間，導致跳出率高。
　　
　　3.欄目?jì)热莼祀s
　　我說(shuō)的就是這個(gè)，包括很多有同樣疑問(wèn)的站長(cháng)。不管是公司網(wǎng)站、論壇還是個(gè)人網(wǎng)站，如果有節目，那么內容更新應該分類(lèi)，讓不同節目的內容各有特色，方便用戶(hù)瀏覽并檢查。而很多時(shí)候更新后內容亂七八糟，這也與建站時(shí)節目劃分設置不當有很大關(guān)系。直接的結果是，當我需要查找某類(lèi)內容時(shí)，我不知道是在哪個(gè)程序下發(fā)布的。
　　4. 文章說(shuō)話(huà)太多，注意力不集中
　　這是一個(gè)關(guān)系到每個(gè)人的寫(xiě)作水平和習慣的問(wèn)題。很多時(shí)候，百字能說(shuō)清楚的東西，百字難以表達，這完全違背了內容清晰、短小精悍的原則。大部分的參觀(guān)者都沒(méi)有那么大的耐心原封不動(dòng)地看完，就算留下來(lái)看一看，那形象也一定很差。結果是 100% 的高跳出率和糟糕的回訪(fǎng)率。網(wǎng)站內容自動(dòng) 采集，自動(dòng)上傳網(wǎng)站已更新
　　5.網(wǎng)站內容布局規劃老套路
　　每個(gè)人都有隨波逐流的習慣，而我在調整網(wǎng)站組織的時(shí)候，別人做什么，包括我自己，我也有循規蹈矩的習慣。在很多情況下，這確實(shí)是可以的，省時(shí)省力。騰訊不就是為了做大才學(xué)會(huì )這個(gè)方法的嗎？但是，如果一味跟風(fēng)而不知道別人為什么這樣做，如果別人能做好，變強，在我們手里可能就不是好事了。不一樣網(wǎng)站要根據自己的專(zhuān)業(yè)特點(diǎn)，設計容易針對人群，對搜索引擎友好的版面，加入更多的想法和用戶(hù)喜歡的方式。
　　6. 網(wǎng)站關(guān)鍵詞設置太多
　　這種情況經(jīng)常發(fā)生，很多網(wǎng)站管理者在設置網(wǎng)站關(guān)鍵詞時(shí)都認為“設置的關(guān)鍵詞越多，排名的機會(huì )就越大”。先不說(shuō)能不能優(yōu)化。合理的網(wǎng)站關(guān)鍵字設置要根據自己的網(wǎng)站規劃和數據狀況來(lái)確定。不是越多越好，而是越準越好。嗯，不然的話(huà)，關(guān)鍵詞數量設置太多，可能無(wú)法監控和推廣，優(yōu)化太分散了。結果，沒(méi)有一個(gè)關(guān)鍵字被推上去。
　　優(yōu)采云采集器云采集可以配置采集任務(wù)，然后關(guān)機，任務(wù)可以在云端執行，大量企業(yè)云，24*7不間斷運行，再也不用擔心IP被封、網(wǎng)絡(luò )中斷、瞬間采集海量數據。
　　優(yōu)采云有一個(gè)特殊的新手模式。由于很多人不懂技術(shù)，小白只需要跟著(zhù)操作就可以獲取主流網(wǎng)頁(yè)列表和詳情采集。用過(guò)的人都知道。查看全部

　　匯總:【C#】C#實(shí)現對網(wǎng)站數據的采集和抓取
　　

　　本文介紹C#實(shí)例實(shí)現對網(wǎng)頁(yè)的抓取和分析。分享給大家，供大家參考。具體分析如下：下面是抓取和分析網(wǎng)頁(yè)的類(lèi)。其主要功能有： 1、提取網(wǎng)頁(yè)純文本，去除所有html標簽和javascript代碼 2、提取網(wǎng)頁(yè)鏈接，包括href、frame和iframe3，提取網(wǎng)頁(yè)標題等（其他標簽可以同理推導，正則相同） 4. 可以實(shí)現簡(jiǎn)單的表單提交和cookie保存 /** 作者：華中師范大學(xué)Sunjoy* 如果你改進(jìn)了這個(gè)類(lèi)，請給我一個(gè)代碼（ccnusjy在）* /使用系統；使用系統數據；使用系統。
　　

　　推薦文章:網(wǎng)頁(yè)文本采集,文章采集自動(dòng)發(fā)布
　　關(guān)于這一點(diǎn)，可以說(shuō)是大部分網(wǎng)站的通病。一些網(wǎng)站主頁(yè)雜亂無(wú)章，尤其是網(wǎng)站導航。沒(méi)有用戶(hù)可以感興趣的點(diǎn)擊的地方。都是關(guān)于我們的，公司榮譽(yù)，企業(yè)信息”等等，作為用戶(hù)，你會(huì )看這些內容嗎？
　　根據搜索結果不難看出，大部分企業(yè)網(wǎng)站根本無(wú)法閱讀。用戶(hù)點(diǎn)擊后，首頁(yè)沒(méi)有用戶(hù)想要繼續點(diǎn)擊的內容，直接導致用戶(hù)關(guān)閉頁(yè)面，導致停留時(shí)間過(guò)短。
　　還有一些網(wǎng)站，進(jìn)入首頁(yè)后彈出“歡迎訪(fǎng)問(wèn)什么，在線(xiàn)咨詢(xún)”之類(lèi)的窗口，關(guān)閉后過(guò)一會(huì )又彈出。用戶(hù)很懶惰，沒(méi)有耐心。他希望他點(diǎn)擊的頁(yè)面能直接看到他需要的東西；他不需要這種先關(guān)閉一堆廣告再找內容的頁(yè)面。哪個(gè)網(wǎng)站最終用戶(hù)找到了自己需要的東西，蜘蛛也能判斷出來(lái)，那么蜘蛛就會(huì )認為這個(gè)站點(diǎn)更符合用戶(hù)的體驗需求，從而提升排名。
　　3.基本優(yōu)化操作
　　這一點(diǎn)涉及的內容比較專(zhuān)業(yè)。所謂專(zhuān)業(yè)，只能說(shuō)是用專(zhuān)業(yè)的操作方法，讓用戶(hù)獲得更好的體驗，那么需要注意什么呢？
　　1. 網(wǎng)站內頁(yè)相關(guān)信息排版
　　說(shuō)到相關(guān)性，通俗地說(shuō)，當用戶(hù)訪(fǎng)問(wèn)一個(gè)內容頁(yè)面時(shí)，當該頁(yè)面沒(méi)有他需要的內容時(shí)，你能給他什么樣的建議。具體來(lái)說(shuō)，在同一個(gè)頁(yè)面上，你想向用戶(hù)推薦他可能更需要哪些相關(guān)信息。這就需要我們在文章的底部添加相關(guān)信息列表，方便用戶(hù)體驗，實(shí)現二次甚至三次內鏈轉化。
　　2.文章內容優(yōu)化
　　有了相關(guān)閱讀，用戶(hù)如何在頁(yè)面停留更久？我們一般的做法是拍攝1-3張高度相關(guān)的圖片，分發(fā)給文章；排版不宜過(guò)大或過(guò)??；間距和字符間距不宜太??；標題部分加粗或加紅顯示，讓用戶(hù)一目了然，有興趣從頭讀到尾；這樣自然會(huì )增加用戶(hù)在頁(yè)面的停留時(shí)間，蜘蛛會(huì )給你的網(wǎng)站頁(yè)面加分。
　　

　　3.錯誤頁(yè)面設置——404頁(yè)面
　　如果不小心刪除了文章，或者鏈接失效了，但是沒(méi)有找到，用戶(hù)點(diǎn)擊后頁(yè)面打不開(kāi)，出現錯誤頁(yè)面，也就是我們常說(shuō)的404頁(yè)面. 這個(gè)時(shí)候他是否會(huì )自動(dòng)跳回首頁(yè)或者返回，如果沒(méi)有，結果會(huì )導致用戶(hù)直接關(guān)閉當前窗口，導致停留時(shí)間過(guò)短，增加跳出率，所以這個(gè)頁(yè)面必須設置正確。
　　4.機器人文件設置
　　很多沒(méi)學(xué)過(guò)SEO的朋友可能沒(méi)有聽(tīng)說(shuō)過(guò)這個(gè)，就是網(wǎng)站的根目錄下有沒(méi)有一個(gè)文件，讓蜘蛛知道你的網(wǎng)站哪些信息沒(méi)有需要它爬行，這是需要的。通俗地說(shuō)，就是網(wǎng)站和蜘蛛之間的協(xié)議文件，必須收錄進(jìn)去。
　　5.站點(diǎn)地圖
　　所謂站點(diǎn)地圖，就是用工具抓取網(wǎng)站的鏈接，放到一個(gè)位置，讓蜘蛛通過(guò)你給的鏈接順利爬到整個(gè)站點(diǎn)，推廣收錄更快，從而產(chǎn)生排名。
　　站內SEO優(yōu)化6個(gè)致命錯誤站內SEO優(yōu)化的方法有很多種，有時(shí)候你一直在努力改善網(wǎng)站的文章，卻沒(méi)有注意站內優(yōu)化，網(wǎng)站的流量保持不變。還有一些疏忽大意、錯誤的優(yōu)化方式，或者優(yōu)化思路不同，最終導致優(yōu)化操作時(shí)網(wǎng)站不能收錄或者權限降低的問(wèn)題。
　　1、站內廣告凌亂
　　有些廣告投放得當，不會(huì )對用戶(hù)產(chǎn)生太大的影響。但是很多網(wǎng)站在投放廣告的時(shí)候很多都沒(méi)有把握。經(jīng)?？吹骄W(wǎng)站整個(gè)站頂，側邊欄，浮窗，彈窗，內容頁(yè)都沒(méi)有可以放廣告的地方。掉落，導致用戶(hù)在瀏覽內容時(shí)體驗不佳?？上攵?，這樣的網(wǎng)站有重復訪(fǎng)問(wèn)，極大地損害了用戶(hù)體驗。同時(shí)站長(cháng)廣告聯(lián)盟的實(shí)際收入有多少大家都知道。
　　2.頁(yè)面js效果
　　最常見(jiàn)的情況是，當你點(diǎn)擊網(wǎng)站時(shí)，你會(huì )得到一個(gè)十幾秒甚至更長(cháng)時(shí)間的幻燈片，訪(fǎng)問(wèn)者無(wú)法快進(jìn)，也不看。一些網(wǎng)站還在內容中使用了大量的Flash和廣告特效。我不知道這種方法的效果。我只知道如果不是一些特殊的網(wǎng)站，追求特殊效果的負面效果是延遲頁(yè)面加載時(shí)間和訪(fǎng)問(wèn)者時(shí)間，導致跳出率高。
　　

　　3.欄目?jì)热莼祀s
　　我說(shuō)的就是這個(gè)，包括很多有同樣疑問(wèn)的站長(cháng)。不管是公司網(wǎng)站、論壇還是個(gè)人網(wǎng)站，如果有節目，那么內容更新應該分類(lèi)，讓不同節目的內容各有特色，方便用戶(hù)瀏覽并檢查。而很多時(shí)候更新后內容亂七八糟，這也與建站時(shí)節目劃分設置不當有很大關(guān)系。直接的結果是，當我需要查找某類(lèi)內容時(shí)，我不知道是在哪個(gè)程序下發(fā)布的。
　　4. 文章說(shuō)話(huà)太多，注意力不集中
　　這是一個(gè)關(guān)系到每個(gè)人的寫(xiě)作水平和習慣的問(wèn)題。很多時(shí)候，百字能說(shuō)清楚的東西，百字難以表達，這完全違背了內容清晰、短小精悍的原則。大部分的參觀(guān)者都沒(méi)有那么大的耐心原封不動(dòng)地看完，就算留下來(lái)看一看，那形象也一定很差。結果是 100% 的高跳出率和糟糕的回訪(fǎng)率。網(wǎng)站內容自動(dòng) 采集，自動(dòng)上傳網(wǎng)站已更新
　　5.網(wǎng)站內容布局規劃老套路
　　每個(gè)人都有隨波逐流的習慣，而我在調整網(wǎng)站組織的時(shí)候，別人做什么，包括我自己，我也有循規蹈矩的習慣。在很多情況下，這確實(shí)是可以的，省時(shí)省力。騰訊不就是為了做大才學(xué)會(huì )這個(gè)方法的嗎？但是，如果一味跟風(fēng)而不知道別人為什么這樣做，如果別人能做好，變強，在我們手里可能就不是好事了。不一樣網(wǎng)站要根據自己的專(zhuān)業(yè)特點(diǎn)，設計容易針對人群，對搜索引擎友好的版面，加入更多的想法和用戶(hù)喜歡的方式。
　　6. 網(wǎng)站關(guān)鍵詞設置太多
　　這種情況經(jīng)常發(fā)生，很多網(wǎng)站管理者在設置網(wǎng)站關(guān)鍵詞時(shí)都認為“設置的關(guān)鍵詞越多，排名的機會(huì )就越大”。先不說(shuō)能不能優(yōu)化。合理的網(wǎng)站關(guān)鍵字設置要根據自己的網(wǎng)站規劃和數據狀況來(lái)確定。不是越多越好，而是越準越好。嗯，不然的話(huà)，關(guān)鍵詞數量設置太多，可能無(wú)法監控和推廣，優(yōu)化太分散了。結果，沒(méi)有一個(gè)關(guān)鍵字被推上去。
　　優(yōu)采云采集器云采集可以配置采集任務(wù)，然后關(guān)機，任務(wù)可以在云端執行，大量企業(yè)云，24*7不間斷運行，再也不用擔心IP被封、網(wǎng)絡(luò )中斷、瞬間采集海量數據。
　　優(yōu)采云有一個(gè)特殊的新手模式。由于很多人不懂技術(shù)，小白只需要跟著(zhù)操作就可以獲取主流網(wǎng)頁(yè)列表和詳情采集。用過(guò)的人都知道。

解決方案:JM2022綜述 | 黃金領(lǐng)域: 為營(yíng)銷(xiāo)研究(新洞察)采集網(wǎng)絡(luò )數據

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 303 次瀏覽 ? 2022-12-07 20:21 ? 來(lái)自相關(guān)話(huà)題

　　解決方案:JM2022綜述 | 黃金領(lǐng)域: 為營(yíng)銷(xiāo)研究(新洞察)采集網(wǎng)絡(luò )數據
　　
　　Boegershausen、Johannes、Hannes Datta、Abhishek Borah 和 Andrew Stephen?！包S金領(lǐng)域：抓取網(wǎng)絡(luò )數據以獲得營(yíng)銷(xiāo)洞察力?！?市場(chǎng)營(yíng)銷(xiāo)雜志 (2022)。
　　本文是JM不可多得的技術(shù)流程回顧文章。它很難閱讀，所以我們可能知道發(fā)生了什么?？纯从袥](méi)有你感興趣的研究（方法）就可以了。本文作者專(zhuān)門(mén)為這篇綜述開(kāi)發(fā)了一個(gè)網(wǎng)站，截圖如下
　　概括
　　市場(chǎng)營(yíng)銷(xiāo)學(xué)者越來(lái)越多地使用網(wǎng)絡(luò )爬蟲(chóng)和 API 接口從互聯(lián)網(wǎng)采集數據。盡管網(wǎng)絡(luò )數據被廣泛使用，但很少有學(xué)者關(guān)注采集過(guò)程中面臨的各種挑戰。研究人員如何確保采集的數據集有效？雖然現有資源強調提取網(wǎng)絡(luò )數據的技術(shù)細節，但作者提出了一個(gè)新的方法框架，重點(diǎn)是提高其有效性。該框架特別強調，解決有效性問(wèn)題需要在數據采集（選擇數據源、設計數據采集和提取數據）的三個(gè)階段共同考慮技術(shù)和法律/倫理問(wèn)題。作者進(jìn)一步審查了 300 篇營(yíng)銷(xiāo) Top5 期刊中使用網(wǎng)絡(luò )數據的論文，并總結了如何使用網(wǎng)絡(luò )數據來(lái)促進(jìn)營(yíng)銷(xiāo)研究。本文最后指出了未來(lái)研究的方向、高價(jià)值的網(wǎng)絡(luò )數據源和新方法。
　　關(guān)鍵詞：
　　-?web?scraping<br />-?application?programming?interface,?API<br />-?crawling<br />-?validity<br />-?user-generated?content<br />-?social?media<br />big?data<br />
　　一、網(wǎng)絡(luò )數據的魅力
　　社會(huì )和商業(yè)生活的加速數字化創(chuàng )造了前所未有的消費者和商業(yè)行為數字痕跡。每分鐘，全球用戶(hù)在 Google 上進(jìn)行 570 萬(wàn)次搜索，進(jìn)行 600 萬(wàn)次商業(yè)交易，并在 Instagram 上分享 65,000 張照片（Statista 2021）。由此產(chǎn)生的網(wǎng)絡(luò )數據——規模大、形式多樣，并且通?？梢栽诨ヂ?lián)網(wǎng)上公開(kāi)訪(fǎng)問(wèn)——對于想要量化消費、深入了解企業(yè)行為以及跟蹤難以或昂貴的社會(huì )活動(dòng)的營(yíng)銷(xiāo)學(xué)者來(lái)說(shuō)非常感興趣。觀(guān)察。這是一個(gè)潛在的金礦。網(wǎng)絡(luò )數據對營(yíng)銷(xiāo)研究的重要性體現在越來(lái)越多的有影響力的出版物中，這些出版物涵蓋消費者文化理論、消費者心理學(xué)、實(shí)證建模和營(yíng)銷(xiāo)策略等。
　　
　　經(jīng)過(guò)對營(yíng)銷(xiāo)領(lǐng)域排名前5的期刊（JM、JMR、JCR、JCP、MS）的313篇論文進(jìn)行整理，繪制出圖1（圖1）后，使用網(wǎng)絡(luò )數據的研究量呈快速上升趨勢。使用在線(xiàn)數據的論文比例將從2010年的4%增加到2020年的15%。作者313篇論文，數據獲取方式統計
　　使用在線(xiàn)數據的論文的平均引用次數為 7.55，遠高于非網(wǎng)絡(luò )數據的 3.90。
　　利用網(wǎng)絡(luò )數據做新的研究，大致有4種實(shí)現路徑
　　研究新現象、新場(chǎng)景繁榮生態(tài)價(jià)值促進(jìn)方法學(xué)進(jìn)步改進(jìn)測量結果（快、準、好、全）
　　2.data采集的方法框架
　　在使用**網(wǎng)絡(luò )爬蟲(chóng)和 API** 自動(dòng)采集網(wǎng)絡(luò )數據時(shí)，研究人員通常會(huì )在**研究有效性、技術(shù)可行性和法律/倫理風(fēng)險**1 之間權衡利弊。研究人員如何解決這些問(wèn)題？權衡通過(guò)增強或削弱統計結論有效性、內部有效性、結構有效性和外部有效性來(lái)塑造研究結果的可信度（Shadish、Cook 和 Campbell 2002）。
　　本文開(kāi)發(fā)了一個(gè)方法框架，為使用網(wǎng)絡(luò )爬蟲(chóng)和 API 自動(dòng)采集網(wǎng)絡(luò )數據提供了指導。圖 2 涵蓋三個(gè)關(guān)鍵階段
　　執行數據采集
　　研究人員通常從一組廣泛的潛在數據源開(kāi)始，然后根據三個(gè)關(guān)鍵考慮因素篩選出其中一些：有效性、技術(shù)可行性和法律/道德風(fēng)險。這三個(gè)考慮因素出現在倒金字塔的角落，底部的有效性強調了它們的重要性。鑒于在采集最終數據集之前難以預測最終數據集的確切特征，研究人員在設計、原型制作和改進(jìn)數據采集時(shí)經(jīng)常重新考慮這些因素。未能解決技術(shù)或法律/倫理問(wèn)題可能意味著(zhù)網(wǎng)絡(luò )數據無(wú)法為研究問(wèn)題提供有意義的信息。
　　
　　2.1 數據源面臨的挑戰（解決方案）探索潛在的網(wǎng)絡(luò )數據源考慮網(wǎng)絡(luò )爬蟲(chóng)的替代方案將數據與場(chǎng)景相結合
　　2.2 設計數據采集方案從頁(yè)面中提取信息，從有效性、合法性、技術(shù)可行性三個(gè)方面進(jìn)行論證。如何進(jìn)行數據采樣？數據采集多久一次（每天、每周、每月）
　　2.3 執行數據采集如何提高爬蟲(chóng)運行效率如何監控數據質(zhì)量組織數據文件（記錄）
　　一些參考資料
　　[1]Allard,?Thomas,?Lea?H.?Dunn,?and?Katherine?White.?"Negative?reviews,?positive?impact:?Consumer?empathetic?responding?to?unfair?word?of?mouth."?Journal?of?Marketing?84,?no.?4?(2020):?86-108.<br />[2]Gao,?Weihe,?Li?Ji,?Yong?Liu,?and?Qi?Sun.?"Branding?cultural?products?in?international?markets:?a?study?of?hollywood?movies?in?China."?Journal?of?Marketing?84,?no.?3?(2020):?86-105.<br />[3]Reich,?Taly,?and?Sam?J.?Maglio.?"Featuring?mistakes:?The?persuasive?impact?of?purchase?mistakes?in?online?reviews."?Journal?of?Marketing?84,?no.?1?(2020):?52-65.<br />[4]Lee,?Jeffrey?K.,?and?Ann?Kronrod.?"The?strength?of?weak-tie?consensus?language."?Journal?of?Marketing?Research?57,?no.?2?(2020):?353-374.<br />[5]Matz,?Sandra?C.,?Cristina?Segalin,?David?Stillwell,?Sandrine?R.?Müller,?and?Maarten?W.?Bos.?"Predicting?the?personal?appeal?of?marketing?images?using?computational?methods."?Journal?of?Consumer?Psychology?29,?no.?3?(2019):?370-390.<br />[6]Dai,?Hengchen,?and?Dennis?J.?Zhang.?"Prosocial?goal?pursuit?in?crowdfunding:?Evidence?from?kickstarter."?Journal?of?Marketing?Research?56,?no.?3?(2019):?498-517.<br />[7]Luffarelli,?Jonathan,?Mudra?Mukesh,?and?Ammara?Mahmood.?"Let?the?logo?do?the?talking:?The?influence?of?logo?descriptiveness?on?brand?equity."?Journal?of?Marketing?Research?56,?no.?5?(2019):?862-878.<br />[8]Bond,?Samuel?D.,?Stephen?X.?He,?and?Wen?Wen.?"Speaking?for?“free”:?Word?of?mouth?in?free-and?paid-product?settings."?Journal?of?Marketing?Research?56,?no.?2?(2019):?276-290.<br />[9]Han,?Kyuhong,?Jihye?Jung,?Vikas?Mittal,?Jinyong?Daniel?Zyung,?and?Hajo?Adam.?"Political?identity?and?financial?risk?taking:?Insights?from?social?dominance?orientation."?Journal?of?Marketing?Research?56,?no.?4?(2019):?581-601.<br />[10]Netzer,?Oded,?Alain?Lemaire,?and?Michal?Herzenstein.?"When?words?sweat:?Identifying?signals?for?loan?default?in?the?text?of?loan?applications."?Journal?of?Marketing?Research?56,?no.?6?(2019):?960-980.<br />[11]Toubia,?Olivier,?Garud?Iyengar,?Renée?Bunnell,?and?Alain?Lemaire.?"Extracting?features?of?entertainment?products:?A?guided?latent?dirichlet?allocation?approach?informed?by?the?psychology?of?media?consumption."?Journal?of?Marketing?Research?56,?no.?1?(2019):?18-36.<br />[12]Van?Laer,?Tom,?Jennifer?Edson?Escalas,?Stephan?Ludwig,?and?Ellis?A.?Van?Den?Hende.?"What?happens?in?Vegas?stays?on?TripAdvisor??A?theory?and?technique?to?understand?narrativity?in?consumer?reviews."?Journal?of?Consumer?Research?46,?no.?2?(2019):?267-285.<br />[13]Zhong,?Ning,?and?David?A.?Schweidel.?"Capturing?changes?in?social?media?content:?A?multiple?latent?changepoint?topic?model."?Marketing?Science?39,?no.?4?(2020):?827-846.<br />[14]Colicev,?Anatoli,?Ashwin?Malshe,?Koen?Pauwels,?and?Peter?O'Connor.?"Improving?consumer?mindset?metrics?and?shareholder?value?through?social?media:?The?different?roles?of?owned?and?earned?media."?Journal?of?Marketing?82,?no.?1?(2018):?37-56.<br />[15]Liu,?Xuan,?Savannah?Wei?Shi,?Thales?Teixeira,?and?Michel?Wedel.?"Video?content?marketing:?The?making?of?clips."?Journal?of?Marketing?82,?no.?4?(2018):?86-101.<br />[16]Liu,?Jia,?and?Olivier?Toubia.?"A?semantic?approach?for?estimating?consumer?content?preferences?from?online?search?queries."?Marketing?Science?37,?no.?6?(2018):?930-952.<br />[17]Nam,?Hyoryung,?Yogesh?V.?Joshi,?and?P.?K.?Kannan.?"Harvesting?brand?information?from?social?tags."?Journal?of?Marketing?81,?no.?4?(2017):?88-108.<br />[18]Packard,?Grant,?and?Jonah?Berger.?"How?language?shapes?word?of?mouth's?impact."?Journal?of?Marketing?Research?54,?no.?4?(2017):?572-588.<br />
　　
　　精選文章<p style="outline: 0px;color: rgb(63, 63, 63);font-size: 15px;letter-spacing: 0px;white-space: normal;font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;line-height: normal;">管理世界 | 使用文本分析詞構建并測量短視主義
　　管理世界 | 使用經(jīng)營(yíng)討論與分析測量企業(yè)數字化指標
　　支持開(kāi)票 | Python實(shí)證指標構建與文本分析
　　推薦 | 社科(經(jīng)管)文本分析快速指南<br style="outline: 0px;" />
　　視頻分享 | 文本分析在經(jīng)管研究中的應用
　　轉載 | 金融學(xué)文本大數據挖掘方法與研究進(jìn)展<br style="outline: 0px;" />
　　FinBERT | 金融文本BERT模型，可情感分析、識別ESG和FLS類(lèi)型</p>
　　<p style="outline: 0px;color: rgb(63, 63, 63);font-size: 15px;letter-spacing: 0px;white-space: normal;font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;line-height: normal;">100min視頻 | Python文本分析與會(huì )計
　　安裝python包出現報錯：Microsoft Visual 14.0 or greater is required. 怎么辦？
　　如何正確讀入文本數據不亂碼(解決文本亂碼問(wèn)題)
　　Faker庫 | 生成實(shí)驗數據</p>
　　解決方案:小程序用戶(hù)行為數據采集器講解
　　小程序用戶(hù)行為數據說(shuō)明采集器
　　
　?。?會(huì )員免費觀(guān)看
　　我有幸福的家庭
　　
　　進(jìn)入大數據時(shí)代后，很多企業(yè)都建立了自己的大數據分析平臺。企業(yè)有能力通過(guò)海量數據分析用戶(hù)行為，構建用戶(hù)畫(huà)像。這些數據很大一部分來(lái)自采集公司自己的應用客戶(hù)端?，F在小程序的興起，給公司帶來(lái)了大量的用戶(hù)，我們也需要采集用戶(hù)行為數據。作者開(kāi)發(fā)的采集器已在網(wǎng)易產(chǎn)品中廣泛使用，希望通過(guò)這次分享對大家有所幫助。
　　本期分享小程序用戶(hù)行為采集器開(kāi)發(fā)的實(shí)踐經(jīng)驗，會(huì )涉及到以下幾點(diǎn)：
　　用戶(hù)行為設計思路采集器；自動(dòng)采集小程序自帶信息；用戶(hù)分享跟進(jìn)追蹤信息采集設計；渠道推廣設計；主要API設計；實(shí)現一套SDK兼容微信小程序、字節跳動(dòng)小程序、支付寶小程序、百度小程序；采集器的編譯和打包；開(kāi)發(fā)文檔生成器Gitbook簡(jiǎn)介。查看全部

　　解決方案:JM2022綜述 | 黃金領(lǐng)域: 為營(yíng)銷(xiāo)研究(新洞察)采集網(wǎng)絡(luò )數據
　　
　　Boegershausen、Johannes、Hannes Datta、Abhishek Borah 和 Andrew Stephen?！包S金領(lǐng)域：抓取網(wǎng)絡(luò )數據以獲得營(yíng)銷(xiāo)洞察力?！?市場(chǎng)營(yíng)銷(xiāo)雜志 (2022)。
　　本文是JM不可多得的技術(shù)流程回顧文章。它很難閱讀，所以我們可能知道發(fā)生了什么?？纯从袥](méi)有你感興趣的研究（方法）就可以了。本文作者專(zhuān)門(mén)為這篇綜述開(kāi)發(fā)了一個(gè)網(wǎng)站，截圖如下
　　概括
　　市場(chǎng)營(yíng)銷(xiāo)學(xué)者越來(lái)越多地使用網(wǎng)絡(luò )爬蟲(chóng)和 API 接口從互聯(lián)網(wǎng)采集數據。盡管網(wǎng)絡(luò )數據被廣泛使用，但很少有學(xué)者關(guān)注采集過(guò)程中面臨的各種挑戰。研究人員如何確保采集的數據集有效？雖然現有資源強調提取網(wǎng)絡(luò )數據的技術(shù)細節，但作者提出了一個(gè)新的方法框架，重點(diǎn)是提高其有效性。該框架特別強調，解決有效性問(wèn)題需要在數據采集（選擇數據源、設計數據采集和提取數據）的三個(gè)階段共同考慮技術(shù)和法律/倫理問(wèn)題。作者進(jìn)一步審查了 300 篇營(yíng)銷(xiāo) Top5 期刊中使用網(wǎng)絡(luò )數據的論文，并總結了如何使用網(wǎng)絡(luò )數據來(lái)促進(jìn)營(yíng)銷(xiāo)研究。本文最后指出了未來(lái)研究的方向、高價(jià)值的網(wǎng)絡(luò )數據源和新方法。
　　關(guān)鍵詞：
　　-?web?scraping<br />-?application?programming?interface,?API<br />-?crawling<br />-?validity<br />-?user-generated?content<br />-?social?media<br />big?data<br />
　　一、網(wǎng)絡(luò )數據的魅力
　　社會(huì )和商業(yè)生活的加速數字化創(chuàng )造了前所未有的消費者和商業(yè)行為數字痕跡。每分鐘，全球用戶(hù)在 Google 上進(jìn)行 570 萬(wàn)次搜索，進(jìn)行 600 萬(wàn)次商業(yè)交易，并在 Instagram 上分享 65,000 張照片（Statista 2021）。由此產(chǎn)生的網(wǎng)絡(luò )數據——規模大、形式多樣，并且通?？梢栽诨ヂ?lián)網(wǎng)上公開(kāi)訪(fǎng)問(wèn)——對于想要量化消費、深入了解企業(yè)行為以及跟蹤難以或昂貴的社會(huì )活動(dòng)的營(yíng)銷(xiāo)學(xué)者來(lái)說(shuō)非常感興趣。觀(guān)察。這是一個(gè)潛在的金礦。網(wǎng)絡(luò )數據對營(yíng)銷(xiāo)研究的重要性體現在越來(lái)越多的有影響力的出版物中，這些出版物涵蓋消費者文化理論、消費者心理學(xué)、實(shí)證建模和營(yíng)銷(xiāo)策略等。
　　

　　經(jīng)過(guò)對營(yíng)銷(xiāo)領(lǐng)域排名前5的期刊（JM、JMR、JCR、JCP、MS）的313篇論文進(jìn)行整理，繪制出圖1（圖1）后，使用網(wǎng)絡(luò )數據的研究量呈快速上升趨勢。使用在線(xiàn)數據的論文比例將從2010年的4%增加到2020年的15%。作者313篇論文，數據獲取方式統計
　　使用在線(xiàn)數據的論文的平均引用次數為 7.55，遠高于非網(wǎng)絡(luò )數據的 3.90。
　　利用網(wǎng)絡(luò )數據做新的研究，大致有4種實(shí)現路徑
　　研究新現象、新場(chǎng)景繁榮生態(tài)價(jià)值促進(jìn)方法學(xué)進(jìn)步改進(jìn)測量結果（快、準、好、全）
　　2.data采集的方法框架
　　在使用**網(wǎng)絡(luò )爬蟲(chóng)和 API** 自動(dòng)采集網(wǎng)絡(luò )數據時(shí)，研究人員通常會(huì )在**研究有效性、技術(shù)可行性和法律/倫理風(fēng)險**1 之間權衡利弊。研究人員如何解決這些問(wèn)題？權衡通過(guò)增強或削弱統計結論有效性、內部有效性、結構有效性和外部有效性來(lái)塑造研究結果的可信度（Shadish、Cook 和 Campbell 2002）。
　　本文開(kāi)發(fā)了一個(gè)方法框架，為使用網(wǎng)絡(luò )爬蟲(chóng)和 API 自動(dòng)采集網(wǎng)絡(luò )數據提供了指導。圖 2 涵蓋三個(gè)關(guān)鍵階段
　　執行數據采集
　　研究人員通常從一組廣泛的潛在數據源開(kāi)始，然后根據三個(gè)關(guān)鍵考慮因素篩選出其中一些：有效性、技術(shù)可行性和法律/道德風(fēng)險。這三個(gè)考慮因素出現在倒金字塔的角落，底部的有效性強調了它們的重要性。鑒于在采集最終數據集之前難以預測最終數據集的確切特征，研究人員在設計、原型制作和改進(jìn)數據采集時(shí)經(jīng)常重新考慮這些因素。未能解決技術(shù)或法律/倫理問(wèn)題可能意味著(zhù)網(wǎng)絡(luò )數據無(wú)法為研究問(wèn)題提供有意義的信息。
　　

　　2.1 數據源面臨的挑戰（解決方案）探索潛在的網(wǎng)絡(luò )數據源考慮網(wǎng)絡(luò )爬蟲(chóng)的替代方案將數據與場(chǎng)景相結合
　　2.2 設計數據采集方案從頁(yè)面中提取信息，從有效性、合法性、技術(shù)可行性三個(gè)方面進(jìn)行論證。如何進(jìn)行數據采樣？數據采集多久一次（每天、每周、每月）
　　2.3 執行數據采集如何提高爬蟲(chóng)運行效率如何監控數據質(zhì)量組織數據文件（記錄）
　　一些參考資料
　　[1]Allard,?Thomas,?Lea?H.?Dunn,?and?Katherine?White.?"Negative?reviews,?positive?impact:?Consumer?empathetic?responding?to?unfair?word?of?mouth."?Journal?of?Marketing?84,?no.?4?(2020):?86-108.<br />[2]Gao,?Weihe,?Li?Ji,?Yong?Liu,?and?Qi?Sun.?"Branding?cultural?products?in?international?markets:?a?study?of?hollywood?movies?in?China."?Journal?of?Marketing?84,?no.?3?(2020):?86-105.<br />[3]Reich,?Taly,?and?Sam?J.?Maglio.?"Featuring?mistakes:?The?persuasive?impact?of?purchase?mistakes?in?online?reviews."?Journal?of?Marketing?84,?no.?1?(2020):?52-65.<br />[4]Lee,?Jeffrey?K.,?and?Ann?Kronrod.?"The?strength?of?weak-tie?consensus?language."?Journal?of?Marketing?Research?57,?no.?2?(2020):?353-374.<br />[5]Matz,?Sandra?C.,?Cristina?Segalin,?David?Stillwell,?Sandrine?R.?Müller,?and?Maarten?W.?Bos.?"Predicting?the?personal?appeal?of?marketing?images?using?computational?methods."?Journal?of?Consumer?Psychology?29,?no.?3?(2019):?370-390.<br />[6]Dai,?Hengchen,?and?Dennis?J.?Zhang.?"Prosocial?goal?pursuit?in?crowdfunding:?Evidence?from?kickstarter."?Journal?of?Marketing?Research?56,?no.?3?(2019):?498-517.<br />[7]Luffarelli,?Jonathan,?Mudra?Mukesh,?and?Ammara?Mahmood.?"Let?the?logo?do?the?talking:?The?influence?of?logo?descriptiveness?on?brand?equity."?Journal?of?Marketing?Research?56,?no.?5?(2019):?862-878.<br />[8]Bond,?Samuel?D.,?Stephen?X.?He,?and?Wen?Wen.?"Speaking?for?“free”:?Word?of?mouth?in?free-and?paid-product?settings."?Journal?of?Marketing?Research?56,?no.?2?(2019):?276-290.<br />[9]Han,?Kyuhong,?Jihye?Jung,?Vikas?Mittal,?Jinyong?Daniel?Zyung,?and?Hajo?Adam.?"Political?identity?and?financial?risk?taking:?Insights?from?social?dominance?orientation."?Journal?of?Marketing?Research?56,?no.?4?(2019):?581-601.<br />[10]Netzer,?Oded,?Alain?Lemaire,?and?Michal?Herzenstein.?"When?words?sweat:?Identifying?signals?for?loan?default?in?the?text?of?loan?applications."?Journal?of?Marketing?Research?56,?no.?6?(2019):?960-980.<br />[11]Toubia,?Olivier,?Garud?Iyengar,?Renée?Bunnell,?and?Alain?Lemaire.?"Extracting?features?of?entertainment?products:?A?guided?latent?dirichlet?allocation?approach?informed?by?the?psychology?of?media?consumption."?Journal?of?Marketing?Research?56,?no.?1?(2019):?18-36.<br />[12]Van?Laer,?Tom,?Jennifer?Edson?Escalas,?Stephan?Ludwig,?and?Ellis?A.?Van?Den?Hende.?"What?happens?in?Vegas?stays?on?TripAdvisor??A?theory?and?technique?to?understand?narrativity?in?consumer?reviews."?Journal?of?Consumer?Research?46,?no.?2?(2019):?267-285.<br />[13]Zhong,?Ning,?and?David?A.?Schweidel.?"Capturing?changes?in?social?media?content:?A?multiple?latent?changepoint?topic?model."?Marketing?Science?39,?no.?4?(2020):?827-846.<br />[14]Colicev,?Anatoli,?Ashwin?Malshe,?Koen?Pauwels,?and?Peter?O'Connor.?"Improving?consumer?mindset?metrics?and?shareholder?value?through?social?media:?The?different?roles?of?owned?and?earned?media."?Journal?of?Marketing?82,?no.?1?(2018):?37-56.<br />[15]Liu,?Xuan,?Savannah?Wei?Shi,?Thales?Teixeira,?and?Michel?Wedel.?"Video?content?marketing:?The?making?of?clips."?Journal?of?Marketing?82,?no.?4?(2018):?86-101.<br />[16]Liu,?Jia,?and?Olivier?Toubia.?"A?semantic?approach?for?estimating?consumer?content?preferences?from?online?search?queries."?Marketing?Science?37,?no.?6?(2018):?930-952.<br />[17]Nam,?Hyoryung,?Yogesh?V.?Joshi,?and?P.?K.?Kannan.?"Harvesting?brand?information?from?social?tags."?Journal?of?Marketing?81,?no.?4?(2017):?88-108.<br />[18]Packard,?Grant,?and?Jonah?Berger.?"How?language?shapes?word?of?mouth's?impact."?Journal?of?Marketing?Research?54,?no.?4?(2017):?572-588.<br />
　　
　　精選文章<p style="outline: 0px;color: rgb(63, 63, 63);font-size: 15px;letter-spacing: 0px;white-space: normal;font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;line-height: normal;">管理世界 | 使用文本分析詞構建并測量短視主義
　　管理世界 | 使用經(jīng)營(yíng)討論與分析測量企業(yè)數字化指標
　　支持開(kāi)票 | Python實(shí)證指標構建與文本分析
　　推薦 | 社科(經(jīng)管)文本分析快速指南<br style="outline: 0px;" />
　　視頻分享 | 文本分析在經(jīng)管研究中的應用
　　轉載 | 金融學(xué)文本大數據挖掘方法與研究進(jìn)展<br style="outline: 0px;" />
　　FinBERT | 金融文本BERT模型，可情感分析、識別ESG和FLS類(lèi)型</p>
　　<p style="outline: 0px;color: rgb(63, 63, 63);font-size: 15px;letter-spacing: 0px;white-space: normal;font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;line-height: normal;">100min視頻 | Python文本分析與會(huì )計
　　安裝python包出現報錯：Microsoft Visual 14.0 or greater is required. 怎么辦？
　　如何正確讀入文本數據不亂碼(解決文本亂碼問(wèn)題)
　　Faker庫 | 生成實(shí)驗數據</p>
　　解決方案:小程序用戶(hù)行為數據采集器講解
　　小程序用戶(hù)行為數據說(shuō)明采集器
　　

　?。?會(huì )員免費觀(guān)看
　　我有幸福的家庭
　　

　　進(jìn)入大數據時(shí)代后，很多企業(yè)都建立了自己的大數據分析平臺。企業(yè)有能力通過(guò)海量數據分析用戶(hù)行為，構建用戶(hù)畫(huà)像。這些數據很大一部分來(lái)自采集公司自己的應用客戶(hù)端?，F在小程序的興起，給公司帶來(lái)了大量的用戶(hù)，我們也需要采集用戶(hù)行為數據。作者開(kāi)發(fā)的采集器已在網(wǎng)易產(chǎn)品中廣泛使用，希望通過(guò)這次分享對大家有所幫助。
　　本期分享小程序用戶(hù)行為采集器開(kāi)發(fā)的實(shí)踐經(jīng)驗，會(huì )涉及到以下幾點(diǎn)：
　　用戶(hù)行為設計思路采集器；自動(dòng)采集小程序自帶信息；用戶(hù)分享跟進(jìn)追蹤信息采集設計；渠道推廣設計；主要API設計；實(shí)現一套SDK兼容微信小程序、字節跳動(dòng)小程序、支付寶小程序、百度小程序；采集器的編譯和打包；開(kāi)發(fā)文檔生成器Gitbook簡(jiǎn)介。

詳細數據:采集操縱桿數據

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 145 次瀏覽 ? 2022-12-07 14:54 ? 來(lái)自相關(guān)話(huà)題

　　詳細數據:采集操縱桿數據
　　
　　X-Plane Connect X-Plane Connect (XPC) 工具箱是一個(gè)開(kāi)源研究工具，用于與商業(yè)飛行模擬器軟件 X-Plane 進(jìn)行交互。XPC 允許用戶(hù)使用用 C、C++、Java、MATLAB 或 Python 編寫(xiě)的函數通過(guò)網(wǎng)絡(luò )實(shí)時(shí)控制飛行器，并從 X-Plane 模擬飛行器接收狀態(tài)信息。該研究工具已用于可視化飛行路徑、測試控制算法、模擬活動(dòng)空域或為內部飛行模擬軟件生成窗外視覺(jué)效果?？赡艿膽冒?XPlane 模擬的主動(dòng)控制、飛行可視化、飛行期間的記錄狀態(tài)或通過(guò) UDP 與任務(wù)交互。架構 XPC 由一個(gè) X-Plane 插件 (xpcPlugin) 和用多種語(yǔ)言編寫(xiě)的與插件交互的客戶(hù)端組成?？焖偃腴T(mén) 要開(kāi)始使用 X-Plane Connect，請執行以下操作。購買(mǎi)并安裝 X-Plane 9、10 或 11。從最新版本頁(yè)面下載 XPlaneConnect.zip 文件。將 .zip 存檔的內容復制到插件目錄
　　
　　教程:優(yōu)采云采集器如何抓取圖片數據_優(yōu)采云采集器數據抓取步驟
　　作者|肖法茂
　　資料來(lái)源|武陽(yáng)縣第一高級中學(xué)（編號：EC-MKT）。
　　html抓取移動(dòng)版、網(wǎng)頁(yè)采集提取數據教程，以自定義抓取方式為例-優(yōu)采云采集器._weixin_39883286博客-CSDN博客按鈕，選擇【自定義抓取方式】，可以看到優(yōu)采云自動(dòng)為我們選擇了【抓取圖片網(wǎng)址（IMG標簽的src屬性）】。這里只是抓取圖片時(shí)使用的抓圖方法，具體圖片采集優(yōu)采云采集器新手采集教程如何使用——上次軟件園教你如何安裝優(yōu)采云采集器，這次小編就帶你了解一下如何使用優(yōu)采云采集器，啟動(dòng)你的第一個(gè)數據采集，稍等片刻，軟件會(huì )自行啟動(dòng)將數據抓取到指定頁(yè)面。
　　
　　表數據采集圖形策略：優(yōu)采云采集器-百度體驗電腦軟件名稱(chēng)：優(yōu)采云采集大?。?0MB |版本：3.2|類(lèi)別讓我們看看如何使用優(yōu)采云采集器來(lái)采集表樣式的數據，以關(guān)鍵詞結果頁(yè)面的愛(ài)站關(guān)鍵詞挖掘“Messi”為例今天如何使用優(yōu)采云數據采集器（使用優(yōu)采云采集器抓取網(wǎng)絡(luò )數據）華夏文化傳播網(wǎng) 優(yōu)采云數據采集器如何使用，使用優(yōu)采云采集器抓取網(wǎng)站數據很多人不知道，現在讓我們來(lái)看看！2、登錄后，進(jìn)入軟件首頁(yè)，點(diǎn)擊任務(wù)->新建>自定義采集。
　　優(yōu)采云采集器如何
　　使用新手采集教程 - System Home 上次教你如何安裝優(yōu)采云采集器，這次小編就帶你了解如何使用優(yōu)采云采集器，啟動(dòng)你的第一個(gè)數據采集，稍晚一會(huì )兒，軟件會(huì )自行啟動(dòng)抓取數據到指定頁(yè)面?！皟?yōu)采云采集器”如何自定義捕獲選擇“采集以下數據” 4）選擇字段，點(diǎn)擊垃圾桶圖標，如果要在第8頁(yè)后采集短評論，需要在優(yōu)采云流程圖中添加登錄步驟（先登錄豆瓣賬號，再進(jìn)行短評論采集）。
　　
　　優(yōu)采云采集器如何使用優(yōu)采云采集器
　　詳細的圖形和文字使用策略軟件名稱(chēng)：優(yōu)采云采集器（網(wǎng)絡(luò )數據采集器） V6.4正式安裝版軟件大?。?7.6MB 更新時(shí)間：2017-05-19 第一步是打開(kāi)優(yōu)采云軟件，點(diǎn)擊快速啟動(dòng)，創(chuàng )建新任務(wù)的第二步優(yōu)采云采集器如何采集網(wǎng)頁(yè)文本內容-優(yōu)采云采集器采集網(wǎng)頁(yè)文本內容的方法-河東手機站優(yōu)采云采集器是一款多功能的網(wǎng)頁(yè)信息采集工具，該軟件采用新的信息捕獲模式，可以幫助用戶(hù)更快地采集網(wǎng)頁(yè)中的數據，并且可以在每個(gè)網(wǎng)頁(yè)模塊中。
　　——完—— 查看全部

　　詳細數據:采集操縱桿數據
　　

　　X-Plane Connect X-Plane Connect (XPC) 工具箱是一個(gè)開(kāi)源研究工具，用于與商業(yè)飛行模擬器軟件 X-Plane 進(jìn)行交互。XPC 允許用戶(hù)使用用 C、C++、Java、MATLAB 或 Python 編寫(xiě)的函數通過(guò)網(wǎng)絡(luò )實(shí)時(shí)控制飛行器，并從 X-Plane 模擬飛行器接收狀態(tài)信息。該研究工具已用于可視化飛行路徑、測試控制算法、模擬活動(dòng)空域或為內部飛行模擬軟件生成窗外視覺(jué)效果?？赡艿膽冒?XPlane 模擬的主動(dòng)控制、飛行可視化、飛行期間的記錄狀態(tài)或通過(guò) UDP 與任務(wù)交互。架構 XPC 由一個(gè) X-Plane 插件 (xpcPlugin) 和用多種語(yǔ)言編寫(xiě)的與插件交互的客戶(hù)端組成?？焖偃腴T(mén) 要開(kāi)始使用 X-Plane Connect，請執行以下操作。購買(mǎi)并安裝 X-Plane 9、10 或 11。從最新版本頁(yè)面下載 XPlaneConnect.zip 文件。將 .zip 存檔的內容復制到插件目錄
　　

　　教程:優(yōu)采云采集器如何抓取圖片數據_優(yōu)采云采集器數據抓取步驟
　　作者|肖法茂
　　資料來(lái)源|武陽(yáng)縣第一高級中學(xué)（編號：EC-MKT）。
　　html抓取移動(dòng)版、網(wǎng)頁(yè)采集提取數據教程，以自定義抓取方式為例-優(yōu)采云采集器._weixin_39883286博客-CSDN博客按鈕，選擇【自定義抓取方式】，可以看到優(yōu)采云自動(dòng)為我們選擇了【抓取圖片網(wǎng)址（IMG標簽的src屬性）】。這里只是抓取圖片時(shí)使用的抓圖方法，具體圖片采集優(yōu)采云采集器新手采集教程如何使用——上次軟件園教你如何安裝優(yōu)采云采集器，這次小編就帶你了解一下如何使用優(yōu)采云采集器，啟動(dòng)你的第一個(gè)數據采集，稍等片刻，軟件會(huì )自行啟動(dòng)將數據抓取到指定頁(yè)面。
　　

　　表數據采集圖形策略：優(yōu)采云采集器-百度體驗電腦軟件名稱(chēng)：優(yōu)采云采集大?。?0MB |版本：3.2|類(lèi)別讓我們看看如何使用優(yōu)采云采集器來(lái)采集表樣式的數據，以關(guān)鍵詞結果頁(yè)面的愛(ài)站關(guān)鍵詞挖掘“Messi”為例今天如何使用優(yōu)采云數據采集器（使用優(yōu)采云采集器抓取網(wǎng)絡(luò )數據）華夏文化傳播網(wǎng) 優(yōu)采云數據采集器如何使用，使用優(yōu)采云采集器抓取網(wǎng)站數據很多人不知道，現在讓我們來(lái)看看！2、登錄后，進(jìn)入軟件首頁(yè)，點(diǎn)擊任務(wù)->新建>自定義采集。
　　優(yōu)采云采集器如何
　　使用新手采集教程 - System Home 上次教你如何安裝優(yōu)采云采集器，這次小編就帶你了解如何使用優(yōu)采云采集器，啟動(dòng)你的第一個(gè)數據采集，稍晚一會(huì )兒，軟件會(huì )自行啟動(dòng)抓取數據到指定頁(yè)面?！皟?yōu)采云采集器”如何自定義捕獲選擇“采集以下數據” 4）選擇字段，點(diǎn)擊垃圾桶圖標，如果要在第8頁(yè)后采集短評論，需要在優(yōu)采云流程圖中添加登錄步驟（先登錄豆瓣賬號，再進(jìn)行短評論采集）。
　　

　　優(yōu)采云采集器如何使用優(yōu)采云采集器
　　詳細的圖形和文字使用策略軟件名稱(chēng)：優(yōu)采云采集器（網(wǎng)絡(luò )數據采集器） V6.4正式安裝版軟件大?。?7.6MB 更新時(shí)間：2017-05-19 第一步是打開(kāi)優(yōu)采云軟件，點(diǎn)擊快速啟動(dòng)，創(chuàng )建新任務(wù)的第二步優(yōu)采云采集器如何采集網(wǎng)頁(yè)文本內容-優(yōu)采云采集器采集網(wǎng)頁(yè)文本內容的方法-河東手機站優(yōu)采云采集器是一款多功能的網(wǎng)頁(yè)信息采集工具，該軟件采用新的信息捕獲模式，可以幫助用戶(hù)更快地采集網(wǎng)頁(yè)中的數據，并且可以在每個(gè)網(wǎng)頁(yè)模塊中。
　　——完——

最新版:Python網(wǎng)絡(luò )數據采集中文版 PDF電子書(shū)｜網(wǎng)盤(pán)下載附提取碼

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 173 次瀏覽 ? 2022-12-07 02:29 ? 來(lái)自相關(guān)話(huà)題

　　最新版:Python網(wǎng)絡(luò )數據采集中文版 PDF電子書(shū)｜網(wǎng)盤(pán)下載附提取碼
　　提取代碼：i99B內容介紹
　　
　　本書(shū)使用簡(jiǎn)潔有力的Python語(yǔ)言，介紹了網(wǎng)絡(luò )數據的采集，并為現代網(wǎng)絡(luò )中采集各種數據類(lèi)型提供了全面的指導。第一部分重點(diǎn)介紹網(wǎng)絡(luò )數據采集的基礎知識：如何在 Python 中從 Web 服務(wù)器請求信息，如何對服務(wù)器的響應進(jìn)行基本處理，以及如何以自動(dòng)化方式與網(wǎng)站進(jìn)行交互。第二部分介紹如何使用網(wǎng)絡(luò )爬蟲(chóng)來(lái)測試網(wǎng)站、自動(dòng)化處理以及如何以更多方式訪(fǎng)問(wèn)網(wǎng)絡(luò )。
　　作者簡(jiǎn)介
　　
　　瑞安·米切爾
　　數據科學(xué)家和軟件工程師目前在波士頓的LinkeDrive開(kāi)發(fā)公司的API和數據分析工具。此前，他在A(yíng)bine構建了網(wǎng)絡(luò )爬蟲(chóng)和網(wǎng)絡(luò )機器人。她經(jīng)常就網(wǎng)絡(luò )數據采集項目提供咨詢(xún)，主要是在金融和零售領(lǐng)域。他還是Instant Web Scraping with Java的作者。
　　教程:關(guān)鍵詞采集翻譯器（關(guān)鍵詞采集翻譯器下載）
　　目錄：
　　1.數據采集器翻譯
　　2.搜索翻譯
　　關(guān)鍵詞采集就是進(jìn)入我們的關(guān)鍵詞進(jìn)行全網(wǎng)文章采集,關(guān)鍵詞采集工具通度自媒體搭配資訊平臺熱門(mén)的文章，通過(guò)關(guān)鍵詞的工具實(shí)現關(guān)鍵詞采集文章內容的質(zhì)量保證采集讓我們能夠快速獲取大量相關(guān)的文章資料。
　　3. 關(guān)鍵詞采集工具
　　關(guān)鍵詞采集操作簡(jiǎn)單，我們只需要輸入我們感興趣的詞，比如最近比較多的“iPhone14pro”，我們就采集這個(gè)詞，和我們可以獲取很多關(guān)于A(yíng)pple文章的最新消息，通過(guò)下拉詞和相關(guān)詞實(shí)現文章的自動(dòng)生成。
　　
　　4.翻譯搜索引擎
　　關(guān)鍵詞采集工具允許我們確定關(guān)鍵詞的值并生成關(guān)鍵詞語(yǔ)義變化、準確性和匹配率。此外，它們將使我們能夠與同事同時(shí)在各種項目上進(jìn)行協(xié)作。從單一平臺創(chuàng )建、優(yōu)化、查看和共享。
　　5. 資料采集翻譯
　　這是采集關(guān)鍵詞的流行方式之一我們開(kāi)始輸入一個(gè)詞，搜索引擎的自動(dòng)完成功能及其下拉建議列表會(huì )為我們完成剩下的所有工作所以如果我們輸入“cat”，我們會(huì )看到“貓項圈”、“貓糧”等。這樣我們就可以?xún)?yōu)化搜索率
　　6.一鍵采集英文翻譯
　　此外，當用戶(hù)搜索并點(diǎn)擊相關(guān)內容時(shí)，我們可能會(huì )看到哪種格式最受歡迎簡(jiǎn)單的技術(shù)將引導我們產(chǎn)生許多積極的副作用和想法，具有特定的關(guān)鍵詞集群或個(gè)人關(guān)鍵詞。
　　7.翻譯搜索技術(shù)
　　
　　8. 翻譯和查詞軟件
　　選擇最有潛力的關(guān)鍵詞關(guān)鍵詞研究工具基于內容分析，使我們能夠確定最有前途的關(guān)鍵詞現在我們已經(jīng)創(chuàng )建了一組關(guān)鍵詞來(lái)申請，我們可以將數據導出到電子表格，然后選擇最能反映我們目標的數據關(guān)鍵詞我們可以將此任務(wù)發(fā)送給外包專(zhuān)家，并期望他們提供出色的副本。
　　9.搜索在線(xiàn)翻譯
　　偉大作家的提示和列表將幫助我們找到經(jīng)驗豐富的專(zhuān)家，他們將嘗試吸引我們的訂閱者不要忘記選擇具有潛力的關(guān)鍵詞
　　10.搜索翻譯功能
　　現在去這些論壇中的任何一個(gè)，找出人們在談?wù)撌裁醋顓⑴c的帖子是我們內容的潛力關(guān)鍵詞此外，我們可以在我們的 Facebook 群組中嘗試這種策略，而不是搜索谷歌，只是搜索利基市場(chǎng)Facebook 上的群組例如，我在 Facebook 上搜索“美味食譜”，得到以下結果。
　　關(guān)鍵詞研究是一個(gè)廣泛的主題，需要認真考慮。通過(guò)選擇適合我們的需求和風(fēng)格的正確策略，祝我們的 SEO 優(yōu)化好運。
　　翻譯查看全部

　　最新版:Python網(wǎng)絡(luò )數據采集中文版 PDF電子書(shū)｜網(wǎng)盤(pán)下載附提取碼
　　提取代碼：i99B內容介紹
　　

　　本書(shū)使用簡(jiǎn)潔有力的Python語(yǔ)言，介紹了網(wǎng)絡(luò )數據的采集，并為現代網(wǎng)絡(luò )中采集各種數據類(lèi)型提供了全面的指導。第一部分重點(diǎn)介紹網(wǎng)絡(luò )數據采集的基礎知識：如何在 Python 中從 Web 服務(wù)器請求信息，如何對服務(wù)器的響應進(jìn)行基本處理，以及如何以自動(dòng)化方式與網(wǎng)站進(jìn)行交互。第二部分介紹如何使用網(wǎng)絡(luò )爬蟲(chóng)來(lái)測試網(wǎng)站、自動(dòng)化處理以及如何以更多方式訪(fǎng)問(wèn)網(wǎng)絡(luò )。
　　作者簡(jiǎn)介
　　

　　瑞安·米切爾
　　數據科學(xué)家和軟件工程師目前在波士頓的LinkeDrive開(kāi)發(fā)公司的API和數據分析工具。此前，他在A(yíng)bine構建了網(wǎng)絡(luò )爬蟲(chóng)和網(wǎng)絡(luò )機器人。她經(jīng)常就網(wǎng)絡(luò )數據采集項目提供咨詢(xún)，主要是在金融和零售領(lǐng)域。他還是Instant Web Scraping with Java的作者。
　　教程:關(guān)鍵詞采集翻譯器（關(guān)鍵詞采集翻譯器下載）
　　目錄：
　　1.數據采集器翻譯
　　2.搜索翻譯
　　關(guān)鍵詞采集就是進(jìn)入我們的關(guān)鍵詞進(jìn)行全網(wǎng)文章采集,關(guān)鍵詞采集工具通度自媒體搭配資訊平臺熱門(mén)的文章，通過(guò)關(guān)鍵詞的工具實(shí)現關(guān)鍵詞采集文章內容的質(zhì)量保證采集讓我們能夠快速獲取大量相關(guān)的文章資料。
　　3. 關(guān)鍵詞采集工具
　　關(guān)鍵詞采集操作簡(jiǎn)單，我們只需要輸入我們感興趣的詞，比如最近比較多的“iPhone14pro”，我們就采集這個(gè)詞，和我們可以獲取很多關(guān)于A(yíng)pple文章的最新消息，通過(guò)下拉詞和相關(guān)詞實(shí)現文章的自動(dòng)生成。
　　

　　4.翻譯搜索引擎
　　關(guān)鍵詞采集工具允許我們確定關(guān)鍵詞的值并生成關(guān)鍵詞語(yǔ)義變化、準確性和匹配率。此外，它們將使我們能夠與同事同時(shí)在各種項目上進(jìn)行協(xié)作。從單一平臺創(chuàng )建、優(yōu)化、查看和共享。
　　5. 資料采集翻譯
　　這是采集關(guān)鍵詞的流行方式之一我們開(kāi)始輸入一個(gè)詞，搜索引擎的自動(dòng)完成功能及其下拉建議列表會(huì )為我們完成剩下的所有工作所以如果我們輸入“cat”，我們會(huì )看到“貓項圈”、“貓糧”等。這樣我們就可以?xún)?yōu)化搜索率
　　6.一鍵采集英文翻譯
　　此外，當用戶(hù)搜索并點(diǎn)擊相關(guān)內容時(shí)，我們可能會(huì )看到哪種格式最受歡迎簡(jiǎn)單的技術(shù)將引導我們產(chǎn)生許多積極的副作用和想法，具有特定的關(guān)鍵詞集群或個(gè)人關(guān)鍵詞。
　　7.翻譯搜索技術(shù)
　　

　　8. 翻譯和查詞軟件
　　選擇最有潛力的關(guān)鍵詞關(guān)鍵詞研究工具基于內容分析，使我們能夠確定最有前途的關(guān)鍵詞現在我們已經(jīng)創(chuàng )建了一組關(guān)鍵詞來(lái)申請，我們可以將數據導出到電子表格，然后選擇最能反映我們目標的數據關(guān)鍵詞我們可以將此任務(wù)發(fā)送給外包專(zhuān)家，并期望他們提供出色的副本。
　　9.搜索在線(xiàn)翻譯
　　偉大作家的提示和列表將幫助我們找到經(jīng)驗豐富的專(zhuān)家，他們將嘗試吸引我們的訂閱者不要忘記選擇具有潛力的關(guān)鍵詞
　　10.搜索翻譯功能
　　現在去這些論壇中的任何一個(gè)，找出人們在談?wù)撌裁醋顓⑴c的帖子是我們內容的潛力關(guān)鍵詞此外，我們可以在我們的 Facebook 群組中嘗試這種策略，而不是搜索谷歌，只是搜索利基市場(chǎng)Facebook 上的群組例如，我在 Facebook 上搜索“美味食譜”，得到以下結果。
　　關(guān)鍵詞研究是一個(gè)廣泛的主題，需要認真考慮。通過(guò)選擇適合我們的需求和風(fēng)格的正確策略，祝我們的 SEO 優(yōu)化好運。
　　翻譯

推薦文章:BBC英文文章采集

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 182 次瀏覽 ? 2022-12-06 06:34 ? 來(lái)自相關(guān)話(huà)題

　　推薦文章:BBC英文文章采集
　　本文以 BBC 的亞洲新聞為例，介紹如何使用優(yōu)采云采集。
　　采集網(wǎng)站：
　　采集內容包括：文章標題，文章正文
　　使用功能點(diǎn)：
　　l 尋呼列表和詳細信息提取
　　第 1 步：創(chuàng )建 BBC 英語(yǔ) 文章采集任務(wù)
　　1）進(jìn)入主界面，選擇“自定義模式”
　　2) 將采集的網(wǎng)址復制粘貼到網(wǎng)站輸入框，點(diǎn)擊“保存網(wǎng)址”
　　第 2 步：創(chuàng )建列表循環(huán)
　　1）在頁(yè)面右上角，打開(kāi)“流程”，顯示“流程設計器”和“自定義當前操作”兩個(gè)版塊。選擇頁(yè)面第一張圖片，系統會(huì )自動(dòng)識別頁(yè)面相似鏈接，選擇“全選”
　　
　　2）選擇“循環(huán)點(diǎn)擊每個(gè)鏈接”
　　3）設置超時(shí)和ajax滾動(dòng)
　　第 3 步：采集小說(shuō)內容
　　1）在頁(yè)面中選擇采集的文本標題（被選中的內容會(huì )變成綠色），選擇“采集該元素的文本”
　　2）在頁(yè)面中選擇要采集的文字內容（被選中的內容會(huì )變成綠色），選擇全選，
　　選擇“采集此元素的文本”
　　3）設置合并字段，選擇自定義數據字段，選擇自定義數據合并方式，
　　
　　然后選擇同一個(gè)字段多次提取，合并成一行。
　　4）修改字段名
　　5) 選擇“啟動(dòng)本地采集”
　　第四步：BBC英語(yǔ)文章數據采集并導出
　　1）采集完成后，會(huì )彈出提示，選擇“導出數據”。選擇“合適的導出方法”導出采集好的BBC英語(yǔ)文章數據
　　2）這里我們選擇excel作為導出格式，數據導出如下圖
　　分享文章:偽原創(chuàng )文章采集網(wǎng)站
　　偽原創(chuàng )文章采集網(wǎng)站程序，1網(wǎng)站更新：構建您自己的原創(chuàng )文章庫
　　2 寫(xiě) 偽原創(chuàng )文章。關(guān)鍵詞分析：偽原創(chuàng )文章采集器。
　　3 話(huà)題相關(guān)的文章：我們需要找到自己的關(guān)鍵詞來(lái)采集其他網(wǎng)站的內容，并以文章的形式更新。
　　4 站內相關(guān)文章：文章與網(wǎng)站主題相關(guān)。
　　
　　5文章標題和描述：在網(wǎng)站的首頁(yè)、欄目頁(yè)、內容頁(yè)、其他文章隨機調用等，然后添加首段和末段頁(yè)關(guān)鍵詞。
　　網(wǎng)站SEO更新文章和軟文：SEO偽原創(chuàng )文章發(fā)布技巧這些是這個(gè)網(wǎng)站旨在解決的問(wèn)題，但是一些文章相對不受歡迎，僅適用于網(wǎng)站而不是搜索引擎。
　　為什么有的網(wǎng)站更新文章非常多，而有的網(wǎng)站更新文章卻很少，甚至很多都發(fā)布在網(wǎng)上，訪(fǎng)問(wèn)不到互聯(lián)網(wǎng)在所有的重復。
　　我敢肯定很少有人看過(guò)它，但它已經(jīng)存在了很長(cháng)時(shí)間，現在網(wǎng)站有更多的內容和更好的 SEO，我們如何看待它？首先，讓我們談?wù)?網(wǎng)站的內容。
　　網(wǎng)站的內容是網(wǎng)站的靈魂。在不同的搜索引擎和用戶(hù)的心目中，大多數人的注意力都集中在網(wǎng)站上。我們都知道好的內容，搜索引擎非常喜歡原創(chuàng )內容，如果我們做高質(zhì)量的網(wǎng)站，如果我們文章不夠好，我們就不會(huì )得到更多的用戶(hù)關(guān)心。
　　所以原創(chuàng )文章在網(wǎng)站優(yōu)化中非常重要，那么如何做好網(wǎng)站內容呢？
　　
　　1、原創(chuàng )文章的標題是用戶(hù)的搜索習慣。
　　搜索引擎喜歡原創(chuàng )文章。如果您的文章標題和網(wǎng)站內容不匹配，搜索引擎不會(huì )很喜歡它。搜索引擎非常喜歡重復的內容。我們在寫(xiě)文章時(shí)，主要注意內容與標題的匹配，拓展文章內容的原創(chuàng )性質(zhì)，簡(jiǎn)潔明了。
　　2.文章第一段需要優(yōu)化
　　搜索引擎會(huì )認為我們的文章第一段很重要，所以第一段對于優(yōu)化來(lái)說(shuō)非常重要。例如，如果我們正在為“減肥”寫(xiě) 文章而我們的文章標題不夠好，我們可以在第一段中添加我們的品牌詞。當然，在文章的最后，我們需要添加一些品牌詞。
　　三、文章需求
　　相關(guān)文章查看全部

　　推薦文章:BBC英文文章采集
　　本文以 BBC 的亞洲新聞為例，介紹如何使用優(yōu)采云采集。
　　采集網(wǎng)站：
　　采集內容包括：文章標題，文章正文
　　使用功能點(diǎn)：
　　l 尋呼列表和詳細信息提取
　　第 1 步：創(chuàng )建 BBC 英語(yǔ) 文章采集任務(wù)
　　1）進(jìn)入主界面，選擇“自定義模式”
　　2) 將采集的網(wǎng)址復制粘貼到網(wǎng)站輸入框，點(diǎn)擊“保存網(wǎng)址”
　　第 2 步：創(chuàng )建列表循環(huán)
　　1）在頁(yè)面右上角，打開(kāi)“流程”，顯示“流程設計器”和“自定義當前操作”兩個(gè)版塊。選擇頁(yè)面第一張圖片，系統會(huì )自動(dòng)識別頁(yè)面相似鏈接，選擇“全選”
　　

　　2）選擇“循環(huán)點(diǎn)擊每個(gè)鏈接”
　　3）設置超時(shí)和ajax滾動(dòng)
　　第 3 步：采集小說(shuō)內容
　　1）在頁(yè)面中選擇采集的文本標題（被選中的內容會(huì )變成綠色），選擇“采集該元素的文本”
　　2）在頁(yè)面中選擇要采集的文字內容（被選中的內容會(huì )變成綠色），選擇全選，
　　選擇“采集此元素的文本”
　　3）設置合并字段，選擇自定義數據字段，選擇自定義數據合并方式，
　　

　　然后選擇同一個(gè)字段多次提取，合并成一行。
　　4）修改字段名
　　5) 選擇“啟動(dòng)本地采集”
　　第四步：BBC英語(yǔ)文章數據采集并導出
　　1）采集完成后，會(huì )彈出提示，選擇“導出數據”。選擇“合適的導出方法”導出采集好的BBC英語(yǔ)文章數據
　　2）這里我們選擇excel作為導出格式，數據導出如下圖
　　分享文章:偽原創(chuàng )文章采集網(wǎng)站
　　偽原創(chuàng )文章采集網(wǎng)站程序，1網(wǎng)站更新：構建您自己的原創(chuàng )文章庫
　　2 寫(xiě) 偽原創(chuàng )文章。關(guān)鍵詞分析：偽原創(chuàng )文章采集器。
　　3 話(huà)題相關(guān)的文章：我們需要找到自己的關(guān)鍵詞來(lái)采集其他網(wǎng)站的內容，并以文章的形式更新。
　　4 站內相關(guān)文章：文章與網(wǎng)站主題相關(guān)。
　　

　　5文章標題和描述：在網(wǎng)站的首頁(yè)、欄目頁(yè)、內容頁(yè)、其他文章隨機調用等，然后添加首段和末段頁(yè)關(guān)鍵詞。
　　網(wǎng)站SEO更新文章和軟文：SEO偽原創(chuàng )文章發(fā)布技巧這些是這個(gè)網(wǎng)站旨在解決的問(wèn)題，但是一些文章相對不受歡迎，僅適用于網(wǎng)站而不是搜索引擎。
　　為什么有的網(wǎng)站更新文章非常多，而有的網(wǎng)站更新文章卻很少，甚至很多都發(fā)布在網(wǎng)上，訪(fǎng)問(wèn)不到互聯(lián)網(wǎng)在所有的重復。
　　我敢肯定很少有人看過(guò)它，但它已經(jīng)存在了很長(cháng)時(shí)間，現在網(wǎng)站有更多的內容和更好的 SEO，我們如何看待它？首先，讓我們談?wù)?網(wǎng)站的內容。
　　網(wǎng)站的內容是網(wǎng)站的靈魂。在不同的搜索引擎和用戶(hù)的心目中，大多數人的注意力都集中在網(wǎng)站上。我們都知道好的內容，搜索引擎非常喜歡原創(chuàng )內容，如果我們做高質(zhì)量的網(wǎng)站，如果我們文章不夠好，我們就不會(huì )得到更多的用戶(hù)關(guān)心。
　　所以原創(chuàng )文章在網(wǎng)站優(yōu)化中非常重要，那么如何做好網(wǎng)站內容呢？
　　

　　1、原創(chuàng )文章的標題是用戶(hù)的搜索習慣。
　　搜索引擎喜歡原創(chuàng )文章。如果您的文章標題和網(wǎng)站內容不匹配，搜索引擎不會(huì )很喜歡它。搜索引擎非常喜歡重復的內容。我們在寫(xiě)文章時(shí)，主要注意內容與標題的匹配，拓展文章內容的原創(chuàng )性質(zhì)，簡(jiǎn)潔明了。
　　2.文章第一段需要優(yōu)化
　　搜索引擎會(huì )認為我們的文章第一段很重要，所以第一段對于優(yōu)化來(lái)說(shuō)非常重要。例如，如果我們正在為“減肥”寫(xiě) 文章而我們的文章標題不夠好，我們可以在第一段中添加我們的品牌詞。當然，在文章的最后，我們需要添加一些品牌詞。
　　三、文章需求
　　相關(guān)文章

教程:PHP簡(jiǎn)單獲取網(wǎng)站百度搜索方法

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 102 次瀏覽 ? 2022-12-06 05:33 ? 來(lái)自相關(guān)話(huà)題

　　教程:PHP簡(jiǎn)單獲取網(wǎng)站百度搜索方法
　　2.HTML code<html lang=“en”><head><meta charset=“utf-8”><title>jQuery UI 自動(dòng)完成 - 默認函數</標題><鏈接推薦項目框 type_博客清除修復“ data-url=”“ data-report-view='{”ab“：”new“，”spm“：”1001.2101.3001.6650.5“，”mod“：”popu_387“，”extra“：”{\“highlightScore\”：0.0，\“utm_medium\”：\“distribute.pc_ relevant.none-task-blog-2~default~OPENSEARCH~Rate-6-121953662-blog-128081290.pc_relevant_aa\”，\“dist_request_id\”：\“01_95499\“}”，“dist_request_id”：“01_95499”，“ab_ strategy”：“recoveryv3_v2”，“index”：“6”，“strategy”：“2~default~OPENSEARCH~Rate”，“dest”：“”}'>
　　添加標題
　　
　　搜索“時(shí)間因子”代碼/插件到網(wǎng)站文章和頁(yè)面，實(shí)現快速百度收錄
　　有山可吉的博客
　　12-15歲
　　
　　786我很久沒(méi)有登錄今日頭條搜索站長(cháng)
　　平臺了，今天登錄后，站長(cháng)發(fā)現今日頭條搜索支持時(shí)間因子已經(jīng)提交。簡(jiǎn)單來(lái)說(shuō)就是給網(wǎng)站增加一些時(shí)間元，讓頭條爬蟲(chóng)判斷我們文章的發(fā)布時(shí)間和更新時(shí)間，幫助搜索用戶(hù)獲得更滿(mǎn)意的搜索瀏覽體驗，幫助優(yōu)質(zhì)網(wǎng)站獲得更多的展示機會(huì )。因為我之前有百度搜索過(guò)熊掌的相關(guān)變身體驗，所以這次的變身會(huì )更容易。這一次，A7站長(cháng)將分享為WordPress網(wǎng)站添加標題搜索時(shí)間因子的方法。在WordPress網(wǎng)站文章和頁(yè)面中添加標題搜索“時(shí)間因子”代碼/插件，實(shí)現快速百度收錄-A7站長(cháng)一，標題搜索時(shí)間因子介紹官方
　　分享文章:偽原創(chuàng )文章生成網(wǎng)站(文章偽原創(chuàng )的方法)
　　閱讀本文提示語(yǔ)：文章偽原創(chuàng )方法，在線(xiàn)偽原創(chuàng )文章生成，偽原創(chuàng )文章手機生成器軟件下載
　　偽原創(chuàng )文章生成網(wǎng)站內容意味著(zhù)將多個(gè)短句和多個(gè)更復雜的等式整合到反映我們提供的內容的等式中。其技術(shù)解決了讀者難以理解和快速理解的問(wèn)題，IQIY將應用到每個(gè)具體問(wèn)題的解答中。
　　偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站偽原創(chuàng )文章生成，解決讀者短句子、排版和內容清理需求。
　　
　　1 80%的觀(guān)眾看完后，25%的觀(guān)眾會(huì )瀏覽網(wǎng)站，16%的觀(guān)眾看完后，25%的觀(guān)眾會(huì )看10篇文章文章。
　　這個(gè) 文章夠大了。用于在維護文章內容的同時(shí)優(yōu)化文章。
　　2段被截斷和字幕站
　　字幕是用戶(hù)輸入的字幕。關(guān)鍵字是字幕的關(guān)鍵字。那是文章閱讀。標題是指對作者的建議。
　　3個(gè)按鈕是一組，字幕是一系列的單詞。這表明文檔中有更多的單詞或十幾個(gè)單詞重復使用相同的關(guān)鍵字。有了這個(gè)優(yōu)化文章，我們稱(chēng)之為“軟文this”。
　　
　　2 軟文這本書(shū)第一段要好好寫(xiě)：終于，軟文這本書(shū)第二段要好好寫(xiě)：終于，軟刀第二段要好好寫(xiě)：終于，軟刀的最終用途是強調讀者將如何看待您的文章，以及您希望他們做什么以及如何行動(dòng)。到最后，讀者將看到您的網(wǎng)站鏈接地址。這樣軟刀的效果會(huì )很好。
　　3 軟文軟文第三個(gè)功能是列出所有的煩惱軟文，下面是軟文營(yíng)銷(xiāo)標題的寫(xiě)法：
　　1. 以非常有力的方式解釋問(wèn)題。這是營(yíng)銷(xiāo)最基本的功能。如果您的目的是讓其他人“關(guān)注您的品牌”，那么這個(gè) 軟文確實(shí)存在。如果你管理它，這個(gè)帳戶(hù)是非常必要的。
　　2. 使用該帳戶(hù)創(chuàng )建一個(gè)軟文，然后以這種方式工作。如果你有很少或非常少的軟文，你可以用這種類(lèi)型寫(xiě)軟文，使用“owns”、“needs”、“needs”等形式。
　　相關(guān)文章查看全部

　　教程:PHP簡(jiǎn)單獲取網(wǎng)站百度搜索方法
　　2.HTML code<html lang=“en”><head><meta charset=“utf-8”><title>jQuery UI 自動(dòng)完成 - 默認函數</標題><鏈接推薦項目框 type_博客清除修復“ data-url=”“ data-report-view='{”ab“：”new“，”spm“：”1001.2101.3001.6650.5“，”mod“：”popu_387“，”extra“：”{\“highlightScore\”：0.0，\“utm_medium\”：\“distribute.pc_ relevant.none-task-blog-2~default~OPENSEARCH~Rate-6-121953662-blog-128081290.pc_relevant_aa\”，\“dist_request_id\”：\“01_95499\“}”，“dist_request_id”：“01_95499”，“ab_ strategy”：“recoveryv3_v2”，“index”：“6”，“strategy”：“2~default~OPENSEARCH~Rate”，“dest”：“”}'>
　　添加標題
　　

　　搜索“時(shí)間因子”代碼/插件到網(wǎng)站文章和頁(yè)面，實(shí)現快速百度收錄
　　有山可吉的博客
　　12-15歲
　　

　　786我很久沒(méi)有登錄今日頭條搜索站長(cháng)
　　平臺了，今天登錄后，站長(cháng)發(fā)現今日頭條搜索支持時(shí)間因子已經(jīng)提交。簡(jiǎn)單來(lái)說(shuō)就是給網(wǎng)站增加一些時(shí)間元，讓頭條爬蟲(chóng)判斷我們文章的發(fā)布時(shí)間和更新時(shí)間，幫助搜索用戶(hù)獲得更滿(mǎn)意的搜索瀏覽體驗，幫助優(yōu)質(zhì)網(wǎng)站獲得更多的展示機會(huì )。因為我之前有百度搜索過(guò)熊掌的相關(guān)變身體驗，所以這次的變身會(huì )更容易。這一次，A7站長(cháng)將分享為WordPress網(wǎng)站添加標題搜索時(shí)間因子的方法。在WordPress網(wǎng)站文章和頁(yè)面中添加標題搜索“時(shí)間因子”代碼/插件，實(shí)現快速百度收錄-A7站長(cháng)一，標題搜索時(shí)間因子介紹官方
　　分享文章:偽原創(chuàng )文章生成網(wǎng)站(文章偽原創(chuàng )的方法)
　　閱讀本文提示語(yǔ)：文章偽原創(chuàng )方法，在線(xiàn)偽原創(chuàng )文章生成，偽原創(chuàng )文章手機生成器軟件下載
　　偽原創(chuàng )文章生成網(wǎng)站內容意味著(zhù)將多個(gè)短句和多個(gè)更復雜的等式整合到反映我們提供的內容的等式中。其技術(shù)解決了讀者難以理解和快速理解的問(wèn)題，IQIY將應用到每個(gè)具體問(wèn)題的解答中。
　　偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站內容偽原創(chuàng )文章生成網(wǎng)站偽原創(chuàng )文章生成，解決讀者短句子、排版和內容清理需求。
　　

　　1 80%的觀(guān)眾看完后，25%的觀(guān)眾會(huì )瀏覽網(wǎng)站，16%的觀(guān)眾看完后，25%的觀(guān)眾會(huì )看10篇文章文章。
　　這個(gè) 文章夠大了。用于在維護文章內容的同時(shí)優(yōu)化文章。
　　2段被截斷和字幕站
　　字幕是用戶(hù)輸入的字幕。關(guān)鍵字是字幕的關(guān)鍵字。那是文章閱讀。標題是指對作者的建議。
　　3個(gè)按鈕是一組，字幕是一系列的單詞。這表明文檔中有更多的單詞或十幾個(gè)單詞重復使用相同的關(guān)鍵字。有了這個(gè)優(yōu)化文章，我們稱(chēng)之為“軟文this”。
　　

　　2 軟文這本書(shū)第一段要好好寫(xiě)：終于，軟文這本書(shū)第二段要好好寫(xiě)：終于，軟刀第二段要好好寫(xiě)：終于，軟刀的最終用途是強調讀者將如何看待您的文章，以及您希望他們做什么以及如何行動(dòng)。到最后，讀者將看到您的網(wǎng)站鏈接地址。這樣軟刀的效果會(huì )很好。
　　3 軟文軟文第三個(gè)功能是列出所有的煩惱軟文，下面是軟文營(yíng)銷(xiāo)標題的寫(xiě)法：
　　1. 以非常有力的方式解釋問(wèn)題。這是營(yíng)銷(xiāo)最基本的功能。如果您的目的是讓其他人“關(guān)注您的品牌”，那么這個(gè) 軟文確實(shí)存在。如果你管理它，這個(gè)帳戶(hù)是非常必要的。
　　2. 使用該帳戶(hù)創(chuàng )建一個(gè)軟文，然后以這種方式工作。如果你有很少或非常少的軟文，你可以用這種類(lèi)型寫(xiě)軟文，使用“owns”、“needs”、“needs”等形式。
　　相關(guān)文章

技術(shù)文章:豆瓣采集api

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 119 次瀏覽 ? 2022-12-03 17:34 ? 來(lái)自相關(guān)話(huà)題

　　技術(shù)文章:豆瓣采集api
　　豆瓣采集api相關(guān)博客
　　Scrapy采集《以人民的名義》豆瓣評測實(shí)驗報告
　　轉載請注明出處?。?！實(shí)驗對象：豆瓣電影-人民的名義實(shí)驗目的：通過(guò)使用scrapy框架采集《以人民的名義》對內容進(jìn)行評價(jià)，進(jìn)一步了解信息檢索的過(guò)程。實(shí)驗過(guò)程：分析采集實(shí)體->確定采集方法->制定爬蟲(chóng)規則->編寫(xiě)代碼調試->獲取數據人名ps：由于最近
　　?葉5年前813
　　【雪峰磁針石博客】2018最佳人工智能資料采集（爬蟲(chóng)）參考書(shū)下載
　　Network Data in Python 采集 Network Data in Python采集 - 2016.pdf 本書(shū)以簡(jiǎn)潔而強大的Python語(yǔ)言介紹了網(wǎng)絡(luò )數據采集，并對采集進(jìn)行了介紹。 > 現代網(wǎng)絡(luò )。為各種數據類(lèi)型提供了全面的指導。第 1 部分重點(diǎn)介紹 Web 數據的基礎知識采集：如何使用 Python 從 Web 服務(wù)器請求信息
　　Python人工智能命理4年前1733
　　大數據與云計算學(xué)習：Python網(wǎng)絡(luò )數據采集
　　
　　本文將介紹 Web 數據的基礎知識采集：如何使用 Python 從 Web 服務(wù)器請求信息如何對服務(wù)器響應進(jìn)行基本處理如何以自動(dòng)化方式與網(wǎng)站交互如何創(chuàng )建域名切換、信息采集和信息存儲功能的爬蟲(chóng)學(xué)習路徑爬蟲(chóng)的基本原理所謂爬蟲(chóng)就是一個(gè)自動(dòng)化的數據采集工具，你
　　晶心院 4年前 3650
　　2018中國開(kāi)源年度報告發(fā)布，阿里系領(lǐng)跑
　　近日，開(kāi)源社發(fā)布了《2018中國開(kāi)源年度報告》，以調研和數據報告的形式展示了中國開(kāi)源的全貌。其中，阿里系統一馬當先，在活躍開(kāi)源產(chǎn)品前5名中，阿里系統占據了4個(gè)。在這四個(gè)開(kāi)源產(chǎn)品中，只有 PouchContainer 是非前端產(chǎn)品。第二部分數據 2.1 指南針指南針
　　技術(shù)專(zhuān)家 4年前 2633
　　Shiro系列（一）——權限管理簡(jiǎn)介及原理
　　1、什么是權限管理？一般來(lái)說(shuō)，只要有用戶(hù)參與，系統就需要進(jìn)行權限管理。權限管理實(shí)現了對用戶(hù)訪(fǎng)問(wèn)系統指定功能的限制。根據管理員定義的安全規則或權限策略，限制用戶(hù)只能訪(fǎng)問(wèn)那些他們被授權的資源路徑。權限管理包括用戶(hù)認證和授權
　　風(fēng)影月 5年前 932
　　【最佳實(shí)踐】esrally：Elasticsearch官方壓測工具及詳細應用
　　
　　作者介紹樸享科技CTO魏斌，開(kāi)源軟件愛(ài)好者，國內首位Elastic認證工程師，《Elastic Daily》和《ElasticTalk》社區項目發(fā)起人，榮獲2019年度合伙人架構師特別貢獻獎彈性中國。對于 Elasticear
　　工程師A 2年前 237
　　《深入講解Windows Phone 8應用開(kāi)發(fā)》
　　內容開(kāi)發(fā)基礎第1章概述 1.1 Windows Phone的技術(shù)特點(diǎn) 1.1.1 Windows Phone的發(fā)展 1.1.2 Windows Phone 8簡(jiǎn)介 1.1.3 Windows Phone 8的新特性 1.2 Windows Phone
　　技術(shù)專(zhuān)家 5年前 1318
　　大公司都有哪些開(kāi)源項目~~~ 阿里、百度、騰訊、360、新浪、網(wǎng)易、小米等。
　　紅色字體是現階段比較流行的---------------------------------------- ------------------------------------------------- ---------------------奇虎36
　　徐茂君4年前3896
　　最新版:【汽車(chē)/二手】[西風(fēng)]微信文章采集專(zhuān)業(yè)版 2.0
　　
　　[西風(fēng)]微信文章采集專(zhuān)業(yè)版2.0.1商業(yè)版dz插件分享批量采集公眾號文章功能等功能詳情后臺可按微信號,關(guān)鍵字搜索后批量采集公眾號文章，無(wú)需任何配置，支持批量發(fā)布到帖子和門(mén)戶(hù)文章，批量發(fā)布時(shí)可選擇每個(gè)文章發(fā)布發(fā)布到塊。前端發(fā)帖可以采集單微信文章，只要在插件中設置啟用論壇和用戶(hù)組即可。定時(shí)采集是2.1版本后新增的，在插件設置頁(yè)面填寫(xiě)定時(shí)采集公眾號的微信號，一行一個(gè)，（如果你的服務(wù)器性能和帶寬不夠, 請只填一個(gè)），插件使用定時(shí)任務(wù)抓取最新和采集5篇文章文章為這里填寫(xiě)的公眾號（注：因為微信反采集措施嚴格多變，常規任務(wù)成功率可能較低）主要特點(diǎn) 1.采集文章中的圖片和視頻可以保留微信文章的原創(chuàng )格式 2.無(wú)需任何配置，通過(guò)微信號和關(guān)鍵字搜索后續批次采集3. 可以設置成員發(fā)帖。4. 批量發(fā)帖時(shí)，除了發(fā)到默認論壇外，還可以設置每個(gè)文章單獨發(fā)到任意論壇。單獨設置每個(gè)帖子使用的成員 5.可以批量發(fā)布到傳送門(mén)文章，每個(gè)文章傳送到的傳送門(mén)頻道發(fā)布時(shí)可以單獨設置。6、采集的文本狀態(tài)有提示，如果采集文本因故失敗，可以重復采集8。前端發(fā)帖時(shí)，小編會(huì )顯示微信圖標，點(diǎn)擊插入微信文章 URL 即可自動(dòng)插入微信文章 9. 支持發(fā)帖、傳送門(mén)文章審核功能1.安裝激活后，在插件后臺設置頁(yè)面，可以更改默認的會(huì )員uid和發(fā)布的論壇 2.點(diǎn)擊開(kāi)始采集，輸入微信號或關(guān)鍵字采集3。采集最新文章列表成功后，可以全選或者選擇要采集文本的文章（比如刪除不需要的文章文章), 開(kāi)始采集文本 4, 文本采集完成后，可以選擇論壇單獨發(fā)布到每個(gè)文章或者全部發(fā)布到默認論壇，點(diǎn)擊發(fā)布完成7，在采集記錄中，可以批量發(fā)布到傳送門(mén)文章，可以設置每個(gè)文章發(fā)布到的傳送門(mén)頻道（必須有可以使用的傳送門(mén)頻道） 8.設置前端發(fā)帖權限使用微信插入文章功能啟用用戶(hù)組和論壇采集按微信ID采集： 1.搜索微信號并點(diǎn)擊或直接填寫(xiě)微信ID和昵稱(chēng)并點(diǎn)擊開(kāi)始采集2。顯示你最近獲得的10-30個(gè)采集文章標題，點(diǎn)擊標題旁邊的復選框確認你想要哪個(gè)采集 3. 然后點(diǎn)擊采集文本 4，采集采集之后，可以選擇直接發(fā)布到采集結果下的模塊或者重新采集text by keyword采集1，輸入關(guān)鍵字，點(diǎn)擊Search 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認需要的采集 3. 點(diǎn)擊下方的采集按鈕并發(fā)布按鈕，釋放將完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集輸入關(guān)鍵字，點(diǎn)擊搜索 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認您要的采集 3. 點(diǎn)擊下方的采集按鈕發(fā)布按鈕，釋放完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集輸入關(guān)鍵字，點(diǎn)擊搜索 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認您要的采集 3. 點(diǎn)擊下方的采集按鈕發(fā)布按鈕，釋放完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)公眾號地址文章。每行一個(gè) 2. 單擊采集請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)公眾號地址文章。每行一個(gè) 2. 單擊采集
　　查看全部

　　技術(shù)文章:豆瓣采集api
　　豆瓣采集api相關(guān)博客
　　Scrapy采集《以人民的名義》豆瓣評測實(shí)驗報告
　　轉載請注明出處?。?！實(shí)驗對象：豆瓣電影-人民的名義實(shí)驗目的：通過(guò)使用scrapy框架采集《以人民的名義》對內容進(jìn)行評價(jià)，進(jìn)一步了解信息檢索的過(guò)程。實(shí)驗過(guò)程：分析采集實(shí)體->確定采集方法->制定爬蟲(chóng)規則->編寫(xiě)代碼調試->獲取數據人名ps：由于最近
　　?葉5年前813
　　【雪峰磁針石博客】2018最佳人工智能資料采集（爬蟲(chóng)）參考書(shū)下載
　　Network Data in Python 采集 Network Data in Python采集 - 2016.pdf 本書(shū)以簡(jiǎn)潔而強大的Python語(yǔ)言介紹了網(wǎng)絡(luò )數據采集，并對采集進(jìn)行了介紹。 > 現代網(wǎng)絡(luò )。為各種數據類(lèi)型提供了全面的指導。第 1 部分重點(diǎn)介紹 Web 數據的基礎知識采集：如何使用 Python 從 Web 服務(wù)器請求信息
　　Python人工智能命理4年前1733
　　大數據與云計算學(xué)習：Python網(wǎng)絡(luò )數據采集
　　

　　本文將介紹 Web 數據的基礎知識采集：如何使用 Python 從 Web 服務(wù)器請求信息如何對服務(wù)器響應進(jìn)行基本處理如何以自動(dòng)化方式與網(wǎng)站交互如何創(chuàng )建域名切換、信息采集和信息存儲功能的爬蟲(chóng)學(xué)習路徑爬蟲(chóng)的基本原理所謂爬蟲(chóng)就是一個(gè)自動(dòng)化的數據采集工具，你
　　晶心院 4年前 3650
　　2018中國開(kāi)源年度報告發(fā)布，阿里系領(lǐng)跑
　　近日，開(kāi)源社發(fā)布了《2018中國開(kāi)源年度報告》，以調研和數據報告的形式展示了中國開(kāi)源的全貌。其中，阿里系統一馬當先，在活躍開(kāi)源產(chǎn)品前5名中，阿里系統占據了4個(gè)。在這四個(gè)開(kāi)源產(chǎn)品中，只有 PouchContainer 是非前端產(chǎn)品。第二部分數據 2.1 指南針指南針
　　技術(shù)專(zhuān)家 4年前 2633
　　Shiro系列（一）——權限管理簡(jiǎn)介及原理
　　1、什么是權限管理？一般來(lái)說(shuō)，只要有用戶(hù)參與，系統就需要進(jìn)行權限管理。權限管理實(shí)現了對用戶(hù)訪(fǎng)問(wèn)系統指定功能的限制。根據管理員定義的安全規則或權限策略，限制用戶(hù)只能訪(fǎng)問(wèn)那些他們被授權的資源路徑。權限管理包括用戶(hù)認證和授權
　　風(fēng)影月 5年前 932
　　【最佳實(shí)踐】esrally：Elasticsearch官方壓測工具及詳細應用
　　

　　作者介紹樸享科技CTO魏斌，開(kāi)源軟件愛(ài)好者，國內首位Elastic認證工程師，《Elastic Daily》和《ElasticTalk》社區項目發(fā)起人，榮獲2019年度合伙人架構師特別貢獻獎彈性中國。對于 Elasticear
　　工程師A 2年前 237
　　《深入講解Windows Phone 8應用開(kāi)發(fā)》
　　內容開(kāi)發(fā)基礎第1章概述 1.1 Windows Phone的技術(shù)特點(diǎn) 1.1.1 Windows Phone的發(fā)展 1.1.2 Windows Phone 8簡(jiǎn)介 1.1.3 Windows Phone 8的新特性 1.2 Windows Phone
　　技術(shù)專(zhuān)家 5年前 1318
　　大公司都有哪些開(kāi)源項目~~~ 阿里、百度、騰訊、360、新浪、網(wǎng)易、小米等。
　　紅色字體是現階段比較流行的---------------------------------------- ------------------------------------------------- ---------------------奇虎36
　　徐茂君4年前3896
　　最新版:【汽車(chē)/二手】[西風(fēng)]微信文章采集專(zhuān)業(yè)版 2.0
　　

　　[西風(fēng)]微信文章采集專(zhuān)業(yè)版2.0.1商業(yè)版dz插件分享批量采集公眾號文章功能等功能詳情后臺可按微信號,關(guān)鍵字搜索后批量采集公眾號文章，無(wú)需任何配置，支持批量發(fā)布到帖子和門(mén)戶(hù)文章，批量發(fā)布時(shí)可選擇每個(gè)文章發(fā)布發(fā)布到塊。前端發(fā)帖可以采集單微信文章，只要在插件中設置啟用論壇和用戶(hù)組即可。定時(shí)采集是2.1版本后新增的，在插件設置頁(yè)面填寫(xiě)定時(shí)采集公眾號的微信號，一行一個(gè)，（如果你的服務(wù)器性能和帶寬不夠, 請只填一個(gè)），插件使用定時(shí)任務(wù)抓取最新和采集5篇文章文章為這里填寫(xiě)的公眾號（注：因為微信反采集措施嚴格多變，常規任務(wù)成功率可能較低）主要特點(diǎn) 1.采集文章中的圖片和視頻可以保留微信文章的原創(chuàng )格式 2.無(wú)需任何配置，通過(guò)微信號和關(guān)鍵字搜索后續批次采集3. 可以設置成員發(fā)帖。4. 批量發(fā)帖時(shí)，除了發(fā)到默認論壇外，還可以設置每個(gè)文章單獨發(fā)到任意論壇。單獨設置每個(gè)帖子使用的成員 5.可以批量發(fā)布到傳送門(mén)文章，每個(gè)文章傳送到的傳送門(mén)頻道發(fā)布時(shí)可以單獨設置。6、采集的文本狀態(tài)有提示，如果采集文本因故失敗，可以重復采集8。前端發(fā)帖時(shí)，小編會(huì )顯示微信圖標，點(diǎn)擊插入微信文章 URL 即可自動(dòng)插入微信文章 9. 支持發(fā)帖、傳送門(mén)文章審核功能1.安裝激活后，在插件后臺設置頁(yè)面，可以更改默認的會(huì )員uid和發(fā)布的論壇 2.點(diǎn)擊開(kāi)始采集，輸入微信號或關(guān)鍵字采集3。采集最新文章列表成功后，可以全選或者選擇要采集文本的文章（比如刪除不需要的文章文章), 開(kāi)始采集文本 4, 文本采集完成后，可以選擇論壇單獨發(fā)布到每個(gè)文章或者全部發(fā)布到默認論壇，點(diǎn)擊發(fā)布完成7，在采集記錄中，可以批量發(fā)布到傳送門(mén)文章，可以設置每個(gè)文章發(fā)布到的傳送門(mén)頻道（必須有可以使用的傳送門(mén)頻道） 8.設置前端發(fā)帖權限使用微信插入文章功能啟用用戶(hù)組和論壇采集按微信ID采集： 1.搜索微信號并點(diǎn)擊或直接填寫(xiě)微信ID和昵稱(chēng)并點(diǎn)擊開(kāi)始采集2。顯示你最近獲得的10-30個(gè)采集文章標題，點(diǎn)擊標題旁邊的復選框確認你想要哪個(gè)采集 3. 然后點(diǎn)擊采集文本 4，采集采集之后，可以選擇直接發(fā)布到采集結果下的模塊或者重新采集text by keyword采集1，輸入關(guān)鍵字，點(diǎn)擊Search 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認需要的采集 3. 點(diǎn)擊下方的采集按鈕并發(fā)布按鈕，釋放將完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集輸入關(guān)鍵字，點(diǎn)擊搜索 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認您要的采集 3. 點(diǎn)擊下方的采集按鈕發(fā)布按鈕，釋放完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集輸入關(guān)鍵字，點(diǎn)擊搜索 2. 顯示獲取到的文章標題列表，點(diǎn)擊標題旁邊的復選框確認您要的采集 3. 點(diǎn)擊下方的采集按鈕發(fā)布按鈕，釋放完成。發(fā)布后，前端不顯示文章列表，請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)在公眾號文章的地址。每行一個(gè) 2. 單擊采集請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)公眾號地址文章。每行一個(gè) 2. 單擊采集請點(diǎn)擊后臺-工具-升級統計中第一個(gè)【提交】按鈕，按網(wǎng)址采集1，填寫(xiě)公眾號地址文章。每行一個(gè) 2. 單擊采集
　　

操作細節:直播源碼前期該如何運營(yíng)？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 100 次瀏覽 ? 2022-11-28 20:18 ? 來(lái)自相關(guān)話(huà)題

　　操作細節:直播源碼前期該如何運營(yíng)？
　　如今，直播行業(yè)越來(lái)越火爆，擁有自己的直播平臺已經(jīng)成為大眾不可或缺的需求。有人說(shuō)一對一直播源碼開(kāi)發(fā)只需要三步？這對很多人來(lái)說(shuō)是難以置信的。今天，小編就教大家分三步搭建一個(gè)完整的直播系統。
　　第一步：分解一對一直播系統的開(kāi)發(fā)功能，了解你需要的直播功能
　　1、采集：通過(guò)SDK接口直接采??集用戶(hù)設備的視頻、音頻等數據。視頻采樣數據一般采用RGB或YUV格式，音頻采樣數據一般采用PCM格式。
　　2、預處理：通過(guò)SDK層面的接口對采集到的數據進(jìn)行潤滑，主要是圖像處理，如美化、水印、濾鏡等。GPU優(yōu)化加速，平衡手機功耗和效果。
　　3. 編碼：對采集到的數據進(jìn)行壓縮編碼。比較常用的視頻編碼是H.264，音頻是AAC。在分辨率、幀數、碼率等參數的設計中找到最佳平衡點(diǎn)，使它們匹配推送流所需的協(xié)議，提高上傳效率。
　　4、推拉流：推流就是將壓縮后的音視頻轉換成流數據上傳到服務(wù)器。拉流是指通過(guò)播放器獲取碼流，從服務(wù)端拉取支持RTMP、HTTP-FLV、HLS等協(xié)議的音視頻流。
　　
　　5、解碼：對拉流打包后的視頻數據進(jìn)行高性能解碼，讓直播更流暢。
　　6、播放：解碼后的音頻數據可在播放端播放，支持MP4、FLV、M3U8等多種視頻播放格式。
　　第二步：
　　1、App框架搭建，直接在A(yíng)PICloud Studio中創(chuàng )建應用框架，常用的頁(yè)面框架有3個(gè)選項；
　　2. 積木拼裝，使用Java編寫(xiě)您選擇的所有模塊的頁(yè)面和模塊調用，使用HTML5+CSS3構建應用界面UI，完成App編碼的全過(guò)程；
　　3、真機調試，通過(guò)模擬器和真機調試功能優(yōu)化App，一鍵優(yōu)化iOS、Android手機中的App；
　　4、云編譯，將應用圖標、啟動(dòng)頁(yè)和證書(shū)上傳到APICloud網(wǎng)站，一鍵“云編譯”同時(shí)生成iOS和Android原生安裝包；
　　
　　5、云修復，使用云修復快速迭代，隨時(shí)發(fā)布新版本、新功能，無(wú)需提交新的安裝包。
　　第三步，管理模塊
　　1、前端：移動(dòng)端和PC端頁(yè)面效果的展示設計與維護
　　2.后臺：管理運行，數據庫管理
　　————————————————
　　版權聲明：本文為CSDN博主“山東布谷科技小菜”原創(chuàng )文章，遵循CC 4.0 BY-SA版權協(xié)議。轉載請附上原文出處鏈接及本聲明。
　　原文鏈接：
　　專(zhuān)業(yè)知識:設計師該如何做知識管理（下）
　　知識管理是將數據/信息動(dòng)態(tài)地轉化為知識/智慧的過(guò)程，以幫助我們做出更好的決策、解決問(wèn)題并實(shí)現持續增長(cháng)。本文作者從5個(gè)環(huán)節分析了如何做好知識管理，一起來(lái)學(xué)習吧。
　　上一篇文章講了什么是知識管理，為什么要做知識管理。我們掌握了一個(gè)底層模型，知道只有將信息轉化為知識，才能更好地指導我們的決策和行為。
　　知其然，知其所以然，我們來(lái)說(shuō)說(shuō)如何做知識管理？
　　我們所做的一切都必須有一個(gè)目的。有了目標，我們就知道把注意力放在哪里，才不會(huì )偏離方向。
　　還記得知識管理的定義嗎？“數據/信息動(dòng)態(tài)轉化為知識/智慧的過(guò)程，幫助我們做出更好的決策和行動(dòng)，解決問(wèn)題，實(shí)現持續成長(cháng)?！?br /> 　　知識管理的最終目的不是管理知識，而是改變自己，解決自己的問(wèn)題，讓自己成長(cháng)。（注意我這里特意強調了“自我”，這個(gè)很重要）接下來(lái)我將根據自己以往的經(jīng)驗，在5個(gè)環(huán)節中介紹如何做好知識管理。
　　1.信息獲取
　　第一步聽(tīng)起來(lái)簡(jiǎn)單，但這一步的來(lái)源直接決定了信息的質(zhì)量。這個(gè)環(huán)節隱藏著(zhù)三個(gè)誤區：被動(dòng)閱讀、固有場(chǎng)景、無(wú)盡漩渦。
　　1.被動(dòng)閱讀的問(wèn)題
　　少數派中的大佬路易卡德曾說(shuō)過(guò)：
　　不是我們沒(méi)有時(shí)間讀書(shū)，而是我們沒(méi)有時(shí)間主動(dòng)讀書(shū)。在閱讀什么信息的問(wèn)題上，很多人不自覺(jué)地選擇了被動(dòng)。前面我們提到，這個(gè)時(shí)代最不可或缺的就是內容，而大部分的內容都會(huì )被平臺推送到你嘴里。
　　如果沒(méi)有限制，大部分的信息獲取可能會(huì )以各種推送為主：抖音推送的熱門(mén)短視頻；微信群里各大廠(chǎng)裁員的消息；站主更新提示等。
　　就這樣，在這種無(wú)意識的信息獲取狀態(tài)下，你的注意力和時(shí)間都在不斷被攫取。但是其中有多少對您來(lái)說(shuō)真正有價(jià)值？解決這個(gè)問(wèn)題的方法簡(jiǎn)單粗暴：擺脫推送（或隱式推送），重新奪回閱讀的主導權。然后，我們有足夠的注意力來(lái)選擇那些質(zhì)量更高的信息。
　　2. 固有場(chǎng)景的問(wèn)題
　　很多設計師朋友，包括我自己，都下意識地認為有價(jià)值的信息只存在于各大廠(chǎng)商的優(yōu)質(zhì)文章、書(shū)籍、教程中，所以其他的信息獲取方式都下意識地被屏蔽掉了。
　　但事實(shí)并非如此。在前文提到的DIKW模型中，我們將信息解釋為“經(jīng)過(guò)主觀(guān)解釋并賦予意義的數據”，可以去除不確定性，回答簡(jiǎn)單的問(wèn)題。但是沒(méi)有介質(zhì)限制。換句話(huà)說(shuō)，除了那些創(chuàng )作者和作家制作的圖文資料，我們日常生活中的每一個(gè)場(chǎng)景都可以成為信息的來(lái)源。
　　以我幾年前的工作為例。左下角作品的靈感來(lái)自于我參觀(guān)宜家時(shí)看到的一間樣板間。這是給我的信息；寶座場(chǎng)景，也屬于信息。
　　因此，大家可以隨時(shí)留意，捕捉平時(shí)不被注意的有價(jià)值的信息。
　　這里我推薦flomo這個(gè)工具，非常適合臨時(shí)捕捉那些動(dòng)態(tài)的、難以抓取的信息。身邊朋友提到的一個(gè)觀(guān)點(diǎn)，坐地鐵時(shí)的一閃而過(guò)的想法等等，都可以快速記錄在這個(gè)應用上。
　　3.無(wú)盡漩渦的問(wèn)題
　　但是，如果你毫無(wú)節制地接受，你很容易卷入無(wú)盡的信息漩渦，被信息吞噬。這是第三個(gè)問(wèn)題，無(wú)盡的漩渦。識別和過(guò)濾不是最高質(zhì)量的信息源是唯一的方法。比如那些抱怨無(wú)病沒(méi)營(yíng)養的訂閱號，低質(zhì)量無(wú)趣的推薦新聞，每天推送十幾條信息的朋友圈等等。
　　最后推薦一些我認為非常優(yōu)質(zhì)的設計公眾號的信息源——
　　2.信息采集
　　這一步聽(tīng)起來(lái)很簡(jiǎn)單，躺下也很容易。給大家舉個(gè)場(chǎng)景——第一個(gè)場(chǎng)景是把微信的傳訊助手當成一個(gè)信息采集
工具，每次看到覺(jué)得不錯的就直接扔傳訊助手，其實(shí)微信的功能初衷是這樣的實(shí)際上是多個(gè)設備的組合。文件與文件之間的同步不是信息的集合，必然導致后續信息的查找和管理困難。
　　第二種場(chǎng)景是將各個(gè)應用中的采集
信息采集
到自己的采集
夾中。信息完全碎片化，無(wú)法聚合在一處，直接導致無(wú)法統一管理和訪(fǎng)問(wèn)信息。
　　除了以上問(wèn)題，更多的朋友會(huì )選擇將采集
的信息做成筆記工具。也長(cháng)期使用筆記工具采集
資料，印象筆記、語(yǔ)雀等，但最后都越來(lái)越臃腫和混亂。請注意，此工具比前兩個(gè)更好，但不是最佳解決方案。
　　在我們常規的理解中，將整個(gè)網(wǎng)絡(luò )的分片聚合到一個(gè)容器中，資源用于網(wǎng)盤(pán)，內容用于筆記。但回到工具本身，筆記工具的初衷是個(gè)人創(chuàng )作。一旦筆記系統同時(shí)與處理（即信息采集
）和創(chuàng )造混為一談，混亂和崩潰只是時(shí)間問(wèn)題。
　　筆記系統為創(chuàng )作而生，主要目標人群依然是創(chuàng )作者。這也意味著(zhù)它的服務(wù)是為創(chuàng )作者而不是消費者而構建和完善的。
　　例如，現有的筆記工具很難提供閱讀進(jìn)度、批注、復習、自定義排版等功能，而這些功能在信息處理中起著(zhù)至關(guān)重要的作用。所以，不是筆記工具不好，而是不適合采集
信息。就好比你用菜刀刮胡子，用工具做它不擅長(cháng)的事情。在我看來(lái)，一個(gè)好的采集工具至少需要滿(mǎn)足以下四個(gè)標準。
　　
　　可以快速將全網(wǎng)內容聚合到一處，整體系統存在；可分類(lèi)搜索，快速訪(fǎng)問(wèn)；支持高亮和標注，方便關(guān)鍵詞捕捉和聯(lián)想；完全獨立于筆記，專(zhuān)心閱讀，符合消費者需求
　　而后來(lái)的閱讀工具基本符合這四個(gè)標準。
　　稍后閱讀并不是一個(gè)新概念。早在十年前就被提出，一系列經(jīng)典產(chǎn)品由此誕生，如pocket、instapaper、readablity等。
　　簡(jiǎn)單來(lái)說(shuō)，稍后閱讀就是當你在任何一個(gè)平臺上看到好的內容，你都可以采集
在一個(gè)地方，以后有時(shí)間再看。
　　它最大的作用是把閱讀和深度閱讀區分開(kāi)來(lái)。比如很多信息只夠瀏覽，不需要二次加工（比如新聞、頭條黨、低價(jià)值的素材），那么這些信息就可以直接過(guò)濾加工；
　　而那些真正有價(jià)值的信息，可以傳遞給后來(lái)的讀者，供我們后續深入閱讀。我用過(guò)五款閱讀器，Pocket、Instapaper、Again、Twilar 和 Cubox，最后決定將 Cubox 作為我的主要工具。
　　簡(jiǎn)單演示一下采集功能。
　　當然cubox也有缺點(diǎn)，比如只支持網(wǎng)頁(yè)采集
，只支持無(wú)登錄門(mén)檻的內容采集
（付費課程需要登錄，無(wú)法采集
）。
　　3、信息處理
　　這個(gè)鏈接通常被稱(chēng)為閱讀鏈接，也是最容易說(shuō)謊的鏈接。但正是這一步，才是將信息轉化為知識的關(guān)鍵一步。還記得知識管理的最終目標嗎？——解決“我自己”的問(wèn)題，讓“我自己”不斷成長(cháng)。這里我特別強調“我自己”。我用三個(gè)角度來(lái)解釋原因。
　　1.系統1和系統2
　　卡尼曼在《Thinking Fast and Slow》中提到了System 1和System 2的概念。
　　大腦更習慣于不假思索地自動(dòng)反應，所以大腦習慣于用已經(jīng)掌握的舊概念來(lái)理解新概念，以減少大腦能量消耗。否則，你會(huì )覺(jué)得每學(xué)一個(gè)資料都是新知識，又得花時(shí)間再學(xué)一遍。這里的舊概念是我自己的。
　　因此，聯(lián)想過(guò)去舊的認知，符合大腦第一系統的習慣，實(shí)現知識的聯(lián)系和流動(dòng)，不僅加深了理解，也進(jìn)一步驗證和完善了以前的知識體系。
　　2. 艾賓浩斯實(shí)驗
　　提到遺忘曲線(xiàn)，大家應該能想到艾賓豪斯。他曾進(jìn)行過(guò)一年多的兩組記憶實(shí)驗，在實(shí)驗過(guò)程中發(fā)現了一個(gè)有趣的現象。學(xué)生首先忘記的是，它基本上是不重要的、無(wú)意義的、無(wú)趣的、不熟悉的內容。
　　那么如何快速讓一件事情變得重要和有意義呢？就人性而言，每個(gè)人都最關(guān)心自己。因此，一旦信息與你自己相關(guān)，就與你的工作、生活相關(guān)，那么信息就變得重要、有意義，從而降低遺忘的優(yōu)先級。
　　三、知識的定義
　　讓我們回到知識的定義——只有能夠應用到工作和生活中，能夠指導行為的信息，才能算作知識。它適用于誰(shuí)的生活，指導誰(shuí)的行為？同樣，我自己也是。綜上所述，信息處理的關(guān)鍵是在輸入的同時(shí)加入一個(gè)思維動(dòng)作。這個(gè)思考動(dòng)作的關(guān)鍵是聯(lián)想自己。
　　這種自聯(lián)想的閱讀方式也可以稱(chēng)為功利閱讀，以“解決問(wèn)題”為最終導向，快速收獲對我們真正有用的信息，然后通過(guò)做行為引導來(lái)指導未來(lái)的行為。
　　聽(tīng)起來(lái)有點(diǎn)抽象，我舉個(gè)例子。
　　比如我們看大廠(chǎng)的文章，看到一篇競品分析方法的文章，你可以像往常一樣看完后選擇驚嘆“偉大”，然后就沒(méi)了。但你也可以選擇更進(jìn)一步，聯(lián)系你自己的想法：
　　只需多一步簡(jiǎn)單的思考，即可實(shí)現信息向知識的轉化。由此，可以快速落地到解決問(wèn)題的層面，并根據后續的反饋不斷迭代。
　　協(xié)會(huì )自己的信息就是這樣處理的。下一階段是我們的首要任務(wù)。
　　四、資料整理
　　這一步的目的是將加工階段得到的碎片化信息整合到一個(gè)系統中。那么如何整合呢？有現成的方法嗎？來(lái)看看大佬們怎么說(shuō)。
　　我們應該把知識想象成一棵樹(shù)，知道了最根本的道理，才能深入細節，樹(shù)干和樹(shù)枝，沒(méi)有樹(shù)葉就無(wú)處附著(zhù)?！?埃隆·馬斯克
　　如果您只是孤立地記住事物并試圖將它們拼湊在一起，您將無(wú)法真正理解任何東西……您必須依靠模型框架來(lái)組織您的體驗?！槔怼っ⒏?，《窮查理年鑒》
　　
　　由此可見(jiàn)，有相似之處：為了更好的理解，需要安排一個(gè)結構化的框架作為載體。
　　因此，信息集成的主要方法是建立知識樹(shù)。（也可以叫知識庫、知識系統等，沒(méi)有區別）
　　1.什么是知識樹(shù)
　　簡(jiǎn)單來(lái)說(shuō)，知識樹(shù)就是一個(gè)金字塔結構的知識體系。樹(shù)干對應骨架，樹(shù)葉對應知識，果實(shí)對應多次學(xué)習積累的智慧。其中，知識和經(jīng)驗恰好對應于dikw模型中的k和w。
　　2、為什么要用知識樹(shù)作為外腦，永久快速的存儲知識，訪(fǎng)問(wèn)金字塔結構，讓知識成為系統，抗碎片化。通過(guò)反復的存儲和存取，加快形成長(cháng)期記憶的步伐，記憶力更強
　　下面簡(jiǎn)單說(shuō)明一下第三點(diǎn)。當我們說(shuō)記住某事時(shí)，我們指的是長(cháng)期記憶。
　　從生物學(xué)上講，長(cháng)期記憶的形成和鞏固依賴(lài)于神經(jīng)元反復刺激后神經(jīng)元間突觸的強化和誕生。不斷的存取過(guò)程，其實(shí)就是對神經(jīng)元的反復刺激，讓我們在不知不覺(jué)中記住得更牢。
　　3.如何構建知識樹(shù)
　　我們可以想象一棵樹(shù)的生長(cháng)過(guò)程，先是枝條，然后是葉子。因此，第一步是構建框架。這一步要注意三點(diǎn)：
　　因為筆記系統作為外腦，需要在筆記的基礎上遵循mece原則：相互獨立，完全窮舉建立秩序：使用編碼系統（如杜威十進(jìn)制編碼）輔助我們按順序快速瀏覽和搜索
　　讓我們舉一個(gè)關(guān)于編碼系統的例子。假設我們要構建一個(gè)個(gè)人能力的知識樹(shù)框架，使用杜威十進(jìn)制編碼時(shí)就是這樣的：
　　頂層框架使用了數百位的漸進(jìn)式排序。比如一般能力、專(zhuān)業(yè)能力、影響力的序號分別是100、200、300……分等級采用十位數遞進(jìn)排序。比如職業(yè)能力下的子等級序號分別是210、220、230……
　　尾層按個(gè)位數遞進(jìn)排序。例如，布局能力的子級序號為211、212、213……通過(guò)這樣的三級嵌套編碼，可以簡(jiǎn)單高效地建立類(lèi)別的順序，提高了易用性。
　　第二步是填知識。這一步的指導原則是：只保留對你有用的，丟棄其他的。
　　因此，此時(shí)的文章不再是一個(gè)密不可分的整體，而是由標題、事實(shí)案例、金句、觀(guān)點(diǎn)、故事、思維方式等組成的素材集。然后，基于文中提到的“功利閱讀”信息處理，我們拆解了所有對我有用的部分。
　　比如一篇關(guān)于設計師如何做競品分析的文章，我覺(jué)得2個(gè)方法3個(gè)金句4個(gè)案例對我有用，可以單獨拆解。目的是為了快速收獲對我們有用的信息，保存到我們自己的知識庫中，為我所用。
　　這一步要注意四點(diǎn)：
　　附上自己的思考和感悟，與自己多一些聯(lián)系！這是將信息轉化為知識的關(guān)鍵；附上原創(chuàng )
出處和鏈接，當我們從拆解筆記看不懂時(shí)，可以通過(guò)鏈接追溯原文理解；多使用筆記的鏈接功能來(lái)創(chuàng )建信息通路。（比如概念工具可以建立一個(gè)數據庫，把這些提取出來(lái)的信息做成卡片。synced塊雙鏈功能可以把引用這張卡片的頁(yè)面串聯(lián)起來(lái)，如果知識類(lèi)型不夠或者有問(wèn)題，該框架可以隨時(shí)迭代，知識管理是一個(gè)連續的動(dòng)態(tài)過(guò)程，每一次迭代都是一次思維的梳理和升級。
　　接下來(lái)，我們終于來(lái)到了最后一步。
　　5.信息內部化
　　信息內化的目的是讓信息融入我們的身體，完全成為我們自己。說(shuō)到這里，就不得不提一位大師——理查德·費曼。他曾說(shuō)過(guò)：如果你不能把一個(gè)科學(xué)概念解釋得讓一個(gè)大一新生都能看懂，那說(shuō)明你還沒(méi)有真正理解它。
　　費曼的意思是，我們需要通過(guò)教學(xué)來(lái)面對自己的知識盲點(diǎn)，通過(guò)教學(xué)來(lái)查漏補缺。具體步驟是：
　　選擇一個(gè)你想內化的概念，假裝告訴外行你卡住了，解釋那些卡住的地方恰恰是你的盲點(diǎn)，你需要回到原創(chuàng )
材料重新學(xué)習和簡(jiǎn)化，直到你能流利地表達出來(lái)
　　當然，講外行只是其中一種教學(xué)方式，只要對外輸出，形式不限。比如：寫(xiě)作、在線(xiàn)分享、短視頻輸出，甚至是簡(jiǎn)單的自言自語(yǔ)等等。當然，寫(xiě)作仍然是我最推薦的對外輸出方式。
　　1、為什么推薦寫(xiě)作？
　　簡(jiǎn)單的從教而不學(xué)、投入成本、能力加持和影響四個(gè)角度說(shuō)說(shuō)寫(xiě)作的好處。
　　寫(xiě)作作為知識管理的最后一環(huán)，可以很好的以教代學(xué)，反向逼迫你查漏補缺，對知識點(diǎn)進(jìn)行深入思考，更有效的內化你所學(xué)，幫助你成長(cháng)；與短視頻、直播等輸出方式相比，寫(xiě)作的投入成本是最低的，不需要腳本、剪輯、配音等步驟；寫(xiě)作對其他相關(guān)能力有明顯加持：如邏輯能力、演講能力、報告能力等，值得一次寫(xiě)作提升多項能力；公開(kāi)寫(xiě)作意味著(zhù)持續曝光，持續曝光意味著(zhù)影響力提升。當一個(gè)設計師在行業(yè)內積累了一定的影響力后，這意味著(zhù)越來(lái)越多的機會(huì )和資源會(huì )來(lái)到你身邊。標題，講座，貨幣化等。
　　而且很多大廠(chǎng)設計師的能力模型和晉升機制，不僅有過(guò)硬的專(zhuān)業(yè)能力，還有對行業(yè)影響力的要求。因此，長(cháng)期寫(xiě)作對求職和晉升有積極的影響。
　　另外，我也在堅持寫(xiě)作。包括這篇文章在內的兩年半時(shí)間里，我在公眾號上一共輸出了100篇原創(chuàng )文章。
　　寫(xiě)作給我帶來(lái)的變化可以說(shuō)是翻天覆地的。我成了專(zhuān)欄作家；受邀給大學(xué)生做線(xiàn)下講座；受58UXD邀請在線(xiàn)分享；越來(lái)越多的朋友主動(dòng)聯(lián)系，結交了新的伙伴、貴人甚至伙伴；吸引更多的業(yè)務(wù)訂單，套現等。寫(xiě)作可能不會(huì )直接讓你賺錢(qián)，但一定會(huì )讓你變得更有價(jià)值。查看全部

　　操作細節:直播源碼前期該如何運營(yíng)？
　　如今，直播行業(yè)越來(lái)越火爆，擁有自己的直播平臺已經(jīng)成為大眾不可或缺的需求。有人說(shuō)一對一直播源碼開(kāi)發(fā)只需要三步？這對很多人來(lái)說(shuō)是難以置信的。今天，小編就教大家分三步搭建一個(gè)完整的直播系統。
　　第一步：分解一對一直播系統的開(kāi)發(fā)功能，了解你需要的直播功能
　　1、采集：通過(guò)SDK接口直接采??集用戶(hù)設備的視頻、音頻等數據。視頻采樣數據一般采用RGB或YUV格式，音頻采樣數據一般采用PCM格式。
　　2、預處理：通過(guò)SDK層面的接口對采集到的數據進(jìn)行潤滑，主要是圖像處理，如美化、水印、濾鏡等。GPU優(yōu)化加速，平衡手機功耗和效果。
　　3. 編碼：對采集到的數據進(jìn)行壓縮編碼。比較常用的視頻編碼是H.264，音頻是AAC。在分辨率、幀數、碼率等參數的設計中找到最佳平衡點(diǎn)，使它們匹配推送流所需的協(xié)議，提高上傳效率。
　　4、推拉流：推流就是將壓縮后的音視頻轉換成流數據上傳到服務(wù)器。拉流是指通過(guò)播放器獲取碼流，從服務(wù)端拉取支持RTMP、HTTP-FLV、HLS等協(xié)議的音視頻流。
　　

　　5、解碼：對拉流打包后的視頻數據進(jìn)行高性能解碼，讓直播更流暢。
　　6、播放：解碼后的音頻數據可在播放端播放，支持MP4、FLV、M3U8等多種視頻播放格式。
　　第二步：
　　1、App框架搭建，直接在A(yíng)PICloud Studio中創(chuàng )建應用框架，常用的頁(yè)面框架有3個(gè)選項；
　　2. 積木拼裝，使用Java編寫(xiě)您選擇的所有模塊的頁(yè)面和模塊調用，使用HTML5+CSS3構建應用界面UI，完成App編碼的全過(guò)程；
　　3、真機調試，通過(guò)模擬器和真機調試功能優(yōu)化App，一鍵優(yōu)化iOS、Android手機中的App；
　　4、云編譯，將應用圖標、啟動(dòng)頁(yè)和證書(shū)上傳到APICloud網(wǎng)站，一鍵“云編譯”同時(shí)生成iOS和Android原生安裝包；
　　

　　5、云修復，使用云修復快速迭代，隨時(shí)發(fā)布新版本、新功能，無(wú)需提交新的安裝包。
　　第三步，管理模塊
　　1、前端：移動(dòng)端和PC端頁(yè)面效果的展示設計與維護
　　2.后臺：管理運行，數據庫管理
　　————————————————
　　版權聲明：本文為CSDN博主“山東布谷科技小菜”原創(chuàng )文章，遵循CC 4.0 BY-SA版權協(xié)議。轉載請附上原文出處鏈接及本聲明。
　　原文鏈接：
　　專(zhuān)業(yè)知識:設計師該如何做知識管理（下）
　　知識管理是將數據/信息動(dòng)態(tài)地轉化為知識/智慧的過(guò)程，以幫助我們做出更好的決策、解決問(wèn)題并實(shí)現持續增長(cháng)。本文作者從5個(gè)環(huán)節分析了如何做好知識管理，一起來(lái)學(xué)習吧。
　　上一篇文章講了什么是知識管理，為什么要做知識管理。我們掌握了一個(gè)底層模型，知道只有將信息轉化為知識，才能更好地指導我們的決策和行為。
　　知其然，知其所以然，我們來(lái)說(shuō)說(shuō)如何做知識管理？
　　我們所做的一切都必須有一個(gè)目的。有了目標，我們就知道把注意力放在哪里，才不會(huì )偏離方向。
　　還記得知識管理的定義嗎？“數據/信息動(dòng)態(tài)轉化為知識/智慧的過(guò)程，幫助我們做出更好的決策和行動(dòng)，解決問(wèn)題，實(shí)現持續成長(cháng)?！?br /> 　　知識管理的最終目的不是管理知識，而是改變自己，解決自己的問(wèn)題，讓自己成長(cháng)。（注意我這里特意強調了“自我”，這個(gè)很重要）接下來(lái)我將根據自己以往的經(jīng)驗，在5個(gè)環(huán)節中介紹如何做好知識管理。
　　1.信息獲取
　　第一步聽(tīng)起來(lái)簡(jiǎn)單，但這一步的來(lái)源直接決定了信息的質(zhì)量。這個(gè)環(huán)節隱藏著(zhù)三個(gè)誤區：被動(dòng)閱讀、固有場(chǎng)景、無(wú)盡漩渦。
　　1.被動(dòng)閱讀的問(wèn)題
　　少數派中的大佬路易卡德曾說(shuō)過(guò)：
　　不是我們沒(méi)有時(shí)間讀書(shū)，而是我們沒(méi)有時(shí)間主動(dòng)讀書(shū)。在閱讀什么信息的問(wèn)題上，很多人不自覺(jué)地選擇了被動(dòng)。前面我們提到，這個(gè)時(shí)代最不可或缺的就是內容，而大部分的內容都會(huì )被平臺推送到你嘴里。
　　如果沒(méi)有限制，大部分的信息獲取可能會(huì )以各種推送為主：抖音推送的熱門(mén)短視頻；微信群里各大廠(chǎng)裁員的消息；站主更新提示等。
　　就這樣，在這種無(wú)意識的信息獲取狀態(tài)下，你的注意力和時(shí)間都在不斷被攫取。但是其中有多少對您來(lái)說(shuō)真正有價(jià)值？解決這個(gè)問(wèn)題的方法簡(jiǎn)單粗暴：擺脫推送（或隱式推送），重新奪回閱讀的主導權。然后，我們有足夠的注意力來(lái)選擇那些質(zhì)量更高的信息。
　　2. 固有場(chǎng)景的問(wèn)題
　　很多設計師朋友，包括我自己，都下意識地認為有價(jià)值的信息只存在于各大廠(chǎng)商的優(yōu)質(zhì)文章、書(shū)籍、教程中，所以其他的信息獲取方式都下意識地被屏蔽掉了。
　　但事實(shí)并非如此。在前文提到的DIKW模型中，我們將信息解釋為“經(jīng)過(guò)主觀(guān)解釋并賦予意義的數據”，可以去除不確定性，回答簡(jiǎn)單的問(wèn)題。但是沒(méi)有介質(zhì)限制。換句話(huà)說(shuō)，除了那些創(chuàng )作者和作家制作的圖文資料，我們日常生活中的每一個(gè)場(chǎng)景都可以成為信息的來(lái)源。
　　以我幾年前的工作為例。左下角作品的靈感來(lái)自于我參觀(guān)宜家時(shí)看到的一間樣板間。這是給我的信息；寶座場(chǎng)景，也屬于信息。
　　因此，大家可以隨時(shí)留意，捕捉平時(shí)不被注意的有價(jià)值的信息。
　　這里我推薦flomo這個(gè)工具，非常適合臨時(shí)捕捉那些動(dòng)態(tài)的、難以抓取的信息。身邊朋友提到的一個(gè)觀(guān)點(diǎn)，坐地鐵時(shí)的一閃而過(guò)的想法等等，都可以快速記錄在這個(gè)應用上。
　　3.無(wú)盡漩渦的問(wèn)題
　　但是，如果你毫無(wú)節制地接受，你很容易卷入無(wú)盡的信息漩渦，被信息吞噬。這是第三個(gè)問(wèn)題，無(wú)盡的漩渦。識別和過(guò)濾不是最高質(zhì)量的信息源是唯一的方法。比如那些抱怨無(wú)病沒(méi)營(yíng)養的訂閱號，低質(zhì)量無(wú)趣的推薦新聞，每天推送十幾條信息的朋友圈等等。
　　最后推薦一些我認為非常優(yōu)質(zhì)的設計公眾號的信息源——
　　2.信息采集
　　這一步聽(tīng)起來(lái)很簡(jiǎn)單，躺下也很容易。給大家舉個(gè)場(chǎng)景——第一個(gè)場(chǎng)景是把微信的傳訊助手當成一個(gè)信息采集
工具，每次看到覺(jué)得不錯的就直接扔傳訊助手，其實(shí)微信的功能初衷是這樣的實(shí)際上是多個(gè)設備的組合。文件與文件之間的同步不是信息的集合，必然導致后續信息的查找和管理困難。
　　第二種場(chǎng)景是將各個(gè)應用中的采集
信息采集
到自己的采集
夾中。信息完全碎片化，無(wú)法聚合在一處，直接導致無(wú)法統一管理和訪(fǎng)問(wèn)信息。
　　除了以上問(wèn)題，更多的朋友會(huì )選擇將采集
的信息做成筆記工具。也長(cháng)期使用筆記工具采集
資料，印象筆記、語(yǔ)雀等，但最后都越來(lái)越臃腫和混亂。請注意，此工具比前兩個(gè)更好，但不是最佳解決方案。
　　在我們常規的理解中，將整個(gè)網(wǎng)絡(luò )的分片聚合到一個(gè)容器中，資源用于網(wǎng)盤(pán)，內容用于筆記。但回到工具本身，筆記工具的初衷是個(gè)人創(chuàng )作。一旦筆記系統同時(shí)與處理（即信息采集
）和創(chuàng )造混為一談，混亂和崩潰只是時(shí)間問(wèn)題。
　　筆記系統為創(chuàng )作而生，主要目標人群依然是創(chuàng )作者。這也意味著(zhù)它的服務(wù)是為創(chuàng )作者而不是消費者而構建和完善的。
　　例如，現有的筆記工具很難提供閱讀進(jìn)度、批注、復習、自定義排版等功能，而這些功能在信息處理中起著(zhù)至關(guān)重要的作用。所以，不是筆記工具不好，而是不適合采集
信息。就好比你用菜刀刮胡子，用工具做它不擅長(cháng)的事情。在我看來(lái)，一個(gè)好的采集工具至少需要滿(mǎn)足以下四個(gè)標準。
　　

　　可以快速將全網(wǎng)內容聚合到一處，整體系統存在；可分類(lèi)搜索，快速訪(fǎng)問(wèn)；支持高亮和標注，方便關(guān)鍵詞捕捉和聯(lián)想；完全獨立于筆記，專(zhuān)心閱讀，符合消費者需求
　　而后來(lái)的閱讀工具基本符合這四個(gè)標準。
　　稍后閱讀并不是一個(gè)新概念。早在十年前就被提出，一系列經(jīng)典產(chǎn)品由此誕生，如pocket、instapaper、readablity等。
　　簡(jiǎn)單來(lái)說(shuō)，稍后閱讀就是當你在任何一個(gè)平臺上看到好的內容，你都可以采集
在一個(gè)地方，以后有時(shí)間再看。
　　它最大的作用是把閱讀和深度閱讀區分開(kāi)來(lái)。比如很多信息只夠瀏覽，不需要二次加工（比如新聞、頭條黨、低價(jià)值的素材），那么這些信息就可以直接過(guò)濾加工；
　　而那些真正有價(jià)值的信息，可以傳遞給后來(lái)的讀者，供我們后續深入閱讀。我用過(guò)五款閱讀器，Pocket、Instapaper、Again、Twilar 和 Cubox，最后決定將 Cubox 作為我的主要工具。
　　簡(jiǎn)單演示一下采集功能。
　　當然cubox也有缺點(diǎn)，比如只支持網(wǎng)頁(yè)采集
，只支持無(wú)登錄門(mén)檻的內容采集
（付費課程需要登錄，無(wú)法采集
）。
　　3、信息處理
　　這個(gè)鏈接通常被稱(chēng)為閱讀鏈接，也是最容易說(shuō)謊的鏈接。但正是這一步，才是將信息轉化為知識的關(guān)鍵一步。還記得知識管理的最終目標嗎？——解決“我自己”的問(wèn)題，讓“我自己”不斷成長(cháng)。這里我特別強調“我自己”。我用三個(gè)角度來(lái)解釋原因。
　　1.系統1和系統2
　　卡尼曼在《Thinking Fast and Slow》中提到了System 1和System 2的概念。
　　大腦更習慣于不假思索地自動(dòng)反應，所以大腦習慣于用已經(jīng)掌握的舊概念來(lái)理解新概念，以減少大腦能量消耗。否則，你會(huì )覺(jué)得每學(xué)一個(gè)資料都是新知識，又得花時(shí)間再學(xué)一遍。這里的舊概念是我自己的。
　　因此，聯(lián)想過(guò)去舊的認知，符合大腦第一系統的習慣，實(shí)現知識的聯(lián)系和流動(dòng)，不僅加深了理解，也進(jìn)一步驗證和完善了以前的知識體系。
　　2. 艾賓浩斯實(shí)驗
　　提到遺忘曲線(xiàn)，大家應該能想到艾賓豪斯。他曾進(jìn)行過(guò)一年多的兩組記憶實(shí)驗，在實(shí)驗過(guò)程中發(fā)現了一個(gè)有趣的現象。學(xué)生首先忘記的是，它基本上是不重要的、無(wú)意義的、無(wú)趣的、不熟悉的內容。
　　那么如何快速讓一件事情變得重要和有意義呢？就人性而言，每個(gè)人都最關(guān)心自己。因此，一旦信息與你自己相關(guān)，就與你的工作、生活相關(guān)，那么信息就變得重要、有意義，從而降低遺忘的優(yōu)先級。
　　三、知識的定義
　　讓我們回到知識的定義——只有能夠應用到工作和生活中，能夠指導行為的信息，才能算作知識。它適用于誰(shuí)的生活，指導誰(shuí)的行為？同樣，我自己也是。綜上所述，信息處理的關(guān)鍵是在輸入的同時(shí)加入一個(gè)思維動(dòng)作。這個(gè)思考動(dòng)作的關(guān)鍵是聯(lián)想自己。
　　這種自聯(lián)想的閱讀方式也可以稱(chēng)為功利閱讀，以“解決問(wèn)題”為最終導向，快速收獲對我們真正有用的信息，然后通過(guò)做行為引導來(lái)指導未來(lái)的行為。
　　聽(tīng)起來(lái)有點(diǎn)抽象，我舉個(gè)例子。
　　比如我們看大廠(chǎng)的文章，看到一篇競品分析方法的文章，你可以像往常一樣看完后選擇驚嘆“偉大”，然后就沒(méi)了。但你也可以選擇更進(jìn)一步，聯(lián)系你自己的想法：
　　只需多一步簡(jiǎn)單的思考，即可實(shí)現信息向知識的轉化。由此，可以快速落地到解決問(wèn)題的層面，并根據后續的反饋不斷迭代。
　　協(xié)會(huì )自己的信息就是這樣處理的。下一階段是我們的首要任務(wù)。
　　四、資料整理
　　這一步的目的是將加工階段得到的碎片化信息整合到一個(gè)系統中。那么如何整合呢？有現成的方法嗎？來(lái)看看大佬們怎么說(shuō)。
　　我們應該把知識想象成一棵樹(shù)，知道了最根本的道理，才能深入細節，樹(shù)干和樹(shù)枝，沒(méi)有樹(shù)葉就無(wú)處附著(zhù)?！?埃隆·馬斯克
　　如果您只是孤立地記住事物并試圖將它們拼湊在一起，您將無(wú)法真正理解任何東西……您必須依靠模型框架來(lái)組織您的體驗?！槔怼っ⒏?，《窮查理年鑒》
　　

　　由此可見(jiàn)，有相似之處：為了更好的理解，需要安排一個(gè)結構化的框架作為載體。
　　因此，信息集成的主要方法是建立知識樹(shù)。（也可以叫知識庫、知識系統等，沒(méi)有區別）
　　1.什么是知識樹(shù)
　　簡(jiǎn)單來(lái)說(shuō)，知識樹(shù)就是一個(gè)金字塔結構的知識體系。樹(shù)干對應骨架，樹(shù)葉對應知識，果實(shí)對應多次學(xué)習積累的智慧。其中，知識和經(jīng)驗恰好對應于dikw模型中的k和w。
　　2、為什么要用知識樹(shù)作為外腦，永久快速的存儲知識，訪(fǎng)問(wèn)金字塔結構，讓知識成為系統，抗碎片化。通過(guò)反復的存儲和存取，加快形成長(cháng)期記憶的步伐，記憶力更強
　　下面簡(jiǎn)單說(shuō)明一下第三點(diǎn)。當我們說(shuō)記住某事時(shí)，我們指的是長(cháng)期記憶。
　　從生物學(xué)上講，長(cháng)期記憶的形成和鞏固依賴(lài)于神經(jīng)元反復刺激后神經(jīng)元間突觸的強化和誕生。不斷的存取過(guò)程，其實(shí)就是對神經(jīng)元的反復刺激，讓我們在不知不覺(jué)中記住得更牢。
　　3.如何構建知識樹(shù)
　　我們可以想象一棵樹(shù)的生長(cháng)過(guò)程，先是枝條，然后是葉子。因此，第一步是構建框架。這一步要注意三點(diǎn)：
　　因為筆記系統作為外腦，需要在筆記的基礎上遵循mece原則：相互獨立，完全窮舉建立秩序：使用編碼系統（如杜威十進(jìn)制編碼）輔助我們按順序快速瀏覽和搜索
　　讓我們舉一個(gè)關(guān)于編碼系統的例子。假設我們要構建一個(gè)個(gè)人能力的知識樹(shù)框架，使用杜威十進(jìn)制編碼時(shí)就是這樣的：
　　頂層框架使用了數百位的漸進(jìn)式排序。比如一般能力、專(zhuān)業(yè)能力、影響力的序號分別是100、200、300……分等級采用十位數遞進(jìn)排序。比如職業(yè)能力下的子等級序號分別是210、220、230……
　　尾層按個(gè)位數遞進(jìn)排序。例如，布局能力的子級序號為211、212、213……通過(guò)這樣的三級嵌套編碼，可以簡(jiǎn)單高效地建立類(lèi)別的順序，提高了易用性。
　　第二步是填知識。這一步的指導原則是：只保留對你有用的，丟棄其他的。
　　因此，此時(shí)的文章不再是一個(gè)密不可分的整體，而是由標題、事實(shí)案例、金句、觀(guān)點(diǎn)、故事、思維方式等組成的素材集。然后，基于文中提到的“功利閱讀”信息處理，我們拆解了所有對我有用的部分。
　　比如一篇關(guān)于設計師如何做競品分析的文章，我覺(jué)得2個(gè)方法3個(gè)金句4個(gè)案例對我有用，可以單獨拆解。目的是為了快速收獲對我們有用的信息，保存到我們自己的知識庫中，為我所用。
　　這一步要注意四點(diǎn)：
　　附上自己的思考和感悟，與自己多一些聯(lián)系！這是將信息轉化為知識的關(guān)鍵；附上原創(chuàng )
出處和鏈接，當我們從拆解筆記看不懂時(shí)，可以通過(guò)鏈接追溯原文理解；多使用筆記的鏈接功能來(lái)創(chuàng )建信息通路。（比如概念工具可以建立一個(gè)數據庫，把這些提取出來(lái)的信息做成卡片。synced塊雙鏈功能可以把引用這張卡片的頁(yè)面串聯(lián)起來(lái)，如果知識類(lèi)型不夠或者有問(wèn)題，該框架可以隨時(shí)迭代，知識管理是一個(gè)連續的動(dòng)態(tài)過(guò)程，每一次迭代都是一次思維的梳理和升級。
　　接下來(lái)，我們終于來(lái)到了最后一步。
　　5.信息內部化
　　信息內化的目的是讓信息融入我們的身體，完全成為我們自己。說(shuō)到這里，就不得不提一位大師——理查德·費曼。他曾說(shuō)過(guò)：如果你不能把一個(gè)科學(xué)概念解釋得讓一個(gè)大一新生都能看懂，那說(shuō)明你還沒(méi)有真正理解它。
　　費曼的意思是，我們需要通過(guò)教學(xué)來(lái)面對自己的知識盲點(diǎn)，通過(guò)教學(xué)來(lái)查漏補缺。具體步驟是：
　　選擇一個(gè)你想內化的概念，假裝告訴外行你卡住了，解釋那些卡住的地方恰恰是你的盲點(diǎn)，你需要回到原創(chuàng )
材料重新學(xué)習和簡(jiǎn)化，直到你能流利地表達出來(lái)
　　當然，講外行只是其中一種教學(xué)方式，只要對外輸出，形式不限。比如：寫(xiě)作、在線(xiàn)分享、短視頻輸出，甚至是簡(jiǎn)單的自言自語(yǔ)等等。當然，寫(xiě)作仍然是我最推薦的對外輸出方式。
　　1、為什么推薦寫(xiě)作？
　　簡(jiǎn)單的從教而不學(xué)、投入成本、能力加持和影響四個(gè)角度說(shuō)說(shuō)寫(xiě)作的好處。
　　寫(xiě)作作為知識管理的最后一環(huán)，可以很好的以教代學(xué)，反向逼迫你查漏補缺，對知識點(diǎn)進(jìn)行深入思考，更有效的內化你所學(xué)，幫助你成長(cháng)；與短視頻、直播等輸出方式相比，寫(xiě)作的投入成本是最低的，不需要腳本、剪輯、配音等步驟；寫(xiě)作對其他相關(guān)能力有明顯加持：如邏輯能力、演講能力、報告能力等，值得一次寫(xiě)作提升多項能力；公開(kāi)寫(xiě)作意味著(zhù)持續曝光，持續曝光意味著(zhù)影響力提升。當一個(gè)設計師在行業(yè)內積累了一定的影響力后，這意味著(zhù)越來(lái)越多的機會(huì )和資源會(huì )來(lái)到你身邊。標題，講座，貨幣化等。
　　而且很多大廠(chǎng)設計師的能力模型和晉升機制，不僅有過(guò)硬的專(zhuān)業(yè)能力，還有對行業(yè)影響力的要求。因此，長(cháng)期寫(xiě)作對求職和晉升有積極的影響。
　　另外，我也在堅持寫(xiě)作。包括這篇文章在內的兩年半時(shí)間里，我在公眾號上一共輸出了100篇原創(chuàng )文章。
　　寫(xiě)作給我帶來(lái)的變化可以說(shuō)是翻天覆地的。我成了專(zhuān)欄作家；受邀給大學(xué)生做線(xiàn)下講座；受58UXD邀請在線(xiàn)分享；越來(lái)越多的朋友主動(dòng)聯(lián)系，結交了新的伙伴、貴人甚至伙伴；吸引更多的業(yè)務(wù)訂單，套現等。寫(xiě)作可能不會(huì )直接讓你賺錢(qián)，但一定會(huì )讓你變得更有價(jià)值。

文章采集api 技巧:Skywalking快速入門(mén)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 407 次瀏覽 ? 2022-11-28 20:17 ? 來(lái)自相關(guān)話(huà)題

　　文章采集api 技巧:Skywalking快速入門(mén)
　　空中漫步快速入門(mén)
　　文章目錄
　　1. 官方地址：阿帕奇空中漫步 2.下載源代碼
　　3. 空中漫步重要參考文件
　　了解有關(guān)空中漫步代理的更多信息
　　Skywalking+Elasticsearch安裝和應用程序（電子郵件警報）。
　　官方向導方案：孵化器-天空漫步/blob/5.x/docs/README.md
　　中文文檔在這里：incubator-skywalking/blob/5.x/docs/README_ZH.md
　　Centos 安裝空中漫步 8.9.1
　　空中漫步集群建筑
　　空中漫步集群部署
　　天空漫步官方下載地址
　　Skywalking的UI日志監控是如何做的，如何分析性能，以及如何監控警報。
　　基于天空漫步的服務(wù)鏈路跟蹤
　　_SkyWalking構建和使用分布式鏈路跟蹤系統
　　Skywalking后端 - 官方網(wǎng)站文檔
　　春天
　　引導鏈接跟蹤天空漫步簡(jiǎn)介
　　春天
　　云鏈接跟蹤天空漫步
　　skywalking09 - 異步線(xiàn)程鏈接延續（下圖）。
　　swUI 使用完整指南
　　SkyWalking 8.7 源代碼分析（6）：ExitSpan 和 LocalSpan、Link Trace Context、Context Adapter ContextManager、DataCarrier、發(fā)送到 OAP 的鏈接數據
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 6.2.0 中文文檔
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 6.2.0 中文文檔
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 8.0.0 中文文檔
　　春云偵探+齊普金實(shí)現服務(wù)跟蹤
　　4. 空中漫步源代碼分析
　　1）源代碼分析[必看]：
　　2）源代碼解析文章：
　　5.空中漫步關(guān)鍵部分——插件實(shí)現及原理
　　實(shí)際上，Skywalking的核心是插件（plug-ins）的實(shí)現，其他部分是針對采集
到的數據的服務(wù)。
　　為更好的了解插件體系，強烈建議讀一下官方Java-Plugin-Development-Guide.md文檔：/apache-skywalking-java-agent-8.9.0/docs/en/setup/service-agent/java-agent/Java-Plugin-Development-Guide.md
　　5.1 自定義插件的開(kāi)發(fā)
　　插件
　　分為兩類(lèi)：跟蹤插件和儀表插件
　　1）為自定義鏈接集合插件開(kāi)發(fā)跟蹤插件
　　追蹤插件的基本方法是利用字節碼操作技術(shù)和AOP概念來(lái)攔截Java方法，SkyWalking封裝了字節碼操作技術(shù)和追蹤上下文傳播，所以你只需要定義攔截點(diǎn)（即Spring中的入口點(diǎn)）。
　　SkyWalking提供了兩個(gè)API來(lái)攔截構造函數，實(shí)例方法和類(lèi)方法：
　　介紹第一種類(lèi)型：
　　繼承ClassInstanceMethodsEnhancePluginDefine類(lèi)，定義構造方法攔截點(diǎn)和實(shí)例方法攔截點(diǎn)。
繼承ClassStaticMethodsEnhancePluginDefine類(lèi)來(lái)定義 class method 的截點(diǎn)。
　　插件的步驟是通過(guò)繼承 ClassInstanceMethodsEnhancePluginDefine 類(lèi)來(lái)實(shí)現的。
　　步驟 1：定義需要增強的目標類(lèi)
　　@Override
protected ClassMatch enhanceClass() {
// 需要增強的類(lèi)的全限定名
return NameMatch.byName("com.dhgate.apsaras.access.filter.ApsarasProxyFileter");
}
　　ClassMatch 表示如何匹配目標類(lèi)。有4種方法：
　　byName：基于完整的類(lèi)名（包名.類(lèi)名）。
　　byClassAnnotationMatch：取決于目標類(lèi)中是否存在某些注解（注意：不支持繼承而來(lái)的注解）。
<p>
</p>
　　byMethodAnnotationMatch：取決于目標類(lèi)的方法中是否有某些注解（注意：不支持繼承而來(lái)的注解）。
　　byHierarchyMatch：基于目標類(lèi)的父類(lèi)或接口（官方不建議用這個(gè)，有很大的性能問(wèn)題）。
　　步驟二：定義實(shí)例方法截取點(diǎn)
　　@Override
public InstanceMethodsInterceptPoint[] getInstanceMethodsInterceptPoints() {
return new InstanceMethodsInterceptPoint[] {
new InstanceMethodsInterceptPoint() {
/**
* @return 類(lèi)某個(gè)具體的實(shí)例方法的匹配器
*/
@Override
public ElementMatcher getMethodsMatcher() {
return named("invoke");
}
/**
* @return 表示一個(gè)類(lèi)名，類(lèi)實(shí)例必須是instanceof InstanceMethodsAroundInterceptor。
*/
@Override
public String getMethodsInterceptor() {
return "org.apache.skywalking.apm.plugin.asf.dubbo.DubboInterceptor";
}
@Override
public boolean isOverrideArgs() {
return false;
}
}
};
}
　　步驟 3：將自定義插件類(lèi)添加到 skywalking-plugin.def 配置文件
　　例如：
　　dubbo-2.7.x=org.apache.skywalking.apm.plugin.asf.dubbo.DubboInstrumentation
　　為什么？
　　SkyWalkingAgent加載插件包--->new PluginBootstrap().loadPlugins()--->PluginResourcesResolver.getResources
　　步驟 4：實(shí)現攔截器
　　自定義實(shí)例方法攔截器并實(shí)現 org.apache.skywalking.apm.agent.core.plugin.interceptor.enhance.InstanceMethodsAroundInterceptor，它聲明在調用方法之前和之后以及異常處理期間使用核心 API。
　　/**
* A interceptor, which intercept method's invocation. The target methods will be defined in {@link
* ClassEnhancePluginDefine}'s subclass, most likely in {@link ClassInstanceMethodsEnhancePluginDefine}
*/
public interface InstanceMethodsAroundInterceptor {
/**
* 在目標方法調用之前調用
*
* @param result 攔截這個(gè)方法改變之后的結果
* @throws Throwable
*/
void beforeMethod(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, MethodInterceptResult result) throws Throwable;
/**
* 在目標方法調用之后調用。注意該方法會(huì )拋出異常。
<p>
*
* @param ret 方法的原返回值
* @return 該方法的實(shí)際返回值
* @throws Throwable
*/
Object afterMethod(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, Object ret) throws Throwable;
/**
* 發(fā)生異常時(shí)調用該方法。
*
* @param t the exception occur.
*/
void handleMethodException(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, Throwable t);
}
</p>
　　例如，DubboInterceptor。
　　2）自定義計量API各種指標插件的儀表插件開(kāi)發(fā)計量插件
　　代理插件可以使用計量 API 采集
指標以進(jìn)行后端分析。
　　核心接口：
　　Counter API 代表一個(gè)單調遞增的計數器，它自動(dòng)收集數據并報告給后端。
一系列圖標信息，
　　例如UI界面顯示的jvm圖標信息，通過(guò)這樣的插件采集
并上報給后端服務(wù)器：
　　6）Skywalking的OAP如何在ES中存儲采集
的信息
　　1）鏈接數據發(fā)送到 OAP 服務(wù)器
　　鏈路數據由代理探針中定義的插件攔截函數采集，通過(guò) grpc 發(fā)送到 OAP 服務(wù)，grpc 對上報數據進(jìn)行異步分析和處理，將數據解析為各個(gè)指標模塊，然后刪除數據庫。
　　2） OAP 服務(wù)器將鏈接數據存儲到 ES 中
　　8. 安裝
　　和探頭測試
　　8.1 本地編譯和打包的 APM
　　mvn clean package -Dmaven.test.skip=true
　　8.2 詹金斯構建代理
　　Jenkins build address： dhgate-skywalking-agent [Jenkins].
　　本地測試
　　步驟 1：有兩種方法可以啟動(dòng) oap 服務(wù)器和 UI
　　1）第一種類(lèi)型：直接IDEA啟動(dòng)：
　　OAP Server 啟動(dòng)條目：apache-skywalking-apm-8.9.1/oap-server/server-starter/src/main/java/org/apache/skywalking/oap/server/starter/OAPServerStartUp.java
　　skywalk UI 啟動(dòng)條目：apache-skywalking-apm-8.9.1/apm-webapp/src/main/java/org/apache/skywalking/oap/server/webapp/ApplicationStartUp.java
　　2）第二種類(lèi)型：解壓編譯好的打包，進(jìn)入bin目錄，啟動(dòng)OAP和web：
　　tar -xzvf apache-skywalking-apm-bin.tar.gz
　　CD /apache-skywalking-apm-bin/bin
　　./startup.sh
　　第 2 步：編譯 apache-skywalking-java-agent-8.9.0
　　復制 skywalking-agent .jar完整路徑并準備 jvm 參數：
　　-javaagent:/Users/yuanjiabo/Downloads/skywalkingdeploy/skywalking-agent/skywalking-agent.jar
-Dskywalking.agent.sample_n_per_3_secs=1000
-Dskywalking.agent.service_name=dhgate-xxx-xxx
-Dskywalking.agent.env_sign=G3 (or G4)
-Dskywalking.collector.backend_service=127.0.0.1:11800
　　步驟 3：修改想法啟動(dòng)類(lèi)的運行配置并添加 VM 選項參數：
　　步驟 4：?jiǎn)?dòng)項目并訪(fǎng)問(wèn)項目中的界面
　　步驟五：打開(kāi)本地空中漫步UI界面：：8688/，可以查看鏈路追蹤信息。
　　解密:百度起源算法,打擊偽原創(chuàng )和采集內容的網(wǎng)站(百度起源算法有哪些)
　　什么是百度原點(diǎn)算法？
　　百度原創(chuàng )算法是為了保護優(yōu)質(zhì)原創(chuàng )內容，建立比較完善的原創(chuàng )識別算法，打擊偽原創(chuàng )站和盜版站。建議站長(cháng)提高偽原創(chuàng )內容的質(zhì)量和要求。
　　百度原點(diǎn)算法解讀：
　　下面234it就給大家講解一下百度起源算法，什么是“重復聚合”、“鏈接指向分析”、“什么是價(jià)值分析系統判斷？”
　　
　　解讀一：什么是重復聚合？
　　通俗地說(shuō)，重復聚合就是將重復的文章放在一起，形成一個(gè)“候選集”，然后根據文章發(fā)布時(shí)間、評論、站點(diǎn)歷史、轉發(fā)軌跡等多種因素，對原創(chuàng )內容進(jìn)行識別和判斷。
　　解讀2：什么是鏈接指向判斷？
　　鏈接指向是指分析鏈接的指向。根據鏈接的指向方，指向鏈接越多，百度PR權重值越高，內容判定為原創(chuàng )內容。
　　解讀三：什么是價(jià)值分析系統判斷？
　　除了基本的排名因素外，在PR權重值相同的情況下，網(wǎng)頁(yè)關(guān)鍵詞判斷為原創(chuàng )內容的排名能力更強。
　　
　　搜索引擎為什么要推出“原點(diǎn)算法” 1. 采集
泛濫
　　分析：采集嚴重的領(lǐng)域主要集中在新聞和小說(shuō)領(lǐng)域。由于采集軟件越來(lái)越先進(jìn)，一個(gè)網(wǎng)站不被采集都很難。我們在網(wǎng)站上更新了一個(gè)高質(zhì)量的原創(chuàng )內容，幾天后查看該內容的關(guān)鍵詞排名時(shí)發(fā)現，由于權重因素，采集
該內容的站點(diǎn)關(guān)鍵詞排名比原來(lái)的網(wǎng)站還要好。對于中小網(wǎng)站來(lái)說(shuō)，搜索引擎的流量仍然占據著(zhù)很大的比重。如果長(cháng)期堅持更新優(yōu)質(zhì)的原創(chuàng )內容，卻得不到應有的回報，那么站點(diǎn)就會(huì )失去堅持原創(chuàng )的動(dòng)力，從而降低站點(diǎn)原創(chuàng )內容的比例。最后，
　　2. 提升用戶(hù)體驗
　　分析：其實(shí)我們都知道原創(chuàng )內容對于網(wǎng)站優(yōu)化的重要性，但是堅持更新原創(chuàng )內容是一件非常耗費時(shí)間的事情。為了解決這個(gè)問(wèn)題，市面上出現了內容采集軟件，它將采集到的過(guò)往文章簡(jiǎn)單加工成偽原創(chuàng )內容，但這類(lèi)文章的可讀性很差，用戶(hù)體驗不好，而且對搜索引擎不友好。優(yōu)化網(wǎng)站只需要記住一件事，就是不斷提升用戶(hù)體驗。這個(gè)話(huà)題永遠不會(huì )過(guò)時(shí)。雖然搜索引擎在某些方面還不夠完美，但它一直在朝著(zhù)好的方向努力。
　　3.鼓勵原創(chuàng )作者和原創(chuàng )內容
　　分析：只有對堅持更新優(yōu)質(zhì)原創(chuàng )內容的網(wǎng)站給予一定的權重，讓站長(cháng)享受到更新原創(chuàng )內容的好處，網(wǎng)站才會(huì )有堅持更新原創(chuàng )內容的動(dòng)力。查看全部

　　文章采集api 技巧:Skywalking快速入門(mén)
　　空中漫步快速入門(mén)
　　文章目錄
　　1. 官方地址：阿帕奇空中漫步 2.下載源代碼
　　3. 空中漫步重要參考文件
　　了解有關(guān)空中漫步代理的更多信息
　　Skywalking+Elasticsearch安裝和應用程序（電子郵件警報）。
　　官方向導方案：孵化器-天空漫步/blob/5.x/docs/README.md
　　中文文檔在這里：incubator-skywalking/blob/5.x/docs/README_ZH.md
　　Centos 安裝空中漫步 8.9.1
　　空中漫步集群建筑
　　空中漫步集群部署
　　天空漫步官方下載地址
　　Skywalking的UI日志監控是如何做的，如何分析性能，以及如何監控警報。
　　基于天空漫步的服務(wù)鏈路跟蹤
　　_SkyWalking構建和使用分布式鏈路跟蹤系統
　　Skywalking后端 - 官方網(wǎng)站文檔
　　春天
　　引導鏈接跟蹤天空漫步簡(jiǎn)介
　　春天
　　云鏈接跟蹤天空漫步
　　skywalking09 - 異步線(xiàn)程鏈接延續（下圖）。
　　swUI 使用完整指南
　　SkyWalking 8.7 源代碼分析（6）：ExitSpan 和 LocalSpan、Link Trace Context、Context Adapter ContextManager、DataCarrier、發(fā)送到 OAP 的鏈接數據
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 6.2.0 中文文檔
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 6.2.0 中文文檔
　　天空漫步插件開(kāi)發(fā)指南 - 天空漫步 8.0.0 中文文檔
　　春云偵探+齊普金實(shí)現服務(wù)跟蹤
　　4. 空中漫步源代碼分析
　　1）源代碼分析[必看]：
　　2）源代碼解析文章：
　　5.空中漫步關(guān)鍵部分——插件實(shí)現及原理
　　實(shí)際上，Skywalking的核心是插件（plug-ins）的實(shí)現，其他部分是針對采集
到的數據的服務(wù)。
　　為更好的了解插件體系，強烈建議讀一下官方Java-Plugin-Development-Guide.md文檔：/apache-skywalking-java-agent-8.9.0/docs/en/setup/service-agent/java-agent/Java-Plugin-Development-Guide.md
　　5.1 自定義插件的開(kāi)發(fā)
　　插件
　　分為兩類(lèi)：跟蹤插件和儀表插件
　　1）為自定義鏈接集合插件開(kāi)發(fā)跟蹤插件
　　追蹤插件的基本方法是利用字節碼操作技術(shù)和AOP概念來(lái)攔截Java方法，SkyWalking封裝了字節碼操作技術(shù)和追蹤上下文傳播，所以你只需要定義攔截點(diǎn)（即Spring中的入口點(diǎn)）。
　　SkyWalking提供了兩個(gè)API來(lái)攔截構造函數，實(shí)例方法和類(lèi)方法：
　　介紹第一種類(lèi)型：
　　繼承ClassInstanceMethodsEnhancePluginDefine類(lèi)，定義構造方法攔截點(diǎn)和實(shí)例方法攔截點(diǎn)。
繼承ClassStaticMethodsEnhancePluginDefine類(lèi)來(lái)定義 class method 的截點(diǎn)。
　　插件的步驟是通過(guò)繼承 ClassInstanceMethodsEnhancePluginDefine 類(lèi)來(lái)實(shí)現的。
　　步驟 1：定義需要增強的目標類(lèi)
　　@Override
protected ClassMatch enhanceClass() {
// 需要增強的類(lèi)的全限定名
return NameMatch.byName("com.dhgate.apsaras.access.filter.ApsarasProxyFileter");
}
　　ClassMatch 表示如何匹配目標類(lèi)。有4種方法：
　　byName：基于完整的類(lèi)名（包名.類(lèi)名）。
　　byClassAnnotationMatch：取決于目標類(lèi)中是否存在某些注解（注意：不支持繼承而來(lái)的注解）。
<p>

</p>
　　byMethodAnnotationMatch：取決于目標類(lèi)的方法中是否有某些注解（注意：不支持繼承而來(lái)的注解）。
　　byHierarchyMatch：基于目標類(lèi)的父類(lèi)或接口（官方不建議用這個(gè)，有很大的性能問(wèn)題）。
　　步驟二：定義實(shí)例方法截取點(diǎn)
　　@Override
public InstanceMethodsInterceptPoint[] getInstanceMethodsInterceptPoints() {
return new InstanceMethodsInterceptPoint[] {
new InstanceMethodsInterceptPoint() {
/**
* @return 類(lèi)某個(gè)具體的實(shí)例方法的匹配器
*/
@Override
public ElementMatcher getMethodsMatcher() {
return named("invoke");
}
/**
* @return 表示一個(gè)類(lèi)名，類(lèi)實(shí)例必須是instanceof InstanceMethodsAroundInterceptor。
*/
@Override
public String getMethodsInterceptor() {
return "org.apache.skywalking.apm.plugin.asf.dubbo.DubboInterceptor";
}
@Override
public boolean isOverrideArgs() {
return false;
}
}
};
}
　　步驟 3：將自定義插件類(lèi)添加到 skywalking-plugin.def 配置文件
　　例如：
　　dubbo-2.7.x=org.apache.skywalking.apm.plugin.asf.dubbo.DubboInstrumentation
　　為什么？
　　SkyWalkingAgent加載插件包--->new PluginBootstrap().loadPlugins()--->PluginResourcesResolver.getResources
　　步驟 4：實(shí)現攔截器
　　自定義實(shí)例方法攔截器并實(shí)現 org.apache.skywalking.apm.agent.core.plugin.interceptor.enhance.InstanceMethodsAroundInterceptor，它聲明在調用方法之前和之后以及異常處理期間使用核心 API。
　　/**
* A interceptor, which intercept method's invocation. The target methods will be defined in {@link
* ClassEnhancePluginDefine}'s subclass, most likely in {@link ClassInstanceMethodsEnhancePluginDefine}
*/
public interface InstanceMethodsAroundInterceptor {
/**
* 在目標方法調用之前調用
*
* @param result 攔截這個(gè)方法改變之后的結果
* @throws Throwable
*/
void beforeMethod(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, MethodInterceptResult result) throws Throwable;
/**
* 在目標方法調用之后調用。注意該方法會(huì )拋出異常。
<p>

*
* @param ret 方法的原返回值
* @return 該方法的實(shí)際返回值
* @throws Throwable
*/
Object afterMethod(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, Object ret) throws Throwable;
/**
* 發(fā)生異常時(shí)調用該方法。
*
* @param t the exception occur.
*/
void handleMethodException(EnhancedInstance objInst, Method method, Object[] allArguments, Class[] argumentsTypes, Throwable t);
}
</p>
　　例如，DubboInterceptor。
　　2）自定義計量API各種指標插件的儀表插件開(kāi)發(fā)計量插件
　　代理插件可以使用計量 API 采集
指標以進(jìn)行后端分析。
　　核心接口：
　　Counter API 代表一個(gè)單調遞增的計數器，它自動(dòng)收集數據并報告給后端。
一系列圖標信息，
　　例如UI界面顯示的jvm圖標信息，通過(guò)這樣的插件采集
并上報給后端服務(wù)器：
　　6）Skywalking的OAP如何在ES中存儲采集
的信息
　　1）鏈接數據發(fā)送到 OAP 服務(wù)器
　　鏈路數據由代理探針中定義的插件攔截函數采集，通過(guò) grpc 發(fā)送到 OAP 服務(wù)，grpc 對上報數據進(jìn)行異步分析和處理，將數據解析為各個(gè)指標模塊，然后刪除數據庫。
　　2） OAP 服務(wù)器將鏈接數據存儲到 ES 中
　　8. 安裝
　　和探頭測試
　　8.1 本地編譯和打包的 APM
　　mvn clean package -Dmaven.test.skip=true
　　8.2 詹金斯構建代理
　　Jenkins build address： dhgate-skywalking-agent [Jenkins].
　　本地測試
　　步驟 1：有兩種方法可以啟動(dòng) oap 服務(wù)器和 UI
　　1）第一種類(lèi)型：直接IDEA啟動(dòng)：
　　OAP Server 啟動(dòng)條目：apache-skywalking-apm-8.9.1/oap-server/server-starter/src/main/java/org/apache/skywalking/oap/server/starter/OAPServerStartUp.java
　　skywalk UI 啟動(dòng)條目：apache-skywalking-apm-8.9.1/apm-webapp/src/main/java/org/apache/skywalking/oap/server/webapp/ApplicationStartUp.java
　　2）第二種類(lèi)型：解壓編譯好的打包，進(jìn)入bin目錄，啟動(dòng)OAP和web：
　　tar -xzvf apache-skywalking-apm-bin.tar.gz
　　CD /apache-skywalking-apm-bin/bin
　　./startup.sh
　　第 2 步：編譯 apache-skywalking-java-agent-8.9.0
　　復制 skywalking-agent .jar完整路徑并準備 jvm 參數：
　　-javaagent:/Users/yuanjiabo/Downloads/skywalkingdeploy/skywalking-agent/skywalking-agent.jar
-Dskywalking.agent.sample_n_per_3_secs=1000
-Dskywalking.agent.service_name=dhgate-xxx-xxx
-Dskywalking.agent.env_sign=G3 (or G4)
-Dskywalking.collector.backend_service=127.0.0.1:11800
　　步驟 3：修改想法啟動(dòng)類(lèi)的運行配置并添加 VM 選項參數：
　　步驟 4：?jiǎn)?dòng)項目并訪(fǎng)問(wèn)項目中的界面
　　步驟五：打開(kāi)本地空中漫步UI界面：：8688/，可以查看鏈路追蹤信息。
　　解密:百度起源算法,打擊偽原創(chuàng )和采集內容的網(wǎng)站(百度起源算法有哪些)
　　什么是百度原點(diǎn)算法？
　　百度原創(chuàng )算法是為了保護優(yōu)質(zhì)原創(chuàng )內容，建立比較完善的原創(chuàng )識別算法，打擊偽原創(chuàng )站和盜版站。建議站長(cháng)提高偽原創(chuàng )內容的質(zhì)量和要求。
　　百度原點(diǎn)算法解讀：
　　下面234it就給大家講解一下百度起源算法，什么是“重復聚合”、“鏈接指向分析”、“什么是價(jià)值分析系統判斷？”
　　

　　解讀一：什么是重復聚合？
　　通俗地說(shuō)，重復聚合就是將重復的文章放在一起，形成一個(gè)“候選集”，然后根據文章發(fā)布時(shí)間、評論、站點(diǎn)歷史、轉發(fā)軌跡等多種因素，對原創(chuàng )內容進(jìn)行識別和判斷。
　　解讀2：什么是鏈接指向判斷？
　　鏈接指向是指分析鏈接的指向。根據鏈接的指向方，指向鏈接越多，百度PR權重值越高，內容判定為原創(chuàng )內容。
　　解讀三：什么是價(jià)值分析系統判斷？
　　除了基本的排名因素外，在PR權重值相同的情況下，網(wǎng)頁(yè)關(guān)鍵詞判斷為原創(chuàng )內容的排名能力更強。
　　

　　搜索引擎為什么要推出“原點(diǎn)算法” 1. 采集
泛濫
　　分析：采集嚴重的領(lǐng)域主要集中在新聞和小說(shuō)領(lǐng)域。由于采集軟件越來(lái)越先進(jìn)，一個(gè)網(wǎng)站不被采集都很難。我們在網(wǎng)站上更新了一個(gè)高質(zhì)量的原創(chuàng )內容，幾天后查看該內容的關(guān)鍵詞排名時(shí)發(fā)現，由于權重因素，采集
該內容的站點(diǎn)關(guān)鍵詞排名比原來(lái)的網(wǎng)站還要好。對于中小網(wǎng)站來(lái)說(shuō)，搜索引擎的流量仍然占據著(zhù)很大的比重。如果長(cháng)期堅持更新優(yōu)質(zhì)的原創(chuàng )內容，卻得不到應有的回報，那么站點(diǎn)就會(huì )失去堅持原創(chuàng )的動(dòng)力，從而降低站點(diǎn)原創(chuàng )內容的比例。最后，
　　2. 提升用戶(hù)體驗
　　分析：其實(shí)我們都知道原創(chuàng )內容對于網(wǎng)站優(yōu)化的重要性，但是堅持更新原創(chuàng )內容是一件非常耗費時(shí)間的事情。為了解決這個(gè)問(wèn)題，市面上出現了內容采集軟件，它將采集到的過(guò)往文章簡(jiǎn)單加工成偽原創(chuàng )內容，但這類(lèi)文章的可讀性很差，用戶(hù)體驗不好，而且對搜索引擎不友好。優(yōu)化網(wǎng)站只需要記住一件事，就是不斷提升用戶(hù)體驗。這個(gè)話(huà)題永遠不會(huì )過(guò)時(shí)。雖然搜索引擎在某些方面還不夠完美，但它一直在朝著(zhù)好的方向努力。
　　3.鼓勵原創(chuàng )作者和原創(chuàng )內容
　　分析：只有對堅持更新優(yōu)質(zhì)原創(chuàng )內容的網(wǎng)站給予一定的權重，讓站長(cháng)享受到更新原創(chuàng )內容的好處，網(wǎng)站才會(huì )有堅持更新原創(chuàng )內容的動(dòng)力。

最新版本:API網(wǎng)頁(yè)抓取是什么意思？

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 92 次瀏覽 ? 2022-11-28 17:12 ? 來(lái)自相關(guān)話(huà)題

　　最新版本:API網(wǎng)頁(yè)抓取是什么意思？
　　API（Application Programming Interface，應用程序編程接口）是一些預定義的功能，旨在為應用程序和開(kāi)發(fā)人員提供訪(fǎng)問(wèn)一組基于軟件或硬件的例程的能力，而無(wú)需訪(fǎng)問(wèn)源代碼或了解內部工作機制細節。
　　API 是一組通信協(xié)議和過(guò)程，提供對服務(wù)、操作系統或應用程序數據的訪(fǎng)問(wèn)。
　　
　　通常，這用于開(kāi)發(fā)使用相同數據的其他應用程序。
　　假設有一個(gè)天氣預報公司或新聞頻道部分。他們可以創(chuàng )建一個(gè) API，允許其他開(kāi)發(fā)人員獲取他們的數據并用它做其他事情。它可以是天氣網(wǎng)站或移動(dòng)應用程序。
　　有人也可以將此信息用于研究。
　　此信息的所有者，即本示例中的預測公司，可以免費或收費提供此數據。他們還可以限制用戶(hù)可以在網(wǎng)站上提出的請求數量，或者指定他們可以訪(fǎng)問(wèn)的數據類(lèi)型。
　　
　　API 網(wǎng)絡(luò )抓取允許您從為其創(chuàng )建 API 的網(wǎng)站獲取數據。您可以使用此數據基于目標網(wǎng)站的數據創(chuàng )建另一個(gè)應用程序或網(wǎng)站。
　　但這與常規的網(wǎng)絡(luò )抓取有何不同？這一切都歸結為 API 的存在。并非所有網(wǎng)站都有 API。
　　例如，如果您想從電子商務(wù)網(wǎng)站抓取數據，他們可能沒(méi)有 API。因此，您將使用網(wǎng)絡(luò )抓取工具來(lái)提取價(jià)格和產(chǎn)品說(shuō)明等信息。
　　IPIDEA提供的代理IP資源遍布全球220+國家和地區，每天高達9000萬(wàn)個(gè)真實(shí)住宅IP資源，高速高可用。
　　最新版本:游戲私服發(fā)布網(wǎng)站采集插件源代碼免費下載
　　98游戲自動(dòng)采集插件是奇動(dòng)網(wǎng)最新推出的自動(dòng)智能采集插件，也是目前首款私服信息自動(dòng)采集插件。它可以自動(dòng)采集
游戲資訊和文章，同時(shí)支持SEO優(yōu)化，還可以自動(dòng)生成HTML靜態(tài)頁(yè)面，讓您的網(wǎng)站自動(dòng)更新...
　　采集插件介紹
　　98游戲合集插件導入奇動(dòng)合集插件，是一款專(zhuān)門(mén)為游戲發(fā)布網(wǎng)開(kāi)發(fā)的免費版插件。網(wǎng)站開(kāi)發(fā)采集
較多，信息真實(shí)可靠。采集時(shí)可自動(dòng)篩選、過(guò)濾、替換信息，集成文章采集器（支持偽原創(chuàng )）。
　　
　　免費版：可以采集
，是唯一免費的采集
插件，采集
只需要免費授權，采集
次數不限。不像其他一些采集
品，被限制，你郁悶！
　　支持游戲：傳奇（無(wú)聲、IP版）、傳世、魔域、天龍、誅仙、完美、征途、武夷、逐鹿、奇跡等眾多熱門(mén)站點(diǎn)。
　　同時(shí)采集使用說(shuō)明：
　　1. 游戲合集信息來(lái)源于眾多熱門(mén)游戲網(wǎng)站。采集
時(shí)可以選擇時(shí)間、版本、過(guò)濾特殊符號、限制同時(shí)條目數等功能。
　　
　　2.采集
后直接存儲，自動(dòng)過(guò)濾現有游戲，避免信息重復！
　　3、本系統采集
的游戲信息100%可靠，絕對是新游戲！查看全部

　　最新版本:API網(wǎng)頁(yè)抓取是什么意思？
　　API（Application Programming Interface，應用程序編程接口）是一些預定義的功能，旨在為應用程序和開(kāi)發(fā)人員提供訪(fǎng)問(wèn)一組基于軟件或硬件的例程的能力，而無(wú)需訪(fǎng)問(wèn)源代碼或了解內部工作機制細節。
　　API 是一組通信協(xié)議和過(guò)程，提供對服務(wù)、操作系統或應用程序數據的訪(fǎng)問(wèn)。
　　

　　通常，這用于開(kāi)發(fā)使用相同數據的其他應用程序。
　　假設有一個(gè)天氣預報公司或新聞頻道部分。他們可以創(chuàng )建一個(gè) API，允許其他開(kāi)發(fā)人員獲取他們的數據并用它做其他事情。它可以是天氣網(wǎng)站或移動(dòng)應用程序。
　　有人也可以將此信息用于研究。
　　此信息的所有者，即本示例中的預測公司，可以免費或收費提供此數據。他們還可以限制用戶(hù)可以在網(wǎng)站上提出的請求數量，或者指定他們可以訪(fǎng)問(wèn)的數據類(lèi)型。
　　

　　API 網(wǎng)絡(luò )抓取允許您從為其創(chuàng )建 API 的網(wǎng)站獲取數據。您可以使用此數據基于目標網(wǎng)站的數據創(chuàng )建另一個(gè)應用程序或網(wǎng)站。
　　但這與常規的網(wǎng)絡(luò )抓取有何不同？這一切都歸結為 API 的存在。并非所有網(wǎng)站都有 API。
　　例如，如果您想從電子商務(wù)網(wǎng)站抓取數據，他們可能沒(méi)有 API。因此，您將使用網(wǎng)絡(luò )抓取工具來(lái)提取價(jià)格和產(chǎn)品說(shuō)明等信息。
　　IPIDEA提供的代理IP資源遍布全球220+國家和地區，每天高達9000萬(wàn)個(gè)真實(shí)住宅IP資源，高速高可用。
　　最新版本:游戲私服發(fā)布網(wǎng)站采集插件源代碼免費下載
　　98游戲自動(dòng)采集插件是奇動(dòng)網(wǎng)最新推出的自動(dòng)智能采集插件，也是目前首款私服信息自動(dòng)采集插件。它可以自動(dòng)采集
游戲資訊和文章，同時(shí)支持SEO優(yōu)化，還可以自動(dòng)生成HTML靜態(tài)頁(yè)面，讓您的網(wǎng)站自動(dòng)更新...
　　采集插件介紹
　　98游戲合集插件導入奇動(dòng)合集插件，是一款專(zhuān)門(mén)為游戲發(fā)布網(wǎng)開(kāi)發(fā)的免費版插件。網(wǎng)站開(kāi)發(fā)采集
較多，信息真實(shí)可靠。采集時(shí)可自動(dòng)篩選、過(guò)濾、替換信息，集成文章采集器（支持偽原創(chuàng )）。
　　

　　免費版：可以采集
，是唯一免費的采集
插件，采集
只需要免費授權，采集
次數不限。不像其他一些采集
品，被限制，你郁悶！
　　支持游戲：傳奇（無(wú)聲、IP版）、傳世、魔域、天龍、誅仙、完美、征途、武夷、逐鹿、奇跡等眾多熱門(mén)站點(diǎn)。
　　同時(shí)采集使用說(shuō)明：
　　1. 游戲合集信息來(lái)源于眾多熱門(mén)游戲網(wǎng)站。采集
時(shí)可以選擇時(shí)間、版本、過(guò)濾特殊符號、限制同時(shí)條目數等功能。
　　

　　2.采集
后直接存儲，自動(dòng)過(guò)濾現有游戲，避免信息重復！
　　3、本系統采集
的游戲信息100%可靠，絕對是新游戲！

教程:音視頻直播——Android視頻采集(Camera2)

采集交流 ? 優(yōu)采云發(fā)表了文章 ? 0 個(gè)評論 ? 140 次瀏覽 ? 2022-11-27 22:22 ? 來(lái)自相關(guān)話(huà)題

　　教程:音視頻直播——Android視頻采集(Camera2)
　　介紹
　　今天給大家介紹一下如何在A(yíng)ndroid上抓取視頻。Android系統下有兩套視頻采集的API，分別是Camera和Camera2。Camera 是一個(gè)舊的 API，自 Android 5.0(21) 以來(lái)就被廢棄了。今天主要給大家介紹一下如何使用Camera2進(jìn)行視頻采集。原創(chuàng )
代碼可以在這里獲得（）
　　Camera2整體結構
　　Camera2結構圖
　　Camera2主類(lèi)介紹
　　onOpened：表示已成功打開(kāi)Camera。
　　onDisconnected：表單關(guān)閉與相機的連接。
　　onError: 未能打開(kāi)窗體中的相機。
　　
　　onConfigured：表格會(huì )話(huà)已成功創(chuàng )建。
　　onConfigureFailed：正式會(huì )話(huà)創(chuàng )建失敗。
　　onCaptureCompleted：圖像捕獲完成。
　　onCaptureProgressed：圖像正在處理中。
　　使用Camera2的基本流程
　　該方法第一個(gè)參數表示要開(kāi)啟的攝像頭ID；
　　第二個(gè)參數callback用于監控攝像頭的狀態(tài)；
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　TEMPLATE_PREVIEW（預覽）
　　TEMPLATE_RECORD（拍攝視頻）
　　TEMPLATE_STILL_CAPTURE（拍照）等參數。
　　
　　該方法的第一個(gè)參數是一個(gè)List集合，里面封裝了所有需要從攝像頭獲取圖片的Surface；
　　第二個(gè)參數StateCallback用于監聽(tīng)CameraCaptureSession的創(chuàng )建過(guò)程；
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　第一個(gè)參數是由上面提到的createCaptureRequest創(chuàng )建的CaptureRequest.Builder對象生成的。
　　第二個(gè)參數callback是Camera采集時(shí)的回調對象。
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　通過(guò)以上步驟，就可以從Camera設備中獲取視頻了。我們也可以通過(guò)Android的MediaRecorder類(lèi)將獲取到的視頻錄制下來(lái)進(jìn)行播放。對于MediaRecorder，我會(huì )在另一篇文章中介紹。
　　概括
　　通過(guò)上面對Camera2 API的使用分析，我們可以看出Camera2完全采用了異步架構模式。完成每一步Camera操作后，系統會(huì )通知用戶(hù)，用戶(hù)可以在回調中進(jìn)行下一步操作，而不必一直等待。采用這種模式的優(yōu)點(diǎn)是可以大大提高APP的工作效率，缺點(diǎn)是不夠直觀(guān)，增加了一些學(xué)習和開(kāi)發(fā)成本。
　　參考
　　谷歌示例 android-Camera2video
　　最新版本:網(wǎng)頁(yè)采集器（網(wǎng)頁(yè)采集器app）
　　目錄：
　　1.網(wǎng)站采集器
　　隨著(zhù)社會(huì )的不斷發(fā)展，人們越來(lái)越離不開(kāi)網(wǎng)絡(luò )。今天，小編就給大家盤(pán)點(diǎn)一下免費的網(wǎng)頁(yè)數據采集方法。只需點(diǎn)擊幾下鼠標，即可輕松采集網(wǎng)頁(yè)數據，無(wú)論是導出到excel還是自動(dòng)發(fā)布到網(wǎng)站都是可以的。詳細參考圖1、2、3、4！.
　　2.網(wǎng)頁(yè)數據采集器
　　企業(yè)人員通過(guò)抓取動(dòng)態(tài)網(wǎng)頁(yè)數據分析客戶(hù)行為，拓展新業(yè)務(wù)，同時(shí)也可以利用數據更好地了解競爭對手，分析競爭對手，超越競爭對手。網(wǎng)站人員實(shí)現自動(dòng)采集、定時(shí)發(fā)布、自動(dòng)SEO優(yōu)化，讓您的網(wǎng)站即刻擁有強大的內容支持，快速提升流量和知名度。
　　3.頁(yè)面采集
器
　　親自代替手工復制粘貼，提高效率，節省更多時(shí)間。解決學(xué)術(shù)研究或生活、工作等數據信息需求，徹底解決沒(méi)有素材的問(wèn)題，也告別了手動(dòng)復制粘貼的痛苦。
　　
　　4.網(wǎng)頁(yè)獲取系統
　　如何研究關(guān)鍵詞？了解如何開(kāi)始搜索引擎優(yōu)化可以幫助我們制定更好的排名策略。了解網(wǎng)站使用的關(guān)鍵詞可以幫助您了解您的品牌標識以及您的企業(yè)網(wǎng)站的產(chǎn)品或服務(wù)是什么？你提供什么服務(wù)？用戶(hù)通過(guò)關(guān)鍵詞搜索目標網(wǎng)站所使用的搜索詞，可以幫助用戶(hù)更好地了解公司的品牌和業(yè)務(wù)。
　　5.采集
瀏覽器
　　關(guān)鍵詞研究可以揭示人們在尋找什么，而不是你認為他們在尋找什么專(zhuān)注于優(yōu)化核心關(guān)鍵詞結合 SEO 技術(shù)，這將有助于排名和增加訪(fǎng)問(wèn)您網(wǎng)站的人數。
　　6.網(wǎng)頁(yè)數據采集軟件
　　如果你選擇一個(gè)與站點(diǎn)或商業(yè)市場(chǎng)無(wú)關(guān)的關(guān)鍵詞，并將這些關(guān)鍵詞放在站點(diǎn)中，該站點(diǎn)將在短時(shí)間內在搜索中排名靠前。
　　7. 瀏覽器采集
器
　　什么是核心關(guān)鍵詞分析？核心關(guān)鍵詞是關(guān)鍵詞，用戶(hù)通過(guò)搜索引擎關(guān)鍵詞找到相關(guān)網(wǎng)站，并在網(wǎng)站上購買(mǎi)產(chǎn)品和服務(wù)。是網(wǎng)站重點(diǎn)布局和優(yōu)化的關(guān)鍵詞核心關(guān)鍵詞的正確設置關(guān)系到網(wǎng)站后期的流量和交易量。我們做Google SEO核心的核心運營(yíng)。只有選擇合適的關(guān)鍵詞才會(huì )對您的網(wǎng)站產(chǎn)生實(shí)際的優(yōu)化效果。
　　8.采集
網(wǎng)頁(yè)數據
　　
　　否則，一些不是你網(wǎng)站核心的關(guān)鍵詞雖然會(huì )排在Google搜索的第一頁(yè)，但不會(huì )給網(wǎng)站帶來(lái)多少價(jià)值。
　　9.網(wǎng)頁(yè)采集工具
　　對核心關(guān)鍵詞最直接的理解就是讓你的目標客戶(hù)通過(guò)谷歌搜索找到你的網(wǎng)站關(guān)鍵詞，只有那些能夠吸引目標客戶(hù)訪(fǎng)問(wèn)你網(wǎng)站的關(guān)鍵詞才是真正的核心關(guān)鍵詞這就是核心關(guān)鍵詞如此重要的原因，因為它是決定你的網(wǎng)站或店鋪能否帶來(lái)銷(xiāo)量的主要核心因素。
　　10.網(wǎng)絡(luò )采集
器
　　如果沒(méi)有選對核心關(guān)鍵詞，那么就會(huì )有很多負面影響：網(wǎng)站上沒(méi)有有效的詢(xún)盤(pán)和訂單。該商店沒(méi)有更多交易。網(wǎng)站的轉化率會(huì )很低。造成不必要的工作和站點(diǎn)關(guān)鍵詞排名內耗。
　　檢查競爭對手的關(guān)鍵詞和挖掘競爭對手的關(guān)鍵詞是我最喜歡做的事情，因為它們已經(jīng)幫你檢測出哪些詞的流量高，哪些詞的流量一般，哪些詞的流量不是很大但是交通非常好。當然，別看別人的話(huà)流量高，自己照著(zhù)做就好了。一般來(lái)說(shuō)，這樣你會(huì )死的很慘。
　　因為別人都花時(shí)間積累了，為什么我們一做就能上來(lái)呢？所以選擇適合我們前期開(kāi)發(fā)的核心詞是非常重要的，因為核心詞的配套內容可以給你很多內容
　　主題測試文章，僅供測試使用。發(fā)布者：小編，轉載請注明出處：查看全部

　　教程:音視頻直播——Android視頻采集(Camera2)
　　介紹
　　今天給大家介紹一下如何在A(yíng)ndroid上抓取視頻。Android系統下有兩套視頻采集的API，分別是Camera和Camera2。Camera 是一個(gè)舊的 API，自 Android 5.0(21) 以來(lái)就被廢棄了。今天主要給大家介紹一下如何使用Camera2進(jìn)行視頻采集。原創(chuàng )
代碼可以在這里獲得（）
　　Camera2整體結構
　　Camera2結構圖
　　Camera2主類(lèi)介紹
　　onOpened：表示已成功打開(kāi)Camera。
　　onDisconnected：表單關(guān)閉與相機的連接。
　　onError: 未能打開(kāi)窗體中的相機。
　　

　　onConfigured：表格會(huì )話(huà)已成功創(chuàng )建。
　　onConfigureFailed：正式會(huì )話(huà)創(chuàng )建失敗。
　　onCaptureCompleted：圖像捕獲完成。
　　onCaptureProgressed：圖像正在處理中。
　　使用Camera2的基本流程
　　該方法第一個(gè)參數表示要開(kāi)啟的攝像頭ID；
　　第二個(gè)參數callback用于監控攝像頭的狀態(tài)；
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　TEMPLATE_PREVIEW（預覽）
　　TEMPLATE_RECORD（拍攝視頻）
　　TEMPLATE_STILL_CAPTURE（拍照）等參數。
　　

　　該方法的第一個(gè)參數是一個(gè)List集合，里面封裝了所有需要從攝像頭獲取圖片的Surface；
　　第二個(gè)參數StateCallback用于監聽(tīng)CameraCaptureSession的創(chuàng )建過(guò)程；
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　第一個(gè)參數是由上面提到的createCaptureRequest創(chuàng )建的CaptureRequest.Builder對象生成的。
　　第二個(gè)參數callback是Camera采集時(shí)的回調對象。
　　第三個(gè)參數表示執行回調的Handler。如果程序想在當前線(xiàn)程中直接執行回調，可以將handler參數設置為null。
　　通過(guò)以上步驟，就可以從Camera設備中獲取視頻了。我們也可以通過(guò)Android的MediaRecorder類(lèi)將獲取到的視頻錄制下來(lái)進(jìn)行播放。對于MediaRecorder，我會(huì )在另一篇文章中介紹。
　　概括
　　通過(guò)上面對Camera2 API的使用分析，我們可以看出Camera2完全采用了異步架構模式。完成每一步Camera操作后，系統會(huì )通知用戶(hù)，用戶(hù)可以在回調中進(jìn)行下一步操作，而不必一直等待。采用這種模式的優(yōu)點(diǎn)是可以大大提高APP的工作效率，缺點(diǎn)是不夠直觀(guān)，增加了一些學(xué)習和開(kāi)發(fā)成本。
　　參考
　　谷歌示例 android-Camera2video
　　最新版本:網(wǎng)頁(yè)采集器（網(wǎng)頁(yè)采集器app）
　　目錄：
　　1.網(wǎng)站采集器
　　隨著(zhù)社會(huì )的不斷發(fā)展，人們越來(lái)越離不開(kāi)網(wǎng)絡(luò )。今天，小編就給大家盤(pán)點(diǎn)一下免費的網(wǎng)頁(yè)數據采集方法。只需點(diǎn)擊幾下鼠標，即可輕松采集網(wǎng)頁(yè)數據，無(wú)論是導出到excel還是自動(dòng)發(fā)布到網(wǎng)站都是可以的。詳細參考圖1、2、3、4！.
　　2.網(wǎng)頁(yè)數據采集器
　　企業(yè)人員通過(guò)抓取動(dòng)態(tài)網(wǎng)頁(yè)數據分析客戶(hù)行為，拓展新業(yè)務(wù)，同時(shí)也可以利用數據更好地了解競爭對手，分析競爭對手，超越競爭對手。網(wǎng)站人員實(shí)現自動(dòng)采集、定時(shí)發(fā)布、自動(dòng)SEO優(yōu)化，讓您的網(wǎng)站即刻擁有強大的內容支持，快速提升流量和知名度。
　　3.頁(yè)面采集
器
　　親自代替手工復制粘貼，提高效率，節省更多時(shí)間。解決學(xué)術(shù)研究或生活、工作等數據信息需求，徹底解決沒(méi)有素材的問(wèn)題，也告別了手動(dòng)復制粘貼的痛苦。
　　

　　4.網(wǎng)頁(yè)獲取系統
　　如何研究關(guān)鍵詞？了解如何開(kāi)始搜索引擎優(yōu)化可以幫助我們制定更好的排名策略。了解網(wǎng)站使用的關(guān)鍵詞可以幫助您了解您的品牌標識以及您的企業(yè)網(wǎng)站的產(chǎn)品或服務(wù)是什么？你提供什么服務(wù)？用戶(hù)通過(guò)關(guān)鍵詞搜索目標網(wǎng)站所使用的搜索詞，可以幫助用戶(hù)更好地了解公司的品牌和業(yè)務(wù)。
　　5.采集
瀏覽器
　　關(guān)鍵詞研究可以揭示人們在尋找什么，而不是你認為他們在尋找什么專(zhuān)注于優(yōu)化核心關(guān)鍵詞結合 SEO 技術(shù)，這將有助于排名和增加訪(fǎng)問(wèn)您網(wǎng)站的人數。
　　6.網(wǎng)頁(yè)數據采集軟件
　　如果你選擇一個(gè)與站點(diǎn)或商業(yè)市場(chǎng)無(wú)關(guān)的關(guān)鍵詞，并將這些關(guān)鍵詞放在站點(diǎn)中，該站點(diǎn)將在短時(shí)間內在搜索中排名靠前。
　　7. 瀏覽器采集
器
　　什么是核心關(guān)鍵詞分析？核心關(guān)鍵詞是關(guān)鍵詞，用戶(hù)通過(guò)搜索引擎關(guān)鍵詞找到相關(guān)網(wǎng)站，并在網(wǎng)站上購買(mǎi)產(chǎn)品和服務(wù)。是網(wǎng)站重點(diǎn)布局和優(yōu)化的關(guān)鍵詞核心關(guān)鍵詞的正確設置關(guān)系到網(wǎng)站后期的流量和交易量。我們做Google SEO核心的核心運營(yíng)。只有選擇合適的關(guān)鍵詞才會(huì )對您的網(wǎng)站產(chǎn)生實(shí)際的優(yōu)化效果。
　　8.采集
網(wǎng)頁(yè)數據
　　

　　否則，一些不是你網(wǎng)站核心的關(guān)鍵詞雖然會(huì )排在Google搜索的第一頁(yè)，但不會(huì )給網(wǎng)站帶來(lái)多少價(jià)值。
　　9.網(wǎng)頁(yè)采集工具
　　對核心關(guān)鍵詞最直接的理解就是讓你的目標客戶(hù)通過(guò)谷歌搜索找到你的網(wǎng)站關(guān)鍵詞，只有那些能夠吸引目標客戶(hù)訪(fǎng)問(wèn)你網(wǎng)站的關(guān)鍵詞才是真正的核心關(guān)鍵詞這就是核心關(guān)鍵詞如此重要的原因，因為它是決定你的網(wǎng)站或店鋪能否帶來(lái)銷(xiāo)量的主要核心因素。
　　10.網(wǎng)絡(luò )采集
器
　　如果沒(méi)有選對核心關(guān)鍵詞，那么就會(huì )有很多負面影響：網(wǎng)站上沒(méi)有有效的詢(xún)盤(pán)和訂單。該商店沒(méi)有更多交易。網(wǎng)站的轉化率會(huì )很低。造成不必要的工作和站點(diǎn)關(guān)鍵詞排名內耗。
　　檢查競爭對手的關(guān)鍵詞和挖掘競爭對手的關(guān)鍵詞是我最喜歡做的事情，因為它們已經(jīng)幫你檢測出哪些詞的流量高，哪些詞的流量一般，哪些詞的流量不是很大但是交通非常好。當然，別看別人的話(huà)流量高，自己照著(zhù)做就好了。一般來(lái)說(shuō)，這樣你會(huì )死的很慘。
　　因為別人都花時(shí)間積累了，為什么我們一做就能上來(lái)呢？所以選擇適合我們前期開(kāi)發(fā)的核心詞是非常重要的，因為核心詞的配套內容可以給你很多內容
　　主題測試文章，僅供測試使用。發(fā)布者：小編，轉載請注明出處：

更多...

話(huà)題描述

相關(guān)話(huà)題

最佳回復者

: 優(yōu)采云
獲得 0 次贊同, 0 次感謝

1 人關(guān)注該話(huà)題

視
頻
教
程

在
線(xiàn)
客
服

官方客服QQ群

在
線(xiàn)
客
服

最近中文字幕2019高清,亚洲人成高清在线播放,男生淦哭男生图片动漫有字,国产亚洲精品九九久在线观看,无码av专区丝袜专区

<tfoot id="uk0k2"></tfoot>