欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

分布式Spider和“降權(quán)蜘蛛”

2020-01-30    分類: 網(wǎng)站建設(shè)

由于Spider(搜索引擎蜘蛛)所要抓取的網(wǎng)頁太多,如果只有單一的一個Spider進行抓取作業(yè),那么將需要非常巨大的計算能力,同時也會消耗更多的抓取時間。這里就引入了分布式計算的概念,把龐大的抓取作業(yè)任務(wù)分割成很多較小的部分,使用大量合理計算能力的服務(wù)器來承載這個任務(wù),以完成對全互聯(lián)網(wǎng)網(wǎng)頁的快速抓取?,F(xiàn)在大型搜索引擎都會使用分布式計算,同樣Spider也會使用分布式計算,可以稱這種Spider為分布式Spider,它遵循了分布式計算的主要規(guī)則,根據(jù)這些規(guī)則也可以解釋現(xiàn)在站長和SEO人員關(guān)心的“降權(quán)蜘蛛”問題。

分布式計算有很多種計算方式,這里簡單介紹Spider應(yīng)有的分布式抓取策略。涉及分布式計算,也就涉及任務(wù)分發(fā)機制。整個分布式Spider系統(tǒng)需要保證所有Spidei?之間不會有重復(fù)抓取的情況發(fā)生,也就是要為各個Spider分配好抓取范圍。當一個Spider發(fā)現(xiàn)一個新的URL時,會判斷該URL是否在自己的抓取范圍之內(nèi),如果在自己的抓取范圍之內(nèi),就會把該URL放到自己待抓取URL隊列中;如果不在自己的抓取范圍之內(nèi),就會把該URL提交給上級服務(wù)器,由上級服務(wù)器分發(fā)給相應(yīng)的Spider,并加入到該Spider的待抓取URL列表中。

要確保所有Spider的作業(yè)不重復(fù),就要求每個Spider都有自己的抓取范圍,也就是說每個Spider都會只抓取指定類型的網(wǎng)頁。這里就要看搜索引擎是如何對網(wǎng)頁進行分類的了,常規(guī)網(wǎng)頁的分類方法有三種,第一種是按照優(yōu)秀站點、普通站點、垃圾站點、降權(quán)站點和屏蔽(被K)站點等站點質(zhì)量等級分類;第二種是按照網(wǎng)站首頁、網(wǎng)站目錄頁、網(wǎng)站內(nèi)容頁、網(wǎng)站專題頁、視頻、圖片、新聞、行業(yè)資料、其他類型的網(wǎng)絡(luò)文件(PDF、Word、Excel等)等網(wǎng)頁類型分類;第三種是按照站點或網(wǎng)頁內(nèi)容所在行業(yè)分類。在真正的Spider系統(tǒng)設(shè)計中,為了減少搜索引擎和被抓取站點服務(wù)器之間的握手次數(shù)(影響抓取效率的重要因素),站點級別相關(guān)的分類應(yīng)該是被優(yōu)先使用的。

Spider會嚴格按照自己的作業(yè)任務(wù)進行作業(yè),由以上分類可以看出,對于大部分中小網(wǎng)站一般都會有一個固定的Spider進行抓取,所以很多站長和SEO人員在分析網(wǎng)站日志時所發(fā)現(xiàn)的百度Spider經(jīng)常都是同一IP段的,但是不同網(wǎng)站之間發(fā)現(xiàn)的Spider的IP段并不同。理論上,如果參與研究的站點比較多,類型比較豐富,就可以比較容易地分辨出百度Spider的任務(wù)分發(fā)模式,這樣通過分析日志中百度來訪Spider的IP就可以判斷出自己的站點在百度搜索眼中是什么樣的。

針對第一種分類方式,就可能出現(xiàn)某一IP段的Spider只抓取權(quán)重高的網(wǎng)站,某一IP段的Spider只抓取已被搜索引擎降權(quán)或者屏蔽的網(wǎng)站。如果真的是采用這種任務(wù)分發(fā)方式,那么網(wǎng)絡(luò)上所傳的“降權(quán)蜘蛛”就可能存在。不過并不是因為這個Spider的到來使得網(wǎng)站降權(quán)或者屏蔽,而是因為該網(wǎng)站已經(jīng)被百度降權(quán)或者屏蔽,百度服務(wù)器才會把對該站點的抓取任務(wù)分發(fā)給這個Spider。如果百度使用這種分布式的Spicier,那么網(wǎng)絡(luò)上對百度Spider各IP段特性的總結(jié)也是比較有意義的,不過不可全信,因為百度不可能只使用一種任務(wù)分發(fā)模式。這也可以成為站長和SEO人員的研究方向,即使可能最終一無所獲。因為搜索引擎對網(wǎng)站和網(wǎng)頁的分類有太多緯度了,新抓取和再次抓取所使用的緯度就可能不同,很可能各個緯度都是綜合使用的。

如圖所示為某網(wǎng)友對百度Spider所使用的IP的分析,有興趣的朋友可以百度搜索一下“百度蜘蛛IP段詳解”,有不少類似的總結(jié),看看就好,不可以絕對當真。

SEOER對百度Spider的分析
SEOER對百度Spider的分析

網(wǎng)站欄目:分布式Spider和“降權(quán)蜘蛛”
鏈接URL:http://www.aaarwkj.com/news42/81292.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供靜態(tài)網(wǎng)站、用戶體驗、網(wǎng)站改版、ChatGPT、企業(yè)建站外貿(mào)網(wǎng)站建設(shè)

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)
国产日韩精品一区二区在线| 欧美日韩在线视频一区| 青青草手机在线视频免费观看| 亚洲成av人片一区二久久精品| 色爱区偷拍人妻中文字幕| 日韩精品中文字幕有码在线| 国产欧美日韩一二三四| 日产中文乱码字幕无线观看| 无套内射精品一区二区| 98精品熟女亚洲av| 中高龄夫妇五十路六十路| 成人作爱视频免费播放| 国产精品国产精品无卡区| 91麻豆成人国产在线观看 | 欧美精品日韩中文字幕在| 婷婷五激情五月激情片| 亚洲欧美综合另类久久| 久久国产成人精品免费看| 国产三级成人在线视频| 欧美一日韩一级片免费看| 欧美精品中出一区二区三区| 久久成人影院免费观看| 一区二区三区免费在线观看视频| 久久九九精品日本人妻视频| 99人妻精品一区二区| 丰满多毛熟妇的大阴户| 国产高清自拍视频在线一区| 中文字幕成人免费看片| 视频一区中文字幕在线| 日韩在线免费色视频| 色综合久久婷婷色综合网| 国产极品嫩模在线观看91| 亚洲综合色日本日b网| 亚洲欧美一区日韩尤物| 日本经典三级在线视频| 国内在线免费观看av| 91人妻精品丰满少妇区| 91高清国产最新地址| 永久黄区观看在线网址| 成人午夜激情在线观看| 欧美日韩在线一区二区|