欧美一级特黄大片做受成人-亚洲成人一区二区电影-激情熟女一区二区三区-日韩专区欧美专区国产专区

搜索引擎工作原理

2017-01-19    分類: 網(wǎng)站建設

在互聯(lián)網(wǎng)時代,搜索引擎可以說是日常生活的一部分。不僅如此,搜索引擎歷經(jīng)20多年的風霜雨雪,仍然牢牢占據(jù)著流量入口,不得不讓人感嘆。

而且,提起搜索引擎,我們都會想到一家高大上的巨無霸公司和一家被黑出xiang的巨霸公司。足以見得搜索引擎的巨大作用。

作為產(chǎn)品人,對此當然不能視而不見,也應該了解了解其工作原理。

搜索引擎工作原理大致可以分為3個步驟

1. 爬行與抓取

2. 預處理

3. 排序

所謂一圖勝千言,沒圖我說個……

PS:上圖總結(jié)自《SEO實戰(zhàn)密碼》。

下面詳細敘述:

爬行與抓取

簡單地說:就是搜索引擎蜘蛛沿著互聯(lián)網(wǎng)絡爬行并抓取其爬行的頁面,將這些抓取的頁面存儲起來。

說到這,你可能會問:為什么叫「蜘蛛」?

為了抓取盡量多的頁面,搜索引擎會跟蹤頁面上的鏈接,從一個頁面爬行到下一個頁面,好像蜘蛛在蜘蛛網(wǎng)上爬行那樣,這就是 搜索引擎蜘蛛 這個名稱的由來。

搜索引擎在跟蹤網(wǎng)絡上的鏈接時,會使用一定策略,因為現(xiàn)在的網(wǎng)絡鏈接太多。最簡單的爬行遍歷策略有兩種,一種是 深度優(yōu)先 ,一種是 廣度優(yōu)先 。

還有一點值得一提:搜索引擎訪問網(wǎng)站頁面時 類似于普通用戶使用的瀏覽器 。搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫,其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML完全一樣。

預處理

由于抓取的頁面數(shù)量太大(以”億”為單位),無法快速實時排序,所以需要預處理。這就是產(chǎn)品設計中的「 復雜性守恒原則 」,我們沒辦法讓用戶等待十幾秒甚至更久,就只能在后臺處理上下功夫。

在一些資料中,「預處理」也被稱為「索引」,因為「索引」是預處理最主要的內(nèi)容。

預處理的過程比較復雜,值得一提的有這么幾點:

去重 :對于內(nèi)容相似度高的,搜索引擎不喜歡,因為用戶不喜歡這樣的內(nèi)容。而且,搜索引擎的去重算法很可能不止于頁面級別,而是進行到段落級別。因此,混合不同文章、交叉調(diào)換段落順序也不能使轉(zhuǎn)載和抄襲變成原創(chuàng)。所以, 少抄襲,多原創(chuàng)吧 。

正向索引 :可以簡稱為「索引」。通過這個步驟,搜索引擎將頁面及關(guān)鍵詞形成詞表結(jié)構(gòu)存儲進索引庫。簡化的索引詞表形式如下。你看,這樣就得到了每個文件(如每個頁面)的對應關(guān)鍵詞。這樣用戶就能搜索了嗎?還不行。

倒排索引 :正向索引雖然提供了文件與關(guān)鍵詞的對應關(guān)系,但無奈用戶搜索的是關(guān)鍵詞,因此搜索引擎還需根據(jù)這些對應關(guān)系找到某關(guān)鍵詞對應的文件,這樣的計算量無法滿足實時返回排名結(jié)果的要求。因此,還需要 倒排索引 。倒排索引與正向索引剛好相反,它以關(guān)鍵詞為關(guān)鍵,簡單來說如下表:

得到了倒排索引,就能很快地根據(jù)用戶搜索的關(guān)鍵詞找到對應文件,但這樣就夠了嗎?別天真啊。

通過上述步驟,其實只得到了頁面本身的內(nèi)容。說白了,就是頁面本身告訴搜索引擎自己如何如何。

俗話說:王婆賣瓜,自賣自夸。

就像我們網(wǎng)購時不僅會看店家給的商品介紹,還會看看買家的評論一樣,頁面內(nèi)容質(zhì)量,也需要其他人的評價——這里的「其他人」指「其他頁面?!顾?,我們還需要鏈接關(guān)系計算。

鏈接關(guān)系計算 :每個頁面上都有鏈接,不同頁面之間用鏈接互相關(guān)聯(lián)起來,這些關(guān)聯(lián)關(guān)系,就形成了其他頁面對某個頁面的評價。這些復雜的鏈接指向關(guān)系形成了網(wǎng)站和頁面的鏈接權(quán)重。

排名

發(fā)現(xiàn)沒有:排名,是用戶是用戶唯一能感覺到的步驟,爬行與抓取、預處理,都在后臺完成。正因如此,用戶才會感到用起來十分快捷。

排名的過程也比較復雜,其中值得一提的有如下幾點:

搜索詞處理 :說白了,就是處理用戶輸入的關(guān)鍵詞。這一步對用戶來說更為關(guān)鍵,因為搜索引擎還不夠智能,需要我們?nèi)W習一些高級指令,以獲得更為精準的內(nèi)容。

但由于每個關(guān)鍵詞對應的文件數(shù)量都可能是巨大的(如幾億個),處理如此龐大的數(shù)據(jù)量,無法滿足用戶對「快」的需求。同時,用戶并不需要所有內(nèi)容,他們往往只查看前幾頁內(nèi)容,甚至很多用戶只查看第一頁的前幾條內(nèi)容。因此,選擇一定數(shù)量的內(nèi)容進行處理,很有必要。這就涉及到 選擇初識子集 。

但如何選擇呢?這是一個問題。

選擇初識子集 :選擇出示子集,關(guān)鍵在于「 權(quán)重 」。所以說權(quán)重有多重要,即使頁面做得好,但權(quán)重不高,連做備胎的機會都沒有。

相關(guān)性計算 :這是排名過程中最重要的一步,最終搜索結(jié)果頁面的排名基本按照相關(guān)性從高到低排序。

但到此就結(jié)束了嗎?還沒有哦。

排名過濾及調(diào)整 :為了保證用戶搜索結(jié)果更符合用戶需求,搜索引擎需要過濾掉那些處心積慮鉆空子的頁面,在這一步,搜索引擎會找出這些頁面并施加懲罰。典型的例子是百度的11位。所以,過度優(yōu)化有風險。

查詢及點擊日志 :通過這一步,搜索引擎記錄了用戶的一些數(shù)據(jù),從而為后續(xù)的優(yōu)化提供依據(jù)。這和產(chǎn)品日常工作中的數(shù)據(jù)埋點有些相似。

當前名稱:搜索引擎工作原理
網(wǎng)站網(wǎng)址:http://www.aaarwkj.com/news/72697.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供品牌網(wǎng)站設計、響應式網(wǎng)站、網(wǎng)站排名、動態(tài)網(wǎng)站、品牌網(wǎng)站制作、電子商務

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

網(wǎng)站建設網(wǎng)站維護公司
中文字幕加勒比东京热| 日本在线观看成人大片| 国产精品大屁股白浆一区二区| 凹凸国产精品熟女视频| 成人又黄又爽大片在线观看| 亚洲欧美韩国日本成人综合| 国产精品美女自拍视频| 亚洲美女高潮久久久久久久久| 日韩一级毛一片欧美一级| 亚洲国产日韩欧美第一页| 国产一区国产二区中文字幕| 神马免费午夜福利剧场| 久久这里只有精品蜜桃| 欧美亚洲另类在线第一页| 日韩欧美日日夜夜精品| 国精品午夜福利视频不卡| 手机在线观看午夜小视频| 伊人婷婷综合激情网| 免费看av网站一区二区| 少妇的诱惑免费在线看| 日本韩国黄色三级三级| 日本av电影一区二区三区四区| 亚洲熟乱熟女一区二区| 日韩久久精品免费视频| 日韩欧美高清一区二区| 黄色午夜福利在线观看| 亚洲综合av一区二区| 日本女优久久精品观看| 国产亚洲中文字幕91| 91久久久久久人妻精品粉嫩| 日本一区二区中文字幕在线| 国产怡红院在线视频观看| 亚洲一区二区三区国色天香| 成人午夜在线三级内射| 日本一区二区高清在线观看| 国产午夜亚洲精品羞羞网站| 少妇高潮试看二十分钟| 91老熟女露脸大合集| 日本一二三四卡久久精品| 韩国福利短片在线观看| 亚洲男人堂色偷偷一区|