,最新四虎精品成人免费视频,狠狠色丁香久久综合五月,毛片在线播出

解讀百度站長學院中的《搜索引擎工作原理》之

來源:南充領跑網(wǎng)絡技術(shù)有限公司   發(fā)布時間:2016-07-27

很早之前就看過百度官方發(fā)布的搜索引擎工作原理,最近百度站長平臺改版,將原來的資訊改成了站長學院,其中也對搜索引擎工作原理進行了更新。

今日又看了一遍,發(fā)現(xiàn)還有很多值得琢磨的地方,下面我就對我比較感興趣的段落摘錄下來并大概解讀一下。

一,抓取篇

spider抓取系統(tǒng)包括鏈接存儲系統(tǒng)、鏈接選取系統(tǒng)、dns解析服務系統(tǒng)、抓取調(diào)度系統(tǒng)、網(wǎng)頁分析系統(tǒng)、鏈接提取系統(tǒng)、鏈接分析系統(tǒng)、網(wǎng)頁存儲系統(tǒng)。

蜘蛛從鏈接庫中選取鏈接,對鏈接對應的頁面進行抓取,保存網(wǎng)頁到網(wǎng)頁庫的同時再提取抓取頁面中的鏈接,并對這些鏈接和鏈接庫進行對照、合并重復鏈接、建立新鏈接入庫。其中在抓取頁面的時候,已經(jīng)對頁面進行簡單分析,過濾掉垃圾頁面。這是一個不斷循環(huán)的過程。

Baiduspider根據(jù)上述網(wǎng)站設置的協(xié)議對站點頁面進行抓取,但是不可能做到對所有站點一視同仁,會綜合考慮站點實際情況確定一個抓取配額,每天定量抓取站點內(nèi)容,即我們常說的抓取頻次。那么百度搜索引擎是根據(jù)什么指標來確定對一個網(wǎng)站的抓取頻次的呢,主要指標有四個:
1,網(wǎng)站更新頻率:更新快多來,更新慢少來,直接影響B(tài)aiduspider的來訪頻率
2,網(wǎng)站更新質(zhì)量:更新頻率提高了,僅僅是吸引了Baiduspier的注意,Baiduspider對質(zhì)量是有嚴格要求的,如果網(wǎng)站每天更新出的大量內(nèi)容都被Baiduspider判定為低質(zhì)頁面,依然沒有意義。
3,連通度:網(wǎng)站應該安全穩(wěn)定、對Baiduspider保持暢通,經(jīng)常給Baiduspider吃閉門羹可不是好事情
4,站點評價:百度搜索引擎對每個站點都會有一個評價,且這個評價會根據(jù)站點情況不斷變化,是百度搜索引擎對站點的一個基礎打分(絕非外界所說的百度權(quán)重),是百度內(nèi)部一個非常機密的數(shù)據(jù)。站點評級從不獨立使用,會配合其它因子和閾值一起共同影響對網(wǎng)站的抓取和排序。
如果你的網(wǎng)站新更新的文章百度收錄慢或者不收錄,就可以從以上四點上找下原因,其中影響最大的就是更新頻率,也就是我們常說的,要學會養(yǎng)蜘蛛,更新頻率不但指更新量上,還要注意每日的更新篇數(shù)不要懸殊太大。另外,網(wǎng)站訪問穩(wěn)定也要注意,打開速度過慢或者無法打開都會影響到收錄問題。

Baiduspider抓了多少頁面并不是最重要的,重要的是有多少頁面被建索引庫,即我們常說的“建庫”。眾所周知,搜索引擎的索引庫是分層級的,優(yōu)質(zhì)的網(wǎng)頁會被分配到重要索引庫,普通網(wǎng)頁會待在普通庫,再差一些的網(wǎng)頁會被分配到低級庫去當補充材料。目前60%的檢索需求只調(diào)用重要索引庫即可滿足,這也就解釋了為什么有些網(wǎng)站的收錄量超高流量卻一直不理想。
我認為,這三個等級的索引庫也是有相互轉(zhuǎn)化的,比如普通庫的頁面會被提升到優(yōu)質(zhì)庫中,對于很多新站或者信任度不高的站點,新發(fā)布的頁面很難直接進入到優(yōu)質(zhì)庫中,但后期如果經(jīng)過搜索用戶檢驗,以及大量的外鏈導入可能會轉(zhuǎn)化到優(yōu)質(zhì)庫中。

哪些網(wǎng)頁可以進入優(yōu)質(zhì)索引庫呢。其實總的原則就是一個:對用戶的價值。
包括卻不限于:
1,有時效性且有價值的頁面:在這里,時效性和價值是并列關系,缺一不可。有些站點為了產(chǎn)生時效性內(nèi)容頁面做了大量采集工作,產(chǎn)生了一堆無價值面頁,也是百度不愿看到的.
2,內(nèi)容優(yōu)質(zhì)的專題頁面:專題頁面的內(nèi)容不一定完全是原創(chuàng)的,即可以很好地把各方內(nèi)容整合在一起,或者增加一些新鮮的內(nèi)容,比如觀點和評論,給用戶更豐富全面的內(nèi)容。
3,高價值原創(chuàng)內(nèi)容頁面:百度把原創(chuàng)定義為花費一定成本、大量經(jīng)驗積累提取后形成的文章。千萬不要再問我們偽原創(chuàng)是不是原創(chuàng)
4,重要個人頁面:這里僅舉一個例子,科比在新浪微博開戶了,需要他不經(jīng)常更新,但對于百度來說,它仍然是一個極重要的頁面。
請注意這里面的時效性、價值性、整合、成本、獨立無二,特別是里面的成本,復制粘貼的無成本、標題黨無成本、所以,就算你不原創(chuàng),你也要讓人感覺你的文章是花了很大時間成本或金錢成本搞成的。上面百度所講的四個點中不包含權(quán)威性,但權(quán)威性也是一個很很關鍵的因素,同樣一個文章,大門戶復制和一個小站長復制,那層次是不一樣的。

哪些網(wǎng)頁無法建入索引庫

上述優(yōu)質(zhì)網(wǎng)頁進了索引庫,那其實互聯(lián)網(wǎng)上大部分網(wǎng)站根本沒有被百度收錄。并非是百度沒有發(fā)現(xiàn)他們,而是在建庫前的篩選環(huán)節(jié)被過濾掉了。那怎樣的網(wǎng)頁在最初環(huán)節(jié)就被過濾掉了呢:

1, 重復內(nèi)容的網(wǎng)頁:互聯(lián)網(wǎng)上已有的內(nèi)容,百度必然沒有必要再收錄。

2, 主體內(nèi)容空短的網(wǎng)頁

1)有些內(nèi)容使用了百度spider無法解析的技術(shù),如JS、AJAX等,雖然用戶訪問能看到豐富的內(nèi)容,依然會被搜索引擎拋棄

2)加載速度過慢的網(wǎng)頁,也有可能被當作空短頁面處理,注意廣告加載時間算在網(wǎng)頁整體加載時間內(nèi)。

3)很多主體不突出的網(wǎng)頁即使被抓取回來也會在這個環(huán)節(jié)被拋棄。

3, 部分作弊網(wǎng)頁

了解搜索引擎的工作原理,對從事seo是十分關鍵的,有時候,我們不需要刻意研究怎樣才能獲取好的排名,只要你站在搜索引擎的角度上,了解其基本工作原理,如果整個抓取和排序系統(tǒng)讓你去開發(fā)的話,你會怎樣做?換位思考后,千萬別再去考慮站長的利益,而是更多地去考慮搜索用戶喜歡什么,他們想要什么。

 

   
標簽:
上一篇:揭秘手機在QQ空間首發(fā)奧秘
下一篇:360推出獨立搜索產(chǎn)品 好搜

網(wǎng)站建設知識網(wǎng)站建設知識

企業(yè)官方網(wǎng)站建設 品牌創(chuàng)意網(wǎng)站建設 B2C電子商務網(wǎng)站建設 其他web應用開發(fā)
微信官網(wǎng)建設 微信影響活動 微信點餐系統(tǒng) 其他微信應用開發(fā)

更多 +聯(lián)系我們

業(yè)務范圍:南充、遂寧、巴中、廣安、達州

業(yè)務電話:156-0827-8880180-8154-3787

業(yè)務合作:  278422624 地圖導航: 點擊查看

E-mail:  lingpaonc@qq.com 渠道合作 : 278422624

我們的認知

當對手還在將注意力停留在碎片化的互聯(lián)網(wǎng)設計或程序?qū)崿F(xiàn)時,領跑早已開始將數(shù)字品牌的建設和傳播進一步整合。只有通過整體的互聯(lián)網(wǎng)品牌分析,幫助品牌建立互聯(lián)網(wǎng)品牌傳播價值,并圍繞價值建立品牌粘性,提升品牌與用戶的互動,更好的幫助品牌傳播,觸發(fā)用戶的行動力才是我們工作的終極目標,這正是一流品牌的成功秘訣。
不可否認,建立互聯(lián)網(wǎng)品牌傳播價值的確是門藝術(shù),但互聯(lián)網(wǎng)不同于藝術(shù)涂鴉,企業(yè)投資品牌絕不是希望品牌成為某個藝術(shù)家的實驗品?;ヂ?lián)網(wǎng)傳播的對象是用戶,用戶擁有自己的文化體系,群落共性才是互聯(lián)網(wǎng)品牌傳播創(chuàng)意的源頭,如果我們不能幫助企業(yè)激發(fā)目標用戶的共鳴,產(chǎn)生購買沖動,那將是品牌的悲?。? 因此,互聯(lián)網(wǎng)傳播必須建立品牌傳播價值,為夢想者創(chuàng)造夢想品牌,領跑與您同行!