浏覽量:71次
爬取和收錄并不是包含關系,他們兩個是搜索引擎工(gōng)作的環節,滄州網絡推廣,蜘蛛爬取頁面後放(fàng)入臨時數據庫,等内容通過審查後被放(fàng)出就形成了收錄。所以這兩個環節是前後關系,但是沒有必然的聯系。
蜘蛛抓取頁面的過程:
一(yī)階段:大(dà)小(xiǎo)通吃
搜索引擎蜘蛛過來抓取時,就需要對網站的URL進行一(yī)個統一(yī)的抓取,也就是站長常說的“大(dà)小(xiǎo)通吃”的情況。搜索引擎蜘蛛對網頁中(zhōng)出現地鏈接,都會逐一(yī)加入到待抓取URL中(zhōng),機械性的将新抓取的網頁中(zhōng)的URL提取出來。這對于很多的站點來說,是比較好的情況。搜索引擎蜘蛛過來抓取時,站長可以通過網站日志(zhì)有一(yī)個清楚的記錄。站長可以通過網站日志(zhì)分(fēn)析網站優化的基本情況,這僅僅是一(yī)階段。
第二階段:網頁評級
搜索引擎蜘蛛對網站的頁面進行抓取以後,就需要對網站的頁面進行評級。PageRank是一(yī)種著名的鏈接分(fēn)析算法,可以用來衡量網頁的重要性,很自然的,站長可以用PageRank的思路來對URL進行排序。搜索引擎蜘蛛抓取頁面後,會對網站的頁面進行下(xià)載。但PageRank是個全局性算法,也就是當所有網頁有下(xià)載完成後,其計算結果才是可靠的。seo優化公司小(xiǎo)編介紹對于中(zhōng)小(xiǎo)網站來講,服務器如果質量不好,如果在抓取過程中(zhōng),隻看到部分(fēn)内容,在抓取階段是無法獲得可靠的PageRank得分(fēn)。
蜘蛛爬取成功卻不放(fàng)出來的原因:
seo
蜘蛛爬取後會将頁面放(fàng)入到臨時數據庫,搜索引擎再對臨時數據庫中(zhōng)的内容進行審查,将優質的内容放(fàng)出并建立索引。所以并不是說爬取就會被收錄,還需要内容質量過關才能被放(fàng)出來并建立索引。不同的蜘蛛抓取的頁面評測也不一(yī)樣,有的是低權重的蜘蛛,有的是高權重的蜘蛛和抓取待定的蜘蛛,這個可以百度搜下(xià)各種蜘蛛的情況,來做出各種應對情況
正常情況下(xià)網站提交後次日,spider會放(fàng)出一(yī)個網站主頁的快照。再接下(xià)來的時間内,會不斷的收錄索引内容頁,并持續的放(fàng)出。這個過程維護一(yī)月、二月、或者是三月,時間不等。如果網站已經有首頁放(fàng)出,說明百度蜘蛛已經有來抓取過,隻是内容還沒有放(fàng)出來,多等待些時間即可。如果在等待收錄放(fàng)出的時間階段不要做任何大(dà)的發動。比如說修改title标題、修改url等。否則會延長放(fàng)出的時間,周期也會變長。
網站快速被蜘蛛抓取方法:
1、網站及頁面權重
這個肯定是首要的了,權重高、資(zī)格老、有權威的網站蜘蛛是肯定特殊對待的,這樣的網站抓取的頻(pín)率非常高,而且大(dà)家知(zhī)道搜索引擎蜘蛛爲了保證效率,對于網站不是所有頁面都會抓取的,而網站權重越高被爬行的深度也會比較高,相應能被抓取的頁面也會變多,這樣能被收錄的頁面也會變多。
2、網站服務器
網站服務器是網站的基石,網站服務器如果長時間打不開(kāi),那麽這相當與你閉門謝客,蜘蛛想來也來不了。百度蜘蛛也是網站的一(yī)個訪客,如果你服務器不穩定或是比較卡,蜘蛛每次來抓取都比較艱難,并且有的時候一(yī)個頁面隻能抓取到一(yī)部分(fēn),這樣久而久之,百度蜘蛛的體(tǐ)驗越來越差,對你網站的評分(fēn)也會越來越低,自然會影響對你網站的抓取,所以選擇空間服務器一(yī)定要舍得,沒有一(yī)個好的地基,再好的房子也會跨。
3、網站的更新頻(pín)率
蜘蛛每次爬行都會把頁面數據存儲起來。如果第二次爬行發現頁面與首次收錄的完全一(yī)樣,說明頁面沒有更新,蜘蛛也就沒有必要經常抓取了。頁面内容經常更新,蜘蛛就會更加頻(pín)繁的訪問頁面,但是蜘蛛不是你一(yī)個人的,不可能就在這蹲着等你更新,所以我(wǒ)們要主動向蜘蛛示好,有規律的進行文章更新,這樣蜘蛛就會根據你的規律有效的過來抓取,不僅讓你的更新文章能更快的抓取到,而且也不會造成蜘蛛經常性的白(bái)跑一(yī)趟。
4、文章的原創性
優質的原創内容對于百度蜘蛛的誘惑力是非常巨大(dà)的,蜘蛛存在的目的就是尋找新東西,所以網站更新的文章不要采集、也不要每天都是轉載,我(wǒ)們需要給蜘蛛真正有價值的原創内容,蜘蛛能得到喜歡的,自然會對你的網站産生(shēng)好感,經常性的過來覓食。
5、扁平化網站結構
蜘蛛抓取也是有自己的線路的,在之前你就給他鋪好路,網站結構不要過于複雜(zá),鏈接層次不要太深,如果鏈接層次太深,後面的頁面很難被蜘蛛抓取到。
6、網站程序
在網站程序之中(zhōng),有很多程序可以制造出大(dà)量的重複頁面,這個頁面一(yī)般都是通過參數來實現的,當一(yī)個頁面對應了很多URL的時候,就會造成網站内容重複,可能造成網站被降權,這樣就會嚴重影響到蜘蛛的抓取,所以程序上一(yī)定要保證一(yī)個頁面隻有一(yī)個URL,如果已經産生(shēng),盡量通過301重定向、Canonical标簽或者robots進行處理,保證隻有一(yī)個标準URL被蜘蛛抓取。
7、外(wài)鏈和内鏈建設
大(dà)家都知(zhī)道,外(wài)鏈可以爲網站引來蜘蛛,特别是在新站的時候,網站不是很成熟,蜘蛛來訪較少,外(wài)鏈可以增加網站頁面在蜘蛛面前的曝光度,防止蜘蛛找不到頁面。在外(wài)鏈建設過程中(zhōng)需要注意外(wài)鏈的質量,别爲了省事做一(yī)些沒用的東西,百度現在對于外(wài)鏈的管理相信大(dà)家都知(zhī)道,我(wǒ)就不多說了,不要好心辦壞事了。
蜘蛛的爬行是跟着鏈接走的,所以内鏈的合理優化可以要蜘蛛抓取到更多的頁面,促進網站的收錄。内鏈建設過程中(zhōng)要給用戶合理推薦,除了在文章中(zhōng)增加錨文本之外(wài),可以設置相關推薦,熱門文章,更多喜歡之類的欄目,這是很多網站都在利用的,可以讓蜘蛛抓取更大(dà)範圍的頁面。
8、建設網站地圖
搜索引擎蜘蛛非常喜歡網站地圖,網站地圖是一(yī)個網站所有鏈接的容器。很多網站的鏈接層次比較深,蜘蛛很難抓取到,網站地圖可以方便搜索引擎蜘蛛抓取網站頁面,通過抓取網站頁面,清晰了解網站的架構,所以建設一(yī)個網站地圖不僅提高抓取率還能獲得蜘蛛好感。
9、主動提交
每次更新完頁面,主動把内容向搜索引擎提交一(yī)下(xià)也是一(yī)個不錯的辦法,隻不過不要沒收錄就一(yī)直去(qù)提交,提交一(yī)次就夠了,收不收錄是搜索引擎的事,提交不代表就要收錄。
[聲明]本網轉載網絡媒體(tǐ)稿件是爲了傳播更多的信息,此類稿件不代表本網觀點,本網不承擔此類稿件侵權行爲的連帶責任。故此,如果您發現本網站的内容侵犯了您的版權,請您的相關内容發至此郵箱【hbbodeng@163.com】,我(wǒ)們在确認後,會立即删除,保證您的版權。
24小(xiǎo)時免費(fèi)咨詢
請輸入您的聯系電(diàn)話(huà),座機請加區号