蜘蛛不一定喜歡所有的食物

2016/12/6 9:59:06來源:互聯(lián)網(wǎng)熱度:5499

有的時(shí)候,一個(gè)網(wǎng)站并不是所有頁面都希望被收錄,如正在測(cè)試的頁面,死鏈接,復(fù)制頁面等等。這些頁面抓取會(huì)消耗搜索引擎分配給網(wǎng)站的總抓取時(shí)間,造成真正有意義的頁面反倒不能被抓取和收錄。  

如果通過檢查日志文件發(fā)現(xiàn)這些無意義的頁面被反復(fù)大量抓取,想要收錄頁面卻根本沒被抓取過,那應(yīng)該直接禁止抓取無意義的頁面。抓取和收錄是不同的兩個(gè)過程。要確保頁面不被抓取,需要使用robots文件。  

蜘蛛不一定喜歡所有的食物

搜索引擎蜘蛛訪問網(wǎng)站時(shí),會(huì)先查看網(wǎng)站根目錄下有沒有一個(gè)命名為robots.txt的純文本文件,robots.txt用于指令搜索引擎禁止抓取網(wǎng)站某些內(nèi)容或指定允許抓取某些內(nèi)容。  

一.現(xiàn)在教大家使用幾個(gè)常用的robots指令:  

A:允許所有搜索引擎抓取所有頁面和內(nèi)容  

User-agent:*  

Allow:/  

B:禁止所有搜索引擎抓取所有頁面和內(nèi)容  

User-agent:*  

Disallow:/  

C:禁止網(wǎng)站某一個(gè)頁面被抓?。ū热缭擁撁媸恰皒inwen”)  

User-agent:*  

Allow:/  

Disallow/xinwen/  

......  

當(dāng)然robots還有很多指令就不一一列舉了。  

robots文件一定要根據(jù)自身網(wǎng)站的抓取收錄情況來設(shè)置,需要查看網(wǎng)站日志,看看蜘蛛抓取了哪些頁面,這些頁面是否對(duì)網(wǎng)站整體流量排名有作用?實(shí)際情況實(shí)際分析。  

二.網(wǎng)站地圖:  

這里說的網(wǎng)站地圖不是網(wǎng)站上面顯示公司地址的百度地圖。正解如下:  

定義:網(wǎng)站地圖,又稱站點(diǎn)地圖,它就是一個(gè)頁面,上面放置了網(wǎng)站上需要搜索引擎抓取的所有頁面的鏈接(注:不一定是所有頁面),是網(wǎng)站所有鏈接的容器,蜘蛛非常喜歡網(wǎng)站地圖。  

形式:1.HTML版本,是用戶可以在網(wǎng)站上看到的、列出網(wǎng)站上所有主要頁面鏈接的頁面。這個(gè)根據(jù)你網(wǎng)站的情況而定,如果導(dǎo)航太多,內(nèi)容太多,可以列出一個(gè)主要頁面的網(wǎng)站地圖方便用戶瀏覽。  

2.XML版本,sitemap.xml。是搜索引擎蜘蛛抓取的地圖,網(wǎng)站地圖給蜘蛛爬行構(gòu)造了一個(gè)方便快捷的通道。  

作用:方便蜘蛛爬行;方便訪客瀏覽網(wǎng)站;可以提高網(wǎng)站的權(quán)重同時(shí)提高網(wǎng)站的收錄率。  

生成網(wǎng)站地圖:可以通過軟件sitemapx生成,比較方便的軟件,也可以通過百度站長工具去提交。  

通過提交XML網(wǎng)站地圖通知搜索引擎要收錄的頁面,只能讓搜索引擎知道這些頁面的存在,并不一能保證一定被收錄,搜索引擎還要看這些頁面的權(quán)重是否達(dá)到收錄的**標(biāo)準(zhǔn)。所以網(wǎng)站地圖只是輔助的辦法,不能代替良好的網(wǎng)站結(jié)構(gòu)。

免責(zé)聲明:稿件文字來源于木業(yè)網(wǎng)新聞部原創(chuàng),圖片由相關(guān)企業(yè)提供,如涉及版權(quán)問題,由該企業(yè)負(fù)責(zé),并請(qǐng)版權(quán)方聯(lián)系本網(wǎng),本網(wǎng)將及時(shí)予以處理。