來源:smyunshangcheng.cn 時間:2020-10-22 10:02:50 瀏覽:2869次
熊貓一般是單胎生產(chǎn),但是現(xiàn)在我們在動物園內經(jīng)常能看到雙胞胎或者三胞胎的熊貓,暫且不論原有,我們看到這樣的情況會感覺很新奇,但是如果這樣的情況出現(xiàn)在一個網(wǎng)站中,那么不論是搜索引擎還是用戶看到了,就不是感覺到新奇了,而是感覺到厭煩。正因為如此搜素引擎針對重復內容也發(fā)布了針對性的算法規(guī)則。國內的百度網(wǎng)去重算法和有我們SEO老大谷歌的Panda算法。針對重復率這邊,筆者個人感覺谷歌這樣的Panda算法更為細致明顯,所以本篇文章就以谷歌的Panda算法來進行搜索引擎對重復文字的判別與處罰問題進行討論。
什么是重復文字呢?字面上的意思就是當任何兩個或更多的網(wǎng)站頁面共享相同內容時,就存在了重復內容,也就是我們常說到的樣板文字。聽著如此簡單,那為什么這么簡單的概念會造成如此大的困難呢?一個問題是,人們常常誤以為“頁面”是位于其Web服務器上的文件或文檔。對于爬蟲而言,頁面是它碰巧找到的任何唯一URL,通常通過內部或外部鏈接找到。特別是在大型的動態(tài)網(wǎng)站上,創(chuàng)建兩個位于相同內容上的URL非常容易而且常常是網(wǎng)編無意而為的。
那么為什么搜索引擎會對重復文字如此重視呢?其實重復內容是SEO的問題,早在Panda更新之前就已經(jīng)存在,并且隨著算法的改變,其形式已經(jīng)多種多樣。簡單來舉例列舉一下:
1、補充索引
在Google成立之初,僅索引網(wǎng)絡是一項巨大的計算挑戰(zhàn)。為了應對這一挑戰(zhàn),一些被視為重復項或質量很低的頁面被存儲在稱為“補充”索引的二級索引中。從SEO角度來看,這些頁面自動成為二等頁面且失去了任何競爭排名能力。那么在2006年末左右,Google將補充結果重新納入了主要索引,但是這些結果仍然經(jīng)常被過濾掉。我們知道,只要我們在Google搜索引擎結果頁面底部看到以下警告,就可以達到過濾結果:在Google中省略了結果,即使該索引是統(tǒng)一的,結果仍然被“忽略”,對SEO產(chǎn)生了明顯的影響。當然,在許多情況下,這些頁面實際上是重復的或搜索價值很小,并且對SEO的實際影響可以忽略不計,但并非總是如此。
2、抓取“預算”
談到Google時,說話總是很困難,因為人們希望聽到一個絕對的數(shù)字。Google沒有絕對的爬網(wǎng)預算,也沒有固定數(shù)量的Google將在網(wǎng)站上爬網(wǎng)的頁面。但是,在某些時候Google可能會放棄一段時間的爬網(wǎng),特別是如果我們一直在沿著蜿蜒的路徑發(fā)送蜘蛛。盡管“預算”不是絕對的,但是即使對于給定的網(wǎng)站,我們也可以在Google網(wǎng)站站長工具“抓取統(tǒng)計信息”中了解Google對我們的網(wǎng)站的抓取分配:GWT抓取圖,當Google擊中了很多重復的路徑和頁面而導致一天放棄時,實際上,我們想要索引的頁面可能不會被抓取。
3、指數(shù)“上限”
同樣的Google不會為網(wǎng)站索引多少頁面設置上限。但是,似乎確實存在動態(tài)限制,并且該限制與站點的權限有關。如果用無用的重復頁面填充索引,則可以推出更重要,更深的頁面。
4、處罰辯論
在熊貓問世之前很久,每隔幾個月就要進行一次辯論,討論是否存在重復的內容懲罰。這些辯論雖然提出了正確的論點,但它們通常側重于語義,重復的內容是否引起了Capital-P處罰。盡管我們認為處罰和過濾器之間的概念差異很重要,但網(wǎng)站所有者的看法通常是相同的。如果網(wǎng)頁由于內容重復而沒有排名,那么無論我們叫什么名字,都將遇到問題。自從Panda以來,重復內容的影響在某些情況下變得更加嚴重。過去,重復的內容只會損害該內容本身。如果有重復項,則可能會補充或過濾掉。通常,沒關系。在極端情況下,大量重復項可能會使索引膨脹,或導致爬網(wǎng)問題并開始影響其他頁面。熊貓將重復內容視為更廣泛的質量方程式的一部分。現(xiàn)在,重復內容問題可能會影響我們的整個網(wǎng)站。如果我們受到Panda的打擊,則非重復頁面可能會失去排名能力,完全停止排名甚至落入索引。重復的內容不再是一個獨立存在的問題。
我們在深入研究重復內容以及用于處理重復內容的工具之前,筆者想介紹3個廣泛的重復類別。
1、完全重復,真正的副本是指與另一頁面100%相同內容上的任何頁面,這些頁面的唯一區(qū)別在于URL。
2、幾乎重復,幾乎重復的內容與另一個頁面或多個頁面之間的差異非常小,可能是文本塊,圖片甚至內容的順序。
3、跨網(wǎng)域重復,當兩個網(wǎng)站共享相同的內容時,就會發(fā)生跨域重復。
這些重復可以是完全或接近重復,與某些人的看法相反,即使對于合法的聯(lián)合內容,跨域重復也可能是一個問題。這看起來似乎是亂序的,但是在深入研究特定例子之前,我們想討論用于處理重復項的工具。這樣,我們可以推薦適當?shù)墓ぞ邅硇迯兔總€示例,而不會引起任何混淆。
1、404。處理重復內容的最簡單方法是將其刪除并返回404錯誤。如果內容確實對訪問者或搜索沒有任何價值,并且沒有明顯的入站鏈接或訪問量,則完全刪除是一種完全有效的選擇。
2、301重定向。刪除頁面的另一種方法是通過301重定向。與404不同,301告訴訪問者頁面已永久移動到另一個位置,用戶訪客無縫地到達新頁面。從SEO角度來看,大多數(shù)入站鏈接權限也將傳遞到新頁面。如果重復的內容具有清晰的規(guī)范URL,并且重復的內容具有流量或入站鏈接,則301重定向可能是一個不錯的選擇。
3、Robots.txt。另一種選擇是使重復內容可供用戶使用,但將其阻止給搜索爬網(wǎng)程序。執(zhí)行此操作的最古老且可能仍然最簡單的方法是使用robots.txt文件,通常位于我們的根目錄中,如:
User-agent:*
Disallow:/dupe-page.htm
Disallow:/dupe-folder/
robots.txt的優(yōu)點之一是封鎖整個文件夾甚至URL參數(shù)相對容易。缺點是這是一種極端的解決方案,有時甚至是不可靠的解決方案。盡管robots.txt可有效阻止未抓取的內容,但對于刪除索引中已有的內容卻不是很好。主流搜索引擎似乎也對它的過度使用不滿意,因此通常不建議使用robots.txt來復制內容。
4、元機器人。我們還可以使用稱為“元機器人”標記的標頭級指令在頁面級別控制搜索機器人的行為。標簽以最簡單的形式看起來像這樣:
<head>
<meta name="robots" content="noindex,nofollow"/>
</head>
該指令告訴搜索機器人不要為此特定頁面編制索引或跟隨其上的鏈接,同時我們還發(fā)現(xiàn)它比Robots.txt更具SEO友好性,并且由于可以使用代碼動態(tài)創(chuàng)建標簽,因此通常更靈活。Meta Robots的另一個常見變體是內容值“NOINDEX,F(xiàn)OLLOW”,它使機器人可以在不將頁面添加到搜索索引的情況下爬行頁面上的路徑。對于內部搜索結果之類的頁面,這可能很有用,我們可能希望阻止某些變化,但仍遵循產(chǎn)品頁面的路徑。其實無需在頁面上添加帶有“INDEX,F(xiàn)OLLOW”的Meta Robots標簽。默認情況下,所有頁面都被索引并遵循索引。
5、Rel=Canonical。搜索引擎聯(lián)合起來創(chuàng)建了Rel=Canonical指令,有時也稱為“Rel-canonical”或“Canonical Tag”。這使網(wǎng)站管理員可以為任何頁面指定規(guī)范版本。標簽位于頁面標題中,如:
<head>
<link rel="canonlcal" />
</head>
當搜索引擎到達帶有規(guī)范標簽的頁面時,它們會將頁面歸為規(guī)范URL,而不管它們用來訪問該頁面的URL是什么。因此,搜索引擎通常不會為附加的非規(guī)范URL編制索引,而是入站鏈接果汁也通過規(guī)范標記傳遞。不過值得我們注意的是對于任何給定的網(wǎng)站模板,我們需要清楚地了解什么是正確的規(guī)范頁面。將整個站點規(guī)范化為一頁或錯誤的頁面可能會造成災難性的后果。當搜索引擎到達帶有規(guī)范標簽的頁面時,它們會將頁面歸為規(guī)范URL,而不管它們用來訪問該頁面的URL是什么。
6、Rel=Prev & Rel=Next。Google為我們提供了一種新工具,可用于解決特定形式的近重復內容,分頁搜索結果。我們可以通過使用一對類似于Rel-Canonical的標簽來告訴Google分頁內容如何連接。它們分別稱為Rel-Prev和Rel-Next,舉例來說:
<head>
<link rel="prev" />
<link rel="next" />
</head>
搜索引擎已登陸搜索結果的第3頁,因此我們需要兩個標簽:(1)指向第2頁的Rel-Prev和(2)指向第4頁的Rel-Next。但我們幾乎總是必須動態(tài)生成這些標簽,因為我們的搜索結果可能是由一個模板驅動的,結果表明這些標簽確實有效。
7、內部鏈接。處理重復內容的最佳工具就是不要一開始就創(chuàng)建它。當然,這并非總是可能的,但是如果我們發(fā)現(xiàn)必須修補許多問題,則可能需要重新檢查內部鏈接結構和網(wǎng)站架構。當我們確實解決了重復問題時,讓其他網(wǎng)站提示反映出這一變化也很重要。我們經(jīng)??吹接腥嗽陧撁娴囊粋€版本中設置301或規(guī)范,然后繼續(xù)內部鏈接到非規(guī)范版本,并用非規(guī)范URL填充其XML網(wǎng)站地圖。內部鏈接是很強的信號,發(fā)送混合信號只會給我們帶來麻煩。
上一篇:常見的頁面重復形式
下一篇:不建鏈接增加流量的方法
24小時服務熱線:400-1180-360
業(yè)務 QQ: 444961110電話: 0311-80740308
渠道合作: 444961110@qq.com
河北供求互聯(lián)信息技術有限公司(河北供求網(wǎng))誕生于2003年4月,是康靈集團旗下子公司,也是河北省首批從事網(wǎng)站建設、電子商務開發(fā),并獲得國家工業(yè)和信息化部資質認證的企業(yè)。公司自成立以來,以傳播互聯(lián)網(wǎng)文化為已任, 以高科技為起點,以網(wǎng)絡營銷研究與應用為核心,致力于為各企事業(yè)單位提供網(wǎng)絡域名注冊、虛擬主機租用、網(wǎng)站制作與維護、網(wǎng)站推廣和宣傳、網(wǎng)站改版與翻譯、移動互聯(lián)網(wǎng)營銷平臺開發(fā)與運營、企業(yè)郵局、網(wǎng)絡支付、系統(tǒng)集成、軟件開發(fā)、電子商務解決方案等優(yōu)質的信息技術服務,與中國科學院計算機網(wǎng)絡信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯(lián)通、中國數(shù)據(jù)、萬網(wǎng)、中資源、陽光互聯(lián)、點點客、北龍中網(wǎng)、電信通等達成戰(zhàn)略合作伙伴關系。
版權所有 ? 河北供求互聯(lián)信息技術有限公司-優(yōu)秀的石家莊網(wǎng)站建設公司,為您提供石家莊網(wǎng)站建設、網(wǎng)站推廣等優(yōu)質服務.
服務熱線:400-1180-360 增值電信業(yè)務經(jīng)營許可證:冀B2-20105159 冀ICP備09010972號