來(lái)源:smyunshangcheng.cn 作者:筆者小丹 時(shí)間:2020-05-20 11:18:35 瀏覽:2202次
搜索引擎的三大功能:爬取、索引和排名。而在我們確定了網(wǎng)站已經(jīng)被爬行以后,下一步來(lái)進(jìn)行操作的就是確保網(wǎng)站的內(nèi)容路徑能夠被索引。我們要明確的知道,即便是網(wǎng)站被搜索引擎發(fā)現(xiàn)和爬行了,但是并不意味著網(wǎng)站就可以被搜索引擎所索引儲(chǔ)存在索引庫(kù)中。在對(duì)搜索引擎爬行進(jìn)行分析的時(shí)候,我們明白了網(wǎng)站是如何被搜索引擎發(fā)現(xiàn)和爬行的,而索引就是用來(lái)發(fā)現(xiàn)我們的頁(yè)面對(duì)其進(jìn)行儲(chǔ)存的。搜索引擎找打?qū)?yīng)的網(wǎng)頁(yè)后,會(huì)像照相機(jī)一樣來(lái)記錄它,同時(shí)在這個(gè)過(guò)程中會(huì)對(duì)該頁(yè)面進(jìn)行數(shù)據(jù)分析和篩選,然后再判斷是否將該頁(yè)面儲(chǔ)存到索引庫(kù)中。
下面我們來(lái)分析的內(nèi)容就搜索引擎索引的工作原理以及如來(lái)讓我們的網(wǎng)站被搜索引擎收錄到數(shù)據(jù)庫(kù)中。我們是否可以看到Googlebot搜索引擎如何快照到我們的頁(yè)面?答案是肯定的,要知道網(wǎng)站頁(yè)面的緩存版本將反映Googlebot上次對(duì)其進(jìn)行爬網(wǎng)的快照。Google以不同的頻率抓取和緩存網(wǎng)頁(yè)。我們可以通過(guò)單擊搜索引擎結(jié)果頁(yè)中URL旁邊的下拉箭頭并選擇“快照”來(lái)查看頁(yè)面的已緩存版本的外觀:我們還可以查看網(wǎng)站的純文本形式以確定是否有效地檢索和緩存了我們的重要內(nèi)容。
那么收錄的頁(yè)面是否還有可能從索引中刪除呢?這個(gè)答案也是肯定,造成已經(jīng)被收錄的頁(yè)面被再次“放棄”刪除的原因有很多,我們常見(jiàn)的原因有:
1、URL返回“找不到”錯(cuò)誤(4XX)或服務(wù)器錯(cuò)誤(5XX),這可能是偶然的頁(yè)面已移動(dòng)并且未設(shè)置301重定向或故意的頁(yè)面被刪除并進(jìn)行了404處理以便將其從索引中刪除。
2、網(wǎng)址中添加了noindex元標(biāo)記,網(wǎng)站所有者可以添加此標(biāo)記,以指示搜索引擎從其索引中省略該頁(yè)面。
3、該網(wǎng)址已因違反搜索引擎的網(wǎng)站站長(zhǎng)指南而受到了人工懲罰,因此已從索引中刪除。
4、網(wǎng)站阻止了URL的爬網(wǎng)并添加了訪問(wèn)者訪問(wèn)該頁(yè)面之前需要使用密碼。
如果我們認(rèn)為不再顯示以前在Google索引中的網(wǎng)站頁(yè)面,則可以使用URL Inspection工具來(lái)了解該頁(yè)面的狀態(tài),或者使用具有“更新索引”功能的Google抓取方式來(lái)向索引提交各個(gè)URL。 那么,搜索引擎又是如何為我們的網(wǎng)站建立索引的呢?
1、機(jī)器人元指令
元指令是我們可以向搜索引擎提供的有關(guān)如何處理網(wǎng)頁(yè)的說(shuō)明。我們可以告訴搜索引擎抓取工具,如不要在搜索結(jié)果中將此頁(yè)面編入索引或不要將任何鏈接資產(chǎn)傳遞給任何頁(yè)面上的鏈接。這些指令是通過(guò)HTML頁(yè)面<head>中的Robots Meta標(biāo)簽或HTTP標(biāo)頭中的X-Robots-Tag執(zhí)行的。
2、元指令影響索引編制,而不是爬網(wǎng)
Googlebot需要抓取我們的頁(yè)面才能查看其meta指令,因此,如果我們?cè)噲D阻止抓取工具訪問(wèn)某些頁(yè)面,那么meta指令就無(wú)法做到這一點(diǎn)。 必須抓取搜索引擎標(biāo)簽以使其受到尊重。
3、機(jī)器人元標(biāo)記
可以在網(wǎng)頁(yè)HTML的<head>中使用robots元標(biāo)記。它可以排除所有或特定的搜索引擎。以下是最常見(jiàn)的meta指令,以及我們可能在哪些情況下應(yīng)用它們。
(1)index/noindex告訴引擎是否應(yīng)該對(duì)頁(yè)面進(jìn)行爬網(wǎng)并將其保留在搜索引擎的索引中以進(jìn)行檢索。如果我們選擇使用“noindex”,則表示正在與搜索引擎進(jìn)行通訊,以使該網(wǎng)頁(yè)不包含在搜索結(jié)果中。默認(rèn)情況下,搜索引擎假定它們可以索引所有頁(yè)面,因此不需要使用“index”值。可能使用的時(shí)間:如果我們嘗試從Google網(wǎng)站索引中剪裁薄頁(yè),但仍希望訪問(wèn)者可以訪問(wèn)它們,則可以將頁(yè)面標(biāo)記為“noindex”。
(2)follow/nofollow告訴搜索引擎頁(yè)面上的鏈接是應(yīng)該跟隨還是不被跟隨。 關(guān)注會(huì)導(dǎo)致搜索引擎跟蹤我們頁(yè)面上的鏈接,并將鏈接所有權(quán)傳遞給這些URL。或者我們選擇使用“nofollow”,則搜索引擎將不會(huì)跟蹤或?qū)⑷魏捂溄淤Y產(chǎn)傳遞給頁(yè)面上的鏈接。默認(rèn)情況下,假定所有頁(yè)面都具有“跟隨”屬性??赡艿氖褂脮r(shí)間:嘗試防止頁(yè)面被索引以及爬蟲(chóng)程序不跟蹤頁(yè)面上的鏈接時(shí),nofollow通常與noindex一起使用。
(3)noarchive用于限制搜索引擎保存頁(yè)面的緩存副本。默認(rèn)情況下,引擎將維護(hù)已索引的所有頁(yè)面的可見(jiàn)副本,用戶可以通過(guò)搜索結(jié)果中的緩存鏈接來(lái)訪問(wèn)它們??赡苁褂玫臅r(shí)間:如果我們經(jīng)營(yíng)一個(gè)電子商務(wù)網(wǎng)站并且價(jià)格定期變化,則可以考慮使用noarchive標(biāo)簽,以防止用戶看到過(guò)時(shí)的價(jià)格。
說(shuō)了很多理論的知識(shí),我們舉個(gè)一個(gè)元機(jī)器人noindex,nofollow標(biāo)簽的例子:<!DOCTYPE html><html><head><meta name="robots" content="noindex, nofollow" /></head><body>…</body></html>該代碼是排除所有搜索引擎將頁(yè)面編入索引或跟蹤任何頁(yè)面上的鏈接。如果我們要排除多個(gè)抓取工具則可以使用多個(gè)機(jī)器人排除代碼。
4、元指令影響索引編制,而不是爬網(wǎng)
Googlebot需要抓取我們的頁(yè)面才能查看其meta指令,因此,如果我們?cè)噲D阻止抓取工具訪問(wèn)某些頁(yè)面,那么meta指令就無(wú)法做到這一點(diǎn)。必須抓取搜索引擎標(biāo)簽,以使其受到尊重。
5、X機(jī)器人標(biāo)簽
x-robots標(biāo)記用于URL的HTTP標(biāo)頭中,如果我們想大規(guī)模阻止搜索引擎,則比meta標(biāo)記提供更多的靈活性和功能,因?yàn)槲覀兛梢允褂谜齽t表達(dá)式,阻止非HTML文件以及應(yīng)用站點(diǎn)范圍內(nèi)的noindex標(biāo)記。機(jī)器人元標(biāo)記中使用的派生詞也可以在X-Robots-Tag中使用。
只要我們了解影響爬網(wǎng)和索引的不同方法將幫助我們避免可能導(dǎo)致無(wú)法找到重要頁(yè)面的常見(jiàn)陷阱。
(轉(zhuǎn)載請(qǐng)注明轉(zhuǎn)自:smyunshangcheng.cn,謝謝!珍惜別人的勞動(dòng)成果,就是在尊重自己!)
上一篇:搜索引擎的工作原理之排名
下一篇:搜索引擎的工作原理之抓取
24小時(shí)服務(wù)熱線:400-1180-360
業(yè)務(wù) QQ: 444961110電話: 0311-80740308
渠道合作: 444961110@qq.com
河北供求互聯(lián)信息技術(shù)有限公司(河北供求網(wǎng))誕生于2003年4月,是康靈集團(tuán)旗下子公司,也是河北省首批從事網(wǎng)站建設(shè)、電子商務(wù)開(kāi)發(fā),并獲得國(guó)家工業(yè)和信息化部資質(zhì)認(rèn)證的企業(yè)。公司自成立以來(lái),以傳播互聯(lián)網(wǎng)文化為已任, 以高科技為起點(diǎn),以網(wǎng)絡(luò)營(yíng)銷研究與應(yīng)用為核心,致力于為各企事業(yè)單位提供網(wǎng)絡(luò)域名注冊(cè)、虛擬主機(jī)租用、網(wǎng)站制作與維護(hù)、網(wǎng)站推廣和宣傳、網(wǎng)站改版與翻譯、移動(dòng)互聯(lián)網(wǎng)營(yíng)銷平臺(tái)開(kāi)發(fā)與運(yùn)營(yíng)、企業(yè)郵局、網(wǎng)絡(luò)支付、系統(tǒng)集成、軟件開(kāi)發(fā)、電子商務(wù)解決方案等優(yōu)質(zhì)的信息技術(shù)服務(wù),與中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、騰訊、百度、阿里巴巴、搜狗、360、電信、聯(lián)通、中國(guó)數(shù)據(jù)、萬(wàn)網(wǎng)、中資源、陽(yáng)光互聯(lián)、點(diǎn)點(diǎn)客、北龍中網(wǎng)、電信通等達(dá)成戰(zhàn)略合作伙伴關(guān)系。
版權(quán)所有 ? 河北供求互聯(lián)信息技術(shù)有限公司-優(yōu)秀的石家莊網(wǎng)站建設(shè)公司,為您提供石家莊網(wǎng)站建設(shè)、網(wǎng)站推廣等優(yōu)質(zhì)服務(wù).
服務(wù)熱線:400-1180-360 增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:冀B2-20105159 冀ICP備09010972號(hào)
掃一掃
贈(zèng)送神秘大禮
全國(guó)免費(fèi)服務(wù)熱線
400-1180-360