什么是 Googlebot?Google 的網頁抓取機器人
Googlebot 是 Google 的網頁抓取機器人(有時稱為"信息采集軟件")。抓取是 Googlebot 發現新網頁和更新的網頁以將這些網頁添加到 Google 索引中的過程。
我們使用許多計算機來提取(或"抓取")網站上的大量網頁。Googlebot 使用算法確定抓取過程:計算機程序確定要抓取的網站、抓取頻率以及從每個網站抓取的網頁數量。
進行抓取時,Googlebot 會先查看以前的抓取過程所生成的一系列網頁網址,包含網站站長提供的站點地圖數據。Googlebot 在訪問其中的每個網站時,會檢測各網頁上的鏈接(SRC 和 HREF),并將這些鏈接添加到要抓取的網頁列表。它會記錄新出現的網站、現有網站的更新以及無效鏈接,并據此更新 Google 索引。
致語網站站長:Googlebot 和您的網站
Googlebot 如何訪問您的網站
Googlebot 對大多數網站的平均訪問頻率為幾秒鐘一次。但是,如果網絡有延遲,則訪問頻率可能會在短時間內有所提高。一般來說,Googlebot 每次只會下載各網頁的一份副本。如果您發現 Googlebot 多次下載同一網頁,可能是因為抓取工具停止后又重新啟動所致。
我們將 Googlebot 分布在多臺計算機上,以便提高性能并隨著網絡規模的擴大而擴大。此外,為了降低帶寬占用,我們會在幾臺計算機上運行多個抓取工具,而這些計算機通常位于他們正在網絡中編制索引的網站附近。因此,您的日志可能會顯示來自 google.com 上的多臺計算機的訪問記錄,而且所有計算機使用的都是用戶代理 Googlebot。我們的目標是:每次訪問您的網站時,以您服務器的帶寬所允許的速度盡可能多地抓取網頁。請求更改抓取速度。
阻止 Googlebot 抓取您網站上的內容
對于網絡服務器,要想通過不發布指向它的鏈接的方式來達到保密目的幾乎是不可能的。只要有人通過您"私密"服務器上的鏈接訪問其他網絡服務器,您的"私密"網址就會出現在引用頁標簽中,而其他網絡服務器也會存儲這些網址并將其發布在自己的引用頁日志中。同樣,網絡中包含許多過期和已損壞的鏈接。只要有人發布了指向您網站的不正確鏈接,或未能成功更新鏈接以反映您服務器的更改,Googlebot 就會嘗試從您的網站下載不正確的鏈接。
如果要阻止 Googlebot 抓取您網站上的內容,您可以選擇使用多種方法,包括使用 robots.txt 阻止其訪問您服務器上的文件和目錄。
您創建完 robots.txt 文件后,Googlebot 可能需要一段時間才能發現您的更改。如果 Googlebot 仍繼續抓取您在 robots.txt 文件中阻止的內容,請檢查 robots.txt 文件的位置是否正確。該文件必須位于服務器的頂層目錄(例如:www.h4pj6t.cn/robots.txt)中;如果位于子目錄,則不會產生任何效果。
如果您只想阻止網絡服務器日志顯示"未找到文件"這樣一種錯誤訊息,則可以創建名為 robots.txt 的空文件。如果您想阻止 Googlebot 跟蹤您網站上某網頁中的任何鏈接,則可以使用 nofollow 元標記。要阻止 Googlebot 跟蹤某個鏈接,請在該鏈接中添加 rel="nofollow"
屬性。
下面提供了更多相關提示:
- 測試 robots.txt 是否按照預期方式工作。使用網站站長工具中的"測試 robots.txt"工具,您可以親眼看看 Googlebot 究竟是如何解析 robots.txt 文件中的內容的。Google 用戶代理為
Googlebot
,這再合適不過了。 - 使用網站站長工具中的"Googlebot 抓取方式"工具,您可以了解 Googlebot 看到的網站究竟是什么樣子。對網站內容或網站在搜索結果中的出現率進行問題排查時,此工具非常有用。
確保您的網站可被抓取
Googlebot 通過跟蹤指向網頁的各種鏈接抓取網站。在網站站長工具的抓取錯誤頁中,會列出 Googlebot 抓取您的網站時所發現的全部問題。我們建議您定期查看這些抓取錯誤,以識別您網站上出現的所有問題。