瀏覽: on 11 4 月, 2008

如何讓自己的網站(網頁)不被Google收錄?

前面有教過大家如何讓網站被Google收錄,
現在要談談如何讓自己的網站(或網頁)不被Google收錄。

1.在網頁建立Meta中繼標記

將<Meta>標記加到 HTML 網頁以指示網路爬蟲程式不要為該網頁建立索引

2.建立 robots.txt 檔案

robots.txt 是一個標準的文件,
它可以告訴 Googlebot ( Google的 web crawler 網路蜘蛛爬蟲程式)
不要從您的網頁伺服器下載一些或所有的資訊,
我們可以使用文字編輯器建立 robots.txt 檔案,
告知搜尋引擎「可以」或「不可以」
索引整個網站或網站的部份目錄、網頁或其中某些檔案。
robots.txt 必須存放在網域的根目錄, 例如:http://www.example.com/robots.txt 。
利用Google 網站管理員工具,可以教你如何產生一個 robots.txt檔。

下例是Yahoo奇摩知識+ 的robots.txt檔
http://tw.knowledge.yahoo.com/robots.txt

Yahoo奇摩只讓自己家的網路爬蟲程式 Slurp 存取知識+的網頁內容,
而攔截其他搜尋引擎的網路爬蟲,
所以我們在Google查不到Yahoo奇摩知識+的網頁內容。

不過以上方法都只是防君子不防小人,
不照規則硬闖的爬蟲程式還是有,
真的不希望自己的資料在網路上被存取到最好的方法就是
-不要把不該公開的資料放上網路。

參考文章:
如何使用 robots.txt 檔案來控制網站的存取權?

如何建立 robots.txt 檔案?

如何防止 Google 將我的內容編入索引或如何從 Google 索引移除內容?

如何要求Google移除已收錄的網站或網頁?

關鍵字行銷 No Comments

Comments are closed.