關鍵字行銷電子報如何讓自己的網站(網頁)不被Google收錄？

關鍵字廣告有限公司 瀏覽: on 11 4 月, 2008

如何讓自己的網站(網頁)不被Google收錄？

前面有教過大家如何讓網站被Google收錄，
現在要談談如何讓自己的網站(或網頁)不被Google收錄。

1.在網頁建立Meta中繼標記

robots.txt 是一個標準的文件，
它可以告訴 Googlebot ( Google的 web crawler 網路蜘蛛爬蟲程式)
不要從您的網頁伺服器下載一些或所有的資訊，
我們可以使用文字編輯器建立 robots.txt 檔案，
告知搜尋引擎「可以」或「不可以」
索引整個網站或網站的部份目錄、網頁或其中某些檔案。
robots.txt 必須存放在網域的根目錄，例如：http://www.example.com/robots.txt 。
利用Google 網站管理員工具，可以教你如何產生一個 robots.txt檔。

下例是Yahoo奇摩知識+ 的robots.txt檔
http://tw.knowledge.yahoo.com/robots.txt

Yahoo奇摩只讓自己家的網路爬蟲程式 Slurp 存取知識+的網頁內容，
而攔截其他搜尋引擎的網路爬蟲，
所以我們在Google查不到Yahoo奇摩知識+的網頁內容。

不過以上方法都只是防君子不防小人，
不照規則硬闖的爬蟲程式還是有，
真的不希望自己的資料在網路上被存取到最好的方法就是
-不要把不該公開的資料放上網路。

參考文章：
如何使用 robots.txt 檔案來控制網站的存取權？

如何建立 robots.txt 檔案？

如何防止 Google 將我的內容編入索引或如何從 Google 索引移除內容？

如何要求Google移除已收錄的網站或網頁？

Share/Bookmark