如何讓自己的網站(網頁)不被Google收錄?
前面有教過大家如何讓網站被Google收錄,
現在要談談如何讓自己的網站(或網頁)不被Google收錄。
1.在網頁建立Meta中繼標記
將<Meta>標記加到 HTML 網頁以指示網路爬蟲程式不要為該網頁建立索引
2.建立 robots.txt 檔案
robots.txt 是一個標準的文件,
它可以告訴 Googlebot ( Google的 web crawler 網路蜘蛛爬蟲程式)
不要從您的網頁伺服器下載一些或所有的資訊,
我們可以使用文字編輯器建立 robots.txt 檔案,
告知搜尋引擎「可以」或「不可以」
索引整個網站或網站的部份目錄、網頁或其中某些檔案。
robots.txt 必須存放在網域的根目錄, 例如:http://www.example.com/robots.txt 。
利用Google 網站管理員工具,可以教你如何產生一個 robots.txt檔。
下例是Yahoo奇摩知識+ 的robots.txt檔
http://tw.knowledge.yahoo.com/robots.txt
Yahoo奇摩只讓自己家的網路爬蟲程式 Slurp 存取知識+的網頁內容,
而攔截其他搜尋引擎的網路爬蟲,
所以我們在Google查不到Yahoo奇摩知識+的網頁內容。
不過以上方法都只是防君子不防小人,
不照規則硬闖的爬蟲程式還是有,
真的不希望自己的資料在網路上被存取到最好的方法就是
-不要把不該公開的資料放上網路。
參考文章:
如何使用 robots.txt 檔案來控制網站的存取權?