华东15选5近30期开奖结果查询

當前位置:首頁 >> 站長天地 >> SEO優化 >> 內容

逃避搜索引擎的法眼

時間:2008-10-6 11:11:00 欄目:SEO優化 點擊: 來源:不詳

 [SEO優化]-本文簡要:為什么我們要逆著常理來這樣做?  如果你是一個站長,估計你總在千方百計的讓你的網站能在搜索引擎里面找到,并且能夠在搜索引擎里面排名靠前,但有時,你可能并沒登陸過任何搜索引擎,可卻莫名其妙的發現可以通過它搜索到你的網站。或許有的主頁內容你樂于世人皆知,但有的內容你卻不愿被洞察、索引。可能你要求用戶驗證...
D6電腦網 (d6pc.com): 逃避搜索引擎的法眼-SEO優化

    為什么我們要逆著常理來這樣做?

  如果你是一個站長,估計你總在千方百計的讓你的網站能在搜索引擎里面找到,并且能夠在搜索引擎里面排名靠前,但有時,你可能并沒登陸過任何搜索引擎,可卻莫名其妙的發現可以通過它搜索到你的網站。或許有的主頁內容你樂于世人皆知,但有的內容你卻不愿被洞察、索引。可能你要求用戶驗證,但這并不能逃避搜索引擎的搜索,只要在搜索引擎里面搜索到你的這個網頁,不用密碼照樣可以登陸。并且簡單的加密常常容易被攻破。難道使用數據庫嗎?這不但消耗寶貴網站空間資源,對于一些簡單的站點,又無法實現。怎么辦呢?搜索引擎不是個瞞不講理,橫行霸道的入室盜賊。如何把搜索引擎拒之門外呢?

  探索一下搜索引擎的的原理

  首先,我們要知道搜索引擎的工作原理。網絡搜索引擎主要由網絡機器人(Robot,這個是全文的關鍵)、索引數據庫和查詢服務三個部分組成。只要被網頁機器人找到的網頁,就會在搜索引擎的數據庫中建立索引。利用查詢客戶端,就一定可以找到你的網頁。所以下面的關鍵是研究這個網絡機器人。索引數據庫和查詢服務的原理我們就不詳細分析了。

  Web Robot其實是種程序,它可以偵測大量Internet網址的超文本結構和網頁里的URL連接,遞歸地檢索網絡站點所有的內容。這些程序有時被叫“蜘蛛 (Spider)”,“網上流浪漢(Web Wanderer)”,“網絡蠕蟲(web worms)”或Web crawler。大型的搜索引擎站點(Search Engines)有專門的Web Robot程序來完成這些信息的采集。高性能的Web Root去自動地在互聯網中搜索信息。一個典型的網絡機器人的工作方式,是查看一個頁面,并從中找到相關的關鍵字和網頁信息,例如:標題,網頁在瀏覽器上的Title,還有一些經常被用來搜索的詞匯,等等。然后它再從該頁面的所有鏈接中出發,繼續尋找相關的信息,以此類推,直至窮盡。網絡機器人為實現其快速地瀏覽整個互聯網,通常在技術上采用搶先式多線程技術實現在網上聚集信息。通過搶先式多線程的使用,它能索引一個基于URL鏈接的Web頁面,啟動一個新的線程跟隨每個新的URL鏈接,索引一個新的URL起點。把搜索到的信息建立索引,就可以讓用戶搜索了。呵呵,可能你會想到,這樣下去,不是個無限循環呀?當然,機器人也需要休息的,網絡機器人是定期發出,完成一個工作時段就結束。所以,剛制作完成的網頁,不會馬上被收入搜索引擎索引里。說到這里,網絡搜索引擎的基本工作原理基本上讓大家了解了。指揮這個網絡機器人,不讓它見門就進,見路就闖,就是接下來的工作了。

  逃避搜索引擎的法眼

  作為搜索引擎的開發者,同樣留給了網絡管理員或網頁制作者提供了些方法來限制網絡機器人的行動:

  當robots訪問一個網站(比如http://www.chinahtml.com)時,首先會像一個大宅子的陌生訪問者一樣,先查看查看該宅子是否同意它進入。如果不同意,它就悄然無聲的走掉;如果同意,它會看看主人只允許它進入那些房間。網絡機器人首先檢查該網站中是否存在http://www.chinahtml.com/robots.txt這個文件,如果找不到這個文件,那么,機器人就會橫沖直入,查遍它需要查找的信息。如果機器人找到這個文件,它就會根據這個文件的內容,來確定它訪問權限的范圍。當然,如果該文件的內容為空的話,那么也就相當于沒有找到文件一樣,大膽行事。記住 robots.txt文件應該放在網站根目錄下。

  robots.txt文件中的記錄通常以一行或多行User-agent開始,后面加上若干Disallow行,詳細情況如下:

  User-agent:

  該值用于描述搜索引擎robot的名字,不同的搜索引擎是有不同的名字的,在"robots.txt"文件中,如果有多條User-agent記錄說明有多個robot會受到該協議的限制,對這個文件來說,如果你需要限制robots,那么至少要有一條User-agent記錄。如果該項的值設為*,則該協議對任何機器人均有效,在"robots.txt"文件中," User-agent: * "這樣的記錄只能有一條。

  Disallow :

  該值用于限制robot訪問到的一個URL,這個URL可以是一條完整的路徑,也可以是部分的,任何以Disallow 開頭的URL均不會被robot訪問到。例如“Disallow: /hacker”對/hacker.html 和/hacker/index.html都不允許搜索引擎訪問,而“Disallow: /hacker/”則robot照樣可以訪問/hacker.html,而不能訪問/hacker/index.html。任何一條Disallow記錄為空,也就是說在多條Disallow記錄下,只要有一條是寫成“Disallow:”說明該網站的所有內容都允許被訪問,在"/robots.txt" 文件中,至少要有一條Disallow記錄。

  下面是Robot.txt的一些例子,只要把下列的任何一個代碼保存為robots.txt,然后傳到指定位置,就可以實現逃避搜索引擎的法眼:

  例1. 禁止所有搜索引擎訪問網站的任何部分:

  User-agent: *
  Disallow: /

  例2. 允許所有的robot訪問:

  User-agent: *
  Disallow:

  例3. 禁止某個搜索引擎的訪問:

  User-agent: BadBot
  Disallow: /

  例4. 允許某個搜索引擎的訪問:

  User-agent: baiduspider
  Disallow:
  User-agent: *
  Disallow: /

  例5. 一個簡單例子:

  在這個例子中,該網站有三個目錄對搜索引擎的訪問做了限制,即搜索引擎不會訪問這三個目錄。需要注意的是對每一個目錄必須分開聲明,而不要寫成 "Disallow: /cgi-bin/ /bbs/"。User-agent:后的* 具有特殊的含義,代表"any robot",所以在該文件中不能有"Disallow: /bbs/*" or "Disallow: *.gif"這樣的記錄出現.

  User-agent: *
  Disallow: /cgi-bin/
  Disallow: /bbs/
  Disallow: /~private/

  結束語:是不是這樣設置后,搜索引擎馬上就找不到我們所限制的網頁呢?不是的,就像文章開始前說過,網絡機器人是定期發出,一旦在索引數據庫里面做了記錄,就要等下次更新數據庫時才有可能生效。一個快捷的辦法,就是馬上到搜索引擎上去注銷你的網頁,可這個也是需要等待幾天的。如果對十分重要的網頁,只要更換個目錄或文件名就可以了。

  對于你已經希望保密的網頁來說,千萬不要在其他未保密的網頁里有URL連接到這些網頁上,在網絡機器人工作原理那已經說過,它可以從該頁面的所有鏈接中出發,繼續尋找相關的信息。

  可能到了這,你已經對你的保密網頁感到安全了。可是,你想到沒有,對于純文本文件,是可以通過HTTP,或FTP下載的。也就是說,有存心不良的人,可以通過這個robots.txt找到一些線索。解決的辦法是,最好使用Disallow時,用來限制目錄,并且對這個目錄下需要保密的網頁,使用特殊的文件名,不要使用index.html之類的名字,不然,這跟猜弱口令一樣容易。起些形如d3gey32.html的文件名,你的網頁就安全多了。

  最后不放心的話就再給保密網頁上上一到密碼驗證的保險,讓你高枕無憂。


Tags:法眼 


D6電腦網|電腦學習,電腦維修,電腦技術網;
設電腦學習,電腦入門,電腦技術,電腦教程,電腦維修,硬件知識,
網頁設計建站,桌面壁紙,主題下載,WIN7下載,常用軟件下載等欄目。感謝您的支持!
欄目:SEO優化 作者:佚名 來源:不詳
相關文章
  • 沒有相關文章
共有評論 0相關評論
發表我的評論
  • 大名:
  • 內容:
本類推薦
  • 沒有
本類固頂
  • 沒有
網友推薦
鏈接申請
  • D6電腦網(www.ewdddb.tw) © 2020 版權所有 All Rights Reserved.
  • 本站為純技術學習交流型網站,部分資源來源網絡,僅供學習交流,版權歸原作者,本站僅為轉載,如有侵犯您的利益請聯系我們刪除.謝謝!
    關于D6電腦學習網 廣告合作 [email protected] 聯系站長 網站地圖| 粵ICP備09035016號
  • 擺脫淺薄和低俗的最好辦法就是學習,我們加油!D6PC! V3.0
  • 华东15选5近30期开奖结果查询
    融盛在线配资 点点盈配资 2007上证指数 今天可以打麻将吗 大圣配资 哈灵杭州麻将下载app 3d试机号是多少 单机麻将红中免费下载 股票交易费用怎么算 期货配资列入刑法获利