lilujun.com

小李blog

当前位置: 主页 > 技術隨筆 >

不聽話的搜尋引擎爬蟲

发表时间: 2009-11-11
話說News Group旗下的新聞網站要屏蔽Goolge的爬蟲,這使我想起了一些搜尋引擎不聽話的爬蟲。
按理說,如果根目錄下的robots.txt定義了禁止某個搜尋引擎爬蟲收錄或者禁止某個網頁被收錄,那麼遵循國際規則的搜尋引擎應該聽從。
但是根據筆者11年的做站經驗來看,不少搜尋引擎的Spider或Robot簡直就是霸王硬上弓。明明寫著"Disallow: /admin/",但一查日誌照樣有一些搜尋引擎抓取。現在News Group旗下的新聞網站要遮罩Goolge的爬蟲,Google就乖乖的聽了。如果換成是那些不良的搜尋引擎,其爬蟲照收不誤。
最可惡的是某個社區搜尋引擎,搞了流氓軟體不算,旗下的爬蟲還修改HTTP頭,偽裝成Googlebot。開始我還沒有發覺,但經過好長一段時間觀察,篩選IP地址後發現根本不是來至Google的機房,而是來至於Q****!
不聽話的爬蟲,不單會洩露網站不想公開的內容,而且不聽話的爬蟲大多設計不太優良,頻繁抓取會造成伺服器負載相應地提高,造成資源的浪費。
各位站長碰到此類情況時可以權衡下,如果那個不聽話的爬蟲所屬的搜尋引擎不會給網站帶來多大的流量,不妨採用技術手段禁止其抓取。使用robots.txt對它們相當於對牛彈琴,不妨直接屏蔽爬蟲使用的IP段。
栏目列表