搜索引擎派出他們的搜索機器人去訪問、索引網站內容,網站管理員也默認、歡迎它們來訪。但是由于搜索引擎派機器人來訪會在一定程度上影響網站性能,因此并非所有的機器人都是無害的,有一些非法機器人偽裝成主流搜索引擎漫游器對網站大量遍歷,并且不遵循robots.txt規范,會嚴重拖垮網站性能而又無其它益處。因此,網站管理員需要驗證每個機器人身份是否合法。
在你的服務器日志文件中,可見每次訪問的路徑和相應的IP地址,如果是機器人來訪,則user-agent會顯示Googlebot或MSNBot等搜索引擎漫游器名稱,每個搜索引擎都有自己的user-agent,但僅有這個還不足以證明這個機器人的合法性,因為很多垃圾制造者可能將他們的機器人也命名為Googlebot,以偽裝蒙混進入網站,大肆采掘內容。
目前,主流搜索引擎都建議網站管理員通過這種方式來辨別真實的機器人身份:通過DNS反向查詢找出搜索引擎機器人IP地址對應的主機名稱;用主機名查找IP地址以確認該主機名與IP地址匹配。
首先,使用DNS反向查詢(Reverse DNS Lookup),找出機器人IP地址對應的主機名稱。
主流搜索引擎的主機名稱通常情況下應是這樣的:
Google : 主機名稱應包含于googlebot.com 域名中, 如:crawl-66-249-66-1.googlebot.com;
MSN : 主機名稱應包含于search.live.com 域名中, 如:livebot-207-46-98-149.search.live.com;
Yahoo:主機名稱應包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。
最后,做一次DNS查詢,用主機名查找IP地址(Forward DNS Lookup),以確認該主機名與IP地址匹配。由此證明該機器人是合法的?,F在,如果發現一個機器人將自己偽裝成合法搜索引擎漫游器,你就可以通過服務器上的設置以及網站robots.txt文件來阻止這個非法機器人。
- 作者:姜 文 | 發布:2015年04月20日
- 分類:SEO教程
- 標簽:seo教程
- 轉載文章請注明:怎么辨別搜索引擎機器人身份? | 姜文博客