正在閱讀:

怎么辨別搜索引擎機器人身份?

2,528

搜索引擎派出他們的搜索機器人去訪問、索引網站內容,網站管理員也默認、歡迎它們來訪。但是由于搜索引擎派機器人來訪會在一定程度上影響網站性能,因此并非所有的機器人都是無害的,有一些非法機器人偽裝成主流搜索引擎漫游器對網站大量遍歷,并且不遵循robots.txt規范,會嚴重拖垮網站性能而又無其它益處。因此,網站管理員需要驗證每個機器人身份是否合法。

在你的服務器日志文件中,可見每次訪問的路徑和相應的IP地址,如果是機器人來訪,則user-agent會顯示Googlebot或MSNBot等搜索引擎漫游器名稱,每個搜索引擎都有自己的user-agent,但僅有這個還不足以證明這個機器人的合法性,因為很多垃圾制造者可能將他們的機器人也命名為Googlebot,以偽裝蒙混進入網站,大肆采掘內容。

目前,主流搜索引擎都建議網站管理員通過這種方式來辨別真實的機器人身份:通過DNS反向查詢找出搜索引擎機器人IP地址對應的主機名稱;用主機名查找IP地址以確認該主機名與IP地址匹配。

首先,使用DNS反向查詢(Reverse DNS Lookup),找出機器人IP地址對應的主機名稱。

主流搜索引擎的主機名稱通常情況下應是這樣的:

Google : 主機名稱應包含于googlebot.com 域名中, 如:crawl-66-249-66-1.googlebot.com;

MSN : 主機名稱應包含于search.live.com 域名中, 如:livebot-207-46-98-149.search.live.com;

Yahoo:主機名稱應包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。

最后,做一次DNS查詢,用主機名查找IP地址(Forward DNS Lookup),以確認該主機名與IP地址匹配。由此證明該機器人是合法的?,F在,如果發現一個機器人將自己偽裝成合法搜索引擎漫游器,你就可以通過服務器上的設置以及網站robots.txt文件來阻止這個非法機器人。

上一節[ 5.7 ]搜索引擎的定義,原理以及作用

下一節[ 5.9 ]詳解搜索引擎以及網站排名的由來

留下腳印,證明你來過。

但是現在想留下腳印,你必須先登錄!

南京麻将50园子微信群 高频彩根据返奖率 (^ω^)MG魔术箱官网 燕赵凤采20选5走势图 广西快乐双彩 (*^▽^*)MG幸运双星巨额大奖视频 福彩25选5基本走势图 2021年高频彩票停售 (★^O^★)MG顶级王牌-明星投注 电竞俱乐部前期建设怎么玩 (^ω^)MG追寻太阳客户端下载 (★^O^★)MG顶级王牌-明星试玩网站 4场进球彩每天都有吗 七星彩奖金分配规则 彩票停售通知2020 老快3开奖结果江苏 (^ω^)MG七海的主权试玩