|
如何隐藏页面以防被搜索
在网络上为我们导航的搜索引擎使用一些小程序 --- 例如我们所知道的’robots’、’bots’、 ’crawlers’和’spiders’ --- 来对页面进行索引。然而,当开发一个站点,尤其是使用ASP进行开发时,做到防止页面被索引却是非常有用的。当这些搜索引擎正在回顾它们对所创建的web 页面进行动态索引的方案时,例如ASP页面,本文将帮助你学习一些重要的技巧来避免robots 跟踪那些你不情愿被它们索引的页面。
这为什么与你有关?
比方说现在你访问了XYZ公司的Web 站点,用你所熟悉的搜索引擎对’XYZ Corp.’ 进行搜索。如果你发现你的管理页面也在相关的链接表中的话就会有点担心了。如果你有一个电子商务站点,你会不愿意在用户结束前面的页面之前,得到这个站点的定单部分最后一页的url 。不仅仅是网管人员不希望发生的。对于用户来说,有些页面不能正常运行也是烦恼的事,或者是因为他们没有适当的权限,或者因为他们没有按照设定的顺序访问页面。这样也不利于你的站点的声誉。这与那些商业搜索引擎的经营者自身也有关系。因为他们想要提供准确的链接来改善服务。
那么,如何防止这些程序对你的站点的某些页面进行索引呢?有两种方法可供选择,一是在根目录下包含一个名为robots.txt 的文件,或者是使用< META > 标记。
包含一个robots.txt 文件
早在1994年,一个自动邮件发送列表就联合提出了一个防止robots 拖拽站点的协定。但是这并不是一个正式的标准,它不能提供执行的保证,但是却为许多robot 作者所使用。
创建一个robots.txt 文件非常简单,它表明网管人员所希望的robot 行为标准。注意文件名必须用小写字母,而且必须放在站点的根文件夹中,例如http://renwen.net/robots.txt ,这样一个文件就能带出整个站点的全部细节。
|