|
Bog BOS: sitelife: Интернет роботы |
Последнее изменение файла: 2009.10.29
Скопировано с www.bog.pp.ru: 2024.12.03
Формат файла robots.txt |
Политика доступа роботов к сайту определяется файлом robots.txt
в корневой директории сайта (локальный URI - "/robots.txt"). Файл состоит
из секций, разделяемых пустыми строками (т.е. пустые строки имеют значение!).
Секции состоят из строк:
<имя-поля>:[<пробел>]<значение>[<пробел>]
Имя поля нечувствительно к регистру символов. Символ "#" обозначает начало
комментария, продолжающегося до конца строки. Секция начинается с одной или
нескольких строк, содержащих поле User-agent (
некоторые роботы считают, что строка
м.б. только одна, но в ней можно использовать несколько имен через
пробел). За ней (ними) следуют одна
или несколько строк, содержащие поле Disallow. Другие поля игнорируются.
В конце последней секции лучше поставить пустую строку.
Поле User-agent определяет имя робота, к которому должны применяться описанные в данной секции поля Disallow. Имя робота задается в HTTP запросе в поле User-Agent. Регистр символов не имеет значения. Некоторые роботы умеют искать наиболее подходящую секцию по частичному имени. Использование символа "*" в качестве значения поля определяет правила доступа для роботов, не перечисленных в файле явно. Такая секция м.б. только одна. Регулярные выражения или шаблоны использовать нельзя.
Поле Disallow определяет начало строки URI. Доступ робота к URI, начинающимся с этой строки, закрыт. Кодированные (%xx) октеты декодируются перед сравнением. Регулярные выражения или шаблоны использовать нельзя. Пустое поле означает, что робот может извлекать любой документ. Некоторые роботы считают, что в одной строке можно указывать несколько начал URI через пробел.
Пустой файл означает, что разрешено все. Не все роботы читают этот файл. Файл может быть кеширован роботом. По умолчанию, время хранения в кеше - 7 дней, но может быть изменено стандартными механизмами HTTP. Указывая в robots.txt куда не надо ходить, Вы подсказываете хакерам "скрытые" места Вашего сайта! В будущем предполагается появление поля "Allow".
Некоторые роботы не заглядывают в этот файл (например, закладки яндекса или Ask Jeeves), заглядывают редко или заглядывают, но не понимают того, что там написано.
Приемы использования |
Имеется сайт в 6 кодировках русского языка (www.deol.ru, cp1251.deol.ru, koi8.deol.ru, alt.deol.ru, mac.deol.ru, lat.deol.ru) и хочется, чтобы поисковые роботы индексировали сайт только один раз. Файл robots.txt для основного сервера:
User-Agent: * Disallow:
Настраиваем дополнительные виртуальные сервера в httpd.conf следующим образом:
ServerName lat.deol.ru Alias /robots.txt /usr/local/apache/htdocs/robots.lat.txt
файл robots.lat.txt имеет вид:
User-Agent: * Disallow: /
META тэг ROBOTS |
Если у Вас нет возможности записать файл robots.txt в коревую директорию сайта, то поисковыми роботами можно управлять с помощью тэга META. К сожалению, он не позволяет различать роботов по их User-Agent.
<META NAME="ROBOTS" CONTENT="указание роботу">
где указание роботу (по умолчанию - ALL) - список через запятую ключевых слов:
Какие поисковые роботы используют этот тэг я не знаю.
Предлагаемые META тэги |
Ссылки |
|
Bog BOS: sitelife: Интернет роботы |