Как правило, данный файл необходимо создать в директории www Вашего сайта.
Вы можете создать его на локальном компьютере, и впоследствии перенести по FTPна хостинг, либо сразу же создать файл на хостинге с помощью команд Unix-shell, подключившись по SSH.
Используя директивы данного файла можно управлять индексацией - например запретить индексацию определенных папок, или снизить нагрузку на сервер, выставив минимальный временной интервал, в течение которого роботы могут обращаться к Вашему сайту.
Данный параметр (он называется Crawl-delay) является очень важным, т.к. по умолчанию многие поисковые роботы обращаются к Вашему сайту раз в 0,5 секунды либо даже чаще.
Если скрипты Вашего сайта не успевают обрабатывать данный запрос за данный промежуток времени, то запросы могут копиться и в итоге превысить лимит подключений к веб-серверу, что может привести к недоступности Вашего сайта с выводом 502 ошибки.
Вот пример файла robots.txt :
User-agent: Yandex # задает последующие параметры ТОЛЬКО применительно к поисковым ботам Яндекса
Crawl-delay: 5 # задает таймаут в 5 секунд для поисковых ботов Яндекса
User-agent: * # задает последующие параметры для ВСЕХ поисковых ботов
Disallow: /search # запрет индексации конкретной папки
Crawl-delay: 10 # задает таймаут в 10 секунд для всех поисковых ботов
Request-rate: 1/5 # загружать не более одной страницы за пять секунд
Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.
Подробнее про синтаксис можно найти информацию здесь :
http://robotstxt.org.ru
© Хостинг "Зенон Н.С.П.", "Управление поисковыми роботами с помощью файла robots.txt"