Об этом крупнейшая отечественная поисковая система сообщила вчера в
своем официальном блоге. По словам Яндекса, в прошлом довольно часто ее
поисковый робот не мог получить доступ к тому или иному сайту из-за
того, что в текстовом файле robots.txt, как правило, по ошибке была обозначена пустой директива Allow.
User-agent: *
Allow:
Казалось бы, как такое может быть, если упомянутая директива, по умолчанию, «разрешающая» (аllow в переводе с английского – разрешить).
А вот и может: упомянутая команда, как оказывается, разрешала
индексировать содержимое сайта, когда она сопровождалась конкретным
уточнением. Например:
User-agent: *
Allow: /wp-admin
Когда же директива Allow была прописана в
robots.txt без такого уточнения (так сказать, находилась в гордом
одиночестве), то поисковый робот Яндекса понимал ее как указание к
запрету на полное индексирование веб-ресурса. Следовательно, многие
сайты по этой причине отсутствовали в индексе российского поисковика. По
крайней мере, на этом настаивает Яндекс.
Учитывая сказанное,
поисковая система решила наконец-то «научить» своих роботов игнорировать
данную пустую директиву в файле robots.txt. Теперь при ее обнаружении
робот все равно будет индексировать содержимое сайта, если, конечно, в
robots.txt нет других запретов.
Яндекс напоминает, что после
такого нововведения, если вы в силу разных причин все равно хотите
полностью запретить сайт к индексации, то в этом случае следует
прибегать к помощи следующих команд:
User-agent: *
Disallow: /
или
User-agent: Yandex
Disallow: *
Кстати, проверить, что именно запрещено, а что разрешено к индексации, можно в панели веб-мастера Яндекса.