Яндекс будет по-новому «читать» robots.txt

Об этом крупнейшая отечественная поисковая система сообщила вчера в своем официальном блоге. По словам Яндекса, в прошлом довольно часто ее поисковый робот не мог получить доступ к тому или иному сайту из-за того, что в текстовом файле robots.txt, как правило, по ошибке была обозначена пустой директива Allow.

User-agent: * 
Allow:

Казалось бы, как такое может быть, если упомянутая директива, по умолчанию, «разрешающая» (аllow в переводе с английского – разрешить). А вот и может: упомянутая команда, как оказывается, разрешала индексировать содержимое сайта, когда она сопровождалась конкретным уточнением. Например:

User-agent: * 
Allow: /wp-admin

Когда же директива Allow была прописана в robots.txt без такого уточнения (так сказать, находилась в гордом одиночестве), то поисковый робот Яндекса понимал ее как указание к запрету на полное индексирование веб-ресурса. Следовательно, многие сайты по этой причине отсутствовали в индексе российского поисковика. По крайней мере, на этом настаивает Яндекс.

Учитывая сказанное, поисковая система решила наконец-то «научить» своих роботов игнорировать данную пустую директиву в файле robots.txt. Теперь при ее обнаружении робот все равно будет индексировать содержимое сайта, если, конечно, в robots.txt нет других запретов.

Яндекс напоминает, что после такого нововведения, если вы в силу разных причин все равно хотите полностью запретить сайт к индексации, то в этом случае следует прибегать к помощи следующих команд:

User-agent: * 
Disallow: /

или

User-agent: Yandex 
Disallow: *

Кстати, проверить, что именно запрещено, а что разрешено к индексации, можно в панели веб-мастера Яндекса.

Полный список статей / Яндекс будет по-новому читать robots.txt / Версия для печати / translit / абракадабра :-)