Иногда веб-мастеру необходимо запретить индексацию страницы целиком или ее части. Например, Вы не хотите чтобы на вашем сайте индексировалась реклама, блок ссылок или страницы с результатами поиска. В данной статье я постарался собрать все методы влияющие на индексацию в поисковых системах Яндекс и Google. Контроль индексации в Яндекс
- Файл robots.txt:
С помощью данного файла администратор может ограничить доступ роботов поисковых систем как к части сайта так и к отдельным страницам. Пример 1:
User-agent: * Disallow: /basket.php В этом примере мы запретили, роботам обращение к скрипту корзины Интернет-магазина. * - обозначает что данное правило применимо ко всем роботам. Яндекс поддерживает диррективу Host в файлах robots.txt, это позволяет указать поисковику главное зеркало сайта, которое и будет отображаться в результатах поиска.
Пример 2:
User-agent: Yandex Disallow: /forum Host: www.site.ru либо
User-agent: Yandex Disallow: /forum Host: site.ru В первом случае мы указали главным домен www.site.ru, во втором site.ru. Если у вас веб сервер Apache, то можно вместо использования директивы Host задать robots.txt с использованием директив SSI:
User-Agent: * Disallow: / В этом файле роботу запрещен обход всех хостов, кроме www.главное_имя.ru.
- Тег <noindex>:
Хотя тег noindex официально и не признан w3c консорциумом, его отлично понимает Яндекс. Для запрета индексации куска текста или html кода заключите его между открывающим и закрывающим тегами noindex. Пример: <noindex>Этот текст не индексирует Яндекс!</noindex>.
PS: Если Вы сторонник валидации кода и используете стандарт XHTML, то можно написать модуль расширения XHMTL, включающив в него тег noindex.
Контроль индексации в Google
- Файл robots.txt:
У Google дела с файлами robots.txt обстоят аналогично, за исключением поддержки диррективы Host.
- <a rel=nofollow:
Используя атрибут rel="nofollow", мы запрещаем поисковику переход по ссылке. PS: Также поддерживается MSN и Yahoo.
- Теги googleoff/googleon для контроля индексирования частей страниц:
С помощью тегов googleoff/googleon мы можем запретить роботу индексировать часть страницы или блок ссылок. Существует 4 вида тегов. Я рассмотрю их на конкретных примерах, чтобы Вам было ясно о чем идет речь.
Пример 1:
аквариумные <!--googleoff: index-->рыбки<!--googleon: index--> неплохо размножаются В результате слова «аквариумные» и «нелохо размножаются» проиндексируются, а вот слово «рыбки» нет.
Пример 2:
<!--googleoff: anchor--><a href="razdaem-slonov.html">раздаем слонов</a><!--googleon: anchor--> В этом примере у нас не проиндексируется текст ссылки, следовательно, при поиске по словосочетанию «раздаем слонов» документ razdaem-slonov.html не появится в результатах поисковой выдачи.
Пример 3:
<!--googleoff: snippet-->Меня не видно!<!--googleon: snippet--> Текст расположенный между открывающим и закрывающим тегами с атрибутом snippet не будет отображаться в результатах выдачи, но будет проиндексирован.
Пример 4:
<!--googleoff: all-->Меня не видно!<!--googleon: all--> Последний пример - это комбинация трех предыдущих.
PS: Как выяснилось теги googleoff/googleon работают только для Google Search Appliance и Google Mini, но не для обычного поиска Google.
- Теги <!-- google_ad_section_start-->, <!-- google_ad_section_end-->:
Данные теги пригодятся для веб-мастеров размещающих на своих сайтах рекламу Google Adsense. Они сообщат боту Adsense какой контент является более релевантным на странице.
Возможно я что-то пропустил в своем обзоре.
Теги googleoff/googleon. На ботов Google.com данные теги не распространяются. |