Главная Услуги Работы Персона Юзабилити анализы
IMG тел. +7(901) 370-1796
Запрет индексации https с помощью .htaccess




ПОИСК по сайту


    Полный список статей
/ htaccess / Версия для печати / translit / абракадабра :-)


<-предыдущая следующая ->

 
  google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru smi2.ru twitter.com Яндекс закладки text20.ru RuSpace RuSpace toodoo

Запрет индексации https с помощью .htaccess


И так, в этот раз хотел бы рассказать о небольшой проблемке, возникшей на одном из моих сайтов. А случилось следующее, Google умудрился “съесть” https-версию сайта, мало того, он выбрал основным зеркалом https-морду. Стоит ли говорить, что позиции сайта после такого нежелательного увеличения дублей (а https версия сайта была точной копией http версии, и собственно не предназначалась для поисковых ботов) просели.

Первым делом иду смотреть что посоветует сам Google… google.com/support/webmasters
 
 

Block or remove your entire website using a robots.txt file

To remove your site from search engines and prevent all robots from crawling it in the future, place the following robots.txt file in your server root:

User-agent: *
Disallow: /

To remove your site from Google only and prevent just Googlebot from crawling your site in the future, place the following robots.txt file in your server root:

User-agent: Googlebot
Disallow: /

Each port must have its own robots.txt file. In particular, if you serve content via both http and https, youll need a separate robots.txt file for each of these protocols. For example, to allow Googlebot to index all http pages but no https pages, youd use the robots.txt files below.

For your http protocol (http://yourserver.com/robots.txt):

User-agent: *
Allow: /

For the https protocol (https://yourserver.com/robots.txt):

User-agent: *
Disallow: /

Для каждого порта должен быть создан собственный файл robots.txt. В частности, если используются протоколы http и https, для каждого из них потребуются отдельные файлы robots.txt. Например, чтобы разрешить поисковому роботу Google индексировать все страницы http и запретить сканировать https, файлы robots.txt должны выглядеть так, как описано ниже.

Для протокола http (http://server.ru/robots.txt):

User-agent: * Allow: /

Для протокола https (https://server.ru/robots.txt):

User-agent: * Disallow: /

Но что делать если http и https-файлы сайта лежат в одной папке?

В данной ситуации на помощь придет файл .htaccess - создаем для сайта два файла robots.txt, первый файл будет содержать все необходимые для нормальной индексации сайта инструкции, а второй будет полностью запрещать индексацию - Disallow: / - как и рекомендует Google. Второй файл мы назовем robots-https.txt, а в .htaccess запишем такие строки:

RewriteEngine on

RewriteCond %{HTTPS} on
RewriteRule ^robots.txt$ robots-https.txt

Что это значит на практике? При обращении поискового робота к сайту через http паук получает стандартный файл robots.txt, а при обращении через https-порт поисковый бот получит файл robots-https.txt в котором полностью запрещена индексация сайта.

После проведения описанной выше процедуры на третьи сутки все https-страницы моего сайта из базы Google исчезли. Надеюсь кому-нибудь пригодится этот небольшой опыт
взято с http://www.svift.org/2007/tools/https-robots-txt

Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(901) 370-1796

Написать письмо на e-mail
icq 415547094  romverрейтинг на mail.ru сайта romverinbox.ru
© 1997 - 2017 romver.ru

Полная карта сайта Display Pagerank  
CMS version 3.6.3 | PTG 0,0414 s.