Главная Услуги Работы Персона Юзабилити анализы
IMG тел. +7(98I) 7608865
Яндекс и дублирование контента




ПОИСК по сайту


    Полный список статей
/ Яндекс и дублирование контента / Версия для печати / translit / абракадабра :-)


<-предыдущая следующая ->

 
  google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru smi2.ru twitter.com Яндекс закладки text20.ru RuSpace RuSpace toodoo

Официальными лицами неоднократно заявлялось, что Яндекс не рецензент и не будет бороться с проблемой воровства контента в сети.

Вот официальный ответ А. Садовского:

... поиск Яндекса при обнаружении дубликатов пытается определить оригинал документа. Существующие алгоритмы, конечно, несовершенны и мы работаем над их улучшением. Что касается юридического регулирования, поисковые системы пока не могут идентифицировать авторство текста. В случае удаления из сети «тыренного» контента (например, в результате действий правообладателя), Яндекс также удалит его из базы по мере обхода роботом. Этот процесс можно ускорить, воспользовавшись формой http://webmaster.yandex.ru/delurl.xml

Теперь рассмотрим, а что есть для Яндекса «дубликат документа»? А вот автор предлагает следующую трактовку. (Если ниже приведенный текст показался вам знакомым, то не думайте плохого, автор не так давно пытался активно обсуждать данную проблему на форумах )))

Существует два вида дубликатов: «нечеткие дубликаты» и «полные дубликаты».

«Нечеткие дубликаты» зависят от сниппета, т.е. определяются фактически запросом пользователя. Происходит это следующим образом.

1. Пользователь задает запрос.
2. Яндекс вычисляет релевантность сайтов запросу и ранжирует сайты, но пока еще не показывает пользователю.
3. Далее Яндекс сравнивает сниппеты отобранных документов на предмет определения дубликатов (возможно, сниппеты сравниваются методом шинглов).
4. И наконец, выдает отфильтрованную выдачу, удаляя некоторые дубликаты (по какому принципу оставляются те или иные документы – неясно, вернее загадка; возможно, выбирается самый релевантный документ, и вместе с ним в выдачу попадают наименее похожие на него документы; возможно, играет роль только ссылочное окружение сайтов).

Существование фильтр такого типа косвенно доказывают слова Садовского (пост №9) и то, что выдача с различными настройками поиска (конкретно, количество отображаемых фрагментов со словами запроса) различная.

При настройках «отображать не более 5 фрагментов» в выдаче больше сайтов, чем при настройках «отображать не более 1 фрагмента». Попробуем запрос «Во & второй & главе & реферата & посвящена & практике & маркетинговой & деятельность & организации & на & примере & сервер & дукса» (запрос задается без кавычек!) - в первом случае (отображать 1 фрагмент в сниппете) в выдаче 21 сайт, во втором (5 фрагментов) – 27 сайтов.



Все здесь логично – при отображении одного пассажа в сниппете, сниппеты более похожи, чем когда отображается 5 пассажей в сниппете. Например, во втором случае у второго сайта сниппет отличается от сниппетов первого и третьего сайта.

Теперь разберемся с «полными дубликатами». Автор считает, что такие дубликаты определяются в момент индексации страницы. Это удобно, так как сразу позволяет отсечь мусор и не добавлять в базу данных поисковика дублированную информацию.

Вот метод определения дубликатов - «метод описательных слов» (о котором говорилось выше).

Страницы, выявленные как полные дубликаты – выкидываются из базы. Часто такое происходит со страницами одного сайта (например, каталог товаров, когда значимой информации гораздо меньше, чем слов в навигационной части). По какому принципу Яндекс выкидывает те или иные дубликаты – неизвестно, скорее всего, по совокупности признаков как то: временные факторы, «рейтинг ресурса», доверие к ресурсу и прочее.

Как Яндекс определяет первоисточник в случае обнаружения «нечетких дублей» и определяет ли его? Давайте попробуем разобраться вместе…

Сначала выделим факторы, которые могут указывать на первоисточник контента…

- дата создания документа
- релевантность документа запросу
- «доверие к ресурсу» (например, больше всего можно доверять ресурсам, имеющим хорошую позицию в Каталоге Яндекса, и высокую посещаемость)
- перелинковка между дубликатами (например, если все дубликаты ссылаются на один и тот же документ – он и есть первоисточник)

Попробуем осуществить небольшой эксперимент. Возьмем страницу href=http:// zoom.cnews.ru/ru/publication/index.php?art_id80=1523 и фразу "По дизайну Lumix FZ50 похожа на свою 8-мегапиксельную предшественницу FZ30". Явно это оригинал. Теперь посмотрим, кто еще использует текст статьи: зададим запрос с использованием параметра rd=0. Без rd в выдаче только сайт №1 и №5.

1 http://zoom.cnews.ru/ru/publication/index.php?art_id80=1523 Сам оригинал, первая часть статьи
2 http://www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50 полное соответствие
3 http://www.apitcomp.ru/analytic/genre3/page637 вся статья
4 http://www.toplist.ru/card/35859 вся статья + еще доп. информация
5 http://foto-focus.ru/forum/showthread.php?mode=hybrid&t=316 Форум. Тут статья целиком
6 http://nmp4.ru/index.php?act=Print&client=printer&f=223&t=3323 форум + много другой информации
7 http://www.media.nrd.ru/index.php?showtopic=3323&st=100 форум + много другой информации
8 http://www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d1523 полная копия


Характеристики сайтов следующие (заметим, что ссылаются только на первую страницу, у остальных бэклинков нет):

Станица тИЦ Рубрика каталога PR PR стр-цы
zoom.cnews.ru/ru/publication/index.php?art_id80=1523 3800 Да 6 4
www.neograd.ru/firsttimers/howtofind_1/panasonic/test_panasonic_fz50 170 Да 5 0
www.apitcomp.ru/analytic/genre3/page637 700 Да 4 0
www.toplist.ru/card/35859 110 Нет 3 0
foto-focus.ru/forum/showthread.php?mode=hybrid&t=316 0 Нет 1 0
nmp4.ru/index.php?act=Print&client=printer&f=223&t=3323 0 Нет 0 0
www.media.nrd.ru/index.php?showtopic=3323&st=100 40 Нет 0 0
www.ledshop.ru/cgi-bin/nph-proxy.cgi/010110A/http/zoom.cnews.ru/ru/publication/index.php=3fart_id80=3d1523 0 Нет 0 0


Заметим, что сниппеты у всех сайтов одинаковые.

На первый взгляд совершенно неясно, почему Яндекс отфильтровал все сайты кроме пятого. Сайт явно не является авторитетным в глазах Яндекса. Логичнее было бы оставить в выдаче страницу с сайта www.apitcomp.ru – сайт является более авторитетным или оставить страницы с форумов (позиция 6 и 7).

Аналогично проверим для страницы http://www.3dnews.ru/digital/lumix_fz50/ и фразы "В наше время, когда покупателей, жаждущих хороших характеристик". Жирным выделены сайты, которые показываются без rd=0, красным – первоисточник, который, кстати, фильтруется!

Страница тИЦ YACA LS LP PR Page PR
saturn-plus.ru/ 70 Да 54 20349 3 3
saturn.24online.ru/ 0 Нет 1 1 0 0
www.3dnews.ru/digital/lumix_fz50/print 11000 Да 0 0 6 2
fotomag.com.ua/handbook14.html 400 Да 0 0 4 0
Deshevshe.net.ua/ua/review-73/4.html 80 Нет 0 0 4 0
Ephotolink.ru/?mod=articles&act=show&sort=date&page=9 1400 Да 0 0 4 1
mobil-up.com/tsifra/foto/novoe_pokolenie_ultrazumov_ot_panasonic.html 0 Нет 0 0 0 0
uaport.net/UAit/?CGIQUERY=0〈=RUS&cli=1&dtb=146&… 4300 Да 0 0 6 0
www.velc.ru/podderjka/stati/lumix_fz50/ 120 Да 0 0 3 0
Ephotolink.tkat.ru/?mod=articles&id_article=21007 10 Нет 0 0 3 0
www.ru-coding.com/rss.php?p=501 130 Да 0 0 3 0
www.toprunet.com/article.php?id=6388 200 Нет 0 0 3 0
www.dphotographer.com.ua/camera/from/2/ 90 Нет 0 0 4 0
www.asmedia.ru/news/id8242.html 400 Нет 0 0 3 0
www.mega-bit.ru/obzor/read/?id=70 40 Нет 0 0 3 0
www.audiovideophoto.ru/panasonic1.html 0 Нет 0 0 0 0
www.foto-piter.ru/news/2006/12/01/127/ 10 Нет 0 0 2 0
www.megastoke.ru/item951928/panasonic-lumix-dmc-fz50.html 20 Нет 0 0 1 0
www.novoe.nnov.ru/articles/?parent_id=33 0 Нет 0 0 0 0
iwy.com.ua/top.php?p=326 0 Нет 0 0 0 0
www.5-uglov.ru/articles_view.php?id_news=1222 90 Да 0 0 3 0
www.techhome.ru/catalog/photo/article_17112.html 950 Да 0 0 5 3
www.panasonic-spb.ru/articles_view.php?id_news=1222 0 Нет 0 0 1 0
new-articles.ru/page_215.html 40 Нет 0 0 3 0
www.ekvator-hifi.ru/articles_view.php?id_news=1222 10 Нет 0 0 1 0
shop.key.ru/shop/goods/36608/ 230 Нет 3 18 4 0
www.pc-shop.kz/index.php?g_id=1711 Нет 0 0 3 0
Portalink.ru/portal/ecamera/infoat_15269.htm 110 Нет 0 0 3 3
www.rusdoc.ru/articles/13085/ 1100 Да 3 13 5 1
www.docs.com.ru/articles.php?p=509 220 Нет 0 0 4 0
e-libed.ru/a31/ 0 Нет 1 17 0 0
dvdlink.ru/portal/Ecamera/infoat_15269.htm 140 Нет 0 0 3 0
www.articlesearch.ru/a3b856d85.html 0 Нет 0 0 0 0
www.bestarticles.ru/a31/ 0 Нет 1 5 2 0
www.temu.ru/a31/ 0 Нет 0 0 2 0


LP – ссылающихся страниц, LS – ссылающихся сайтов, Page PR – PR страницы, PR – PR главной страницы сайта.

Аналогичная картина – критерии фильтрации совершено неясны. Однако, если посмотреть на сниппеты, то мы увидим, что у страниц на сайтах uaport.net, www.megastoke.ru, portalink.ru сниппеты несколько отличаются от сниппетов других сайтов и поэтому первый и третий сайт не фильтруется.

Что сказать в итоге? Прежде всего, конечно нужно еще много экспериментировать и анализировать, однако уже видно, что решение о фильтрации «нечетких дубликатов» основывается на анализе многих факторов, главным из которых является оригинальность сниппета. с seonews.ru
3
Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(98I) 7608865

Написать письмо на e-mail
icq 415547094  romverрейтинг на mail.ru сайта romverinbox.ru
© 1997 - 2024 romver.ru

Полная карта сайта Display Pagerank