Главная Услуги Работы Персона Юзабилити анализы
IMG тел. +7(901) 370-1796
Ссылочное ранжирование в Рунете: реципиенты ссылок, тексты ссылок




ПОИСК по сайту


    Полный список статей
/ Ссылочное ранжирование в Рунете / Версия для печати / translit / абракадабра :-)


<-предыдущая следующая ->

 
  google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru smi2.ru twitter.com Яндекс закладки text20.ru RuSpace RuSpace toodoo

Содержание

  1. Определения и термины
  2. Данные
  3. На кого ссылаются
  4. Продажные ссылки
  5. Тексты ссылок
  6. Слова в ссылках
  7. Выводы

Про что этот текст

Статья продолжает тему ссылок с головных страниц сайтов Рунета. В первой части исследования нами были рассмотрены доноры ссылок (сайты с главных страниц которых стоят ссылки на другие сайты), предложены критерии по которым можно отличить сайты со ссылочной рекламой от естественных ссылок, былоценен рынок поисковой рекламы в Рунете.

В настоящем исследовании основное внимание уделено реципиентам (получателям) ссылок:

  • на какие сайты ведут ссылки, сайты-лидеры по числу ссылок;
  • куда ведут платные ссылки;
  • максимальные ссылочные бюджеты отдельных сайтов (т.е. оценка ежемесячного платежа владельцам главных страниц, которые ставят ссылки на сайт);
  • наиболее конкурентные темы ссылочного продвижения;
  • какие тексты и отдельные слова используются на платных ссылках;

Роль ссылок в современном интернете подробно разобрана в первой статье, но на всякий случай напомним читателю, что ссылки (и их тексты) являются на сегодняшний день основным методом продвижения в поисковых машинах (SEO).

При написании данного текста возник вопрос - упоминать ли реальные названия сайтов, - который был разрешен следующим образом:

  • названия хостингов, сервисов, счетчиков, ссылки на которые гарантированно легальны - упоминаются.
  • названия сайтов, продвигаемых откровенно спамерскими методами (сотни, тысячи и десятки тысяч одинаковых сайтов), - упоминаются.
  • Названия реальных сайтов, продвигаемых через ссылочную рекламу - не упоминаются, а заменяются на условное название тематики сайта.
  • Формулировки ссылок приводятся без изменений.

Определения и термины

Данный текст написан, в первую очередь, для специалистов по SEO, для краткости часто приходится использовать жаргон из этой отрасли знания. В первой части статьи приведен краткий словарь SEO-терминов, который тут мы повторять не будем.

Будем пользоваться определениями из первой части исследования, чтобы не ссылаться туда постоянно, кратко повторим классификацию здесь.

Ссылки можно отклассифицировать по нескольким параметрам:

  • Куда указывает ссылка: внутренние, родственные и внешние ссылки.
  • Тексты ссылок: текстовые, подписи к картинкам, ссылки без текста.
  • Доступность для индексации: индексируемые и закрытые для индексации.

Так как одним из предметов исследования является рынок ссылок (т.е. размещенная за деньги ссылочная реклама), то рассматривать будем как совокупность из всех сайтов, так и сайты подозреваемые в линкоторговле. Подозреваемые сайты будем выделять по тем же критериям, что и в первой статье: ненулевые индексы цитирования, степень разнообразия более 0.7, количество внешних ссылок на странице от 5 до 50. Понятно, что сам подход оспорить трудно (см. обсуждение первой части исследования), но конкретные параметры назначаются достаточно произвольно. Для удобства сравнения, они такие же, как и в первой статье.

С точки зрения рынка ссылок, наибольший интерес представляют внешние индексируемые текстовые ссылки .

Данные

В исследовании использованы данные, полученные из Черного Квадрата на 2-4 апреля 2007 года. В дальнейшем тексте рассмотрены два подмножества сайтов:

  • Полная выборка по всем главным страницам сайтов в доменах .RU/.SU: 625 497 сайтов, содержащие 7 354 262 внешних и родственных ссылок, среди которых 5 958 692 внешних индексируемых текстовых ссылок.
  • Сайты из выборки «подозреваемых в продажности»: ненулевые индексы цитирования (Google PageRank >0, ТИЦ > 0), от 5 до 50 внешних ссылок, степень разнообразия ссылок не менее 0.7. Таких сайтов 30 819, они содержат 511 208 внешних ссылок, из них 355 091 внешние индексируемые текстовые. Критерии выделения «подозреваемых в продажности» сайтов аналогичны использованным в первой статье.

Из второй выборки были удалены зеркала сайтов, в качестве детектора зеркал использовался каталог Яндекса.

На кого ссылаются Полная ссылочная база

Из 625.5 тысяч сайтов только 468 393 (75%) имеют ненулевое количество внешних ссылок и 359 485 (58%) содержат внешние индексируемые текстовые ссылки. Таким образом, около 160 тысяч (25%) сайтов внешних ссылок вообще не содержат, а еще 110 тысяч (18%) не содержат внешних индексируемых ссылок с текстом. Внешние текстовые индексируемые ссылки ведут на 218 499 различных сайтов-реципиентов, чуть менее половины реципиентов (107 764) - это сайты в доменах 2-го уровня в .RU/SU: только каждый 6-й сайт из рассматриваемой выборки имеет ссылки на себя из этой же выборки.

Если построить гистограмму распределения сайтов - реципиентов ссылок по числу ссылающихся сайтов и по числу входящих ссылок , учитывая все внешние ссылки, за исключением «родственных тип 0» (ссылки на тот же сайт с точностью до префикса WWW), включая, в том числе неиндексируемые ссылки , мы получим следующую любопытную картину:

ВНИМАНИЕ! Логарифмический масштаб! Каждое деление по вертикальной оси - это уменьшение в 10 раз, каждые три деления по горизонтальной оси - это в 10 раз больше входящих ссылок.

Кажущийся парадокс: в самом левом столбце синяя колонка выше красной. Если вдуматься, то сразу становится понятно: если на сайт ссылаются 1-2 сайта, то и ссылок будет 1-2 или больше. А если их будет больше, то по «красной» метрике сайт попадет уже в другой класс.

В остальном - практически идеальный закон Парето - прямая в логарифмических координатах. Необходимо понимать, что логарифмические координаты сильно непривычны человеческому организму:

  • сайтов на которые ссылаются более 50 «морд» всего 1.22% (4330 сайта, а всего ссылки указывают на 354 тысячи).
  • сайтов на которые ведут более 50 ссылок с «морд» (любое число ссылок с одного сайта) только 2.55% (9044 сайтов из тех же 354 тысяч).

В гистограмму не вошли лидеры - 13 сайтов на которые ссылаются более 10 тысяч главных страниц и 20 сайтов на которые указывают более 10 тысяч ссылок. Верхние 15 из списка лидеров представлены в таблице:

No.

Сайт

Ссылающихся сайтов

Ссылок

1

top100.rambler.ru

125 898

220 342

2

counter.yadro.ru

114 872

116 313

3

top.mail.ru

109 177

188 629

4

liveinternet.ru

105 183

113 391

5

top.list.ru

98 413

105 984

6

hotlog.ru

70 083

203 166

7

poishi.com

57 154

168 271

8

sedoparking.com

56 237

3 378 824

9

spylog.com

50 803

55 835

10

yandex.ru

38 901

42 833

11

hosting.rbc.ru

12 926

74 742

12

icq.com

11 001

20 580

13

redxchange.ru

9 821

9 821

14

webflix.ru

9 811

9 811

15

krym.ru

9 795

19 591

Картина полностью ожидаемая, хотя и требует некоторых комментариев:

  • В первых девяти позициях рейтинга 7 мест занимают счетчики. Счетчики Mail.RU и LiveInternet занимают по две строчки рейтинга т.к. у них так устроен код.
  • Позиции 7-8 - это крупнейшие на сегодня дорвейные партнерки, все 56 тысяч сайтов ссылающихся на sedoparking - расположены на одном IP-адресе и совершенно одинаковы. Заметим, что sedoparking.com - это более трети всей ссылочной базы. Ссылочную базу для poishi.com обеспечивают домены с sedoparking (по одной ссылке на страницу) и, дополнительно, 1005 сайтов на которых ровно 112 ссылок. Все они расположены на одном хостинге и имеют один и тот же IP адрес. Проверка наудачу нескольких десятков из этой тысячи обнаружила только киберсквоттерские сайты, отличающиеся контактной информацией.
  • Основной вклад в позиции 11 и 13-15 внесли 8587 совершенно одинаковых киберсквоттерских сайтов одного владельца, состоящих из надписи «этот домен возможно продается», нескольких гигантских баннеров и нескольких одинаковых текстовых ссылок. Надо сказать, что сайту krym.ru это не помогло, по одному из запросов со ссылки его нет в выдаче Яндекса на первых 50 местах, по второму он находится на 29-м месте.
  • 12-я позиция, несколько неожиданная в общем дорвейном контексте, но понятная - это сервис ICQ, на 11 тысячах сайтов размещена ссылка «отправить сообщение».

Текстовые индексируемые ссылки

Если рассмотреть только внешние индексируемые текстовые ссылки, то вид гистограммы распределения практически не изменится:

Качественно картина не изменилась. Количественно всего стало меньше, гистограмма «по сайтам» спадает чуть быстрее, чем «по ссылкам», но это поведение тоже вполне естественное.

В то же время, верхушка рейтинга по цитируемости сильно другая:

No.

Сайт

Ссылающихся сайтов

Ссылок

1

poishi.com

57 154

168 271

2

sedoparking.com

56 237

3 378 824

3

hosting.rbc.ru

12 752

58 829

4

redxchange.ru

9 821

9 821

5

webflix.ru

9 809

9 809

6

krym.ru

9 795

19 590

7

icq.com

8 657

14 254

8

hc.ru

3 986

4 507

9

infobox.ru

3 070

5 599

10

zvezdi.ru

2 644

2 644

11

top.mylove.ru

2 636

7 908

12

mylove.ru

2 636

2 636

13

agava.ru

2 450

29 458

14

top100.rambler.ru

2 446

3 216

15

subscribe.ru

2 148

3 874

Счетчики практически исчезают (стандартный код счетчика не содержит текстовой ссылки), на первые 7 позиций выходят сайты, занимавшие вторую половину предыдущего рейтинга. Помимо них, появляются хостеры (в первую очередь - за счет заглушечных страниц).

Позиции 10-12 таблицы я бы назвал "Sedoparking plus" - эти сайты содержат ссылки на sedoparking плюс несколько баннеров, плюс пара счетчиков, плюс ссылка. Все вместе - 2636 сайтов на одном IP-адресе (на zvezdi.ru есть еще ссылки с 8 других сайтов).

Во всех рейтингах мы имеем одну полностью естественную ссылку - ICQ и одну «почти естественную» - денежку Яндекса. Остальные счетчики, рейтинги, службы подписки требуют ставить свой код (со ссылкой) без изменений как условие получение сервиса. Ссылки на хостера обычно имеются в стандартных темплейтах сайтов и их оставляют.

Хакнутые сайты ?

Если строить рейтинги не по количеству ссылающихся сайтов, а по количеству текстовых ссылок, ведущих на сайт (таблица ниже) , то картина несколько меняется, помимо уже обсужденных случаев мы видим новые:

No.

Сайт

Ссылающихся сайтов

Ссылок

1

sedoparking.com

56 237

3 378 824

2

poishi.com

57 154

168 271

3

hosting.rbc.ru

12 752

58 829

4

agava.ru

2 450

29 458

5

webmag.ru

165

24 044

6

krym.ru

9 795

19 590

7

peterhost.ru

1 185

18 859

8

icq.com

8 657

14 254

9

sibvrv.com

132

10 966

10

verisign.com

314

10 922

11

redxchange.ru

9 821

9 821

12

webflix.ru

9 809

9 809

13

jargonbooks.com

20

9 695

14

unitedwaywillcounty.org

20

9 626

15

jmagar.com

17

8 316

Помимо уже обсужденных позиций, появляются новые сайты-реципиенты. На 10-й позиции - Verisign, при внимательном рассмотрении это оказалось парковкой доменов с главной страницей по-умолчанию.

На позициях 9 и 13-15 мы видим сайты, на которые ведут тысячи ссылок, идущих с нескольких десятков других сайтов. Феномен крайне заинтересовал и был внимательно изучен. Ссылки на эти сайты ведут на несуществующие страницы с примерно такими URL:

http://www.DOMAIN.ru/viagra/female-viagra.html

http://www.DOMAIN.ru/viagra/viagra-without-a-prescription.html

После установления этого факта, данные ссылки были извлечены из полной базы по следующему словарю: valium casino viagra xanax phentermine tramadol ultram charm gambling. Возможно, словарь не полный, но для оценки масштаба явления его хватило. Было обнаружено:

  • 754 сайта донора
  • 78 сайтов-реципиентов
  • на которых ведут 176 тысяч ссылок, указывающих на 31.5 тысячу страниц.

Выборочная страница реципиентов показала что это преимущественно нормальные сайты, причем страницы на которые указывают ссылки на этих сайтах отсутствуют. Сайты-доноры - это обычные мусорные сайты, 90% из них расположено на одном из хостеров, про взломы сайтов которого достаточно много писали.

Предположительно, мы имеем дело с взломанными сайтами-реципиентами (откуда, впрочем, целевые страницы успели удалить), взломанными сайтами-донорами (исходя из репутации хостера) и все это - такое черное SEO, что чернее уже и не бывает.

Продажные ссылки

Как уже обсуждалось ранее, механически отличить рекламную ссылку от естественной достаточно сложно. Использованные автором критерии (ненулевые индексы цитирования, ограничения по числу ссылок и их разнообразию) не имеют какого-либо «естественного» обоснования, они выведены из эпизодических наблюдений за рынком ссылочной рекламы.

Отобранные 30.8 тысяч сайтов содержат 363.5 тысячи внешних ссылок, ведущих на 79 тысяч реципиентов.

Эта гистограмма выглядит не так гладко, как гистограмма по всем главным страницам: количество сайтов на которые ведет от 6 до 100 ссылок сильно выше «нормы» (нормой считаем диагональную прямую линию). Это отклонение скорее всего связано с искусственным увеличением цитируемости. Заметим, что речь идет примерно об 11.5 тысячах сайтов-реципиентов (часть из которых имеет естественную цитируемость).

Верхушка таблицы, отсортированная по цитируемости выглядит так (для сайтов, где цитируемость является искусственной URL заменены видом деятельности):

No.

Сайт

Ссылающихся сайтов

Ссылок

Оценка
ссылочного
бюджета
$/мес.

1

hosting.rbc.ru

985

987

2

redxchange.ru

888

888

3

icq.com

881

1177

4

webflix.ru

874

874

5

krym.ru

865

1730

6

subscribe.ru

410

634

7

пластиковые окна.ru

385

417

1965

8

мебель.ru

354

371

1874

9

top100.rambler.ru

354

384

10

top.mail.ru

326

343

11

web-студия.ru

325

328

1414

12

салон красоты.ru

313

313

1916

13

hotlog.ru

299

315

14

yandex.ru

297

322

15

еще мебель.ru

277

283

1590

Бюджет на продвижение посчитан только для ссылок с главных страниц по формуле Александра Кириллина.

Десять позиций из 15-ти (в том числе 6 первых) занимают знакомые нам хостинги, счетчики и две естественных ссылки. Остающиеся 5 строчек - это, совершенно бесспорно, «платные ссылки на продажных мордах». Автор проверил по несколько ключевых (по мнению автора) запросов для каждого из этих сайтов и обнаружил, что 4 сайта из пяти находятся на хороших местах в поисковой выдаче и в Яндексе и в Google, а пятый сайт отсутствует в индексе Яндекса, но неплохо находится Google. Собственно, что «ссылки с морд» работают известно и без автора.

Если отсортировать реципиентов по количеству ссылок, то 14 из 15 участников таблицы остаются в ней, хотя и меняются местами. Эта таблица была бы банальной, поэтому не приводится.

Менее банальна таблица лидеров по бюджетам (не приводится: без названий сайтов скучно, а с названиями не хочется), если суммировать по области деятельности, то в десятке по бюджетам мы находим:

  • 3 мебельных сайта
  • два сайта web-студий с комплексными услугами (создание и продвижение сайтов)
  • По одному сайту по тематикам «кондиционеры», недвижимость, салон красоты, пластиковые окна, игры.

Максимальный ссылочный бюджет (оцененный только по главным страницам) несколько превышает $2000 в месяц, минимальный бюджет в десятке - около $1600.

Необходимо заметить, что наши оценки бюджетов не включают в себя:

  • бюджеты на ссылки с неглавных страниц сайтов;
  • бюджеты на ссылки с сайтов, не расположенных в доменах второго уровня .RU/SU.

Тексты ссылок

7.4 миллиона ссылок полной ссылочной базы содержат 897 тысяч разных текстов ссылок. Из них 630 тысяч текстов ссылок - уникальны т.е. встречаются только один раз, еще 120.5 тысяч встречаются два раза, а 45 текстов ссылок имеют частотность более 55 тысяч.

Частотные ссылки совершенно неинтересны - это стандартные тексты из кодов систем статистики, стандартные ссылки от sedoparking и текст «Этот домен возможно продается».

Если рассматривать только текстовые индексируемые ссылки, то картина практически не меняется, разве только подписи систем статистики выпадают из частотной части. Ссылок с единичными частотами становится 506 тысяч (на 5.9 млн. ссылок), ссылок с частотой два - 90 тысяч.

Тексты продажных ссылок

Если рассматривать 363.5 тысячи внешних индексируемых текстовых ссылок с сайтов «подозреваемых в продажности», то картинка становится сильно интереснее. 171 тысяча (48%) написаний встречается в единственном экземпляре (про склейку одинаковых ссылок все уже выучили), еще 19 тысяч (5.4%)встречаются два раза.

Если удалить из списка ссылки, размещенные на киберсквоттерских сайтах, входящих в топ15, то получается такая табличка частот:

No.

Текст ссылки

Частота

1

форум

661

2

создание сайта

521

3

знакомства

462

4

хостинг

430

5

создание сайтов

360

6

здесь

352

7

пластиковые окна

343

8

раскрутка сайта

271

9

разработка сайта

247

10

металлочерепица

245

11

продвижение сайта

236

12

wordpress

222

13

гостиницы москвы

206

14

subscribe.ru

206

15

москва

200

16

межкомнатные двери

200

17

продвижение сайтов

191

18

организация праздников

190

19

ремонт квартир

187

20

керамогранит

179

Пункты 1,6,12,14 - это, по всей видимости, естественные ссылки. Строчки 4 и 15 - под вопросом. Все остальные - очевидные продажные ссылки, причем тематика их почти целиком повторяет лидеров по бюджетам: разработка и продвижение сайтов, пластиковые окна, строительство и ремонт.

Слова в ссылках

Как мы видели выше, уникальных текстов ссылок очень много, сопоставить их можно путем анализа словарного состава.

Для сопоставления различных форм слов (сайта-сайтов и так далее) была использована бессловарная морфология для русского и английского языков от нашей компании. Рассматривались «поссылочные частоты» слов т.е. для текста ссылки «продажа опилок, продажа стружек» слово «продажа» получит единичную частоту .

Полная ссылочная база

5.9 миллионов внешних текстовых ссылок с полного набора сайтов содержат 219 тысяч разных слов (не так и много, в 4 раза меньше, чем уникальных текстов ссылок). Верхушка списка замусорена словами с sedoparking и потому не очень интересна.

Продажные ссылки

В 363.5 тысячах внешних индексируемых текстовых ссылок с сайтов из «продажной» выборки содержатся 1.2 миллиона слов (т.е. средняя длина текста ссылки - 4 слова), но словарный состав относительно беден: уникальных слов всего 64.5 тысячи. Распределение по частотам выглядит куда интереснее (из таблицы исключены знаки препинания, предлоги и частицы и три технических слова: http, www и ru):

No.

Слово

Частота

Количество
вариантов ссылок
с этим словом

1

сайт

15048

7922

2

москва

13076

8570

3

квартира

7918

4792

4

продажа

7908

5387

5

мебель

6938

3972

6

отдых

6536

3508

7

дизайн

6225

3603

8

тур

6172

3728

9

ремонт

5803

3448

10

курс

5215

1749

11

аренда

5053

3046

12

недвижимость

4750

2373

13

дом

4615

3109

14

заказ

4606

2894

15

интернет

4572

2963

16

создание

4290

2141

17

магазин

4209

2942

18

офис

4162

2580

19

доставка

3962

1772

20

оборудование

3706

2474

21

окна

3682

1936

22

купить

3544

2558

23

автомобиль

3312

2073

24

дверь

3211

1665

25

продвижение

3160

1809

Как видим, все топ-25 слов в ссылках - это коммерческая тематика по дорогим темам:

  • слова-намерения и слова-география: аренда, купить, доставка, заказ, продажа, москва, магазин.
  • околоинтернетные сервисы: сайт, создание, продвижение, интернет.
  • недвижимость: офис,, недвижимость, квартира, дом.
  • ремонт и оборудование недвижимости: мебель, ремонт, дверь, окна.
  • автомобили
  • тур(изм) и отдых.

Ну и на закуску - рейтинг упоминаемости англоязычных брендов в текстах ссылок.

No.

Брэнд

Число ссылок
с этим словом

количество
вариантов
написания

1

panasonic

453

311

2

hp

418

297

3

samsung

413

243

4

daikin

401

230

5

sony

350

241

6

nokia

348

195

7

mitsubishi

339

189

8

lg

320

249

9

nissan

288

163

10

bmw

270

178

11

hyundai

258

124

12

kia

253

167

13

canon

240

159

14

nokian

204

130

15

toshiba

201

163

Рейтинг довольно понятный: кондиционеры, бытовая техника и электроника, автомобили. Не могу понять только одного: HP есть и на высокой позиции, а никого из других компьютерщиков - нету. Может быть HP возмещает часть бюджетов на SEO ?

Как мы видим, каждый отдельный бренд имеет примерно на порядок меньшую популярность, чем лидеры списка (предыдущая таблица), частоты близки к частотам таких слов как «принтер», «гидравлический», «мальдивы», «рыбалка», «автострахование» т.е. словам «второго эшелона». Подозреваю, впрочем, что для продвижения по конкретным названиям товаров ссылками с головных страниц пользуются уже мало.

Выводы

  1. Масштабы «малобюджетного» ссылочного спама в Рунете огорчают: более трети всех ссылок ведет на дорвейные партнерки, лидерами которых на сегодня являются sedoparking.com и poishi.com.
  2. На общем фоне довольно заметными оказались предположительно «хакнутые» сайты, на которых были ранее размещены страницы дорвейной тематики.
  3. Оценены максимальные бюджеты на продвижение «по мордам» (главным страницам), лидеры по бюджетам тратят порядка $2000/месяц (это только бюджеты на продвижение по «мордам» в доменах RU/SU, полные бюджеты очевидно выше, что подтверждается и сообщениями на форумах).
  4. Среди платных ссылок очень много уникальных текстов ссылок: около половины текстов не повторяются более 1-2 раз.
  5. При этом, разнообразие словарного состава платных ссылок невелико, всего 64.5 тысячи слов, включая числа, имена собственные, названия моделей товаров и знаки препинания.

Дальнейшая работа должна включать, по всей видимости, анализ ссылочной базы по «всем сайтам минус дорвеи», следует попытаться статистически различить естественные и платные ссылки и, при возможности, установить более точные критерии продажности.

Взято с http://www.rukv.ru/analytics-20070410-runet-links2.html

автор blog.lexa.ru


Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(901) 370-1796

Написать письмо на e-mail
icq 415547094  romverрейтинг на mail.ru сайта romverinbox.ru
© 1997 - 2017 romver.ru

Полная карта сайта Display Pagerank