Главная Услуги Работы Персона Юзабилити анализы
IMG тел. +7(98I) 7608865
Факторы поискового ранжирования сайтов и их изменение под действием борьбы за позиции в поисковых выдачах.




ПОИСК по сайту


    Полный список статей
/ Факторы поискового ранжирования сайтов / Версия для печати / translit / абракадабра :-)


<-предыдущая следующая ->

 
  google.com bobrdobr.ru del.icio.us technorati.com linkstore.ru news2.ru rumarkz.ru memori.ru moemesto.ru smi2.ru twitter.com Яндекс закладки text20.ru RuSpace RuSpace toodoo

Как было сказано в статье «Российские поисковые системы как площадки конкурентной борьбы», борьба за позиции сайтов в ведущих поисковых системах по популярным тематикам запросов ведётся с тех пор, как поисковые системы стали основным источником посетителей для подавляющего большинства интернет-проектов. Под действием этой конкуренции сформировался достаточно объёмный в Западной Европе и США, и крайне быстро растущий рынок поискового продвижения сайтов в России.

Так как же работают оптимизаторы, и от чего зависят позиции сайтов в поисковых выдачах? По каким принципам работают поисковые системы в целом, и какие механизмы ранжирования результатов поиска используют? Для ответа на эти вопросы необходимо увидеть Интернет глазами их специалистов.

Начнём с того, что ни одна поисковая система не предоставляет информации о том, каким образом она работает. Методологическое и программное обеспечение работы поисковых систем являются самой важной их коммерческой тайной. Причин здесь, как минимум, две. Во-первых, конкуренция. Утечка подобных данных от одной поисковой машины к другой способна изменить баланс сил на рынке, а их распространение понизить стоимость компаний владельцев. Во-вторых, борьба с манипулированием результатами выдачи. Точные сведения об алгоритме ранжирования могут быть использованы для искусственной модификации сайтов «под него» для занятия более высоких поисковых позиций, что значительно ухудшит релевантность выдачи. Поэтому основным источником знаний для подавляющего большинства специалистов по поисковому продвижению являются эксперимент и опыт «коллег по цеху».

Кроме того, поисковые системы стремятся постоянно совершенствовать механизмы своей работы, с целью улучшения качества поиска, снижения возможности искусственного влияния на порядок выдачи результатов, расширения перечня предоставляемых услуг. Совершенствование алгоритмов индексации и ранжирования сайтов приводит к быстрому устареванию информации об этих процессах. Таким образом, получается, что и без того скудная, информация, получаемая оптимизаторами, к тому же стремительно устаревает, а говорить от стабильности результатов их работ в перспективе, скажем, 7-8 месяцев, уже не приходится вовсе. Но не всё так печально. Если обратиться к истории развития поисковых технологий, в первую очередь научной базе поиска по слабоструктурированным и неструктурированным единицам информации, можно выделить ряд ограничений, в пределах которых возможны изменения. Также, можно спрогнозировать, чего следует ожидать от поисковых машин в ближайшие годы, а что на сегодняшний день является вопросами более далёкой перспективы.

Итак, информация о конкретной организации поисковых систем в большей части закрыта. Однако открыта научная база, на которую опираются их разработчики. Более того, попыток скрывать перечень используемых научных подходов не наблюдается, т.к. это было бы, по меньшей мере, наивностью: выбор на сегодняшний день невелик, почти все они в теории были предложены еще до конца 70х годов прошлого века.

Приведём описанные, состоявшиеся модели поиска, которые можно применить при создании поисковой системы:

• Простейшие модели поиска: поиск на основе мета-данных, поиск на основе классификаторов и модель «Дублинского ядра». К простейшим же можно отнести методы сигнатур и суффиксных деревьев.

• Теоретико-множественные модели: булевская, расширенная булевская, нечётких множеств.

• Алгебраические: векторная, обобщенная векторная, латентно-семантическая, нейросетевая.

• Вероятностные.

Доподлинно известно, что ведущие поисковые системы не берут за основу ни одну из простейших моделей. В частности, системы использовавшие методы суффиксных деревьев (например, американская «OpenText») прекратили своё существование еще в 1995м году, остальные методы вообще не получил большого распространения.

Теоретико-множественные модели, в первую очередь булевские использовались и используются по сей день в первую очередь для создания малых поисковых систем (с объёмом документов исчисляемых не более чем сотнями тысяч штук), такие методы быстры в реализации и непосредственном функционировании, просты для понимания. Но существенный недостаток – невозможность ранжирования документов, содержащих все слова запроса – не позволяет использовать их для построения крупных поисковых систем для больших объёмов данных, где таких документов для отдельных запросов могут встретиться сотни и тысячи.

Алгебраические модели впервые были предложены Т. Джойсом и Р.М. Нидхемом, они основаны на принципе оценки расстояний между вектором слов запроса и вектором слов документа в пространстве слов индекса. Т.е. близость запроса документу оценивается по соотношению частоты упоминания слов запроса в рассматриваемом документе ( TF ), к частоте упоминания слов запроса во всех документах индекса ( IDF ). Часто это соотношение – TF / IDF – используют как синоним векторной модели.

Методы латентно-семантического (дословно, скрыто-смыслового) анализа являются развитием векторных методов. Развитие основано на понижении размерности матрицы ассоциирующей слова с документами (имеющей колоссальные размеры), где элементом матрицы является частотная характеристика связи слова с документом за счёт её сингулярного ( SVD ) разложения размерности 50-150 (вопрос об оптимальном количестве является открытым по сей день). Они пока, также, не получили широкого распространения для поиска, вероятнее всего, причиной тому является низкое качество определения скрытых смыслов, особенно для языков, богатых словами, имеющими различны (неблизкие) значения при совпадении основ, к коим относится и русский язык. По большей части эти методы используются для поиска только во вспомогательных целях: автоматическая классификация, фильтрация, автоматическое разделение коллекций, понижение размерности других методов.

Вероятностные методы основаны на том, что для каждого документа рассчитывается вероятность его соответствия запросу. Эта вероятность может рассчитываться на основе сравнения с неким эталоном релевантности, либо на основе вычисления значений некой совокупности параметров. В любом случае, глубина проработки этих методов пока не достигла того уровня, на котором они могли бы быть применены для объёмов данных, подлежащих индексации поисковыми системами.

Более глубокий обзор методов реализации поиска не мы оставим за рамками данной статьи, перечисленное выше предназначалось лишь для подкрепления того, что ведущие поисковые системы, применительно к России ими являются « Google », «Яндекс», «Рамблер», « AltaVista » и « MSN », основаны на различных реализация векторной модели поиска. Что это означает для оптимизатора? Это позволяет утверждать, что:

• Ключевым фактором ранжирования документа (отдельной интернет-страницы или доступного файла, формата, входящего в состав доступных для индексации конкретной поисковой системой) в результатах поиска является отношение концентрации слов запроса в этом документе, к концентрации слов запроса во всех документах индекса (отношение TF / IDF ).

• Поисковые машины в данный момент не имеют развитых технологий тематического ранжирования, автоматического определения смысла документов.

• Ближайшим шагом развития поисковых систем станет именно автоматизация определения тематики (так называемый вертикальный поиск), для уменьшения размеров выдачи по общим запросам. Т.к. именно задачи автоматической каталогизации имеют наибольшую научную проработку. При этом ключевым фактором ранжирования в пределах одной тематики останется TF / IDF .

Это основа основ, от которой и следует отталкиваться в последующем рассмотрении вопроса. Далее мы покажем, что существует еще множество факторов, с большей или меньшей степенью обоснованности считающихся учитываемыми при ранжировании различными поисковыми системами, и их влияние немаловажно, но первоочередным фактором, общим для всех ведущих поисковых систем, является концентрация слов запроса в документе.

Теперь коснёмся факторов, влияние которых возникло в процессе развития поисковых систем, под действием стремления улучшить качество поисковой выдачи и стремления противодействовать искусственному манипулированию результатами. Поисковые системы стремятся ранжировать документы максимально точно, с целью чего вводят всё новые и новые критерии ранжирования, работают над достижением оптимальности их влияния. Оптимизаторы, выявляя эти критерии, приводят сайты к максимальному их удовлетворению (что, зачастую, не улучшает потребительские характеристики этих сайтов), в результате чего лидерами выдачи могут оказываться не те, кто больше соответствует, а те, кто больше стремится. Поисковые системы, в свою очередь, вводят фильтры, выявляющие искусственность изменений сайтов, исключая их с высших ступеней выдачи, вводя новые критерии ранжирования. Круг замкнут. Это соревнование длится непрерывно и несёт в себе, как конструктивную, так и деструктивную составляющую. С одной стороны, с течением времени условия оптимального ранжирования сайтов и условия удобства пользователей сближаются, качество выдачи становится выше, потребительские характеристики сайтов, занимающих высокие позиции в ней, растут. С другой стороны, в краткосрочной перспективе часто возникают «лазейки» в алгоритмах ранжирования, позволяющие недобросовестным оптимизаторам выводить сайты в меньшей степени соответствующие тематике, неинформативные, порой предназначенные исключительно для рекламы, на высокие позиции в выдачах по популярным тематикам.

Так какие же факторы ранжирования и какие фильтры используются поисковыми машинами сегодня? Для ответа на этот вопрос ограничимся самыми используемыми в России поисковыми системами: «Яндекс» и « Google », с той оговоркой, что имеющий высокую популярность «Рамблер» можно исключить из этого списка ввиду анонсированного им соглашения с « Google », поиск « Mail . ru » использует выдачу системы «Яндекс». Разделим факторы ранжирования на внутренние, характеризующие сам сайт, и внешние, определяемые другими сайтами или действиями пользователей. Каждую группу разделим на достоверные, влияние которых многократно подтверждено, предполагаемые и недостоверные, влияние которых часто упоминается, но на практике не подтверждено.

Фактор

«Яндекс»

« Google »

Внутренние

1

Концентрация слов запроса

дост.

дост.

2

Близость слов запроса во фразе

дост.

дост.

3

Порядок слов запроса

дост.

дост.

4

Нахождение слов запроса в областях, повышенного «веса»: заголовках страниц, текстов, подзаголовках, участках текста, выделенных жирным

дост.

дост.

5

Концентрация слов запроса на других страницах сайта

предп.

предп.

6

«Глубина» удаления документа от главной страницы сайта

предп.

предп.

7

«Глубина» вложенности текста в обрамляющие HTML -тэги (такие, как div , table , span и т.п.)

недост.

недост.

8

Количество внутренних (с других страниц сайта) ссылок на документ

предп.

предп.

9

Содержание текста запроса в текстах внутренних ссылок ( anchor ) на документ

дост.

дост.

10

Естественность текста

предп.

предп.

11

Наличие невидимых участков текста

недост.*

недост.

12

Количество внутренних (на другие страницы сайта) ссылок

предп.

предп.

13

Количество внешних (на другие сайты) ссылок

дост.

дост.

14

Частота обновления документа

предп.

предп.

15

Частота обновления сайта

предп.

предп.

16

Уникальность текста документа

предп.

предп.

17

Факт явления документа первоисточником данного текста

недост.**

недост.**

18

Доля уникальных документов на сайте

предп.

предп.

19

Посещаемость сайта

недост.***

недост.***

20

Посещаемость документа

недост.***

недост.***

21

Частота переходов с поисковой системы на сайт

недост.***

недост. ***

22

Частота переходов с поисковой системы на документ

недост. ***

недост. ***

23

Исчисленный показатель цитируемости документа («Яндекс» индекс цитирования, тематический индекс цитирования; « Google » Page Rank )

предп.

предп.

24

Возраст документа

предп.

предп.

25

Возраст доменного имени

дост.

предп.

26

Уровень доменного имени

предп.

предп.

27

Уровень доменного имени высшего порядка

недост.

предп.

28

Наличие искомых слов в имени файла документа или сайта ( URL )

предп.

дост.

Внешние

1

Количество ссылок на документ с других сайтов

дост.

дост.

2

Количество ссылок на документ с данного сайта

предп.

дост.

3

Содержание слов запроса в текстах ссылок на документ

дост.

дост.

4

Наличие слов запроса на страницах, содержащих ссылки на документ – близость ссылающейся страницы по тематике

предп.

предп.

5

Наличие слов запроса на других страницах сайтов (кроме ссылающейся) ссылающихся на документы – близость ссылающегося сайта по тематике

недост.

предп.

6

Исчисленный показатель цитируемости ссылающегося документа («Яндекс» индекс цитирования, тематический индекс цитирования; « Google » Page Rank )

дост.

дост.

7

Наличие симметричных обратных ссылок: когда ранжируемый документ ссылается на один документ другого сайта, а тот, в свою очередь, ссылается на ранжируемый

недост.

недост.

8

Наличие несимметричных обратных ссылок: когда ранжируемый документ ссылается на один документ другого сайта, а тот, в свою очередь, ссылается на другой документ того сайта, содержащего ранжируемый, кроме самого ранжируемого

предп.

предп.

9

Наличие симметричных циклических ссылок: когда ранжируемый документ ссылается на один документ другого сайта, тот, в свою очередь, ссылается на документ третьего сайта, последний же ссылается на ранжируемый документ (длина цикла может варьироваться)

дост.

дост.

10

Наличие несимметричных циклических ссылок: когда ранжируемый документ ссылается на один документ другого сайта, тот, в свою очередь, ссылается на документ третьего сайта, последний же ссылается на любой документ сайта, содержащего ранжируемый, кроме самого ранжируемого

дост.

дост.

11

Скорость прироста числа ссылок

предп.

предп.

12

Глубина документов, ссылающихся на ранжируемый, от главных страниц

дост.

дост.

13

Возраст документов, ссылающихся на ранжируемый, от главных страниц

предп.

предп.

14

Уровень доменных имён ссылающихся сайтов

предп.

предп.

15

Возраст доменных имён ссылающихся сайтов

предп.

предп.

16

Наличие сайта в «чёрных-списках» (т.н. песочница, списки пессимизации и т.п.)

дост.

дост.

17

Наличие ссылающихся сайтов в «чёрных-списках» (т.н. песочница, списки пессимизации и т.п.)

дост.

дост.

* Сайт может быть пессимизирован за создание невидимых участков текста, содержащих ключевые слова, для искусственного завышения их концентрации, однако, только в случае поступления жалобы на этот сайт, а не автоматически.

** Поисковая машина обходит Интернет постепенно, поэтому редко может определить фактическую дату публикации материала. Однако, косвенно, если материал часто заимствуется другими сайтами, в рамках сетевой этики они устанавливают ссылку на страницу-первоисточник. В этом случае, факт явления первоисточником влияет на позиции, но не прямо, а опосредованно, за счёт увеличения числа внешних ссылок.

*** Сегодня поисковые системы имеют все возможности для включения этих факторов, но их включение откроет возможность для искусственной «накрутки» посещаемости, с помощью специального программного обеспечения или с привлечением людей. Тем не менее, по мере совершенствования средств учёта посещаемости, он, несомненно, заработает.

Таблица 1. – Внутренние и внешние факторы поискового ранжирования сайтов.

Вероятно, в таблице приведены не все рассматриваемые сегодня факторы ранжирования сайтов. Но ключевые, по мнению авторов, указаны полностью. Важно обратить внимание на количество факторов ранжирования, являющихся предполагаемыми. Причём, факторы, влияющие сегодня, могут перестать влиять через год, не влияющие – начать. Более того, будучи принятыми частью поисковых систем, они могут не использоваться другой частью. И, что самое важное, каждая поисковая система сама для себя решает, какой фактор, в какой степени влияет на ранжирование. В частности, такой базовый определяющий фактор, как концентрация слов запроса, при превышении определённого процентного соотношения может вывести сайт из поисковой выдачи или отбросить далеко вниз. Например, в случае, если автоматика поисковой системы сочтёт текст неестественным (например, на основе Закона Ципфа) или просто будет превышен барьер концентрации. Различные поисковые системы могут устанавливать этот барьер, исходя из средней концентрации ключевых слов на релевантных запросу сайтах, из установленных эталонов или из исчисленных полагаемых экстремальными величин. В результате чего документ будет воспринят, как созданный для искусственной «накрутки» релевантности, что определяют как «поисковый СПАМ».

Таким образом, можно говорить о высокой степени неопределённости в вопросах поисковой оптимизации сайтов. Многие факторы ранжирования сомнительны, а точный состав и степень их влияния зависит от конкретной поисковой системы и тематики запроса. Фактически, работы над решением задач поисковой оптимизации продвижения сайтов выполняются во многом интуитивно, а результаты этих работ крайне слабо прогнозируемы. Часто, для того, чтобы найти адекватную методику продвижения конкретного сайта по конкретной семантике в конкретной поисковой системе уходят месяцы, что приводит к нерациональному использованию средств, наносит убытки владельцам сайтов и оптимизаторам. Кроме того, в процессе выявления оптимальной стратегии продвижения над сайтами производятся изменения, отрицательно влияющие на их потребительские характеристики, повышающие риск пессимизации, при этом, после достижения успеха практически невозможно выявить те из них, которые следует отменить. Все они, соответственно, сохраняются.

В заключении хочется сказать, что, несмотря на все сложности, колоссальный спрос на этот вид работ продолжает толкать отрасль вперёд. В ближайшие пять-семь лет не следует ждать радикальных изменений в работе поисковых машин. Рост будет достигаться за счёт автоматической каталогизации результатов поиска (вертикальный поиск), включения в перечень индексируемых форматов всё новых типов данных: изображения, видео, аудио (подразумевается распознавание, а не индексация мета-данных); горизонтального расширения списков сервисов, предлагаемых поисковыми системами. Эта стабильность позволит исследователям данной области уже в перспективе одного двух лет обеспечить обоснованную, универсальную методологическую базу. А в перспективе двух трёх лет и программное обеспечение, способное не только оценить действующие показатели сайтов, но предложить чёткие решения задач продвижения, основанные непосредственно на анализе поведения отдельно взятой поисковой системы применительно к отдельной предметной области в данный момент времени. Самым вероятным решением, по мнению авторов, станут самообучаемые системы поддержки принятия решений, готовые независимо от имеющихся данных о поисковой машине, провести анализ её поисковой выдачи, выявить основные факторы ранжирования, оценить степень их влияния, сформировать и, при необходимости, оценить план работ по продвижению с учётом показателей сайтов-конкурентов в заданной тематической области, спрогнозировать результаты этих работ.

Источники

  1. Илья Сегалович. «Как работают поисковые системы».
  2. Чугреев Валерий Леонидович. «Модель структурного представления текстовой информации и метод ее тематического анализа на основе частотно-контекстной классификации». Диссертация на соискание степени кандидата технических наук. Санкт-Петербургский государственный электротехнический университет им. В.И. Ульянова (Ленина) “ЛЭТИ”. 2003 г .
  3. Некрестьянов Игорь Сергеевич. «Тематико-ориентированные методы поиска». Диссертация на соискание степени кандидата технических наук. Санкт-Петербургский государственный университет. 2000 г .
  4. Ашманов И.С. Иванов А.А. « Оптимизация и продвижение сайтов в поисковых системах». Питер, Спб. 2008 г . 400 стр. ISBN: 9785388000088
  5. The Thesaurus Approach to Information Retrieval T. Joyce and R.M. Needham American Documentation, 1958
  6. «Принципы работы поисковой машины «Рамблер». http://www.rambler.ru/doc/architecture.shtml
  7. Раздел для веб-матеров компании « Ян декс». http :// webmaster . ya . ru
  8. Условия предоставления услуг Google . http://www.google.ru/accounts/TOS
  9. Лицензия на использование поисковой системы Яндекс. http://rules.yandex.ru/termsofuse.xml

Карулин С. А.

vseyaseti.ru/archives/21

3
Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин
Контактная информация :
тел. +7(98I) 7608865

Написать письмо на e-mail
icq 415547094  romverрейтинг на mail.ru сайта romverinbox.ru
© 1997 - 2024 romver.ru

Полная карта сайта Display Pagerank