Поисковые системы молились на этого Бога и искали слово запроса в текстах. И чем чаще оно встречалось, тем выше был сайт в результатах выдачи. С 1998 года, с появлением поисковой системы Google, бога сменили

"В начале было Слово, и Слово было у Бога, и Слово было Бог..." - всем известна эта первая фраза Библии. Поисковые системы молились на этого Бога и искали слово запроса в текстах. И чем чаще оно встречалось, тем выше был сайт в результатах выдачи. С 1998 года, с появлением поисковой системы Google, бога сменили - появилась богиня "Ссылка". Даже не то чтобы совсем сменили, а сильно подвинули. И стали поисковые системы считать ссылки и иначе ранжировать документы. Длилось так, пока на горизонте не стала появляться новая богиня - "Тема".

В некотором смысле "Тема" является возвратом к "Слову" - внимание поисковых систем вновь направляется на тексты. Суть идеи: слова не существуют независимо друг от друга, они существуют в среде других слов, в контексте текста. И встречаемость слов вместе не случайна - чаще рядом в тексте встречаются слова относящиеся к одной теме. Слова "шприц" и "пластырь" - будут чаще встречаться в тексте относящемся к теме "медицина", а "телескоп" и "обсерватория" - в текстах "астрономической" темы. Таким образом, каждая тема может быть определена через список слов, относящихся к ней. Каждое слово может участвовать в определении нескольких тем. Представьте себе таблицу, столбцы которой озаглавлены темами, а строки озаглавлены словами. Если слово связано с темой, в ячейке на пересечении ставим крестик. Если слово не связано - ставим нолик (в более продвинутом решении, в ячейке на пересечении слова и темы может ставиться сила связи слова и темы).

Анализируя при помощи такой таблицы словарный состав любого текста (любого набора слов) можно вычислить через количество общих слов силу связи этого текста с различными темами. Один текст будет иметь разную степень связи с разными темами в зависимости от общих слов. И далее, через общие темы, может быть оценена степень связи исходного текста с любым другим.

Что может дать или дает поисковым системам "Тема"?

Учет темы позволяет проследить тематическую близость не только в цепочке "текст - тема - другой текст", но и в цепочке "поисковый запрос - тема - текст документа", или "текст ссылающейся страницы - тема - текст документа", или "слово в тексте - текст в целом" и т.д., и т.п.

Тема - это сильное оружие, позволяющее отличать естественные тексты и ссылки от неестественных, поскольку разумно предполагать, что ссылки с тематически близких документов более естественны. Можно повышать в выдаче документы, тема которых наиболее близка к теме запроса (интересный случай возникает, когда документ не содержит непосредственно слово запроса, но словарный состав документа наиболее близок к теме, с которой сильнее всего связано само слово запроса). Или повышать в выдаче по информационным запросам документы, наиболее полно (т.е. - многословно) раскрывающие тему запроса.

В целом, использование темы дает много возможностей поисковым системам по улучшению качества выдачи.

Из истории развития "Темы"

Идея учета не только наличия самого ключевого слова в тексте, но и его связей путем анализа соседствующих в тексте слов не нова. В документальных поисковых системах ориентированных на относительно небольшие, по сравнению с Интернет, массивы документов такой подход применяется достаточно давно. Разработчики поисковых систем для Интернет ранее считали это направление малоперспективным и говорили о непропорциональной дороговизне его реализации на практике. Однако, все меняется со временем...

Среди первых признаков интереса поисковых систем в Интернет к "Теме" можно считать попытки повышения релевантности выдачи путем расширения первоначального поискового запроса дополнительными, тематически близкими словами.

В 2003 году Рамблер обнародовал алгоритм учета ассоциативных связей (см. доклад "Алгоритм формирования ассоциативных связей и его применение в поисковых системах." В. И. Шабанов, А. Е. Власова). Цитата из доклада: "Предложенная методика формирования ассоциаций может использоваться для автоматического уточнения поисковых запросов. Так, например, при поиске по запросу гороскоп можно повысить вес (показатель релевантности) тем документам, которые соответствуют еще и ассоциированным запросам (гадание, сонник и т. д.)".

В данной цитате, фактически, предлагалось на этапе уточнения запроса формировать понятие "Темы", как совокупности слов запросов, ассоциированных с заданным запросом в поисковой активности пользователей, и повышать в выдаче документы, в которых тема более выражена. Однозначной информации от разработчиков, о том, что данный алгоритм использовался Рамблером я не встречал, но в 2002 году, занимаясь продвижением туристического сайта, ориентированного на "отдых в Тайланде", столкнулся с неожиданной ситуацией, когда на первую страницу выдачи Рамблера стали подниматься нестандартные документы. Эти документы содержали мало информации о Тайланде, но включали перечисление "туров в Турцию", "отдыха в Египте" и т.п. Как оказалось, многим пользователям Рамблера "побарабану", куда ехать на пляжный отдых и они перебирали подряд все возможные жаркие страны - что было видно по ассоциативным запросам к запросу "отдых в Тайланде". Рамблер послушно создавал списки ассоциированных запросов и поднимал в выдаче "тематические" документы, содержащие все варианты названий стран пляжного отдыха.

Примерно в то же время похожий механизм расширения запроса за счет тематически близких слов можно было видеть в Google. На введенный запрос "~tour -tour" на первой странице выдачи Google появлялись документы, в которых не было ни одного слова "tour", зато были выделены жирным шрифтом найденные тематически связанные слова: "travel", "map", "guide" и т.п.

В отличие от этой "Темы", которая, являлась скорее характеристикой запроса и определялась через ассоциированный набор тематических слов для расширения запроса, Яндекс ввел в 2003 году иную тематическую характеристику - характеристику самого ресурса - "тематический индекс цитирования" (тИЦ). Согласно разделу помощи Яндекса: "тематический индекс цитирования (тИЦ) определяет "авторитетность" интернет-ресурсов с учетом качественной характеристики ссылок на них с других сайтов...Большую роль играет тематическая близость ресурса и ссылающихся на него сайтов". В среде веб-мастеров долгое время бытовало мнение, что тИЦ определяется, только для сайтов, входящих в состав каталога Яндекс, хотя в помощи Яндекса прямо написано: "тИЦ можно измерить для всех ресурсов, на которые ссылается кто-либо из просканированных Яндексом ресурсов хотя бы раз. То есть для каталога Yahoo! тИЦ измеряется, несмотря на то, что сам ресурс yahoo.com не проиндексирован Яндексом".

Этот алгоритм, учитывающий "Темы" и тематическую близость сайтов используется в Яндексе при ранжировании сайтов в каталоге.

Весной 2006 года, в докладе "Технологии извлечения знаний для поиска в Интернете. От слов к объектам.", на конференции "Интернет и бизнес", Лев Гершензон сформулировал среди основных направлений развития поисковых алгоритмов Яндекса: развитие поиска - от поиска по словам, к поиску по объектам; учет связей между объектами; автоматическое определение тематики. В интересной статье, посвященной алгоритмам, опробованным командой Яндекса на Российском семинаре по Оценке Методов Информационного Поиска РОМИП-2006 (http://romip.narod.ru/romip2006/03_yandex.pdf), достаточно подробно описывается алгоритм получения бонусов при ранжировании документами, которые содержат больше слов из некоторой словарной тематической группы, сформированной как соответствующей теме запроса. То есть работает цепочка "запрос - группа тематических слов - наличие слов из группы в тексте документе". При этом, за тематическую структуру берется список разделов каталога Яндекса (один раздел - одна тема), с которым соотносится каждый документ.

Работы Яндекса, ведущиеся в области "Темы" хорошо иллюстрирует общедоступный инструмент автоматической генерации тематических рефератов referats.yandex.ru. Вы выбираете тему, и для нее генерируется текст, состоящий из имеющих отношение к этой теме слов и фраз. Так же можно сгенерировать и текст, отвечающий нескольким темам.

В Яндексе можно поэкспериментировать и с обратным процессом: определением темы по группе слов. В 2006 году, на втором шаге подачи объявления в Яндекс Директе, появился новый инструмент: это инструмент автоматического выбора наиболее релевантных рубрик каталога к группе ключевых слов, введенных пользователем. В данном случае название рубрики каталога это и будет тема, аналогично тому, как описано в статье по РОМИП-2006.

Вот несколько примеров: "Дача", "аренда дачи", "покупка дачи" четко сопоставляются тематическим движком Яндекса с темой "Загородная недвижимость". Для слов "дом", "квартира" по отдельности Яндекс тему определить не может. Не может он определить тему и для двух слов вместе "дом дача". Странно? Вы бы, наверное, смогли? Для двух слов вместе "дом квартира" Яндекс определяет тему как "Бизнес". Добавляем к ним третье "дом квартира дача" Яндекс живо выдает две темы: "Аренда офисов" и "Загородная недвижимость"... причем тут аренда офисов?.. Если добавить к даче и дому нетематическое слово ("дом квартира шляпа") - Яндекс опять теряет представление о теме. В целом, создается впечатление, что работы в данном направлении ведутся упорные, но результаты пока не слишком убедительные.

Повышение внимания разработчиков поисковых систем к "Теме" можно видеть и на примере новых проектов. Пожалуй, самый интересный среди российских, это Интернет поисковик www.visualworld.ru. VisualWorld создается в Санкт-Петербургском Институте Информатики и Автоматизации РАН под руководством проф. Александрова В.В. Разработчики позиционируют алгоритмическую основу своего проекта следующим образом: "Поисковая система VisualWorld пытается находить страницы не с точным вхождением строки запроса, а ответить на вопрос "что есть то, что написано в запросе?". Процесс поиска - это выборка документов, удовлетворяющих условию наличия семантических связей в документе между всеми словами поискового запроса". Для каждого найденного документа определяется тема, как набор связанных слов. Этот набор слов визуализируется в виде графа. Для каждого документа можно найти похожие по теме - документы, для которых семантическую основу составляют те же ключевые слова.

Что означает рост внимания поисковых систем к "Теме" для SEO?

Работая по продвижению сайта по конкретному запросу, необходимо сформулировать для темы, к которой относится запрос, наиболее "контрастные", "смыслоразличительные" термины и составить "словарь Темы". Изучив тему, пишем страничный текст (один или несколько), используя слова почти исключительно из "словаря Темы". Конечно, тексты получатся несколько похожими на то, что создает генератор рефератов на Яндексе - но необходимо умудриться сохранить осмысленность, чтобы не провоцировать редакторов Яндекса покарать спам.

Интересно, что сама технология написания подобных тематически оптимизированных текстов появилась задолго до поисковых систем. В романе "Золотой теленок", мучимый голодом и отсутствием наличности, Великий Комбинатор Остап Бендер подробно разработал методику написания оптимизированных тематических текстов и продал ее журналисту Ухудшанскому: "Вы, я замечаю, все время терзаетесь муками творчества. Писать, конечно, очень трудно. Я, как старый передовик и ваш собрат по перу, могу это засвидетельствовать. Но я изобрел такую штуку, которая избавляет от необходимости ждать, покуда вас окатит потный вал вдохновения. Вот. Извольте посмотреть. И Остап протянул Ухудшанскому лист, на котором было написано: ТОРЖЕСТВЕННЫЙ КОМПЛЕКТ. НЕЗАМЕНИМОЕ ПОСОБИЕ ДЛЯ СОЧИНЕНИЯ ЮБИЛЕЙНЫХ СТАТЕЙ, ТАБЕЛЬНЫХ ФЕЛЬЕТОНОВ, А ТАКЖЕ ПАРАДНЫХ СТИХОТВОРЕНИЙ, ОД И ТРОПАРЕЙ".

Данный лист содержал несколько словарей: существительные, прилагательные и глаголы - все сплошь были полит-агитационной тематики; и к ним дополнительно прилагался словарь "азиатского орнамента" (урюк, арык, ишак, кишлак...). В результате творческих манипуляций с этими словарями получались очень тематические тексты - не поленитесь найти и перечитать эти строки! Вот пример восточного варианта:

Цветет урюк под грохот дней,
Дрожит зарей кишлак.
А средь арыков и аллей
Идет гулять ишак.

Конечно, литературный шедевр таким способом создать трудно, но уж тема будет выражена максимально полно.

Устанавливая внешние ссылки необходимо проверять наличие слов из "словаря Темы" на ссылающихся страницах и в тексте ссылок; чем больше тематических слов и меньше нетематических - тем лучше. Такой подход позволит нам охватить нужной темой все элементы доступные для анализа поисковых систем: сам документ, ссылки и ссылающиеся страницы.

Далее, в страничном тексте, оптимизируемом под конкретный запрос, необходимо несколько раз употребить отдельные слова из запроса и фразу запроса целиком - это создаст релевантность документа непосредственно к запросу. Кроме того, в тексте документа желательно разместить побольше низкочастотных запросов, включающих текст основного запроса, к которому оптимизируется страница - это будет работать и на релевантность к основному запросу, и на нахождаемость по смежным низкочастотным запросам.

WebDirector - инструмент для составления "словаря Темы" и написания оптимизированных текстов

В мае 2006 года, в составе SEO ориентированной CMS WebDirector появился уникальный по своим возможностям инструмент "Текстоптимайзер". В одно поле Вы вводите запрос, к которому собираетесь писать оптимизированный текст, во втором поле начинаете набирать текст. По нажатию пользователя, программа показывает список уточняющих запросов к исходному запросу (ассоциативные запросы) и запросов, включающих в себя текст исходного (прямые запросы).

Далее программа строит частотный "словарь Темы" на основе анализа запросов и частотный "словарь Текста" - набранного Вами страничного текста - для которого считает количество и процент повторяемости слов, ранжирует слова в словаре в порядке уменьшения частоты (в высоко ранжируемых текстах слова запроса, обычно, относятся к наиболее часто повторяемым). При составлении словарей используется псевдо-морфологический анализ слов - стемминг.

Кроме того, для "словаря Текста" программа сравнивает значения всех слов с эмпирически вычисленными коэффициентами наиболее употребляемых слов в хорошо ранжируемых текстах (коэффициенты меняются в зависимости от количества слов в тексте) и выделяет в словаре высокоранговые слова, параметры которых (частота и процент) соответствуют рекомендованным значениям.

"Список прямых запросов", "список ассоциативных запросов" и "словарь Темы" объединяются под шапкой "семантическое ядро Темы" - понятие, которое мы ввели относительно текста, по аналогии с введенным Игорем Ашмановым понятием "семантическое ядро" сайта. Таким образом, в концепции программы, тема представлена тремя составляющими и чем больше будет в страничном тексте слов и фраз из "семантического ядра Темы", и чем меньше чуждых слов, тем более близким к теме мы считаем текст.

Текстоптимайзер анализирует близость набираемого текста и "семантического ядра Темы" и помогает редактору:

Использование Текстоптимайзера позволяет подготовить тематический текст, наполненный ключевыми словами и содержащий низкочастотные вариации исходного основного запроса.

Кроме Текстоптимайзера, SEO возможности CMS WebDirector включают:

Полный список статей / SEO / Версия для печати / translit / абракадабра :-)

SEO пантеон: Слово, Ссылка... Тема

Что может дать или дает поисковым системам "Тема"?

Из истории развития "Темы"

Что означает рост внимания поисковых систем к "Теме" для SEO?

WebDirector - инструмент для составления "словаря Темы" и написания оптимизированных текстов