IMG	PDA версия	тел. +7(98I) 7608865
		Поиск глазами пользователей

абракадабра :-)

<-предыдущая следующая ->

Мы ищем с точностью до 8 нанобитов,
каждую секунду мы индексируем 1024 с половиной сайтов,
мы индексируем все, что пингуется,
режим overdrive - находятся даже те страницы,
которых никогда не существовало.
(рекламно-поисковое)

Поисковые технологии считаются одной из достаточно динамичных и интенсивно развивающихся технологий, и напоминают осьминога, стремящегося захватить своими щупальцами всю информацию, до которой может дотянуться. И, если раньше мы, пользователи, подстраивались под поисковую систему, то теперь поисковые системы пытаются подстраиваться под пользователя.

Но у разработчиков свои представления о том, в каком направлении должны развиваться поисковые технологии, а у пользователей, как ни странно, несколько иные. Поэтому давайте посмотрим на поисковые технологии глазами пользователя.

Бирюльки

С точки зрения пользователя, последнее время развивается не инновационность поиска, а извращенность. Только небольшой процент пользователей систематически использует "продвинутые" поисковики, позволяющие разложить в визуальный ряд и по полочкам кластеры, пирожки и связи. Остальные относятся к таким поисковикам как к игрушкам. Да, красиво, интересно и позволяет провести неспешное исследование области поиска (что, как и с чем связано, и на что влияет), но если требуется что-то быстро найти - тут уж извините: нам не шашечки, а ехать. Тем более, что собственная индексная база у таких продвинутых поисковиков или отсутствует, или небольшая.

Чего же хочет пользователь? А пользователю хочется странного - внести поисковую строку и получить небольшой, но достаточный список результатов (линков на сайты и страницы), на которых пользователь найдет именно то, что хотел. Откуда поисковик их возьмет и как догадается, что именно пользователь хотел найти - это пользователю фиолетово, а "проблемы негров шерифа не интересуют" (то есть, как этого добьются поисковики пользователя волнует мало).

Распознавание образов

Одна из проблем, с которой постоянно сталкивается пользователь - то, что поисковики ищут не по смыслу, а по тексту. Легко найти текст по цитате или уникальной ключевой фразе - если вы ее помните. А если нет? Если я не знаю, какими словами он (текст) писался? Еще хуже ситуация, когда вы не знаете, по каким словам искать нужные сайты; скажем, если вы ищете информацию по незнакомой вам предметной области. Например, начинающему юзеру хочется найти софтину, которая позволит вести электронный блокнот (записную книжку) с поддержкой древовидной структуры. О том, что этот тип программы называется оутлайнер (outliner), он может догадаться только случайно.

У "социального поиска" (звонок другу в icq, помощь зала, форума или сообщества), который в такой ситуации справляется лучше, есть свои нюансы. Кроме того, "социальный поиск" не обладает холодной беспристрастностью, свободой выбора, и способен навязывать не лучшие решения.

Поисковые системы пытаются помочь пользователю, потроша тезаурус и подбирая синонимы к словам и выражениям. Но чаще это приводит к увеличению мусора в результатах, чем к реальной помощи. Самостоятельно управлять степенью вовлеченности тезауруса в поиск пользователю не дают. А зря.

При поиске в неизвестной предметной области обычно советуют найти (неизвестно какими путями) какой-то сайт по этой предметной области и по нему составить "поисковый словарик", используя который искать все остальные ресурсы и материалы.

Поскольку такой метод неудобный и требует ручной работы, то пользователю хочется эту работу спихнуть на поисковик. Проще говоря, пользователю требуется нечеткий поиск ("не знаю точно, что хочу найти"). Реализуется он методом поисковой вилки: сначала идет режим "предварительного прицеливания", позволяющий шаг за шагом сузить область поиска и сформировать правильный поисковый словарик, после чего по этому словарику и осуществляется поиск.

Хорошие результаты получаются, если предварительный поиск идет по семантике, а уже потом происходит переход на "линейный поиск".

Актуализация

Еще одним неудобством для пользователя является недостаточное внимание поисковика к актуализации. То есть поисковая система должна в первую очередь индексировать новый контент, а остальное - по графику (или как придется). Это и называется "тактика быстрого и медленного индексирования". Если новая статья опубликована - то она должна быть проиндексирована в тот же день. Многие поисковики к этому относятся халатно, а для персональных поисковиков это больной вопрос - у них слишком простые планировщики.

Хотя определенные успехи в деле актуализации и оптимизации индексирования есть - Гугль, например, использует для оптимизации sitemap.

Приручение поисковика

Времена, когда поисковая система выдавала нейтральные результаты, ориентированные на безликую серую массу, проходят. Теперь пользователь хочет, чтобы поисковая система выдавала результаты с учетом его интересов, то есть - персонализацию. Каким образом поисковая система это обеспечит - пользователя не особенно волнует. Многие не будут возражать, если поисковая система будет не только отслеживать их поисковые запросы, клики на результатах, движение мыши в окне браузера... вплоть до составления "индивидуального поискового профиля" (анонимного, разумеется, без привязки к фамилии, месту работы и паспортным данным) - главное, чтобы результаты поиска были для конкретного человека (это, кстати, означает, что два разных человека на одном и том же поисковом запросе получат разные результаты).

Пользователь даже готов обучать поисковик (и настраивать "личную релевантность") в интерактивном режиме.

Но все это с условием, что при необходимости можно запретить использовать профиль, чтобы получить "нейтральные" (чистые, не персонализированные) результаты поиска.

Smartass AI

Не так давно Сергей Брин рассказал о ближайших планах по освоению "искусственного интеллекта". А поскольку основой Гугля является поиск, то несложно догадаться, куда этот интеллект будет прикручен. Теоретически эта штука должна отгадывать, что же хотел найти пользователь, введя какие-то слова в поисковую строку.

Практически же - никто не даст гарантии, что эта штука отгадает правильно. Потому как "все, что можно понять неправильно - понимается неправильно", согласно закону Мерфи. И, как следствие, "хуже непреднамеренной ошибки может быть только сознательное введение в заблуждение".

Но, с другой стороны, новый гугловский интеллект может стать неплохим и удобным интерфейсом между пользователем и поисковым движком в деле настройки, обучения и персонализации.

Deep Web

Некоторые сайты, как ни странно, не состоят из страниц, а строят их динамически по запросу пользователя. То есть, работают как типичная база данных (database): пользователь в формочке оформляет запрос, а система подбирает данные и выводит их на странице (я несколько утрирую). Проиндексировать такие сайты поисковый паук не может из-за отсутствия явной страничной организации.

Поэтому, по некоторым оценкам, индексируется лишь около 20% от общей "информационной массы". Но скрытые 80% (которые и есть "глубокий веб") - это достаточный стимул, чтобы изобрести и отладить механизм, позволяющий пауку туда добраться. Чем, собственно, ведущие поисковые системы и занимаются.

Только вот не факт, что пользователю станет от этого лучше. Мало того, что возрастет выдача в результатах запроса, так еще в лучших традициях web 2.0 начнется многократное дублирование информации "из первоисточников".

А что семантика?

Говоря о семантике, важно понимать, что удивительный мир Semantic Web, который нам нарисовал Тим Бернерс-Ли, отличается от поисковика, использующего семантику для поиска. Потому как семантика - это, в основном, не поисковые технологии, а агрегативные. Но использование семантики при поиске может неплохо помочь поиску. Вопрос, однако, в том, где эту семантику взять.

С одной стороны, поисковики могли бы индексировать не только html, но и семантику, но ее (семантику) не дают производители контента. С другой стороны, производитель контента не готов предоставлять семантику, поскольку непонятно, как и в каком формате ее готовы брать.

Ситуация осложняется еще и тем, что от наиболее динамичной и мобильной части создателей контента (и шума, соотвественно) семантики можно и не дождаться. К примеру, 90% блоггеров, пишущие (в среднем) по паре абзацев текста, вряд ли будут уделять внимание хорошему и корректному заполнению семантических данных, затраты на которых могут превысить затраты на саму запись. А с учетом того, что актуальность записи в блоге в среднем составляет 3-7 дней, такое занятие представляется сомнительным. Десять тегов воткнуть значительно проще.

Кстати, ни в одном блоговском движке не предусмотрено системное внесение метаинформации к записи.

Что же касается традиционных сайтов, то они более инертны, и, скорее всего, будут ждать уже работающей технологии - просто так, без конфетки, никто не будет перелопачивать большой объем контента.

Что в такой ситуации делать поисковой системе? Пытаться самостоятельно "вытянуть" семантику из индексируемого текста.
Для этого есть два метода:

- восстановление семантики с использованием структурно-лингвистических алгоритмов;
- подбор семантики по шаблону, то есть по совпадению ряда значимых слов; если ряд укладывается в шаблон - создается семантический элемент.

Семантику проще не восстанавливать, а подбирать по шаблону - это более простая и менее затратная технология. Но восстановление семантики дает более надежные и лучшие результаты.

Но на переходной период (до появления полномасштабного Semantic Web) такой подход (теоретически) может значительно улучшить поиск. А это хорошо для пользователя, поскольку дает возможность "логического" (смыслового) поиска.

Кода

Из всего вышесказанного следует одна простая мысль - надо не только совершенствовать поисковые алгоритмы, но и уделять больше внимания индивидуальному подходу к пользователю. Потому как пользователь оценивает эффективность и качество поиска не по техническим характеристикам черного ящика a.k.a. поисковая система, а по тому, насколько быстро и удобно он получит нужные ему результаты и не получит ненужные. Строить технологии нужно исходя из потребностей пользователя, а не отталкиваясь от того, что может предложить пользователю поисковая система.

И еще нужно понимать, что для дальнейшего серьезного развития поиска поисковые технологии и алгоритмы должны измениться качественно и перейти на новый уровень, а не варьироваться в виде концептуальных (и не очень) надстроек к существующей (классической) поисковой технологии.

Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин

Контактная информация :
тел. +7(98I) 7608865

Полная карта сайта