Поиск настоящего, Российском семинаре по оценке методов информационного поиска

Забиваю на днях в яндекс фразу "избалована болонка", чтобы найти текст детского стишка, продекламированного накануне моим парикмахером. Нужная ссылка находится лишь на второй странице выдачи, зато через неделю на входе в ЖЖ блок директа поражает воображение объявлением "Нужна болонка? Поиск болонок на досках Avito. Эффективно. Без регистрации". И вот уже мы со Златой заводим досужий треп о том, "до чего техника дошла", и как поиск своего столетней давности твита о порнографии может разрушить семью.

Похожие разговоры о стремительно поумневших в последние годы поисковых машинах звучат вокруг все чаще и чем-то напоминают разговоры об НЛО: рекламщики и SEO-специалисты как некая секта "свидетелей" с успехом торгуют историями о сияющих объектах в небе, которые почти всем случалось видеть, но мало кто представляет, что там у них внутри.

Люди, непосредственно занятые в разработке и обучении поисковиков, не выступают на киборифах, не проводят пресс-конференций - короче, не бьют себя в грудь. Зато каждый год они узким кругом "посвященных" собираются для тестирования своих наработок и обкатывания алгоритмов на Российском семинаре по оценке методов информационного поиска (РОМИП). В этом году организаторы РОМИП "рассекретились": Игорь Некрестьянов (НИИ математики и механики СПбГУ), Илья Сегалович (сооснователь и техдиректор "Яндекса"), Александр Антонов (руководитель департамента поисковых систем корпорации "Галактика") и Сергей Татевосян (руководитель "Поиск КМ.Ru) ответили на вопросы "Вебпланеты" о семинаре и актуальном состоянии дел в отечественном поиске.

"Каждый год с друзьями..."

Идея РОМИП возникла в 2001 году в беседах Игоря Некрестьянова и Ильи Сегаловича. Речь шла о том, чтобы организовать русский аналог TREC - американской конференции, посвященной изучению подходов к текстовому поиску в больших массивах информации.

К концу 2002-го в кулуарах Всероссийской конференции по электронным библиотекам (RCDL) предложение обрело новых сторонников - Максима Губина ("Кодекс", а затем ask.com), Бориса Доброва ("УИС РОССИЯ"), Павла Браславского (тогда - научного сотрудника Института машиноведения УрО РАН, сейчас - преподавателя УрГУ и руководителя "Яндекс-Екатеринбург") - и уже через несколько месяцев начала воплощаться в жизнь.

В своем "манифесте", опубликованном в январе 2003-го, идеологи РОМИП отмечают, что ключевым двигателем развития информационного поиска должна стать независимая оценка поисковых алгоритмов, которая позволила бы привести к единому знаменателю такие субъективные параметры, как "релевантность" или "удовлетворенность пользователя".

На тот момент существовал ряд международных инициатив с теми же задачами, но отдельные предложения о включении русскоязычного поиска, например, в программу TREC не были поддержаны - хотя специфика русского языка связана с дополнительными - сложными, а потому особенно интересными - проблемами. Таким образом РОМИП стал первой площадкой, объединившей научных исследователей и разработчиков промышленных поисковиков для профессиональной экспертизы разных подходов к поиску по русскоязычной информации.

Как "считают" поиск

Участники семинара пробуют применять разные методы для решения одной и той же задачи: в 2003-м это был только классический поиск по запросу в коллекции документов с narod.ru, сегодня участники РОМИП могут посоревноваться, к примеру, в поиске ответов на запросы-вопросы или поиске среди изображений (всего - 13 различных задач). Ответы оценивают независимые эксперты - они не знают, какая система вернула какие результаты.

Этот процесс растягивается на 8-10 месяцев и заканчивается оффлайновым семинаром в рамках RCDL, на котором участники делятся опытом и обсуждают результаты тестирования. Итоги работы семинара публикуются в виде трудов РОМИП и доступны всем интересующимся.

"За 8 лет существования РОМИП в нем приняли участие не только представители ряда академических организаций, но и многие представители крупных коммерческих компаний, связанных с информационным поиском. При этом РОМИП не соревнование, а общий полигон, где каждый может ставить свои эксперименты. Такой подход позволяет общаться и сотрудничать в сфере развития технологий, даже тем, кто конкурирует вне РОМИП", - рассказывает Игорь Некрестьянов.

Действительно, в случае с РОМИП "волки" и "ягнята" собрались на одном водопое: в списке участников семинара, наряду с монструозным "Яндексом", фигурируют и наступающий ему на пятки Поиск@Mail.Ru, и неожиданно "грянувший" поиск HH.ru, и только готовящийся к запуску "Поиск KM.ru".

"Между мелкими игроками тоже есть конкуренция, абсолютной открытости ни у одного разработчика быть не может. Но все они понимают, что без взаимодействия и обмена опытом шансы на выживание резко снижаются. Да и гигантам выгодно поощрять такой обмен между этими компаниями, поскольку покупка наиболее продвинутых команд и отдельных специалистов не только повышает конкурентоспособность, но и избавляет от возможных противников в будущем", - комментирует Александр Антонов.

Алгоритм алгоритму - кто?

Онлайн-ресурсы, развивающие собственный поиск, решают разные задачи: одни, нарастив достаточно массивную базу информации, пытаются сэкономить на лицензировании и обслуживании чужого поискового движка, а вместе с тем разработать алгоритм более адекватный нуждам своего контента и своей аудитории; другие, преуспев в своей тематической нише, замахиваются на конкуренцию со "всеинтернетными" поисковиками. Ведет ли сегодняшнее обилие новичков к совершенствованию всей поисковой отрасли или, напротив, это бессмысленное растрачивание ресурсов? Попытки играть на поле поисковых махин масштаба "Яндекса" и "Гугла" - молодеческая наивность или источник новых методов, более эффективно справляющихся с поиском информации в Интернете?

"Обработка больших информационных потоков, идущих с сайтов, число которых тоже растет, разнообразие форматов документов, борьба с развивающимся поисковым спамом, возрастающее количество запросов пользователей – все это требует мощного и сложного (а значит, дорогого) аппаратного и программного обеспечения. Серьезная и непрекращающаяся конкуренция на этом рынке работает на пользователей, заставляя лидеров выдавать новые сервисы, улучшать качество и скорость работы существующих услуг, причем основные, массовые сервисы обязаны быть бесплатными. Иначе говоря, поисковые интернет-компании зарабатывают на производных от основных услуг, причем, не только на первой производной (контекстная реклама), но и на второй (поисковые услуги для сторонних сайтов, которые сами дают рекламу), - рассуждает Александр Антонов, -

Естественно, для того, чтобы выйти на приличный заработок на производных, должен быть предложен громадный объем основных услуг. Поэтому для того, чтобы выйти на рынок поисковых услуг и начать зарабатывать, потеснив монстров, необходимо, как минимум, коренное улучшение качества поиска. Но даже этого мало, нужно, чтобы большое количество пользователей было недовольно существующим качеством и начало искать альтернативу".

По его мнению, места на этом рынке есть, и задача появляющихся сервисов - совершить прорыв на узком участке, а затем уже начинать подъем на "большом" рынке. "Именно это и делают сегодня локальные поисковики", - резюмирует он.

Это, впрочем, не означает, что написанный "с нуля" поиск по сайту органически перерастает в "большой" веб-поисковик. "Для организации поиска по определенной отрасли знания обычно используется хорошо структурированный набор документов, искать по которому гораздо проще. У "большого" Интернета свои законы распределения, - объясняет руководитель проекта "Поиск KM.ru" Сергей Татевосян, - Структура данных в Интернете задана не жестко, она размазана. Пользователь спрашивает "Спб, расписание электричек" - поисковик должен понять, что от него требуются документы с сайтов, относящихся к Санкт-Петербургу, или данные из соответствующей "параллельной" базы. Задача состоит в том, чтобы максимально хорошо выявить эту структуру и правильно разложить по ней данные - то есть взять зашумленную информацию и автоматически ее структурировать".

Александр Антонов, в свою очередь, предлагает не разделять поисковики, обслуживающие отдельные ресурсы с обслуживающими отдельные ниши:

"Можно назвать подобные сервисы "мультилокальными". К ним относится, например, Flexum, поскольку он отличается лишь тем, что предоставляет возможность формирования ниш своим пользователям, делая ставку на то, что им удастся нащупать выгодные направления. Сюда же относится и вертикальный поиск Rambler (только ниши выбирают не юзеры, а специалисты)

Понятно, что эти сервисы должны разрабатывать и применять новые методы поиска, поскольку они только завоевывают аудиторию, повышая качество в попытке выиграть у «глобальных» сервисов хотя бы на очень ограниченной территории. Из таких методов можно назвать определение атрибутов объектов в тексте (HH.ru, Ktotam.ru, RCO, "Интегрум"), использование синонимов и тезаурусов (УИС «Россия»), определение ключевых понятий выборки – инфопортретов ("Галактика-Зум" и "Инфострим"). Обмен технологиями между компаниями и специалистами идет (может, недостаточно интенсивный), немалую роль в этом играют специализированные конференции и внерыночные организации, например, РОМИП".

Кто владеет данными, тот владеет поиском

Так всё-таки, может ли сегодня возникнуть "убийца Яндекса", или вся дальнейшая история поиска будет связана с открытием и освоением новых ниш, задающих масштаб потенциальных лидеров?

"Дело не столько в масштабах производства - в конце концов, кластер для мирового поиска уже можно арендовать на пару месяцев причем не очень-то и дорого (Cloudera) - сколько в данных, - говорит Илья Сегалович, - Данные - золото. И у нынешних монополистов эти данные уже есть. Причем я имею в виду в первую очередь данные о поведении пользователей: поисковые запросы и сесии и т.д."

Сергей Татевосян, работающий над проектом, который как раз таки метит в "новые гуглы", согласен с Сегаловичем, но ведет к извечному сюжету о Давиде и Голиафе:

"В свое время Google тоже был мал, а Yahoo велик, в Рунете произошла примерно та же история с "Яндексом" и "Рамблером". Штука в том, что у больших игроков есть огромный опыт эксплуатации нужного "железа", большие накопленные истории моделей поведения пользователей. Например, создать качественный сервис исправления опечаток без большой истории запросов очень трудно. Вообще, многие знания, используемые поисковиками на современном этапе, получены из истории поведения пользователей. Все, что не знаешь, заменяешь статистикой. Это медленный подход, но он работает. При отсутствии прорывных технологий пользуешься им, и это движение вперед, хотя и не такое быстрое, как хочется".

Релевантный универсум

Содержательно среда веб-поиска изменяется еще быстрее, чем его методология, определяя векторы развития рынка и способы организации поиска как сервиса. Так, с нарастанием в Вебе массы мультимедийного контента появилась сложная задача его распознавания и сортировки.

"Мультимедия в массе своей сейчас ищется по тексту – ссылки, тэги. Идет работа по распознаванию изображений, поиску по тексту в видеофрагментах, но это еще не промышленные технологии больших поисковиков. Здесь работы – непочатый край", - говорит Сергей Татевосян.

"Яндекс" уже несколько лет как навалился на этот "край" всей своей мощью. "Поисковые системы наращивают алгоритмическую обработку этого контента по содержанию: нахождение дубликатов, вычисление основного цвета, выделение лиц, отличение фото от рисунков - это то, что касается поиска изображений. В музыке решаются задачи идентификации записи, нахождения подобных мелодий. В видео - все тот же поиск дублей, в том числе с учетом фрагментов, выделение лиц, сегментация на эпизоды. Но интерфейс поиска все равно остается текстовым и долго еще будет таким, поэтому огромная доля усилий, в том числе и результаты решения описанных выше задач, тратится на более полное и точное текстовое аннотирование мультимедийных объектов, - рассказывает Илья Сегалович,-

Например, поняв, что две картинки с разным разрешением на разных сайтах являются полудубликатами, поисковая система может приписать текстовые теги одного изображения другому, более высококачественному. Или обнаружив видеозапись, проаннотированную по-испански испаноязычным пользователем, можно сделать автоматический перевод аннотации и выдать ее англоязычному пользователю по англоязычному запросу".

Отдельная задача - построение алгоритма "универсальной" выдачи, грамотно выстраивающей разные типы информации. "Параллельный поиск ((ТМ) Yandex) или "универсальный" поиск - в том его понимании, что страница с ответом содержит в правильной пропорции и правильном расположении блоков наиболее релевантные ответы от вертикалей - вполне разрешимая задача. Для этого поисковым системам уже сейчас вполне достаточно знаний и умений. Основная проблема сейчас даже не в алгоритмитмах совместного ранжирования, а в корректной постановке эксперимента и в точных измерениях. Измерения работы поиска в целом - очень нетривиальная задача", - поясняет Сегалович.

Хотел "болонку" - получи болонку

Еще один "досужий" вопрос, постоянно поднимаемый неспециалистами - "когда, ну когда поиск начнет "понимать" человеческий язык?"

"Чтобы воспользоваться этим "понимаем человеческого языка", нужно иметь: а) запросы, написанные на нем; б) документы, написанные на нем. Сейчас же мы имеем: а) телеграфный стиль запросов типа «Москва принтеры купить» (где здесь «человеческий язык»? :-)); б) веб-документ, у которого в заголовке будет написано «продажа принтеров», а на странице about, что компания находится в Москве. Никакие правила русского языка as is здесь не помогут, - отвечает Сергей Татевосян, - Семантика, то бишь вычленение смысла, здесь может помочь только как один из этапов понимания, чего же человек хочет на самом деле. А семантика в чистом виде хороша при поиске по литературным текстам".

Илья Сегалович предлагает не усложнять: "Нас уже не удивляет, что поисковик понимает, когда мы пишем с опечаткой. Поисковые системы неплохо угадывают сайты компаний, даже если мы очень примерно помним, как они называются. Следующие шаги будут в сторону еще большего понимания пользователя. Можно называть это семантическим поиском, если угодно".

Другими словами, на деле реализация "понимания" пользователя - это не столько оттачивание точности лексических формулировок и их обработки, сколько обобщение опыта работы с формулировками неточными.

"Часто пользователи полагают, что поисковик является волшебной машиной и сам найдет то, что у человека в голове. Нет, не найдет. Реальный пример: по запросу «машины» человек хочется получить всех дилеров Mazda в Санкт-Петербурге. В этом случае выдачу можно назвать плохой и неофильтрованнной. А можно сказать человеку, что он нашел ровно то, что искал. Прогресс в этой области невозможен как одномоментный качественный прорыв, а обеспечивается за счет сбора статистической информации о поведении пользователя", - рассуждает Сергей Татевосян.

Не шкаф и не музей

Возвращаясь к своей истории с болонкой, я, конечно, задала собеседникам животрепещущий вопрос о работе поисковиков с персональными данными, утекающими в общий доступ с бумом социальных сетей. Они уверяют, что о создании бомбы замедленного действия в виде многолетнего и многоуровневого сбора пользовательской информации, которая затем была бы как-то "опасно" обобщена, речи пока не идет.

"Соц.сети есть своего рода социальная почта, столь же закрытая для поисковых систем, как и обычная персональная электронная почта. Поэтому подавляющая масса этих данных проходит мимо поисковиков. Лишь профили пользователей, да и то не всех сетей, доступны поисковым системам. Они, конечно же, полезны при поиске", - говорит Сегалович.

По его мнению, на основе личных профилей мог бы хорошо работать поиск "экспертов" в той или иной области: сантехник, няня, специалист по вкладам в банке: "Из-за полной закрытости страдает пользователь, который часто не может найти нужных людей. Но не будь этой закрытости и защищенности, он бы в социальную сеть не пришел ..."

Что касается эксплуатации поискового поведения как персональной характеристики, это - обратная сторона медали под названием релевантность, резонно замечает Сергей Татевосян: "Данные пользователя - это самое ценное в Интернете, чем больше сервис знает о пользователе, тем более релевантную выдачу - и рекламу как вид выдачи - он сможет предложить".

Помощь зала

"Обсоциаливание" интернет-пользования в приложении к интернет-поиску интересно и с точки зрения бизнеса на краудсорсинге. Могут ли попытки привлечь пользователей для индексации или фильтрации контента выйти на промышленный уровень?

"Интернет слишком велик, документов слишком много. В том и задача, чтобы человек, не просматривая вручную тонны документов, смог сделать себе в этом хорошего помощника, который сам решит эту задачу. Поэтому поисковик - это то, как сами разработчики видят и понимают язык, структуру документа, поведение пользователя. Социальный поиск может помочь создать хорошие алгоритмы", - считает Сергей Татевосян.

"Любая пользовательская активность полезна с точки зрения системы, которая эту активность анализирует и использует. В том числе полезны и "созданные" (точнее настроенные) пользователями "поисковые системы". Важно, чтобы отношение сигнал/шум не становилось слишком малым. Или, иными словами, чтобы подобные сервисы использовали не только оптимизаторы, но и реальные пользователи. И чтобы их было достаточное количество" - рассуждает Илья Сегалович.

"Я сам никогда не настраивал себе такие поиски, и у меня нет ни одного знакомого, который бы пользовался таким сервисом. Но кто-то же ими пользуется? Так что может быть это и в чем-то правильная штука", - добавляет он.

Университеты

Оптимизм (но не энтузиазм) ромиповцев заканчивается на границе поискового бизнеса и поисковой науки: последний учебник по информационному поиску был издан в 70-х, зарубежные пособия не переводятся; ни в крупнейших, ни в профильных государственных ВУЗах (мехмат и ВМК в МГУ, МФТИ, МВТУ, РГГУ) нет ни факультетов, ни кафедр информационного поиска.

"Выпускники учебных заведений не изучают систематически современные методы анализа данных: студенты в ВУЗ-ах не знают, что такое "машинна опорных векторов", "BM25", "биграммная языковая модель", "Байесовская классификация", - этого не преподают, и не спрашивают на экзаменах", сетует Илья Сегалович.

"Яндекс" начал решать проблему за себя и всю отрасль вместе взятую, открыв Школу анализа данных и информатики. "ШАДИ - по сути наша магистратура с потоком в 80 человек при МФТИ, МГУ и ГУ ВШЭ, где в том числе преподают информационный поиск. Мы также спонсируем перевод учебника по информационному поиску на русский язык, проводим научные конкурсы "Интернет-Математика", стимулировали написание учебных программ по информационому поиску, организуем вместе с РОМИП "Российскую летнюю школу по информационному поиску", - перечисляет Сегалович.

И в ШАДИ, и в летней школе РОМИП могут поучиться студенты и аспиранты со всех концов России (в первом случае для них с помощью ГУ ВШЭ организуют общежитие). Первая летняя школа прошла в Екатеринбурге в сентябре 2007 года (кстати, при поддержке Google, хотя компания и не приняла приглашение к участию в РОМИП), собрав более 60 участников, а в прошлом году уже более 100 человек приехали в Таганрог.

Собственно, сам РОМИП является одновременно и школой, и практикой для молодых специалистов. Игорь Некрестьянов говорит об уникальной возможности "испытания масштабом" - поскольку часто индивидуальные исследователи и даже научные коллективы не могут позволить себе создание серьезных тестовых коллекций. Новички на РОМИПе могут позаимствовать у коллег библиотеки и продукты, чтобы не писать алгоритм с нуля. А помощь в оценке экспериментов семинара позволяет студентам и аспирантам компенсировать расходы на собственное участие в нем (сумма взноса зависит от того, как много результатов участника оценивалось).

В любом случае готовые "люди для поисковиков" не выходят из университетов, потому что необходимые в этой области знания не укладываются в рамки конкретной профессии, напоминает Сергей Татевосян. "Специалисты нужны самые разные. Поисковик - это поисковые алгоритмы, скорость отработки запроса (скорость алгоритмов и подбор правильного железа), расчет нагрузки на сеть, расчет электрической мощности, расчет экономической целесообразности. В общем, как в «Укрощении огня»: «Для построения таких ракет нужно создать полностью новую промышленность!» Да, надо. В этом и состоит задача".

Полный список статей / Поиск настоящего / Версия для печати / translit / абракадабра :-)