Рынок поисковых сервисов в России и США состоит из "Большой Четверки" и всех остальных. В России к Большой Четверке относят Яндекс, Google, Поиск@Mail.ru и (уже скорее по инерции) Рамблер. Совокупная доля переходов, раздаваемых этими системами на сайты Рунета, составила в апреле 2009 года 96,5%.
В США "Большая Четверка" – это Google, Yahoo!, MSN и Ask.com. Совокупная доля рынка у этих поисковых систем – 98,32% (по статистике Hitwise, которая замеряет количество поисковых запросов, проходящих через тот или иной сервис.
Казалось бы, каковы при такой расстановке сил перспективы новых поисковых систем? Однако, они появляются. В Америке поисковые системы зарабатывают очень хорошие деньги на контекстной рекламе. Подсчитано, что если миноритарная поисковая система сможет получить 1% рынка, её существование окупится и она начнёт приносить прибыль.
Другой аргумент для американских поисковых стартаперов – возможность разработать инновационную поисковую технологию и продать свой проект члену "Большой Четверки". Таких сделок свершилось уже немало, а будет еще больше.
Помимо этих, существует еще множество мотивов создания поисковых систем. Например, мнение, что гегемония Google вредит англоязычному Интернету (а Яндекса - русскоязычному). Но мы не будем рассматривать эти мотивы. Гораздо интереснее будет обзор технологических изысканий российских и западных поисковых компаний. Что они считают слабыми местами популярных поисковиков и как пытаются их компенсировать в своих разработках? Какие альтернативные принципы поиска в интернете изобретают и реализуют? Какие дополнительные функции добавляют?
В нашей статье мы рассмотрим особенности этих миноритарных поисковиков в России и США. В первую очередь нам будет интересно, на какие поисковые технологии, не используемые популярными сервисами, они делают акцент, на каких основаниях предлагают себя в качестве альтернативы "гигантам".
Далеко не все поисковые карлики пытаются вырасти за счёт технологий. Некоторые пытаются привлечь пользователя сервисом, дизайном, оригинальным представлением информации. Поисковая система Growyn заявила, что все её доходы пойдут на помощь окружающей среде. Cuil пообещал своим пользователям не "следить" за ними, не сохранять их персональные данные, как это делает Google (известно, что многие пользователи считают использование Google поведенческих факторов для корректировки качества поиска посягательством на личную жизнь). Где-то между технологиями и сервисом лежат разные способы организации поисковых результатов, например, вертикальный и универсальный поиск.
Значительная доля новых поисковиков – нишевые сервисы: поиск автомобилей, конференций, и так далее.
Наконец, модный тренд – социальные поисковые системы. Их разработчики исходят из того, что алгоритмически добиться идеального качества поиска невозможно, его должны настраивать живые люди. Реализуется этот принцип по разному. Где-то исклбючительно сообщество добавляет сайты в индекс и определяет их ранжирование, где-то люди только помогают алгоритму.
Плюшевые убийцы
Cuil.com
Cuil.com был запущен летом 2008 года двумя бывшими сотрудниками Google, и немедленно начал сравнивать себя с ним. Было заявлено, что Cuil индексирует в три раза больше страниц, чем Google, что, в отличие от последнего, система не будет собирать данные о людях и хранить историю поисков. Cuil сейчас называет себя самым большим поисковиком в мире.
Основные возможности системы, согласно её описанию, такие:
Поиск по категориям – в правой стороне открывается панель "Explore By Category" со списком связанных с заданным пользователем запросами. Разработчики пишут, что это особенно полезно, когда вы точно не знаете, что ищете или как искать (то есть когда задается слишком общий запрос)
Всплывающие определения. Если задержать мышь над какой-то из вышеупомянутых категорий, во всплывающем окне появится словарное определение.
Поисковые подсказки, предложения и категории выстраиваются в табы
Навигационные саджесты – при навигационном запросе подсказка поисковой строки сразу показывает пользователю URL наиболее релевантного сайта, на него можно перейти, минуя выдачу.
Но, наверное, самая забавная фича Cuil – что описанные возможности не всегда работают, даже если вводить те же запросы, что на скриншотах в "помощи" по системе. А уж самостоятельно подобрать такой запрос, который позволит насладиться талантами Cuil, весьма сложно. Powerset.com
Осенью 2006 года проект Powerset.com объявил, что приступает к разработке уникальной поисковой технологии, которая станет "убийцей Google". В феврале 2007 Powerset заключил договор с исследовательским центром Palo Alto Research Center (PARC), принадлежащим компании Xerox. По условиям договора, Powerset получил право на использование технологий PARC, связанных с машинным распознаванием человеческого языка запросов. В 2007 году компания провела платную презентацию своих возможностей инвесторам и всем желающим, а в 2008 году была куплена Microsoft.
Визуализаторы
TrackThisNow.com
TrackThisNow отображает результаты поиска на Google Maps. В реальном времени отслеживается местоположение новостей из 236 стран мира. В качестве запроса нужно ввести тему новостей и выбрать блок стран, на которых нужно отобразить результаты. Прочитать найденные новости можно, кликнув по значку на карте.
2itch.com
2itch.com показывает на картах Google магазины, заведения и другие коммерческие организации, открытые 24 часа в сутки. База поиска - 4000 американских предприятий, в основном, в крупных городах; индекс пополняется по принципу социального поиска 0 свою компанию можно добавить через специальную форму. Поиск осуществляется по почтовому индексу.
Метапоиск с рюшечками
Soolve.com
Soolve – это метапоисковик с интересным интерактивным интерфесом. По экрану разбросаны логотипы поисковых сервисов, подключенных к метапоиску. Их набор можно изменить в настройках. Если ввести запрос в поисковую строку, около каждого логотипа появятся связанные с ним ключевые слова, наиболее часто используемые при поиске в этой системе. Если нажать на кнопку поиска, система отредиректит на выдачу по заданному запросу избранной поисковой системы. Сама Soolve предлагает выдачу из одной-единственной наиболее релевантной ссылки. В "помощи" написано, что поисковая система – кроме прочего, отличный инструмент подбора ключевых слов. У дорвейщиков она, должно быть, ценится.
Worio
Worio обещает "показать всё, что вы упускаете, ища в обычном поисковике": на странице выдачи собираются результаты Yahoo!, Google и Live.com, плюс самостоятельно подобранные фото, новости, блоги. Иными словами, очень насыщенный универсальный поиск.
Поисковик для негров
RushmoreDrive.com – запущенный в апреле 2008 года поисковик для "чёрных".
"Google ранжирует сайты в зависимости от того, как часто по ним кликают в выдаче и ссылаются на них, а делает это в основном белая аудитория. Так и получается, что Google – поиск для белых", - говорит Джонни Тейлор, генеральный директор проекта. RD в ранжировании отдает приоритет тем сайтам, которые заявляют о своей культурной или этнической принадлежности к "черным" группам. Новости он ищет по "черным" медиа и блогам. Например, вводя запрос "Witney", негр с большей вероятностью, чем белый, ищет информацию о борце за гражданские права Уитни М. Янге. Есть запросы, которые для черных и для белых значат разные вещи (сюда же относится сленг). Зарабатывает RD на рекламодателях, которым нужны чернокожие потребители, среди них есть те, кто надеется найти покупателей, следующих принципу "лучше приобретать у своих".
С претензией на технологию
Mufin.com анализирует музыкальные файлы
Mufin.com – поисковик, созданный под руководством Карлхайнца Бранденбурга, "отца mp3". На основе анализа тех песен, которые нравятся пользователю, система подберет похожие композиции. Она не ориентируется на название песни, исполнителя, альбом, жанр – то, с чем оперирует большинство обычных поисковиков по музыке. Анализируются около 40 параметров мелодии: ударные, стиль, интенсивность звука, голос, речь, темп, окраска звука, инструменты, громкость.
Информация сразу в SERP
iSeek.com объявлен поисковиком года редакцией блога Altsearchengines.com об альтернативных поисковиках. Руководство iSeek утверждает, что его пользователи занимаются не поиском, а targeted discovery (TM) (можно перевести как "целенаправленное исследование"): "Мы используем продвинутые технологии в лингвистике, искусственном интеллекте и когнитивные технологии, чтобы сделать более релевантный и полный поиск". Поисковая выдача каждый раз запоминается, эти данные используются для уточнения других поисков. Система отдельно извлекает людей, темы, места, даты, факты и связь между ними. Уже в выдаче, не переходя по ссылкам, можно получить много информации по своему запросу. iSeek понимает запросы на естественном языке.
Wolfram Alpha, поисковик–"Википедия"
Запуск Wolfram Alpha ожидается в мае 2009. Но журналистам уже показали демо-версию. По результатам ознакомления с ней главный редактор SearchEngineLand Дэнни Салливан высказался о "Вольфраме" как о воплощении "новой поисковой парадигмы". Создатели называют его "вычислительной машиной знаний", а Салливан – просто "фактологической поисковой системой" или "отвечающей поисковой системой".
Его особенность в максимально информативной выдаче. Причём информация там содержится не только актуальная на настоящий момент, но еще и, например, в историческом развитии. Система умеет сравнивать разные массивы информации, собирать статистические данные, строить графики, и т.д. Имеет механизм привязки ответа к местонахождению пользователя, определенному по IP.
Часто выдача кажется избыточной, а сам поисковик, в связи с этим, скорее игрушкой. "Вольфрам" нужно использовать не как поиск, а как энциклопедию, искать ответ не на конкретный вопрос, а осуществлять ознакомление с некоей темой.
"Вольфрам" не получает данные, индексируя Веб и извлекая информацию. Он работает с источниками справочной информации. В штате содержатся 150 человек, которые собирают справочные данные и проверяют их верность. Например, правительственные учреждения выпускают отчёты с разнообразными статистическими данными, а работники "Вольфрама" добавляют их в свой сервис. Таким образом, "Вольфрам" пытается решить проблему доступности поиску "глубокого веба".
Неуловимый Джо В начале 2008 года запустился "стелс-поисковик" Blekko.com. Вернее, запустился его сайт, состоящий из картинки и разделов "пресса" и "работа". В первом уже достаточно много ссылок на публикации. "Секретный поисковик" уже получил и инвестиции. Baseline Ventures вложили в него $2 миллиона.
Blekko создал Рич Скрента, автор первого компьютерного вируса и сооснователь каталога DMOZ. Скрента не очень активно рассказывает об особенностях поисковика, обещая, что в 2009 его запустят, и публика сможет сама всё увидеть. Скрента сообщил только, что ему не нравится идея PR, которым Google развратил весь Интернет, научив сайты ссылаться друг на друга не от чистого сердца, а из посторонних соображений.
Глубокий Веб
Глубокий веб как геном
DeepDyve.com - поисковик по глубокому вебу, созданный двумя био-информатиками, которые участвовали в расшифровке генома человека. В геноме генетическая информация зашифрована при помощи разных комбинаций четырех символов. Аналогично, алгоритм Deep Dyve анализирует не ключевые слова, а разные комбинации слов. Он подсчитывает количество разных комбинаций символов в документе и и при помощи статистических техник вычисляет "информационное влияние" этих комбинаций на документ. В сущности, этот алгоритм пытается извлечь смысл всего документа и использовать для ранжирования в первую очередь его, а не текст, анкоры ссылок и так далее. "Вы же ищете не слова, а определенное содержание", - говорит СЕО проекта Уильям Парк. Он считает, что поисковые технологии в будущем отойдут от принципа ключевых слов.
За 45 долларов в месяц предлагается "продвинутая" версия поисковика. В ней, например, есть кнопки "more like this" - в качестве запроса используется полный текст документа, это дает интересные результаты.
DD не объявляет себя "убийцей Google"; это, по словам создателей, инструмент для серьёзных и вдумчивых пользователей, поставивших себе какую-то нетривиальную поисковую задачу.
Люди из глубокого веба Pipl.com – поиск людей. Обязательное поле – фамилия, дополнительные – имя, город проживания, штат (регион), страна. Страну система определяет автоматически, по IP. Выдача состоит из блоков: профайлы в соцсетях (отдельно развлекательных и деловых) и IM, публикации в СМИ, фото на фотохостингах, упоминания в блогах, факты, извлеченные из поиска, статьи из информационных банков (хранилищ, архивов), и т.д.
Уoname.com использует другой принцип, но онем можно будет прочитать только в расширеной версии рассылки "Ашманов и Партнеры"