IMG	PDA версия	тел. +7(98I) 7608865
		Тысячи чертей или почему яндексоиды не бреются?

абракадабра :-)

<-предыдущая следующая ->

Очень меня напряг “учет нескольких тысяч поисковых параметров для одного документа“. Нет, вовсе не как оптимизатора. Как оптимизатору мне достаточно оказывать влияние на 3 параметра документа – относительную частоту запроса в документе, относительную частоту запроса в анкор-листе документа и вес документа, который определяется как суммапередаваемых донорами весов. Этого в принципе достаточно для успешного продвижения.

Меня беспокоят тысячи параметров как немножко программиста и слегка математика.

Начнём с того, что одним из основным принципов программирования (и математики, и философии) является принцип Бритвы Оккама:

entia non sunt multiplicanda praeter necessitatem
(не преумножай сущности без надобности)

Как мне видится, для успешного ранжирования любых документов необходимо и достаточно 4 параметра: к трём вышеупомянутым добавляется возраст документа, и применяется он в случае равенства этих трёх параметров (и для одних типов запросов возраст может идти в плюс, а для других – в минус). А дьявол порылся в точном взвешивании передаваемых ссылками весов: seo-ссылки, естественные ссылки, ссылки с трастовых и ссылки с экспертных документов – все они должны передавать вес по-разному. Ну и ещё разные типы запросов необходимо учится определять, чтобы искать немного по-разному – но это всё не имеет никакого отношения к параметрам самого документа…

Ладно, ладно, я ничерта не понимаю в поиске, а на самом деле, большинство ценных документов располагается на сайтах, сделанных криворукими вебмастерами (был тут недавно в немаленькой такой компании, головной офис которой расположен в Доме Зингера на Невском, так там сайтом рулили 6 вебмастеров, а на подтверждение прав для консоли вебмастера ушло полтора часа) и поэтому на годный документ ведёт единственная ссылка с текстом подробнее с такого же одиноко расположенного документа на богом и Гуглем (но не Яндексом) забытом сайте, а посему для качественного ранжирования столь бесценных для широких масс документов нужны цельных 245 признаков (кстати, кто-нибудь знает, почему 245, а не нормальные для любого программиста 256?). Лично я, как и Петька из анекдота, такое не только написать, но и представить не могу! А теперь заметьте, что всего-то за какие-то полгода количество необходимых для ранжирования параметров вдруг увеличились в 8 (!) раз (минимум в 8, потому что “тысячи” это как минимум две ). Да в ином документе столько букв не бывает сколько придумали параметров яндексоиды.

Хорошо-хорошо, у меня как не у гуманитария очень скудное воображение, поэтому попрошу вообразить вас такую ситуацию: господину Воложу звонит господин Медведев и с чуть меньшим чем у Путина металлом в голосе спрашивает, а почему это по запросу президент выдаётся википедия со статьей не про того президента? Вообразили? А теперь вообразите как яндексоиды будут вспешке определять какой из тысяч параметров подкрутить, чтобы правильный президент в топе был. Вот и у меня не получается. Нет, звонок Медведева Воложу – запросто, а быстрый поиск и исправление ошибки – ну никак.

Гугль, к слову, с задачей выбора правильного президента в вики справляется на раз. Наверное потому, что PageRank вычислять умеет

Ну и на загрузку опять немножечко математики. Если вам не хватило 1000 параметров, чтобы выбрать и отранжировать первую тысячу документов из всех документов, содержащих слова из запроса пользователя, то вы придумали ровным счётом ничего не значащую тысячу параметров – они совпадают у очень многих документов, а это значит, что “учёт нескольких тысяч поисковых параметров для одного документа” – это не более чем страшная сказка на ночь для ребёнка начинающего сеошника.

Disclaimer: данная заметка ни в коем разе не является попыткой учить кого-либо писать отличный поиск, но является просто выражением удивления, почему Володька не сбрил усы. Правильной бритвой

Upd: комментарий от Ильи Сегаловича.

Это не те “параметры”, которые “признаки” или “свойства” (features), а те параметры, из которых строится модель.

Если модель, например, полином второй степени (то есть в качестве параметров используется и признаки и все их произведения) то число параметров модели пропорционально квадрату числа признаков. Чем длиннее модель (чем в ней больше используется параметров) тем точнее можно построить ранжирование или угадать класс объекта или угадать оценку и тп. Однако сложные, длинные модели очень дорого “обсчитывать” по ресурсам.

В этом релизе мы впервые для себя применили очень длинную модель в ранжировании. Для этого пришлось многое переписать.

А признаков у нас, и правда, несколько сотен, и их число и рост их числа, вы совершенно правы, тщательно контролируется и идет конечно же не так быстро.

Written by Артём Шкондин

Создание эксклюзивных сайтов, юзибилити анализ и бесплатный анализ под запросы основных поисковых машин

Контактная информация :
тел. +7(98I) 7608865

Полная карта сайта