Уязвимости новой технологии гугла.
Новогодний подарок от гугла, именуемый “вычисление мусорных документов в информационно поисковых системах основанных на фразах” (перевод , вольный с далекого оригинала) наделала много шума на всех оптимизаторских форумах.
Отдельные личности, пользуясь моментом, провозглашают смерть дорвеев и маркова в частности, и всей оптимизации в целом. И как бизнесмен, я обязан их поддержать, так как давно известно: чем меньше конкурентов - тем больше прибыль..
Но в честь праздников хочу сделать небольшой подарок и запалить темы.
Итак, как вы возможно уже знаете, гугл кардинально меняет технологии хранения и поиска информации. От индексации по отдельным словам (как это было принято в прошлом веке) гугл постепенно двигается к индексации по фразам. Сразу хочу заметить, что под фразой имеется в виду не целое предложение, а просто достаточно устойчивое словосочетание или даже отдельное слово.
В целом, с точки зрения развития поисковых технологий, это большой шаг вперед который дает огромные возможности. По каким то причинам, разработчики Google решили что наибольшие возможности алгоритм получит в области борьбы со спамом. Наивные...
В целом (еслиб эта заметка писалась в стиле “дорвеи для чайников”) новый алгоритм можно описать так:
- 1. Google индексирует все доступные ему документы.
- 2. По окончании анализа этого океана информации, все фразы, которые встретились более Х раз, помещаются в специальную базу. Так же в этой базе накапливаются иные важные данные, в частности статистика совместного использования разных фраз в одном и том же документе (с помощью чего может оцениваться релевантность разных фраз).
- 3. Используя статистические методы гугл создает базу спам документов.
- 4. В дальнейшем, попавшие в базу УРЛы, понижаются в выдаче или используются для дальнейшего анализа спама.
Собственно самый важный пункт, который волнует каждого из нас - пункт номер три...
Как поисковик способен определить, что документ является спамом?
Дело в том, что нормальные информационные документы обычно охватывают ограниченное число тем, используют довольно скромный словарный запас. В отличии от спамеров, которые обычно используют большое количество тематических (а в отдельных случаях и разнотематических) кейвордов на одной странице.
Возможно некоторые из вас захотят сказать “Чушь, я не испытываю никаких проблем, гугл хавает и все пучком”... И хорошо, ибо вполне возможно что и в дальнейшем все будет продолжаться точно также.
Дело в том что поисковые системы стремяться делать все абсолютно автоматически используя различные статистические методы..., точно так же как и крупные спамеры, у которых достаточно ресурсов чтобы влиять на статистику. Эффект Google bombing - проявляется не только в изменении позиций сайта путем проставления ссылок с нужным текстом, но и в изменении тригеров естественного наращивания ссылок (который спамеры успешно обходят), и в изменении релевантности слов (фентермин и казино - братья навек) и т.д.
Поэтому по настоящему массовое клепание статистически схожих страниц так же может на корню сломать планы гугла..
Ну а для тех кто нифига не понял, обьясняю еще проще. Раньше, одним из наиболее важных критериев ранжирования была плотность ключевых слов (keyword density). PhraseRank (так буржуи обозвали новый алгоритм) - это тематическая плотность фраз. Чем она больше - тем с одной стороны лучше, но с другой стороны тем выше вероятность что вас примут за спамера. Как этим пользоваться - думаю знает даже самый неопытный оптимизатор.
SEO blackhat google patents phraserank |