Над чем можно поэкспериментировать и как это лучше сделать
Итак, мы выяснили основные моменты по проблеме дублирования контента. Принципы работы фильтра (в частности Яндекса) достаточно просты, однако определить в точности, как учитываются различные факторы достаточно сложно.
Итого, что нужно проверить экспериментальным путем:
- Как дубликаты фильтруются в момент выдачи? По какому принципу? - Метод «описательных слов» - как формируется выборка слов и как сравниваются вектора? - По какому принципу выкидываются «полные дубликаты»?
Можно предложить следующий вариант:
- Создаем один сайт с оригинальным контентом. Немного спамим его, чтобы он проиндексировался. Создаем далее некоторое количество клонов (дубликатов). Клоны можно сделать различным образом: перемешать слова первоисточника, сделать рерайтинг, взять отдельные абзацы. Клоны можно разместить как на отдельных сайтах (на нормальных и обычных хостингах) так и на внутренних страницах сайтов. Можно частично проспамить клоны. Потом оцениваем результат умозрительно и делаем выводы. - Определить принципы, по которым фильтруются «нечеткие дубликаты» можно по методике, описанной выше, т.е. просто путем анализа отфильтрованных сайтов.
с cnews
|