Типичная
ситуация: бизнес прокручивает десятки и десятки A/B-тестов посадочных
страниц в течение года, и многие из них «побеждают». Некоторые тесты
дают ожидаемый рост выручки в 25% или даже выше. Но когда вы выкатываете
изменения, выручка не растёт на 25%,
и даже год спустя конверсия остаётся той же. Как же так?
По
мнению Пипа Лайи, специалиста по конверсии, рост конверсии в данном
случае является мнимым: его попросту не было изначально. Да, ваш
инструмент тестирования сообщил о 95% уровне статистической значимости,
но это ничего не значит. Статистическая
значимость и обоснованность — не одно и то же.
Статистическая значимость — не повод остановить тестирование
В
реальности, когда по результатам тестов заявленная точность
предсказания достигает 95% или даже 99%, это не значит, что у вас есть
выигрышный вариант страницы.
В
качестве примера Пип приводит один из тестов, где за короткий
промежуток времени на выборке в 110 посетителей вариант страницы
показывает ухудшение конверсии на 89,5% и нулевую вероятность стать
выигрышным вариантом в тесте. Однако тест был продлён ещё
на десять дней, и на выборке уже в 620 посетителей страница показала
рост конверсии на 25,18% с вероятностью победить в
тесте в 95%.
Хуже
всего в подобной ситуации даже не мнимый рост конверсии, а ложная
уверенность в правоте, руководствуясь которой, вы рискуете
распространить полученное «знание» на весь сайт.
Стоит
отметить, однако, что в примере выше результат, полученный с отсрочкой в
10 дней, тоже не является достаточно достоверным, поскольку абсолютная
разница в транзакциях там составляет всего 19 конверсий. Эта разница
может быть «перекрыта» всего за
день.
Как
говорит Тон Весселинг, основатель Testing Agency, прекращение
тестирование по достижении заданного уровня уверенности подобно
смертному греху. Как показывает его опыт, в 77% A/A-тестов (то есть в
сравнении одинаковых страниц) уровень значимости рано или
поздно будет достигнут.
Итак,
статистическая значимость не может быть единственным критерием,
определяющим, надо ли останавливать A/B-тестирование, поскольку ничего
не говорит о вероятности, с которой страница B лучше страницы A. Что в
таком случае рекомендуется делать?
Тестируйте дольше
Ошибочно
останавливать тестирование по прошествии пары дней. Даже если у вас 10
000 транзакций в день, этого мало: абсолютное число транзакций важно, но
так же важно и чистое время. Мэтт Гершофф из Conductrics объясняет это
так:
Одна
из трудностей с A/B-тестированием состоит в том, что мы не
контролируем когортность пользователей. Проблемы возникают в тех
случаях, когда пользователи по-разному ведут себя в разное время дня,
разные дни недели и разные сезоны. В связи с этим
необходимо собирать данные за релевантные отрезки времени. В этом случае
мы получим более репрезентативные данные.
Обратите
внимание: от одной только сегментации трафика в данном случае мало
пользы, поскольку сохраняется необходимость делать выборки по рабочим
дням и по выходным и т.д., и нам стоит зафиксировать среднее значение на
каждый из дней или даже времени в
течение дня,а также учесть влияние внешних факторов, которые влияют на
трафик и конверсии.
По наблюдениям Пипа, для A/B-тестирования типична следующая ситуация:
- Первые пару дней: вариант B побеждает с большим перевесом. Обычно здесь сказывается фактор новизны.
- После первой недели: вариант B пока лидирует с отрывом.
- После второй недели: вариант B всё ещё выигрывает, но относительная разница уже меньше.
- После четвёртой недели: вариант B падает до среднего значения.
Получается,
что если вы прекратили тестирование, не дождавшись четвёртой недели, то
думаете, что нашли правильный вариант страницы, но на самом деле это не
так, и ожидаемого роста выручки не происходит.
Как понять, когда прекращать тестирование?
К
сожалению, однозначного ответа на этот вопрос нет, но для себя Пип
выработал эмпирическое правило остановки теста, срабатывающее при
достижении следующих условий:
- Продолжительность испытания: не менее трёх недель (ещё лучше — четырёх).
- Если изменённый вариант страницы опережает контрольный вариант более
чем на 20% при как минимум 250 конверсиях на вариант; если
относительная разница составляет менее 20% при как минимум 400 переходах
на вариант.
- Статистическая значимость составляет как минимум 95%.
Это
правило может меняться по ситуации, но в большинстве случаев Пип
придерживается именно его. Здесь снова можно процитировать Тона
Весселинга:
Вам
действительно стоит тестировать как можно дольше — по меньшей мере,
один цикл покупки. Чем больше данных, тем точнее ваша аналитика. Чем
больше трафика, тем точнее вы определите победителя среди вариантов
страниц. Ведь небольшие изменения
могут оказать большое влияние, но такое бывает редко. Как правило,
изменения дают несущественный прирост конверсии,
поэтому и нужно тестировать варианты на больших объёмах трафика, чтобы
определить победителя с большим отрывом.
С
другой стороны, если тесты длятся очень долго, посетители начинают
чистить файлы cookies. За две недели таких посетителей набирается до
10%, и они могут начать попадать не на тот вариант страницы. Поскольку с
течением времени чистота вашего эксперимента
ухудшается, тестируйте не дольше четырёх недель.
Что
делать, если после третьей или четвёртой недели размер выборки меньше
400 переходов на варианты? В этом случае Пип рекомендует продлить
тестирование, для начала — на неделю.
При
этом автор статьи предлагает тестировать полными неделями. Т.е. если
тест был запущен в понедельник, его надо завершить в воскресенье. В
противном случае точность аналитики может оказаться под угрозой. Пип
приводит пример одного из сайтов, где по
четвергам выручка вдвое выше, чем по субботам и воскресеньям, а
конверсия — двое выше конверсии по
воскресеньям. Если бы тестирование в этом случае велось не полными
неделями, среднее значение конверсии и выручки было бы искажено, и
выводы из тестирования были бы сделаны некорректно.
Что
делать, если тест длился четыре недели с 400+ конверсиями на каждый
вариант, но статистическая значимость меньше 95%? Если показатель
значимости равен 92%, тест стоит продлить на неделю и посмотреть, что
изменится. Если же он ближе к 50% (и даже меньше
того), это, по мнению автора, говорит об отсутствии существенной
разницы. В этом случае Пип скорее перейдёт к
следующему тесту или следующей итерации того же теста.
Не забывайте о сегментах: правило остановки распространяется на каждый из них
Сегментация —
ключ к пониманию результата A/B-тестов. Достаточно распространён
сценарий, когда вариант B может проигрывать варианту A в общих
результатах, но побеждать в определенных сегментах (например, в трафике с
социальных сетей, с мобильных
устройств и т.д.).
Перед
анализом сегментированных данных стоит быть уверенным в достаточности
выборки каждого сегмента. Это 250-400 конверсий на вариант для каждого
сегмента, который вы собираетесь изучать.
Здесь
Пип даже рекомендует создавать таргетированные тесты, т.е.
устанавливать целевую аудиторию/сегмент в настройках теста. Это поможет
вам быть уверенным в том, что тесты не прекратятся преждевременно и
наберут достаточную выборку.
Вот что говорит о собственных правилах прекращения тестирования Андрэ Морис из компании WebArts:
- Я придерживаюсь мнения, что для получения убедительных данных нужна
репрезентативная выборка. Что я под этим подразумеваю? Прежде всего, вам
необходимо включить все рабочие и выходные дни и даже учесть разную
погоду, потому что она влияет на поведение покупателей. Но самое
главное: ваш трафик должен быть разнообразным и
происходить из разных источников — новостных рассылок, спецпроектов, ТВ и
т.д.
- Недавно мы провели A/B-тестирование для крупного ритейлера одежды
прямо посередине летней распродажи. Было интересно наблюдать за тем,
как резко результаты упали на пике кампании по распродаже, а затем через
неделю восстановились, как только кампания пошла на спад. Мы никогда бы
не узнали об этом, если бы тест длился менее
четырёх недель.
- Наше «правило большого пальца» заключается в следующем: 3000-4000
конверсии на вариант с продолжительностью теста 3—4 недели. Такого
трафика достаточно, чтобы получить хорошую выборку даже в сегментах.
Результаты
аналитики A/B-теста невероятно важны. Подчас они даже важнее понимания,
какой вариант страницы эффективнее. Поэтому прежде чем перейти к
анализу и выводам, убедитесь в том, что у вас достаточная выборка для
каждого сегмента.
Заключение
Не
стоит останавливать тест только потому, что статистическая значимость
равна или даже больше 95%. Учитывайте абсолютное количество переходов на
варианты и продолжительность теста.
|