Профессиональные аналитики уделяют много внимания статистической значимости, и это хорошо. Однако статистическая значимость — лишь один из аспектов хорошего анализа.

Проверка статистической значимости подразумевает выдвижение ряда предположений и определение вероятности того, что полученные результаты имели бы место в случае правильности выдвинутых предположений. Например, если предполагается, что монета симметрична, то количество случаев выпадения орла и решки будет одинаковым. При подбрасывании симметричной монеты шансы выпадения решки 10 раз подряд очень малы. Если это случилось, то существуют только два возможных объяснения.

Первое заключается в том, что это была полоса везения, что встречается один раз из 1024 попыток. Второе — в том, что монета несимметрична. Проверка статистической значимости, касающаяся выпадения решки 10 раз подряд, показала бы, что вероятность того, что монета несимметрична, равна 99,9%, поскольку симметричная монета позволяет получить такой результат лишь в 0,1% случаев. Такие расчеты представляют собой суть статистической значимости.

Необходимо различать статистическую значимость и важность для бизнеса. Это не одно и то же.

Статистическая значимость

Статистическая значимость часто используется для выявления средних значений и процентов, а также для определения оценок параметров статистических моделей. Проверка статистической значимости поможет убедиться в том, что данные не вводят вас в заблуждение. Она с математической точки зрения покажет, достаточно ли значимо различие. Бывает, что различия, которые кажутся существенными, не являются таковыми, а бывает и так, что значимыми оказываются небольшие различия. Статистическая проверка позволит убедиться в правильности сделанных выводов.

На основе тестирования создана целая дисциплина. В деловом мире она известна как подход «тестируй и изучай» (test and learn), включающий основные экспериментальные концепции, которые преподаются на курсах статистики в колледже. В среде «тестируй и изучай» эксперимент устроен так, что можно измерить эффекты использования одного или нескольких вариантов и определить, какой из них будет работать лучше всего.

Предприятия должны удостовериться, что они используют правильный подход и не гонятся за «очевидным» ответом. Один из моих любимых примеров, противоречащих интуиции, — задача, которую задают студентам в магистратуре. Посмотрите на табл. 7.2. Два игрока в бейсбол играли вместе в течение пяти сезонов. Согласно таблице в каждом сезоне среднее количество отбивания на бите у Джо было выше, чем у Тома. Возникает простой вопрос: «Кто из двух игроков имеет больший средний показатель за все пять сезонов?» Задумайтесь на минуту и запомните свой ответ.

Правильный ответ может удивить вас: мы не знаем, кто имеет больший средний показатель! Информации, представленной в табл. 7.2, недостаточно, чтобы ответить на этот вопрос. Почему? Если бы мы знали, что у Джо и Тома было одинаковое количество выходов на биту в каж дом сезоне, то ответ был бы столь же простым, как мог показаться на первый взгляд. Победителем был бы Джо. Но что если у них было разное количество выходов на биту? Что если в тот сезон, когда у обоих игроков было наилучшее среднее количество отбивания, Джо получил травму и за несколько месяцев выходил на биту намного реже, чем Том? Что если Том получил травму в сезон с самыми низкими показателями и, таким образом, Джо выходил на биту намного чаще? Получается, что у Тома может быть более высокий совокупный средний показатель, чем у Джо, хотя в каждом сезоне показатель Тома был ниже! Так бывает нечасто, но все же бывает!


Таблица 7.2

Среднее количество отбивания на бите по сезонам

Сезон 

Том    

Джо

Победитель

1

252

255

Джо

2

259

266

Джо

3

237

241     

Джо

4

253     

255

Джо

5

256

257

Джо

Никогда не «срезайте углы»

Если у вас неполная информация, легко прийти к неправильным выводам. Никогда не выбирайте легкий путь и не считайте результаты настолько убедительными, что нет необходимости в формальном доказательстве их статистической значимости. Всегда старайтесь убедиться в наличии всех необходимых данных и проверьте эти данные, прежде чем делать выводы.

Не зная количества выходов на биту, невозможно определить лучшего игрока. Посмотрите на табл. 7.3, чтобы понять, как Том может оказаться победителем по результатам пяти сезонов. В данном случае t-тест показал, что разница между средними показателями Тома и Джо не является статистически значимой. Таким образом, вместо очевидного ответа, что Джо имеет лучший показатель по сравнению с Томом, мы выясняем, что победитель — Том. Но и здесь не все так просто! Хотя Том победил, разница не является статистически значимой. С точки зрения статистики у них ничья. Ответ на этот вопрос имеет больше нюансов, чем кажется на первый взгляд.

Таблица 7.3

Полное сравнение средних показателей

Год

Том:

средний

показатель

Том:

выходы

на биту

Том:

количество

ударов

Джо:

средний

показатель

Джо:

выходы

на биту

Джо:

количество

ударов

Победитель

1

.252

123

31

.255

341

87

Джо

2

.259

355

92

.256

109

29

 

3

.237

139

33

.241

377

91

 

4

.253

304

77

.255

294

75

 

5

.256

363

93

.257

206

53

 

Общий

показатель

.254

1284

326

.252

1327

335

Том*

* Том победил, но разница в показателях не является статистически значимой. С точки зрения статистики у них ничья.

Большинство людей посмотрят табл. 7.2 и не станут утруждать себя лишними размышлениями. Они выберут очевидный ответ: у Джо лучший общий средний показатель. Никогда так не делайте! Всегда перепроверяйте свои выводы.

И последний момент, касающийся статистической значимости. Большинство людей будут удовлетворены, если получат в результате эксперимента 95%- или 99%-ную вероятность. Следует, однако, иметь в виду, что, когда вы на 95% уверены в том, что правы, существует еще 5%-ная вероятность того, что вы ошибаетесь. Это означает, что один раз из каждых 20 случаев проведения подобного эксперимента вы можете оказаться неправы, соглашаясь с результатами.

Убедитесь, что уровень доверия соответствует уровню риска, который вы можете себе позволить. Например, если в случае выбора неправильного ответа компании грозит полное банкротство, то 95%-ная вероятность не кажется таким уж хорошим показателем. Вероятно, следует стремиться к показателю 99,9% или выше.

В случае многочисленных повторений одного и того же действия шансы ошибиться по крайней мере один раз значительно повышаются. Вы должны быть готовы принять эти ошибки или установить очень высокий уровень доверия, чтобы обеспечить очень низкий уровень риска. Для клинических испытаний новых лекарственных препаратов используются очень высокие показатели, поскольку последствия выпуска плохого лекарства велики, вплоть до смерти. Уровень доверия для принятия решения о том, какое из двух изображений компании стоит поместить в верхней части веб-страницы на остаток дня, может быть значительно ниже.


Важность для бизнеса

Рассмотрев тему статистической значимости, мы поняли необходимость сбора полной информации и проведения правильных тестов. Кроме того, убедились, что никто не может быть на 100% уверенным в правильности принятого решения. История на этом не заканчивается. Финальный шаг — оценка важности статистически значимого вывода для бизнеса.

Предположим, в ходе анализа был сделан статистически значимый вывод. Однако существует ряд других не менее важных, а может быть, даже более важных вопросов. Есть статистически значимый результат, и это замечательно. Но представляет ли он важность для бизнеса? Как организация может использовать этот результат для принятия решения о дальнейших действиях? Был выявлен реальный эффект, но достаточно ли он сильный, чтобы привести к значительным последствиям?

Всегда проверяйте результаты в бизнес-контексте. Допустим, существует 99%-ная вероятность того, что данное изменение в предложении может привести к 10%-ному повышению уровня отклика. Это хорошо. Но что если базовым является первоначальное предложение, а тестируемое изменение — это бонусное предложение, которое сто'ит в два раза дороже? В этом случае 10%-ное увеличение количества откликов может не покрыть дополнительные расходы. Тот факт, что доля откликнувшихся может быть существенно увеличена, на самом деле не имеет значения с точки зрения бизнеса.

Выйдите за рамки тестирования статистической значимости и постарайтесь учесть более полную картину. Какие затраты связаны с введением рекомендуемых изменений? Какой дополнительный доход может быть получен со временем? Соответствует ли новый подход общей корпоративной стратегии? Достаточно ли у вас людей и времени для внесения необходимых изменений? Статистическая значимость — критически важный показатель, но она имеет значение только в том случае, если рассматриваемое изменение важно с точки зрения бизнеса.

Дополнительную ценность обеспечивает хороший анализ

Очень важно понимать разницу между статистической значимостью и важностью для бизнеса, особенно в условиях надвигающегося вала больших данных. Профессиональные аналитики всегда найдут в больших данных действительно интересные сведения. Они помешаны на числах и поэтому могут воскликнуть: «Вот это да! Здорово!» Однако важно задать вопрос, насколько ценны и релевантны для бизнеса эти сведения. Это неотъемлемая часть анализа. Если ответ «нет», то это просто шумиха.

Укрощение больших данных: как извлекать знания из 
массивов информации с помощью глубокой аналитики /
 Билл Фрэнкс. - М.: Манн, Иванов и Фербер, 2014.
 Опубликовано с разрешения издательства.