Основа любого экспериментального исследования — статистический анализ полученных данных. Без него не получится ни отличить хорошее лекарство от плохого, ни убедиться в существовании той или иной элементарной частицы, ни доказать, что курение опасно для здоровья. Ученым статистические метрики нужны, чтобы найти причинно-следственные связи, выявить факторы риска, оценить эффективность лечения и предсказать исходы болезней, а всем остальным — чтобы убедиться в достоверности их выводов.
Как правило, статистический анализ — рутинная и скучная работа, необходимая, но не показательная. Если статья по микробиологии или материаловедению добралась до статусного журнала, то можно быть уверенным, что минимальным обязательным статистическим критериям она удовлетворяет. Об этом важно не забывать, но не обязательно акцентировать на этом внимание. Однако есть области, в которых именно в статистике — сама суть работы. По полученным метрикам можно определить, насколько оправдано то или иное утверждение ученых. Именно поэтому N + 1 почти всегда приводит значения статистических показателей в заметках по медицине или психологии, а в новостях, скажем, про физику нейтрино они иногда пробираются даже в заголовки.
Необходимые, но сложные метрики мы стараемся прятать в сноски, а на самых важных — даже акцентируем внимание. В этом материале расскажем о самых частых показателях и объясним, почему не можем не указывать их в наших новостях и материалах. Для удобства мы разбили все величины на группы и спрятали описания по карточкам.
Содержание
Индуктивная статистика
Индуктивную статистику используют для описания свойств выборки из большого числа однотипных экспериментов. По полученным параметрам можно потом либо просто описать общие свойства группы: разброс данных и среднее значение, либо — доказывать или отвергать выдвинутые гипотезы.
В подавляющем большинстве случаев, когда используется индуктивная статистика, экспериментальные данные распределены нормально — то есть если все полученные экспериментальные точки нанести на общий график, то их можно будет описать колоколообразной кривой Гаусса, как на графике выше. Если измеряемая величина — это результат других случайных слабо взаимозависимых величин, то она будет распределена нормально. О том, как можно проверить данные на нормальность, — читайте в карточке про стандартное отклонение.
Описательная статистика
В первом случае цель — организовать и обобщить данные, упростить их для интерпретации и сделать более управляемыми для дальнейшего анализа.
Доверительный интервал Доверительный интервал
Основной показатель описательной статистики, который используется в наших заметках, — доверительный интервал (confidence interval, CI). Так называется диапазон, в пределах которого с заданной вероятностью лежит истинное значение параметра, оцениваемое по выборочным данным. В биомедицинских исследованиях критерием достоверности обычно считают 95-процентный доверительный интервал. Эту величину стоит понимать так: если исследование повторить еще много раз, то в 95 процентах случаев измеренный параметр попадет в указанный диапазон.
Чем больше размер выборки, тем точнее результаты будут отражать генеральную совокупность и тем у́же будет доверительный интервал. Этот показатель важен, например, в клинических исследованиях препаратов в медицине или доклинических — в биологии. По нему можно оценить степень вариации исследованных параметров — это помогает понять, например, насколько эффективно лечение.
Так, мы рассказывали об исследовании, в котором ученые выяснили, что интраназальное введение окситоцина снижает
Этот показатель оценивается в баллах и измеряется по нейропсихиатрическому опроснику: чем больше баллов, тем выше уровень апатии.
у пациентов с лобно-височной деменцией. Уровень апатии был значимо ниже, чем после курса плацебо: разница составила 1,32 балла (95-процентный доверительный интервал от 2,43 до 0,21). То есть с вероятностью 95 процентов уровень апатии пациента после введения окситоцина попадет в этот интервал, но у каждого 20-го пациента он окажется либо меньше 0,21 балла, либо, наоборот, больше 2,43 балла. Таким образом мы можем судить об эффективности терапии.
Наверх ↑
Среднеквадратичное отклонение Среднеквадратичное отклонение
Среднеквадратичное (или стандартное) отклонение — это корень из дисперсии случайной величины. Этот параметр показывает, как сильно «разбросаны» элементы выборки относительно среднего значения, и обозначается строчной греческой буквой сигма: σ.
Само значение стандартного отклонения интересует ученых непосредственно во время эксперимента, поскольку показывает, насколько большим получился разброс данных. А вот когда данные собраны, ученые оценивают их нормальность — то есть как хорошо они укладываются в нормальное распределение. Это важный момент в исследовании: практически всегда случайные величины в экспериментах получают из-за влияния сразу нескольких независимых (или зависящих друг от друга очень слабо) случайных факторов. Если есть некоторое количество таких факторов, то при большом количестве данных результаты эксперимента должны оказаться нормально распределены согласно центральной предельной теореме.
Проверить «нормальность» можно, например, с помощью неравенства Чебышёва: 68,2 процента значений случайной величины не отклоняются от среднего значения больше чем на одну сигму, а вот уже для трех сигм случайная величина лежит в этом интервале с вероятностью 99,73 процентов.
Источник: Nusha / Wikipedia
Наверх ↑
Проверка гипотезы
Для статистической проверки гипотезы есть понятная стандартная схема. В начале работы исследователь выдвигает нулевую гипотезу: утверждение, что между двумя распределениями (полученными из двух экспериментальных наборов данных — или модельного и экспериментального) нет различий по интересующему нас параметру. Альтернативная гипотеза будет утверждением, что такие различия есть. Соответственно, статистическое доказательство — либо доказательство нулевой гипотезы, либо (чаще) наоборот: доказательство того, что она неверна.
В медицине, биологии и психологии для этой проверки почти всегда используют P-значение. В физике — те же отличия чаще оценивают в числе среднеквадратичных отклонений.
P-значение P-значение
P-значение — это статистическая величина, выраженная числом от 0 до 1, которая используется для проверки нулевой гипотезы. Фактически эта величина показывает, в насколько большой
На графике в начале текста это область, закрашенная зеленым.
при верной нулевой гипотезе статистически достоверно попадают точки из экспериментальной выборки. При этом, если размер выборки невелик (обычно менее 30 наблюдений), p-значения могут быть неточными, и нулевую гипотезу можно ошибочно принять или отвергнуть.
Обычно в медицинских исследованиях за порог значимости принимается p = 0,05, то есть пятипроцентный хвост распределения. Если значение меньше 0,05, то мы отклоняем нулевую гипотезу о том, что различий по изучаемым параметрам нет, и принимаем альтернативную — такие различия есть и они неслучайны. Чем меньше p-значение, тем более значимым будет результат, потому что он с меньшей вероятностью будет случайным. Поэтому утверждение «p = 0,05» расшифровывается так: вероятность того, что различия между группами случайны, составляет пять процентов.
Например, в одной из наших новостей говорится, что алкалоид барбариса снизил уровень гликированного гемоглобина у диабетиков. Исследователи сравнили между собой три экспериментальные группы:
- тех, кто принимал препарат в большой дозировке;
- тех, кто принимал его в меньшей дозировке;
- и тех, кто принимал плацебо.
В случае с меньшей дозировкой p оказалось равным 0,04. Иначе говоря, вероятность того, что различия между группами случайны, составила четыре процента. А у группы с большей дозировкой различия с группой плацебо было еще более значимым — p < 0,01. То есть вероятность того, что различия между этими группами случайны, составляет меньше одного процента.
Наверх ↑
n сигм n сигм
И еще раз про среднеквадратичное отклонение. Часто в новостях по физике мы пишем, что результаты получены с достоверностью, например, «более пяти сигм». Количество стандартных отклонений помогает удостовериться, что ученые действительно открыли тот или иной эффект.
Если полученные данные распределены нормально, то, согласно неравенствам Чебышёва, 68 процентов измеренных величин лежат в диапазоне плюс-минус одно стандартное отклонение от среднего, 95 процентов лежат в отрезке плюс-минус две сигмы и примерно 99,7 процентов лежат в диапазоне плюс-минус три сигмы. В статистике это называется правилом 68-95-99,7.
Следовательно, если величина не попадает, например, в отрезок плюс-минус три сигмы, то она лишь с вероятностью 0,3 процента соответствует ожидаемому результату. Это указывает на потенциальное наличие неизвестного феномена, который повлиял на исход эксперимента. Чем сильнее относительно среднего отклоняется значение, тем выше вероятность того, что ученым удалось зафиксировать что-то новое.
В физике частиц принят «золотой стандарт» в пять сигм: если некоторая измеренная величина отклоняется от среднего больше, то это почти наверняка вызвано новым явлением, а не статистической флуктуацией. Например, мы писали о том, как исследователи увидели редкий распад гиперона, а статистическая значимость этого события составила более пяти сигм. В других областях физики нет подобного эталона, поскольку далеко не во всех экспериментах удается набрать достаточно большое количество данных.
Наверх ↑
Взаимосвязь величин
Другой набор метрик помогает установить, есть ли между несколькими параметрами взаимосвязь и влияет ли изменение одного параметра на изменение другого. При этом здесь важно отметить, что статистический анализ позволяет оценить только корреляцию, то есть показать, что изменение одной величины достоверно сопутствует изменению другой величины. А вот изучить причинно-следственные связи и доказать, что изменение одной величины приводит к изменению другой, — не позволяет.
Для оценки статистической взаимосвязи нескольких величин используют регрессионный анализ и оценивают корреляционные коэффициенты.
Коэффициент корреляции Пирсона Коэффициент корреляции Пирсона
Если у нас есть две физические величины, которые мы подозреваем во взаимосвязи, то вполне логично проверить их коэффициент корреляции. Другим словами, нужно выяснить, как одна из величин отреагирует на изменение другой. Когда изменение систематическое, говорят о наличии корреляции, в противном случае — связь величин корреляционной не признают.
Физики часто используют коэффициент корреляции Пирсона (обозначается буквой ρ), который показывает корреляцию только в том случае, если зависимость между величинами имеет линейный характер. При этом чем ближе значение коэффициента корреляции Пирсона к единице, тем более явная эта линейная связь параметров.
Например, когда физики ограничили скорость звука 36 километрами в секунду, то сделали это с помощью в том числе коэффициента линейной корреляции Пирсона между скоростью звука и атомной массой среды для экспериментальных данных. Он оказался равным −0,71 — довольно близко по модулю к единице. Это значит, что между скоростью звука и атомной массой среды есть заметная связь (знак минус означает, что при уменьшении атомной массы скорость звука в веществе увеличивается). Если бы значение было близко к нулю, то линейной связи, наоборот, вероятно, не было.
Наверх ↑
Коэффициент регрессии β Коэффициент регрессии β
Силу и характер влияния независимой переменной на зависимую помогает понять коэффициент регрессии β — величина, которая показывает, насколько изменится y, если x изменится на единицу.
В медицине и психологии регрессия используется как в клинических исследованиях, так и в эпидемиологических. Она нужна, чтобы оценить связь между каким-либо показателем и принадлежностью к определенной группе пациентов, а также между изучаемыми показателями у обследованных в целом.
К примеру, в новости о связи малоподвижности и времени у экрана в детстве и депрессивностью у подростков говорится о том, что физическая активность в детстве, по данным опроса, отрицательно коррелировала с уровнем воспринимаемого стресса (коэффициент регрессии β = −0,15). Это означает, что между этими величинами существует обратно пропорциональная связь. Напротив, общее время у экрана положительно коррелировало с уровнем воспринимаемого стресса (коэффициент регрессии β = 0,27). Между этими величинами связь уже прямо пропорциональная, а коэффициент регрессии 0,27 показывает, что она несколько сильнее, чем в предыдущем примере.
Наверх ↑
Коэффициент детерминации Коэффициент детерминации
Еще один способ определить, насколько сильно одна величина зависит от другой и как точно удалось описать данные теоретической моделью, — использовать коэффициент детерминации. Это разность единицы и отношения дисперсии ошибки модели к дисперсии зависимой случайной величины. Проще говоря, коэффициент R2 показывает, насколько хорошо предложенная модель объясняет разброс зависимой
То есть переменной, значение которой меняется в зависимости от другой переменной (например, y в уравнении вида y = kx + b).
.
Коэффициент детерминации принимает значение от нуля до единицы: ноль соответствует практически полному несовпадению модели и данных, а единица означает максимальное согласие теоретической зависимости и результатов эксперимента. Например, если данные описывают простой линейной моделью, нулевой коэффициент детерминации указывает на то, что обычное усреднение по всем данным дало бы результат не хуже, чем регрессия. Поскольку такие предельные случаи редки для реальных экспериментальных данных, ученые договорились считать модель приемлемой в том случае, если коэффициент детерминации превышает 0,5 — и достаточно хорошей, когда R2 выше 0,8.
Ученые часто прибегают к вычислению R-квадрата, когда хотят оценить соответствие между экспериментальными данными и предложенной функциональной зависимостью. Например, когда физики предложили измерять красноту яблочной мякоти с помощью спектроскопии, значение R2 составило больше 0,9 и указало на очень точное соответствие экспериментальных данных и предложенной исследователями аппроксимации.
Наверх ↑
Размер эффекта
Статистическая значимость результатов клинических испытаний (в частности, p-значение) не всегда позволяет оценить реальную эффективность лечения. Например, если выборка достаточно большая, то результат будет значимым практически всегда. В таких случаях ученые используют показатели размера эффекта (effect size, ES).
Все показатели размера эффекта можно разделить на
Арифметическая разница между средними значениями показателя в основной и контрольной группах.
,
Разброс значений показателя внутри экспериментальных групп в виде стандартного отклонения.
и
Предполагаемое количество пациентов, которым нужно провести терапию новым методом по сравнению со стандартным, чтобы достичь желаемого результата у одного из них. Во всех случаях его оценивают по показателю числа пролеченных больных на одного излеченного (number needed to treat, NNT).
. Их выбор зависит от исследуемых переменных (бинарные или количественные) и характеристик выборки.
Бинарные переменные
Эта группа параметров нужна для анализа величин, которые помогают ответить на вопрос, произошло ли событие. Например, снижает ли уменьшение массы тела риск диабета? Эти величины принимают только два значения: «да» или «нет».
Разница риска Разница риска
Показатель разницы риска (risk difference, RD) используют, чтобы оценить разницу между вероятностью
Если необходимо подчеркнуть определенный тип изменений риска, используют синонимичные показатели: добавочный риск (excess risk, ER), увеличение (absolute risk increase, ARI) или снижение (absolute risk reduction, ARR) абсолютного риска.
в основной и контрольной экспериментальной группе. Таким образом результаты клинических испытаний помещают в контекст реального мира, чтобы они были понятнее неспециалисту. Например, если лекарство снизило число случаев заболевания с 1 на 5000 человек до 1 на 10000 человек за год, относительное снижение риска будет равно 0,5, а абсолютное — 0,0001 (из-за того, что заболевание в принципе встречается нечасто).
В одной из новостей мы рассказывали, как показатель разницы риска использовали, чтобы оценить вероятность госпитализации пациентов с гриппом, которые принимали противовирусные средства. Эффективность препаратов оказалась низкой: для осельтамивира RD составила
95-процентный доверительный интервал от −1,0 до 0,4 процента; высокая достоверность
, а для балоксавира несколько лучшие
95-процентный доверительный интервал от −2,0 до 0,4 процента; низкая достоверность
. Эффект остальных лекарств был еще ниже или неопределенным.
Наверх ↑
Относительный риск и отношение шансов Относительный риск и отношение шансов
С помощью показателей относительного риска (relative risk, RR) и отношения шансов (odds ratio, OR) можно измерить эффект того или иного фактора. Например, в медицине их используют, чтобы оценить вероятность наступления некоторого события.
Относительный риск применяется при проспективных исследованиях, когда исследуемые группы формируются по признаку наличия или отсутствия фактора риска, а отношение шансов является мерой оценки относительного риска в исследованиях типа «случай-контроль», где его невозможно рассчитать, — например, в случае редких заболеваний.
Чтобы лучше понять эти статистические показатели, сначала надо определить, собственно, риск и шанс. Риск — отношение количества случаев к общему количеству пациентов. Шанс — отношение количества случаев к количеству не-случаев.
Поэтому относительный риск — риск наступления определенного события в группе, подвергшейся воздействию фактора риска, деленный на риск наступления события в группе тех, кто воздействию этого фактора не подвергался. Отношение шансов — это шансы события в одной группе, например тех, кто подвергся воздействию препарата, деленные на шансы в другой группе, которая воздействию не подвергалась.
Значение относительного риска или отношения шансов больше единицы говорит о том, что фактор риска несет негативное воздействие, а значение меньше единицы свидетельствует о его защитном эффекте.
Наверх ↑
Отношение рисков Отношение рисков
Показатель отношения рисков (hazard ratio, HR) стоит несколько в стороне от относительного риска (RR) и отношения шансов (OR), хотя и похож на них по названию. Он измеряет отношение риска события в определенный момент времени в одной группе по сравнению с другой группой.
Показатель отношения шансов используется как в когортных исследованиях, когда группы формируются по признаку наличия или отсутствия фактора риска, так и в исследованиях по типу «случай-контроль». Показатель отношения шансов не подходит для сравнения наблюдений «до» и «после».
По отношению рисков можно судить об эффекте воздействия экспериментального лечения по сравнению с традиционным или значимости фактора риска. Если отношение между ними меньше единицы, то экспериментальное лечение, возможно, снижает риск наступления неблагоприятного события в группе 1 по сравнению с группой 2. Также, если мы говорим о некотором воздействии неблагоприятного фактора, то если отношение рисков составляет более единицы, то есть основания говорить о неблагоприятном факторе (воздействии) в группе 1.
NB: Не стоит путать c показателем отношения рисков, который относится к анализу выживаемости. Он измеряет отношение риска события в определенный момент времени в одной группе по сравнению с другой группой.
Наверх ↑
Количественные переменные
Эта группа метрик относится к переменным, которые, в отличие от бинарных, выражаются числовыми показателями: например, на сколько миллимоль на литр снизился уровень глюкозы при приеме препарата по сравнению с плацебо.
Разница средних Разница средних
Эффекты лекарственных препаратов и других лечебных методик чаще всего оценивают по изменению какого-то
Это может быть, например, артериальное давление, уровень глюкозы в крови, баллы по шкале депрессии или количество дней без приступов заболевания.
по сравнению с имеющимися методами или плацебо и выражают через разницу между средними значениями (mean difference, MD) в основной и контрольной группах.
Например, чтобы оценить, как у разных поколений меняется состав крови, американские ученые сравнивали биохимические показатели жителей США. Для этого они взяли средние значения содержания холестерина и глюкозы в каждом поколении c 1920 по 1999 год с шагом в 10 лет. Выяснилось, что у более молодых людей уровень общего холестерина снижался на 7,1 миллиграмма на децилитр, а уровень глюкозы — повышался на 2,7 миллиграмма на децилитр.
Однако в большинстве клинических (и не только) исследований недостаточно просто выяснить разницу средних значений показателя между группами — для оценки реальной эффективности необходимо учитывать и разброс этих значений. Для этого используется стандартизованная разница средних (standard mean difference, SMD). Чтобы рассчитать ее, необходимо разделить разницу между средними показателями в основной и контрольной группах (MD) на стандартное отклонение (standard deviation, SD) показателя в популяции. Как правило, порогом малого размера эффекта считают значение SMD 0,2; среднего — 0,5; большого — 0,8 и очень большого — 1,3.
К примеру, стандартизованную разницу средних использовали авторы метаанализа, который показал, что прерывистая стимуляция тета-вспышками левой дорсолатеральной префронтальной коры существенно уменьшают симптомы шизофрении. Для снижения негативных симптомов SMD составила
95-процентный доверительный интервал от −1,24 до −0,55
, симптомов в целом
95-процентный доверительный интервал от −1,15 до −0,48
, а различных других симптомов — от −0,52 до −0,70 по сравнению с плацебо. Это означает, что тета-вспышки достоверно помогают справиться с симптомами болезни.
Наверх ↑
Часто бывает, что стандартное отклонение изучаемого показателя в популяции неизвестно. В этом случае разброс данных определяют косвенно и получают вместо стандартизированной разницы средних (SMD) по той же формуле другие индексы эффекта: d Коэна (Cohen’s d), g Хеджеса (Hedges’s g) или ∆ Гласса (Glass’s ∆). Пороговые значения используют те же, что и для стандартизированной разницы средних. Как правило, порогом малого размера эффекта считают значение индексов 0,2; среднего — 0,5; большого — 0,8 и очень большого — 1,3, хотя в разных исследованиях эти границы могут немного различаться.
d Коэна d Коэна
Если размеры экспериментальных групп примерно равны, включают 20 и более участников, а стандартные отклонения (SD) имеют близкие значения, ученые пользуются индексом эффекта d Коэна (Cohen’s d). В качестве знаменателя рассчитывают объединенное стандартное отклонение (SDpooled) — квадратный корень из полусуммы показателей SD в основной и контрольной группах.
К примеру, этот показатель рассчитывали в клинических испытаниях кратковременных медитаций для снятия стресса у медработников. Размеры выборок были примерно одинаковы (728 и 730 участников), как и средний исходный балл испытываемого стресса (21,42), а также стандартное отклонение (4,86). Рассчитав d Коэна, исследователи показали, что воздействие медитаций было эффективным (через восемь недель показатель был равен 0,85) и стойким (через четыре месяца d Коэна составило 0,71).
Наверх ↑
g Хеджеса g Хеджеса
Если стандартизированные разницы (SD) в группах схожи, но количество участников значительно различается или не превышает 20, ученые применяют модификацию d Коэна — g Хеджеса. В таком случае используют взвешенное объединенное стандартное отклонение (SD*pooled) — то есть рассчитанное с учетом размера групп, объединенных в общую выборку. Вес значения параметра от каждой группы определяется пропорционально размеру этой группы: чем она больше — тем больше вклад соответствующего ей значения. Этот подход также часто используют в метаанализах рандомизированных контролируемых исследований.
Нидерландские ученые использовали этот показатель в метаанализе 375 клинических испытаний, чтобы оценить эффективность когнитивно-поведенческой психотерапии при различных психических расстройствах. Размер эффекта при психотическом и биполярном расстройствах оказался небольшим (g Хеджеса менее 0,5), при паническом, социальном тревожном и генерализованном расстройствах, нервной булимии, компульсивном переедании, депрессии и обсессивно-компульсивном расстройстве — большим (g Хеджеса 0,5–1), а при при посттравматическом стрессовом расстройстве и специфических фобиях — очень большим (g Хеджеса более 1).
Наверх ↑
∆ Гласса ∆ Гласса
Если стандартные отклонения (SD) в группах существенно различаются, ученые рассчитывают индекс эффекта ∆ Гласса. В качестве знаменателя используется стандартное отклонение контрольной группы (SDcontrol) — исходя из гипотезы, что на него не влияют эффекты лечения и оно точнее отражает SD в популяции.
К примеру, этот индекс применяли, изучая эффективность мелатонина при расстройствах аутистического спектра. Размер эффекта был существенным по воздействию на продолжительность сна (Δ Гласса 1,54 по сравнению с исходным уровнем и 0,93 — с плацебо) и время засыпания (Δ Гласса −2,18 по сравнению с исходным уровнем и −1,28 — с плацебо). Иначе говоря, те, кто принимал мелатонин, засыпали быстрее и спали дольше.
Наверх ↑
Джентльменский минимум на этом закрываем. Теперь можете смело возвращаться к новостям — уже понимая, когда британским ученым можно верить, а когда лучше еще раз перепроверить их выводы.