Поправка на множественную проверку гипотез

Поправка на мно́жественную проверку гипотез[1] (англ. multiple comparisons, multiplicity, multiple testing problem) — способ устранения эффекта множественных сравнений[2], возникающего при необходимости построения семейства статистических выводов. Во время проверки статистических гипотез при отвержении основной гипотезы (H0) возможна ошибка (ложное отклонение гипотезы, ошибка первого рода). Вероятность такого события ограничивается неким малым предварительно выбранным значением — уровнем значимости (обычно ). Тогда при построении выводов верхняя оценка вероятности того, что хотя бы один из них будет неверным, равна , что достаточно велико уже при небольших (например, при , она равна ). Для устранения этого эффекта было разработано несколько подходов[3].

История

Первым упоминанием о проблеме множественных сравнений можно считать рассуждение Антуана Августина Курно в работе Exposition de La Theorie Des Chances Et Des Probabilites (1843) о том, что при разделении популяции на как можно большее число групп рано или поздно найдется группа, значимо отличная от остальной совокупности. Тогда проблема была сочтена нерешаемой[4].

Следующая после работы Бонферрони (Teoria statistica delle classi e calcolo delle probabilità, 1936) волна интереса к проблеме множественного тестирования возникла в 1950-х годах в связи с работой Джона Тьюки и Генри Шеффе. Последующие работы были направлены на увеличение мощности поправок. Так, более мощная поправка Холма-Бонферрони была разработана в 1979 году. В 1995 году со статьи Бенджамини и Хохберга начались работы по FDR (доле ложных отклонений гипотез), что дало возможность тестировать большое количество гипотез[4].

В 1996 была проведена первая конференция по множественной проверке гипотез в Израиле, после чего она проходила каждые два года по всему миру[5].

Обозначения

Нулевая гипотеза вернаНулевая гипотеза невернаВсего
Принимаем гипотезу
Отвергаем гипотезу
Всего
  •  — общее число гипотез
  •  — число верных гипотез, неизвестный параметр
  •  — число неверных гипотез
  •  — число ложноположительных результатов false positives (ошибок первого рода)
  •  — число истинно положительных результатов (true positives)
  •  — число ложноотрицательных результатов false negatives (ошибок второго рода)
  •  — число истинно отрицательных результатов (true negatives)
  •  — число отвергнутых нулевых гипотез. и  — наблюдаемые величины, а , , и  — ненаблюдаемые.

Методы решения проблемы множественных сравнений

При слишком большом количестве испытаний увеличивается вероятность получить ложно-положительный результат (увеличение числа совершенных ошибок первого рода ). Задача состоит в том, чтобы выбрать метод, допускающий минимальное число ложных отклонений гипотез и ложных принятий . Для этого необходимо выбрать другое правило отвержения гипотез. Для задачи множественной проверки гипотез существует большое количество величин, обобщающих определение ошибки первого рода. Наиболее известны следующие:

  • FWER — family-wise error rate[англ.], групповая вероятность ошибки первого рода: [6];
  • FDP — false discovery proportion, доля ложных отклонений гипотез (среди всех отклонений): [7];
  • FDR — false discovery rate[англ.], средняя доля ложных отклонений гипотез (среди всех отклонений): [7].

Для каждой из приведенных мер существует свой способ ужесточения порога на значимость.

Групповая вероятность ошибки первого рода

Одна из мер, обобщающих ошибку первого рода, рассматриваемую при проверке статистических гипотез. Величина определяется как вероятность совершения хотя бы одной ошибки первого рода[6]. По определению: [6]. Контроль над FWER на фиксированном уровне значимости означает, что выполняется неравенство [6].

Существует несколько методов контроля FWER.

Поправка Бонферрони

Метод поправки Бонферрони[англ.] утверждает, что для уменьшения ложноположительных результатов необходимо отклонить те гипотезы, для которых p-value по критерию [8][9]. Данная поправка позволяет получить , потому что

из неравенства Буля[англ.]следует, что для конечного или счетного набора событий, вероятность того, что произойдет хотя бы одно не больше, чем сумма вероятностей индивидуальных событий. Таким образом, если каждый индивидуальный тест будет проверяться на уровне значимости , где - количество рассматриваемых гипотез, то для всего семейства гипотез уровень значимости фиксируется на уровне :

,

где  — количество отвергнутых истинных гипотез[10] .

Замечания

При увеличении в результате применения поправки Бонферрони мощность статистической процедуры резко уменьшается — шансы отклонить неверные гипотезы падают[7].

Метод Холма (поправка Холма — Бонферрони)

Метод Холма (поправка Холма — Бонферрони[англ.]) равномерно более мощный, чем поправка Бонферрони, и решает проблему падения мощности при росте числа гипотез[11]. Нисходящий метод[12].

Пусть  — , упорядоченные от наименьшего к наибольшему.  — соответствующие нулевые гипотезы. Процедура Холма определена следующим образом[12][13].

  • Шаг 1. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • Шаг 2. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • И т. д.

Процедура обеспечивает [12]. Она равномерно мощнее метода Бонферрони[11].

Пример

Рассмотрим проверку 4-х гипотез при . Пусть для них получены p-value: 0,01; 0,04; 0,03 и 0,005. Расставим их по возрастанию: 1) 0,005; 2) 0,01; 3) 0,03; 4) 0,04. Будут проверены следующие неравенства:

  1. → отклоняем данную нулевую гипотезу, двигаемся дальше.
  2. → отклоняем данную нулевую гипотезу, двигаемся дальше.
  3. → принимаем эту и следующую нулевые гипотезы, останавливаемся.

Метод Шидака

Уровень значимости для гипотез задаются следующим образом: .[14] Метод дает FWER при условии, что статистики независимы или выполнено свойство «положительной зависимости»[15][16]:

, [16]

Составим вариационный ряд p-значений: , где - соответствующие гипотезы. Процедура выглядит так:

  1. Если , то принимаем все гипотезы и останавливаемся, иначе отвергаем и продолжаем;
  2. Если , то принимаем все гипотезы и останавливаемся, иначе отвергаем и продолжаем;
  3. … и т. д.

Метод Шидака-Холма

Нисходящая процедура. Уровни значимости для гипотез задаются следующим образом[17]:

Контролирует FWER на уровне значимости , если статистики независимы в совокупности. Если статистики независимы в совокупности, нельзя построить контролирующую FWER на уровне процедуру мощнее, чем метод Шидака-Холма. При больших мало отличается от метода Холма[17].

Средняя доля ложных отклонений

Данная величина определяется как математическое ожидание доли ошибок среди отвергнутых гипотез.

Определим как отношение числа неверно отвергнутых гипотез ко всем отвергнутым гипотезам : . Таким образом, FDR:

при [7].

Контроль над FDR на уровне означает, что:

[7].

Метод Беньямини — Хохберга

Это восходящая процедура со следующими уровнями значимости[7]:

.

Пусть  — уровни значимости , упорядоченные от наименьшего к наибольшему.  — соответствующие гипотезы. Процедура Беньямини — Хохберга определена следующим образом.

  • Шаг 1. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • Шаг 2. Если , принять гипотезы и остановиться. Иначе, если , отвергнуть гипотезу и продолжить проверку оставшихся гипотез на уровне значимости .
  • И т. д.

Если статистики независимы, этот метод контролирует FDR на уровне [7].

Масштабное множественное тестирование

Во многих исследованиях, к примеру в области геномики, требуется проверять тысячи или даже значительно больше гипотез. В области исследований генетических ассоциаций существует проблема невоспроизводимости результатов: результат, сильно значимый в одном исследовании, не повторяется в следующем. Причиной этого являются в том числе и последствия множественного тестирования[18].

В разных областях науки отношение к множественному тестированию неоднозначное. Есть мнение, что использование поправки на множественное сравнение, когда есть серьезные основания считать, что результаты будут правдивыми, не обязательно[19]. Также утверждается, что поправка на множественное тестирование — неэффективный метод проведения эмпирических исследований, потому что, контролируя ложно-положительные результаты, он приводит к появлению большого количества ложно-отрицательных. Однако с другой стороны утверждается, что усовершенствования в методах измерения и информационных технологиях облегчили появление больших наборов данных для разведочного анализа, что приводит к тестированию большого числа гипотез без предварительного предположения о том, что большинство из них правдивы. А это означает большое количество ложно положительных результатов, если поправка на множественное тестирование не проводится.

В масштабных тестированиях, если надо получить точные результаты, то лучше всего использовать FWER, однако если исследование разведочное и значимые результаты будут проверяться в независимом исследовании, предпочитают использовать FDR[7][20][21]. FDR, определяемое как ожидаемая доля ложно-положительных результатов среди всех положительных (значимых), позволяет определять набор «положительных кандидатов», которых можно рассматривать в дальнейших исследованиях[22].

Практика проводить много сравнений без поправки в надежде найти что-то значимое, применяемая сознательно или нет, иногда называется «p-hacking»[23][24].

Применение в биоинформатике

Проблема множественного сравнения в биологии встречается повсеместно при анализе омиксных[англ.]данных[20][25][26], так как одновременно происходит анализ множества переменных. Так, в полногеномных исследованиях ассоциаций и анализе дифференциальной экспрессии генов тестируется одновременно от сотен тысяч до миллионов гипотез. В большинстве случаев используется поправка Бонферрони или общепринятый для GWAS порог p-value [27], однако при этом происходит падение мощности исследования с сопутствующим ростом риска ложно-отрицательных результатов. Также нарушается предположение поправки Бонферрони о независимости проводимых сравнений, поскольку существует неравновесное сцепление генов, когда частоты сочетаний SNP отличаются от ожидаемых при условии отсутствия сцепления, поэтому встает вопрос, сколько проведено реальных независимых сравнений. Можно определить число независимых сравнений в таких условиях как число главных компонент, совокупно покрывающих более дисперсии исследуемых данных, тогда порог p-value, обеспечивающий статистическую значимость на уровне , пересчитывается следующим образом:

[28][29]

Также для решения проблемы множественных сравнений используются пермутационные тесты[28][30], такие как Rank product[англ.]. Предположение пермутационных тестов заключается в том, что если сравниваемые выборки пришли из одной совокупности, то обмен элементами между выборками не должен привести к значительному изменению тестовой статистики. Примерный общий алгоритм пермутационных тестов выглядит следующим образом[30]:

  1. Рассчитывается значение тестовой статистики для выборок экспериментальных данных
  2. Выборки объединяются в единый пул
  3. Из пула данных формируются случайным образом выборки такого же размера
  4. Рассчитывается значение тестовой статистики для нового набора выборок
  5. Многократным повторением пунктов 2-4 строится распределение тестовой статистики
  6. Исходя из построенного распределение и экспериментального значения тестовой статистики определяется p-value

При применении пермутационных тестов не требуется собственно коррекция уровня значимости или тестовых p-value. Пермутационные тесты не чувствительны к несбалансированности выборок, что полезно при анализе биологических данных[31].

См. также

Примечания

Литература

  • E. L. Lehmann, J. P. Romano. Chapter 9: Multiple testing and simultaneous inference // Testing statistical hypotheses : [англ.]. — 3rd ed. — New York : Springer, 2005. — 786 p.
  • Peter H. Westfall, S. Stanley Young. Resampling-Based Multiple Testing: Examples and Methods for p-Value Adjustment : [англ.]. — Wiley, 1993. — 360 p. — ISBN 978-0-471-55761-6.