Анатолий Ализар. Лженаука. Верить ли научным статьям по психологии. Anatole Alizar. Pseudoscience. Do You Believe Whether Scientific Articles in Psychology?

Уровень значимости и p-значение в математической статистике

С каждым годом растёт количество публикаций в научных журналах, в том числе публикаций по гуманитарным наукам. Согласно определению Бахтина,

предмет гуманитарных наук - выразительное и говорящее бытие. Это бытие никогда не совпадает с самим собой и потому неисчерпаемо в своем смысле и значении.

Неисчерпаемость смысла и значения бытия не мешает анализировать результаты научных исследований статистическими методами. В частности, выводы в исследованиях по экспериментальной психологии часто являются результатом тестирования значимости нулевой гипотезы.

Но есть большое подозрение, что авторы некоторых научных работ не очень сильны в математике.

Статистическая гипотеза - утверждение относительно неизвестного параметра генеральной совокупности на основе выборочного исследования. Для обоснования заключения необходимо тестирование результатов, на которых строится гипотеза, на статистическую достоверность. Надёжность определяется тем, насколько вероятно, что обнаруженная в выборке связь подтвердится на другой выборке той же генеральной совокупности. Очевидно, что провести исследование на всей выборке практически невозможно, а провести многократное исследование на разных выборках очень трудно. Поэтому широко используются методы статистики. Они позволяют оценить вероятность случайного получения такого различия при условии, что на самом деле различий в генеральной совокупности нет.

Нулевая гипотеза - гипотеза об отсутствии различий. Согласно нулевой гипотезе, различие между значениями недостаточно значительно, а независимая переменная не оказывает никакого влияния.

В современных научных работах нулевые гипотезы часто проверяют с использованием p-значения. Эта величина равна вероятности того, что случайная величина с данным распределением примет значение, не меньшее, чем фактическое значение тестовой статистики.

Например, уровень значимости 0,05 означает, что допускается не более чем 5%-ная вероятность ошибки. Другими словами, нулевую гипотезу можно отвергнуть в пользу альтернативной гипотезы, если по результатам статистического теста вероятность случайного возникновения обнаруженного различия не превышает 5%, т.е. p-значение не превышает 0,05. Если же этот уровень значимости не достигается, считают, что разница вполне может быть случайной и поэтому нельзя отклонить нулевую гипотезу. Таким образом, p-значение соответствует риску совершения ошибки первого рода.

Использование p-значений для проверки нулевых гипотез в работах по медицине подвергается критике со стороны многих специалистов. Более того, в 2015 году один из научных журналов - Basic and Applied Social Psychology - вовсе запретил публикацию статей, в которых используются p-значения. Журнал объяснил своё решение тем, что сделать исследование, в котором получено p < 0,05 не очень сложно, и такие значения p слишком часто становятся оправданием для низкопробных исследований. На практике использование p-значений нередко приводит к статистическим ошибкам первого рода - ошибкам обнаружить различия или связи, которые на самом деле не существуют.

В 2015 году немало шуму наделала статья студентки из университета Тилбурга Мишель Нюйтен с коллегами, опубликованная в журнале Behavior Research Methods.

Девушка обнаружила, что примерно половина всех научных статей по клинической психологии содержат как минимум одно противоречивое p-значение. Более того, в каждой седьмой работе есть чрезвычайно противоречивое p-значение, которое приводит к ошибке первого рода. То есть к обнаружению различий или связей, которые на самом деле не существуют.

Мишель Нюйтен констатирует, что часто эти статистические ошибки совпадают с выводами, которые делают авторы научных работ. Это наводит на мысль, что некоторые психологи проводят исследования с прицелом на получение конкретного результата, под который сознательно или неосознанно подгоняют статистику.

В помощь учёным, для проверки корректности статистических вычислений, Мишель с коллегами разработали программу Statcheck. Эта программа извлекает статистику из научных статей и заново вычисляет p-значения. Для работы программы нужен ещё инструмент по конвертации документов PDF в формат TXT. Например, Xpdf. Программа написана на языке программирования R, который создан специально для статистических вычислений. Библиотека устанавливается напрямую из репозитория CRAN:

install.packages(“statcheck”)
library(“statcheck”)

С помощью программы Statcheck исследователи проверили более 250000 p-значений в статьях, опубликованных в научных журналах по психологии с 1985 по 2013 годы. Результаты подтвердились: действительно, около половины всех статей содержат ошибки в вычислении p-значения.

В августе 2016 года авторы программы пошли дальше и решили деанонимизировать авторов научных работ, в которых обнаружены ошибки. Набор данных с анализом 688112 p-значений в 50945 научных статьях по психологии опубликован на сайте.

По мнению специалистов, это один из крупнейших в истории аудитов научных статей после их публикации. Эдакий краудсорсинг аудита научных работ.

Такая попытка не всем понравилась. Некоторые авторы статей, в том числе авторитетные учёные, недовольны тем, что их работы выставляют на показ и повергают такому аудиту. Например, своё недовольство выразила известный психолог Дороти Бишоп из Оксфордского университета, две работы которой помечены программой Statcheck, хотя в одной работе ошибок не обнаружилось. Дороти Бишоп считает, что такие автоматические отчёты с указанием 0 ошибок - это не самый лучший способ сообщать статистику. Якобы попадание в список для аудита дискредитирует авторов таких работ. Относительно другой работы с ошибками Дороти Бишоп собирается проконсультироваться со своим соавтором и внести исправления в работу. В то же время она желает провести аудит самой программы Statcheck, потому что если она допускает хотя бы 10% ложных срабатываний, это наносит урон научному сообществу.

Другие авторы, наоборот, гордятся, что бот выдаёт по их работам автоматический отчёт с указанием 0 ошибок. Симпатичная профессор Дженнифер Такетт спрашивает, можно ли повесить отчёт в рамочку. Вот это правильный подход, с чувством юмора.

Анатолий Ализар. ЛЖЕНАУКА. ВЕРИТЬ ЛИ НАУЧНЫМ СТАТЬЯМ ПО ПСИХОЛОГИИ

Приглашение к обсуждению прочитанного

Из wikipedia.org