На главную

УДК 001.98:159.9.072:51-77

Аннотация
Анатолий Ализар. ЛЖЕНАУКА. ВЕРИТЬ ЛИ НАУЧНЫМ СТАТЬЯМ ПО ПСИХОЛОГИИ


Уровень значимости и p-значение в математической статистике

С каждым годом растёт количество публикаций в научных журналах, в том числе публикаций по гуманитарным наукам. Согласно определению Бахтина,

предмет гуманитарных наук - выразительное и говорящее бытие. Это бытие никогда не совпадает с самим собой и потому неисчерпаемо в своем смысле и значении.

Неисчерпаемость смысла и значения бытия не мешает анализировать результаты научных исследований статистическими методами. В частности, выводы в исследованиях по экспериментальной психологии часто являются результатом тестирования значимости нулевой гипотезы.

Но есть большое подозрение, что авторы некоторых научных работ не очень сильны в математике.

Статистическая гипотеза - утверждение относительно неизвестного параметра генеральной совокупности на основе выборочного исследования. Для обоснования заключения необходимо тестирование результатов, на которых строится гипотеза, на статистическую достоверность. Надёжность определяется тем, насколько вероятно, что обнаруженная в выборке связь подтвердится на другой выборке той же генеральной совокупности. Очевидно, что провести исследование на всей выборке практически невозможно, а провести многократное исследование на разных выборках очень трудно. Поэтому широко используются методы статистики. Они позволяют оценить вероятность случайного получения такого различия при условии, что на самом деле различий в генеральной совокупности нет.

Нулевая гипотеза - гипотеза об отсутствии различий. Согласно нулевой гипотезе, различие между значениями недостаточно значительно, а независимая переменная не оказывает никакого влияния.

В современных научных работах нулевые гипотезы часто проверяют с использованием p-значения. Эта величина равна вероятности того, что случайная величина с данным распределением примет значение, не меньшее, чем фактическое значение тестовой статистики.

Например, уровень значимости 0,05 означает, что допускается не более чем 5%-ная вероятность ошибки. Другими словами, нулевую гипотезу можно отвергнуть в пользу альтернативной гипотезы, если по результатам статистического теста вероятность случайного возникновения обнаруженного различия не превышает 5%, т.е. p-значение не превышает 0,05. Если же этот уровень значимости не достигается, считают, что разница вполне может быть случайной и поэтому нельзя отклонить нулевую гипотезу. Таким образом, p-значение соответствует риску совершения ошибки первого рода.

Использование p-значений для проверки нулевых гипотез в работах по медицине подвергается критике со стороны многих специалистов. Более того, в 2015 году один из научных журналов - Basic and Applied Social Psychology - вовсе запретил публикацию статей, в которых используются p-значения. Журнал объяснил своё решение тем, что сделать исследование, в котором получено p < 0,05 не очень сложно, и такие значения p слишком часто становятся оправданием для низкопробных исследований. На практике использование p-значений нередко приводит к статистическим ошибкам первого рода - ошибкам обнаружить различия или связи, которые на самом деле не существуют.

В 2015 году немало шуму наделала статья студентки из университета Тилбурга Мишель Нюйтен с коллегами, опубликованная в журнале Behavior Research Methods.

Девушка обнаружила, что примерно половина всех научных статей по клинической психологии содержат как минимум одно противоречивое p-значение. Более того, в каждой седьмой работе есть чрезвычайно противоречивое p-значение, которое приводит к ошибке первого рода. То есть к обнаружению различий или связей, которые на самом деле не существуют.

Мишель Нюйтен констатирует, что часто эти статистические ошибки совпадают с выводами, которые делают авторы научных работ. Это наводит на мысль, что некоторые психологи проводят исследования с прицелом на получение конкретного результата, под который сознательно или неосознанно подгоняют статистику.

В помощь учёным, для проверки корректности статистических вычислений, Мишель с коллегами разработали программу Statcheck. Эта программа извлекает статистику из научных статей и заново вычисляет p-значения. Для работы программы нужен ещё инструмент по конвертации документов PDF в формат TXT. Например, Xpdf. Программа написана на языке программирования R, который создан специально для статистических вычислений. Библиотека устанавливается напрямую из репозитория CRAN:

install.packages(“statcheck”)
library(“statcheck”)

С помощью программы Statcheck исследователи проверили более 250000 p-значений в статьях, опубликованных в научных журналах по психологии с 1985 по 2013 годы. Результаты подтвердились: действительно, около половины всех статей содержат ошибки в вычислении p-значения.

В августе 2016 года авторы программы пошли дальше и решили деанонимизировать авторов научных работ, в которых обнаружены ошибки. Набор данных с анализом 688112 p-значений в 50945 научных статьях по психологии опубликован на сайте.

По мнению специалистов, это один из крупнейших в истории аудитов научных статей после их публикации. Эдакий краудсорсинг аудита научных работ.

Такая попытка не всем понравилась. Некоторые авторы статей, в том числе авторитетные учёные, недовольны тем, что их работы выставляют на показ и повергают такому аудиту. Например, своё недовольство выразила известный психолог Дороти Бишоп из Оксфордского университета, две работы которой помечены программой Statcheck, хотя в одной работе ошибок не обнаружилось. Дороти Бишоп считает, что такие автоматические отчёты с указанием 0 ошибок - это не самый лучший способ сообщать статистику. Якобы попадание в список для аудита дискредитирует авторов таких работ. Относительно другой работы с ошибками Дороти Бишоп собирается проконсультироваться со своим соавтором и внести исправления в работу. В то же время она желает провести аудит самой программы Statcheck, потому что если она допускает хотя бы 10% ложных срабатываний, это наносит урон научному сообществу.

Другие авторы, наоборот, гордятся, что бот выдаёт по их работам автоматический отчёт с указанием 0 ошибок. Симпатичная профессор Дженнифер Такетт спрашивает, можно ли повесить отчёт в рамочку. Вот это правильный подход, с чувством юмора.

Приглашение к обсуждению прочитанного

Из wikipedia.org

Свободная энциклопедия

Статистические гипотезы, предположения о виде распределения и свойствах случайной величины, которые можно подтвердить или опровергнуть применением статистических методов к данным выборки.

К тексту

Генеральная совокупность, совокупность всех объектов, относительно которых учёный намерен делать выводы при изучении конкретной проблемы.

К тексту

Выборочное исследование

Sampling is concerned with the selection of a subset of individuals from within a statistical population to estimate characteristics of the whole population.

К тексту

Statistical significance is attained whenever the observed p-value of a test statistic is less than the significance level defined for the study.

К тексту

Нулевая гипотеза - гипотеза, которая проверяется на согласованность с имеющимися выборочными данными.

К тексту

p-значение, величина, используемая при тестировании статистических гипотез.

К тексту

Ошибки первого рода, в математической статистике - это ключевые понятия задач проверки статистических гипотез.

К тексту

Basic and Applied Social Psychology

Basic and Applied Social Psychology is a bi-monthly psychology journal published by Taylor & Francis.

К тексту

Университет Тилбурга

Tilburg University is a public research university specializing in the social and behavioral sciences, economics, law, business sciences, theology and humanities, located in Tilburg in the southern part of the Netherlands.

К тексту

txt

Те́кстовый файл - компьютерный файл, содержащий текстовые данные.

К тексту

Xpdf

Xpdf, свободная программа для просмотра PDF для X Window System и Motif.

К тексту

R

R, язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU.

К тексту

CRAN, R и дополнительные пакеты распространяются через CRAN.

К тексту

Краудсорсинг, привлечение к решению тех или иных проблем инновационной производственной деятельности широкого круга лиц для использования их творческих способностей, знаний и опыта по типу субподрядной работы на добровольных началах с применением инфокоммуникационных технологий.

К тексту

Дороти Бишоп

Dorothy Bishop (b. 1952) is a British psychologist specialising in developmental disorders.

К тексту

Бот, специальная программа, выполняющая автоматически и/или по заданному расписанию какие-либо действия через те же интерфейсы, что и обычный пользователь.

К тексту Кто же будет изображен на новых купюрах