УДК 001.98:159.9.072:51-77 Анатолий Ализар. ЛЖЕНАУКА. ВЕРИТЬ ЛИ НАУЧНЫМ СТАТЬЯМ ПО ПСИХОЛОГИИУровень значимости и p-значение в математической статистике С каждым годом растёт количество публикаций в научных журналах, в том числе публикаций по гуманитарным наукам. Согласно определению Бахтина,
Неисчерпаемость смысла и значения бытия не мешает анализировать результаты научных исследований статистическими методами. В частности, выводы в исследованиях по экспериментальной психологии часто являются результатом тестирования значимости нулевой гипотезы. Но есть большое подозрение, что авторы некоторых научных работ не очень сильны в математике. Статистическая гипотеза - утверждение относительно неизвестного параметра генеральной совокупности на основе выборочного исследования. Для обоснования заключения необходимо тестирование результатов, на которых строится гипотеза, на статистическую достоверность. Надёжность определяется тем, насколько вероятно, что обнаруженная в выборке связь подтвердится на другой выборке той же генеральной совокупности. Очевидно, что провести исследование на всей выборке практически невозможно, а провести многократное исследование на разных выборках очень трудно. Поэтому широко используются методы статистики. Они позволяют оценить вероятность случайного получения такого различия при условии, что на самом деле различий в генеральной совокупности нет. Нулевая гипотеза - гипотеза об отсутствии различий. Согласно нулевой гипотезе, различие между значениями недостаточно значительно, а независимая переменная не оказывает никакого влияния. В современных научных работах нулевые гипотезы часто проверяют с использованием p-значения. Эта величина равна вероятности того, что случайная величина с данным распределением примет значение, не меньшее, чем фактическое значение тестовой статистики. Например, уровень значимости 0,05 означает, что допускается не более чем 5%-ная вероятность ошибки. Другими словами, нулевую гипотезу можно отвергнуть в пользу альтернативной гипотезы, если по результатам статистического теста вероятность случайного возникновения обнаруженного различия не превышает 5%, т.е. p-значение не превышает 0,05. Если же этот уровень значимости не достигается, считают, что разница вполне может быть случайной и поэтому нельзя отклонить нулевую гипотезу. Таким образом, p-значение соответствует риску совершения ошибки первого рода. Использование p-значений для проверки нулевых гипотез в работах по медицине подвергается критике со стороны многих специалистов. Более того, в 2015 году один из научных журналов - Basic and Applied Social Psychology - вовсе запретил публикацию статей, в которых используются p-значения. Журнал объяснил своё решение тем, что сделать исследование, в котором получено p < 0,05 не очень сложно, и такие значения p слишком часто становятся оправданием для низкопробных исследований. На практике использование p-значений нередко приводит к статистическим ошибкам первого рода - ошибкам обнаружить различия или связи, которые на самом деле не существуют. В 2015 году немало шуму наделала статья студентки из университета Тилбурга Мишель Нюйтен с коллегами, опубликованная в журнале Behavior Research Methods. Девушка обнаружила, что примерно половина всех научных статей по клинической психологии содержат как минимум одно противоречивое p-значение. Более того, в каждой седьмой работе есть чрезвычайно противоречивое p-значение, которое приводит к ошибке первого рода. То есть к обнаружению различий или связей, которые на самом деле не существуют. Мишель Нюйтен констатирует, что часто эти статистические ошибки совпадают с выводами, которые делают авторы научных работ. Это наводит на мысль, что некоторые психологи проводят исследования с прицелом на получение конкретного результата, под который сознательно или неосознанно подгоняют статистику. В помощь учёным, для проверки корректности статистических вычислений, Мишель с коллегами разработали программу Statcheck. Эта программа извлекает статистику из научных статей и заново вычисляет p-значения. Для работы программы нужен ещё инструмент по конвертации документов PDF в формат TXT. Например, Xpdf. Программа написана на языке программирования R, который создан специально для статистических вычислений. Библиотека устанавливается напрямую из репозитория CRAN:
С помощью программы Statcheck исследователи проверили более 250000 p-значений в статьях, опубликованных в научных журналах по психологии с 1985 по 2013 годы. Результаты подтвердились: действительно, около половины всех статей содержат ошибки в вычислении p-значения. В августе 2016 года авторы программы пошли дальше и решили деанонимизировать авторов научных работ, в которых обнаружены ошибки. Набор данных с анализом 688112 p-значений в 50945 научных статьях по психологии опубликован на сайте. По мнению специалистов, это один из крупнейших в истории аудитов научных статей после их публикации. Эдакий краудсорсинг аудита научных работ. Такая попытка не всем понравилась. Некоторые авторы статей, в том числе авторитетные учёные, недовольны тем, что их работы выставляют на показ и повергают такому аудиту. Например, своё недовольство выразила известный психолог Дороти Бишоп из Оксфордского университета, две работы которой помечены программой Statcheck, хотя в одной работе ошибок не обнаружилось. Дороти Бишоп считает, что такие автоматические отчёты с указанием 0 ошибок - это не самый лучший способ сообщать статистику. Якобы попадание в список для аудита дискредитирует авторов таких работ. Относительно другой работы с ошибками Дороти Бишоп собирается проконсультироваться со своим соавтором и внести исправления в работу. В то же время она желает провести аудит самой программы Statcheck, потому что если она допускает хотя бы 10% ложных срабатываний, это наносит урон научному сообществу. Другие авторы, наоборот, гордятся, что бот выдаёт по их работам автоматический отчёт с указанием 0 ошибок. Симпатичная профессор Дженнифер Такетт спрашивает, можно ли повесить отчёт в рамочку. Вот это правильный подход, с чувством юмора. Приглашение к обсуждению прочитанного |
Из wikipedia.orgСтатистические гипотезы, предположения о виде распределения и свойствах случайной величины, которые можно подтвердить или опровергнуть применением статистических методов к данным выборки. Генеральная совокупность, совокупность всех объектов, относительно которых учёный намерен делать выводы при изучении конкретной проблемы. Sampling is concerned with the selection of a subset of individuals from within a statistical population to estimate characteristics of the whole population. Statistical significance is attained whenever the observed p-value of a test statistic is less than the significance level defined for the study. Нулевая гипотеза - гипотеза, которая проверяется на согласованность с имеющимися выборочными данными. p-значение, величина, используемая при тестировании статистических гипотез. Ошибки первого рода, в математической статистике - это ключевые понятия задач проверки статистических гипотез. Basic and Applied Social Psychology is a bi-monthly psychology journal published by Taylor & Francis. Tilburg University is a public research university specializing in the social and behavioral sciences, economics, law, business sciences, theology and humanities, located in Tilburg in the southern part of the Netherlands. Те́кстовый файл - компьютерный файл, содержащий текстовые данные. Xpdf, свободная программа для просмотра PDF для X Window System и Motif. R, язык программирования для статистической обработки данных и работы с графикой, а также свободная программная среда вычислений с открытым исходным кодом в рамках проекта GNU. CRAN, R и дополнительные пакеты распространяются через CRAN. Краудсорсинг, привлечение к решению тех или иных проблем инновационной производственной деятельности широкого круга лиц для использования их творческих способностей, знаний и опыта по типу субподрядной работы на добровольных началах с применением инфокоммуникационных технологий. Dorothy Bishop (b. 1952) is a British psychologist specialising in developmental disorders. Бот, специальная программа, выполняющая автоматически и/или по заданному расписанию какие-либо действия через те же интерфейсы, что и обычный пользователь. |