ПРАКТИЧЕСКОЕ РУКОВОДСТВО ПО КРИТИЧЕСКОМУ ЧТЕНИЮ НАУЧНОЙ ЛИТЕРАТУРЫ
ДЛЯ СПЕЦИАЛИСТОВ ПЕРИНАТАЛЬНОЙ СФЕРЫ

КАК ЧИТАТЬ И ПОНИМАТЬ НАУЧНЫЕ ИССЛЕДОВАНИЯ В АКУШЕРСТВЕ

И не попасться на красивые выводы и заголовки СМИ

Введение

В последние годы объем научной литературы, в том числе в акушерстве, растет экспоненциально, просто не оставляя читателям шанса успевать знакомиться со всеми новинками. При этом не каждая опубликованная статья одинаково надежна и не каждая клинически применима. И задача скорее в том, чтобы быстро отделить статьи, способные изменить клиническую практику, от тех, что не должны на нее влиять, даже если их выводы звучат громко и впечатляюще. Этот гайд собирает рекомендации из методических публикаций о чтении научной литературы и переводит их в практический инструмент для перинатальных специалистов.

Любая научная публикация — это аргументированная интерпретация автора.
Задача читателя — реконструировать цепочку
«Вопрос → Дизайн → Данные → Интерпретация»
и решить самостоятельно, выдерживает ли эта цепочка критику.

1. С чего начать: цель чтения и тип статьи

Прежде чем открывать статью целиком, стоит ответить на два вопроса.

Зачем я это читаю?

Цель чтения определяет, на что обращать внимание. Можно выделить несколько типичных целей: обновить знания по специальности, найти решение конкретной клинической проблемы, разобраться в этиологии/течении заболевания, понять патофизиологию, найти идею для собственного исследования, выполнить задание преподавателя, найти подтверждение своей точки зрения, произвести впечатление на коллег. Если цель — быстро понять, применим ли новый протокол к вашей практике, можно сразу переходить к разделу о популяции и контексте исследования; если цель — разобраться в патофизиологии, больше времени стоит уделить введению.

Какой тип статьи передо мной?

Оригинальное исследование, обзор, систематический обзор или метаанализ, описание случая/серии случаев, методическая статья — у каждого типа публикаций свои правила чтения и свой стандарт доказательности. Обзорные статьи пишутся экспертами и не обязаны следовать структуре IMRAD (Introduction, Methods, Results, Discussion), за исключением систематических обзоров и метаанализов, которые такую структуру обычно сохраняют. Выбор типа статьи зависит от формата вашего вопроса:

Если нужна идея для исследования, то ваш приоритет — оригинальные исследования, РКИ, контролируемые испытания, экспериментальные и когортные исследования или исследования «случай-контроль»
Если нужен ответ по диагностике, терапии или прогнозу — ищите обзоры, материалы конференций, учебники, серии случаев
Если нужен обзор темы или обновление — нарративные/литературные обзоры, систематические обзоры или метаанализы

2. Забудьте про линейное чтение

Главное правило, которое подчеркивает почти каждый методический текст о чтении научных статей: никогда не читайте статью от начала до конца по порядку. Эта рекомендация основана на наблюдениях, как читают статьи опытные исследователи. В 2024 году был проведен опрос 139 ученых и врачей, преимущественно из медицинских и биологических наук, который показал, что большинство респондентов не читают научные публикации в классическом IMRAD-порядке (1). Авторы заметили: чем важнее раздел воспринимается читателем и чем легче он читается, тем раньше он будет прочитан. По сути, не существует единого, правильного порядка чтения, который нужно искусственно соблюдать, но есть логика, которая работает лучше линейного чтения:

Заголовок и абстракт — решаем, стоит ли продолжать
Заключение/выводы (либо последний абзац обсуждения) — что именно автор хочет, чтобы вы запомнили
Введение — какой именно вопрос был поставлен и почему
Таблицы и рисунки — самый быстрый способ увидеть, что на самом деле было найдено, до того, как авторы предложат свою интерпретацию
Результаты (текст) — детали находок без интерпретации
Методы — как это было сделано технически; сюда стоит возвращаться каждый раз, когда возникает вопрос о валидности результата
Обсуждение — субъективная интерпретация авторов, которую читатель может сравнить со своей интерпретацией тех же данных
Заключение (повторно) — совпадает ли оно с тем, что вы вынесли из данных самостоятельно?

Контринтуитивный прием

Статья «Как избежать когнитивных искажений при чтении научных статей» (2) предлагает осознанно пропускать вывод абстракта при первом чтении, переходя сразу к разделу «Введение». Это позволит вам избежать ловушки якорения, при которой вы запоминаете интерпретацию автора и хуже можете сделать собственные выводы, не связанные с теми, что только что прочли. Такой прием противоречит самому распространенному поведению читателей, и именно поэтому стоит знать о нем заранее, осознанно выбирая порядок чтения.

3. Заголовок и абстракт: визитная карточка и первая ловушка

Заголовок можно сравнить с лицом статьи: хороший заголовок информативен и самодостаточен, позволяя читателю сразу понять, о чем пойдет речь, даже без обращения к полному тексту. Абстракт у большинства современных журналов структурирован (введение/гипотеза, методы, результаты, выводы) именно для того, чтобы читатель мог быстро ухватить суть, и журналы часто ограничивают абстракт по числу слов, что вынуждает авторов быть лаконичными. При чтении абстракта стоит держать в голове вопросы: о чем было исследование, почему и как оно проводилось, какие результаты получены и какие выводы из них сделаны — а затем отмечать, найдены ли на них ответы после чтения полного текста.

Ключевая ловушка абстракта

Абстракт — это резюме, написанное самим автором, и оно по определению формулируется так, чтобы привлечь читателя. Это означает, что вывод абстракта — не обязательно объективное заключение. Здесь могут работать сразу несколько когнитивных искажений:

Эффект фрейминга — то, как сформулирован результат, меняет восприятие читателя, даже если объективные цифры идентичны. «Снижает риск осложнений на 50%» звучит совершенно иначе, чем «снижает абсолютный риск с 2% до 1%», хотя оба утверждения описывают один и тот же эффект
Эффект якоря — первая информация, которую вы получаете по теме, задает точку отсчета для всей последующей интерпретации
Предвзятость поспешного завершения — склонность формировать окончательное мнение до того, как вы увидели все данные и проверили их. Для журналов, где абстракт доступен всем, а полный текст — только за деньги, абстракт нередко становится единственным, что прочитает врач, принимающий решение, — что делает эту ловушку особенно опасной именно в клинической практике.

4. Дизайн исследования — фундамент, без которого все остальное бессмысленно

Прежде чем оценивать какие-либо цифры, нужно понять архитектуру исследования: какой вопрос задавался, кого с кем сравнивали и каким образом распределялось воздействие.

Рандомизированные контролируемые испытания (РКИ) считаются золотым стандартом, поскольку рандомизация равномерно распределяет исходные характеристики между группами, снижая риск систематической ошибки, и повышает уверенность в том, что именно изучаемое вмешательство, а не посторонний фактор, привело к наблюдаемому изменению исхода. Однако в акушерстве и гинекологии рандомизация пациенток не всегда возможна или этична. Если вмешательство затрагивает целое отделение или клинику (например, внедрение протокола ведения родов), отдельных пациенток нельзя разделить на группы без риска смешения эффекта между группами или этических проблем (например, нельзя оказывать поддержку грудного вскармливания пациентке в одной палате и не оказывать соседке). В таких случаях применяются альтернативные дизайны:

Кластерно-рандомизированные исследования случайным образом распределяют клиники/отделения/регионы (пример: Kramer, M. S., Chalmers, B., Hodnett, E. D., Sevkovskaya, Z., Dzikovich, I., Shapiro, S., … & PROBIT Study Group. (2001). Promotion of Breastfeeding Intervention Trial (PROBIT): a randomized trial in the Republic of Belarus. Jama, 285(4), 413−420.)
Ступенчатый дизайн, при котором вмешательство последовательно вводится в разных подразделениях, а порядок внедрения может быть рандомизирован (пример: Perkins, R. B., Legler, A., Jansen, E., Bernstein, J., Pierre-Joseph, N., Eun, T. J., … & Hanchate, A. (2020). Improving HPV vaccination rates: a stepped-wedge randomized trial. Pediatrics, 146(1), e20192737.)
Контролируемый дизайн до-после, в котором есть сопоставимая группа, не подвергавшаяся вмешательству; измерение однократно до и однократно после в обеих группах (пример: Chauleur, C., Gris, J. C., Laporte, S., Chapelle, C., Bertoletti, L., Equy, V., … & STRATHEGE Group. (2018). Benefit of risk score-guided prophylaxis in pregnant women at risk of thrombotic events: a controlled before-and-after implementation study. Thrombosis and haemostasis, 118(09), 1564−1571.)

Есть также и другие варианты дизайнов — временные ряды, разность разностей, адаптивный дизайн, неконтролируемый дизайн до-после. О них можно подробнее почитать тут: «From Research to Practice in OBGYN: How to Critically Interpret Studies in Implementation» (3).

Однако далеко не все исследования в акушерстве могут быть рандомизированными. В клинической литературе широко используются и другие дизайны — каждый со своими задачами, сильными сторонами и ограничениями:

Когортные исследования — наблюдение за группой женщин (когортой) с течением времени, могут быть про- или ретроспективными. В проспективном когортном исследовании участницы набираются в настоящем и наблюдаются в будущем до наступления исхода (пример: Jennewein, L., Agel, L., Hoock, S. C., Hentrich, A. E., Louwen, F., & Zander, N. (2024). Does overweight and obesity have an impact on delivery mode and peripartum outcome in breech presentation? A FRABAT cohort study. Archives of gynecology and obstetrics, 310(1), 285−292.). В случае ретроспективного когортного исследования используется уже существующая база данных или медицинские карты: авторы как бы возвращаются в прошлое и анализируют, какие воздействия были у женщин и какие исходы у них наступили (пример: Blanc-Petitjean, P., Meunier, G., Sibiude, J., & Mandelbrot, L. (2020). Evaluation of a policy of restrictive episiotomy on the incidence of perineal tears among women with spontaneous vaginal delivery: a ten-year retrospective study. Journal of gynecology obstetrics and human reproduction, 101 870.)
Исследования случай-контроль. Авторы отбирают участниц с редким исходом (случаи) и сопоставимых женщин без этого исхода (контроли), а затем сравнивают, какие воздействия были в прошлом у тех и других. Этот дизайн особенно эффективен для изучения редких исходов: чтобы набрать достаточно случаев в когортном исследовании, потребовались бы десятки тысяч женщин, а в исследовании дизайна случай-контроль достаточно меньшее количество участниц (пример: Toijonen, A. E., Heinonen, S. T., Gissler, M. V., & Macharey, G. (2020). A comparison of risk factors for breech presentation in preterm and term labor: a nationwide, population-based case-control study. Archives of Gynecology and Obstetrics, 301(2), 393−403.)
Серия случаев. Представляет собой описание группы пациенток с похожим состоянием или вмешательством, без контрольной группы — такой дизайн позволяет заметить закономерности и генерировать гипотезы, но не позволяет делать выводы о причинно-следственных связях. Это самый низкий уровень доказательности среди аналитических исследований (пример: Panaitescu, A. M., Ciobanu, A. M., Gică, N., Peltecu, G., & Botezatu, R. (2021). Diagnosis and management of cesarean scar pregnancy and placenta accreta spectrum: case series and review of the literature. Journal of Ultrasound in Medicine, 40(9), 1975−1986.)
Качественные исследования изучают не цифры, а опыт, восприятие и смыслы, которые люди вкладывают в свои переживания. В перинатальной сфере это незаменимый инструмент, поскольку только такие исследования способны продемонстрировать, что на самом деле чувствуют женщины в родах, как медики воспринимают свою работу, с какими барьерами сталкиваются акушерки при внедрении новых протоколов и т. д. Авторы собирают данные через глубинные интервью, фокус-группы, наблюдение или телефонные опросы. Качественные исследования не дают ответа на вопрос «как часто» или «насколько эффективно», но дают ответ на вопрос «как это переживается» и «почему это происходит» (пример: Rubashkin, N., Torres, C., Escuriet, R., & Dolores Ruiz-Berdún, M. (2019). «Just a little help»: A qualitative inquiry into the persistent use of uterine fundal pressure in the second stage of labor in Spain. Birth, 46(3), 517−522.)
Систематические обзоры и метаанализы занимают вершину иерархии доказательств. Систематический обзор собирает все исследования по одному конкретному вопросу, оценивает их качество и суммирует результаты, а метаанализ дополнительно статистически объединяет данные из нескольких исследований, увеличивая общую выборку и точность оценок эффекта. В акушерстве метаанализы позволяют, например, объединить данные десятков РКИ по эффективности различных методов индукции родов и дать окончательный ответ, который ни одно отдельное исследование дать не могло (подробнее о том, как оценивать качество этого типа работ — ниже).

Чем выше исследование по иерархии доказательств — тем больше уверенность в выводе. Но для ответа на вопрос «что чувствует моя клиентка» качественное исследование скажет больше, чем любой РКИ, поэтому важно выбирать дизайн в соответствии со своими вопросами.

5. Относительный риск vs абсолютный риск

Пожалуй, это самая частая точка, где клинически значимая информация искажается — как в самих абстрактах, так и в медийных заголовках.

Абсолютный риск (АР или AR - Absolute Risk) — доля пациенток с исходом в данной группе. Если из 1000 женщин в группе вмешательства осложнение развилось у 10, абсолютный риск равен 1%
Относительный риск (ОР или RR - Relative Risk) — отношение риска в одной группе к риску в другой. Если в контрольной группе осложнение развилось у 20 из 1000 (2%), а в группе вмешательства — у 10 из 1000 (1%), относительный риск составляет 0,5, то есть снижение риска на 50%.

Проблема в том, что фраза «снижает риск на 50%» звучит как драматический клинический эффект, хотя абсолютная разница составляет всего 1 процентный пункт — то есть нужно пролечить 100 женщин, чтобы предотвратить один случай осложнения (показатель NNT, number needed to treat, в данном случае равен 100: 1/0,01=100). Это и есть классический эффект фрейминга, упомянутый в разделе 3: одна и та же арифметика, представленная как относительная величина, кажется куда более убедительной, чем при представлении в абсолютных числах.

Что делать на практике

Когда в тексте или новостной заметке встречается фраза вида «снижает риск на X%» без дополнительного контекста — это почти всегда относительный риск. Найдите исходные абсолютные частоты события в обеих группах и пересчитайте самостоятельно ARR и NNT (или NNH — number needed to harm, если речь идет о вреде)
Чем реже встречается исход в базовой популяции, тем сильнее относительный риск искажает восприятие эффекта по сравнению с абсолютным. Удвоение редкого риска (с 0,1% до 0,2%) дает «впечатляющие» +100% относительного риска, хотя абсолютная разница — 0,1 процентного пункта
Спрашивайте себя: для какой именно популяции получены эти цифры (базовый риск), и совпадает ли база риска у моих пациенток с базой риска участников исследования? Если базовый риск в вашей популяции отличается, абсолютный эффект может быть совершенно другим
Доверительные интервалы важны не только для относительного, но и для абсолютного эффекта: широкий доверительный интервал вокруг абсолютной разницы рисков означает, что истинный клинический эффект может быть как клинически значимым, так и пренебрежимо малым, даже если результат статистически значим.

6. Статистическая значимость не равна клинической значимости

Как пишет автор работы «Искусство чтения статей» (4), важно не только определить, является ли разница или ассоциация статистически значимой, но и оценить, достаточно ли она велика или существенна, чтобы быть клинически полезной. Иначе говоря, то, что статистически значимо, может не быть клинически значимым — и наоборот, клинически важный эффект может не достичь статистической значимости в недостаточно мощном исследовании. Что стоит проверять при чтении раздела результатов и статистики:

Какой статистический тест применялся и соответствует ли он гипотезе и типу данных. Понимание выбора статистического теста требует понимания того, какая именно гипотеза проверялась; распространенные тесты в акушерско-гинекологической литературе — t-критерий, ANOVA/F-тест, регрессионный анализ, критерий хи-квадрат, критерий Уилкоксона, критерий Краскела-Уоллиса — у каждого свои условия применимости и форма отчетности
Величина эффекта, а не только p-значение. P-значение говорит лишь о том, насколько вероятно, что наблюдаемая разница возникла случайно при условии, что истинного эффекта нет; оно ничего не говорит о размере эффекта и его клинической ценности. Разница в 0,2 мм рт. ст. может быть «статистически значимой» при достаточно большой выборке и абсолютно бесполезной клинически
Размер выборки и мощность исследования. Размер выборки влияет на способность исследования обнаружить значимые различия или ассоциации; адекватный размер выборки и достаточная статистическая мощность жизненно важны для надежных выводов. Маленькое исследование может не обнаружить реальный клинически значимый эффект, а очень большое исследование может «найти» статистически значимую разницу, которая не играет никакой роли в реальной практике
Доверительные интервалы. Они дают представление о точности оценки эффекта и должны рассматриваться вместе с p-значением, а не вместо него
Убыль участников к концу исследования. Важно проверить, все ли участницы, включенные в начале исследования, были учтены к его завершению; если нет — должно быть дано объяснение выбывания, а несоразмерная убыль между группами может полностью изменить интерпретацию результата.

7. Суррогатные исходы

Суррогатный (промежуточный) исход — это показатель, который, как предполагается, коррелирует с клинически значимым исходом, но сам по себе не является тем, что напрямую важно для пациентки или новорожденного. Классические примеры в акушерстве и неонатологии: уровень биомаркера вместо материнской смертности, длительность пребывания в стационаре вместо частоты осложнений, частота лабораторного отклонения вместо неонатальной заболеваемости.

Сюда относится предвзятость, связанная с правдоподобием механизма: читатель может относиться к результатам более благосклонно или более критично исходя из того, понимает ли он биологический механизм действия вмешательства, а не исходя из качества самих данных.

Почему это важно при чтении статьи

Суррогатный исход может улучшиться, а клинически значимый исход (материнская или неонатальная смертность, тяжелая заболеваемость, долгосрочное нейроразвитие ребенка) — не измениться или даже ухудшиться
Спросите себя: «Это исход, который важен для пациентки и ее ребенка сам по себе, или это путь к такому исходу, который мы пока просто предполагаем?» Есть ли независимые данные, подтверждающие, что изменение суррогата действительно транслируется в изменение того исхода, который имеет значение?

8. P-hacking и другие способы заставить данные говорить то, что выгодно автору

P-hacking это практика множественного тестирования данных разными способами (разные подгруппы, точки отсчета или статистические модели) до тех пор, пока не будет найден результат с p<0,05, который затем презентуется как заранее запланированная находка.

Сам термин не всегда фигурирует в методической литературе явно, но риск, который он описывает, прямо вытекает из нескольких связанных идей:

Самосбывающееся пророчество и предвзятость подтверждения. Ученый может тестировать только свою гипотезу и не учитывать альтернативные; как люди и как ученые, мы часто находим именно то, что ищем. Предвзятость подтверждения это склонность ценить результаты, подтверждающие предшествующие убеждения, или, наоборот, обесценивать те, что им противоречат. Это, по всей вероятности, одна из главных причин, по которым практики не убираются из обихода даже после качественных исследований, показавших их неэффективность: первые РКИ, показавшие, что рутинная эпизиотомия ассоциирована с повышенной заболеваемостью, были опубликованы в начале 1980-х, но ограничительное использование эпизиотомии стало стандартом практики лишь к середине 1990-х
Критическая проверка, требуемая от читателя, а не только от автора. Опубликованные статьи — не истины, высеченные в камне; это касается статей в высокорейтинговых журналах, статей видных ученых и статей, подтверждающих вашу собственную гипотезу, в той же мере, что и статей, которые ей противоречат. Ошибки иногда публикуются, но чаще видимые «ошибки» объясняются ограничениями методологии — предвзятостью выборки, неучтенными конфаундерами
Предвзятость внимания (селективное внимание). Склонность избирательно обращать внимание на конкретные части рукописи в ущерб другим. Если читатель сразу переходит к обсуждению, минуя самостоятельный анализ таблиц, он рискует увидеть только ту часть данных, которую выбрал подчеркнуть автор, и упустить интересные находки в таблицах, которые могли быть не отмечены автором в тексте
Иллюзия причинно-следственной связи. Естественная склонность интерпретировать корреляцию как причинно-следственную связь особенно характерна для обсервационных дизайнов.

Признаки избирательной отчетности и манипуляций с данными

Большое количество подгрупповых анализов без четкого указания, какие из них запланированы заранее (a priori), а какие найдены постфактум (post hoc, exploratory)
Первичный исход статьи отличается от того, что заявлено во введении или протоколе — один из самых надежных индикаторов избирательной отчетности
Обсуждение фокусируется на одном ярком статистически значимом результате на фоне множества незначимых сравнений
Отсутствие информации о том, как авторы справлялись со смещением и конфаундерами в дизайне и анализе.

9. Зачем нужен протокол исследования и предварительная регистрация

Раздел методов должен содержать достаточно деталей, чтобы исследование можно было воспроизвести, даже если на практике детали часто избыточно сжаты. Раздел методов — главный референс для тех, кто хочет повторить исследование, и именно сопоставление фактически опубликованных результатов с тем, что было заранее заявлено как цель исследования, позволяет читателю обнаружить расхождения.

Защита от outcome switching (подмена конечных точек, или выборочное сообщение об исходах). Если протокол зарегистрирован заранее (например, в реестре клинических испытаний) с указанием первичного и вторичных исходов, читатель может сравнить опубликованную статью с протоколом и заметить, если первичный исход был заменен на тот, по которому получился значимый результат.
Возможность воспроизведения. Подробное описание методов и протокола позволяет другим исследователям повторить исследование и подтвердить (или не подтвердить) его результаты — это усиливает достоверность исходной работы.
Оценка соответствия гипотезы и анализа. Введение должно заканчиваться формулировкой исследовательской гипотезы или цели; читателю стоит проверить, была ли она сформулирована и был ли в обсуждении дан ответ именно на нее.
Особенно важно для исследований внедрения. Признак качества — описание самой работы по достижению внедрения: какие шаги предприняты, чьи точки зрения учитывались, какая поддержка потребовалась на местах. Без заранее спланированного описания оценить, был ли успех следствием самого вмешательства или случайности, крайне сложно.

Практический ориентир

Если есть основания подозревать «подгонку» результата (слишком гладкая история, неожиданный главный исход, отсутствие предрегистрации для крупного РКИ), стоит поискать протокол исследования (часто публикуется отдельно или доступен в реестрах типа ClinicalTrials.gov) и сравнить заявленные в нем первичные и вторичные исходы с тем, что в итоге попало в публикацию как «главный результат».

10. Методы: где прячутся систематические ошибки

Методы часто воспринимаются как самый сложный для чтения раздел — и эмпирический опрос Shiely и соавт. (1) подтверждает это напрямую: «Результаты (рисунки и таблицы)» воспринимались с наибольшим трудом (26,3% поставили его на последнее место по легкости чтения), но «Методы» заняли второе место по сложности (25,6%). При этом в среде клинических эпидемиологов общепринято мнение, что именно дизайн методов определяет, стоит ли изучать статью вообще — и это создает парадокс: раздел, который теоретически наиболее важен для решения о доверии к статье, на практике читается реже и воспринимается как наименее важный.

Критерии включения и исключения. Похожи ли участницы исследования на пациенток вашей практики по характеристикам — расе, этнической принадлежности, возрасту, паритету, уровню образования, сопутствующим заболеваниям? Не были ли исключены те, кто, по логике, должен был быть включен?
Селективный набор участников. Классический пример: гипотетическое исследование улучшения продолжительности грудного вскармливания после дородового консультирования, в котором все участницы имели высокий семейный доход. Исследования по грудному вскармливанию — это, как правило, исследования, вызывающие положительные эмоции у акушерок и неонатологов, поэтому скромные по размеру эффекты могут переоцениваться из-за подтверждающего искажения читателя. Но если участницы нерепрезентативны по доходу, это открывает дверь конфаундингу: вероятно, именно возможность взять длительный отпуск с работы, а не консультирование само по себе, обусловила более долгое ГВ
Конфаундеры. Это неучтенные факторы, независимо влияющие на исход и связанные с изучаемым воздействием, которые искажают видимую связь между ними. Хорошая статья описывает, как авторы контролировали известные конфаундеры — через дизайн (рандомизация, ограничение, подбор пар) или через статистику (регрессионные модели, стратификация, псевдорандомизация)
Ослепление и его отсутствие. В акушерстве полное ослепление часто структурно невозможно даже в классических РКИ — и это нужно явно учитывать при оценке статьи, а не просто принимать как данность. Пациентка, как правило, знает, получает ли она эпидуральную анальгезию или нет; акушерка знает, какой протокол ведения родов применяется; хирург знает, какую технику он использует. В таких исследованиях ослепить можно только часть цепочки — например, того, кто оценивает исход, или специалиста, анализирующего данные, — и это принципиально лучше, чем отсутствие ослепления на всех уровнях. При чтении стоит явно выяснять: кто именно был ослеплен — участник, врач, оценщик исхода, аналитик? Чем больше уровней ослепления, тем ниже риск систематической ошибки. Если же ослепление невозможно ни на одном уровне (как в большинстве исследований хирургических техник, поведенческих вмешательств или имплементационных исследований), высококачественная статья должна явно признавать этот риск и описывать, как он контролировался аналитически — например, через ослепление при рандомизации, использование объективных (а не субъективных) исходов или независимую верификацию данных
Единица анализа. Если исследование рандомизировало кластеры, а анализ проводился на уровне отдельных пациенток без учета кластеризации, это искусственно увеличивает кажущуюся статистическую мощность и может привести к ложноположительным выводам
Учет убыли участников. Все ли участницы, включенные в начале исследования, прослежены до конца? Если нет — объяснена ли убыль и сопоставима ли она между группами?

11. Когнитивные искажения самого читателя

Отдельная и недооцененная часть критического чтения — осознание собственных предвзятостей читателя, а не только предвзятостей дизайна исследования. Систематическая ошибка в узком методологическом смысле — это диспропорциональное взвешивание в пользу или против чего-либо, превращающееся в систематическую ошибку, которая приводит к неточным выводам; но помимо ошибок дизайна существуют когнитивные искажения, которые влияют на то, как сам читатель оценивает прочитанное, независимо от качества исследования.

Когнитивные искажения — естественный результат паттернов обработки информации мозгом; это выработанные ассоциации и паттерны, повышающие эффективность мышления, потому что позволяют принимать решения быстро. Проблема в том, что те же искажения становятся вредными, когда искажают суждение и мешают объективному анализу.

Предвзятость подтверждения (Confirmation bias);Склонность ценить результаты, подтверждающие предшествующие убеждения, и обесценивать те, что им противоречат. Пример: врач, убежденный, что индукция родов повышает риск кесарева сечения, может с трудом воспринимать данные о том, что индукция на 41-й неделе безопаснее выжидательной тактики;После заголовка спросить себя: какой результат я ожидаю увидеть, и какой меня бы расстроил? Эффект фрейминга и эффект якоря (Framing/anchoring bias);Формулировка результата (относительный риск против абсолютного) и порядок получения информации задают тон всей интерпретации;Сознательно искать абсолютные цифры за относительными формулировками (см. раздел 5) Предвзятость преждевременного завершения (Premature closure bias);Финализация решения до того, как все данные представлены и проверены;Не формировать окончательное мнение сразу после абстракта, «придержать» вывод до самостоятельного просмотра таблиц Предвзятость правдоподобия и механизма действия (Plausibility/mechanism bias);Оценка исследования более позитивно или критично в зависимости от того, понятен ли механизм действия, а не от качества данных;Отделять вопрос «правдоподобен ли механизм» от вопроса «что показали данные РКИ» Предвзятость внимания (Attentional bias);Тенденция избирательно фокусироваться на одних частях рукописи, игнорируя другие;Сделать паузу после методов и до обсуждения — самостоятельно оценить таблицы и результаты, прежде чем читать интерпретацию автора Иллюзия причинности (Illusions of causality);Естественная склонность мозга интерпретировать корреляцию как причинность, особенно в обсервационных дизайнах;Перед причинным выводом уточнить дизайн, конфаундеры и альтернативные объяснения

Исследование Shiely и соавт. (1) показало, что причины, по которой респонденты читали «Обсуждение» сразу после абстракта, часто звучали как поиск сути находки или самого интересного — то есть стремление быстрее получить готовую интерпретацию, а не самостоятельно проверить данные. Это структурно создает риск, что читатель примет интерпретацию авторов раньше, чем сформирует свое собственное независимое мнение на основе таблиц и результатов.

Общий прием

Осознанная последовательность чтения, которая откладывает момент столкновения с готовой интерпретацией автора: заголовок и собственные ожидания → введение (вопрос исследования) → методы (кто и как был включен, какие переменные сравнивались) → собственная независимая остановка для оценки данных и таблиц → только после этого обсуждение и заключение. Эта последовательность не исключает все искажения, но снижает их влияние, позволяя читателю вынести собственное предварительное суждение до того, как он увидит чужое.

12. Как оценивать систематические обзоры и метаанализы

Систематические обзоры и метаанализы часто воспринимаются как вершина доказательной пирамиды, и для поиска ответа на вопрос «что в целом известно по теме» приоритетны именно литературные обзоры, систематические обзоры и метаанализы. Однако более высокий уровень в иерархии доказательности не означает автоматического иммунитета к ошибкам — систематический обзор воспроизводит и иногда усиливает ошибки исследований, на которых он построен.

Зарегистрирован ли протокол обзора заранее (например, в PROSPERO) с заданными критериями включения, стратегией поиска и планом анализа — это снижает риск, что авторы подбирали исследования или анализы постфактум под желаемый результат.
Насколько широк и систематичен поиск литературы — использовались ли множественные базы данных, ограничивался ли поиск по языку или дате без явного обоснования, оценивалась ли серая литература (риск publication bias — систематического недостающего звена из неопубликованных отрицательных результатов).
Гетерогенность включенных исследований. Насколько похожи друг на друга включенные исследования по дизайну, популяции, вмешательству и определению исхода? Высокая гетерогенность означает, что объединенная оценка эффекта может усреднять принципиально разные эффекты в разных подгруппах.
Качество включенных первичных исследований и то, как оно оценено. Использовались ли признанные инструменты оценки риска систематической ошибки (Cochrane Risk of Bias 2.0 для РКИ, ROBINS-I для нерандомизированных исследований)?
Соответствует ли вывод обзора силе включенных данных. Если большинство включенных исследований — обсервационные с высоким риском смещения, выводы не должны звучать так, будто причинно-следственная связь окончательно доказана.
Конфликт интересов и источники финансирования самого обзора, не только первичных исследований.

Обзорные статьи не обязаны следовать стандартной структуре IMRAD, за исключением систематических обзоров и метаанализов. Литературный/нарративный обзор отражает в первую очередь точку зрения и подбор литературы конкретного автора, и его следует читать как качественно иной по строгости документ, чем систематический обзор в классическом смысле.

13. Обсуждение и выводы: чье это мнение?

Раздел обсуждения — самый важный раздел статьи в смысле интерпретации, но именно поэтому к нему нужно подходить наиболее критично: это раздел, где исследовательские вопросы получают ответ и представляется смысл анализа и интерпретации данных. В норме никакие новые данные не должны появляться в обсуждении, и информация из других разделов не должна повторяться; вместо этого автор сравнивает свои результаты с похожими исследованиями, объясняет, в чем они отличаются или совпадают, описывает сильные и слабые стороны исследования и предлагает направления для будущих исследований.

Ключевое правило

Обсуждение — это интерпретации и мнения автора и соавторов, а не обязательно факты. Данные объективны (в той мере, в какой позволяет дизайн), а их интерпретация — всегда субъективный акт, который исследователи, имеющие разный опыт и точку зрения, могут провести по-разному, даже располагая одними и теми же данными.

Пять «C» для финальной оценки выводов

Category (категория) — какой это тип статьи? Экспериментальное исследование? Объединенный анализ предыдущих исследований? Представление новой методологии?
Context (контекст) — с какой другой литературой эта работа связана? Какие теоретические основания использовались для анализа проблемы?
Correctness (корректность) — обоснованы ли допущения, на которых строится вывод?
Contributions (вклад) — какой вклад вносит эта статья в существующее научное понимание?
Clarity (ясность) — статья хорошо написана и легко понимается?

Финальный практический прием: после прочтения всей статьи стоит вернуться к заключению еще раз. Хотя заключение уже было прочитано в начале, чтобы решить, стоит ли читать статью целиком, его стоит перечитать в финале чтения, чтобы подтвердить, совпадает ли первоначальный вывод с тем, что вы теперь знаете из полного текста. Если заключение не имело смысла раньше, оно может обрести смысл после прочтения всей статьи целиком — а если, наоборот, заключение теперь кажется натянутым по сравнению с тем, что показывают таблицы и результаты, это ценный самостоятельный сигнал.

14. Как статья становится новостью или рождение красивого заголовка

В реальной жизни значительная часть знаний, циркулирующих среди врачей и пациентов, приходит не из научных публикаций, а из их пересказа — в новостях, соцсетях, на форумах для пациентов. Понимание того, где именно происходит искажение на этом пути, помогает не только читать первоисточники самостоятельно, но и корректно реагировать, когда клиентка рассказывает о статье с заголовком в духе «Новое исследование доказало, что Х опасно/полезно».

Большинство искажений, рассмотренных выше, многократно усиливаются именно на этапе превращения статьи в новость:

Относительный риск превращается в сенсацию. Заголовок «Риск осложнения увеличивается на 100%» почти всегда журналистский пересказ относительного риска, скрывающий, что абсолютный рост составил, например, с 0,1% до 0,2%. Поскольку абстракт сам по себе уже написан так, чтобы привлечь читателя, а заголовок новости — производная уже от абстракта, искажение фрейминга срабатывает дважды.
Суррогатный исход выдается за клинический. «Новое исследование показало, что Х снижает риск осложнения Y» в новости часто означает, что в первичной статье было показано изменение лабораторного маркера или промежуточного показателя, ассоциированного с Y, но без доказательств причинности.
Заключение абстракта берется за окончательную истину без учета дизайна. Наблюдательное исследование с обнаруженной ассоциацией легко пересказывается языком причинности («вызывает», «защищает от»), хотя дизайн в принципе не позволяет делать причинные выводы; иллюзия причинности, к которой склонен и сам читатель, в новостном пересказе только усиливается игнорированием методологических нюансов.
Единичное исследование выдается за консенсус. Одно РКИ, показавшее, что определенный токолитик снижает частоту преждевременных родов в небольшой выборке, может быть подано в СМИ как «прорыв», хотя стоит помнить: результат должен быть воспроизведен в независимых работах на других популяциях и в других условиях, прежде чем влиять на практику. Именно поэтому клинические рекомендации строятся на систематических обзорах нескольких исследований, а не на одном, пусть и хорошо спланированном.
Преждевременное закрытие вопроса. Заголовки по своей природе тяготеют к окончательным формулировкам, что усиливает у читателя предвзятость преждевременного завершения — формируется ощущение, что вопрос решен, даже если научное сообщество все еще взвешивает противоречивые данные.

Лайфхак

Когда клиентка или коллега ссылаются на новость о свежей научной публикации, разумная первая реакция — задать вопросы, рассмотренные в этом гайде: что это за дизайн исследования, абсолютный или относительный эффект обсуждается, это клинический или суррогатный исход, это единичная работа или подтверждение целого корпуса данных. В большинстве случаев ответов на эти вопросы достаточно, чтобы перевести разговор с языка сенсации на язык клинически значимой вероятности.

15. Итоговый чек-лист критического чтения статьи перинатальной тематики

Ниже — сжатая версия всего разобранного выше, которую можно держать под рукой при разборе статьи в журнальном клубе или на личной консультации.

Перед чтением

Зачем я читаю эту статью? Это решает, на что обращать первоочередное внимание.
Какой тип статьи: оригинальное исследование, обзор, систематический обзор/метаанализ, имплементационное исследование?

Заголовок и абстракт

Заголовок информативен и отражает тип статьи, или его нужно расшифровывать?
Какой результат я ожидаю увидеть, и какой результат меня бы расстроил? (тест на собственную предвзятость подтверждения)
Не сформировал ли я окончательное мнение только на основании вывода абстракта?

Дизайн исследования

РКИ, систематический обзор, кластерное РКИ, качественное исследование, метаанализ, ступенчатый дизайн, литературный обзор, до-после с контролем или без, когортное исследование, случай-контроль?

Методы

Похожи ли участницы исследования на пациенток моей практики (возраст, паритет, этническая принадлежность, сопутствующие заболевания, социально-экономический статус)?
Кто был исключен, и не исключены ли именно те, для кого вопрос наиболее клинически значим?
Какие конфаундеры упомянуты, и как они контролировались?
Было ли исследование ослеплено там, где это возможно?
Все ли участницы прослежены до конца, и объяснена ли убыль?

Результаты

Абсолютный или только относительный риск приведен? Можно ли пересчитать абсолютную разницу и NNT/NNH самостоятельно?
Есть ли доверительные интервалы, и насколько они широки?
Это первичный заранее заявленный исход, или один из множества подгрупповых анализов, выбранный постфактум?
Это клинически значимый исход для матери или новорожденного, или суррогатный/промежуточный показатель?
Величина эффекта клинически значима?

Обсуждение и заключение

Это интерпретация авторов, а не доказанный факт!
Применены ли пять «C»?
Совпадает ли заключение с тем, что я вынес самостоятельно из таблиц и результатов?
Какие ограничения признают сами авторы, и какие я бы добавил?

Для обзорных статей отдельно

Зарегистрирован ли протокол, насколько широк поиск, оценена ли гетерогенность и качество первичных исследований, соответствует ли итоговый вывод силе включенных данных?

Если это новость, а не первоисточник

Найден ли первоисточник, и совпадает ли формулировка новости с формулировкой авторов?
Не превращен ли абсолютный эффект в относительный (или суррогатный исход в клинический) на этапе журналистского пересказа?
Единичное это исследование или часть подтвержденного корпуса данных?

Заключение

Критическое чтение научной литературы — это навык, который нарабатывается практикой, а не разовым прочтением методического руководства. Регулярное обсуждение прочитанных статей с коллегами закрепляет этот навык, заставляя сформулировать и защитить собственную интерпретацию, а не просто пассивно принять чужую. Обсуждение статьи вынуждает к активному, а не пассивному чтению: как отмечают авторы «Ten simple rules for reading a scientific paper» (5), обучение других — один из лучших способов учиться самому, и наблюдение «учить — значит учиться вдвойне» применимо к чтению научной литературы в той же мере, что и к клиническому обучению.

Ваше личное научное знание — как стена из кубиков Lego, где каждая прочитанная и критически оцененная статья становится отдельным кубиком, а понимание темы в целом складывается из того, как кубики связаны друг с другом.

Источники

Shiely, F., Gallagher, K., & Millar, S. R. (2024). How, and why, science and health researchers read scientific (IMRAD) papers. Plos one, 19(1), e0297034.
King, T. L. (2021). Avoiding cognitive biases when reading research studies. Journal of Midwifery & Women’s Health, 66(2), 141−142.
Rebecca, F. H., & Moniz, M. H. (2022). From research to practice in OBGYN: How to critically interpret studies in implementation. Clinical obstetrics and gynecology, 65(2), 277.
Balsarkar, G. (2022). Art of Reading an Article in the Journal. The Journal of Obstetrics and Gynecology of India, 72(1), 1−5.
Carey, M. A., Steiner, K. L., & Petri Jr, W. A. (2020). Ten simple rules for reading a scientific paper. PLoS computational biology, 16(7), e1008032.