Генетический прогноз рецидива рака: ученые проверили, можно ли доверять компьютерным моделям

В биомедицинских исследованиях алгоритмы машинного обучения часто используются для анализа данных, например для предсказания рецидива рака. Однако не всегда ясно, находят ли эти алгоритмы значимые закономерности или подстраиваются под случайные шумы в данных. Ученые из НИУ ВШЭ, ИБХ РАН и МГУ разработали тест, который позволяет определить эту разницу. Он может стать важным инструментом для проверки надежности алгоритмов в медицине и биологии. Исследование опубликовано в цифровом архиве arXiv.
Методы машинного обучения помогают анализировать сложные биологические данные, например предсказывать вероятность рецидива рака по экспрессии генов — уровню активности участков ДНК в клетках. Однако не всегда ясно, находят ли эти алгоритмы значимые закономерности или подстраиваются под случайные шумы в данных.
Команда ученых из НИУ ВШЭ, ИБХ РАН и МГУ разработала тест, который позволяет проверить, насколько надежно классификатор различает группы пациентов. В данном случае речь идет о двух группах: те, у кого рецидив произошел, и те, у кого его не было. Если модель действительно выявляет биологически значимые различия, значит, она работает корректно. Если же алгоритм просто случайно делит данные, его точность может быть обманчиво высокой. Ученые сосредоточились на линейных классификаторах — одном из самых частых инструментов машинного обучения, применяемых в биомедицине.
Антон Жиянов
«Мы хотели проверить, насколько вероятно, что даже случайно сгенерированные (синтетические) данные можно разделить линейным классификатором не хуже, чем реальные биологические образцы. Для этого мы рассчитали верхнюю границу p-значения — число, которое показывает вероятность того, что модель “угадывает”. Чем ниже это значение, тем надежнее классификатор», — рассказывает научный сотрудник Лаборатории молекулярной физиологии НИУ ВШЭ Антон Жиянов.
Исследователи провели серию экспериментов на синтетических данных, в ходе которых могли точно контролировать степень различий между классами. Затем они применили новый тест к реальным медицинским моделям, предсказывающим риск рецидива рака молочной железы.
Оказалось, что большинство классификаторов не выявляли реальных различий между пациентами с рецидивом и без него. При дополнительной проверке 559 из 570 моделей показали случайные результаты. Это значит, что многие алгоритмы могут казаться точными, хотя на самом деле их предсказания основаны на совпадениях, а не на реальных закономерностях.
Однако исследователи нашли и надежные модели, которые выявляют биологически значимые закономерности. Одной из них оказался классификатор, который ориентировался на уровень активности генов ELOVL5 и IGFBP6. Этот алгоритм прошел дополнительную проверку на независимой выборке данных и показал, что различия в экспрессии этих генов действительно связаны с риском рецидива рака.
Каждая точка на графике — человек, у которого измерили экспрессию двух генов — IGFBP6 (по оси X) и ELOVL5 (по оси Y). Оранжевые точки — люди с рецидивом, а синие — без. На первом графике эти точки (люди) четко разделены прямой (линейным классификатором). На втором графике точки расположены хаотично, классификатор не идентифицирует закономерности между экспрессией и реальным рецидивом.
Александр Тоневицкий
«Наш тест может стать важным инструментом для проверки надежности алгоритмов в биологии и медицине. Он помогает избежать ложных выводов и сосредоточиться на моделях, которые действительно находят важные закономерности, что критично для принятия решений о лечении пациентов», — комментирует профессор факультета биологии и биотехнологии Александр Тоневицкий.
Работа выполнена при поддержке Программы фундаментальных исследований НИУ ВШЭ в рамках проекта «Центры превосходства».
Вам также может быть интересно:
Биологи ВШЭ получили «молекулярный отпечаток» преэклампсии
Исследователи НИУ ВШЭ использовали новый способ моделирования состояния гипоксии в клетках плаценты при беременности, осложненной преэклампсией, и обнаружили молекулярные маркеры кислородного голодания тканей. Гипоксия — один из ключевых механизмов преэклампсии, полученные результаты важны для более точной и своевременной диагностики заболевания, а также для разработки эффективных методов лечения. Работа опубликована в журнале Placenta.
Творческая работа как лекарство от выгорания
Творческая и доброжелательная атмосфера, новые методы в Международной лаборатории (впоследствии центре) социокультурных исследований привлекают молодых исследователей. За годы работы в Вышке они становятся учеными и преподавателями, известными в России и за рубежом. О своем пути в центре и в Вышке, исследованиях и роли наставников в научных успехах рассказали главный научный сотрудник ЦСКИ Зарина Лепшокова и ведущий научный сотрудник Екатерина Бушина.
Физики НИУ ВШЭ выяснили, что происходит внутри устойчивого вихря
В атмосфере и в океане часто наблюдаются крупные вихри с характерными спиральными рукавами. Физики из НИУ ВШЭ объяснили, как они формируются и почему сохраняют свою структуру. Оказалось, что скорости в точках, расположенных вдоль одной дуги вихря, остаются связанными даже на больших расстояниях. При этом в направлении от центра вихря эта связь быстро ослабевает. Такие различия помогают объяснить образование рукавов и могут улучшить модели атмосферных и океанических течений. Результаты опубликованы в Physical Review Fluids.
Сохранить рациональность в период турбулентности
Международная лаборатория логики, лингвистики и формальной философии НИУ ВШЭ исследует логику и рациональность в изменившемся мире, характеризующемся многообразием логических систем и рациональных агентов. Лаборатория поддерживает и развивает научные связи с российскими и зарубежными партнерами. Новостная служба «Вышка.Главное» побеседовала о ее деятельности с заведующей лабораторией, профессором Еленой Драгалиной-Черной.
Гонка за ресурсами и зеленый переход: три неожиданных вывода исследователей Форсайт-центра о климате и бедности
За фасадом зеленой энергетики, которая для большинства ассоциируется с солнечными панелями, электромобилями и сокращением выбросов СО₂, скрывается сложный узел геополитических интересов, межстранового неравенства и ресурсных ограничений. Ученые из Лаборатории исследований науки и технологий (ЛИНТ) Форсайт-центра ИСИЭЗ НИУ ВШЭ опубликовали цикл статей в ведущих международных журналах о скрытых и явных конфликтах вокруг критически важных металлов и минералов и связанных с ними процессов в энергетике.
«Там, где невозможно точно предсказать результат, возникает стохастика»
Международная лаборатория стохастического анализа и его приложений НИУ ВШЭ изучает системы и явления, в которых случайность играет ключевую роль. Цель — прогнозирование различных явлений и их развития. «Вышка.Главное» побеседовала с заведующим лабораторией Владимиром Пановым и ее научным руководителем Валентином Конаковым.
Биологи НИУ ВШЭ обнаружили уникальные свойства микроРНК miR-93-5р при раке предстательной железы
Исследователи факультета биологии и биотехнологии НИУ ВШЭ изучили, как различные формы одной и той же микроРНК влияют на работу генов при аденокарциноме предстательной железы. Оказалось, что в некоторых случаях микроРНК могут усиливать функции друг друга, подавляя одни и те же гены. Работа помогает по-новому взглянуть на молекулярные механизмы развития опухолей и поиск биомаркеров заболевания. Результаты опубликованы в журнале PeerJ.
Математическая физика в Вышке: международный уровень
Международная лаборатория зеркальной симметрии и автоморфных форм НИУ ВШЭ (МЛЗС) и Пекинский институт математических наук и приложений (BIMSA) провели совместную онлайн-конференцию по математической физике. Результаты представленных исследований МЛЗС будут опубликованы в ведущих научных журналах.
Тест «КардиоЖизнь» Вышки — в числе победителей премии Data Fusion Awards 2026
Разработка ученых Центра биомедицинских исследований и технологий Института ИИ и цифровых наук ФКН ВШЭ — генетический тест «КардиоЖизнь» — одержала победу в Общероссийской кросс-отраслевой премии в области технологий работы с данными и ИИ Data Fusion Awards. Проект занял первое место в номинации «Партнерство науки и бизнеса», показав успешную модель трансфера технологий из университетской науки в реальный сектор здравоохранения.
«Хотелось бы создать фотонно-интегральную схему, которую можно будет применить на практике»
Научный сотрудник Международной лаборатории квантовой оптоэлектроники НИУ ВШЭ в Санкт-Петербурге Никита Фоминых пришел в Вышку ради творческой атмосферы и возможности проводить эксперименты и исследования на уникальном оборудовании лаборатории. Недавно он защитил кандидатскую диссертацию, посвященную изучению и разработке компонентов для фотонных интегральных схем. О работе в лаборатории и о своих исследовательских планахученый рассказал «Вышке.Главное».


