Решение было протестировано на 6 689 клинических случаях сердечно-сосудистых заболеваний из международной базы MIMIC-III. Разработанный механизм позволяет ИИ не только формировать диагноз, но и объяснять, насколько он уверен в своем выводе, а также сравнивать собственный результат с диагнозом, поставленным врачом. Каждый ответ системы оценивается по трем параметрам – уровень уверенности, сходство с врачебным заключением и качество объяснения.
Система объединяет эти показатели в единый индекс доверия. Если объяснение выглядит неполным или неубедительным, разработка требует более высокой степени уверенности от модели, прежде чем врач сможет принять ее диагноз. Такой подход позволяет фильтровать ненадежные решения ИИ и сокращает число ситуаций, когда врач вынужден ставить их под сомнение. Так, при высокой уверенности модели (90–99%) врачи отклоняли лишь 1,7% рекомендаций, при низкой (70–79%) – почти все. Когда обоснование было минимальным, диагнозы отклонялись в 73,9% случаев, а при более понятных и развернутых объяснениях – в 49,3%.
Авторы подчеркивают, что одно из главных препятствий для внедрения ИИ в клиническую практику – это отсутствие прозрачности и точной калибровки уверенности. Новая система делает взаимодействие врача и ИИ более осмысленным: врач получает не просто готовый диагноз, а сопровождающее объяснение и оценку надежности. Такой формат снижает риск ошибок, связанных с чрезмерным доверием или, наоборот, недоверием к технологии, и помогает врачам быстрее принимать решения.
Предыдущие исследования показывают, насколько остро стоит проблема точности и надежности ИИ. Так, ученые из Германии, Великобритании и США в работе, опубликованной в журнале Nature Medicine в 2024 году, выяснили, что крупные языковые модели пока значительно уступают врачам в постановке диагнозов. При анализе 2,4 тысячи случаев заболеваний брюшной полости ИИ определял патологию правильно лишь в 13–68% случаев против 84–86% у специалистов. Авторы отмечали, что модели часто не следуют диагностическим инструкциям, неправильно интерпретируют результаты анализов и меняют выводы при незначительных изменениях запросов.
Исследователи считают, что предложенный подход может стать основой для будущих стандартов надежного и подотчетного ИИ в здравоохранении. В дальнейшем механизм планируется адаптировать для онкологии, неврологии и инфекционных заболеваний, а также интегрировать в электронные медицинские карты. Следующий этап – испытания в реальных клинических условиях, которые позволят оценить, как разработанная система влияет на точность диагностики и качество лечения пациентов.
Ранее ученые Массачусетского технологического института и Гарвардского университета доказали, что большинство оценок медицинских систем ИИ проводятся на нереалистичных данных и не отражают их реальных результатов. Они назвали такую ситуацию «иллюзией эффективности» и подчеркнули, что только использование реальных клинических данных и прозрачных алгоритмов позволит объективно оценить пользу ИИ для здравоохранения.