Логотип Гарвардской медицинской школы. Источник: hms.harvard.edu
В новом исследовании, опубликованном в журнале Science, крупные языковые модели показали более высокую или сопоставимую точность диагностики в отделении неотложной помощи по сравнению с врачами.
Что известно
Работу провела команда исследователей из Гарвардской медицинской школы и медицинского центра Beth Israel Deaconess. Они проверяли, как модели OpenAI, в частности o1 и 4o, справляются с медицинскими кейсами, используя реальные данные пациентов.
В одном из экспериментов было проанализировано 76 случаев обращения пациентов в отделение неотложной помощи. Два врача-терапевта формировали диагнозы параллельно с моделями ИИ. После этого другие два врача, которые не знали, где ответы человека, а где ИИ, оценивали точность диагнозов.
По результатам модель o1 на каждом этапе диагностики либо превосходила, либо была на уровне с врачами и моделью 4o. Наибольшая разница наблюдалась на этапе первичной сортировки пациентов в отделении неотложной помощи, когда информации о состоянии меньше всего, а решения нужно принимать быстро.
В случаях триажа o1 давал точный или близкий к правильному диагноз в 67% случаев. Для сравнения один врач достигал 55% точности, другой 50%.
Исследователи подчеркнули, что данные не проходили предварительной обработки, а модели работали с той же информацией из электронных медицинских карт, что была доступна врачам в реальном времени.
Несмотря на результаты, авторы подчеркивают, что это не означает готовности ИИ к самостоятельным клиническим решениям. Скорее речь идет о необходимости дальнейших проспективных испытаний в реальных условиях медицины.
Врачи также предупреждают, что в настоящее время отсутствует четкая система ответственности за медицинские решения, сгенерированные ИИ, а пациенты все еще нуждаются в участии человека в критических решениях.
Источник: Science