В апреле 2024 года в журнале Eye были опубликованы результаты исследования канадских ученых, оценивавших возможности двух чат-ботов с искусственным интеллектом — Google Gemini и Google Bard — при прохождении сертификационного экзамена по офтальмологии. Оба инструмента продемонстрировали приемлемый уровень точности, хотя были выявлены некоторые различия в зависимости от географического положения пользователя.

Применение ИИ в медицинском тестировании

Чат-боты на базе искусственного интеллекта, такие как ChatGPT, Google Bard и Google Gemini, все активнее внедряются в медицинскую практику. Их эффективность варьируется в зависимости от экзамена и дисциплины, причем более новые версии демонстрируют улучшенные показатели. Например, точность ChatGPT-3.5 на некоторых медицинских экзаменах достигала 64%, тогда как последующие версии, включая ChatGPT-4, показали более высокие результаты.

Цели и методы исследования

Целью работы стала оценка производительности Google Gemini и Google Bard на практических вопросах из экзамена на сертификацию по офтальмологии. Исследователи использовали 150 вопросов с множественным выбором с платформы «EyeQuiz», предназначенной для офтальмологов. Вопросы были взяты из различных оценочных программ, включая Офтальмологическую программу оценки знаний (OKAP) и экзамен Американского совета по офтальмологии (ABO). Оценивались точность ответов, ясность объяснений, время ответа и длина ответов.

Сравнительная эффективность и результаты

Оба чат-бота ответили на все 150 вопросов. При анализе американской версии точность каждого составила 71%. Google Bard показал лучшие результаты по орбитальной и пластической хирургии, тогда как Google Gemini оказался эффективнее в общей офтальмологии и ряде других подспециальностей. Дополнительный анализ с использованием VPN-соединений показал, что производительность чат-ботов незначительно варьировалась в таких странах, как Вьетнам, Бразилия и Нидерланды: некоторые ответы отличались от версии для США.

Выводы и перспективы

Исследование показало, что как американская, так и вьетнамская версии Google Gemini и Google Bard демонстрируют многообещающие результаты при ответах на практические вопросы по офтальмологии, однако существует заметная вариативность в зависимости от местоположения пользователя. Потенциал этих чат-ботов в интерпретации офтальмологических изображений, а также их сравнительная эффективность по отношению к ординаторам-офтальмологам обозначены как перспективные направления для будущих исследований.

Источник
Mihalache, A. et al., (2024) Google Gemini and Bard artificial intelligence chatbot performance in ophthalmology knowledge assessment. Eye. DOI: 10.1038/s41433-024-03067-4