В исследовании, проведенном под руководством специалистов больницы Святого Михаила (St. Michael's Hospital), установлено, что инструмент искусственного интеллекта ChatGPT показал низкую точность при ответах на вопросы из популярного учебного ресурса, используемого врачами для подготовки к сертификационному экзамену по офтальмологии. Правильные ответы составили менее половины от общего числа вопросов.

Результаты работы, опубликованные в журнале JAMA Ophthalmology, показали, что в январе 2023 года первоначальная точность ChatGPT составила 46%. Однако при повторном тестировании, проведенном месяц спустя, точность ответов нейросети возросла более чем на 10%.

С момента публичного запуска ChatGPT в ноябре 2022 года в медицинском сообществе обсуждались перспективы использования инструмента в практике и при подготовке к экзаменам. Одновременно высказывались опасения по поводу возможной дезинформации и использования ИИ для недобросовестной сдачи тестов. ChatGPT находится в свободном доступе для пользователей интернета и позволяет вести диалог в естественной речевой форме.

Руководитель исследования, доктор Раджив Х. Муни (Dr. Rajeev H. Muni), подчеркнул необходимость ответственного использования таких систем ИИ, как ChatGPT, несмотря на их растущую значимость в медицинском образовании и клинической практике. Он также отметил, что на текущий момент ChatGPT не предоставил достаточного количества правильных ответов на вопросы с множественным выбором, чтобы считаться существенным подспорьем при подготовке к сертификации.

В исследовании использовался набор вопросов из ресурса OphthoQuestions — бесплатной пробной версии, часто применяемой для подготовки к сертификационному экзамену по офтальмологии. Чтобы исключить влияние предыдущих диалогов на ответы ChatGPT, исследователи очищали историю запросов и использовали новый аккаунт нейросети для каждого вопроса. Вопросы, требующие анализа изображений или видео, были исключены, поскольку ChatGPT способен обрабатывать только текстовый ввод.

В январе 2023 года ChatGPT правильно ответил на 58 из 125 текстовых вопросов с множественным выбором, что соответствовало точности 46%. При повторном тестировании в феврале 2023 года точность возросла до 58%.

Соавтор исследования, врач-резидент кафедры офтальмологии и наук о зрении Университета Торонто (University of Toronto) доктор Марко Попович (Dr. Marko Popovic), отметил, что, несмотря на ошибочные ответы ChatGPT на вопросы сертификационного экзамена по офтальмологии, инструмент сохраняет потенциал для медицинского образования. Доктор Попович также добавил, что разработчики ожидают быстрого улучшения базы знаний ChatGPT.

Анализ показал, что распределение выбранных ChatGPT вариантов ответов было сходно с распределением у ординаторов-офтальмологов. Нейросеть выбирала самый популярный среди ординаторов ответ в 44% случаев, наименее популярный — в 11%, второй наименее популярный — в 18% и второй наиболее популярный — в 22% случаев.

В исследовании также выявлено, что ChatGPT показал более высокую точность на вопросах по общей медицине — 79% правильных ответов — по сравнению с узкими офтальмологическими подспециальностями, такими как окулопластика (20% правильных ответов) и патология сетчатки (0% правильных ответов). Авторы работы выразили мнение, что точность ChatGPT в узких подспециальностях может улучшиться в будущем.