NBC: Тесты работы ИИ не имеют научной точности и переоценивают результаты

Tекст: Мария Иванова

Тесты, применяемые для оценки возможностей искусственного интеллекта, не отличаются достаточной научной точностью и зачастую завышают реальные результаты, сообщает NBC со ссылкой на исследование Оксфордского института Интернета.

По данным ученых, почти половина существующих бенчмарков, предназначенных для таких оценок, оказываются неэффективными.

В исследовании отмечается, что применяемые методы как правило переоценивают способности моделей ИИ и не обеспечивают необходимых показателей точности. В частности, работа анализирует 445 различных бенчмарков, выявляя, что лишь 53,4% из них соответствуют основному критерию – «конструктной валидности», то есть способности реально измерять заявленные параметры.

Исследование показало, что 46,6% бенчмарков провалили тест на «конструктную валидность». Так, 84% не делали статистических проверок, почти половина использовала одни и те же источники данных для составления задач, а три из пяти не давали чёткого определения измеряемых явлений.

Соавтор исследования Эндрю Бин в беседе с телеканалом заявил: «К фразам вроде «модель достигает уровня интеллекта доктора философии» нужно относиться с долей скепсиса... Мы не уверены, что такие измерения проводятся особенно качественно».

Другой автор, Адам Махди, отметил, что бенчмарки часто оценивают совсем другие показатели, нежели те, которые на самом деле интересуют исследователей и пользователей технологий ИИ.

