Большинство студентов не верят, что ИИ сможет заменить их на работе
Большинство студентов считают, что ИИ не сможет заменить их на работе в ближайшие десять лет. Низким такой риск называют 27,2% респондентов, 41,5% — крайне маловероятным. Эти оценки были получены НИУ ВШЭ в ходе опроса 4200 студентов в 2025 г.. Они приводятся в докладе «Эпоха больших языковых моделей: почему они все еще не профессионалы», подготовленным научным руководителем НИУ ВШЭ Ярославом Кузьминым и старшим преподавателем кафедры высшей математики НИУ ВШЭ Екатериной Кручинской. Об этом CNews сообщили представители НИУ ВШЭ.
«Умеренным» назвали риск того, что ИИ сможет выполнять за них работу, 15,9% студентов. В целом только 2,7% считают такой риск высоко вероятным и 4,7% — вероятным. 8,1% респондентов пока не определились, стоит ли им опасаться ИИ.
В докладе отмечается, что генеративный искусственный интеллект (GenAI), более известный как семейство больших языковых моделей, нашел широкое распространение и применение, начиная с 2022 г. Учитывая, что рост мирового ВВП замедляется, происходит поиск новых точек роста, и внедрение ИИ рассматривается как возможность стимулировать этот рост. Однако компании говорят о целом ряде рисков, связанных с использованием ИИ, — в частности, это риск нарушения авторских прав, получения неверной информации, невыполнения нормативных требований, нарушения конфиденциальности данных и т.д. На данный момент нет надежных метрик, которые могли бы оценить потенциал ИИ для успешного решения сложных профессиональных задач.
«Наиболее важная проблема окупаемости GenAI — невозможность профессионального использования этого инструмента ввиду критически высокого шанса наличия ошибки даже в самых простых вопросах, что исключено для специалиста, который должен применять ядро знаний с безукоризненной точностью. Можно ли продемонстрировать ограничения GenAI и доказать их значимость? Возможность такой проверки есть», — сказали эксперты ВШЭ.
На созданном сотрудниками ВШЭ и другими профильными экспертами сете вопросов (бенчмарке), основанном на таксономии Блума, было проверено, может ли ИИ действовать как профессионал. При этом бенчмарк проверялся на самых новых моделях GPT-4o1 и GigaChat MAX.
В результате исследования были подтверждены три гипотезы. Во-первых, количество параметров моделей имеет низкое влияние на шанс ответить верно. Во-вторвых, сложность и таксономия в совокупности не влияют на шанс ответить верно. В-третьих, множественный выбор снижает шанс ответить верно.
Исследования показали, что современные модели равно допускают ошибки как в простейших заданиях, в которых требуется что-то запомнить, так и в сложных вопросах понимания процесса или теории. Доля правильных ответов, которые давал GigaChat MAX (non-CoT), составила 49%. У GPT-4o1 она достигла 51%.