Бизнес Кадры Цифровизация ИТ в госсекторе Электроника Искусственный интеллект

16 Февраля 2024 17:47 16 Фев 2024 17:47 |

Инженеры-программисты научили роборуку новым когнитивным способностям на базе ИИ

Ученые из Московского физико-технического института, Института искусственного интеллекта AIRI и Федерального исследовательского центра «Информатика и управление» РАН разработали метод управления роботизированной системой, которая выполняет свои действия, опираясь на текстовые инструкции и визуальную информацию. Работа опубликована в журнале IEEE Access. Об этом CNews сообщили представители МФТИ.

В качестве основы для предлагаемого подхода, специалисты использовали архитектуру бимодального трансформера, которая изначально была обучена для решения таких задач, как перевод текста, получение ответов на вопросы по изображению, генерация изображений по текстовому описанию и другие. В результате добавления новой модальности для управления роботом роботизированная система получила возможность ориентироваться в незнакомой обстановке и самостоятельно определять алгоритм действий, оптимальный для решения поставленной задачи.

Ученые считают, что дальнейшее развитие методики позволит создавать роботов для автономного выполнения или сложных многоходовых операций без участия человека. По словам ученых, это нетривиальная задача, решить которую пока не удалось никому в мире. Все разработки в этой области пока находятся на уровне прототипа.

Фото: МФТИ

Инженеры-программисты научили роборуку новым когнитивным способностям на базе ИИ

«В качестве модели мы задействовали роборуку с шестью степенями свободы. Нашей целью было научить ее самостоятельно сортировать объекты на столе по цветам и собирать их в заданную область. Свои действия роборука должна была выбирать на основе текстовой инструкции и данных с видеокамер», — сказал суть научной работы один из авторов исследования, аспирант Центра когнитивного моделирования МФТИ и научный сотрудник AIRI Алексей Староверов.

По его словам, принцип работы алгоритма обучения манипулятора напоминает модель GPT. Только в отличие от «интеллектуального чата», где пользователь, задав команду, получает сгенерированный текст, разработанная модель вместо текста выдает последовательность действий для робота.

При этом, как отметил ученый, для электронно-вычислительного устройства, которое управляет манипулятором, важно после каждого действия получать обратную связь с видеокамер, чтобы на основе новой информации планировать свое следующее действие.

«Новизна работы в том, что для обучения робота мы использовали готовые языковые модели — алгоритмы, которые помогают переводить естественную речь в код, понятный системе управления. Она представляют собой нейронные сети, которые предобучены на больших объемах текстовых данных. В нашем случае была применена мультимодальная модель RozumFormer. В отличие от других, она, может генерировать ответ и на текстовые запросы, и на те, которые сделаны в виде изображений», — сказал соавтор работы младший научный сотрудник ФИЦ «Информатика и управление» РАН и научный сотрудник AIRI Алексей Ковалев.

Артем Натрусов, вице-президент по ИТ «Евраза»: В металлургии выживут только предприятия с низкой себестоимостью

цифровизация

Он пояснил, что в ходе работы была проведена тонкая настройка языковой модели. Ученые дообучили нейронную сеть, чтобы она могла «понимать» цвета кубиков, расстояния до них и другие параметры окружающей действительности. Настройка производилась в виртуальной среде, а потом дообученная языковая модель применялась для управления манипулятором в реальном окружении.

Пошаговая адаптация позволила отрегулировать языковую модель, чтобы она, получая обратную связь с видеокамер, могла на основе усвоенных алгоритмов самостоятельно планировать дальнейшие действия и решать поставленные перед ней задачи.

«Робототехника изначально подразумевает мультимодальный подход к обработке информации. То есть машинному интеллекту необходимо учитывать и синхронизировать, например, кадры с видеокамер, с данными от лидаров (приборов для определения расстояний). Это обычно называется комплексированием информации. Такие задачи решаются разными методами. Однако, применение для этих целей языковых моделей продемонстрировало перспективность метода», — сказал значение исследования руководитель группы, ведущий научный сотрудник Института искусственного интеллекта AIRI и ФИЦ «Информатика и управление» Александр Панов.

Как рассказали ученые, дальнейшей целью работы будет задача научить модель запоминать более длинные последовательности действий. Это в перспективе поможет роботам выполнять действия, которые требуют нестандартного для робототехнической системы подхода и оценки ситуации. Например, мыть посуду, различая предметы и действуя осторожно, или наводить порядок в квартире, различая разные комнаты и предметы и разделяя их по назначению.

Главное ИТ-событие года. Регистрация

Подписаться на новости

Короткая ссылка

Инженеры-программисты научили роборуку новым когнитивным способностям на базе ИИ

Другие материалы рубрики

Конференции

IT Elements 2025

Цифровизация финансового сектора

Оптимизация цифровой инфраструктуры и ПАК 2025

CNewsMarket

S3-хранилище

BaaS

DBaaS

VPS

Техника

Лучшие бесплатные приложения-пульты для телевизора: выбор ZOOM

Лучшие роботы-пылесосы стоимостью до 30 000 рублей: хиты продаж

За какие функции и характеристики телевизора нужно платить в 2025 году

Наука

Ученые воссоздали ключевой этап зарождения жизни — они выяснили, как живые клетки возникли из неживой материи

Крошечный метеорит поставил под сомнение хронологию происхождения целой Солнечной системы

Как почти 7000 плотин смогли сместить Северный полюс Земли?

На рынке появляются отдельные независимые решения, но в промышленных масштабах использовать их пока страшно

Топ-6
внедрений российских систем КЭДОкадрового электронного документооборота

Топ-6
внедрений российских систем КЭДОкадрового электронного документооборота

БЕГ
С ПРЕПЯТСТВИЯМИКрупнейшие
ИТ-компании России

Топ-5
операционных систем

На рынке появляются отдельные независимые решения, но в промышленных масштабах использовать их пока страшно

Инженеры-программисты научили роборуку новым когнитивным способностям на базе ИИ

Другие материалы рубрики

Конференции

IT Elements 2025

Цифровизация финансового сектора

Оптимизация цифровой инфраструктуры и ПАК 2025

CNewsMarket

S3-хранилище

BaaS

DBaaS

VPS

Техника

Лучшие бесплатные приложения-пульты для телевизора: выбор ZOOM

Лучшие роботы-пылесосы стоимостью до 30 000 рублей: хиты продаж

За какие функции и характеристики телевизора нужно платить в 2025 году

Наука

Ученые воссоздали ключевой этап зарождения жизни — они выяснили, как живые клетки возникли из неживой материи

Крошечный метеорит поставил под сомнение хронологию происхождения целой Солнечной системы

Как почти 7000 плотин смогли сместить Северный полюс Земли?

На рынке появляются отдельные независимые решения, но в промышленных масштабах использовать их пока страшно

Топ-6внедрений российских систем КЭДОкадрового электронного документооборота

Топ-6внедрений российских систем КЭДОкадрового электронного документооборота

БЕГС ПРЕПЯТСТВИЯМИКрупнейшиеИТ-компании России

Топ-5операционных систем

На рынке появляются отдельные независимые решения, но в промышленных масштабах использовать их пока страшно

Топ-6
внедрений российских систем КЭДОкадрового электронного документооборота

Топ-6
внедрений российских систем КЭДОкадрового электронного документооборота

БЕГ
С ПРЕПЯТСТВИЯМИКрупнейшие
ИТ-компании России

Топ-5
операционных систем