ПО Софт Цифровизация Бизнес-приложения ИТ в банках Инфраструктура Системное ПО

21 Декабря 2023 09:04 21 Дек 2023 09:04 |

Ученые из Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта

Ученые из лаборатории исследований искусственного интеллекта (ИИ) Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта. Об этом CNews сообщили представители Tinkoff Research.

Новый метод, названный ReBRAC (Revisited Behavior Regularized Actor Critic — пересмотренный актор-критик с контролируемым поведением), обучает ИИ в четыре раза быстрее и на 40% качественнее мировых аналогов в области обучения с подкреплением (Reinforcement Learning, RL), адаптируя его к новым условиям на ходу.

Разработка российских ученых в области повышения эффективности алгоритмов обучения ИИ может способствовать преодолению технологического и цифрового разрыва в мире между разными странами — более эффективные алгоритмы требуют меньше вычислительных ресурсов. Страны с ограниченными вычислительными мощностями смогут создавать и развивать передовые технологии, адаптировать ИИ под конкретные прикладные задачи, существенно экономя на дорогостоящих экспериментах с ИИ.

Результаты исследования были признаны мировым научным сообществом и представлены на главной научной конференции в области ИИ в мире — международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems). В этом году конференция прошла в 37-й раз — в Новом Орлеане, США, с 10 по 16 декабря.

Ученые из Tinkoff Research идентифицировали четыре компонента, которые были представлены в алгоритмах последних лет, но считались второстепенными и не подвергались детальному анализу:

Глубина нейронных сетей: увеличение глубины сети помогает ей лучше понимать сложные закономерности в данных.

Регуляризация актора и критика: в ИИ-агентах есть два компонента: «актор», который предпринимает действия, и «критик», который оценивает эти действия. Ученые использовали совместную регуляризацию обоих компонентов, чтобы актор избегал нежелательных действий, а критик более эффективно оценивал их. Ранее не было понятно, как сочетать оба подхода с наибольшей эффективностью.

Увеличение эффективного горизонта планирования — позволяет модели балансировать между краткосрочными и долгосрочными аспектами задачи и улучшает ее способность принимать решения.

Использование нормализации слоев (LayerNorm) — стабилизирует процесс обучения нейронных сетей

Фарид Нигматуллин, «ВидеоМатрикс»: У видеоаналитики в промышленности большие возможности

Цифровизация

Ученые из Tinkoff Research интегрировали эти компоненты в алгоритм-предшественник BRAC (Behavior Regularized Actor Critic — актор-критик с контролируемым поведением) 2019 года и провели исследование, поочередно варьируя каждый из них. Оказалось, что правильная совокупность этих компонентов дает даже этому старому подходу самую высокую производительность среди лучших аналогов на сегодняшний день. Модифицированный алгоритм получил название ReBRAC.

Тестирование на робототехнических симуляторах показало, что алгоритм обучает ИИ в четыре раза быстрее и на 40% качественнее всех существующих в офлайн-бенчмарках. Ранее лидерство принадлежало алгоритму SAC-RND, также созданному учеными из Tinkoff Research.

Визуализация вариантов тестирования алгоритма: поиск цели в лабиринте (Ant), скорость бега (Halfcheetah, Hopper, Walker2d), задачи для робокистей — правильно держать ручку (Pen), открыть дверь, забить гвоздь, переместить объект

ReBRAC также эффективнее всего решает проблему дообучения искусственного интеллекта, который обычно медленно адаптируется к новым условиям. Например, робот, который был изначально обучен передвигаться по траве, упадет, если переместится на лед. ReBRAC же позволяет ИИ лучше учиться на ходу и адаптироваться.

Александр Бабкин, Газпромбанк: Сейчас иностранные ИБ-решения в Газпромбанке замещены на 65%

безопасность

В 2023 г. рецензенты международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems), на которой было представлено открытие ученых из Tinkoff Research, получили на рассмотрение свыше 13 тыс. статей от ученых со всего мира, из которых 3,5 тыс. были отобраны для представления на конференции. Селективность — всего 26%. Среди них сразу четыре научные статьи Tinkoff Research. Помимо алгоритма ReBRAC ученые представили две открытые библиотеки в области офлайн-обучения с подкреплением (Offline RL, ORL), благодаря которым специалистам по ИИ больше не требуется самостоятельно воспроизводить результаты наиболее весомых научных работ. Статьи уже цитируются ведущими исследовательскими лабораториями со всего мира — в их числе Стэнфордский университет, Калифорнийский университет в Беркли и научно-исследовательская лаборатория Google DeepMind.

***

Tinkoff Research — это одна из немногих российских исследовательских групп, которая занимается научными исследованиями внутри компании, а не на базе некоммерческой организации. Ученые из Tinkoff Research исследуют наиболее перспективные области ИИ: обработку естественного языка (NLP), компьютерное зрение (CV), обучение с подкреплением (RL) и рекомендательные системы (RecSys). По результатам экспериментов они пишут научные статьи для наиболее авторитетных научных конференций: NeurIPS, ICML, ACL, CVPR и других. За два года существования команды 20 статей были приняты на крупнейшие конференции и воркшопы в области ИИ. Научные работы Tinkoff Research цитируются учеными из университетов Беркли и Стэнфорда, а также исследовательского проекта Google по изучению искусственного интеллекта Google DeepMind. Команда курирует исследовательскую лабораторию «Тинькофф» на базе МФТИ и помогает талантливым студентам совершать научные открытия.

Подобрать оптимальный тариф на IaaS на ИТ-маркетплейсе Market.CNews среди десятков поставщиков

Подписаться на новости

Короткая ссылка

Ученые из Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта

Другие материалы рубрики

MARKET.CNEWS

DRaaS

IP-телефония

Онлайн-бухгалтерия

S3-хранилище

Техника

Hisense Laser Mini Projector C1 — новый эталон домашнего кинотеатра

Обзор моноблока MSI Pro AP272 13M: обойдемся без проводов

Организуем видеонаблюдение за дачным участком: лучшие готовые комплекты

Наука

Российские ученые открыли удивительные грязевые вулканы на дне Байкала

Робот-медуза с электронным кардиостимулятором исследует океан и сообщает о находках

На дне российской шахты найдены уникальные термиты — они сохранились в янтаре возрастом 38 миллионов лет

70% компаний, применяющих ИИ, подтверждают положительный эффект

Мы в 4 раза ускорили
разработку программного кода

Таких темпов роста нашей электронной отрасли не было никогда

70% компаний, применяющих ИИ, подтверждают положительный эффект

Администрировать нашу платформу так же удобно, как Microsoft Exchange

Мы в 4 раза ускорили
разработку программного кода

Ученые из Tinkoff Research создали самый эффективный среди мировых аналогов алгоритм для обучения и адаптации искусственного интеллекта

Другие материалы рубрики

MARKET.CNEWS

DRaaS

IP-телефония

Онлайн-бухгалтерия

S3-хранилище

Техника

Hisense Laser Mini Projector C1 — новый эталон домашнего кинотеатра

Обзор моноблока MSI Pro AP272 13M: обойдемся без проводов

Организуем видеонаблюдение за дачным участком: лучшие готовые комплекты

Наука

Российские ученые открыли удивительные грязевые вулканы на дне Байкала

Робот-медуза с электронным кардиостимулятором исследует океан и сообщает о находках

На дне российской шахты найдены уникальные термиты — они сохранились в янтаре возрастом 38 миллионов лет

70% компаний, применяющих ИИ, подтверждают положительный эффект

Мы в 4 раза ускорили разработку программного кода

Таких темпов роста нашей электронной отрасли не было никогда

70% компаний, применяющих ИИ, подтверждают положительный эффект

Администрировать нашу платформу так же удобно, как Microsoft Exchange

Мы в 4 раза ускорили разработку программного кода

Мы в 4 раза ускорили
разработку программного кода

Мы в 4 раза ускорили
разработку программного кода