Разделы

ПО Софт Интернет Веб-сервисы Техника

Нейросеть ruDALL-E научилась генерировать картинки по описанию на иностранных языках

Сайт открытой нейронной сети ruDALL-E, генерирующей изображения на основе текстового описания, теперь может работать с текстами не только на русском, но и на других языках. В мобильном приложении «Салют» и на устройствах Sber создать картинку можно даже по голосовому запросу, перевод на английский получил и демо-сайт, на котором можно попробовать модель.

За неделю с момента релиза ruDALL-E пользователи по всему миру уже сгенерировали более 3 млн изображений при помощи ruDALL-E, используя для формирования русскоязычных запросов различные системы машинного перевода, а теперь смогут делать запросы на английском и других языках. При вводе текста модель самостоятельно определяет язык ввода и генерирует соответствующее изображение.

Прототипом для создания ruDALL-E стала нейросеть DALL-E для английского языка, которая была впервые представлена OpenAI в 2021 г. При этом исследователи из американской компании не стали выкладывать модель в открытый доступ, ограничившись общим описанием архитектуры и впечатляющим набором примеров работы модели, отобранных вручную. На основе публикации OpenAI команды Sberdevices и Sber AI при содействии Sbercloud создали аналогичное решение и запустили обучение нейросети на платформе ML Space на базе суперкомпьютера Christofari, получив аналогичный результат для русского языка, а позднее и мультиязычный вариант.

Модель существует в двух вариантах: ruDALL-E XL, содержащая 1,3 млрд параметров, и ruDALL-E XXL с 12 млрд параметров. Возможностями меньшей можно воспользоваться бесплатно, загрузив её с сервиса Github и Hugging Face. Обе модели также можно найти в ML Space в хабе предобученных моделей и датасетов Datahub от Sbercloud.

CNews подготовил инфографику по одной из крупнейших информационных систем России
Цифровизация

Большая модель может послужить для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, в то время, как уменьшенный вариант в приложении «Салют» и на демо-сайте призван скорее развлечь пользователей и показать им возможности нейросети. Чтобы создать изображение на устройствах Sber или в приложении Салют достаточно сказать: «Открой Далли» или «Запусти художника».

Давид Рафаловский, СТО «Сбербанк груп», исполнительный вице-президент, сказал: «После запуска ruDALL-E мы увидели большой интерес к модели со стороны аудитории. Поэтому мы решили создать мультиязычный вариант сервиса, который упростит пользователю путь к созданию изображения. Сейчас моделью может воспользоваться практически любой желающий по всему миру. Поставить задачу нейросети можно и голосом, вызвав его в приложении «Салют» и на устройствах Sber».