Разделы

Интернет Интернет-ПО Техника

«Яндекс» создал автоматический перевод видеороликов на русский язык. Аналогов в мире нет

«Яндекс» работает над технологией автоматического дубляжа видео, не имеющей аналогов в мире. Российский ИТ-гигант продемонстрировал возможности прототипа на подборке из дюжины Youtube-роликов. Посмотреть их с закадровой русскоязычной озвучкой можно только в «Яндекс.браузере».

Машинный перевод видео «Яндекса»

«Яндекс» создал технологию машинного перевода видео. С ее помощью видеоролики зарубежных авторов смогут посмотреть даже те, кто не владеет иностранными языками – разработка «Яндекса» в автоматическом режиме переведет видео на русский язык и озвучит его закадровым голосом. Об этом CNews рассказали представители компании. По заявлению создателей, технология не имеет аналогов в мире.

На сегодняшний день у «Яндекса» готов прототип системы машинного перевода. Сейчас он работает только с роликами на английском языке. Разработчики утверждают, что опробовали технологию на видеозаписях на самые разные темы: изменение климата, машинное обучение, история Плутона.

Пользователям функция машинного перевода видеороликов доступна в фирменном браузере «Яндекса» для операционных систем Windows и macOS, однако лишь при просмотре ограниченного числа роликов. Специалисты компании создали на Youtube-канале "Yet another browser" подборку из 12 видео (плейлист «Перевод видео»), с помощью которых любой желающий сможет убедиться в работоспособности технологии. В ближайшее время пользователи получат возможность самостоятельно выбирать, какие именно ролики переводить, обещают в «Яндексе».

Доступные для просмотра с русским закадровым голосом видео отображаются в желтой рамке. Для включения перевода достаточно нажать одну кнопку.

«В интернете очень много полезного контента, который недоступен людям из-за языкового барьера, – говорит руководитель направления обработки естественного языка в «Яндексе» Дэвид Талбот (David Talbot). – И мы близки к тому, чтобы окончательно стереть все границы. "Яндекс.браузер" давно умеет переводить тексты, в этом году стал переводить изображения, перевод видео — следующий этап. Это большая сложная задача, которую никто в мире еще не решил. Мы тоже в начале пути, но у нас уже есть прототип и понимание, куда двигаться дальше»,

Как это работает

Над созданием прототипа работало несколько команд. Сейчас в нем применяются технология синтеза речи, разработки «Яндекс.переводчика» и биометрия. Последняя используется для определения пола говорящего – это, как отмечают в «Яндексе», важно и для перевода, и для синтеза речи, в частности, позволяет подобрать подходящий голос для закадровой озвучки.

Технология «Яндекса» поддерживает синхронизацию закадрового голоса с видеорядом, при необходимости корректируя темп речи виртуального переводчика и добавляя в нее паузы. Синхронизация необходима, поскольку исходные и переведенные реплики могут значительно отличаться по длительности – например, в английском языке часто используемые фразы нередко лаконичнее своих русских аналогов.

Эволюция «Яндекс.переводчика»

Сервис «Яндекс.переводчик» был запущен в 2011 г. На старте он мог работать с тремя языками: русским, украинским и английским. Сейчас он знает более 90 языков, включая экзотические, и может выполнять переводы между любой парой.

В 2016 г. «Переводчик» научился распознавать текст на картинках с помощью компьютерного зрения. В апреле 2021 г. «Яндекс» добавил соответствующую функцию в собственный браузер.

В 2017 г. сервис начал использовать гибридную систему перевода. К статистической модели, которая задействована со старта, добавилась технология перевода на базе нейронной сети на основе архитектуры «трансформер».

Дмитрий Ларин, Генбанк: Ужесточение ответственности за утечки ПДн может помочь злоумышленникам устранить опытного менеджера по кибербезопасности
безопасность

Искусственный интеллект не разбивает переводимый текст на слова и выражения, как это делает статистический переводчик. Вместо этого он «проглатывает» предложение целиком и выдает перевод. Благодаря такому подходу в переводе учитывается контекст и лучше передается смысл, формулировки выглядят более естественно.

Статистическая модель, в свою очередь, хорошо справляется с редкими словами и фразами и не «фантазирует», если смысл предложения непонятен, как это может делать нейросеть.

Технология перевода с помощью нейронной сети, как ранее рассказывал «Яндекс», во многом послужила основой для YaTI – новой технологии анализа текста.

Как «Яндекс» применяет нейросети

Помимо «Переводчика», нейросети, к примеру, задействованы в работе поисковой системы «Яндекса». В основе обновления поисковика под кодовым названием Y1, о котором CNews писал в июне 2021 г., лежат YaTI и YaLM – глубокие нейросети с архитектурой «трансформер», обученные на огромном числе параметров.

YaLM – это семейство языковых моделей, которые умеют генерировать тексты на русском языке. Эти модели используются голосовым помощником «Алиса» – с их помощью он генерирует реплики, а также для составления подзаголовков объектных ответов. YaLM также применяется при ранжировании быстрых ответов в поиске «Яндекса». Модели YaLM обучены на терабайтах русских текстов, а самая мощная из них, как утверждают в «Яндексе», содержит 13 млрд параметров.

В ноябре 2020 г. CNews писал о том, что поисковик «Яндекса» перешел на технологию анализа текста на основе нейросетей-трансформеров, в частности, YaTI. Это позволило ему лучше оценивать смысловую связь между запросами и содержанием интернет-документов. В компании сочли внедрение данной технологии важнейшим событием в развитии поисковой системы за последнее десятилетие.

Дмитрий Степанов