ПО Цифровизация Электроника Искусственный интеллект axenix

30 Июля 2025 09:17 30 Июл 2025 09:17 |

«Яндекс» опубликовал ИИ-технологию распознавания голосовых команд на фоне шума

Разработчики «Яндекса» щедро поделились нейросетевой технологией для распознавания голосовых команд на фоне шума, чтобы исследователи во всем мире не тратили ресурсы на поиск таких решений с нуля.

Ради прогресса в области голосовых интерфейсов

Исследователи «Яндекса» в опубликованной статье подробно описали нейросетевую технологию, которую компания применяет в своих умных колонках и «ТВ Станциях» для распознавания голосовых команд на фоне шума. Теперь ее смогут воспроизвести разработчики со всего мира, сообщили CNews представители «Яндекса».

По словам Дмитрия Солодухи, руководителя направления голосовой активации «Яндекса», до сих пор не существовало единого подхода к распознаванию голоса в шумной среде, который был бы одинаково надежен в лабораторных тестах и в реальных условиях.

«Многие компании и исследователи сталкиваются с похожими проблемами, но не имеют доступа к промышленным решениям и вынуждены тратить ресурсы на их разработку с нуля. Надеемся, что публикация нашего метода ускорит прогресс в области голосовых интерфейсов, поможет избежать типичных ошибок и приведет к появлению большего количества удобных и надежных голосовых устройств», — сказал Солодуха.

Общий принцип работы шумоподавления

Обычно в умных устройствах и ассистентах используют алгоритмы эхоподавления (для распознавания голоса на фоне музыки) или шумоподавления (для уменьшения других фоновых звуков). Однако они ухудшают и человеческую речь, пояснили специалисты «Яндекса».

«Яндекс»

«Яндекса» решил поделиться технологией, с помощью которой его умные устройства распознают команды на фоне шума

Нейросетевой attention-механизм, разработанный в «Яндексе», получает на вход сразу два сигнала — с шумоподавлением и эхоподавлением. В каждый момент времени нейросеть выбирает наиболее четкий сигнал, что позволяет распознавать команды на фоне самых разных звуков.

Технология доказала свою эффективность на практике, утверждают представители компании. Благодаря ей пользователям устройств с «Алисой», например, не нужно выключать пылесос или перекрикивать песню, чтобы быть услышанным. Команды усиливаются на фоне самых разных шумов — звуков музыки, льющейся воды, вечеринки или стройки за окном.

Борьба с шумами

О своих успехах в поиске методики шумоподавления, усиливающей голос и при этом не делающей его звучание менее разборчивым, компания Philips заявляла еще в 2005 г.

«Диасофт» автоматизирует учет ЦФА для финансовых организаций: решение уже работает в 10 банках

ИТ в банках

Искусственный интеллект для решения такой задачи применили в Вашингтонском университете (UW) в Сиэтле, о чем университет сообщил на своем сайте в мае 2024 г. Ученые создали наушники, создающие акустический «чистый лист».

Для этого нужно нажать специальную кнопку на девайсе и посмотреть на говорящего человека в течение трех-пяти секунд. После такой «регистрации» система будет подавлять все остальные звуки окружающей среды и воспроизводит только голос «зарегистрированного» в режиме реального времени, даже если слушатель перемещается в шумных местах и не смотрит на него.

Почём сегодня объектное хранилище на 2 000 Гб? Предложения десятков поставщиков ― на ИТ-маркетплейсе CNewsMarket

Анна Любавина

Подписаться на новости

Короткая ссылка

«Яндекс» опубликовал ИИ-технологию распознавания голосовых команд на фоне шума

Ради прогресса в области голосовых интерфейсов

Общий принцип работы шумоподавления

Борьба с шумами

Другие материалы рубрики

Конференции

CNews FORUM 2025: Информационные технологии завтра

CNews Awards 2025

Толк Шоу

CNewsMarket

CRM

Kubernetes

VDI

S3-хранилище

Техника

Лучшие умные очистители воздуха в 2025 году: выбор ZOOM

Обзор HUAWEI FreeBuds 7i: качественный звук и отличное шумоподавление

Обзор Dreame L50 Ultra: моющий робот-пылесос нового уровня

Наука

OLED объединили с метаповерхностями: голографические гаджеты из фантастики — уже реальность

Исследование древнего кладбища перевернуло устоявшиеся представления о жизни в каменном веке

Если квантовые вычисления отвечают на неразрешимые вопросы, то как понять, что ответы верные?

Топ-5 российских платформ виртуализации

С новым кодом:
как будет работать
универсальный QR-код для оплаты

Обзор: Платформы виртуализации 2025

С новым кодом:
как будет работать
универсальный QR-код для оплаты

Российским ритейлерам
стоило бы поучиться у коллег из Китая

Первая карта заводов компьютерной техники в России

«Яндекс» опубликовал ИИ-технологию распознавания голосовых команд на фоне шума

Ради прогресса в области голосовых интерфейсов

Общий принцип работы шумоподавления

Борьба с шумами

Другие материалы рубрики

Конференции

CNews FORUM 2025: Информационные технологии завтра

CNews Awards 2025

Толк Шоу

CNewsMarket

CRM

Kubernetes

VDI

S3-хранилище

Техника

Лучшие умные очистители воздуха в 2025 году: выбор ZOOM

Обзор HUAWEI FreeBuds 7i: качественный звук и отличное шумоподавление

Обзор Dreame L50 Ultra: моющий робот-пылесос нового уровня

Наука

OLED объединили с метаповерхностями: голографические гаджеты из фантастики — уже реальность

Исследование древнего кладбища перевернуло устоявшиеся представления о жизни в каменном веке

Если квантовые вычисления отвечают на неразрешимые вопросы, то как понять, что ответы верные?

Топ-5 российских платформ виртуализации

С новым кодом: как будет работать универсальный QR-код для оплаты

Обзор: Платформы виртуализации 2025

С новым кодом: как будет работать универсальный QR-код для оплаты

Российским ритейлерамстоило бы поучиться у коллег из Китая

Первая карта заводов компьютерной техники в России

С новым кодом:
как будет работать
универсальный QR-код для оплаты

С новым кодом:
как будет работать
универсальный QR-код для оплаты

Российским ритейлерам
стоило бы поучиться у коллег из Китая