«Яндекс» опубликовал ИИ-технологию распознавания голосовых команд на фоне шума
Разработчики «Яндекса» щедро поделились нейросетевой технологией для распознавания голосовых команд на фоне шума, чтобы исследователи во всем мире не тратили ресурсы на поиск таких решений с нуля.
Ради прогресса в области голосовых интерфейсов
Исследователи «Яндекса» в опубликованной статье подробно описали нейросетевую технологию, которую компания применяет в своих умных колонках и «ТВ Станциях» для распознавания голосовых команд на фоне шума. Теперь ее смогут воспроизвести разработчики со всего мира, сообщили CNews представители «Яндекса».
По словам Дмитрия Солодухи, руководителя направления голосовой активации «Яндекса», до сих пор не существовало единого подхода к распознаванию голоса в шумной среде, который был бы одинаково надежен в лабораторных тестах и в реальных условиях.
«Многие компании и исследователи сталкиваются с похожими проблемами, но не имеют доступа к промышленным решениям и вынуждены тратить ресурсы на их разработку с нуля. Надеемся, что публикация нашего метода ускорит прогресс в области голосовых интерфейсов, поможет избежать типичных ошибок и приведет к появлению большего количества удобных и надежных голосовых устройств», — сказал Солодуха.
Общий принцип работы шумоподавления
Обычно в умных устройствах и ассистентах используют алгоритмы эхоподавления (для распознавания голоса на фоне музыки) или шумоподавления (для уменьшения других фоновых звуков). Однако они ухудшают и человеческую речь, пояснили специалисты «Яндекса».
Нейросетевой attention-механизм, разработанный в «Яндексе», получает на вход сразу два сигнала — с шумоподавлением и эхоподавлением. В каждый момент времени нейросеть выбирает наиболее четкий сигнал, что позволяет распознавать команды на фоне самых разных звуков.
Технология доказала свою эффективность на практике, утверждают представители компании. Благодаря ей пользователям устройств с «Алисой», например, не нужно выключать пылесос или перекрикивать песню, чтобы быть услышанным. Команды усиливаются на фоне самых разных шумов — звуков музыки, льющейся воды, вечеринки или стройки за окном.
Борьба с шумами
О своих успехах в поиске методики шумоподавления, усиливающей голос и при этом не делающей его звучание менее разборчивым, компания Philips заявляла еще в 2005 г.

Искусственный интеллект для решения такой задачи применили в Вашингтонском университете (UW) в Сиэтле, о чем университет сообщил на своем сайте в мае 2024 г. Ученые создали наушники, создающие акустический «чистый лист».
Для этого нужно нажать специальную кнопку на девайсе и посмотреть на говорящего человека в течение трех-пяти секунд. После такой «регистрации» система будет подавлять все остальные звуки окружающей среды и воспроизводит только голос «зарегистрированного» в режиме реального времени, даже если слушатель перемещается в шумных местах и не смотрит на него.