Разделы

ПО Софт

«Наносемантика» создала новую систему для голосового управления в робототехнике

Компания «Наносемантика», российский разработчик нейросетевых решений, завершила создание универсального программного комплекса, который позволяет управлять роботами с помощью естественной речи без требований к высокой мощности оборудования. В основе комплекса ‒ DialogOS: платформа обеспечивает голосовой интерфейс, распознает и синтезирует речь, интегрируется с внешними системами через API. Для внедрения достаточно устройства с микрофоном и динамиком.

Современные нейросети позволяют роботам воспринимать речь в том виде, в каком она звучит в обычном разговоре. Там, где раньше требовалось строгое соблюдение команд, система теперь корректно обрабатывает свободные формулировки, опираясь на смысл и интонации.

В комплекс включены собственные решения компании: диалоговая платформа DialogOS для создания голосовых и текстовых роботов, NLab Speech ASR для точного распознавания речи и NLab Speech TTS для её синтеза. Текущая версия DialogOS совместима с Gemini и отечественной генеративной моделью, при этом архитектура комплекса заранее рассчитана на подключение любых других LLM. «Наносемантика» протестировала все крупные LLM от ведущих разработчиков, и в зависимости от специфики задачи в комплекс может быть подключена наиболее актуальная модель.

Егор Кириллов, бизнес-аналитик компании «Лаборатория Наносемантика», сказал: «Ключевой задачей при разработке этого комплекса была модульность и независимость от аппаратной платформы. Мы реализовали клиент-серверную архитектуру, где на конечном устройстве ‒ будь то робот-собака или промышленный манипулятор ‒ запускается лишь ультралегкий клиент. Вся сложная обработка, включая KWS, VAD и интеграцию с LLM через DialogOS, происходит на сервере. Такой подход позволяет нам гарантировать высокую производительность и качество распознавания независимо от вычислительных мощностей самого робота, а также централизованно обновлять и масштабировать «мозг» всей системы».

Комплекс уже прошёл испытания на роботе-собаке. Она умеет поддерживать диалог, выполняет голосовые команды и откликается на своё имя ‒ «Квант». Для этого была настроена комбинация KWS и VAD, позволяющая роботу отслеживать обращение в реальном времени. «Квант» говорит синтезированным голосом «Лео» из библиотеки компании, хотя при необходимости можно подключить и сторонние варианты.

Алексей Коровин, NDBC: Порядок рождается из управляемости, а не из наличия программы
Цифровизация

Сабина Спирина, генеральный директор компании «Лаборатория Наносемантика», отметила: «Мы видим устойчивый спрос на решения, которые позволяют компаниям быстрее внедрять роботизированные системы и снижать стоимость их интеграции. Новый комплекс делает голосовое управление стандартной функцией, а не дорогостоящей кастомной разработкой. Это открывает путь к масштабным внедрениям ‒ от логистики до сервисной робототехники ‒ и значительно ускоряет цифровую трансформацию наших клиентов».

Опробовать технологии можно на сайте «Наносемантики» ‒ в роли собеседника выступает цифровой аватар Лили, демонстрирующий работу комплекса в реальном диалоге. Лили ‒ уникальный эксперт по вселенной «Наносемантики»: она свободно ориентируется во всех продуктах, услугах и историях успеха клиентов компании. Пообщаться с аватаром текстом или голосом можно на главной странице сайта «Наносемантики».