Крупный бизнес активно использует голосовых помощников. Google устанавливает смарт-экраны в номерах отелей, Алиса появляется в телевизорах со Smart TV от Яндекса, ZOE от Harman доступны на лайнерах компании MSC Cruises. Подобные решения упрощают жизнь и сокращают число контактов в период пандемии. Например, с их помощью можно подтвердить личность человека без дополнительных манипуляций. «Такое решение имеет большие перспективы и интересно для бизнеса», — комментирует Максим Колупаев, руководитель направления в Harman DTS (Digital Transformation Solutions) Russia.
Новый функционал — дополнительные преимущества
Все больше компаний задумываются о том, как облегчить жизнь клиентов и сотрудников с помощью современных разработок. Среди них компания Aetrex, которая активно развивается в области технологий сканирования стопы и ортопедии премиум-класса, с помощью которых клиенты могут подобрать подходящую обувь и ортопедические стельки для поддержания здоровья стопы. Их флагманский сканер Albert 2 Pro проводит максимально точные и полные замеры стопы покупателя, включая данные о точках давления на поверхность, и на их основе создает 3D-модель стопы.
Оборудование использует различные сенсоры, технологии компьютерного зрения, искусственного интеллекта и машинного обучения, чтобы собрать максимум данных о стопе. К примеру, технология компьютерного зрения позволяет создавать трехмерные изображения ног. Машинное обучение повышает точность совпадения подобранных изделий. В результате меньше, чем за минуту пользователь узнает размер, длину, ширину, высоту стопы, давление и тип дуги. С помощью этих данных искусственный интеллект находит подходящую обувь или ортопедические стельки среди перечня товаров магазина, и продавец может порекомендовать их покупателям.
Все аппаратное и программное обеспечение для сканера команда Aetrex Technology создала самостоятельно. Поскольку в эпоху пандемии стало актуально бесконтактное управление оборудованием, разработчики решили оснастить Albert голосовым ассистентом. И предложить покупателям сканер нового поколения — Albert 2 Pro.
Для разработки системы бесконтактного управления представители Aetrex связались с компанией Harman — автором платформы Harman eNova, предназначенной для создания и персонализации голосовых помощников. Масштабируемая платформа на базе искусственного интеллекта работает как локально на устройствах и в закрытых сетях, так и по интернету в облачных центрах обработки данных.
Платформа представляет собой набор готовых для использования компонентов, системы их взаимодействия и администрирования. Она позволяет создавать продукты в области интерфейсов голосового взаимодействия, отвечающие высоким требованиям по производительности, точности и безопасности персональных данных.
Например, в 2019 году Harman создала голосового AI ассистента Zoe, который работает на круизных судах компании MSC Cruises. Он говорит на семи языках и может ответить на сотни вопросов об услугах и развлечениях на борту. Перед запуском специалисты провели испытания диалогов, системы распознавания речи и способности трансформировать речь в текст и обратно. Сейчас Zoe установлен на трех лайнерах MSC Cruises.
От идеи к реализации
Основная задача, которая стояла перед Harman — внедрение голосового управления на английском языке в существующее оборудование Aetrex. С тем, чтобы консультанту стал доступен набор команд, в том числе «Begin scan male / female», «Go to Shoe Recommendations», то есть запрос на доступ к облачной системе интеллектуальных ответов. Это был новый функционал для сканера: в первом поколении консультант в магазине для управления использовал тач-экран.
Работы над проектом продолжались около шести месяцев. Представители Harman собрали аудиоданные для обучения системы голосового распознавания. Систему научили различать ключевые слова, команды управления и вопросы к искусственному интеллекту, связанные с подбором обуви. Разработали и согласовали архитектуру голосового помощника с инженерами Aetrex, создали две модели ИИ. Первая оффлайн слушала голосовые команды управления сканером. Вторая онлайн распознавала вопросы к искусственному интеллекту и обучающему центру.
За реализацию отвечали модули платформы Harman eNova. К примеру, модуль «Wake-word engine» позволяет активировать систему с помощью позывного «Hey Albert». Модуль распознавания команд для управления сканером работает на железе и совместно с программным обеспечением самого сканера. Модуль распознавания команд для базы данных на основе искусственного интеллекта отправляет запрос пользователя в облако и подбирает подходящий ответ.
Финальное тестирование
У Harman не было физического доступа к оборудованию заказчика, вся работа над проектом проходила удаленно. Систему тестировали на компьютерах, близких по конфигурации к тем, которые Aetrex использует для Albert. Тестовые инженеры Harman работали с теми же беспроводными микрофонами, которыми пользуются консультанты Aetrex.
На заключительном этапе тестирования заказчик установил новый софт на 3D-сканеры Albert в нескольких магазинах и попросил консультантов проверить работу системы. В случае проблем собранные аудио данные и файлы отладки направляли в Harman для анализа и корректировки.
Трудности перевода
Этап сбора аудио данных для обучения модуля Wake-Word Engine потребовал больше всего времени. Представители Harman обратились к американской компании, которая подготовила звуковые файлы — записала голоса мужчин и женщин разного возраста и с разными акцентами: от выходцев из Латинской Америки до уроженцев Китая. Они произносили позывной и команды управления сканером на английском языке. Так Harman смогли учесть все особенности произношения, которые могут быть у покупателей сети магазинов Aetrex.
Еще один интересный нюанс был в унификации команды-обращения. Например, пользователь может произнести «Go to Learning Center» или «Go to Learning Center, please!». Разработчики научили систему правильно учитывать оба варианта.
Заказчик и исполнитель столкнулись с трудностями при выборе подходящего беспроводного микрофона. Необходимо было найти качественное устройство, способное работать от аккумулятора 8–12 часов и заглушать специфические звуки в магазинах: шум кондиционера, рекламу, сигналы автомобилей с улицы, отрывки разговоров покупателей. В результате выбрали модель радиогарнитуры китайского производителя. Она прошла все испытания и была одобрена заказчиком.
Новинка и ее перспективы
В результате успешного сотрудничества Aetrex и Harman появился аппарат для сканирования стопы нового поколения — 3D-сканер стопы Albert 2 Pro. Он позволяет торговым представителям в розничных магазинах Aetrex бесконтактно подбирать товары для клиентов и консультировать людей по ассортименту. Управление осуществляется с помощью голосового помощника.
Вот как это происходит. Покупатель приходит в магазин, чтобы подобрать подходящую обувь или стельки, и ему предлагают воспользоваться сканером. Продавец с помощью микрофона запускает оборудование, задает Альберту — персонажу-помощнику, встроенному в программное обеспечение сканера — вопрос о полученных в результате сканирования данных или состоянии стоп клиента и получает мгновенный ответ со всеми необходимыми данными, изображениями или видео.
Разработку также можно использовать в качестве учебного центра. Реалистичный 3D-персонаж помогает пользователям ориентироваться в программном обеспечении.
Решения, используемые для голосового управления сканером стопы Альберт, основаны на кастомизируемой платформе Harman eNova и могут быть использованы в любых областях, где требуется голосовой ассистент или просто голосовое управление. В этой платформе есть набор готовых для использования компонентов, а также системы их взаимодействия и администрирования. Набор состоит из высокоточных систем автоматического распознавания речи (ASR), обработки и понимания естественного языка (NLU), синтеза речи (TTS).
Платформа Harman eNova может использоваться как готовый продукт с минимальными сроками внедрения, так и служить инструментарием для создания новых персонализированных голосовых интерфейсов. По словам представителей Harman, в обоих вариантах издержки на постгарантийное обслуживание отсутствуют или сведены к минимуму.