Разделы

Веб-сервисы

Более 120 тысяч книг в новом звучании: голос виртуального рассказчика в «Яндекс Книгах» стал более естественным

«Яндекс Книги» запустили новую версию виртуального рассказчика с улучшенной нейросетевой моделью синтеза голоса. Функция доступна более чем для 120 ты. произведений. Благодаря обновлению технологии, интонации рассказчика стали более живыми и естественными, а манера чтения теперь меняется в зависимости от жанра книги. Новая модель демонстрирует высокое качество синтеза на русском языке, превосходя решения крупнейших мировых игроков в области синтеза речи — например, в 80% случаев она синтезирует голос лучше ElevenLabs. Об этом CNews сообщили представители «Яндекса».

Виртуальный рассказчик позволяет слушать книги, у которых пока нет готовой аудиоверсии. Это открывает доступ к книгам незрячим и слабовидящим людям. Прежняя нейросетевая модель быстро синтезировала голос, но он мог звучать слишком монотонно. Новая технология решает эту проблему. Теперь прослушивание книг станет интереснее, можно будет глубже погрузиться в происходящее, а возможно, и переосмыслить прочитанное — в аудиоформате книги могут открыться по-новому.

Для обучения модели использовали фрагменты речи, которые записали вместе с профессиональными дикторами. Они зачитывали тексты разных жанров: фантастику, детективы, романы и учебники. Благодаря этому виртуальный рассказчик меняет интонацию в зависимости от жанра произведения — это особенно важно для художественной литературы, где часто встречается прямая речь. Модель научилась определять, когда начинается диалог, и выделять интонационно реплики героев. А чтобы речь звучала плавно и без задержек, модель начинает синтезировать первые звуки слова, параллельно генерируя следующие.

Илья Батай, ИТ-директор банка «Синара»: На рынке появляются отдельные независимые решения, но в промышленных масштабах использовать их пока страшно
ИТ в банках

По данным замеров методом слепого тестирования, новая модель синтезирует голос заметно лучше предыдущей. По общему впечатлению от голоса она выигрывает в 74% случаев, по интонации — в 78%, по естественности звучания — в 73%.

Виртуальный рассказчик появился в «Яндекс Книгах» летом прошлого года. Функция доступна в веб-версии и мобильном приложении сервиса. В настройках можно выбрать мужской или женский голос рассказчика. Чаще всего люди слушают аудиокниги по будням в семь-девять утра и вечером после семи, то есть по дороге на работу и обратно.