Разделы

ПО Техника

ИИ научили доводить плохие диктофонные записи до студийного качества. Инструмент бесплатный

Выпущен бесплатный инструмент Adobe, который позволяет радикально очищать аудио от фонового шума и улучшать качество записи. Как именно он работает, компания скрывает.

Радикальная очистка

Компания Adobe выпустила новый ИИ-инструмент для работы с аудио. Программа Enhance Speech предназначена для очистки записей речи от постороннего шума и общего улучшения их качества. В результате даже запись, сделанная на средний по качеству диктофон, в итоге будет звучать так, будто выполнена в профессиональной студии. По крайней мере, так утверждают разработчики.

Что удивительно, инструмент бесплатный, хотя для его использования потребуется создать аккаунт на сайте Adobe.

Как указывается в публикации Ars Technica, Enhance Speech отпочковался от более масштабного исследовательского проекта ProjectShasta, позднее переименованного в Adobe Podcast.

Лучше всего себя проявляет браузерная версия Enhance Speech. После регистрации пользователи могут загружать файл MP3 или WAV продолжительностью до одного часа или объемом до 1 гигабайта. Процесс очистки и улучшения занимает несколько минут.

adobe600.jpg
Adobe выпустила бесплатный ИИ-инструмент для радикальной очистки диктофонных записей от шума

При тестировании журналистами Ars Technica выяснилось, что Enhance Speech лучше всего работает с записями, где слышен только один голос, а уровень шума остается более-менее умеренным. Запись на встроенный микрофон ноутбука Apple с расстояния около трех метров и с шумящим рядом вентилятором в итоге выглядела так, будто ее делали на профессиональный магнитофон в полностью заглушенной студии.

Как это работает

Adobe не раскрывает деталей того, как работает их система. В ArsTechnica предполагают, что ИИ обучали на многочасовом массиве данных, включавшем как чистые, так и зашумленные записи. Итоговая модель позволяет системе вычленять частоты человеческого голоса и синтезировать точную копию всего, что было произнесено.

Между тем, сотрудники издания Hacker News при тестировании Enhance Speech на очень шумных записях получили довольно странные результаты, такие, например, как звук посторонних голосов, проступивших на записи, сделанной рядом с водопадом. Записи, сделанные на других языках, нежели английский, также выдавали «призрачные голоса».

Как приручить джинна: Почему GenAI нужен науке и бизнесу, несмотря на сложный характер
Энергия ИИ

Но это указывает, что ИИ производит какой-то более сложный процесс, нежели математическое вычитание шума из записи.

«Логично, что именно Adobeвыпустила такой инструмент. В ее арсенале уже много лет присутствует пакет под названием AdobeAudition, купленный у другой фирмы в начале 2000-х. Одним из его наиболее знаменитых достоинств является высокоэффективная модель вычитания шума из аудиозаписей по заданному профилю. Эту функцию пакет унаследовал от оригинальных разработчиков, — говорит Алексей Водясов, технический директор компании SEQ. — Но такой подход имеет свои серьезные ограничения. ИИ, применяющий ресинтез речи, будет справляться с задачей устранения шума, намного эффективнее, хотя и здесь, скорее всего, будут свои проблемы».

Enhance Speech — не первый инструмент, который предлагает возможность удаления шума с применением ИИ-моделей. Уже некоторое время существуют открытый пакет mayavoz и коммерческий сервис Audo Studio, которые способны давать сходные результаты.

Enhance Speech — это лишь один элемент целой группы ИИ-инструментов Adobe, нацеленных на подкастеров. Кроме него туда входят еще одна бесплатная разработка MicCheck и инструмент для редактирования аудио на основе стенограммы, который все еще проходит бета-тестирование и доступен только по приглашению.

Роман Георгиев