Разделы

ПО Кадры

Ученые ВМК МГУ разработали метрики качества сжатого видео для машинного зрения

Исследователи ВМК МГУ предложили новый подход к оценке качества сжатых изображений и видео, учитывающий потребности алгоритмов машинного зрения. Разработанные метрики позволяют предсказать, как компрессия влияет на точность детекции объектов, распознавания лиц и идентификации автомобильных номеров. Полученные результаты могут значительно повысить эффективность систем видеонаблюдения, автономного транспорта и интеллектуального анализа видео. Работа опубликована в материалах ICPR 2024. Об этом CNews сообщили представители МГУ.

Современные системы видеонаблюдения, автоматического вождения и распознавания образов все чаще используют алгоритмы машинного зрения для анализа визуальной информации. Однако стандартные метрики оценки качества, такие как PSNR, SSIM и VMAF, были разработаны для анализа изображений с точки зрения человека и не учитывают, как компрессия влияет на работу нейросетевых алгоритмов. В результате видео с высоким значением традиционных метрик может содержать артефакты, которые значительно затрудняют детекцию и распознавание объектов.

Ученые ВМК МГУ провели исследование, в котором проанализировали влияние сжатия на алгоритмы машинного зрения и предложили новые метрики, способные точнее предсказывать, как компрессия влияет на работу нейросетей. В ходе работы были протестированы различные видеокодеки и методы сжатия, чтобы выявить закономерности и определить, какие параметры компрессии наиболее критичны для распознавания объектов.

«Современные системы машинного зрения работают с огромными потоками видео, которые часто подвергаются сильному сжатию. Однако традиционные метрики не показывают, насколько такое сжатие повлияет на точность нейросетевых алгоритмов. Мы разработали новые подходы, позволяющие прогнозировать эти изменения», — сказал Михаил Дремин, аспирант Лаборатории компьютерной графики и мультимедиа ВМК МГУ.

Ученые протестировали влияние видеокомпрессии на производительность различных алгоритмов машинного зрения, включая детекцию объектов (YOLOv5), распознавание лиц (ArcFace) и идентификацию автомобильных номеров (CCPD). Для этого использовались пять современных видеокодеков, включая JPEG, H.264, H.265, AV1 и VVC (H.266), а также стандартные наборы данных MS COCO, WIDER FACE, CCPD и CelebA.

В ходе экспериментов исследователи анализировали, как компрессия влияет на точность предсказаний алгоритмов. Было выявлено, что при снижении битрейта изображение начинает терять важные текстурные и контурные детали, что особенно критично для задач детекции лиц и мелких объектов. Оказалось, что разные кодеки оказывают различное влияние на точность машинного зрения. Например, современные кодеки H.266 и AV1 позволяют сохранять больше деталей при низких битрейтах по сравнению с H.264, но при очень сильном сжатии все модели машинного зрения начинают работать хуже.

«Мы изучили, какие параметры сжатия критичны для машинного зрения, и выяснили, что не все кодеки одинаково сильно влияют на точность детекции. В некоторых случаях использование правильного алгоритма компрессии может минимизировать негативные эффекты без увеличения размера файла», — сказал Иван Молодецких, инженер Лаборатории компьютерной графики и мультимедиа ВМК МГУ.

Новая разработка решит проблему совместимости систем оперативной радиосвязи
Импортонезависимость

Исследователи разработали несколько новых метрик, которые оценивают, насколько компрессия ухудшает способность алгоритмов машинного зрения анализировать изображение. Эти метрики учитывают: изменение точности детекции объектов после компрессии; влияние сжатия на распознавание лиц и текстовых элементов; различие между оценками качества изображения, основанными на человеческом восприятии, и оценками, важными для машинного зрения.

Для валидации новых метрик был проведен эксперимент с участием более пяти тыс. человек, которые оценивали субъективное качество видео, а затем их оценки сравнивались с объективными показателями машинного зрения. Было выявлено, что традиционные метрики качества, такие как PSNR и SSIM, не всегда коррелируют с точностью распознавания нейросетями, в то время как новые метрики показывают более стабильные результаты.

«Разработанные нами метрики позволяют точнее прогнозировать, какие видео будут восприниматься не только зрителем, но и алгоритмами машинного зрения. Это открывает путь к созданию интеллектуальных кодеков, которые смогут адаптировать параметры компрессии под конкретные задачи анализа видео», — сказал Дмитрий Ватолин, старший научный сотрудник Лаборатории компьютерной графики и мультимедиа ВМК МГУ.

Новые метрики могут применяться в различных областях, где важно сохранить баланс между качеством изображения и эффективностью машинного анализа. В системах видеонаблюдения они помогут обеспечивать стабильную работу детекторов лиц и объектов даже при передаче видео по каналам с ограниченной пропускной способностью. В сфере автономного транспорта новые метрики позволят адаптировать параметры компрессии так, чтобы нейросети беспилотных автомобилей всегда получали достаточное количество информации для безопасной навигации. В стриминговых сервисах и мобильных сетях использование таких метрик поможет сохранять хорошее качество видео без увеличения нагрузки на серверы и сети передачи данных.



IT Elements 2025 IT Elements 2025

erid:

Рекламодатель:

ИНН/ОГРН: