Разделы

Цифровизация Искусственный интеллект

Исследование TRASSIR и AIRI: применение мультимодальных моделей в задачах видеоаналитики

TRASSIR и институт AIRI завершили первый этап совместного исследовательского проекта, направленного на изучение потенциала мультимодальных моделей в анализе видеоданных. Проект сосредоточен на разработке и апробации эффективных пайплайнов видеоаналитики с использованием современных ИИ-архитектур. Об этом CNews сообщили представители AIRI.

Проект был направлен на создание эффективного пайплайна видеоаналитики с использованием мультимодальных моделей для расследования краж товара в магазинах. В процессе работы особое внимание уделялось снижению уровня ложных срабатываний и обеспечению устойчивости алгоритмов при отсутствии дополнительного обучения.

В исследовании использовались мультимодальные модели, работающие в zero-shot-режиме, то есть без дообучения на специализированных выборках. Такой подход позволил оценить универсальность моделей и определить границы применимости к задачам видеоаналитики.

Разработанный пайплайн учитывает и ограничения — объем видеопамяти и скорость обработки, а также хорошо справляется с анализом сцен. Проблемной зоной являются короткие, быстрые эпизоды. В ответ на этот вызов предложены методы повторной обработки видео с фокусировкой на детализацию значимых фрагментов.

Были реализованы следующие методические улучшения: механизмы рассуждения, позволяющие лучше распознавать сложные действия (например, «взятие+возврат» товара); детализация эпизодов интереса для более точного анализа коротких событий; поддержка потокового видео с учетом длинного временного контекста.

Так, в рамках одного из тестовых сценариев система изначально ошибочно определила резкий наклон покупателя как попытку кражи. После внедрения механизма рассуждения и анализа последовательности действий система корректно распознала, что покупатель просто наклонялся за упавшим товаром.

«Сбер» перешел на российское решение для анализа кода
«Сбер» перешел на российское решение для анализа кода Импортонезависимость

Анализ решений западных коллег, включая Amazon, показал, что основными ограничениями зарубежных систем являются отсутствие адаптации моделей к специфике целевого домена и слабая эффективность при анализе краткосрочных событий. Учет этих факторов позволил создать более устойчивую архитектуру.

Результаты исследования задали направление для последующих работ в области прикладной видеоаналитики. Один из будущих проектов предусматривает использование мультимодальных моделей для оценки соблюдения стандартов обслуживания в предприятиях общественного питания, включая: анализ аудиокомпоненты на предмет соблюдения речевых скриптов, визуальный контроль за соблюдением санитарных норм и стандартов внешнего вида персонала, а также детекцию нарушений, связанных с условиями допродаж и чистотой торгового пространства.

Особенность проекта заключается в интеграции речевых и визуальных данных в рамках единого аналитического пайплайна — одного из первых коммерчески ориентированных решений на основе мультимодальных ИИ-моделей.

TRASSIR и AIRI планируют продолжать исследовательскую деятельность в направлении разработки интеллектуальных и адаптивных систем видеоанализа.



До 20 марта открыт прием заявок на Конкурс «Импортозамещение в телекоммуникациях» До 20 марта открыт прием заявок на Конкурс «Импортозамещение в телекоммуникациях»

erid: 2W5zFHXcZPo

Рекламодатель: ООО «ФЛАТ-ПРО»

ИНН/ОГРН: 9714013259/1237700428240

Конференция K2 Cloud Conf 2026 Конференция K2 Cloud Conf 2026

erid: 2W5zFJoBN9o

Рекламодатель: АО "К2 ИНТЕГРАЦИЯ"

ИНН/ОГРН: 7701829110/01097746072797