В Высшей математической школе Московского государственного университета разработали новый подход к оценке качества сжатых изображений и видео, который учитывает потребности алгоритмов машинного зрения. В результате исследования созданы метрики, позволяющие предсказать влияние компрессии на точность детекции объектов, распознавания лиц и идентификации автомобильных номеров.
Современные системы, такие как видеонаблюдение и автоматическое вождение, активно используют алгоритмы машинного зрения для анализа визуальной информации. Стандартные метрики, такие как PSNR и SSIM, предназначены для оценки качества с точки зрения человека, что делает их недостаточно эффективными в контексте работы нейросетей. Учёные ВМК МГУ провели детальное исследование, в ходе которого были протестированы различные видеокодеки, такие как H.264, H.265, AV1 и VVC, с целью выявления закономерностей, которые влияют на эффективность распознавания.
“Современные системы машинного зрения обрабатывают значительные объёмы видео, которые часто сильно сжимаются, и традиционные метрики не всегда показывают, как это сжатие влияет на точность алгоритмов,” — отметил Михаил Дремин, аспирант лаборатории компьютерной графики и мультимедиа.
Эксперименты показали, что важные текстурные и контурные детали теряются при низком битрейте, что негативно сказывается на эффективной детекции лиц и мелких объектов. Разные кодеки по-разному влияют на производительность машинного зрения, и, например, H.266 и AV1 обеспечивают лучшее сохранение деталей при низких битрейтах в сравнение с H.264.
Созданные метрики не только измеряют ухудшение качества после компрессии, но и позволяют оценивать разницу между человеческим восприятием и потребностями алгоритмов. Валидация новых метрик была проведена с участием более 5000 человек.
“Наши метрики открывают новые возможности для создания интеллектуальных кодеков, которые могут адаптироваться под конкретные задачи анализа видео,” — добавил Дмитрий Ватолин, старший научный сотрудник лаборатории. Эти новые подходы могут значительно повысить эффективность работы систем видеонаблюдения и автономного транспорта, гарантируя высокое качество анализа даже при ограниченных условиях передачи данных.