Селфи и видео с речью

Датасет состоит из пар изображений и видеофайлов с участием людей, произносящих цифры в заранее заданной последовательности.

Состав данных:
  • Тип данных: изображения (JPEG/PNG) и видеозаписи (MP4/MOV)
  • Структура серии: 2 фотографии + 2 видео одного участника
  • Содержание: человек произносит ряд цифр вслух
  • Ракурсы: анфас или лёгкий полупрофиль
  • Фон: нейтральный, бытовой или студийный
  • Освещение: естественное или искусственное, различной интенсивности
  • Метаданные: пол, возраст, страна, этнос, устройство, разрешение и расширение файлов

Каждая серия содержит как статические кадры, так и видео, что делает набор полезным для задач синхронизации аудио и визуальных сигналов, анализа артикуляции и обучения моделей распознавания речи по изображению лица.