Датасет состоит из пар изображений и видеофайлов с участием людей, произносящих цифры в заранее заданной последовательности.
Состав данных:
Тип данных: изображения (JPEG/PNG) и видеозаписи (MP4/MOV)
Структура серии: 2 фотографии + 2 видео одного участника
Содержание: человек произносит ряд цифр вслух
Ракурсы: анфас или лёгкий полупрофиль
Фон: нейтральный, бытовой или студийный
Освещение: естественное или искусственное, различной интенсивности
Метаданные: пол, возраст, страна, этнос, устройство, разрешение и расширение файлов
Каждая серия содержит как статические кадры, так и видео, что делает набор полезным для задач синхронизации аудио и визуальных сигналов, анализа артикуляции и обучения моделей распознавания речи по изображению лица.