Селфи и видео с речью

Датасет состоит из пар изображений и видеофайлов с участием людей, произносящих цифры в заранее заданной последовательности.

Состав данных:

Тип данных: изображения (JPEG/PNG) и видеозаписи (MP4/MOV)
Структура серии: 2 фотографии + 2 видео одного участника
Содержание: человек произносит ряд цифр вслух
Ракурсы: анфас или лёгкий полупрофиль
Фон: нейтральный, бытовой или студийный
Освещение: естественное или искусственное, различной интенсивности
Метаданные: пол, возраст, страна, этнос, устройство, разрешение и расширение файлов

Каждая серия содержит как статические кадры, так и видео, что делает набор полезным для задач синхронизации аудио и визуальных сигналов, анализа артикуляции и обучения моделей распознавания речи по изображению лица.

Стоимость за 1 сет: 320 р.