Датасет состоит из скриншотов экранов мобильных устройств, ноутбуков и компьютеров, на которых отображаются тексты электронных писем. Изображения включают как обычную переписку (личные, деловые письма, уведомления), так и спам-сообщения (реклама, рассылки, фишинг).
Состав данных:
Тип данных: изображения (формат PNG/JPEG)
Содержание: текст писем, интерфейс почтовых клиентов (входящие, отправленные, уведомления, реклама)
Категории: спам и не спам
Язык текста: преимущественно английский
Фон: цифровой интерфейс (экраны почтовых клиентов)
Освещение: равномерное, экраны без бликов
Метаданные: устройство, разрешение экрана, страна, язык интерфейса, формат изображения
Набор данных предназначен для обучения и тестирования моделей классификации электронных писем, а также для задач распознавания текста (OCR), анализа интерфейсов почтовых клиентов и обучения систем фильтрации контента.