Нарушения в пользовательских видео и аудио

Этот датасет представляет собой крупномасштабную коллекцию транскрибаций аудио- и видеопостов из открытых источников: социальных сетей, стриминговых площадок, видеохостингов и подкастов.

Каждый ролик сопровождается точной расшифровкой речи с временными метками, а также детализированными юридико-содержательными аннотациями. Для каждого фрагмента текста определяется степень риска — от нейтральных высказываний до потенциально проблемных и явно нарушающих законодательство РФ или правила платформы. Аннотаторы выделяют ключевые категории нарушений, включая разжигание ненависти и вражды, пропаганду насилия, призывы к противоправным действиям, распространение ложной информации, незаконный оборот запрещённых веществ или предметов, нарушение норм персональных данных и демонстрацию запрещённого контента.

Датасет создавался для задач автоматической модерации, юридико-лингвистического анализа, безопасностного мониторинга, оценки риска и построения AI-систем, способных выявлять нарушения в пользовательском контенте. Благодаря разнообразию источников, стилей речи и тематики датасет подходит как для обучения крупных языковых моделей, так и для разработки инструментов compliance-аналитики и контент-фильтрации на уровне платформ.