Обучающиеся датасеты для распознавания дипфейков

Автор: Микунов А. В., Елизаров Д. А.

18.11.2025 23:54

ОБУЧАЮЩИЕСЯ ДАТАСЕТЫ

ДЛЯ РАСПОЗНАВАНИЯ ДИПФЕЙКОВ

Микунов А.В., аспирант, ФГБОУ ВО ОмГУПС

Елизаров Д.А., к.т.н., доцент, ФГБОУ ВО ОмГУПС

Аннотация. Статья посвящена анализу существующих наборов данных для разработки и тестирования сервисов, способных различать подлинные изображения и изображения, созданные искусственным интеллектом.

Ключевые слова: технология дипфейк, генеративный искусственный интеллект, датасет, набор данных, распознавание.

С развитием технологий генерации изображений, аудио на основе нейросетей возникли новые вызовы в области безопасности и этики, стало возможным создавать визуальный контент, практически неотличимый от реального [1]. Одним из наиболее опасных проявлений этой технологии являются дипфейки – реалистичная манипуляция аудио-, фото- и видеоматериалами с помощью искусственного интеллекта для достижения максимального сходства с реальными изображениями и звуковыми дорожками.

Эффективное распознавание дипфейков требует больших объемов размеченных данных – датасетов. Датасет (набор данных) – это структурированный набор данных, который используется для решения определенных задач в области аналитики и машинного обучения[2].

В открытых источниках можно найти много датасетов для разных целей. Платформа Kaggle cбольшой коллекцией наборов данных по различным темам: экономика, здравоохранение, спорт, технологии [6]. Обычно датасеты Kaggle хранятся в формате CSV или Excel. Поисковая система для датасетов от Google подходит для поиска специализированных данных из научных публикаций и государственных источников. DataHub – коллекция общедоступных данных, включая экономику, транспорт и географию. Большинство датасетов – в формате CSV или JSON.

Во многих современных языках программирования есть библиотеки для работы с большими данными. А внутри библиотек есть встроенные датасеты, которые можно использовать. Например, на Python есть фреймворк для машинного обучения Pytorch со встроенной библиотекой torchvision. Похожие технологии есть и в других языках: C++, Java, R.Встроенные в библиотеки датасеты подходят для тех же целей, что и датасеты из открытых источников: обучение и тестирование моделей, тестирование гипотез, обучение анализу данных. Главное, чтобы датасет подходил своей цели.

На онлайн-платформе Kaggle были рассмотрены готовые датасеты для распознавания дипфейков.

StyleGan-StyleGan2 Deepfake Face Images – набор данных для распознавания изображений лиц DeepFake. Набор данных состоит из двух наборов фото: реальных и фейковых. Реальные изображения получены из набора данных Nvidia Flickr. Поддельные изображения генерируются с помощью StyleGAN и поступают из обсуждения DeepFake Detection Challenge Discussion на Kaggle.Чтобы еще больше расширить набор данных и повысить надежность модели, были применены несколько дополнений. С помощью этих дополнений были созданы еще 6 445 изображений, что привело к окончательному набору данных из 12 890 изображений, в котором:5 890 реальных,7 000 – фальшивка. Данный датасет позволяет разрабатывать более эффективные модели, способные отличать реальные лица от синтетических в различных источниках и техниках генерации дипфейков.

Final Merged Dataset – датасет, который объединяет несколько высококачественных наборов данных для обнаружения дипфейков в единый структурированный формат для удобного использования в проектах машинного обучения и компьютерного зрения. Он включает в себя реальные и поддельные изображения лиц из четырех популярных датасетов:

Celeb-DF-New – высококачественные дипфейк-видео знаменитостей, преобразованные в кадры;

сбалансированная коллекция реальных и обработанных лиц;

FaceForensics++ – широко используемый стандарт для обнаружения дипфейков;

140k Real and Fake Faces – крупномасштабный набор данных синтетических и реальных лиц.

Набор данных был предварительно обработан и разделен на наборы для обучения (60%), проверки (20%) и тестирования (20%) для непосредственного использования в моделях глубокого обучения.

Detect AI-Generated Faces: High-Quality Dataset – набор данных содержит высококачественные изображения как реальных человеческих лиц, так и синтетических лиц, созданных искусственным интеллектом, предназначенных для приложений машинного и глубокого обучения. Он предоставляет ресурс для разработки и тестирования классификаторов, способных различать подлинные изображения лица и изображения, созданные искусственным интеллектом. Этот набор данных идеально подходит для таких задач, как обнаружение дипфейков, проверка подлинности изображений и анализ изображений лица, а также тщательно отобран для поддержки передовых исследований и приложений. Набор данных состоит из 3 203 изображений, в котором: 2 202 реальных, 1001 – фальшивка.

Deepfake image detection –это ресурс, предназначенный для исследователей, разработчиков и специалистов по обработке и анализу данных, работающих над обнаружением, анализом и пониманием дипфейков. Набор данных тщательно структурирован для поддержки приложений машинного обучения и искусственного интеллекта, особенно для улучшения систем обнаружения дипфейков. Он разделен на два основных подмножества: обучающие данные и тестовые данные, что позволяет без проблем разрабатывать и оценивать модели обнаружения.

В заключении следует отметить, что существующие датасеты либо ограничены по объему, либо не учитывают реальные условия эксплуатации. Поэтому возникает необходимость в разработке сервиса генерации собственных обучающих и тестовых датасетов, включающих как реальные, так и синтетические данные с контролируемыми характеристиками.

Литература

1. Обзор технологий создания Deepfake и методов его выявления — Научно-технический центр ФГУП «ГРЧЦ» (НТЦ) [Электронный ресурс]. – URL: https://rdc.grfc.ru/2020/06/research-deepfake/?ysclid=m9qt9yu6cp221085099(дата обращения: 16.11.2025)

2. Что такое датасет и как его использовать [Электронный ресурс]: –URL: https://thecode.media/chto-takoe-dataset-i-chto-s-nim-delayut/(дата обращения: 16.11.2025)

3. Синтетические данные в машинном обучении [Электронный ресурс]: –URL: https://data-light.ru/blog/sinteticheskie-dannie-ml/(дата обращения: 16.11.2025)

4. Генерация синтетических данных: технологии и возможности [Электронный ресурс]: – URL:https://sky.pro/wiki/analytics/generatsiya-sinteticheskih-dannyh-tehnologii-i-vozmozhnosti/(дата обращения: 16.11.2025)

5. Инструменты Pythonдля генерации синтетических данных [Электронный ресурс]: –URL: https://habr.com/ru/articles/888830/(дата обращения: 16.11.2025)

6. Kaggle [Электронный ресурс]: – URL: https://www.kaggle.com/datasets(дата обращения: 16.11.2025)

7. Гуселетова, А. Е. Инструменты обнаружения дипфейков / А. Е. Гуселетова, Д. А. Елизаров // Актуальные проблемы и тенденции развития современной экономики и информатики : Материалы Международной научно-практической конференции, Бирск, 04–06 декабря 2024 года. – Бирск: Уфимский университет науки и технологий, 2024. – С. 177-180. – EDN BWWETK.

8. Жуков, Д. В. Параметры и признаки для выявления дипфейков / Д. В. Жуков, А. А. Филатова // Студент: наука, профессия, жизнь : Материалы XII всероссийской студенческой научной конференции с международным участием. В 5-ти частях, Омск, 21–25 апреля 2025 года. – Омск: Омский государственный университет путей сообщения, 2025. – С. 464-467. – EDN GDMDXN.

Обновлено 18.11.2025 23:57