Нейросеть DiffusionDB

DiffusionDB является крупномасштабным набором данных для генерации изображений по текстовым подсказкам. Он содержит 14 миллионов изображений, созданных с использованием Stable Diffusion по подсказкам и гиперпараметрам, заданным реальными пользователями.

Данный набор данных представлен в открытом доступе на платформе Hugging Face Dataset и предоставляет исследователям уникальные возможности для работы с генеративными моделями, выявления deepfakes и разработки инструментов взаимодействия человека с искусственным интеллектом для более удобного использования этих моделей.

Набор данных содержит изображения различных языков, включая английский, испанский, китайский и русский. Для поддержки различных потребностей пользователей предусмотрено два подмножества — DiffusionDB 2M и DiffusionDB Large.

Структура файла модульного типа позволяет эффективно распределять DiffusionDB. Например, 2 миллиона изображений в DiffusionDB 2M разделены на 2 000 папок, где каждая папка содержит 1 000 изображений и JSON файл, связывающий их с подсказками и гиперпараметрами. Аналогично, 14 миллионов изображений в DiffusionDB Large разделены на 14 000 папок.

Для удобства доступа к подсказкам и другим атрибутам изображений без необходимости загрузки всех Zip файлов предоставлены две таблицы метаданных — metadata.parquet и metadata-large.parquet для DiffusionDB 2M и DiffusionDB Large, соответственно.

Несмотря на то, что модель Stable Diffusion имеет фильтр NSFW, автоматически размывающий изображения, содержащие NSFW контент, рекомендуется рассмотреть подходящий порог NSFW оценки для фильтрации изображений перед использованием DiffusionDB в своих проектах.

С такими объемами данных, как в DiffusionDB, использование модульной структуры файла позволяет эффективно загружать и работать с нужным количеством изображений и их параметров без необходимости загружать весь набор данных, что облегчает работу исследователям и разработчикам.

Перейти

ОтветитьОтменить ответ