Миниатюры 512px Danbooru 2018 safe и метаинформация для анализа и обучения нейронных сетей
Тип раздачи: Art
Год выпуска: 2019
Количество: 2.536.329
Формат: JPG
Разрешение: 512x512
Описание: Про проект
This Waifu Does Not Exist слышали многие, распознавание няшек и даже их довольно качественная программная генерация - звучит круто !
Намного меньшее число людей знает, что:
- успешные методы распознавания образов (нейронные сети) для фото и рисованных изображений отличаются и плохо подходят друг для друга
- никто толком не понимает почему одни модели нейронных сетей работают лучше, другие хуже и большинство исследований выполняются "на авось"
- для тренировки нейронных сетей нужны миллионы тегированных изображений, причем выбор и качество тегов решают
Автор вышеупомянутого проекта не только весьма подробно расписал способы получения своих результатов,
но и дал ссылки на используемый исходный датасет (гуглите
Gwern Danbooru2018 dataset),
существующие модели (гуглите
deep danbooru resnet model) и сходные проекты (смотрите в статьях по ссылкам).
Предметная область крайне увлекательная
, ня !
Вот только "тренировочный" набор данных Danbooru (только safe картинки уменьшенные до 512 точек по бОльшей стороне) доступен
через torrent в формате, сносящем крышу большинству клиентов (10 релизов примерно по 250.000 отдельных файлов в каждом).
Данный релиз содержит те же изображение в виде 1.000 архивов (разделены по трем последним цифрам номера поста),
а также метаданные (информацию о характеристиках исходных изображений) в двух видах:
- "исходный" полный JSON как выкачан из Danbooru
- преобразованные (мною) в три таблицы CSV-текст с основными реквизитами, а также некоторой аналитикой (статистикой)
для работы с ними Excel не прокатит, нужна БД (мой выбор - Oracle 18c XE)
Немного о датасете:
- содержит изображения до 01.01.2019 включительно, 2.536.329 файлов
- метаинформация (насколько мне удалось ее обработать, в CSV) охватывает 3.336.816 постов,
использовано 364.959 разных тегов (бардак еще тот), всего тегов 92.771.799
В умелых руках данный релиз может пригодиться для:
- анализа метаданных самих по себе (авторы с максимальным средним числом фаворитов на картинку,
статистика по размерам и соотношению сторон, самые популярные кроссоверы - возможных примеров бездна),
в том числе для содействия админам/таггерам danbooru
- создания фильтров и подборок для пакетной докачки приглянувшихся оригиналов с danbooru
или других борд со схожим тегированием (safebooru, gelbooru, yande.re, konachan, sankakucomplex, tbib)
- и конечно же
обучения нейронных сетей !
Уже есть продолжение - мой релиз
https://rutr.life/forum/viewtopic.php?t=5825224
Релиз является частью моего проекта BOORU CHARS
Подробности
https://github.com/aperveyev/booru_processor
Дальнейшие мои сайт-рипы будут следовать общей методике "повышения качества" и сопровождаться мета-информацией.
Дойдут ли руки до переделки предыдущих релизов - покажет время.
Примеры изображений - черная рамка дополняет размер до 512х512, так надо