Миниатюры 512px Danbooru 2018 safe и метаинформация для анализа и обучения нейронных сетей [Art] [2019] [JPG]

Страницы:  1
Ответить
 

AlexeyPUA

Стаж: 12 лет 7 месяцев

Сообщений: 488


AlexeyPUA · 13-Сен-19 07:42 (5 лет назад, ред. 17-Фев-22 15:53)

Миниатюры 512px Danbooru 2018 safe и метаинформация для анализа и обучения нейронных сетей
Тип раздачи: Art
Год выпуска: 2019
Количество: 2.536.329
Формат: JPG
Разрешение: 512x512
Описание: Про проект This Waifu Does Not Exist слышали многие, распознавание няшек и даже их довольно качественная программная генерация - звучит круто !
Намного меньшее число людей знает, что:
- успешные методы распознавания образов (нейронные сети) для фото и рисованных изображений отличаются и плохо подходят друг для друга
- никто толком не понимает почему одни модели нейронных сетей работают лучше, другие хуже и большинство исследований выполняются "на авось"
- для тренировки нейронных сетей нужны миллионы тегированных изображений, причем выбор и качество тегов решают
Автор вышеупомянутого проекта не только весьма подробно расписал способы получения своих результатов,
но и дал ссылки на используемый исходный датасет (гуглите Gwern Danbooru2018 dataset),
существующие модели (гуглите deep danbooru resnet model) и сходные проекты (смотрите в статьях по ссылкам).
Предметная область крайне увлекательная, ня !
Вот только "тренировочный" набор данных Danbooru (только safe картинки уменьшенные до 512 точек по бОльшей стороне) доступен
через torrent в формате, сносящем крышу большинству клиентов (10 релизов примерно по 250.000 отдельных файлов в каждом).
Данный релиз содержит те же изображение в виде 1.000 архивов (разделены по трем последним цифрам номера поста),
а также метаданные (информацию о характеристиках исходных изображений) в двух видах:
- "исходный" полный JSON как выкачан из Danbooru
- преобразованные (мною) в три таблицы CSV-текст с основными реквизитами, а также некоторой аналитикой (статистикой)
для работы с ними Excel не прокатит, нужна БД (мой выбор - Oracle 18c XE)
Немного о датасете:
- содержит изображения до 01.01.2019 включительно, 2.536.329 файлов
- метаинформация (насколько мне удалось ее обработать, в CSV) охватывает 3.336.816 постов,
использовано 364.959 разных тегов (бардак еще тот), всего тегов 92.771.799
В умелых руках данный релиз может пригодиться для:
- анализа метаданных самих по себе (авторы с максимальным средним числом фаворитов на картинку,
статистика по размерам и соотношению сторон, самые популярные кроссоверы - возможных примеров бездна),
в том числе для содействия админам/таггерам danbooru
- создания фильтров и подборок для пакетной докачки приглянувшихся оригиналов с danbooru
или других борд со схожим тегированием (safebooru, gelbooru, yande.re, konachan, sankakucomplex, tbib)
- и конечно же обучения нейронных сетей !
Уже есть продолжение - мой релиз https://rutr.life/forum/viewtopic.php?t=5825224
Релиз является частью моего проекта BOORU CHARS
Подробности https://github.com/aperveyev/booru_processor
Дальнейшие мои сайт-рипы будут следовать общей методике "повышения качества" и сопровождаться мета-информацией.
Дойдут ли руки до переделки предыдущих релизов - покажет время.
Примеры изображений - черная рамка дополняет размер до 512х512, так надо
Download
Rutracker.org не распространяет и не хранит электронные версии произведений, а лишь предоставляет доступ к создаваемому пользователями каталогу ссылок на торрент-файлы, которые содержат только списки хеш-сумм
Как скачивать? (для скачивания .torrent файлов необходима регистрация)
[Профиль]  [ЛС] 

***JEN1***

Стаж: 15 лет 6 месяцев

Сообщений: 364

***JEN1*** · 13-Сен-19 14:48 (спустя 7 часов)

у тебя что, винты резиновые, раз есть лишние 251.86 гига? )
[Профиль]  [ЛС] 

AlexeyPUA

Стаж: 12 лет 7 месяцев

Сообщений: 488


AlexeyPUA · 14-Сен-19 16:55 (спустя 1 день 2 часа)

Сейчас дисками на 10-14 ТБ никого не удивить, причем пара таких не дороже топового смарта. Каждому свое.
Я бы и оригинальный danbooru (2.7 ТБ) подержал (выпилив хентай), но его отдают крайне медленно ...
[Профиль]  [ЛС] 

overclocker411

Top Bonus 07* 100TB

Стаж: 11 лет 2 месяца

Сообщений: 36

overclocker411 · 16-Янв-20 20:45 (спустя 4 месяца 2 дня)

AlexeyPUA писал(а):
77969277Сейчас дисками на 10-14 ТБ никого не удивить, причем пара таких не дороже топового смарта. Каждому свое.
Я бы и оригинальный danbooru (2.7 ТБ) подержал (выпилив хентай), но его отдают крайне медленно ...
А ссылку можно ? =)
[Профиль]  [ЛС] 

Sanandreas299

Стаж: 8 лет 10 месяцев

Сообщений: 7


Sanandreas299 · 05-Фев-20 06:53 (спустя 19 дней)

Можно чуть больше размер сделать?) или скинь мне арты я конвертировать себе буду
[Профиль]  [ЛС] 

AlexeyPUA

Стаж: 12 лет 7 месяцев

Сообщений: 488


AlexeyPUA · 05-Фев-20 08:34 (спустя 1 час 41 мин., ред. 05-Фев-20 08:34)

Sanandreas299 Оригинальный danbooru доступен либо прямо с сайта (ищите bionus grabber, еще есть простенькая качалка на питоне по списку ID),
либо в ужасно организованных и (похоже) никем не раздаваемых торрентах (ссылка в ЛС).
В полном размере у меня его нет.
В другой моей раздаче https://rutr.life/forum/viewtopic.php?t=5825224 аналогичные "иконки", куча метаданных к ним и возможность выкачать оригиналы (из моих же раздач рипов).
[Профиль]  [ЛС] 

Sanandreas299

Стаж: 8 лет 10 месяцев

Сообщений: 7


Sanandreas299 · 05-Фев-20 11:52 (спустя 3 часа)

AlexeyPUA писал(а):
78819548Sanandreas299 Оригинальный danbooru доступен либо прямо с сайта (ищите bionus grabber, еще есть простенькая качалка на питоне по списку ID),
либо в ужасно организованных и (похоже) никем не раздаваемых торрентах (ссылка в ЛС).
В полном размере у меня его нет.
В другой моей раздаче https://rutr.life/forum/viewtopic.php?t=5825224 аналогичные "иконки", куча метаданных к ним и возможность выкачать оригиналы (из моих же раздач рипов).
Спасибо ты лучший
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error