BOORU CHARS 2021 - миниатюры 1280 px и метаданые Safebooru и других имиджборд
Тип раздачи: Art
Год выпуска: 2016-2021
Количество: 1.593.429
Формат: JPG
Разрешение: <=1280 px, 90.000-900.000 байт
Описание: BOORU CHARS OPEN DATASET - попытка сконцентрировать и систематизировать общедоступный
персонажный SFW anime/CG/game арт в локализованном виде, подходящем и для автоматизированной обработки
и для визуальной оценки
(ня !).
Помимо картинок в разумном (компромиссном) качестве датасет содержит информацию о тегах (формальных
описательных признаках содержимого) и некоторых технических и статистических характеристиках изображений.
Данная версия BOORU CHARS состоит из :
- основного массива из 1593429 sample-файлов изображений
* JPG, уменьшены до 1280px по длинной стороне (1024px для пропорции 1х1)
* сгруппированы в 18 томов-папок по соотношению сторон и хронологии
* разбиты в архивы по 1000 шт на основе подобия статистических характеристик
* файлы информативно именованы %website% - %id% - %copyright% ~ %characters% (%artist%)
* более полный вариант %copyright%, %characters% и %artist% занесен в EXIF-информацию
- нескольких текстовых tab-separated файлов с метаданными
* информация о постах релиза (sample, оригинальных, метаданные с имиджборд) 1.593.429 строк
* информация о тегах (насколько удалось - упорядоченная) 35.222.997 строк
* листинг 32 торрент-релизов (3.839.005 изображений, почти 5 ТБ), легших в основу датасета
- пример использования части датасета для детектирования "фрагментов тел" и "сборки" из них персонажей
* результаты работы детектора (notAI-tech NudeNet) на 2-х томах и собранные (алгоритм - мой) скелетоны
* около 4000 примеров визуализаций некоторых интересных обнаружений и сборок
- нескольких довольно развесистых описаний для вышеупомянутого
* readme_RU/EN.txt в том числе с фрагментами программного кода
* несколько электронных табличек с примерами анализа метаданных, включая использованные SQL-запросы
* еще больше описаний и кода на Git, они обновляются и дополняются
Релиз развивает
набор 2-летней давности с которым также весьма невредно ознакомиться.
Идентичный релиз
планируется раздается на буржуйском СПАМ Да, постоянно. Да, бессрочно.
Если хоть кто то предпочтет хранение и раздачу этого полутерабайта майнингу chia coin - значит мой напрасный труд не пропал даром.
Примеры изображений - выбранный размер sample является компромиссом между объемом и качеством
Разбивка картинок по папкам-архивам соответствует их визуальному стилю (детальнее в readme)
несколько жирных монтаж-листов: почти начало топа, почти начало реверса, почти конец реверса
FastStone MaxView смотрит картинки прямо в архивах (и Perfect Viewer для Android тоже)
Отображение EXIF-тегов в проводнике Windows и мобильном комик-ридере - это удобно
Для самых упоротых (коллег) няшкомайнеров
Архитектура нейронных сетей
YOLOv5 оказалась очень подходящей для рисованного/CG/game арта.
Я
уже наколдовал очень приличное обнаружение голов и прочих типичных частей/поз тела.
Хотя это вечный процесс улучшательства, так что и полуфабрикатами (и опытом) тоже охотно поделюсь.