|
Никк6787
Стаж: 13 лет 11 месяцев Сообщений: 15
|
Никк6787 ·
02-Июл-25 15:48
(2 месяца 28 дней назад, ред. 02-Июл-25 15:48)
juzver143 писал(а):
87952456
spidergun писал(а):
86932022Торрент обновлён (2024-11-03)
Подскажите, пожалуйста, что поменялось в базе при переходе от 2024-09-28 к 11-03? Я сейчас собираю все файлы, до которых смог дотянуться, в один большой архив, и у меня при переходе этой границы сильно падает эффективность дедупликации. Обычно дифф около 200 МБ, а тут он в 10-11 раз больше.
тут писалось, что удаляются из базы те раздачи, которые были удалены на трекере больше года назад (или двух?), причем осенняя база еще содержит старые, а в следующей (около ноября) они уже удалены, что-то вроде 
короче, может это из-за удаления в новом дампе старых раздач?
|
|
juzver143
Стаж: 16 лет 3 месяца Сообщений: 104
|
juzver143 ·
03-Июл-25 11:52
(спустя 20 часов, ред. 04-Июл-25 01:39)
Никк6787
Хорошая теория, но это, видимо, не оно.
1) Удаление было в конце 2023 вот здесь https://rutr.life/forum/viewtopic.php?p=85672527#85672527 (я скоро доберусь до этого снимка, но еще не успел).
2) Оно сопровождалось уменьшением размера xml файла, причем небольшим. Осенью 2024 размер не убывал (см. спойлер).
3) 2.3 ГБ -- очень много. У меня один снимок (2025.05) занимает 8.15 ГБ (другой алгоритм сжатия данных, приоритет отдан дедупликации между снимками), каждый более старый (предшествующий) обычно добавляет к архиву 150-250 МБ, кроме 2024.08.31 -> 07.xx, когда добавился тэг <old> -- там около 600 МБ вроде. 2 ГБ избытка -- как будто сразу четверть раздач обновилась. Но не исчезла, потому что xml на четверть, опять же, не усох.
Может, какие-то поля / тэги в описании раздачи местами поменялись, где-то кавычки добавились или что-то подобное -- вот в такое я бы больше поверил.
P.S.: вот это всё сейчас занимает 13.6 ГБ
скрытый текст
Код:
ID Time Host Tags Paths Size
-----------------------------------------------------------------------------------------------------------------
82618c15 2025-06-15 01:51:35 DESKTOP-0000000 2025.05,archive_v6,split_v1 y:\tor-db\rutracker 26.906 GiB
5036dc7b 2025-06-15 05:09:43 DESKTOP-0000000 2025.04,archive_v6,split_v1 y:\tor-db\rutracker 26.732 GiB
6ce37bb1 2025-06-15 07:21:51 DESKTOP-0000000 2025.03,archive_v6,split_v1 y:\tor-db\rutracker 26.592 GiB
a1819430 2025-06-15 09:57:07 DESKTOP-0000000 2025.02,2025,archive_v6,split_v1 h:\tor-db\rutracker 26.427 GiB
15afdcde 2025-06-15 11:22:08 DESKTOP-0000000 2025.01,2025,archive_v6,split_v1 l:\tor-db\rutracker 26.270 GiB
cd454353 2025-07-01 18:17:10 DESKTOP-0000000 2024.12,2024,archive_v6,split_v1 l:\tor-db\rutracker 26.128 GiB
295d1544 2025-07-01 18:34:41 DESKTOP-0000000 2024.11,2024,archive_v6,split_v1 h:\tor-db\rutracker 25.993 GiB
c94e6cbd 2025-07-01 21:30:10 DESKTOP-0000000 2024.10,2024,archive_v6,split_v2 l:\tor-db\rutracker 25.853 GiB
cef457a9 2025-07-01 23:44:27 DESKTOP-0000000 2024.08,2024,archive_v5,split_v2 l:\tor-db\rutracker 25.551 GiB
558ebaac 2025-07-02 04:26:16 DESKTOP-0000000 2024.09,2024,archive_v5,split_v2 h:\tor-db\rutracker 25.690 GiB
91689e08 2025-07-02 04:41:20 DESKTOP-0000000 2024.07,2024,archive_v4,split_v2 l:\tor-db\rutracker 25.379 GiB
be82c8cd 2025-07-02 15:26:03 DESKTOP-0000000 2024.06,2024,archive_v4,split_v2 t:\tor-db\rutracker 25.236 GiB
41902cab 2025-07-02 17:51:28 DESKTOP-0000000 2024.05,2024,archive_v4,split_v2 t:\tor-db\rutracker 25.094 GiB
cf50f6bd 2025-07-02 19:20:17 DESKTOP-0000000 2024.04,2024,archive_v4,split_v2 u:\tor-db\rutracker 24.951 GiB
e7aec4cb 2025-07-02 20:50:47 DESKTOP-0000000 2024.03,2024,archive_v4,split_v2 t:\tor-db\rutracker 24.831 GiB
30c3b9cc 2025-07-02 22:45:41 DESKTOP-0000000 2024.02,2024,archive_v4,split_v2 u:\tor-db\rutracker 24.675 GiB
-----------------------------------------------------------------------------------------------------------------
16 snapshots
kindom
kindom писал(а):
87942241* Why this file is formatted in XML but not in JSON? JSON is more compact even in formatted variant.
I guess, backward compatibility mainly. If you read the whole topic you'll see a bunch of software that has been written since 2018 to work with the database in the chosen format, see this post https://rutr.life/forum/viewtopic.php?p=87844851#87844851 and also this one from the preceding topic https://rutr.life/forum/viewtopic.php?p=71694403#71694403
|
|
AL_one
Стаж: 18 лет 1 месяц Сообщений: 10
|
AL_one ·
04-Июл-25 00:20
(спустя 12 часов, ред. 04-Июл-25 00:20)
juzver143 писал(а):
87952456
spidergun писал(а):
86932022Торрент обновлён (2024-11-03)
Подскажите, пожалуйста, что поменялось в базе при переходе от 2024-09-28 к 11-03? Я сейчас собираю все файлы, до которых смог дотянуться, в один большой архив, и у меня при переходе этой границы сильно падает эффективность дедупликации. Обычно дифф около 200 МБ, а тут он в 10-11 раз больше.
Действительно, изменилось 664 тыс. топиков, вместо обычных 20-30 тыс. Я сравнил пару топиков, и похоже, что из описания раздач удалили ссылки на мертвые хостинги картинок.
Хм. А в другом топике изменили название шрифта в оформлении.
|
|
juzver143
Стаж: 16 лет 3 месяца Сообщений: 104
|
juzver143 ·
04-Июл-25 14:53
(спустя 14 часов)
AL_one писал(а):
87957163изменилось 664 тыс. топиков, вместо обычных 20-30 тыс. Я сравнил пару топиков
А чем вы такое смотрите?
|
|
AL_one
Стаж: 18 лет 1 месяц Сообщений: 10
|
AL_one ·
04-Июл-25 16:38
(спустя 1 час 44 мин.)
juzver143 писал(а):
87958794
AL_one писал(а):
87957163изменилось 664 тыс. топиков, вместо обычных 20-30 тыс. Я сравнил пару топиков
А чем вы такое смотрите?
Я сохранил у себя некоторое количество предыдущих версий этой базы (не в оригинальном формате, с недоделанной дедупликацией).
|
|
juzver143
Стаж: 16 лет 3 месяца Сообщений: 104
|
juzver143 ·
04-Июл-25 17:26
(спустя 48 мин.)
AL_one писал(а):
87959133(не в оригинальном формате, с недоделанной дедупликацией).
А что у вас за формат? У меня оригинальный xml, разбивается 1 файл == 1 раздача. Ваши данные можно к такому свести или вы во что-то безвозвратно переконвертировали?
|
|
AL_one
Стаж: 18 лет 1 месяц Сообщений: 10
|
AL_one ·
04-Июл-25 19:42
(спустя 2 часа 15 мин.)
juzver143 писал(а):
87959290
AL_one писал(а):
87959133(не в оригинальном формате, с недоделанной дедупликацией).
А что у вас за формат? У меня оригинальный xml, разбивается 1 файл == 1 раздача. Ваши данные можно к такому свести или вы во что-то безвозвратно переконвертировали?
SQLite, только описание и список файлов для каждой раздачи пожаты ZStandard со словарем. Пока такой формат, хотелось бы улучшить в будущем.
Если нужно, могу попробовать сдампить в JSON: одна строка - одна раздача.
|
|
juzver143
Стаж: 16 лет 3 месяца Сообщений: 104
|
juzver143 ·
05-Июл-25 05:15
(спустя 9 часов, ред. 05-Июл-25 05:15)
AL_one писал(а):
87959666Если нужно, могу попробовать сдампить в JSON: одна строка - одна раздача.
Ну, я ненастоящий программист, поэтому написал код, который бьет файл без переконвертирования 1 файл == 1 раздача (и cmd для обратного преобразования), и засовываю результаты в программу для бэкапа restic. Это дает не самое эффективное сжатие, но дедупликация должна работать исправно. Данные при этом "холодные": доставать их до удобоваримого состояния долго.
Я не хочу заниматься отладкой и тестированием, моя цель -- чтобы xml восстанавливался обратно байт-в-байт. Сейчас у меня 30 xml упаковалось в 17.66 ГБ (с 2023.08 по 2025.05 помесячно, более ранние с пропусками). Json туда пришивать бессмысленно: дедупликация не сработает.
|
|
egoroff_a__
 Стаж: 16 лет 10 месяцев Сообщений: 5
|
egoroff_a__ ·
23-Июл-25 16:16
(спустя 18 дней)
kindom писал(а):
87942241РЎС“ Р Сеня несколько РІРѕРїСЂРѕСЃРѕРІ Р С—Р С• форРСату: * почеРСРЎС“ XML, Р В° Р Р…Р Вµ JSON? JSON более РєРѕРСпактный Р С‘ такой Р В¶Р Вµ расширяеРСый
* пожалуйста, опубликуйте СЃС…РµРСРЎС“ XSD или JSON Schema для РґРѕРєСѓРСента. nice, I can't write in Russian on this forum beacause I have UTF-8 encoding in my system and the forum expects CP1251. English translation to have nothing lost I have few questions about the file and format * Why this file is formatted in XML but not in JSON? JSON is more compact even in formatted variant.
* Please publish document schema, not rough description. XSD or JSON Schema depending on format. This will leave no guesses about field formats their availablity and meaning
> Why this file is formatted in XML but not in JSON? JSON is more compact even in formatted variant.
JSON hardly more compact then xml is. Maybe 10 or so percent
> Please publish document schema, not rough description. XSD or JSON Schema depending on format. This will leave no guesses about field formats their availablity and meaning
This schema is so simple and obvious so it's useless to creas XSD schema for it
|
|
spidergun
Стаж: 7 лет 3 месяца Сообщений: 113
|
spidergun ·
02-Авг-25 16:34
(спустя 10 дней, ред. 02-Авг-25 16:34)
Торрент обновлён (2025-08-02)
Цитата:
Подскажите, пожалуйста, что поменялось в базе при переходе от 2024-09-28 к 11-03? Я сейчас собираю все файлы, до которых смог дотянуться, в один большой архив, и у меня при переходе этой границы сильно падает эффективность дедупликации. Обычно дифф около 200 МБ, а тут он в 10-11 раз больше.
Изменившиеся раздачи бот пересканирует с задержкой, чтобы не создавать лишнюю нагрузку на сайт: если раздача в прошлый раз не менялась неделю, то перепроверяется раз в неделю, если не менялась год, то раз в год, и т.д. Если раздача появляется в недавно добавленных или недавно удалённых, то она перепроверяется вне очереди, как и если удаляется или переименовывается раздел, в котором она находилась. В октябре 2024, судя по логам, я запустил полное пересканирование сайта (размазанное по всему месяцу, опять же, чтобы не создавать нагрузку). Уже не помню, почему. Поэтому да, в том обновлении бот внезапно подхватил большое количество изменений в описаниях раздач.
|
|
spidergun
Стаж: 7 лет 3 месяца Сообщений: 113
|
spidergun ·
30-Авг-25 20:19
(спустя 28 дней)
Торрент обновлён (2025-08-30)
|
|
spidergun
Стаж: 7 лет 3 месяца Сообщений: 113
|
spidergun ·
27-Сен-25 13:48
(спустя 27 дней)
Торрент обновлён (2025-09-27)
|
|
|