Неофициальная база раздач RuTracker.ORG v. 20250927

Страницы :   Пред.  1, 2, 3, 4, 5, 6, 7, 8, 9
Ответить
 

Никк6787

Стаж: 13 лет 11 месяцев

Сообщений: 15


Никк6787 · 02-Июл-25 15:48 (2 месяца 28 дней назад, ред. 02-Июл-25 15:48)

juzver143 писал(а):
87952456
spidergun писал(а):
86932022Торрент обновлён (2024-11-03)
Подскажите, пожалуйста, что поменялось в базе при переходе от 2024-09-28 к 11-03? Я сейчас собираю все файлы, до которых смог дотянуться, в один большой архив, и у меня при переходе этой границы сильно падает эффективность дедупликации. Обычно дифф около 200 МБ, а тут он в 10-11 раз больше.
тут писалось, что удаляются из базы те раздачи, которые были удалены на трекере больше года назад (или двух?), причем осенняя база еще содержит старые, а в следующей (около ноября) они уже удалены, что-то вроде
короче, может это из-за удаления в новом дампе старых раздач?
[Профиль]  [ЛС] 

juzver143

Стаж: 16 лет 3 месяца

Сообщений: 104


juzver143 · 03-Июл-25 11:52 (спустя 20 часов, ред. 04-Июл-25 01:39)

Никк6787
Хорошая теория, но это, видимо, не оно.
1) Удаление было в конце 2023 вот здесь https://rutr.life/forum/viewtopic.php?p=85672527#85672527 (я скоро доберусь до этого снимка, но еще не успел).
2) Оно сопровождалось уменьшением размера xml файла, причем небольшим. Осенью 2024 размер не убывал (см. спойлер).
3) 2.3 ГБ -- очень много. У меня один снимок (2025.05) занимает 8.15 ГБ (другой алгоритм сжатия данных, приоритет отдан дедупликации между снимками), каждый более старый (предшествующий) обычно добавляет к архиву 150-250 МБ, кроме 2024.08.31 -> 07.xx, когда добавился тэг <old> -- там около 600 МБ вроде. 2 ГБ избытка -- как будто сразу четверть раздач обновилась. Но не исчезла, потому что xml на четверть, опять же, не усох.
Может, какие-то поля / тэги в описании раздачи местами поменялись, где-то кавычки добавились или что-то подобное -- вот в такое я бы больше поверил.
P.S.: вот это всё сейчас занимает 13.6 ГБ
скрытый текст
Код:

ID        Time                 Host             Tags                              Paths                Size
-----------------------------------------------------------------------------------------------------------------
82618c15  2025-06-15 01:51:35  DESKTOP-0000000  2025.05,archive_v6,split_v1       y:\tor-db\rutracker  26.906 GiB
5036dc7b  2025-06-15 05:09:43  DESKTOP-0000000  2025.04,archive_v6,split_v1       y:\tor-db\rutracker  26.732 GiB
6ce37bb1  2025-06-15 07:21:51  DESKTOP-0000000  2025.03,archive_v6,split_v1       y:\tor-db\rutracker  26.592 GiB
a1819430  2025-06-15 09:57:07  DESKTOP-0000000  2025.02,2025,archive_v6,split_v1  h:\tor-db\rutracker  26.427 GiB
15afdcde  2025-06-15 11:22:08  DESKTOP-0000000  2025.01,2025,archive_v6,split_v1  l:\tor-db\rutracker  26.270 GiB
cd454353  2025-07-01 18:17:10  DESKTOP-0000000  2024.12,2024,archive_v6,split_v1  l:\tor-db\rutracker  26.128 GiB
295d1544  2025-07-01 18:34:41  DESKTOP-0000000  2024.11,2024,archive_v6,split_v1  h:\tor-db\rutracker  25.993 GiB
c94e6cbd  2025-07-01 21:30:10  DESKTOP-0000000  2024.10,2024,archive_v6,split_v2  l:\tor-db\rutracker  25.853 GiB
cef457a9  2025-07-01 23:44:27  DESKTOP-0000000  2024.08,2024,archive_v5,split_v2  l:\tor-db\rutracker  25.551 GiB
558ebaac  2025-07-02 04:26:16  DESKTOP-0000000  2024.09,2024,archive_v5,split_v2  h:\tor-db\rutracker  25.690 GiB
91689e08  2025-07-02 04:41:20  DESKTOP-0000000  2024.07,2024,archive_v4,split_v2  l:\tor-db\rutracker  25.379 GiB
be82c8cd  2025-07-02 15:26:03  DESKTOP-0000000  2024.06,2024,archive_v4,split_v2  t:\tor-db\rutracker  25.236 GiB
41902cab  2025-07-02 17:51:28  DESKTOP-0000000  2024.05,2024,archive_v4,split_v2  t:\tor-db\rutracker  25.094 GiB
cf50f6bd  2025-07-02 19:20:17  DESKTOP-0000000  2024.04,2024,archive_v4,split_v2  u:\tor-db\rutracker  24.951 GiB
e7aec4cb  2025-07-02 20:50:47  DESKTOP-0000000  2024.03,2024,archive_v4,split_v2  t:\tor-db\rutracker  24.831 GiB
30c3b9cc  2025-07-02 22:45:41  DESKTOP-0000000  2024.02,2024,archive_v4,split_v2  u:\tor-db\rutracker  24.675 GiB
-----------------------------------------------------------------------------------------------------------------
16 snapshots
kindom
kindom писал(а):
87942241* Why this file is formatted in XML but not in JSON? JSON is more compact even in formatted variant.
I guess, backward compatibility mainly. If you read the whole topic you'll see a bunch of software that has been written since 2018 to work with the database in the chosen format, see this post https://rutr.life/forum/viewtopic.php?p=87844851#87844851 and also this one from the preceding topic https://rutr.life/forum/viewtopic.php?p=71694403#71694403
[Профиль]  [ЛС] 

AL_one

Стаж: 18 лет 1 месяц

Сообщений: 10


AL_one · 04-Июл-25 00:20 (спустя 12 часов, ред. 04-Июл-25 00:20)

juzver143 писал(а):
87952456
spidergun писал(а):
86932022Торрент обновлён (2024-11-03)
Подскажите, пожалуйста, что поменялось в базе при переходе от 2024-09-28 к 11-03? Я сейчас собираю все файлы, до которых смог дотянуться, в один большой архив, и у меня при переходе этой границы сильно падает эффективность дедупликации. Обычно дифф около 200 МБ, а тут он в 10-11 раз больше.
Действительно, изменилось 664 тыс. топиков, вместо обычных 20-30 тыс. Я сравнил пару топиков, и похоже, что из описания раздач удалили ссылки на мертвые хостинги картинок.
Хм. А в другом топике изменили название шрифта в оформлении.
[Профиль]  [ЛС] 

juzver143

Стаж: 16 лет 3 месяца

Сообщений: 104


juzver143 · 04-Июл-25 14:53 (спустя 14 часов)

AL_one писал(а):
87957163изменилось 664 тыс. топиков, вместо обычных 20-30 тыс. Я сравнил пару топиков
А чем вы такое смотрите?
[Профиль]  [ЛС] 

AL_one

Стаж: 18 лет 1 месяц

Сообщений: 10


AL_one · 04-Июл-25 16:38 (спустя 1 час 44 мин.)

juzver143 писал(а):
87958794
AL_one писал(а):
87957163изменилось 664 тыс. топиков, вместо обычных 20-30 тыс. Я сравнил пару топиков
А чем вы такое смотрите?
Я сохранил у себя некоторое количество предыдущих версий этой базы (не в оригинальном формате, с недоделанной дедупликацией).
[Профиль]  [ЛС] 

juzver143

Стаж: 16 лет 3 месяца

Сообщений: 104


juzver143 · 04-Июл-25 17:26 (спустя 48 мин.)

AL_one писал(а):
87959133(не в оригинальном формате, с недоделанной дедупликацией).
А что у вас за формат? У меня оригинальный xml, разбивается 1 файл == 1 раздача. Ваши данные можно к такому свести или вы во что-то безвозвратно переконвертировали?
[Профиль]  [ЛС] 

AL_one

Стаж: 18 лет 1 месяц

Сообщений: 10


AL_one · 04-Июл-25 19:42 (спустя 2 часа 15 мин.)

juzver143 писал(а):
87959290
AL_one писал(а):
87959133(не в оригинальном формате, с недоделанной дедупликацией).
А что у вас за формат? У меня оригинальный xml, разбивается 1 файл == 1 раздача. Ваши данные можно к такому свести или вы во что-то безвозвратно переконвертировали?
SQLite, только описание и список файлов для каждой раздачи пожаты ZStandard со словарем. Пока такой формат, хотелось бы улучшить в будущем.
Если нужно, могу попробовать сдампить в JSON: одна строка - одна раздача.
[Профиль]  [ЛС] 

juzver143

Стаж: 16 лет 3 месяца

Сообщений: 104


juzver143 · 05-Июл-25 05:15 (спустя 9 часов, ред. 05-Июл-25 05:15)

AL_one писал(а):
87959666Если нужно, могу попробовать сдампить в JSON: одна строка - одна раздача.
Ну, я ненастоящий программист, поэтому написал код, который бьет файл без переконвертирования 1 файл == 1 раздача (и cmd для обратного преобразования), и засовываю результаты в программу для бэкапа restic. Это дает не самое эффективное сжатие, но дедупликация должна работать исправно. Данные при этом "холодные": доставать их до удобоваримого состояния долго.
Я не хочу заниматься отладкой и тестированием, моя цель -- чтобы xml восстанавливался обратно байт-в-байт. Сейчас у меня 30 xml упаковалось в 17.66 ГБ (с 2023.08 по 2025.05 помесячно, более ранние с пропусками). Json туда пришивать бессмысленно: дедупликация не сработает.
[Профиль]  [ЛС] 

egoroff_a__

Стаж: 16 лет 10 месяцев

Сообщений: 5

egoroff_a__ · 23-Июл-25 16:16 (спустя 18 дней)

kindom писал(а):
87942241РЎС“ Р Сеня несколько РІРѕРїСЂРѕСЃРѕРІ Р С—Р С• форРСату:
* почеРСРЎС“ XML, Р В° Р Р…Р Вµ JSON? JSON более РєРѕРСпактный Р С‘ такой Р В¶Р Вµ расширяеРСый
* пожалуйста, опубликуйте СЃС…РµРСРЎС“ XSD или JSON Schema для РґРѕРєСѓРСента.
nice, I can't write in Russian on this forum beacause I have UTF-8 encoding in my system and the forum expects CP1251. English translation to have nothing lost
I have few questions about the file and format
* Why this file is formatted in XML but not in JSON? JSON is more compact even in formatted variant.
* Please publish document schema, not rough description. XSD or JSON Schema depending on format. This will leave no guesses about field formats their availablity and meaning
> Why this file is formatted in XML but not in JSON? JSON is more compact even in formatted variant.
JSON hardly more compact then xml is. Maybe 10 or so percent
> Please publish document schema, not rough description. XSD or JSON Schema depending on format. This will leave no guesses about field formats their availablity and meaning
This schema is so simple and obvious so it's useless to creas XSD schema for it
[Профиль]  [ЛС] 

spidergun

Стаж: 7 лет 3 месяца

Сообщений: 113


spidergun · 02-Авг-25 16:34 (спустя 10 дней, ред. 02-Авг-25 16:34)

Торрент обновлён (2025-08-02)


Цитата:
Подскажите, пожалуйста, что поменялось в базе при переходе от 2024-09-28 к 11-03? Я сейчас собираю все файлы, до которых смог дотянуться, в один большой архив, и у меня при переходе этой границы сильно падает эффективность дедупликации. Обычно дифф около 200 МБ, а тут он в 10-11 раз больше.
Изменившиеся раздачи бот пересканирует с задержкой, чтобы не создавать лишнюю нагрузку на сайт: если раздача в прошлый раз не менялась неделю, то перепроверяется раз в неделю, если не менялась год, то раз в год, и т.д. Если раздача появляется в недавно добавленных или недавно удалённых, то она перепроверяется вне очереди, как и если удаляется или переименовывается раздел, в котором она находилась. В октябре 2024, судя по логам, я запустил полное пересканирование сайта (размазанное по всему месяцу, опять же, чтобы не создавать нагрузку). Уже не помню, почему. Поэтому да, в том обновлении бот внезапно подхватил большое количество изменений в описаниях раздач.
[Профиль]  [ЛС] 

spidergun

Стаж: 7 лет 3 месяца

Сообщений: 113


spidergun · 30-Авг-25 20:19 (спустя 28 дней)

Торрент обновлён (2025-08-30)
[Профиль]  [ЛС] 

spidergun

Стаж: 7 лет 3 месяца

Сообщений: 113


spidergun · 27-Сен-25 13:48 (спустя 27 дней)

Торрент обновлён (2025-09-27)
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error