|
michel-f
Стаж: 17 лет 5 месяцев Сообщений: 412
|
michel-f ·
02-Окт-07 17:34
(17 лет 1 месяц назад, ред. 20-Апр-16 14:31)
Релизёру СПАСИБО !!! Книги - это наше всё ))
Только с коллекцией VGS нехорошо получилось... Месяц качал, а тут опять всё новое
Так что пришлось на скорую руку лепить конвертор и всё переименовывать ))))
2 dmvn
Цитата:
Далее, про эти 162 файла... А можно мне в лс хеши от них (хотя бы md5) скинуть.. А то что-то мне кажется, что они вообще нафиг не нужны... Надо проверить..
Дельта набежала ровно на 3 GB.... Б ольшая половина действительно барахло, крупные пдф-ки в основном хреновые сканы... ч/б книги в цвете ... С другой стороны, лишних книг не бывает, а сканы при наличии времени можно и почистить....
К тому же есть и ценные весчи .... Что именно ценно, я определять не буду
За сегодня дооформлю список с названиями и выложу всё на недельку.... А там дальше видно будет ))
З.Ы.
Желающие полезно использовать имеющуюся в наличии коллекцию VGS, а также прочий подручный материал могут потестить конвертор ))
Ссылки:
|
|
ctapnep
Стаж: 17 лет 10 месяцев Сообщений: 37
|
ctapnep ·
10-Окт-07 23:40
(спустя 8 дней, ред. 20-Апр-16 14:31)
dmvn писал(а):
AlexDC, ну в раздаче VGS-а есть дырки, а тут их нету. Список книг и хеши были доступны с самого начала Кроме того, как мне думается, тот кто способен стянуть 50 гиг, тот стянет и 150 И тот, кто их стянет, раздачу VGS-а может просто отправить в /dev/null
Ну не скажи. Все-таки те 100 гигов уже разболванены. А еще 150 гигов скачать - это надо как минимум просто 150 гигов места на винтах. Вот у меня сейчас есть 70 гигов, скачать дельту я-бы мог без проблем, а скачать всё...
Ну и сам факт того, что я пропустил раздачу и опаздываю на 1.5 месяца тоже не добавляет оптимизма.
Скажи, по сравнению с тем, что ты раздавал на нетлабе, первые диски отличаются? надо перекачивать всё или можно брать только последние диски?
|
|
dmvn
Стаж: 18 лет Сообщений: 2900
|
dmvn ·
11-Окт-07 00:53
(спустя 1 час 12 мин., ред. 20-Апр-16 14:31)
ctapnep, беда в том, что там отличается схема транслитерации и длина имён. Но порядок-то сохранён, так что имея на руках последний ID книги, которая была в той коллекции (а индексы у меня конечно сохранены), можно понять, с какого диска начинать качать. Ну подумаешь, будет маленький зазорчик на пару гигов, ну и что? Книжки-то останутся Тем более что разбиение оных на DVD весьма условное.
|
|
ctapnep
Стаж: 17 лет 10 месяцев Сообщений: 37
|
ctapnep ·
11-Окт-07 19:02
(спустя 18 часов, ред. 20-Апр-16 14:31)
Я вот думаю, что очень не помешала-бы сквозная нумерация книг в коллекции. Было-бы легче дельты отлавливать. И сложнее с дублями
А зазорчик на пару гигов я тебе припомню... Настоящий коллекционер и в одну книгу зазор не потерпит, а уж в пару гигов... будем качать. Долго, нудно, но будем. Я как раз еще 500-ник прикупил сегодня.
|
|
michel-f
Стаж: 17 лет 5 месяцев Сообщений: 412
|
michel-f ·
14-Окт-07 18:33
(спустя 2 дня 23 часа, ред. 20-Апр-16 14:31)
To ctapnep, dmvn:
Для переноса коллекции VGS смотри программу парой постов выше ))
Каюсь, не написал алгоритм сразу... Добавляю
1. Программа создает файл с инфой о хешах коллекции VGS;
2. Полученный файл переводится в формат DBF;
3. Далее - пофайловый поиск на соответствие пар длина файла/eDonkey хеш.. При совпадении - копирование с переименованием (учитывая и путь DVD-001 - DVD-035), при несовпадении - в папку UNIQUE для дельты.
Так что для проги имена файлов глубоко параллельны )) Чем она и ценна Работает только долго (( Зато можно ей еще что-нибудь скормить из имеющихся книг
Собственно, другой способ для переноса файлов из коллекции VGS придумать сложно
DMVN'у - отдельное спасибо за хеши ))
Для полной коллекции VGS (95 гиг) переносится где-то 92 гиг, из них 2 - концевые участки. так что экономия - 90 гиг. В основном - файлы с первых 22 двд (соответствие на 95%), дальше отдельные файлы есть, по 1-2 на диск..
О разнице - в основном там некачественные пдф-ки (серые/цветные) и они присутствуют у DMVN в виде переделанных djvu... Смотрел по диагонали, так что 100% гарантию не дам. Как время появится - просмотрю и выложу истинную дельту )
З.Ы. Только времени у мну нет... и не предвидится (( Так что добровольцы по разбору дельты - пишите в личку...
З.З.Ы. В инструкции к программе баг с недостающим файлом - не баг, а фича )) - у VGS'а в коллекции были два идентичных файла, соответственно один из них и пропадает при переносе. Программа сыровата, защиты от дурака введены не все... так что соблюдайте осторожность ))
|
|
michel-f
Стаж: 17 лет 5 месяцев Сообщений: 412
|
michel-f ·
14-Окт-07 18:39
(спустя 5 мин., ред. 20-Апр-16 14:31)
В догонку к BookWarrior'у: с названиями файлов что-то надо делать....
Спецсимволы для обозначения не проходят для многих chm-файлов - при наличии в пути # они глухо впадают в ступор...
считают остаток имени html-меткой
Так что надо что-то думать по этому поводу.... Переименовывать файлы каждый раз не есть гуд - это раз, и не каждый догадается файл переименовать - это два
|
|
dmvn
Стаж: 18 лет Сообщений: 2900
|
dmvn ·
18-Окт-07 19:37
(спустя 4 дня, ред. 20-Апр-16 14:31)
Я же говорил, что дельта взялась не потому что у VGS-а было что-то принципиально новое. Там, откуда всё это, ни одна книга не пропадает и не удаляется -- а вот замены на более правильные версии таки да, имеются. Вот оттуда эта дельта и вылазит. Я сам принимал участие в конверсии pdf->djvu с оптимизацией порядка 300% по объёму.
|
|
temporary03
Стаж: 17 лет 8 месяцев Сообщений: 39
|
temporary03 ·
30-Окт-07 19:31
(спустя 11 дней, ред. 20-Апр-16 14:31)
dmvn
Есть ли (или будет ли) раздача этой коллекции на dc.ru-board?
|
|
vetalik
Стаж: 18 лет 8 месяцев Сообщений: 2
|
vetalik ·
02-Янв-08 13:40
(спустя 2 месяца 2 дня, ред. 20-Апр-16 14:31)
С ума сойти! Столько книг...
Буду попробовать качать.
Спасибо!
|
|
Biomehanik
Стаж: 18 лет 4 месяца Сообщений: 1199
|
Biomehanik ·
03-Янв-08 22:41
(спустя 1 день 9 часов, ред. 20-Апр-16 14:31)
блиииииин(((( а нужной мне книги нет даже в таком большом списке.......,"Павлов,Ногин - Схемотехника аналого-электронных устройств".......эх..........
|
|
BookWarrior
Стаж: 17 лет 7 месяцев Сообщений: 70
|
BookWarrior ·
26-Янв-08 04:16
(спустя 22 дня, ред. 20-Апр-16 14:31)
michel-f писал(а):
В догонку к BookWarrior'у: с названиями файлов что-то надо делать....
Спецсимволы для обозначения не проходят для многих chm-файлов - при наличии в пути # они глухо впадают в ступор...
считают остаток имени html-меткой
Так что надо что-то думать по этому поводу.... Переименовывать файлы каждый раз не есть гуд - это раз, и не каждый догадается файл переименовать - это два
можно вынудить юзера подумать, и подумать правильно К сожалению насилие, но куда лучшее, чем "установка" колхозных дисков, борьба с тремя кодировками в названии одного файла, непомерная длина имени файла, которая аж упирается в лимиты спецификаций файловых систем... извиняюсь, но это реально слишком.
Вот простая схема, в которой юзер просто не сможет не подумать, и одновременно не сможет придумать неправильно решения легко: Гебельс. Дружба с ацкой сотоной (ВандалПресс,1942).djvu => MD5 => 12345VYSHELZAYCHIKPOGULYAT
rename "Гебельс. Дружба с ацкой сотоной (ВандалПресс,1942).djvu" 12345VYSHELZAYCHIKPOGULYAT
- хеш - это полное имя файла без расширения вообще.
Такой файл юзер попросту не откроет. И даже не будет знать, что это за книга. Они все будут на одно лицо:
12345VYSHELZAYCHIKPOGULYAT
YCHIKPOGULYAT12345VYSHELZA
GULYAT12345VYSHELZAYCHIKPO
ELZAYCHIKPOGULYAT12345VYSH
и т. п.
И один файл index.html или *.xls ну или вообще *.CSV - тоже вариант. Будет паковаться в ноль байт и с поиском любыми доступными средствами не будет проблем.
Скрипт для переименования наверное не надо, потому что опять вылезет проблема с файловой системой.
Не требуется отдельного файла с md5 суммами (в обязательном порядке).
В базе (*.xls) можно одну книгу метить и как в разделе Химия, и как Физику и т. п., как в Google Mail метки. => Так исчезает проблема организации и сортировки, которая существует в колхозной коллекции. Я вот заливал несколько книг, и ожидал их увидеть в другом разделе, нежели их теперешний. Потому что они относятся и к электронике, и к оптике, и к антеннам, и к наноматериалам, и к лазерам. Каталогизация (технически) перестанет быть ночным кошмаром.
Др. словами всё сказанное, это результат концептуальной отвязки функции библиотечного реестра от файловой системы. ФС лишь будет нести функцию идентификации/адресации файлов - и всё. Она на большее и-так неспособна. А реестром будет база данных. Одна. Никаких сателлитных файлов и прочей хрени, в которой потом хрен разберёшься.
Если кому нужно переименовать - нужно создать скрипт, но независимый от версии библиотеки, которые чётко выдерает пару из таблицы (для *.CSV это консольными командами сделать можно, однако *.xls лучше справится с функциями полноценного реестра) и одно переименовывает в другое. В этом случае скрипты не придётся каждый раз издавать по новой и наблюдать тысячные ошибки в команд промпт из-за какой-нибудь неподходящей кодировки. Ну и не нужно будет следить за их версиями как в колхозе.
Это намётки, но...
Недостатки:
- да, будет невозможно увидеть название книги из имени файла.
Ужос. Целый один недостаток против страницы достоинств
Кстати, кто-нибудь по каталогам книги ищет? У меня их всего больше 40000 сейчас, и увы, без индекса я в библы просто не лезу. Так что для меня и этот недостаток - не недостаток. Мне вообще легче пойти на poiskknig.ru и там найти, а потом у себя файл посмотреть. Так что лучше GoogleDesktopSearch + database.xls и искать вхождения по типу poiskknig.ru.
Впрочем список недостатков ещё могут пополнить...
==============
Проблему с файловыми системами ещё можно по-извращенски убрать: закатывать в крупные UFS-тома ISO и монтировать их "дома". Тогда релизёр гарантирует корректность имён. Но это всё-равно костыли: на расширение реестровых функций такой вариант не способен вообще.
Всем здравия!
|
|
BookWarrior
Стаж: 17 лет 7 месяцев Сообщений: 70
|
BookWarrior ·
26-Янв-08 04:31
(спустя 14 мин., ред. 20-Апр-16 14:31)
я ещё добавлю про имена файлов. Ровно столько раз, сколько я скачивал какую-нибудь библиотеку и производил с ней какую-нибудь back-up манипуляцию - я где-то что-то делал неправильно:
- то колхозные файлы обрезались при копировании на харды;
- то на болванках Неро молча закатала обрезанные имена;
- то при зеркалировании ho....inux.xxx прога не справилась с длинными именами и молча их обрезала и добавляла CRC в конец, дабы сохранить уникальность (т.е. простой логикой уже такие файлы не найдёшь для восстановления);
- то распаковка из ISO карнала имена направо и налево;
- то с монтажом ISO в одно адресное пространство (UnionFS под юникс) проблемы из-за пересечения файлов;
- то *.cmd/*.bat скрипт воспринял какое-то имя как хер знает что и спутал карты; ...это то, что предки назвали Адом. Поэтому правда, с этим надо что-то делать. Кстати, забыл о может быть самом главном достоинстве хеш-именования: слить все версии библиотеки будет элементарно и однозначно! В контраст: я до сих пор не уверен, что колхоз у меня слился в одну папку правильно. Я даже не знаю, остались ли правильными имена файлов.
|
|
temporary03
Стаж: 17 лет 8 месяцев Сообщений: 39
|
temporary03 ·
29-Янв-08 10:48
(спустя 3 дня, ред. 20-Апр-16 14:31)
BookWarrior
Простое имя файлов + скрипт dmvn как пример для переименования может быть и правильная идея. Я тоже пока нет порядка в библиотеках на жестких дисках пользуюсь сервисом поиск книг в Интернете (и поиском в arxiv.org для статей и книг уже скаченных с arxiv.org). Но иногда захожу в папки колхоза и/или переупорядоченного по папкам копии большого фрагмента колхоза. Например, кода нужно почитать о конкретном вопросе и оказалось не достаточно 1-10 книг, выбранных по названию, или работ, которые можно найти и скачать а Интернет через поиск в arxiv.org или Google. Но если будет GoogleDesktopSearch + database.xls, особенно вместе с библиографической базой данных shawls, с reviews книг и хотя бы частично и/или автоматически распознанным текстом, то и это, пожалуй, разрешилось бы.
Может быть Вам, shawls, LamerOk и другим + возможно, добровольцы-помощники для технической работы, лучше объедениться в "группу" (официальную или не официальную) по наведению порядка в сумме библиотек? Например в форме стандарта для выкладывания книг на торрентс.ру и перевыкладывания книгоманами уже выложенного как одной большой серии торрентов. Можно выбрать максимальное время на обсуждения, например, 2 недели или 2 месяца и уже потом сделать программы для индексации и базу даных.
Или хотя бы вести обсуждения, вроде Ваших замечаний в этой ветке форума, в специально созданной ветке. Сейчас обсуждения порядка в библиотеках разбросаны по всему форуму торрентс.ру:
здесь, Большая коллекция научно-технической литературы на 35 DVD (by dmvn) - ссылки на раздачи и обсуждение
Нужна помощь в разборе большого количества учебной литературы!!! активным - бонусы!!!!
Разбираем по полочкам Техническую библиотеку о 35 dvd (by dmvn) - нужна помощь!
Предложения по архивации и катологизации электронных библиотек
Пиратство как прогрессивный налог и другие мысли об эволюции распространения контента в Сети
...
|
|
dmvn
Стаж: 18 лет Сообщений: 2900
|
dmvn ·
29-Янв-08 10:58
(спустя 9 мин., ред. 20-Апр-16 14:31)
Основная беда по-моему именно в том, что все видят это по-разному. Я сторонник связанных с БД каталогов, shawls полагается на имена файлов... То, как это сделано во внутренней структуре L.m.r, исключает всякие проблемы, там каждая книга имеет идентификатор, а поиском и индексацией занимается mySQL. Я полагаю, что это единственно верный путь, а в оффлайн-режиме -- та же база, ну только в виде xml/html.
|
|
temporary03
Стаж: 17 лет 8 месяцев Сообщений: 39
|
temporary03 ·
29-Янв-08 11:20
(спустя 22 мин., ред. 20-Апр-16 14:31)
Можно и то и другое. И можно без хлеба (c).
В смысле, что какой-то порядок, не идеальный как реальная жизнь, лучше, чем долгий хаос. Может быть дополнительные программы-переименовальщики будут неидеальным компромиссом?
|
|
BookWarrior
Стаж: 17 лет 7 месяцев Сообщений: 70
|
BookWarrior ·
29-Янв-08 13:07
(спустя 1 час 46 мин., ред. 20-Апр-16 14:31)
temporary03
с радостью обсужу наведение порядка через месяц (в марте т.е.) - до того катастрофа со временем.
|
|
koctya
Стаж: 17 лет 3 месяца Сообщений: 58
|
koctya ·
30-Янв-08 21:39
(спустя 1 день 8 часов, ред. 20-Апр-16 14:31)
dmvn писал(а):
Основная беда по-моему именно в том, что все видят это по-разному. Я сторонник связанных с БД каталогов, shawls полагается на имена файлов... То, как это сделано во внутренней структуре L.m.r, исключает всякие проблемы, там каждая книга имеет идентификатор, а поиском и индексацией занимается mySQL. Я полагаю, что это единственно верный путь, а в оффлайн-режиме -- та же база, ну только в виде xml/html.
БД - решение однозначно лучше. А уже к ней можно делать обвязку с генерацией скриптов переименования, поиска, etc.
Длинное имя плохо - 1) избыточностью (техническая информация человеку не нужна, а вот какой-нибудь робот ее может и должен использовать), 2) усложняется разбор имени роботом.
Кроме того, плюс БД в том, что можно относить книгу не к одному разделу, а к нескольким.
У меня есть на этот счет кое-какие идеи, но, увы, времени маловато.... то, что есть сейчас - это совсем сырые наброски...
зы. Да, кстати, насчет html - мне кажется, что это плохая идея. Неудобно с ним работать....
|
|
michel-f
Стаж: 17 лет 5 месяцев Сообщений: 412
|
michel-f ·
31-Янв-08 09:05
(спустя 11 часов, ред. 20-Апр-16 14:31)
Добавлю свои пять копеек )
2 BookWarrior -
Цитата:
Вот простая схема, в которой юзер просто не сможет не подумать, и одновременно не сможет придумать неправильно решения легко: Гебельс. Дружба с ацкой сотоной (ВандалПресс,1942).djvu => MD5 => 12345VYSHELZAYCHIKPOGULYAT
ИМХО, имена файлов трогать не нужно.... в них расширения прописаны )) Есть конечно TrID, но зачем нам такие проблемы ?
Ну ограничить 120-160 символами, чтобы не было проблем при распаковке... ну может до 207 ;=), чтобы на диски записать можно было
Нужна БД с именем файла, и информацией по паре ключей (MD5/длина файла, либо что-то ещё);
в осле как идентификатор не зря заложен не только ed2k-хеш, но и длина файла; ключ MD5 не уникален и может быть одинаков для разных файлов.
Кой-какие разработки в этом направлении я веду, но времени не хватает катастрофически ((
Плотно займусь не раньше лета, а эпизодически ... Получается - тут баг убрал, там добавил... несерьезно это ;=)
2 kostya:
Цитата:
Кроме того, плюс БД в том, что можно относить книгу не к одному разделу, а к нескольким.
У меня есть на этот счет кое-какие идеи, но, увы, времени маловато.... то, что есть сейчас - это совсем сырые наброски...
Об идеях поподробнее можно?
Особенно - по отнесению книги к нескольким разделам (с технической стороны) - те идеи, которые есть у меня, мне не нравятся своей нерасширяемостью...
Хотелось бы как в Bookz Collector'е организовать, но структура их БД мне не ясна...
|
|
BookWarrior
Стаж: 17 лет 7 месяцев Сообщений: 70
|
BookWarrior ·
27-Фев-08 00:26
(спустя 26 дней, ред. 29-Авг-09 17:49)
как обещал - через месяц я тут. Посколько дискуссия по теме чистки библиотек сильно продвинулась - перехожу в соответствующий топик.
|
|
ppolopol
Стаж: 18 лет Сообщений: 8
|
ppolopol ·
01-Апр-08 18:55
(спустя 1 месяц 3 дня, ред. 20-Апр-16 14:31)
А первый DVD нельзя выложить снова?
|
|
Gravis
Стаж: 19 лет 2 месяца Сообщений: 61
|
Gravis ·
01-Апр-08 22:17
(спустя 3 часа, ред. 20-Апр-16 14:31)
ppolopol, интересующая вас раздача: DVD 001/035, видимо, надо подправить шапку этой темы...
|
|
Ghooost
Стаж: 17 лет Сообщений: 6
|
Ghooost ·
24-Апр-08 21:32
(спустя 22 дня, ред. 20-Апр-16 14:31)
Ссылка на каталог неактивна, перезалейте, пожалуйста upd. Все-таки скачал, спасибо
|
|
Alexey17
Стаж: 18 лет 9 месяцев Сообщений: 1008
|
Alexey17 ·
29-Апр-08 21:12
(спустя 4 дня, ред. 20-Апр-16 14:31)
Цитата:
а я давно говорил, что болванки -- зло харды -- сила...
да ладно сила - у меня 12 шт уже на 4.6ТБ и все-равно не помещаюсь - без болванок никак
|
|
ctapnep
Стаж: 17 лет 10 месяцев Сообщений: 37
|
ctapnep ·
02-Май-08 08:36
(спустя 2 дня 11 часов, ред. 20-Апр-16 14:31)
таки лучше 12 хардов, чем 1000 болванок.
К тому-же харды сильно растут в объеме при той-же цене. А болванки как-то не растут.
|
|
BookWarrior
Стаж: 17 лет 7 месяцев Сообщений: 70
|
BookWarrior ·
16-Май-08 02:25
(спустя 13 дней, ред. 20-Апр-16 14:31)
Alexey17
уже есть HDD (одинарные) на 1 ТБ. Я себе 2 внешних взял... Стоимость в Германии - 199 Евро за экземпляр с USB 2.0 интерфейсом. Пока это самый дешёвый одинарный внешний терик на рынке. Модель: TrekStor DataStation maxi m.ub 1 TB
Есть ещё такие шкафчики, там 40 внутренних HDD можно вставить
Размер хардов растёт в 2 раза каждые 14 месяцев. Физические пределы ещё очень далеко, так что ближайшую декаду-две так и будет.
Запасайтесь!
|
|
Гость
|
Гость ·
17-Июн-08 08:38
(спустя 1 месяц 1 день, ред. 17-Июн-08 08:38)
Щас все буду закачивать и держать на раздаче покудова смогу. А насчет каталога - откуда же его таки брать? PS Давеча себе терабайтник купил.
|
|
BookWarrior
Стаж: 17 лет 7 месяцев Сообщений: 70
|
BookWarrior ·
18-Авг-08 17:11
(спустя 2 месяца 1 день)
Объединение образовательных библиотек.
Конвертор из колхоза, мехмата и хомлаба в репозиторий общей базы.
|
|
Mikhail111
Стаж: 17 лет 6 месяцев Сообщений: 3
|
Mikhail111 ·
20-Авг-08 16:03
(спустя 1 день 22 часа)
Очень полезная библиотека - обязательно буду качать. Но скажите пожалуйста, а где взять DVD 001/035 ? Или он не нужен?
|
|
Whisper-JS
Стаж: 16 лет 5 месяцев Сообщений: 768
|
Whisper-JS ·
20-Авг-08 17:19
(спустя 1 час 15 мин.)
Mikhail111
Странно... За 4 месяца ссылку не исправили. Вот первый DVD
|
|
freeneutron
Стаж: 16 лет 1 месяц Сообщений: 33
|
freeneutron ·
09-Окт-08 03:19
(спустя 1 месяц 19 дней)
Присоединяюсь ко всем респектам в адрес etymologist. Просто здорово, что все это можно так просто скачать...
|
|
|