Libgen-text / Текстовая версия книг из Library Genesis

Страницы:  1
Ответить
 

1Bot

Top Bonus 05* 10TB

Стаж: 14 лет 11 месяцев

Сообщений: 66

1Bot · 29-Апр-20 11:29 (4 года 8 месяцев назад, ред. 01-Май-20 20:29)

Библиотека: Libgen-text / Текстовая версия книг из Library Genesis
Состояние: обновлено 2020-04-05
Тематика: научно-техническая обучающая литература, художественная литература
Формат: TXT
Качество: Издательский макет или текст (eBook)
Количество книг: 4110000
Описание: Текстовая версия книг из Library Genesis
Libgen-text / обновлено 2020-04-05
Это текстовые версии 4 миллионов книг из Library Genesis (оригинальный размер - 35 ТБ, размер текстовой версии в 70 раз меньше).
Библиотечный каталог книг в формате .CSV включен в раздачу.
Извлечение текста не работает для всех исходных книг. Проза (абзацы текста) обычно читаема.
Математические тексты с уравнениями или научные книги с графиками не читаются.
Примечание: формат сжатия '.tar.xz', похож на zip, но сжимает в 2,5 раза лучше.
Для извлечения используется '7zip' в Windows, 'unarchiver' в OS X или 'tar xf' в Linux.
Как найти книгу?
0. На linux запустите 'bash programs/find-linux.bash <название или автор>'.
Все книги, соответствующие вашему запросу, будут помещены в папку с именем '<название или автор>'.
По умолчанию выбраны только книги на английском языке. Чтобы выбрать другой язык отредактируйте файл.
1. Как искать художественную литературу (ff), научно-техническую литературу (lg) или научную/академическую статью (sm)?
- если художественная литература, откройте dbs/ff/simple.csv
- если научная литература, откройте dbs/lg/simple.csv
- если научная статья, то она не включена в данную раздачу.
2. Поиск в CSV по названию книги или автору книги.
Ищите в CSV-файле название или автора, используя (Excel, текстовый редактор и т.д.)
Авторы могут быть указаны по фамилии, имени или обоим. Убедитесь, что файл на нужном вам языке.
Пример поиска научно-технической литературы (lg)
результаты поиска в csv
Код:
     515766,a3a39bc8254197c861a0cd6f23e4b598,English,pdf,Neal Stephenson,In the Beginning...was the Command Line
     id     md5                              lang    ext author          title
3. Посмотрите на идентификатор и измените последние 3 цифры на 000. Например, здесь 515766 -> 515000
4. Открыть архив text/lg/515000.tar.xz
Внутри находится файл 515000/a3a39bc8254197c861a0cd6f23e4b598.pdf.txt.
Это та книга, которую вы искали. Если книга отсутствует (10%), это означает, что текст невозможно извлечь из исходного файла библиотеки.
Пример поиска художественной литературы (ff)
результаты поиска в csv
Код:
     1501694,43C496B3F2416BE0CE1C3EC52549B7D2,English,epub,"Liu, Cixin",The Three-Body Problem,Three-Body 1
     id      md5                              lang    ext  author       title                  series
3. Посмотрите на идентификатор и измените последние 3 цифры на 000. Например, здесь 1501694 -> 1501000
4. Открыть архив text/ff/1501000.tar.xz
Внутри находится файл 501000/43c496b3f2416be0ce1c3ec52549b7d2.txt.
Это книга, которую вы искали. Если книга отсутствует (15%), это означает, что текст невозможно извлечь из исходного файла библиотеки.
Почему возникла эта раздача?
Каждый, кто может позволить себе портативный жесткий диск, может иметь копии всех книг в мире.
Не имеет значения, выйдет ли libgen из строя, отключится ли весь интернет, отрежет ли ваше
правительство все кабели за пределами страны и сожжет библиотеки, начнут ли издательские компании
взимать ежегодную абонентскую плату. У вас уже будут все книги, когда-либо написанные, навсегда.
Почему обычный текст?
- текст меньше:
Код:
    +---------------+----------------------------------+-----------------------+
    | набор данных  | размер                           | количество файлов     |
    |               +----------+--------+--------------+-----------+-----------+
    |               | оригинал | текст  | сжатый текст | оригинал  | текст     |
    +---------------+----------+--------+------------- +-----------+-----------+
    | lg (sci-tech) | 32 ТБ    | 0,8 ТБ | 0,32 ТБ      | 2,450,000 | 2,220,000 |
    +---------------+----------+--------+--------------+-----------+-----------+
    | ff (fiction)  | 2,4 ТБ   | 0,5 ТБ | 0,18 ТБ      | 2,180,000 | 1,890,000 |
    +---------------+----------+--------+--------------+-----------+-----------+
- текст можно просматривать на любом устройстве.
- обычный текст не может содержать вредоносный код, PDF - может.
- текст можно искать и легче индексировать.
Почему используется формат CSV?
- любой может использовать CSV
- его можно прочитать в текстовом редакторе, открыть в Excel или импортировать в базу данных.
Дампы базы данных могут использовать только специалисты.
Организация файлов
Код:
dbs/lg/libgen_compact_2020-04-05.rar                Дамп базы данных lg, скачанный с gen.lib.rus.ec.
                                                    Идентификатор базы данных #4000-4999 находится в файле text/lg/4000.tar.xz и т.д.
dbs/lg/topics.csv.xz                                Тот же дамп базы данных, преобразованный в формат csv
dbs/lg/updated.csv.xz
dbs/lg/simple.csv                                   Упрощенный формат CSV. Отсортирован по языку, автору, названию, расширению
dbs/ff/fiction_2020-04-05.rar                       Дамп базы данных ff, скачанный с gen.lib.rus.ec.
                                                    Идентификатор базы данных #4000-4999 находится в файле text/ff/4000.tar.xz и т.д.
dbs/ff/fiction.csv.xz                               Тот же дамп базы данных, преобразованный в формат CSV
dbs/ff/fiction_description.csv.xz
dbs/ff/simple.csv                                   Упрощенный формат CSV. Отсортирован по языку, автору, названию, расширению
text/lg/0.tar.xz                                    До 1000 преобразованных файлов .txt в каждом архиве .tar.xz
text/lg/1000.tar.xz
...
text/lg/727000.tar.xz
  727000/12324edf5f13c603f05532adc08b7572.pdf.txt   Пример книги внутри архива .tar.xz: текст извлечен из файла
                                                    727000/12324edf5f13c603f05532adc08b7572, полученного из оригинальной lg torrent раздачи
...
text/lg/2454000.tar.xz
text/ff/0.tar.xz                                    До 1000 преобразованных файлов .txt в каждом архиве .tar.xz
text/ff/1000.tar.xz
...
text/ff/727000.tar.xz
    727000/0037b70cf3267a5708eb5f43cca31730.txt     Пример книги внутри архива .tar.xz: текст извлечен из файла
                                                 727000/0037b70cf3267a5708eb5f43cca31730.epub полученного из оригинальной ff torrent раздачи
...
text/ff/2182000.tar.xz
Извлечение текста
text/lg
Расширения файлов были определены с помощью дампов базы данных, представленных на gen.lib.rus.ec.
текст был извлечен с использованием
.epub: epub2txt
.pdf: pdftotext
.djvu: djvutxt
text/ff
текст был извлечен с использованием calibre
OCR не использовался.
Как Вы можете помочь?
Как сделать так, чтобы библиотека всех книг была доступна каждому бесплатно навсегда, даже если некоторые люди ее ненавидят?
- Дать копии всем, кого вы знаете.
- Скажите людям, что пиратские книги - это нормально. Важно сделать все знания доступными для всех, навсегда.
- Не полагайтесь на кого-то другого, чтобы что-то держать в Интернете для вас.
- Скачать копию всех торрент-файлов, код и последние дампы базы данных. Держать это в актуальном состоянии. Сделать это публичным, если это возможно.
- Выбрать случайные torrent раздачи библиотеки Genesis, скачать и раздавать их. Вместе мы можем затруднить их стирание или уничтожение.
- Сканирование и распознавание текста некоторых книг. Загрузить их (не очень полезно, но стоит делать).
- Переведите этот документ и распространите ваш перевод, чтобы люди, говорящие на других языках, могли найти книги.
- Очищайте метаданные книг из всей коллекции Genesis (не только нескольких книг).
Об авторе
Мой gpg ключ 00BF8D78743D2FCBB70777B85A8C0EB7A8DD275F (доступен на pgp.mit.edu).
Вы можете со мной связаться с шифрованным письмом на choldu8ozpdnm@mail.com.
Список книг
В виду многочисленности список книг представлен в виде дампа базы данных, а также в виде CSV файла
English description
Код:
libgen-text / updated 2020-04-05
this is .txt versions of 4 million books from the library genesis collection (the original is 35TB, this is 70x smaller). a .csv library catalog of books is included.
extracting text does not work for all books. prose (paragraphs of text) is usually readable. mathematics texts with equations, or scientific books with graphs, are not readable.
note: '.tar.xz' is a compression format like zip, but 2.5x smaller
      .tar.xz can be extracted by '7zip' in windows, 'the unarchiver' in os x, or 'tar xf' in linux.
===
| how to find a book
===
0. are you on linux? if so, run 'bash programs/find-linux.bash <title or author>'. all books matching your search will be put in a folder named '<title or author>'.
   by default only english books are selected. edit the file to select another language.
1. is it fiction (ff), nonfiction book (lg), or a scientific/academic article (sm)?
   if fiction, open dbs/ff/simple.csv
   if nonfiction, open dbs/lg/simple.csv
   if scientific article, it is not included.
2. search csv by book title or book author.
   search the csv file for the title or author using your favorite tool (excel, text editor etc). authors may be listed by family name, given name, or both.
   make sure the file is in the language you want.
nonfiction (lg) example
  csv search result
     515766,a3a39bc8254197c861a0cd6f23e4b598,English,pdf,Neal Stephenson,In the Beginning...was the Command Line
     id     md5                              lang    ext author          title
3. look at the id and change the last 3 digits to 000. for example here, 515766 -> 515000
4. open text/lg/515000.tar.xz
   inside is a file 515000/a3a39bc8254197c861a0cd6f23e4b598.pdf.txt. this is the book you want. if the book is missing (10%), that means the text could not be extracted.
fiction (ff) example
  csv search result
     1501694,43C496B3F2416BE0CE1C3EC52549B7D2,English,epub,"Liu, Cixin",The Three-Body Problem,Three-Body 1
     id      md5                              lang    ext  author       title                  series
3. look at the id and change the last 3 digits to 000. for example here, 1501694 -> 1501000
4. open text/ff/1501000.tar.xz
   inside is a file 1501000/43c496b3f2416be0ce1c3ec52549b7d2.txt. this is the book you want. if the book is missing (15%), that means the text could not be extracted.
===
| why
===
everyone who can afford a portable hard drive, can have a copy of all books in the world. it doesn't matter whether libgen goes down, whether the entire internet is down, whether your government cuts all the cables out of the country and burns libraries, whether publishing companies start charging a yearly subscription fee. you will already have all books ever written, forever.
===
| why plain text?
===
- text is smaller.
    +----------+------------------------------------+------------------------+
    |          | size                               | number of files        |
    +----------+----------+-------+-----------------+-----------+------------+
    | data set | original | text  | compressed text | original  | text       |
    +----------+----------+-------+-----------------+-----------+------------+
    | lg       | 32TB     | 0.8TB | 0.32TB          | 2,450,000 | 2,220,000  |
    +----------+----------+-------+-----------------+-----------+------------+
    | ff       | 2.4TB    | 0.5TB | 0.18TB          | 2,180,000 | 1,890,000  |
    +----------+----------+-------+-----------------+-----------+------------+
- text can be viewed on every device.
- plain text cannot contain malicious code. pdfs can.
- text can be searched and indexed more easily.
- why csv? anyone can use csv. it can be read raw in a text editor, opened in excel, or imported into a database. database dumps can be used only by experts.
===
| files and organization
===
dbs/lg/libgen_compact_2020-04-05.rar                    database dump of lg downloaded from gen.lib.rus.ec. database id #4000-4999 are found in file text/lg/4000.tar.xz, etc
dbs/lg/topics.csv.xz                                    same database dump converted to csv format
dbs/lg/updated.csv.xz
dbs/lg/simple.csv                                       simplified csv format. sorted by language, author, title, extension
dbs/ff/fiction_2020-04-05.rar                           database dump of ff downloaded from gen.lib.rus.ec. database id #4000-4999 are found in file text/ff/4000.tar.xz, etc
dbs/ff/fiction.csv.xz                                   same database dump converted to csv format
dbs/ff/fiction_description.csv.xz
dbs/ff/simple.csv                                       simplified csv format. sorted by language, author, title, extension
text/lg/0.tar.xz                                        around 1000 converted .txt files in each .tar.xz
text/lg/1000.tar.xz
...
text/lg/727000.tar.xz
    727000/12324edf5f13c603f05532adc08b7572.pdf.txt     example book inside the .tar.xz: the text is extracted from 727000/12324edf5f13c603f05532adc08b7572 in the original lg torrents
...
text/lg/2454000.tar.xz
text/ff/0.tar.xz                                        around 1000 converted .txt files in each .tar.xz
text/ff/1000.tar.xz
...
text/ff/727000.tar.xz
    727000/0037b70cf3267a5708eb5f43cca31730.txt         example book inside the .tar.xz: the text is extracted from 727000/0037b70cf3267a5708eb5f43cca31730.epub in the original ff torrents
...
text/ff/2182000.tar.xz
===
| text extraction
===
text/lg
    file extensions were determined by using the database dumps provided at gen.lib.rus.ec.
    text was extracted using
        .epub: epub2txt
        .pdf: pdftotext
        .djvu: djvutxt
text/ff
    text was extracted using calibre
no ocr was used.
===
| how to help
===
how to make a library of all books available to everyone free forever, even if some people hate it
- give copies to everyone you know
- tell people it's okay to pirate books. it's important to make all knowledge available to everyone, forever.
- don't rely on someone else to keep stuff on the internet for you.
- download a copy of all the torrent files, code, and the latest database dumps. keep it up to date. make it public if possible.
- pick random library genesis torrents and seed them. together we can make it hard to erase or take down.
- scan and ocr some books. upload them. (not that helpful but worth doing)
- translate this readme and distribute your translation, so people speaking other languages can find books
- clean up the entire library genesis collection's metadata (not just a few books)
===
| about me
===
my gpg key is 00BF8D78743D2FCBB70777B85A8C0EB7A8DD275F (available at pgp.mit.edu). you can contact me by encrypted email at choldu8ozpdnm@mail.com.
Доп. информация:
Library Genesis - полезные файлы, ссылки, обсуждение, описание.
https://rutr.life/forum/viewtopic.php?t=3825071
Download
Rutracker.org не распространяет и не хранит электронные версии произведений, а лишь предоставляет доступ к создаваемому пользователями каталогу ссылок на торрент-файлы, которые содержат только списки хеш-сумм
Как скачивать? (для скачивания .torrent файлов необходима регистрация)
[Профиль]  [ЛС] 

1Bot

Top Bonus 05* 10TB

Стаж: 14 лет 11 месяцев

Сообщений: 66

1Bot · 29-Апр-20 12:09 (спустя 39 мин.)

Не получается добавить torrent файл для раздачи
При добавлении возникает ошибка
Код:
Error 413 Request Entity Too Large
т.к. размер torrent файла 5,383,758 байт > 5 MB.
[Профиль]  [ЛС] 

Papant

Admin

Стаж: 17 лет 4 месяца

Сообщений: 56661

Papant · 29-Апр-20 15:26 (спустя 3 часа)

1Bot
Чем создаёте торрент-файл и какой размер части?
Попробуйте увеличить размер части, желательно не больше 16 Мб (лучше не более 8)
[Профиль]  [ЛС] 

1Bot

Top Bonus 05* 10TB

Стаж: 14 лет 11 месяцев

Сообщений: 66

1Bot · 30-Апр-20 11:45 (спустя 20 часов)

Papant
Общий объем: 500 ГБ
Частей: 256392 х 2.00 МБ
Попробую перехешировать с большим размером частей 4 МБ или 8 МБ.
Это займет какое-то время...
[Профиль]  [ЛС] 

Mihahail

Стаж: 16 лет 2 месяца

Сообщений: 4


Mihahail · 14-Май-20 21:48 (спустя 14 дней)

1Bot
Я уважаю ваш труд, но он, по-моему, получился довольно бестолковым.
Без формул, графиков и тому подобных вещей научные/технические книги - бесполезный набор байтов. Конвертеры (из всех указанных форматов) частенько выдают всякий мусор ("10¹⁵ штук" превращается в "1015 штук"). Таким образом, вся раздача - на сколько-то процентов текстовый мусор. Он может быть полезен для поиска "в каких книгах были такие-то слова", но не для чтения. Согласитесь, пользы как-то мало для 500ГБ.
Во-вторых, смотрите. epub, mobi, fb2 - это уже текстовые форматы, это просто текст с html-разметкой. В случае fb2 - не сжатый, открываемый любым блокнотом. В случае mobi и epub - просто текстовые и графические файлы в архиве. В случае doc/docx - то же самое, только чуть сложнее.
Как выглядит типичный epub:
1) хорошо сжимаемый обычный текст
2) текстовая метаинформация и разметка (тоже хорошо жмутся и её мало относительно основного текста)
3) никак не сжимаемые картинки
4) плохо сжимаемые шрифты
Вы выкинули всё, кроме 1, превратив тексты в чёрт-те что.
Извлекать текст из уже текстовых форматов (fb2, epub, mobi) - это глупость. Представление информации в этих форматах уже близко к оптимальному (некторые стили и разметка - это довольно маленький оверхед - не больше 10%). Да, это не plaintext, но тот же epub открывается любым архиватором - потому что это просто zip архив.
Если исключить из рассмотрения текст, большую часть оставшегося объёма этих файлов составляют встроенные в них картинки. Эти картинки - по большей части обложки и иллюстрации. Вот уже их можно было бы выкинуть без проблем. Но не все, потому что формулы (маленькие картинки) и графики (немного большие картинки) - нужны. Возможно, имеет смысл удалять картинки только из fiction.
Ещё какую-то долю объёма mobi и epub составляют шрифты. Их можно попытаться так же удалить, обычно системные fallback шрифты выглядят не особо хуже.
Того же сжатия можно было добиться не коверкая книги, и не уничтожив разметку: одна обложка внутри файла книги (для примера - 05EBD720EB27C86AF46CCA786C081211) весит 166 кб, остальные 400кб - это уже сжатый (в zip) текст. Таковы свойства сжатия: картинка уже сжата и особо никак не жмётся, если не понижать её разрешение или качество. Текст же сжать можно ещё раз. Второй раз (tar.xz поверх фактического zip) будет, конечно, не так эффективен, но почему бы и нет.
В случае pdf всё сложнее. Если файл создавался более-менее как надо (примеры можно найти среди книжек МЦНМО, например), то его объём уже близок к оптимальному или может быть сжат архиватором. Если же в нём много нестандартной разметки и картинок, то увы.
У книг djvu и pdf есть, так сказать, две возможные "версии". Оптимизированный файл с распознанным текстом, и без распознанного текста. Первый весит куда меньше второго. Второй - по сути просто картинки, собранные в один файл, тут ни о какой оптимальности речи не идёт.
Моё предложение к вам такое: сделать всё как надо (вырезать картинки и шрифты из файлов, опционально упаковать в tar.xz) с литературой художественной, которая преимущественно в текстовом формате и не сильно страдает от отсутствия картинок (есть книги, которые более чем наполовину состоят из иллюстраций, но их сравнительно немного).
А с литературой технической, которая преимущественно в djvu и pdf - ничего не делать, потому что её такими "оптимизациями" можно превратить только в бесполезный набор байт, годный только для поиска фраз.
Самое главное, что всё, что я сейчас изложил, ясно любому грамотному в IT человеку. Это может быть одной из причин, по которой так мало скачивающих.
В текущем виде довольно малая полезность торрента при весьма немалом его объёме очевидна.
Не принимайте на свой счёт, я ценю ваш порыв и поэтому накатал это объяснение.
[Профиль]  [ЛС] 

1Bot

Top Bonus 05* 10TB

Стаж: 14 лет 11 месяцев

Сообщений: 66

1Bot · 20-Май-20 19:03 (спустя 5 дней, ред. 20-Май-20 19:03)

Mihahail
Все, о чем Вы написали, имеет место.
По предложению сделать всё как надо: то, что предполагает участие человека для такой большой коллекции мало осуществимо.
Приведу пример: Согласно отраслевым стандартам средняя скорость дикторского чтения составляет порядка 130 слов в минуту.
Время чтения текста только первых 500 названий источников из темы (Library Genesis [000-004] https://rutr.life/forum/viewtopic.php?t=3847696) составит:
- Динамичный темп 4026.5 сек.
- Нормальный темп 4163.8 сек.
- Комфортный темп 4310.8 сек.
Вы же предлагаете еще их обработать.
Скажу чуть о полезности.
Даже в текстовом виде без картинок и типографских изысков техническая литература имеет дальнейшие перспективы.
Наиболее очевидной является её автоматическая индексация, что практически невозможно при разнообразии форматов.
[Профиль]  [ЛС] 

Mihahail

Стаж: 16 лет 2 месяца

Сообщений: 4


Mihahail · 23-Май-20 23:07 (спустя 3 дня)

О, так значит вы понимаете.
Я не очень понял, почему вы подразумеваете, будто я предлагаю вручную что-то читать.
Убрать картинки - не так уж нереально. Нужен какой-то автоматический способ смотреть и удалять картинки в файлах, массово. С сортировкой по размеру и автоматическим детектированием обилия чисто белого цвета (характерен для графиков и формул) - для группировки таких изображений. Выглядит реальным, но это нужно делать, хех. Сначала написать такую софтину, потом засесть за неё. Да, даже 1 миллион картинок, даже в режиме массовой ручной обработки (больше 10 картинок в секунду) - это очень много. Но реально и полезно (одних обложек в стартовой раздаче на 20ГБ, а ведь многие из них есть в файлах книг).
На счёт индексации, кажется, такие вещи можно делать на лету, без постоянного хранения текстовой версии. В любом случае, домашнее применение по-прежнему сомнительно.
Нет, правда, техническая литература без графиков и формул (откройте любою книжку по физике, химии, биологии, математике) - годится только для текстового поиска, пользоваться по прямому назначению этими "книгами" невозможно. Получившееся "сжатие" имеет слишком большие потери.
Альтруизм должен быть эффективным, ведь альтруистов так мало.
Кстати, не подскажете, где вы взяли оригинальные 35ТБ? И оно столько весит до или после распаковки?
[Профиль]  [ЛС] 

1Bot

Top Bonus 05* 10TB

Стаж: 14 лет 11 месяцев

Сообщений: 66

1Bot · 24-Май-20 09:38 (спустя 10 часов)

Mihahail писал(а):
Я не очень понял, почему вы подразумеваете, будто я предлагаю вручную что-то читать.
Убрать картинки - не так уж нереально. Нужен какой-то автоматический способ смотреть и удалять картинки в файлах, массово. С сортировкой по размеру и автоматическим детектированием обилия чисто белого цвета (характерен для графиков и формул) - для группировки таких изображений. Выглядит реальным, но это нужно делать, хех. Сначала написать такую софтину, потом засесть за неё. Да, даже 1 миллион картинок, даже в режиме массовой ручной обработки (больше 10 картинок в секунду) - это очень много. Но реально и полезно (одних обложек в стартовой раздаче на 20ГБ, а ведь многие из них есть в файлах книг).
Не говорите насколько это "просто" - сделайте! Не нужно брать сразу всю коллекцию, возьмите для пробы 5000 книг из раздачи (Library Genesis [040-044] https://rutr.life/forum/viewtopic.php?t=3847900). Если поделитесь своим опытом, возможно остальная часть коллекции также подвергнется такой экзекуции.
Mihahail писал(а):
На счёт индексации, кажется, такие вещи можно делать на лету, без постоянного хранения текстовой версии.
Индексировать можно без сохранения промежуточной текстовой версии, однако текстовые версии представляют самостоятельную ценность из-за минимального объема для хранения.
Mihahail писал(а):
В любом случае, домашнее применение по-прежнему сомнительно.
Библиотека ориентирована на большие группы людей с разными интересами и не будет использована полностью в "домашнем" применении одного человека.
Mihahail писал(а):
Нет, правда, техническая литература без графиков и формул (откройте любою книжку по физике, химии, биологии, математике) - годится только для текстового поиска, пользоваться по прямому назначению этими "книгами" невозможно. Получившееся "сжатие" имеет слишком большие потери.
Как говорилось ранее это имеет место, текстовые версии таких книг необходимы больше для целей поиска и каталогизации, к тому же ничего не мешает брать полные версии из основной библиотеки Library Genesis.
Mihahail писал(а):
Кстати, не подскажете, где вы взяли оригинальные 35ТБ? И оно столько весит до или после распаковки?
Оригинальные файлы библиотеки Library Genesis не упакованы, доступны для скачивания torrent раздачи, информация о размерах приведена в шапке.
[Профиль]  [ЛС] 

hobdo

Стаж: 14 лет 5 месяцев

Сообщений: 55


hobdo · 27-Июл-20 08:39 (спустя 2 месяца 2 дня, ред. 27-Июл-20 08:39)

Mihahail писал(а):
79499295Нужен какой-то автоматический способ смотреть и удалять картинки в файлах, массово. С сортировкой по размеру и автоматическим детектированием обилия чисто белого цвета (характерен для графиков и формул) - для группировки таких изображений. Выглядит реальным, но это нужно делать, хех. Сначала написать такую софтину, потом засесть за неё.
Если посмотреть с точки зрения других сфер, где применяется полностью автоматическое распознавание изображений в очень больших массивах, то задача выглядит очень простой.
Например, масс-обработка космической съемки. Это бешеные терабайты, которые льются 24х365 и есть программы, которые с этим работают. То есть существуют алгоритмы и библиотеки для быстрой обработки сложных картинок в большом количестве.
На их фоне графики и формулы, которые черные на белой бумаге и из небольшого набора знаков, выглядят простой тренировочной задачей.
А может, уже есть какие-нибудь версии Fine Reader, чтобы умели массово делать такие вещи? Сейчас же везде стоят нейросети, для разработчиков присобачить такое раз плюнуть.
Увы, ничего конкретнее посоветовать не могу. Но обычно раз есть возможность реализовать идею, то кто-то программу уже написал. Может, и для этого написано кем-нибудь где-то в MTI? Я бы подошел с того конца, чтобы поискать... Будет не 500 Гб пусть, а 1500, зато без потерь...
[Профиль]  [ЛС] 

albedo2

Top Bonus 03* 1TB

Стаж: 15 лет 8 месяцев

Сообщений: 28

albedo2 · 09-Окт-20 23:05 (спустя 2 месяца 13 дней, ред. 09-Окт-20 23:05)

Очень полезная раздача. Хотя и понадобится пока далеко не всем. Люди просто не отдают отчёта об открывающихся возможностях. Для тех же кому надо, лучше только полный либген локально. Но далеко не все могут позволить себе 100 терабайт. У меня пока нет, поэтому раздача очень пригодилась. Сейчас работает как дополнение к основной коллекции книг (колхоз и прочее)
Что я сделал для адаптации под свои нужды.
- Мало иметь файлы текстового слоя. Даже в таком виде мы имеем 1.4Тб текста в разархивированном виде. Для удобного поиска, нужно проиндексировать его каким либо движком. Локальных поисковых движков для такого объёма немного. Я использую Recoll. Для удобства индексации и последующего просмотра литературы, я перепаковал архивы в 1 архив - 1 файл. Для торрента это не прокатило бы, локально - пару дней работы компа. Файлов много, диск обычный. Recoll не выдержит индексацию такой коллекции. Проверено практикой, на индексах больше 100 гигабайт начинается нестабильность. Хотя например Колхоз проиндексировался нормально. Индекс 105Гиг. К тому же проиндексировать коллекцию в пвру террабайт не всегда получается зараз. А любое прерывание может зафейлить индексы.
Поэтому разделил коллекцию на 10 частей, индексирую каждую, потом подключаю индексы как внешние в recoll. В результате поиск по индексам размером в пару терабайт параллелится и работать достаточно комфортно.
Без полнотекстового поиска - большая часть либгена просто закрыта от пользователей. Вот буквально сегодня нашел пару полезных статей по тессеракту и opencv. Книжка с трудами какой то студенческой конференции. я бы ее ну никак бы не нашел через поиск по имени книги.
Скажу, что пока у каждого не будет полнотекстового индекса либгена, то поиск материалов в большинстве закрыт от читателей. Да, кое что можно найти через Гугл Books, но по мне это проигрыш и по охвату и по скорости. Для художественной литературы это не так актуально, но и флибусту я тоже со временем хочу проиндексировать. Но там все просто
Короче, благодарю!
[Профиль]  [ЛС] 

1Bot

Top Bonus 05* 10TB

Стаж: 14 лет 11 месяцев

Сообщений: 66

1Bot · 03-Ноя-20 21:59 (спустя 24 дня)

albedo2 писал(а):
Без полнотекстового поиска - большая часть либгена просто закрыта от пользователей. Вот буквально сегодня нашел пару полезных статей по тессеракту и opencv. Книжка с трудами какой то студенческой конференции. я бы ее ну никак бы не нашел через поиск по имени книги.
Скажу, что пока у каждого не будет полнотекстового индекса либгена, то поиск материалов в большинстве закрыт от читателей. Да, кое что можно найти через Гугл Books, но по мне это проигрыш и по охвату и по скорости. Для художественной литературы это не так актуально, но и флибусту я тоже со временем хочу проиндексировать.
Вы совершенно точно выразили мои мысли относительно основной цели данной раздачи - открыть огромнейшую коллекцию для полнотекстового поиска, потому что просто каталога с названиями практически недостаточно.
[Профиль]  [ЛС] 

nonhuman

Стаж: 16 лет 3 месяца

Сообщений: 2


nonhuman · 22-Июн-21 09:07 (спустя 7 месяцев)

1Bot
Большое спасибо за раздачу, как раз то, что нужно. Планируется ли апдейт?
[Профиль]  [ЛС] 

sakornt

Стаж: 3 года 7 месяцев

Сообщений: 4


sakornt · 05-Июл-21 09:13 (спустя 13 дней, ред. 05-Июл-21 09:13)

1Bot очень не хватало того, что вы сделали. Ваш труд несет большую пользу, благодарю.
У меня пара вопросов.
В архивах есть пустые файлы и файлы, заполненные знаками стрелок, очевидно, текст этих книг не удалось прочесть? В некоторых архивах таких книг многовато. Есть ли планы попробовать другие методы распознания текста? Я бы попробовал, но мой старинный компьютер потратит на это необозримое время, да и исходники у меня не поместятся.
[Профиль]  [ЛС] 

1Bot

Top Bonus 05* 10TB

Стаж: 14 лет 11 месяцев

Сообщений: 66

1Bot · 30-Июл-21 08:57 (спустя 24 дня, ред. 06-Авг-21 12:12)

nonhuman писал(а):
816036571Bot
Планируется ли апдейт?
Апдейта пока не планируется, по крайней мере до тех пор, пока не добавится хотя бы 4М в источниках.
[Профиль]  [ЛС] 

x-code

Стаж: 15 лет 11 месяцев

Сообщений: 264

x-code · 13-Авг-21 15:49 (спустя 14 дней)

Качать не буду (некуда), но "спасибо" поставил:) Круто, огромная работа на самом деле. Это дамп z-library? Они, помнится, делали OCR Либгена для полнотекстового поиска.
[Профиль]  [ЛС] 

tenlenka

Стаж: 15 лет

Сообщений: 219


tenlenka · 31-Окт-21 18:40 (спустя 2 месяца 18 дней)

Спасибо.
А существует ли возможность скачать оригиналы материалов этого сайта откуда-то на хорошей скорости? Скажем, по годам книг или их размещения? Или хотя бы качать списоком на хорошей скорости? А то сайт отдаёт где-то по 20-60 Кб/сек с постоянными обрывами связи...
[Профиль]  [ЛС] 

regidrer

Стаж: 15 лет 8 месяцев

Сообщений: 90


regidrer · 31-Окт-21 22:23 (спустя 3 часа)

tenlenka писал(а):
82213804Спасибо.
А существует ли возможность скачать оригиналы материалов этого сайта откуда-то на хорошей скорости? Скажем, по годам книг или их размещения? Или хотя бы качать списоком на хорошей скорости? А то сайт отдаёт где-то по 20-60 Кб/сек с постоянными обрывами связи...
Сейчас либген это не один сайт, скорее Library Genesis Group, с большим количеством форков и зеркал. Наилучшая скорость выкачивания по списку будет по протоколу IPFS, кот. поддерживается libgen.rs (is/st), libgen.fun (crypto) и libgen.li (gs/lc) - или торрентами
[Профиль]  [ЛС] 

tenlenka

Стаж: 15 лет

Сообщений: 219


tenlenka · 28-Ноя-21 15:53 (спустя 27 дней)

regidrer писал(а):
82214924
tenlenka писал(а):
82213804Спасибо.
А существует ли возможность скачать оригиналы материалов этого сайта откуда-то на хорошей скорости? Скажем, по годам книг или их размещения? Или хотя бы качать списоком на хорошей скорости? А то сайт отдаёт где-то по 20-60 Кб/сек с постоянными обрывами связи...
Сейчас либген это не один сайт, скорее Library Genesis Group, с большим количеством форков и зеркал. Наилучшая скорость выкачивания по списку будет по протоколу IPFS, кот. поддерживается libgen.rs (is/st), libgen.fun (crypto) и libgen.li (gs/lc) - или торрентами
Спасибо. Не просто. Буду изучать.
[Профиль]  [ЛС] 

gautxori

Стаж: 7 лет 10 месяцев

Сообщений: 5


gautxori · 29-Янв-23 00:23 (спустя 1 год 2 месяца)

Is there any alternative to libgen? It seems they were abduced...
[Профиль]  [ЛС] 

Papant

Admin

Стаж: 17 лет 4 месяца

Сообщений: 56661

Papant · 18-Мар-23 21:57 (спустя 1 месяц 20 дней)

snarkrans
Да вроде не видно больших проблем -
скрытый текст
[Профиль]  [ЛС] 

Nikon003

Стаж: 9 лет 2 месяца

Сообщений: 6

Nikon003 · 11-Сен-23 02:14 (спустя 5 месяцев 23 дня)

Большое спасибо. Планируется актуализация до 2023 года?
[Профиль]  [ЛС] 

booba1337

Стаж: 2 года 7 месяцев

Сообщений: 18

booba1337 · 03-Окт-23 16:29 (спустя 22 дня, ред. 03-Окт-23 16:29)

Всегда скачивал с сайта, с архивами пока не разбирался, но у меня есть некоторое количество места (до 750 гигабайт), подскажите что полезнее было бы поставить из архивов Library Genesis (или другие архивы книг в дополнение к этой) на раздачу, вижу на трекере их много разных. Ps. Лучше что бы сами книги не в pdf
upd. Пока поставил эту плюс три наименее популярных и начальную из серии (как я понял) оригинальных пронумерованных https://rutr.life/forum/viewtopic.php?t=3825071
[Профиль]  [ЛС] 

the_superpirate

Стаж: 1 год 10 месяцев

Сообщений: 1


the_superpirate · 13-Окт-23 11:43 (спустя 9 дней, ред. 13-Окт-23 11:43)

Привет! Возможно кому-то будет интересно и вы захотите участвовать в раздаче - мы взяли коллекции LibGen, Sci-Hub, Z-Library, добавили к ним несколько миллионов своих статей и книг за 2021-2023 года, создали для этого поисковую систему, работающую поверх IPFS и выложили все туда же. Кроме того, в базе точно также как и здесь есть извлеченные текстовые слои из миллионов статей и сотен тысяч книг, и по всему этому можно искать.
Если кому-то интересно - найдите в Telegram канал nexus_search, в каждом из сообщений есть ссылки куда идти дальше.
[Профиль]  [ЛС] 

1ngusPRO

Стаж: 9 лет 4 месяца

Сообщений: 7


1ngusPRO · 02-Июл-24 19:54 (спустя 8 месяцев)

1Bot писал(а):
79351677Papant
Общий объем: 500 ГБ
Частей: 256392 х 2.00 МБ
Попробую перехешировать с большим размером частей 4 МБ или 8 МБ.
Это займет какое-то время...
Hello,
где скачать полную версию на 35 TB?
[Профиль]  [ЛС] 

regidrer

Стаж: 15 лет 8 месяцев

Сообщений: 90


regidrer · 02-Июл-24 22:29 (спустя 2 часа 34 мин.)

1ngusPRO писал(а):
86440935
1Bot писал(а):
79351677Papant
Общий объем: 500 ГБ
Частей: 256392 х 2.00 МБ
Попробую перехешировать с большим размером частей 4 МБ или 8 МБ.
Это займет какое-то время...
Hello,
где скачать полную версию на 35 TB?
https://annas-archive.se/torrents/libgen_rs_non_fic - только полная версия увеличилась более чем в 2 раза 75Тб+ , более 4К торрентов по 1000 книг
[Профиль]  [ЛС] 

zasada15

Стаж: 5 лет 6 месяцев

Сообщений: 62


zasada15 · 21-Окт-24 15:19 (спустя 3 месяца 18 дней)

Рукопожатно!
А нет ли более свежей версии?
А нащот бесполезности, как тут пишут в треде -- люди, вы оч. ошибаетесь.
Еще и как полезно -- для быстрого поиска.
Вы можете у себя на компе наладить поисковик по libgen не скачивая весь libgen.
Это крайне удобно.
Находите то, что вам нужно, а потом уже качайте pdf, djvu...
Респект тем, кто делает это!
[Профиль]  [ЛС] 

Zzloba

Хранитель

Стаж: 17 лет

Сообщений: 73

Zzloba · 25-Дек-24 14:50 (спустя 2 месяца 3 дня)

Обнову можно не ждать?
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error