1Bot · 29-Апр-20 11:29(4 года 8 месяцев назад, ред. 01-Май-20 20:29)
Библиотека: Libgen-text / Текстовая версия книг из Library Genesis Состояние: обновлено 2020-04-05 Тематика: научно-техническая обучающая литература, художественная литература Формат: TXT Качество: Издательский макет или текст (eBook) Количество книг: 4110000 Описание: Текстовая версия книг из Library Genesis Libgen-text / обновлено 2020-04-05 Это текстовые версии 4 миллионов книг из Library Genesis (оригинальный размер - 35 ТБ, размер текстовой версии в 70 раз меньше).
Библиотечный каталог книг в формате .CSV включен в раздачу. Извлечение текста не работает для всех исходных книг. Проза (абзацы текста) обычно читаема.
Математические тексты с уравнениями или научные книги с графиками не читаются. Примечание: формат сжатия '.tar.xz', похож на zip, но сжимает в 2,5 раза лучше.
Для извлечения используется '7zip' в Windows, 'unarchiver' в OS X или 'tar xf' в Linux.
Как найти книгу?
0. На linux запустите 'bash programs/find-linux.bash <название или автор>'.
Все книги, соответствующие вашему запросу, будут помещены в папку с именем '<название или автор>'.
По умолчанию выбраны только книги на английском языке. Чтобы выбрать другой язык отредактируйте файл. 1. Как искать художественную литературу (ff), научно-техническую литературу (lg) или научную/академическую статью (sm)?
- если художественная литература, откройте dbs/ff/simple.csv
- если научная литература, откройте dbs/lg/simple.csv
- если научная статья, то она не включена в данную раздачу. 2. Поиск в CSV по названию книги или автору книги.
Ищите в CSV-файле название или автора, используя (Excel, текстовый редактор и т.д.)
Авторы могут быть указаны по фамилии, имени или обоим. Убедитесь, что файл на нужном вам языке. Пример поиска научно-технической литературы (lg)
результаты поиска в csv
Код:
515766,a3a39bc8254197c861a0cd6f23e4b598,English,pdf,Neal Stephenson,In the Beginning...was the Command Line
id md5 lang ext author title
3. Посмотрите на идентификатор и измените последние 3 цифры на 000. Например, здесь 515766 -> 515000 4. Открыть архив text/lg/515000.tar.xz
Внутри находится файл 515000/a3a39bc8254197c861a0cd6f23e4b598.pdf.txt.
Это та книга, которую вы искали. Если книга отсутствует (10%), это означает, что текст невозможно извлечь из исходного файла библиотеки. Пример поиска художественной литературы (ff)
результаты поиска в csv
Код:
1501694,43C496B3F2416BE0CE1C3EC52549B7D2,English,epub,"Liu, Cixin",The Three-Body Problem,Three-Body 1
id md5 lang ext author title series
3. Посмотрите на идентификатор и измените последние 3 цифры на 000. Например, здесь 1501694 -> 1501000 4. Открыть архив text/ff/1501000.tar.xz
Внутри находится файл 501000/43c496b3f2416be0ce1c3ec52549b7d2.txt.
Это книга, которую вы искали. Если книга отсутствует (15%), это означает, что текст невозможно извлечь из исходного файла библиотеки.
Почему возникла эта раздача?
Каждый, кто может позволить себе портативный жесткий диск, может иметь копии всех книг в мире.
Не имеет значения, выйдет ли libgen из строя, отключится ли весь интернет, отрежет ли ваше
правительство все кабели за пределами страны и сожжет библиотеки, начнут ли издательские компании
взимать ежегодную абонентскую плату. У вас уже будут все книги, когда-либо написанные, навсегда.
Почему обычный текст?
- текст меньше:
Код:
+---------------+----------------------------------+-----------------------+
| набор данных | размер | количество файлов |
| +----------+--------+--------------+-----------+-----------+
| | оригинал | текст | сжатый текст | оригинал | текст |
+---------------+----------+--------+------------- +-----------+-----------+
| lg (sci-tech) | 32 ТБ | 0,8 ТБ | 0,32 ТБ | 2,450,000 | 2,220,000 |
+---------------+----------+--------+--------------+-----------+-----------+
| ff (fiction) | 2,4 ТБ | 0,5 ТБ | 0,18 ТБ | 2,180,000 | 1,890,000 |
+---------------+----------+--------+--------------+-----------+-----------+
- текст можно просматривать на любом устройстве.
- обычный текст не может содержать вредоносный код, PDF - может.
- текст можно искать и легче индексировать. Почему используется формат CSV?
- любой может использовать CSV
- его можно прочитать в текстовом редакторе, открыть в Excel или импортировать в базу данных.
Дампы базы данных могут использовать только специалисты.
Организация файлов
Код:
dbs/lg/libgen_compact_2020-04-05.rar Дамп базы данных lg, скачанный с gen.lib.rus.ec.
Идентификатор базы данных #4000-4999 находится в файле text/lg/4000.tar.xz и т.д. dbs/lg/topics.csv.xz Тот же дамп базы данных, преобразованный в формат csv dbs/lg/updated.csv.xz
dbs/lg/simple.csv Упрощенный формат CSV. Отсортирован по языку, автору, названию, расширению dbs/ff/fiction_2020-04-05.rar Дамп базы данных ff, скачанный с gen.lib.rus.ec.
Идентификатор базы данных #4000-4999 находится в файле text/ff/4000.tar.xz и т.д. dbs/ff/fiction.csv.xz Тот же дамп базы данных, преобразованный в формат CSV
dbs/ff/fiction_description.csv.xz dbs/ff/simple.csv Упрощенный формат CSV. Отсортирован по языку, автору, названию, расширению text/lg/0.tar.xz До 1000 преобразованных файлов .txt в каждом архиве .tar.xz
text/lg/1000.tar.xz
...
text/lg/727000.tar.xz
727000/12324edf5f13c603f05532adc08b7572.pdf.txt Пример книги внутри архива .tar.xz: текст извлечен из файла
727000/12324edf5f13c603f05532adc08b7572, полученного из оригинальной lg torrent раздачи
...
text/lg/2454000.tar.xz text/ff/0.tar.xz До 1000 преобразованных файлов .txt в каждом архиве .tar.xz
text/ff/1000.tar.xz
...
text/ff/727000.tar.xz
727000/0037b70cf3267a5708eb5f43cca31730.txt Пример книги внутри архива .tar.xz: текст извлечен из файла
727000/0037b70cf3267a5708eb5f43cca31730.epub полученного из оригинальной ff torrent раздачи
...
text/ff/2182000.tar.xz
Извлечение текста
text/lg
Расширения файлов были определены с помощью дампов базы данных, представленных на gen.lib.rus.ec.
текст был извлечен с использованием
.epub: epub2txt
.pdf: pdftotext
.djvu: djvutxt
text/ff
текст был извлечен с использованием calibre OCR не использовался.
Как Вы можете помочь?
Как сделать так, чтобы библиотека всех книг была доступна каждому бесплатно навсегда, даже если некоторые люди ее ненавидят?
- Дать копии всем, кого вы знаете.
- Скажите людям, что пиратские книги - это нормально. Важно сделать все знания доступными для всех, навсегда.
- Не полагайтесь на кого-то другого, чтобы что-то держать в Интернете для вас.
- Скачать копию всех торрент-файлов, код и последние дампы базы данных. Держать это в актуальном состоянии. Сделать это публичным, если это возможно.
- Выбрать случайные torrent раздачи библиотеки Genesis, скачать и раздавать их. Вместе мы можем затруднить их стирание или уничтожение.
- Сканирование и распознавание текста некоторых книг. Загрузить их (не очень полезно, но стоит делать).
- Переведите этот документ и распространите ваш перевод, чтобы люди, говорящие на других языках, могли найти книги.
- Очищайте метаданные книг из всей коллекции Genesis (не только нескольких книг).
Об авторе
Мой gpg ключ 00BF8D78743D2FCBB70777B85A8C0EB7A8DD275F (доступен на pgp.mit.edu).
Вы можете со мной связаться с шифрованным письмом на choldu8ozpdnm@mail.com.
Список книг
В виду многочисленности список книг представлен в виде дампа базы данных, а также в виде CSV файла
English description
Код:
libgen-text / updated 2020-04-05 this is .txt versions of 4 million books from the library genesis collection (the original is 35TB, this is 70x smaller). a .csv library catalog of books is included. extracting text does not work for all books. prose (paragraphs of text) is usually readable. mathematics texts with equations, or scientific books with graphs, are not readable. note: '.tar.xz' is a compression format like zip, but 2.5x smaller
.tar.xz can be extracted by '7zip' in windows, 'the unarchiver' in os x, or 'tar xf' in linux. ===
| how to find a book
===
0. are you on linux? if so, run 'bash programs/find-linux.bash <title or author>'. all books matching your search will be put in a folder named '<title or author>'.
by default only english books are selected. edit the file to select another language. 1. is it fiction (ff), nonfiction book (lg), or a scientific/academic article (sm)?
if fiction, open dbs/ff/simple.csv
if nonfiction, open dbs/lg/simple.csv
if scientific article, it is not included.
2. search csv by book title or book author.
search the csv file for the title or author using your favorite tool (excel, text editor etc). authors may be listed by family name, given name, or both.
make sure the file is in the language you want. nonfiction (lg) example
csv search result
515766,a3a39bc8254197c861a0cd6f23e4b598,English,pdf,Neal Stephenson,In the Beginning...was the Command Line
id md5 lang ext author title
3. look at the id and change the last 3 digits to 000. for example here, 515766 -> 515000
4. open text/lg/515000.tar.xz
inside is a file 515000/a3a39bc8254197c861a0cd6f23e4b598.pdf.txt. this is the book you want. if the book is missing (10%), that means the text could not be extracted. fiction (ff) example
csv search result
1501694,43C496B3F2416BE0CE1C3EC52549B7D2,English,epub,"Liu, Cixin",The Three-Body Problem,Three-Body 1
id md5 lang ext author title series
3. look at the id and change the last 3 digits to 000. for example here, 1501694 -> 1501000
4. open text/ff/1501000.tar.xz
inside is a file 1501000/43c496b3f2416be0ce1c3ec52549b7d2.txt. this is the book you want. if the book is missing (15%), that means the text could not be extracted. ===
| why
===
everyone who can afford a portable hard drive, can have a copy of all books in the world. it doesn't matter whether libgen goes down, whether the entire internet is down, whether your government cuts all the cables out of the country and burns libraries, whether publishing companies start charging a yearly subscription fee. you will already have all books ever written, forever. ===
| why plain text?
===
- text is smaller.
+----------+------------------------------------+------------------------+
| | size | number of files |
+----------+----------+-------+-----------------+-----------+------------+
| data set | original | text | compressed text | original | text |
+----------+----------+-------+-----------------+-----------+------------+
| lg | 32TB | 0.8TB | 0.32TB | 2,450,000 | 2,220,000 |
+----------+----------+-------+-----------------+-----------+------------+
| ff | 2.4TB | 0.5TB | 0.18TB | 2,180,000 | 1,890,000 |
+----------+----------+-------+-----------------+-----------+------------+
- text can be viewed on every device.
- plain text cannot contain malicious code. pdfs can.
- text can be searched and indexed more easily.
- why csv? anyone can use csv. it can be read raw in a text editor, opened in excel, or imported into a database. database dumps can be used only by experts. ===
| files and organization
===
dbs/lg/libgen_compact_2020-04-05.rar database dump of lg downloaded from gen.lib.rus.ec. database id #4000-4999 are found in file text/lg/4000.tar.xz, etc
dbs/lg/topics.csv.xz same database dump converted to csv format
dbs/lg/updated.csv.xz
dbs/lg/simple.csv simplified csv format. sorted by language, author, title, extension dbs/ff/fiction_2020-04-05.rar database dump of ff downloaded from gen.lib.rus.ec. database id #4000-4999 are found in file text/ff/4000.tar.xz, etc
dbs/ff/fiction.csv.xz same database dump converted to csv format
dbs/ff/fiction_description.csv.xz
dbs/ff/simple.csv simplified csv format. sorted by language, author, title, extension text/lg/0.tar.xz around 1000 converted .txt files in each .tar.xz
text/lg/1000.tar.xz
...
text/lg/727000.tar.xz
727000/12324edf5f13c603f05532adc08b7572.pdf.txt example book inside the .tar.xz: the text is extracted from 727000/12324edf5f13c603f05532adc08b7572 in the original lg torrents
...
text/lg/2454000.tar.xz text/ff/0.tar.xz around 1000 converted .txt files in each .tar.xz
text/ff/1000.tar.xz
...
text/ff/727000.tar.xz
727000/0037b70cf3267a5708eb5f43cca31730.txt example book inside the .tar.xz: the text is extracted from 727000/0037b70cf3267a5708eb5f43cca31730.epub in the original ff torrents
...
text/ff/2182000.tar.xz ===
| text extraction
===
text/lg
file extensions were determined by using the database dumps provided at gen.lib.rus.ec.
text was extracted using
.epub: epub2txt
.pdf: pdftotext
.djvu: djvutxt
text/ff
text was extracted using calibre no ocr was used. ===
| how to help
===
how to make a library of all books available to everyone free forever, even if some people hate it - give copies to everyone you know
- tell people it's okay to pirate books. it's important to make all knowledge available to everyone, forever.
- don't rely on someone else to keep stuff on the internet for you.
- download a copy of all the torrent files, code, and the latest database dumps. keep it up to date. make it public if possible.
- pick random library genesis torrents and seed them. together we can make it hard to erase or take down.
- scan and ocr some books. upload them. (not that helpful but worth doing)
- translate this readme and distribute your translation, so people speaking other languages can find books
- clean up the entire library genesis collection's metadata (not just a few books) ===
| about me
===
my gpg key is 00BF8D78743D2FCBB70777B85A8C0EB7A8DD275F (available at pgp.mit.edu). you can contact me by encrypted email at choldu8ozpdnm@mail.com.
1Bot
Я уважаю ваш труд, но он, по-моему, получился довольно бестолковым. Без формул, графиков и тому подобных вещей научные/технические книги - бесполезный набор байтов. Конвертеры (из всех указанных форматов) частенько выдают всякий мусор ("10¹⁵ штук" превращается в "1015 штук"). Таким образом, вся раздача - на сколько-то процентов текстовый мусор. Он может быть полезен для поиска "в каких книгах были такие-то слова", но не для чтения. Согласитесь, пользы как-то мало для 500ГБ. Во-вторых, смотрите. epub, mobi, fb2 - это уже текстовые форматы, это просто текст с html-разметкой. В случае fb2 - не сжатый, открываемый любым блокнотом. В случае mobi и epub - просто текстовые и графические файлы в архиве. В случае doc/docx - то же самое, только чуть сложнее.
Как выглядит типичный epub:
1) хорошо сжимаемый обычный текст
2) текстовая метаинформация и разметка (тоже хорошо жмутся и её мало относительно основного текста)
3) никак не сжимаемые картинки
4) плохо сжимаемые шрифты
Вы выкинули всё, кроме 1, превратив тексты в чёрт-те что.
Извлекать текст из уже текстовых форматов (fb2, epub, mobi) - это глупость. Представление информации в этих форматах уже близко к оптимальному (некторые стили и разметка - это довольно маленький оверхед - не больше 10%). Да, это не plaintext, но тот же epub открывается любым архиватором - потому что это просто zip архив. Если исключить из рассмотрения текст, большую часть оставшегося объёма этих файлов составляют встроенные в них картинки. Эти картинки - по большей части обложки и иллюстрации. Вот уже их можно было бы выкинуть без проблем. Но не все, потому что формулы (маленькие картинки) и графики (немного большие картинки) - нужны. Возможно, имеет смысл удалять картинки только из fiction.
Ещё какую-то долю объёма mobi и epub составляют шрифты. Их можно попытаться так же удалить, обычно системные fallback шрифты выглядят не особо хуже. Того же сжатия можно было добиться не коверкая книги, и не уничтожив разметку: одна обложка внутри файла книги (для примера - 05EBD720EB27C86AF46CCA786C081211) весит 166 кб, остальные 400кб - это уже сжатый (в zip) текст. Таковы свойства сжатия: картинка уже сжата и особо никак не жмётся, если не понижать её разрешение или качество. Текст же сжать можно ещё раз. Второй раз (tar.xz поверх фактического zip) будет, конечно, не так эффективен, но почему бы и нет. В случае pdf всё сложнее. Если файл создавался более-менее как надо (примеры можно найти среди книжек МЦНМО, например), то его объём уже близок к оптимальному или может быть сжат архиватором. Если же в нём много нестандартной разметки и картинок, то увы. У книг djvu и pdf есть, так сказать, две возможные "версии". Оптимизированный файл с распознанным текстом, и без распознанного текста. Первый весит куда меньше второго. Второй - по сути просто картинки, собранные в один файл, тут ни о какой оптимальности речи не идёт. Моё предложение к вам такое: сделать всё как надо (вырезать картинки и шрифты из файлов, опционально упаковать в tar.xz) с литературой художественной, которая преимущественно в текстовом формате и не сильно страдает от отсутствия картинок (есть книги, которые более чем наполовину состоят из иллюстраций, но их сравнительно немного).
А с литературой технической, которая преимущественно в djvu и pdf - ничего не делать, потому что её такими "оптимизациями" можно превратить только в бесполезный набор байт, годный только для поиска фраз. Самое главное, что всё, что я сейчас изложил, ясно любому грамотному в IT человеку. Это может быть одной из причин, по которой так мало скачивающих.
В текущем виде довольно малая полезность торрента при весьма немалом его объёме очевидна.
Не принимайте на свой счёт, я ценю ваш порыв и поэтому накатал это объяснение.
Mihahail
Все, о чем Вы написали, имеет место. По предложению сделать всё как надо: то, что предполагает участие человека для такой большой коллекции мало осуществимо.
Приведу пример: Согласно отраслевым стандартам средняя скорость дикторского чтения составляет порядка 130 слов в минуту.
Время чтения текста только первых 500 названий источников из темы (Library Genesis [000-004] https://rutr.life/forum/viewtopic.php?t=3847696) составит:
- Динамичный темп 4026.5 сек.
- Нормальный темп 4163.8 сек.
- Комфортный темп 4310.8 сек.
Вы же предлагаете еще их обработать. Скажу чуть о полезности.
Даже в текстовом виде без картинок и типографских изысков техническая литература имеет дальнейшие перспективы.
Наиболее очевидной является её автоматическая индексация, что практически невозможно при разнообразии форматов.
О, так значит вы понимаете. Я не очень понял, почему вы подразумеваете, будто я предлагаю вручную что-то читать.
Убрать картинки - не так уж нереально. Нужен какой-то автоматический способ смотреть и удалять картинки в файлах, массово. С сортировкой по размеру и автоматическим детектированием обилия чисто белого цвета (характерен для графиков и формул) - для группировки таких изображений. Выглядит реальным, но это нужно делать, хех. Сначала написать такую софтину, потом засесть за неё. Да, даже 1 миллион картинок, даже в режиме массовой ручной обработки (больше 10 картинок в секунду) - это очень много. Но реально и полезно (одних обложек в стартовой раздаче на 20ГБ, а ведь многие из них есть в файлах книг). На счёт индексации, кажется, такие вещи можно делать на лету, без постоянного хранения текстовой версии. В любом случае, домашнее применение по-прежнему сомнительно.
Нет, правда, техническая литература без графиков и формул (откройте любою книжку по физике, химии, биологии, математике) - годится только для текстового поиска, пользоваться по прямому назначению этими "книгами" невозможно. Получившееся "сжатие" имеет слишком большие потери. Альтруизм должен быть эффективным, ведь альтруистов так мало. Кстати, не подскажете, где вы взяли оригинальные 35ТБ? И оно столько весит до или после распаковки?
Я не очень понял, почему вы подразумеваете, будто я предлагаю вручную что-то читать.
Убрать картинки - не так уж нереально. Нужен какой-то автоматический способ смотреть и удалять картинки в файлах, массово. С сортировкой по размеру и автоматическим детектированием обилия чисто белого цвета (характерен для графиков и формул) - для группировки таких изображений. Выглядит реальным, но это нужно делать, хех. Сначала написать такую софтину, потом засесть за неё. Да, даже 1 миллион картинок, даже в режиме массовой ручной обработки (больше 10 картинок в секунду) - это очень много. Но реально и полезно (одних обложек в стартовой раздаче на 20ГБ, а ведь многие из них есть в файлах книг).
Не говорите насколько это "просто" - сделайте! Не нужно брать сразу всю коллекцию, возьмите для пробы 5000 книг из раздачи (Library Genesis [040-044] https://rutr.life/forum/viewtopic.php?t=3847900). Если поделитесь своим опытом, возможно остальная часть коллекции также подвергнется такой экзекуции.
Mihahail писал(а):
На счёт индексации, кажется, такие вещи можно делать на лету, без постоянного хранения текстовой версии.
Индексировать можно без сохранения промежуточной текстовой версии, однако текстовые версии представляют самостоятельную ценность из-за минимального объема для хранения.
Mihahail писал(а):
В любом случае, домашнее применение по-прежнему сомнительно.
Библиотека ориентирована на большие группы людей с разными интересами и не будет использована полностью в "домашнем" применении одного человека.
Mihahail писал(а):
Нет, правда, техническая литература без графиков и формул (откройте любою книжку по физике, химии, биологии, математике) - годится только для текстового поиска, пользоваться по прямому назначению этими "книгами" невозможно. Получившееся "сжатие" имеет слишком большие потери.
Как говорилось ранее это имеет место, текстовые версии таких книг необходимы больше для целей поиска и каталогизации, к тому же ничего не мешает брать полные версии из основной библиотеки Library Genesis.
Mihahail писал(а):
Кстати, не подскажете, где вы взяли оригинальные 35ТБ? И оно столько весит до или после распаковки?
Оригинальные файлы библиотеки Library Genesis не упакованы, доступны для скачивания torrent раздачи, информация о размерах приведена в шапке.
79499295Нужен какой-то автоматический способ смотреть и удалять картинки в файлах, массово. С сортировкой по размеру и автоматическим детектированием обилия чисто белого цвета (характерен для графиков и формул) - для группировки таких изображений. Выглядит реальным, но это нужно делать, хех. Сначала написать такую софтину, потом засесть за неё.
Если посмотреть с точки зрения других сфер, где применяется полностью автоматическое распознавание изображений в очень больших массивах, то задача выглядит очень простой.
Например, масс-обработка космической съемки. Это бешеные терабайты, которые льются 24х365 и есть программы, которые с этим работают. То есть существуют алгоритмы и библиотеки для быстрой обработки сложных картинок в большом количестве.
На их фоне графики и формулы, которые черные на белой бумаге и из небольшого набора знаков, выглядят простой тренировочной задачей.
А может, уже есть какие-нибудь версии Fine Reader, чтобы умели массово делать такие вещи? Сейчас же везде стоят нейросети, для разработчиков присобачить такое раз плюнуть.
Увы, ничего конкретнее посоветовать не могу. Но обычно раз есть возможность реализовать идею, то кто-то программу уже написал. Может, и для этого написано кем-нибудь где-то в MTI? Я бы подошел с того конца, чтобы поискать... Будет не 500 Гб пусть, а 1500, зато без потерь...
Очень полезная раздача. Хотя и понадобится пока далеко не всем. Люди просто не отдают отчёта об открывающихся возможностях. Для тех же кому надо, лучше только полный либген локально. Но далеко не все могут позволить себе 100 терабайт. У меня пока нет, поэтому раздача очень пригодилась. Сейчас работает как дополнение к основной коллекции книг (колхоз и прочее)
Что я сделал для адаптации под свои нужды.
- Мало иметь файлы текстового слоя. Даже в таком виде мы имеем 1.4Тб текста в разархивированном виде. Для удобного поиска, нужно проиндексировать его каким либо движком. Локальных поисковых движков для такого объёма немного. Я использую Recoll. Для удобства индексации и последующего просмотра литературы, я перепаковал архивы в 1 архив - 1 файл. Для торрента это не прокатило бы, локально - пару дней работы компа. Файлов много, диск обычный. Recoll не выдержит индексацию такой коллекции. Проверено практикой, на индексах больше 100 гигабайт начинается нестабильность. Хотя например Колхоз проиндексировался нормально. Индекс 105Гиг. К тому же проиндексировать коллекцию в пвру террабайт не всегда получается зараз. А любое прерывание может зафейлить индексы.
Поэтому разделил коллекцию на 10 частей, индексирую каждую, потом подключаю индексы как внешние в recoll. В результате поиск по индексам размером в пару терабайт параллелится и работать достаточно комфортно.
Без полнотекстового поиска - большая часть либгена просто закрыта от пользователей. Вот буквально сегодня нашел пару полезных статей по тессеракту и opencv. Книжка с трудами какой то студенческой конференции. я бы ее ну никак бы не нашел через поиск по имени книги. Скажу, что пока у каждого не будет полнотекстового индекса либгена, то поиск материалов в большинстве закрыт от читателей. Да, кое что можно найти через Гугл Books, но по мне это проигрыш и по охвату и по скорости. Для художественной литературы это не так актуально, но и флибусту я тоже со временем хочу проиндексировать. Но там все просто Короче, благодарю!
Без полнотекстового поиска - большая часть либгена просто закрыта от пользователей. Вот буквально сегодня нашел пару полезных статей по тессеракту и opencv. Книжка с трудами какой то студенческой конференции. я бы ее ну никак бы не нашел через поиск по имени книги. Скажу, что пока у каждого не будет полнотекстового индекса либгена, то поиск материалов в большинстве закрыт от читателей. Да, кое что можно найти через Гугл Books, но по мне это проигрыш и по охвату и по скорости. Для художественной литературы это не так актуально, но и флибусту я тоже со временем хочу проиндексировать.
Вы совершенно точно выразили мои мысли относительно основной цели данной раздачи - открыть огромнейшую коллекцию для полнотекстового поиска, потому что просто каталога с названиями практически недостаточно.
1Bot очень не хватало того, что вы сделали. Ваш труд несет большую пользу, благодарю.
У меня пара вопросов.
В архивах есть пустые файлы и файлы, заполненные знаками стрелок, очевидно, текст этих книг не удалось прочесть? В некоторых архивах таких книг многовато. Есть ли планы попробовать другие методы распознания текста? Я бы попробовал, но мой старинный компьютер потратит на это необозримое время, да и исходники у меня не поместятся.
Качать не буду (некуда), но "спасибо" поставил:) Круто, огромная работа на самом деле. Это дамп z-library? Они, помнится, делали OCR Либгена для полнотекстового поиска.
Спасибо.
А существует ли возможность скачать оригиналы материалов этого сайта откуда-то на хорошей скорости? Скажем, по годам книг или их размещения? Или хотя бы качать списоком на хорошей скорости? А то сайт отдаёт где-то по 20-60 Кб/сек с постоянными обрывами связи...
82213804Спасибо.
А существует ли возможность скачать оригиналы материалов этого сайта откуда-то на хорошей скорости? Скажем, по годам книг или их размещения? Или хотя бы качать списоком на хорошей скорости? А то сайт отдаёт где-то по 20-60 Кб/сек с постоянными обрывами связи...
Сейчас либген это не один сайт, скорее Library Genesis Group, с большим количеством форков и зеркал. Наилучшая скорость выкачивания по списку будет по протоколу IPFS, кот. поддерживается libgen.rs (is/st), libgen.fun (crypto) и libgen.li (gs/lc) - или торрентами
82213804Спасибо.
А существует ли возможность скачать оригиналы материалов этого сайта откуда-то на хорошей скорости? Скажем, по годам книг или их размещения? Или хотя бы качать списоком на хорошей скорости? А то сайт отдаёт где-то по 20-60 Кб/сек с постоянными обрывами связи...
Сейчас либген это не один сайт, скорее Library Genesis Group, с большим количеством форков и зеркал. Наилучшая скорость выкачивания по списку будет по протоколу IPFS, кот. поддерживается libgen.rs (is/st), libgen.fun (crypto) и libgen.li (gs/lc) - или торрентами
Всегда скачивал с сайта, с архивами пока не разбирался, но у меня есть некоторое количество места (до 750 гигабайт), подскажите что полезнее было бы поставить из архивов Library Genesis (или другие архивы книг в дополнение к этой) на раздачу, вижу на трекере их много разных. Ps. Лучше что бы сами книги не в pdf upd. Пока поставил эту плюс три наименее популярных и начальную из серии (как я понял) оригинальных пронумерованных https://rutr.life/forum/viewtopic.php?t=3825071
Привет! Возможно кому-то будет интересно и вы захотите участвовать в раздаче - мы взяли коллекции LibGen, Sci-Hub, Z-Library, добавили к ним несколько миллионов своих статей и книг за 2021-2023 года, создали для этого поисковую систему, работающую поверх IPFS и выложили все туда же. Кроме того, в базе точно также как и здесь есть извлеченные текстовые слои из миллионов статей и сотен тысяч книг, и по всему этому можно искать. Если кому-то интересно - найдите в Telegram канал nexus_search, в каждом из сообщений есть ссылки куда идти дальше.
79351677Papant
Общий объем: 500 ГБ
Частей: 256392 х 2.00 МБ Попробую перехешировать с большим размером частей 4 МБ или 8 МБ.
Это займет какое-то время...
79351677Papant
Общий объем: 500 ГБ
Частей: 256392 х 2.00 МБ Попробую перехешировать с большим размером частей 4 МБ или 8 МБ.
Это займет какое-то время...
Рукопожатно!
А нет ли более свежей версии? А нащот бесполезности, как тут пишут в треде -- люди, вы оч. ошибаетесь.
Еще и как полезно -- для быстрого поиска.
Вы можете у себя на компе наладить поисковик по libgen не скачивая весь libgen.
Это крайне удобно.
Находите то, что вам нужно, а потом уже качайте pdf, djvu...
Респект тем, кто делает это!