Предлагаю скрипт для копирования книг из системы Вивальди / Vivaldi

Страницы:  1
Ответить
 

truf666

Top Seed 03* 160r

Стаж: 16 лет 4 месяца

Сообщений: 869

truf666 · 01-Апр-21 18:53 (3 года 7 месяцев назад, ред. 25-Июл-22 14:26)

Наколхозил по просьбе трудящихся скрипт для сохранения на диск изображений страниц книги, доступной для просмотра через систему Вивальди. По словам разработчиков, она применяется в
Цитата:
Российская национальная библиотека
Удмуртский государственный университет
Псковская областная универсальная научная библиотека
ЦГПБ имени А.П.Чехова, г.Таганрог
Российская таможенная академия
Библиотека по естественным наукам (БЕН) РАН
Российская государственная библиотека
Яндексом нашлись url'ы: vivaldi.nlr.ru, vivaldi.pskovbook.ru, vivaldi.dspl.ru, vivaldi.bellib.ru, vivaldi.do.mrsu.ru, vivaldi.taglib-collection.ru
Тестировалось на Псковской библиотеке и браузере FireFox 87.0.
СХЕМА:
1. Открываем страницу просмотра книги в браузере. Нажимаем Ctrl+Shift+K и в FireFox появляется консоль web страницы.
2. Вводим (копируем и вставляем в консоль) следующий код:
Код:

var saveByteArray = (function () {
    var a = document.createElement("a");
    document.body.appendChild(a);
    a.style = "display: none";
    return function (data, name) {
        var blob = new Blob(data, {type: "octet/stream"}),
            url = window.URL.createObjectURL(blob);
        a.href = url;
        a.download = name;
        a.click();
        window.URL.revokeObjectURL(url);
    };
}());
function _base64ToArrayBuffer(base64) {
    var binary_string = window.atob(base64);
    var len = binary_string.length;
    var bytes = new Uint8Array(len);
    for (var i = 0; i < len; i++) {
        bytes[i] = binary_string.charCodeAt(i);
    }
    return bytes.buffer;
}
function dump_book(cnt, dpi) {
    var ebook_url = "";
    if (document.getElementsByTagName("app-root").length == 0) {
       ebook_url = document.getElementsByClassName("page-viewer")[0].getAttribute("data-document-url");
    } else {
       ebook_url = document.getElementsByTagName("app-root")[0].getAttribute("data-url");
    }
    var i;
    for (i = 1; i <= cnt; i++) {
        var url = ebook_url + "/page/" + i + "/image/" + dpi + "/base64";
        var pg = document.createElement("pg"+i);
        document.body.appendChild(pg);
        pg.style = "display: none";
        var s = i+".jpg";
        while (s.length < 10) s = "0" + s;
        pg.dataset["fname"] = s;
        $(pg).load( url , function( response, status, xhr ) {
              var fname = this.dataset["fname"];
              saveByteArray([_base64ToArrayBuffer(response)], fname);
        });
    }
}
Нажимаем Enter. В документе создадутся соответствующие функции.
3. Вводим и запускаем:
Код:
dump_book(1, 300);
В результате браузер вам предложит сохранить файл 000001.jpg, содержащий 1-ю страницу книги в разрешении 300 dpi. Сохраните, но включите при этом галочку "сохранять файлы подобного типа автоматически". Иначе браузер будет спрашивать вас о каждой странице в книге. Всё, 000001.jpg больше не нужен и его можно удалить.
4. Вводим и запускаем:
Код:
var total_pages = $("#PageCountInput").val();
dump_book(total_pages, 300);
Этот код автоматически определит кол-во страниц в книге и запустит их скачивание.
P.S. В примере скачиваются страницы в разрешении 300 dpi. На самом деле сервер отдает страницы в любом разрешении, сжимает или upscale'ит до нужного размера. В каком разрешении оригиналы хранятся на серверах - неизвестно. Предлагаю самим поиграть с dpi на шаге 3 и определить то значение, которое возвращает устраивающее вас качество. Думаю, имеет смысл пробовать 200, 300, 400, 600, 900, 1200.
[Профиль]  [ЛС] 

damir_shamardanov

Старожил

Стаж: 15 лет 11 месяцев

Сообщений: 126

damir_shamardanov · 22-Май-22 10:46 (спустя 1 год 1 месяц)

После
dump_book(1, 708);
В книге 708 страниц
Выдаёт ошибку
Uncaught ReferenceError: CurrentPageImage is not defined
dump_book debugger eval code:26
<anonymous> debugger eval code:1
[Профиль]  [ЛС] 

truf666

Top Seed 03* 160r

Стаж: 16 лет 4 месяца

Сообщений: 869

truf666 · 22-Май-22 12:52 (спустя 2 часа 5 мин., ред. 22-Май-22 12:52)

Ну, правильным было бы вызывать
Код:
dump_book(708, 300);
т.к. 300 тут - dpi страницы, а 708 - номер последней страницы. Но, действительно выдает "Uncaught ReferenceError: CurrentPageImage is not defined". Что то они там поменяли и теперь автоматическое получение url текущей книги не работает. Разбираться пока времени нет, поэтому можно скопировать скрипт и заменить в нем строчку
Код:
    var ebook_url = CurrentPageImage.dataset["documentUrl"];
например на
Код:
    var ebook_url = "https://vivaldi.nlr.ru/bv000070150";
тем самым жестко захардкодив url книги.
Вставить скрипт в консоль Firefox, и дальше по инструкции. Лучше предварительно нажать F5 и обновить страницу, чтобы старый скрипт с новым не конфликтовал. Перезагрузка страницы стирает все локально внесенные пользователем доработки.
Еще из неприятных изменений - вивальди теперь требует логина. Я залогинился через Яндекс.id и мне сообщили, что для просмотра доступно только 16% книги. Собственно скрипт отработал и скачал первые 113 страниц из 708. Остальные вернулись пустыми. И если автодетект url текущей книги я еще смогу поправить, то вот обойти такое ограничение - уже вряд ли. Т.е. скрипт не может скачать то, к чему у вас нет прав, он лишь автоматизирует сохранение на компьютер того, к чему у вас права есть.
UPD:
Ok, подобрал выражение для получения нужного url автоматом:
Код:
var ebook_url = document.getElementsByTagName("app-root")[0].getAttribute("data-url");
Обновил скрипт.
[Профиль]  [ЛС] 

damir_shamardanov

Старожил

Стаж: 15 лет 11 месяцев

Сообщений: 126

damir_shamardanov · 22-Май-22 15:55 (спустя 3 часа)

truf666
А с библиотекой РГО Вы так же сможете разобраться?
Тема в соседнем топике https://rutr.life/forum/viewtopic.php?t=6034389
[Профиль]  [ЛС] 

Julius Claudius

Стаж: 3 года 4 месяца

Сообщений: 75


Julius Claudius · 04-Июл-22 19:46 (спустя 1 месяц 13 дней)


В эту тему были перенесены сообщения [1 шт.] из Книги. История. Ищем / Предлагаем
mpv777


Я попробовал сделать по инструкции по ссылке , но после того как я ввёл код в консоль мне выдало syntax error , потому что я не ввёл точку с запятьй . Я полностью скопировал большой код и не понял . где ещё не хватает точки с запятой . Я пробовал это сделать на книге Базилевич Почта в россии в XIX веке в Российской национальной библиотеке в разделе "Оцифровано по рекомендациям № 47. Это я что-то сделал неправильно или библиотека что-то изменила ?
[Профиль]  [ЛС] 

truf666

Top Seed 03* 160r

Стаж: 16 лет 4 месяца

Сообщений: 869

truf666 · 04-Июл-22 22:15 (спустя 2 часа 29 мин.)

Julius Claudius
Можно ссылку на книгу, что у вас за браузер? И залейте текст того что постите в консоль на pastebin.com и тоже пришлите ссылку.
[Профиль]  [ЛС] 

Steaman

Стаж: 15 лет

Сообщений: 2

Steaman · 25-Июл-22 01:06 (спустя 20 дней, ред. 25-Июл-22 01:06)

truf666 писал(а):
83332957Julius Claudius
Можно ссылку на книгу, что у вас за браузер? И залейте текст того что постите в консоль на pastebin.com и тоже пришлите ссылку.
Добрый день! Спасибо за скрипт! Только у меня проблемка -- пытаюсь скачать вот эту книгу https://vivaldi.pskovbook.ru/denegnie-otcheti-ostrovuezdzemupravi-za-1901g.pdf/view
После ввода dump_book(1, 300); консоль выдаёт вот это:
Uncaught TypeError: document.getElementsByTagName(...)[0] is undefined
dump_book debugger eval code:26
<anonymous> debugger eval code:1
Пы.Сы. Если хардкодить ссылку на книгу как вы выше писали, то всё работает!
[Профиль]  [ЛС] 

truf666

Top Seed 03* 160r

Стаж: 16 лет 4 месяца

Сообщений: 869

truf666 · 25-Июл-22 14:30 (спустя 13 часов)

Steaman писал(а):
83413599
truf666 писал(а):
83332957Julius Claudius
Можно ссылку на книгу, что у вас за браузер? И залейте текст того что постите в консоль на pastebin.com и тоже пришлите ссылку.
Добрый день! Спасибо за скрипт! Только у меня проблемка -- пытаюсь скачать вот эту книгу https://vivaldi.pskovbook.ru/denegnie-otcheti-ostrovuezdzemupravi-za-1901g.pdf/view
После ввода dump_book(1, 300); консоль выдаёт вот это:
Uncaught TypeError: document.getElementsByTagName(...)[0] is undefined
dump_book debugger eval code:26
<anonymous> debugger eval code:1
Пы.Сы. Если хардкодить ссылку на книгу как вы выше писали, то всё работает!
Ok, значит у всех библиотек стоят разные версии этого Vivaldi, или разные его настройки.
Обновил скрипт. Теперь работает и на vivaldi.nlr.ru и на vivaldi.pskovbook.ru. Но уже вижу, что на vivaldi.dspl.ru, к примеру, не работает. Буду добавлять поддержку остальных библиотек по мере появления заинтересованных или когда заняться будет нечем.
[Профиль]  [ЛС] 

vtijr

Top Seed 05* 640r

Стаж: 14 лет 10 месяцев

Сообщений: 1929

vtijr · 06-Авг-22 13:20 (спустя 11 дней)

Добрый день, уважаемый truf666. А отсюда http://elib.biblioatom.ru/ не получится у Вас сделать скрипт?
[Профиль]  [ЛС] 

truf666

Top Seed 03* 160r

Стаж: 16 лет 4 месяца

Сообщений: 869

truf666 · 06-Авг-22 22:44 (спустя 9 часов)

vtijr писал(а):
83462854Добрый день, уважаемый truf666. А отсюда http://elib.biblioatom.ru/ не получится у Вас сделать скрипт?
Попробуйте вот этот:
скрытый текст
Код:

function DownloadFile(url, fileName) {
            //Create XMLHTTP Request.
            var req = new XMLHttpRequest();
            req.open("GET", url, true);
            req.responseType = "blob";
            req.onload = function () {
                //Convert the Byte Data to BLOB object.
                var blob = new Blob([req.response], { type: "application/octetstream" });
                //Check the Browser type and download the File.
                var isIE = false || !!document.documentMode;
                if (isIE) {
                    window.navigator.msSaveBlob(blob, fileName);
                } else {
                    var url = window.URL || window.webkitURL;
                    link = url.createObjectURL(blob);
                    var a = document.createElement("a");
                    a.setAttribute("download", fileName);
                    a.setAttribute("href", link);
                    document.body.appendChild(a);
                    a.click();
                    document.body.removeChild(a);
                }
            };
            req.send();
};
function dump_book(cnt)
{
var mySelGotoPage = document.id("gotopage");
var myOptsGotoPage = mySelGotoPage.options;
if (cnt <= 0 || cnt > myOptsGotoPage.length) {
    cnt = myOptsGotoPage.length;
}
    var i;
    for (i = 0; i < cnt; i++) {
        var xfilename = myOptsGotoPage[i].getAttribute("xfilename");
        var xw = myOptsGotoPage[i].getAttribute("xw");
        var xh = myOptsGotoPage[i].getAttribute("xh");
        var url = "http://elib.biblioatom.ru/textpage/image/?bookhl=&z=0&h=" + xh + "&w=" + xw + "&book=" + encodeURIComponent(szBookURL) + "&page=" + xfilename;
        DownloadFile(url, xfilename + ".jpg");
    }
}
[Профиль]  [ЛС] 

vtijr

Top Seed 05* 640r

Стаж: 14 лет 10 месяцев

Сообщений: 1929

vtijr · 07-Авг-22 10:23 (спустя 11 часов)

truf666
Низкий поклон Вам, сработало!!!
[Профиль]  [ЛС] 

vtijr

Top Seed 05* 640r

Стаж: 14 лет 10 месяцев

Сообщений: 1929

vtijr · 08-Фев-23 21:23 (спустя 6 месяцев)

Цитата:
81201158Предлагаю скрипт для копирования книг из системы Вивальди / Vivaldi
К сожалению, на "Библиотека по естественным наукам (БЕН) РАН" не работает, или у меня не работает
[Профиль]  [ЛС] 

truf666

Top Seed 03* 160r

Стаж: 16 лет 4 месяца

Сообщений: 869

truf666 · 09-Фев-23 02:37 (спустя 5 часов)

vtijr писал(а):
84270690
Цитата:
81201158Предлагаю скрипт для копирования книг из системы Вивальди / Vivaldi
К сожалению, на "Библиотека по естественным наукам (БЕН) РАН" не работает, или у меня не работает
Бросьте в ЛС ссылку на неработающую книгу. Может обновили систему.
[Профиль]  [ЛС] 

damir_shamardanov

Старожил

Стаж: 15 лет 11 месяцев

Сообщений: 126

damir_shamardanov · 19-Фев-23 20:58 (спустя 10 дней)

Цитата:
81201158Предлагаю скрипт для копирования книг из системы Вивальди / Vivaldi
Использование метода drawWindow из CanvasRenderingContext2D является устаревшим. Для его замены используйте метод tabs.captureTab из API расширений https://developer.mozilla.org/docs/Mozilla/Add-ons/WebExtensions/API/tabs/captureTab
[Профиль]  [ЛС] 
 
Ответить
Loading...
Error