|
abizjanych
Стаж: 13 лет 11 месяцев Сообщений: 20
|
abizjanych ·
22-Дек-15 22:50
(9 лет 2 месяца назад, ред. 23-Дек-15 14:34)
Да, важно чтобы такого хулиганства было поменьше.
Не думал, что столько проблем будет на пустом месте.
А по распознаванию вот несколько статей:
http://habrahabr.ru/search/?q=%5B%D1%80%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0...arget_type=posts
http://habrahabr.ru/post/153413/
http://habrahabr.ru/company/abbyy/blog/225215/
http://habrahabr.ru/company/abbyy/blog/228251/
Заметил отвратительную вещь:
PowerGREP не знает, что буква "ё" входит в кириллический диапазон! Сразу ведь взяло сомнение, что надо доверять всяким там диапазонам типа "[а-я]". А сейчас на всякий случай решил проверить - и точно! Дополнительных 277 сочетаний с "ё" придётся выправлять по базе  Хорошо ещё, что буква редкая. Подстава за подставой с этими вашими базами! Столько времени впустую уходит. А тут ещё предлагают закрытые приложения скачивать, в которых "всё из коробки" работать будет. Ага. Щаз. Там наверно косяки похлеще, чем с простенькой табличкой...
Специально создал новый файл с русским алфавитом и прогнал по нему "[а-я]". Так и есть: "ё" и "Ё" - белые 
Так что указывайте всегда все знаки, а не диапазон. Накрайняк "[а-яё]".
Видимо, автор правило по болгарскому алфавиту составлял. Версия PG - 4.1.0, с рутрекера; проверил и более новые - та же фигня! Может обнаглеть и автору написать? 
Кто-нибудь ещё знал об этом?
|
|
werfag
Стаж: 13 лет 5 месяцев Сообщений: 23
|
werfag ·
23-Дек-15 15:42
(спустя 16 часов, ред. 23-Дек-15 15:42)
abizjanych, про регулярки почитайте, например вот.
Здесь и здесь про ё почему так и она не входит в кириллический диапазон.
скрытый текст
ЀЁЂЃЄЅІЇЈЉЊЋЌЍЎЏАБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдежзийклмнопрстуфхцчшщъыьэюяѐёђѓє
|
|
sh_tk
Стаж: 13 лет 4 месяца Сообщений: 85
|
sh_tk ·
23-Дек-15 17:34
(спустя 1 час 51 мин.)
В Notepad++ кстати тоже «ё» как буква не обрабатывается.
|
|
androska-punk
 Стаж: 16 лет 2 месяца Сообщений: 22
|
androska-punk ·
23-Дек-15 18:05
(спустя 30 мин., ред. 23-Дек-15 18:05)
abizjanych писал(а):
69580309PowerGREP не знает, что буква "ё" входит в кириллический диапазон!
Это такая же старая проблема, как само существование кириллицы на компьютерах. И те кто начинал с черных экранов и комстроки, а не с кнопочек-бантиков, отлично о ней знают.
Поэтому, например, я никогда не использую ё (особенно в базах, тегах, метаданных, названиях [в том числе и файлов] и проч.), кроме случаев, когда без нее никак, как например, в данной фразе. Первое, что я делаю при работе с чужим контентом - заменяю все ё на е, что бы не вспоминать об этой проблеме. Чего и другим советую.
Как следствие, эта буква (не только она, но и некоторые другие нелатинские символы) является головной болью многих текстовых редакторов. Бывают и забавные случаи. Нарпимер, редактор EditPlus при поиске по [а-я] не находит ё, тогда как при поиске по обоим регистрам кириллицы [А-я] находит прописную Ё, но по-прежнему не находит строчную ё.
А вот, например, UltraEdit по выражению [а-я] находит весь строчный кириллический алфавит, включая ё, а по выражению [А-я] - и строчный и прописной алфавит, включая ёЁ.
В случае с данной базой, рекомендую просто заменить все ё на е с учетом регистра и забыть об этой проблеме.
Удивляюсь, почему на форуме нет автоматического фильтра по этой замене, хотя бы в полях названий тем. У русскоязычных сайтов 90-х подобный фильтр был практически неотьемлемой частью. А сейчас похоже бантичная винда развратила не только юзеров, но и сайтостроителей.
|
|
altermen111
Стаж: 14 лет 6 месяцев Сообщений: 2
|
altermen111 ·
25-Дек-15 11:06
(спустя 1 день 17 часов)
Люди, подскажите, что с этим всем делать!? Скачал базу, скачал дистрибутив, запустил файл start и.... открывается Explorer и ничего! ни одного торента нет в списке.
|
|
E-FuRLong
  Стаж: 16 лет 6 месяцев Сообщений: 1185
|
E-FuRLong ·
25-Дек-15 22:31
(спустя 11 часов)
altermen111
Убедитесь, что после запуска файла start.bat, используемого для открытия программы на базе ElasticSearch, открывается консольное окно, на фоне которого выводятся служебные сообщения о настройках подключения к базе ElasticSearch. Одновременно должен запуститься интернет-браузер, назначенный в системе по умолчанию, с формой поиска. Обратите внимание, что программа не совместима с Internet Explorer. На скриншоте приведена форма поиска после авторизации на сайте rutr.life.
|
|
nyusya91
 Стаж: 14 лет 4 месяца Сообщений: 7
|
nyusya91 ·
25-Дек-15 23:00
(спустя 29 мин.)
Объясните как пользоваться базой?
|
|
E-FuRLong
  Стаж: 16 лет 6 месяцев Сообщений: 1185
|
E-FuRLong ·
26-Дек-15 00:02
(спустя 1 час 1 мин.)
nyusya91
Поясните, пожалуйста, при использовании какой программы испытываете трудности? В данном разделе раздаются текстовые файлы со списком незакрытых раздач на дату выгрузки с хешами для создания magnet-ссылки. В целях облегчения задачи для поиска чего-либо также были созданы базы данных и приложения для взаимодействия с пользователем. Эти программы формируют запрос для выборки данных, затем оформляют результат запроса в виде готовой magnet-ссылки для интеграции (внедрения, передачи данных) в Bittorrent-программу. Также в некоторых приложениях предусмотрена возможность добавления информации из текстовых файлов.
|
|
Rousk
 Стаж: 9 лет 6 месяцев Сообщений: 303
|
Rousk ·
26-Дек-15 22:16
(спустя 22 часа)
Хорошо что про линуху не забыли " Дистрибутив Magnetsdb 1.1.3 " а то в начале пробежался и подумал что только одни экзешники
|
|
Данкинг
 Стаж: 16 лет 5 месяцев Сообщений: 183
|
Данкинг ·
27-Дек-15 01:25
(спустя 3 часа)
Я начал все эти CSV перегонять в Firebird. Вот такой я извращенец.
|
|
ronincop
Стаж: 16 лет 1 месяц Сообщений: 9
|
ronincop ·
27-Дек-15 03:00
(спустя 1 час 35 мин., ред. 27-Дек-15 03:00)
Данкинг писал(а):
69603795Я начал все эти CSV перегонять в Firebird. Вот такой я извращенец.
https://rutr.life/forum/viewtopic.php?p=69453200#69453200
https://rutr.life/forum/viewtopic.php?p=69453572#69453572
https://rutr.life/forum/viewtopic.php?p=69458800#69458800
База на движке Firebird.
Rousk писал(а):
69602655Хорошо что про линуху не забыли " Дистрибутив Magnetsdb 1.1.3 "
https://github.com/ArtNazarov/magnetsdb/releases
Теущая версия magnetsdb 1.1.8.6.8
|
|
belabacsi
 Стаж: 12 лет 6 месяцев Сообщений: 833
|
belabacsi ·
27-Дек-15 15:08
(спустя 12 часов, ред. 27-Дек-15 22:55)
Простите, если не по теме, но не нашёл другое место - очень трудно так ползоваться страницей. Уже 2-3 дня страницы появляются плохо, с плохим CSS. Это из-за блокировки? Или атака? Есть решение? Пока, если очень нужно, скачаю страницу, CSS заменяю на сохранённый старый, хороший, и смотрю страницу сохранённую. Но это, естественно, очень неудобно. PS
ronincop
Спасибо - там сразу и ответ нашёл (стёр все rutracker cookies).
|
|
ronincop
Стаж: 16 лет 1 месяц Сообщений: 9
|
ronincop ·
27-Дек-15 15:44
(спустя 35 мин.)
belabacsi
С подобными вопросами вам сюда
https://rutr.life/forum/viewforum.php?f=2
|
|
nyusya91
 Стаж: 14 лет 4 месяца Сообщений: 7
|
nyusya91 ·
27-Дек-15 17:31
(спустя 1 час 46 мин.)
Объясните пошагово как из базы загружать торрент трекеры и как узнать какой это торрент трекер.
|
|
ronincop
Стаж: 16 лет 1 месяц Сообщений: 9
|
ronincop ·
27-Дек-15 20:20
(спустя 2 часа 48 мин.)
nyusya91 писал(а):
69607724Объясните пошагово как из базы загружать торрент трекеры и как узнать какой это торрент трекер.
В оффлайн режиме никак. Можете только сами добавить все возможные одновременно в любую раздачу.
В онлайн режиме смысл в использовании базы практически отсутствует, за исключением закрытых по тем или иным причинам раздач. Но в последнем случае торенты не зарегистрированы на трекере.
|
|
Kvach-lukich
 Стаж: 14 лет 7 месяцев Сообщений: 201
|
Kvach-lukich ·
27-Дек-15 21:16
(спустя 55 мин., ред. 27-Дек-15 21:16)
Почему нету полного описания формата?
максимальные длины значений каждого поля?
Чем отличаются директории ? почему если парсить все файлы из всех директорий хеши (и вообще строки целиком) повторяются раз 6~8 .
По факту при перегоне в MySQL база из 5 гигов стала ~500 метров 1797963 уникальных записей.
В самой базе в текстовых полях встречаются html сущности & q u o t ; (и прочие) парсеры реагируют на символ ; как разделитель столбцов - чо за бред... табом разделилибы столбцы , нафига такая огромная база с повторами (вообще не понимаю) Правильно ли я понял что нужно самую последнюю директорию парсить? или всётаки как я сделал - поле хеш уникальное и парсить все файлы, просто повторы не вставятся в бд ? Если кому пригодится
название категории - 80 символов
название торрента - 250 символов
хеш - 40 символов п.с. кто сам парсит делайте разделитель полей ";" и отрезайте первый " и последний " , если обрабатывать построчно и обратно преобразовывать Html сущности - не получается потому что там есть совсем невменяемые символы типа умляуты с О и ещё всякие ужасы, также в тексте может встретиться просто символ ;
|
|
ronincop
Стаж: 16 лет 1 месяц Сообщений: 9
|
ronincop ·
27-Дек-15 22:20
(спустя 1 час 4 мин., ред. 27-Дек-15 22:20)
Kvach-lukich писал(а):
69609196Почему нету полного описания формата?
http://mastpoint.curzonnassau.com/csv-1203/
http://www.rfc-editor.org/rfc/rfc4180.txt
Kvach-lukich писал(а):
69609196максимальные длины значений каждого поля?
При импорте во многие базы они определяются автоматически без участия пользвателя.
Kvach-lukich писал(а):
69609196Чем отличаются директории ?
Датами дампов (снимков состояния) списка раздач трекера.
Kvach-lukich писал(а):
69609196почему если парсить все файлы из всех директорий хеши (и вообще строки целиком) повторяются раз 6~8
Потому что раздачи существовали дольше, чем промежуток времени между дампами. Многие раздачи существовали на момент первого дампа и существуют и поныне - они соответственно встречаются из каждом дампе.
Kvach-lukich писал(а):
69609196В самой базе в текстовых полях встречаются html сущности & q u o t ; (и прочие) парсеры реагируют на символ ; как разделитель столбцов - чо за бред... табом разделилибы столбцы , нафига такая огромная база с повторами (вообще не понимаю)
Поля отделяются не только разделителями (;), но и ограничителями строк, в роли которых выступают двойные прямые кавычки, поэтому проблем с парсингом строк нет, то есть вами описанная проблема - надуманная.
Kvach-lukich писал(а):
69609196Правильно ли я понял что нужно самую последнюю директорию парсить?
В зависимости от задачи, которую вы преследуете.
В последнем дампе не содержатся существовавшие ранее, но закрытые к моменту снятия дампа раздачи. То есть, последний дамп - список зарегистрированных на трекере раздач на дату дампа.
Kvach-lukich писал(а):
69609196или всётаки как я сделал - поле хеш уникальное и парсить все файлы, просто повторы не вставятся в бд ?
В полученной вам базе уникальных хешей часть раздач окажется незарегистрированными на данном трекере.
|
|
Kvach-lukich
 Стаж: 14 лет 7 месяцев Сообщений: 201
|
Kvach-lukich ·
27-Дек-15 22:21
(спустя 37 сек., ред. 28-Дек-15 01:50)
Спасибо всё понял
Качать и парсить есть смысл только последнюю директорию
Искать незарегистрированные торренты я совершенно не хочу )))
Воть
https://yadi.sk/d/nKuf47LJmXhDg
скачать архив 230 мег. (с базой)
Установить vc_redist.x86.exe имеено x86 не зависимо от разрядности винды
Распаковать архив, запустить UniController.exe
после запуска сервисов браузер сам откроется на нужной странице - это будет локальная версия rutracker (будет работать при недоступном сайте)
Слева будут готовые магнитики - боц и качай...
Для обновления базы нужно в файле www/loader.php
во второй строке указать путь до конкретной директории с файлами допустим $path='A:\rutracker-torrents\20151129';
и запустить loader.cmd из директории где лежит сам UniController
Скорость работы зависит от вашего компьютера (в основном от скорости жёсткого диска)
the end.
|
|
lapopator
Стаж: 9 лет 2 месяца Сообщений: 5
|
lapopator ·
28-Дек-15 10:25
(спустя 12 часов)
Написал мануал по созданию сайта на базе этой БД: http://habrahabr.ru/post/273777/
Сам результат: http://rutracker.online/
|
|
vinnation
Стаж: 12 лет Сообщений: 1755
|
vinnation ·
28-Дек-15 10:32
(спустя 6 мин., ред. 28-Дек-15 10:32)
Объясните , плз, о гуру вот что. Фильма Выживший не отражается ни в разделе фильмов 2015 года, но даже не отражается в личных комментариях. Есть ли где-то перечень подобных фильмов которые фильмы - призраки
|
|
Rousk
 Стаж: 9 лет 6 месяцев Сообщений: 303
|
Rousk ·
28-Дек-15 10:45
(спустя 13 мин.)
lapopator
Знатная работа, есть у меня вопрос, вот вы привели
посмотрел, проверил, понравилось, так вот этот результат ваш на постоянной основе или как демонстрация а потом уберете ?
если на постоянной основе хотел занести в избранное, правда на странице присутствует отслеживание, с какой целью ?
|
|
Guest_2015
Стаж: 9 лет 2 месяца Сообщений: 22
|
Guest_2015 ·
28-Дек-15 12:13
(спустя 1 час 27 мин., ред. 23-Янв-16 16:47)
|
|
lapopator
Стаж: 9 лет 2 месяца Сообщений: 5
|
lapopator ·
28-Дек-15 13:15
(спустя 1 час 2 мин.)
Rousk писал(а):
69612156lapopator
Знатная работа, есть у меня вопрос, вот вы привели
посмотрел, проверил, понравилось, так вот этот результат ваш на постоянной основе или как демонстрация а потом уберете ?
если на постоянной основе хотел занести в избранное, правда на странице присутствует отслеживание, с какой целью ?
Это не отслеживание, а статистика LA. Повесил её для того что бы посмотреть, интересно ли это вообще людям. Оказывается интересно, так что сайт будет работать на постоянной основе. Скоро будет небольшое улучшение.
|
|
Rousk
 Стаж: 9 лет 6 месяцев Сообщений: 303
|
Rousk ·
28-Дек-15 15:02
(спустя 1 час 46 мин.)
lapopator
Ну я еще тогда забрал, на счет статистики то думаю волноваться не стоит, хороший товар в рекламе не нуждается, буду давать ссыль своим кому надо будет. Еще разр благодарю за вами проделанную работу.
|
|
Kvach-lukich
 Стаж: 14 лет 7 месяцев Сообщений: 201
|
Kvach-lukich ·
28-Дек-15 16:37
(спустя 1 час 35 мин., ред. 28-Дек-15 16:37)
Выводит всегда не больше 50 записей, а количество найденных зашкаливает!
например по запросу in flames Всего найдено: 48530 - на рутрекере другое количество (у меня тоже) 
Не ненастроенный сфинкс такой сфинкс
|
|
lapopator
Стаж: 9 лет 2 месяца Сообщений: 5
|
lapopator ·
28-Дек-15 21:27
(спустя 4 часа)
Все буду постепенно настраивать. Спасибо за отзывы
|
|
Kvach-lukich
 Стаж: 14 лет 7 месяцев Сообщений: 201
|
Kvach-lukich ·
29-Дек-15 15:55
(спустя 18 часов)
доделал теперь по разделам разбит поиск и вообще всё удобно
выкладываю без базы https://yadi.sk/d/7i_7ysLsmaDmb
Как включать и парсить базу написано тут
|
|
ekaterinaqazwsx
 Стаж: 16 лет 1 месяц Сообщений: 7
|
ekaterinaqazwsx ·
29-Дек-15 19:43
(спустя 3 часа)
Помогите!
Смотрю через ехель, сделала все как написано (Candagar2010)
Неверно указан путь. Укажите правильный. Что делать?
|
|
dual-beretas
 Стаж: 15 лет 10 месяцев Сообщений: 1075
|
dual-beretas ·
29-Дек-15 23:09
(спустя 3 часа, ред. 29-Дек-15 23:09)
Нашёл один ньанс с магнет ссылками на трекере: те торренты которые были повторно зарегистрированы после создания раздачи (возможно через большое время, несколько лет) ни в какую торрент клиент не хочет находить по magnet-ссылке. Вот примеры: https://rutr.life/forum/viewtopic.php?t=574942
https://rutr.life/forum/viewtopic.php?t=566568
Первая у меня висит на стадии "загрузка метаданных" уже вторые сутки, на раздаче несколько сидов. (вторую удалил)
После скармливания клиенту торрент-файла от соответствующей раздачи загрузка началачь сразу же.
Дата создания тем - 07-08 годы, в то время как торренты зарегистрированы в '10 г. На других раздачах худо-бедно находит, а на этих - нет. Возможно это совпадение, не знаю.
С чем это может быть связанно?
|
|
Guest_2015
Стаж: 9 лет 2 месяца Сообщений: 22
|
Guest_2015 ·
30-Дек-15 01:13
(спустя 2 часа 3 мин., ред. 04-Мар-17 10:07)
|
|
|