На самом деле это единственный раздел про unix на этом форуме
Модераторы: /dev/random, Модераторы разделов
-
altblog
- Сообщения: 4
Сообщение
altblog »
Здравствуйте! Есть скрипт (mercury parser) который вытаскивает html-код указанной страницы в интернете. Если я при подключении к SSH пишу:
Код: Выделить всё
mercury-parser https://fossbytes.com/android-custom-roms/ --extend-list h3="h3"
То он не правильно считает количества тега h3 на странице. Правильней было бы использовать:
Код: Выделить всё
mercury-parser https://fossbytes.com/android-custom-roms/ --extend-list h3="<h3>"
Но тогда он возвращает значение null, т.е. не находит таких тегов. Я пробовал экранировать
, но тогда скрипт возвращает:
Есть решение у этой проблемы?
-
serzh-z
- Бывший модератор
- Сообщения: 8259
- Статус: Маньяк
- ОС: Arch, Fedora, Ubuntu
Сообщение
serzh-z »
altblog писал: ↑04.09.2019 18:32
Правильней было бы использовать:
Правильнее использовать CSS-селекторы.
-
altblog
- Сообщения: 4
Сообщение
altblog »
Сайты всегда разные и код у них различный, также как и количество h3. Возможно ли написать универсальный селектор для поиска <h3>?
-
serzh-z
- Бывший модератор
- Сообщения: 8259
- Статус: Маньяк
- ОС: Arch, Fedora, Ubuntu
Сообщение
serzh-z »
altblog писал: ↑05.09.2019 09:48
Возможно ли написать универсальный селектор для поиска <h3>?
h3 и есть такой, он должен выбирать все H3.
Из написанного я не понимаю, чего именно вы хотите от mercury-parser. Как минимум, нужно установить и посмотреть на него.
-
altblog
- Сообщения: 4
Сообщение
altblog »
У всех остальных h3 есть class=. Но такие h3 не нужны в выборке. Нужны только те, которые в <h3> без классов и других приблуд.
-
altblog
- Сообщения: 4
Сообщение
altblog »
Решение:
h3="h3:not([class])"