Не работает экранирование

altblog · Сообщение **altblog** » 04.09.2019 18:32

Здравствуйте! Есть скрипт (mercury parser) который вытаскивает html-код указанной страницы в интернете. Если я при подключении к SSH пишу:

Код: Выделить всё

mercury-parser https://fossbytes.com/android-custom-roms/ --extend-list h3="h3"

То он не правильно считает количества тега h3 на странице. Правильней было бы использовать:

Код: Выделить всё

mercury-parser https://fossbytes.com/android-custom-roms/ --extend-list h3="<h3>"

Но тогда он возвращает значение null, т.е. не находит таких тегов. Я пробовал экранировать

Код: Выделить всё

h3="\<h3\>"

, но тогда скрипт возвращает:

Код: Выделить всё

"h2": [
    "\\",
    ""
  ]

Есть решение у этой проблемы?

Сообщение **serzh-z** » 04.09.2019 22:47

altblog писал: ↑
04.09.2019 18:32
Правильней было бы использовать:

Правильнее использовать CSS-селекторы.

altblog · Сообщение **altblog** » 05.09.2019 09:48

Сайты всегда разные и код у них различный, также как и количество h3. Возможно ли написать универсальный селектор для поиска <h3>?

Сообщение **serzh-z** » 05.09.2019 10:39

altblog писал: ↑
05.09.2019 09:48
Возможно ли написать универсальный селектор для поиска <h3>?

h3 и есть такой, он должен выбирать все H3.

Из написанного я не понимаю, чего именно вы хотите от mercury-parser. Как минимум, нужно установить и посмотреть на него.

altblog · Сообщение **altblog** » 05.09.2019 11:59

У всех остальных h3 есть class=. Но такие h3 не нужны в выборке. Нужны только те, которые в <h3> без классов и других приблуд.

altblog · Сообщение **altblog** » 05.09.2019 17:35

Решение:
h3="h3:not([class])"

unixforum.org

Не работает экранирование

Не работает экранирование

Re: Не работает экранирование

Re: Не работает экранирование

Re: Не работает экранирование

Re: Не работает экранирование

Re: Не работает экранирование