Вырезать html-форматирование из документа

На самом деле это единственный раздел про unix на этом форуме

Модераторы: /dev/random, Модераторы разделов

NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Вырезать html-форматирование из документа

Сообщение NickLion »

drBatty писал(а):
26.05.2010 08:04
К тому-же я не знаю, зачем нужны тут PCRE, ИМХО вполне возможно и без них.

Пример:

Код: Выделить всё

<html>
<body>
<!-- some unnececcary text
<b>Old Header</b>
-->
<b>TrueЪ</b> text
<!--script>
function a(){}
</script-->
</body>
</html>

PS хотя надо подумать, если сначала вычленить коменты, а затем уже теги... Может и получится.

drBatty писал(а):
26.05.2010 08:04
Кстати, разве в HTML допустимо использовать ">" вроде нельзя даже в кавычках.

Допустимо. Вот "<" нельзя, а ">" - даже в XML допустимо.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Вырезать html-форматирование из документа

Сообщение drBatty »

NickLion писал(а):
26.05.2010 08:41
Пример:

в смысле - вложенные теги?
их тоже легко устранить, в цикле, изнутри:

Код: Выделить всё

:l
s/<[^>]*>/ /
t l

из

<!-- some unnececcary text<b>Old Header</b>-->

получится
<!-- some unnececcary text Old Header</b>-->
<!-- some unnececcary text Old Header -->
пусто... точнее 1 пробел.

закавыченные можно тоже поменять.
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5403
ОС: Gentoo

Re: Вырезать html-форматирование из документа

Сообщение /dev/random »

drBatty, sed и re - это немножко разные вещи. Никаких циклов в re нет. А sed вполне turing-complete, на нём при желании что угодно можно написать. Правда, вопрос, сколько это займёт места и времени...
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Вырезать html-форматирование из документа

Сообщение NickLion »

/dev/random писал(а):
27.05.2010 21:29
А sed вполне turing-complete, на нём при желании что угодно можно написать

Например, бесконечный цикл :) А вот в RegExp такого не получится сделать (PCRE - уже не regular).
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Вырезать html-форматирование из документа

Сообщение drBatty »

/dev/random писал(а):
27.05.2010 21:29
sed и re - это немножко разные вещи. Никаких циклов в re нет.

согласен. я просто говорил о том, что sed и без PCRE отлично справляется с HTML'ом. В отличие от egrep и даже ИМХО от sgrep.
NickLion писал(а):
27.05.2010 22:55
Например, бесконечный цикл

Код: Выделить всё

$ sed ':b;bb'
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
sash-kan
Администратор
Сообщения: 13939
Статус: oel ngati kameie
ОС: GNU

Re: Вырезать html-форматирование из документа

Сообщение sash-kan »

drBatty писал(а):
28.05.2010 01:40
sed и без PCRE отлично справляется с HTML'ом
такой классический пример уже приводили:

Код: Выделить всё

<img src='blabla' alt='--"a>b"--'>
?
Писать безграмотно - значит посягать на время людей, к которым мы адресуемся, а потому совершенно недопустимо в правильно организованном обществе. © Щерба Л. В., 1957
при сбоях форума см.блог
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Вырезать html-форматирование из документа

Сообщение t.t »

sash-kan писал(а):
28.05.2010 03:34
drBatty писал(а):
28.05.2010 01:40
sed и без PCRE отлично справляется с HTML'ом
такой классический пример уже приводили:

Код: Выделить всё

<img src='blabla' alt='--"a>b"--'>
?
Тут, собвственное, в чём вопрос... Если нужно распрсить какой-то конкретный набор страниц, то sed таки да отлично справится. Впрочем, как и sgrep, и pcregrep. А если ставить задачу парсинга _любого_ html-я, в том числе и любого невалидного (но понимаемого браузерами), то это в каждом из этих случаев задачка та ещё. Как минимум потому, что все варианты, которые теоретически нужно перебрать, заранее никому даже в голову не придут.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Вырезать html-форматирование из документа

Сообщение drBatty »

sash-kan писал(а):
28.05.2010 03:34
такой классический пример уже приводили:

Код: Выделить всё

<img src='blabla' alt='--"a>b"--'>

и вы думаете, что я не напишу скрипт на sed который такое вырезает? легко!
и ещё - выше приведённый скрипт включает обработку ошибок, и на вашем примере он распечатает эту вашу кривую строку, и вернёт код 77. И если такая строка всё-же считается "прямой", то я добавлю её обработку. Никакой "кривизны", а уж тем более опасности тут нет. В страничках я такого пока не нашёл, а как найдётся - исправлю.

А ошибки нужно обрабатывать в ЛЮБОЙ программе. Даже на sed... ИМХО программа, которая при некорректном входном потоке некорректно себя ведёт == быдлокод.

t.t писал(а):
28.05.2010 08:55
А если ставить задачу парсинга _любого_ html-я, в том числе и любого невалидного (но понимаемого браузерами), то это в каждом из этих случаев задачка та ещё.

мне это не нужно. мне достаточно завершения с ошибкой в некорректном HTML. А задача пропарсить ВСЁ, что понимают ВСЕ браузеры - не имеет решения.
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
sash-kan
Администратор
Сообщения: 13939
Статус: oel ngati kameie
ОС: GNU

Re: Вырезать html-форматирование из документа

Сообщение sash-kan »

drBatty писал(а):
28.05.2010 12:31
А задача пропарсить ВСЁ, что понимают ВСЕ браузеры - не имеет решения.
ну, в принципе более или менее имеет. библиотечки всякие не зря народ пишет.
Писать безграмотно - значит посягать на время людей, к которым мы адресуемся, а потому совершенно недопустимо в правильно организованном обществе. © Щерба Л. В., 1957
при сбоях форума см.блог
Спасибо сказали:
Аватара пользователя
Davinel
Сообщения: 481
ОС: Ubuntu

Re: Вырезать html-форматирование из документа

Сообщение Davinel »

drBatty писал(а):
28.05.2010 12:31
и вы думаете, что я не напишу скрипт на sed который такое вырезает? легко!

Да без проблем. А завтра ваш скрипт скушает файлик в котором будет какая то другая странная конструкция. А послезавтра - еще одна. И т.д. Будете фактически для каждого html файла свой обработчик писать.
Собственно в таком случае достаточного обычного regexp, вырезать какой то конкретный нужный кусок текста из html - он прекрасно справится.

Только вопрос ведь в другом был.

drBatty писал(а):
28.05.2010 12:31
мне это не нужно. мне достаточно завершения с ошибкой в некорректном HTML. А задача пропарсить ВСЁ, что понимают ВСЕ браузеры - не имеет решения.

Почему? Имеет.. Тот же w3m возвращает вполне нормальный результат.
Для питона видел модули с подходящим функционалом. Наверняка и для других языков что такое найдется.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Вырезать html-форматирование из документа

Сообщение drBatty »

Davinel писал(а):
29.05.2010 06:15
Да без проблем. А завтра ваш скрипт скушает файлик в котором будет какая то другая странная конструкция. А послезавтра - еще одна. И т.д.

это теория. на практике - не так. HTML сейчас вообще везде всякими php скриптами "пишется", потому они все из одного (ладно, из десяти) инкубатора(ов).
Davinel писал(а):
29.05.2010 06:15
Собственно в таком случае достаточного обычного regexp, вырезать какой то конкретный нужный кусок текста из html - он прекрасно справится.

нет. тут были примеры, для которых regexp не годится.
Davinel писал(а):
29.05.2010 06:15
Почему? Имеет.. Тот же w3m возвращает вполне нормальный результат.
Для питона видел модули с подходящим функционалом. Наверняка и для других языков что такое найдется

вот только для конкретной задачи данные модули мне не подошли - либо они были слишком примитивные, и не делали что-то нужное мне, либо они были слишком навороченными, и не было смысла в них ковыряться. набрасать за 10 минут sed скрипт в большинстве случаев куда как проще.

кстати, вы полагаете невозможно написать корректную страничку с т.з. IE, и не корректную с т.з. w3m?
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
ZyX
Сообщения: 355
ОС: Gentoo

Re: Вырезать html-форматирование из документа

Сообщение ZyX »

drBatty писал(а):
30.05.2010 21:19
кстати, вы полагаете невозможно написать корректную страничку с т.з. IE, и не корректную с т.з. w3m?

Вряд ли это у вас получится. И то, и другое являются программами, а не стандартами, поэтому «корректную»==«отображаемую». Причём пустая страница является частным случаем отображенной страницы.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Вырезать html-форматирование из документа

Сообщение drBatty »

ZyX писал(а):
31.05.2010 19:24
Вряд ли это у вас получится. И то, и другое являются программами, а не стандартами, поэтому «корректную»==«отображаемую». Причём пустая страница является частным случаем отображенной страницы.

!=
IE отобразит страничку, а ваша программа - белый экран. а вот мой скрипт вывалится с сообщением об ошибке (в худшем случае) - подправлю...
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
ZyX
Сообщения: 355
ОС: Gentoo

Re: Вырезать html-форматирование из документа

Сообщение ZyX »

drBatty писал(а):
31.05.2010 19:39
ZyX писал(а):
31.05.2010 19:24
Вряд ли это у вас получится. И то, и другое являются программами, а не стандартами, поэтому «корректную»==«отображаемую». Причём пустая страница является частным случаем отображенной страницы.

!=
IE отобразит страничку, а ваша программа - белый экран. а вот мой скрипт вывалится с сообщением об ошибке (в худшем случае) - подправлю...

Но в обоих случаях вместо падения или хотя бы заявления об ошибке будет что-то отображено, пусть даже и белый экран. Значит страница корректна с точки зрения программы. То, что вы ожидали увидеть не белый экран всего лишь означает, что отображение страницы некорректно с вашей точки зрения.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Вырезать html-форматирование из документа

Сообщение drBatty »

ZyX писал(а):
31.05.2010 19:48
Но в обоих случаях вместо падения или хотя бы заявления об ошибке будет что-то отображено, пусть даже и белый экран. Значит страница корректна с точки зрения программы. То, что вы ожидали увидеть не белый экран всего лишь означает, что отображение страницы некорректно с вашей точки зрения.

ну уберу я проверку ошибок из скрипта, будет "по вашему" работать, выдаст пустую строку на страничке с текстом. Это лучше? Зачем мне ваша корректность? Мне результат нужен, или сообщение о том, что результат не достигнут. Неверный результат мне не нужен (когда текст есть, а его не видно и он не выдирается).
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Вырезать html-форматирование из документа

Сообщение NickLion »

Только вот зачем мучить регекспы, сколько времени Вы потратите на написание более-менее юзабельного варианта? А использую предназначенные для этого либы получится что-то вроде:

Код: Выделить всё

#include <QtGui/QApplication>
#include "mainwindow.h"
#include <QWebPage>
#include <QWebFrame>
#include <QFile>
#include <QTextStream>

int main(int argc, char *argv[])
{
    QApplication a(argc, argv);
    QWebPage wp;
    QFile file( "test.html" );
    file.open( QIODevice::ReadOnly );
    QTextStream html( &file );
    wp.mainFrame()->setHtml( html.readAll() );
    file.close();
    QFile fout( "test.txt" );
    fout.open( QIODevice::WriteOnly );
    QTextStream out( &fout );
    out << wp.currentFrame()->toPlainText();
    fout.close();
    return 0;//a.exec();
}
Спасибо сказали:
Аватара пользователя
ZyX
Сообщения: 355
ОС: Gentoo

Re: Вырезать html-форматирование из документа

Сообщение ZyX »

drBatty писал(а):
31.05.2010 20:10
ZyX писал(а):
31.05.2010 19:48
Но в обоих случаях вместо падения или хотя бы заявления об ошибке будет что-то отображено, пусть даже и белый экран. Значит страница корректна с точки зрения программы. То, что вы ожидали увидеть не белый экран всего лишь означает, что отображение страницы некорректно с вашей точки зрения.

ну уберу я проверку ошибок из скрипта, будет "по вашему" работать, выдаст пустую строку на страничке с текстом. Это лучше? Зачем мне ваша корректность? Мне результат нужен, или сообщение о том, что результат не достигнут. Неверный результат мне не нужен (когда текст есть, а его не видно и он не выдирается).

Я отвечал на заявление, что существует такая страница, которая была бы корректна с точки зрения одной программы и некорректна с точки зрения другой. О том, что вывод программы будет некорректен с точки зрения кого-то третьего у вас речи не шло.

// Сам, кстати, выдираю большинство информации с СИ именно regex’ами. Но если бы надо было выдрать текст из абстрактной страницы, то написать одно/многострочник на Perl с использованием HTML::TreeBuilder мне было бы гораздо проще.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: Вырезать html-форматирование из документа

Сообщение drBatty »

ZyX писал(а):
01.06.2010 01:08
Я отвечал на заявление, что существует такая страница, которая была бы корректна с точки зрения одной программы и некорректна с точки зрения другой. О том, что вывод программы будет некорректен с точки зрения кого-то третьего у вас речи не шло.

белый экран вместо странички с текстом - это не корректно. да, конечно, возможно страница кривая, может вьюер, не важно. в данном случае необходимо получить сообщение об ошибке, или текст. с любых точек зрения. ИМХО.

ZyX писал(а):
01.06.2010 01:08
// Сам, кстати, выдираю большинство информации с СИ именно regex’ами. Но если бы надо было выдрать текст из абстрактной страницы

а я уже 2 страницы пытаюсь объяснить, что абстрактное решение меня не волнует. мне конкретное надо. здесь и сейчас. и что-бы либо давало результат, либо писало о невозможности его получения.

NickLion писал(а):
31.05.2010 22:12
сколько времени Вы потратите на написание более-менее юзабельного варианта?

пихать Qt в скрипты/программы, которые работают в глубине системы, считаю по меньшей мере неразумным. Qt это отличная идея, но вовсе не для этого случая. Кстати, про Qt, а на нём уже написали браузер? А то всё равно в памяти висит, так пусть хоть странички показывает... Ведь может-же (судя по вашему примеру).
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Вырезать html-форматирование из документа

Сообщение NickLion »

drBatty писал(а):
01.06.2010 03:28
NickLion писал(а):
31.05.2010 22:12
сколько времени Вы потратите на написание более-менее юзабельного варианта?

пихать Qt в скрипты/программы, которые работают в глубине системы, считаю по меньшей мере неразумным. Qt это отличная идея, но вовсе не для этого случая. Кстати, про Qt, а на нём уже написали браузер? А то всё равно в памяти висит, так пусть хоть странички показывает... Ведь может-же (судя по вашему примеру).

Я и не говорил, что данный вариант хороший :) Тут граблей - целый вагон. Начать с того, что QtWebKit (который, собственно, и использовался) нормально работает только в GUI окружении. Думаю, видно по заголовкам. Без иксов уже не полезет, наверное. Я просто к тому, что специализированные решения уже учитывают множество вариантов, специфичных вещей. И написание транслятора займёт намного меньше сил, времени, будет работать не хуже придуманных регекспов, и работать быстрее.

Если честно первое "велосипедное" решение, которое видится для данной задачи - анализатор на конечном автомате. Вроде в такой архитектуре будет проще предусмотреть различные "особенности". Даже как-то писал бяку на ASP/JScript, которая автоматически раскрашивала HTML (с вкраплёнными скриптами).

Браузер на QtWebKit - arora. Ну, а так же rekonq (WebKit), konqueror (KHTML по умолчанию, но можно WebKit через KParts), но они привязаны к kde-libs.

(А совсем простые HTML Qt и без QtWebKit обрабатывать умеет - QTextBrowser тот же)
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Вырезать html-форматирование из документа

Сообщение t.t »

NickLion писал(а):
31.05.2010 22:12
Только вот зачем мучить регекспы, сколько времени Вы потратите на написание более-менее юзабельного варианта?
Чтобы обработать так, как самому хочется, а не так, как автор готового парсера решил. drBatty, поправьте, если неверно Вас понял.

NickLion писал(а):
31.05.2010 22:12
А использую предназначенные для этого либы получится что-то вроде:

Код: Выделить всё

#include <QtGui/QApplication>
#include "mainwindow.h"
#include <QWebPage>
#include <QWebFrame>
#include <QFile>
#include <QTextStream>
[...]
А вот уж зачем для чисто текстовой задачи тянуть целую qt и правда непонятно. Тем более, что есть готовая программа, которую, кажется, здесь уже даже упоминали: html2text.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Вырезать html-форматирование из документа

Сообщение t.t »

drBatty писал(а):
01.06.2010 03:28
Кстати, про Qt, а на нём уже написали браузер? А то всё равно в памяти висит, так пусть хоть странички показывает... Ведь может-же (судя по вашему примеру).
А konqueror разве не браузер? Или интересует на чистом qt? Навскидку, arora есть.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Вырезать html-форматирование из документа

Сообщение t.t »

t.t писал(а):
01.06.2010 09:05
drBatty писал(а):
01.06.2010 03:28
Кстати, про Qt, а на нём уже написали браузер? А то всё равно в памяти висит, так пусть хоть странички показывает... Ведь может-же (судя по вашему примеру).
А konqueror разве не браузер? Или интересует на чистом qt? Навскидку, arora есть.
Да, в Debian, по крайней мере, больше ничего и нет, похоже:

Shell

tt:~$ aptitude -F%p search ~Guitoolkit::qt~Gweb::browser arora konq-plugins konqueror
Либо, если есть, то теги не расставили.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Вырезать html-форматирование из документа

Сообщение t.t »

Ещё аж один нашёлся:

Код: Выделить всё

tt:~$ LC_ALL=C aptitude search ~Dlibqt~d'"web *browser"' | grep browser
p   arora                           - simple cross platform web browser
p   konqueror                       - KDE 4's advanced file manager, web browser
p   rekonq                          - KDE web browser based on Webkit
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Вырезать html-форматирование из документа

Сообщение NickLion »

t.t писал(а):
01.06.2010 08:56
NickLion писал(а):
31.05.2010 22:12
Только вот зачем мучить регекспы, сколько времени Вы потратите на написание более-менее юзабельного варианта?
Чтобы обработать так, как самому хочется, а не так, как автор готового парсера решил. drBatty, поправьте, если неверно Вас понял.

Регекспы - не лучшее решение. В данном случае. ИМХО, тут лучше всё же КА.

t.t писал(а):
01.06.2010 08:56
NickLion писал(а):
31.05.2010 22:12
А использую предназначенные для этого либы получится что-то вроде:

Код: Выделить всё

#include <QtGui/QApplication>
#include "mainwindow.h"
#include <QWebPage>
#include <QWebFrame>
#include <QFile>
#include <QTextStream>
[...]
А вот уж зачем для чисто текстовой задачи тянуть целую qt и правда непонятно. Тем более, что есть готовая программа, которую, кажется, здесь уже даже упоминали: html2text.

Ну, я чуть раньше уже ответил: не считаю, что данное решение хорошее. Просто первое что под руку попалось.
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Вырезать html-форматирование из документа

Сообщение t.t »

NickLion писал(а):
01.06.2010 10:41
ИМХО, тут лучше всё же КА.
Расшифруйте, пожалуйста.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
watashiwa_daredeska
Бывший модератор
Сообщения: 4038
Статус: Искусственный интеллект (pre-alpha)
ОС: Debian GNU/Linux

Re: Вырезать html-форматирование из документа

Сообщение watashiwa_daredeska »

t.t писал(а):
01.06.2010 10:59
NickLion писал(а):
01.06.2010 10:41
ИМХО, тут лучше всё же КА.
Расшифруйте, пожалуйста.
Конечный Автомат. Регексп, короче :)
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: Вырезать html-форматирование из документа

Сообщение NickLion »

Ну, по теореме, кажись, Клини, КА и формальные грамматики взаимозаменяемы. Но вопрос в том, что регекспы не всегда лучший способ описать. Иногда проще и универсальнее использовать КА, а уж если магазинный… :)
Спасибо сказали:
Аватара пользователя
sash-kan
Администратор
Сообщения: 13939
Статус: oel ngati kameie
ОС: GNU

Re: Вырезать html-форматирование из документа

Сообщение sash-kan »

а может, грамотные товарищи объяснят, в чём разница между абстрактным конечным автоматом, про который упоминает уважаемый NickLion, и конечными автоматами, используемыми, например, в sed/perl (недетерминированные к.а.) и awk (детерминированный к.а.)?
Писать безграмотно - значит посягать на время людей, к которым мы адресуемся, а потому совершенно недопустимо в правильно организованном обществе. © Щерба Л. В., 1957
при сбоях форума см.блог
Спасибо сказали:
watashiwa_daredeska
Бывший модератор
Сообщения: 4038
Статус: Искусственный интеллект (pre-alpha)
ОС: Debian GNU/Linux

Re: Вырезать html-форматирование из документа

Сообщение watashiwa_daredeska »

sash-kan писал(а):
01.06.2010 12:01
в чём разница между абстрактным конечным автоматом, про который упоминает уважаемый NickLion
Я не знаю точно, что за КА упоминает NickLion, пусть он сам об этом расскажет, но вообще, пример КА — процессор. Регексп явно с этим не сравнится :)
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Вырезать html-форматирование из документа

Сообщение t.t »

sash-kan писал(а):
01.06.2010 12:01
а может, грамотные товарищи объяснят, в чём разница между абстрактным конечным автоматом, про который упоминает уважаемый NickLion, и конечными автоматами, используемыми, например, в sed/perl (недетерминированные к.а.) и awk (детерминированный к.а.)?
Так я вот тоже это понять пытаюсь... (:
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали: