парсер html на C++

Модератор: Модераторы разделов

Аватара пользователя
fbi
Сообщения: 34

Re: парсер html на C++

Сообщение fbi »

Язык - это не цель, а инструмент для её достижения. Т.е. не плохо, если человек знает не один язык и способен выбирать между известными ему инструментами. С Вами, fbi, согласен, что если программист плохо ориентируется в выбранном инструменте, то это без условно плохо.

Полностью согласен! Сам программирую на Perl и С++. Просто товарищ komcumir написал следующее:
В вашем случае perl, php, tcl

php понятно, я его не знаю и знать мне его не надо (и если автор поста согласен, что на PHP все решается просто, то к чему тогда эта петрушка?)! тикль тоже! c Perl готов поспорить, никакой разницы не вижу, что на C++ что, на Perl (ни в одном, ни в другом нет подходящих инструментов), все решается за счет сторонних модулей, скажем к Perl`у можно прикрутить с CPAN`a HTML парсер, но тогда не известно, что будет проще для задачи поиска в html странице информации. Единственная разница в том, что программу на C++ после изменения придётся пересобрать!
Спасибо сказали:
luncher
Сообщения: 84
ОС: mandriva 2008 spring

Re: парсер html на C++

Сообщение luncher »

я могу реализовать свою же задачу на пхп, но я просил вас не посоветовать мне язык программирования, я знал на чем хочу писать. Давайте не будем погружаться в дальнейший диспут насчет других языков! А решил я писать на C++, не потому что это самое гибкое средство для конкретной задачи, а потому что, как уже было замечено, и сказано мною в первом посте - я не очень хорошо его знаю, именно поэтому и был выбран этот язык. Так как я считаю его перспективным и хочу развиваться в этом напрвлении и прилагаю всяческие усилия для этого.
Спасибо сказали:
sim1
Сообщения: 155
ОС: GNU,BSD

Re: парсер html на C++

Сообщение sim1 »

Парсер, написанный на плюсах будет в разы работать быстрее чем тот же парсер, но писанный на интерпретируемых языках типа php, perl и т.д.

А вообще парсеров для xml,html написано много, я, например, в зависимости от задачи использую либо Expat http://www.libexpat.org/, либо HTML Tidy http://tidy.sourceforge.net/, либо libxml. Разбор выполняю с их помощью, а обработку уже реализую в коде. Рекомендую смотреть все-таки в сторону expat. Если нужно могу выложить пару примеров.
Спасибо сказали:
frp
Сообщения: 1445
ОС: Debian Squeeze

Re: парсер html на C++

Сообщение frp »

Expat ведь для XML. В HTML можно теги не закрывать и еще кучу всяческой ерунды натворить, так что нельзя парсить html xml-ным парсером (но можно доделать xml-ный парсер для того, чтобы он как-то обрабатывал все эти "ошибки")(кстати, xhtml именно для того создавали, чтобы можно было простым xml-парсером парсить).
Спасибо сказали:
luncher
Сообщения: 84
ОС: mandriva 2008 spring

Re: парсер html на C++

Сообщение luncher »

sim1 писал(а):
17.07.2009 20:56
Парсер, написанный на плюсах будет в разы работать быстрее чем тот же парсер, но писанный на интерпретируемых языках типа php, perl и т.д.

А вообще парсеров для xml,html написано много, я, например, в зависимости от задачи использую либо Expat http://www.libexpat.org/, либо HTML Tidy http://tidy.sourceforge.net/, либо libxml. Разбор выполняю с их помощью, а обработку уже реализую в коде. Рекомендую смотреть все-таки в сторону expat. Если нужно могу выложить пару примеров.

спасибо, вот это ответ по теме. Если можно превидите примеры пожалуйста.
Спасибо сказали: