[решено]Разборка Html страницы

На самом деле это единственный раздел про unix на этом форуме

Модераторы: /dev/random, Модераторы разделов

Аватара пользователя
kraz5
Сообщения: 73
ОС: calculate linux

[решено]Разборка Html страницы

Сообщение kraz5 »

Здрасти, с помощью скрипта:

Код:

#! /bin/bash # -*- coding: utf-8 -*-# wget -q --load-cookies=/tmp/cookies.txt "http://spaces.ru/forums/?sid=&cid=1153" -O - | grep -o '<div class="even">.*</div>'


Получаю:

Код:

<div class="even"><a href="http://spaces.ru/forums/?sid=;f=137814">~Новости~</a> <span style="color: #000000; font-size: small">[7]</span> <br/><span style="font-size:small;color:#666666">Руководит Администрация</span><br/></div><div class="even"><a href="http://spaces.ru/forums/?sid=;f=104229">~Знакомство~</a> <span style="color: #000000; font-size: small">[321]</span> <span style="color:green">(+1)</span> <br/><span style="font-size:small;color:#666666">Знакомимся с другими участниками.</span><br/></div><div class="even"><a href="http://spaces.ru/forums/?sid=;f=11867">~Counter_Strike~</a> <span style="color: #000000; font-size: small">[61]</span> <span style="color:green">(+7)</span> <br/><span style="font-size:small;color:#666666">Общие вопросы и помощь.</span><br/></div><div class="even"><a href="http://spaces.ru/forums/?sid=;f=140123">~Полезное~</a> <span style="color: #000000; font-size: small">[48]</span> <br/><span style="font-size:small;color:#666666">Полезное для CS 1.6</span><br/></div><div class=" even"><a href="http://spaces.ru/forums/?sid=;f=408291">~Киберспорт~</a> <span style="color: #000000; font-size: small">[54]</span> <br/><span style="font-size:small;color:#666666">Новости киберспорта</span><br/></div><div class="even"><a href="http://spaces.ru/forums/?sid=;f=11794">~Опросы~</a> <span style="color: #000000; font-size: small">[24]</span> <span style="color:green">(+1)</span> <br/><span style="font-size:small;color:#666666">Отвечаем на опросы</span><br/></div><div class="even"><a href="http://spaces.ru/forums/?sid=;f=285302">~Кланбар~</a> <span style="color: #000000; font-size: small">[114]</span> <span style="color:green">(+3)</span> <br/><span style="font-size:small;color:#666666">Забиваем CW/Набор в Clan.</span><br/></div><div class="even"><a href="http://spaces.ru/forums/?sid=;f=11804">~Темы по интересам.~</a> <span style="color: #000000; font-size: small">[97]</span> <br/><span style="font-size:small;color:#666666">Общий форум/Разные темы.</span><br/></div><div class="even"><a href="http:// spaces.ru/forums/?sid=;f=104221">~Об сообществе~</a> <span style="color: #000000; font-size: small">[7]</span> <br/><span style="font-size:small;color:#666666">Форум нашего сообщества</span><br/></div><div class="even"><a href="http://spaces.ru/forums/?sid=;f=1083908">~Технический раздел~</a> <span style="color: #000000; font-size: small">[2]</span> <br/><span style="font-size:small;color:#666666">Жалобы и предложения</span><br/></div><div class="even"><a href="http://spaces.ru/forums/?sid=;f=11801">~Архив~</a> <span style="color: #000000; font-size: small">[1098]</span> <span style="color:green">(+5)</span> <br/><span style="font-size:small;color:#666666">Ненужные или неактуальные темы.</span><br/></div>


Как можно разобрать и вывести, о наличии новых тем т.е просто Знакомство (+1) в текстовый файл, но чтобы другие где нет новых тем не выводить?! К примеру: :
<div class="even"><a href="http://spaces.ru/forums/?sid=;f=104229">~Знакомство~</a> в разделе Знакомство, где <span style="color: #000000; font-size: small">[321]</span> уже есть 321 тема, появилась новая <span style="color:green">(+1)</span>
Подскажите пожалуйста.
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5405
ОС: Gentoo

Re: [решено]Разборка Html страницы

Сообщение /dev/random »

Попробуйте утилиту html2 из пакета xml2
Спасибо сказали:
Аватара пользователя
kraz5
Сообщения: 73
ОС: calculate linux

Re: [решено]Разборка Html страницы

Сообщение kraz5 »

/dev/random писал(а):
16.09.2012 13:18
Попробуйте утилиту html2 из пакета xml2


Хорошо, сейчас собираю пакет
Спасибо сказали:
Аватара пользователя
kraz5
Сообщения: 73
ОС: calculate linux

Re: [решено]Разборка Html страницы

Сообщение kraz5 »

/dev/random писал(а):
16.09.2012 13:18
Попробуйте утилиту html2 из пакета xml2


А как ее использовать?! man говорит, что справчных страниц нет, да и в гугле что-то не нашел......
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5405
ОС: Gentoo

Re: [решено]Разборка Html страницы

Сообщение /dev/random »

kraz5 писал(а):
16.09.2012 13:45
/dev/random писал(а):
16.09.2012 13:18
Попробуйте утилиту html2 из пакета xml2


А как ее использовать?! man говорит, что справчных страниц нет, да и в гугле что-то не нашел......

Скормите ей html на stdin, она сконвертирует его в легко грепаемый формат.
Спасибо сказали:
Аватара пользователя
kraz5
Сообщения: 73
ОС: calculate linux

Re: [решено]Разборка Html страницы

Сообщение kraz5 »

/dev/random писал(а):
16.09.2012 13:52
kraz5 писал(а):
16.09.2012 13:45
/dev/random писал(а):
16.09.2012 13:18
Попробуйте утилиту html2 из пакета xml2


А как ее использовать?! man говорит, что справчных страниц нет, да и в гугле что-то не нашел......

Скормите ей html на stdin, она сконвертирует его в легко грепаемый формат.


Хорошо, но не понимает русский язык. Может ему нужно указывать как-то кодировку?!

Spoiler
/?xml=version="1.0" encoding="utf-8"?
/html/@xmlns=http://www.w3.org/1999/xhtml
/html/head/title=Spaces/ФоÑ&#128;Ñ&#131;м
/html/head/link/@rel=stylesheet
/html/head/link/@type=text/css
/html/head/link/@href=/css/main/desktop_cache_r237.css
/html/head/link
/html/head/link/@rel=stylesheet
/html/head/link/@type=text/css
/html/head/link/@href=/css/user/27/38/31/2738313580_r237.css
/html/body=
/html/body/div/@id=logo_panel
/html/body/div/@style=line-height:normal;
/html/body/div=
/html/body/div/span/@class=left
/html/body/div/span=
/html/body/div/span/a/@href=http://spaces.ru?
/html/body/div/span/a/img/@src=http://new-i09.spaces.ru/logo_big.png
/html/body/div/span/a/img/@alt=spaces
/html/body/div/span/a/img/@class=middle
/html/body/div/span/a/img/@style=margin-top:-2px;
/html/body/div/span=
/html/body/div=
/html/body/div/span/@class=right top_user_links service_links_block
/html/body/div/span/@style=margin-top:7px;
/html/body/div/span=
/html/body/div/span/img/@src=http://new-i09.spaces.ru/man_on.gif
/html/body/div/span/img/@alt
/html/body/div/span=
/html/body/div/span/a/@href=http://spaces.ru/mysite/?name=Kraz5
/html/body/div/span/a/@class=user_link
/html/body/div/span/a=
/html/body/div/span/a/span/@style=color:#79358c
/html/body/div/span/a/span=Kraz5
/html/body/div/span=
/html/body/div=
/html/body=
/html/body/div/@id=navi
/html/body/div=
/html/body/div/table/@style=width:100%
/html/body/div/table/@cellspacing=0
/html/body/div/table/@cellpadding=0
/html/body/div/table/tr=
/html/body/div/table/tr/td/@style=vertical-align:top;width:19%;border-right:solid; border-width:1px
/html/body/div/table/tr/td=
/html/body/div/table/tr/td/a/@class=top_menu_link user_color_link
/html/body/div/table/tr/td/a/@href=http://spaces.ru/startpage/?sid=&link_id=45778416654
/html/body/div/table/tr/td/a/@title=СÑ&#130;аÑ&#128;Ñ&#130;
/html/body/div/table/tr/td/a=
/html/body/div/table/tr/td/a/img/@class=icon
/html/body/div/table/tr/td/a/img/@src=http://new-i09.spaces.ru/qlt_home_b.png
/html/body/div/table/tr/td/a/img/@alt=СÑ&#130;аÑ&#128;Ñ&#130;
/html/body/div/table/tr/td/a=
/html/body/div/table/tr/td=
/html/body/div/table/tr=
/html/body/div/table/tr/td/@style=vertical-align:top;width:20%;border-right:solid;border-width:1px;
/html/body/div/table/tr/td=
/html/body/div/table/tr/td/a/@class=top_menu_link user_color_link
/html/body/div/table/tr/td/a/@href=http://spaces.ru/mail2/?sid=&link_id=45778416654
/html/body/div/table/tr/td/a/@title=Ð&#159;оÑ&#135;Ñ&#130;а
/html/body/div/table/tr/td/a=
/html/body/div/table/tr/td/a/img/@class=icon
/html/body/div/table/tr/td/a/img/@src=http://new-i09.spaces.ru/qlt_mail_b.png
/html/body/div/table/tr/td/a/img/@alt=Ð&#159;оÑ&#135;Ñ&#130;а
/html/body/div/table/tr/td/a=
/html/body/div/table/tr/td=
/html/body/div/table/tr=
/html/body/div/table/tr/td/@style=vertical-align:top;width:19%;border-right:solid;border-width:1px;
/html/body/div/table/tr/td=
/html/body/div/table/tr/td/a/@class=top_menu_link user_color_link
/html/body/div/table/tr/td/a/@href=http://spaces.ru/journal/?jsort=2&filter=4&sid=&link_id=45778416654
/html/body/div/table/tr/td/a/@title=Ð&#150;Ñ&#131;Ñ&#128;нал
/html/body/div/table/tr/td/a=
/html/body/div/table/tr/td/a/img/@class=icon
/html/body/div/table/tr/td/a/img/@src=http://new-i09.spaces.ru/qlt_journal_b.png
/html/body/div/table/tr/td/a/img/@alt=Ð&#150;Ñ&#131;Ñ&#128;
/html/body/div/table/tr/td/a=
/html/body/div/table/tr/td=
/html/body/div/table/tr=
/html/body/div/table/tr/td/@style=vertical-align:top;width:21%;border-right:solid;border-width:1px;
/html/body/div/table/tr/td=
/html/body/div/table/tr/td/a/@class=top_menu_link user_color_link
/html/body/div/table/tr/td/a/@href=http://spaces.ru/lenta/?sid=&link_id=45778416654
/html/body/div/table/tr/td/a/@title=Ð&#155;енÑ&#130;а
/html/body/div/table/tr/td/a=
/html/body/div/table/tr/td/a/img/@class=icon
/html/body/div/table/tr/td/a/img/@src=http://new-i09.spaces.ru/qlt_lenta2_b.png
/html/body/div/table/tr/td/a/img/@alt=Ð&#155;енÑ&#130;а
/html/body/div/table/tr/td/a=
/html/body/div/table/tr/td=
/html/body/div/table/tr=
/html/body/div/table/tr/td/@style=vertical-align:top;width:19%
/html/body/div/table/tr/td=
/html/body/div/table/tr/td/a/@class=top_menu_link user_color_link
/html/body/div/table/tr/td/a/@href=http://spaces.ru/search/?sid=&link_id=45778416654
/html/body/div/table/tr/td/a/@title=Ð&#159;оиÑ&#129;к
/html/body/div/table/tr/td/a=
/html/body/div/table/tr/td/a/img/@class=icon
/html/body/div/table/tr/td/a/img/@src=http://new-i09.spaces.ru/qlt_search_b.png
/html/body/div/table/tr/td/a/img/@alt=Ð&#159;оиÑ&#129;к
/html/body/div/table/tr/td/a=
/html/body/div/table/tr/td=
/html/body/div/table/tr=
/html/body/div=
/html/body=
/html/body/div/@id=time
/html/body/div=13:03
/html/body=
/html/body/div/@class=location_bar
/html/body/div/@id=header_path
/html/body/div/a/@href=http://spaces.ru/comm/?sid=;
/html/body/div/a=СообÑ&#137;еÑ&#129;Ñ&#130;ва
/html/body/div=/
/html/body/div/a/@href=http://spaces.ru/comm/?sid=&com=1135
/html/body/div/a=Counter_Strike
/html/body/div=/
/html/body/div/a/@href=http://spaces.ru/forums/?sid=&cid=1153
/html/body/div/a=ФоÑ&#128;Ñ&#131;м
/html/body=
/html/body/div/@class=main
/html/body/div=
/html/body/div/div/@class=row4
/html/body/div/div/span/@style=font-size:small
/html/body/div/div/span/img/@src=http://new-i09.spaces.ru//search.gif
/html/body/div/div/span/img/@alt
/html/body/div/div/span/a/@href=http://spaces.ru/forums/?sid=;search2=1&com_id=1135
/html/body/div/div/span/a=Ð&#159;оиÑ&#129;к
/html/body/div/div
/html/body/div/div/@class=block_hr
/html/body/div/div
/html/body/div/div/@class=busi
/html/body/div/div/b=РазделÑ&#139;
/html/body/div/div= |
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=&tp=1&last=5&com_cat_id=1153
/html/body/div/div/a=Ð&#159;оÑ&#129;ледние
/html/body/div/div= |
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=&tp=1&last=6&com_cat_id=1153
/html/body/div/div/a=Ð&#157;овÑ&#139;е
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=137814
/html/body/div/div/a=~Ð&#157;овоÑ&#129;Ñ&#130;и~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[7]
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=РÑ&#131;ководиÑ&#130; Ð&#144;дминиÑ&#129;Ñ&#130;Ñ&#128;аÑ&#134;иÑ&#143;
/html/body/div/div/br
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=104229
/html/body/div/div/a=~Ð&#151;накомÑ&#129;Ñ&#130;во~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[321]
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=Ð&#151;накомимÑ&#129;Ñ&#143; Ñ&#129; дÑ&#128;Ñ&#131;гими Ñ&#131;Ñ&#135;аÑ&#129;Ñ&#130;никами.
/html/body/div/div/br
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=11867
/html/body/div/div/a=~Counter_Strike~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[63]
/html/body/div/div=
/html/body/div/div/span/@style=color:green
/html/body/div/div/span=(+9)
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=Ð&#158;бÑ&#137;ие вопÑ&#128;оÑ&#129;Ñ&#139; и помоÑ&#137;Ñ&#140;.
/html/body/div/div/br
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=140123
/html/body/div/div/a=~Ð&#159;олезное~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[48]
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=Ð&#159;олезное длÑ&#143; CS 1.6
/html/body/div/div/br
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=408291
/html/body/div/div/a=~Ð&#154;ибеÑ&#128;Ñ&#129;поÑ&#128;Ñ&#130;~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[54]
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=Ð&#157;овоÑ&#129;Ñ&#130;и кибеÑ&#128;Ñ&#129;поÑ&#128;Ñ&#130;а
/html/body/div/div/br
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=11794
/html/body/div/div/a=~Ð&#158;пÑ&#128;оÑ&#129;Ñ&#139;~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[24]
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=Ð&#158;Ñ&#130;веÑ&#135;аем на опÑ&#128;оÑ&#129;Ñ&#139;
/html/body/div/div/br
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=285302
/html/body/div/div/a=~Ð&#154;ланбаÑ&#128;~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[114]
/html/body/div/div=
/html/body/div/div/span/@style=color:green
/html/body/div/div/span=(+3)
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=Ð&#151;абиваем CW/Ð&#157;абоÑ&#128; в Clan.
/html/body/div/div/br
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=11804
/html/body/div/div/a=~ТемÑ&#139; по инÑ&#130;еÑ&#128;еÑ&#129;ам.~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[98]
/html/body/div/div=
/html/body/div/div/span/@style=color:green
/html/body/div/div/span=(+1)
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=Ð&#158;бÑ&#137;ий Ñ&#132;оÑ&#128;Ñ&#131;м/РазнÑ&#139;е Ñ&#130;емÑ&#139;.
/html/body/div/div/br
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=104221
/html/body/div/div/a=~Ð&#158;б Ñ&#129;ообÑ&#137;еÑ&#129;Ñ&#130;ве~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[7]
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=ФоÑ&#128;Ñ&#131;м наÑ&#136;его Ñ&#129;ообÑ&#137;еÑ&#129;Ñ&#130;ва
/html/body/div/div/br
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=1083908
/html/body/div/div/a=~ТеÑ&#133;ниÑ&#135;еÑ&#129;кий Ñ&#128;аздел~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[3]
/html/body/div/div=
/html/body/div/div/span/@style=color:green
/html/body/div/div/span=(+1)
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=Ð&#150;алобÑ&#139; и пÑ&#128;едложениÑ&#143;
/html/body/div/div/br
/html/body/div/div
/html/body/div/div/@class=even
/html/body/div/div/a/@href=http://spaces.ru/forums/?sid=;f=11801
/html/body/div/div/a=~Ð&#144;Ñ&#128;Ñ&#133;ив~
/html/body/div/div=
/html/body/div/div/span/@style=color: #000000; font-size: small
/html/body/div/div/span=[1098]
/html/body/div/div=
/html/body/div/div/span/@style=color:green
/html/body/div/div/span=(+5)
/html/body/div/div=
/html/body/div/div/br
/html/body/div/div/span/@style=font-size:small;color:#666666
/html/body/div/div/span=Ð&#157;енÑ&#131;жнÑ&#139;е или неакÑ&#130;Ñ&#131;алÑ&#140;нÑ&#139;е Ñ&#130;емÑ&#139;.
/html/body/div/div/br
/html/body/div=
/html/body=
/html/body/div/@id=reklama
/html/body/div=
/html/body/div/div/@style=text-align:center
/html/body/div/div=
/html/body/div/div/script/@type=text/javascript
/html/body/div/div/script/@async
/html/body/div/div/script/@src=http://spaces.ru/js/functions.js
/html/body/div/div=
/html/body/div/div/script/@type=text/javascript
/html/body/div/div/script= var ads_array = [['SMS Ð&#146;Ñ&#129;ем Ð&#146;лÑ&#142;бленнÑ&#139;м!', 'http://spaces.ru/advertise/?sid=&amp;key=0451341511873833&amp;out=40'],]; var ads_count = 2; window.onload = function() { var m = document.createElement('script'); m.src = 'http://mobiads.ru/500.js'; m.type = 'text/javascript'; document.getElementById('mads').appendChild(m); }
/html/body/div/div=
/html/body/div/div/div/@id=mads
/html/body/div/div=
/html/body/div=
/html/body/div/div/@class=reklama_image
/html/body/div/div=
/html/body/div/div/a/@href=http://m.mobiads.ru/r2864/
/html/body/div/div/a=
/html/body/div/div/a/img/@src=http://new-i09.spaces.ru/reklama.gif
/html/body/div/div/a/img/@alt
/html/body/div/div/a=
/html/body/div/div=
/html/body/div=
/html/body=
/html/body/div/@class=location_bar
/html/body/div/@id=header_path
/html/body/div/a/@href=http://spaces.ru/comm/?sid=;
/html/body/div/a=СообÑ&#137;еÑ&#129;Ñ&#130;ва
/html/body/div=/
/html/body/div/a/@href=http://spaces.ru/comm/?sid=&com=1135
/html/body/div/a=Counter_Strike
/html/body/div=/
/html/body/div/a/@href=http://spaces.ru/forums/?sid=&cid=1153
/html/body/div/a=ФоÑ&#128;Ñ&#131;м
/html/body=
/html/body/div/@id=navi_footer
/html/body/div=
/html/body/div/a/@href=http://spaces.ru/?online_help=1&sid=&link_id=45778416654
/html/body/div/a/@class=user_color_link
/html/body/div/a=Ð&#159;омоÑ&#137;Ñ&#140;
/html/body/div= |
/html/body/div/a/@href=http://spaces.ru/mysite/?name=Kraz5&sid=&link_id=45778416654
/html/body/div/a/@class=user_color_link
/html/body/div/a=Я
/html/body/div= |
/html/body/div/a/@href=http://spaces.ru/bookmarks/?name=Kraz5&sid=&link_id=45778416654
/html/body/div/a/@class=user_color_link
/html/body/div/a=Ð&#151;акл
/html/body/div= |
/html/body/div/a/@href=http://spaces.ru/forums/?sid=&link_id=45778416654
/html/body/div/a/@class=user_color_link
/html/body/div/a=ФоÑ&#128;
/html/body/div= |
/html/body/div/a/@href=http://spaces.ru/diaries/?sid=&link_id=45778416654
/html/body/div/a/@class=user_color_link
/html/body/div/a=Ð&#148;н-ки
/html/body/div= |
/html/body/div/a/@href=http://spaces.ru/chat/?sid=&link_id=45778416654
/html/body/div/a/@class=user_color_link
/html/body/div/a=ЧаÑ&#130;
/html/body/div= |
/html/body/div/a/@href=http://spaces.ru/mysite/?mycomm=1&name=Kraz5&sid=&link_id=45778416654
/html/body/div/a/@class=user_color_link
/html/body/div/a=Соо
/html/body/div= |
/html/body/div/a/@href=http://spaces.ru/shared_zone/?sid=&link_id=45778416654
/html/body/div/a/@class=user_color_link
/html/body/div/a=Ð&#151;Ð&#158;
/html/body/div= |
/html/body/div/a/@href=http://spaces.ru/settings/?sid=&change=14&link_id=45778416654
/html/body/div/a/@class=user_color_link
/html/body/div/a=+
/html/body/div=
/html/body=
/html/body/div/@style=text-align:center;font-size:small
/html/body/div=
/html/body/div/a/@href=http://spaces.ru/?cur_link=1&link_id=45778416654
/html/body/div/a=Ñ&#129;Ñ&#129;Ñ&#139;лка на Ñ&#129;Ñ&#130;Ñ&#128;.
/html/body/div= [
/html/body/div/a/@href=http://spaces.ru/?buffer=2&cur_link=1&link_id=45778416654
/html/body/div/a=коп
/html/body/div=]
/html/body=
/html/body/div/@class=row4
/html/body/div=
/html/body/div/script/@type=text/javascript
/html/body/div/script/@src=http://mobtop.ru/ga/ga.js
/html/body/div=
/html/body/div/script/@type=text/javascript
/html/body/div/script/@src=http://mobtop.ru/c/20.js
/html/body/div=
/html/body/div/noscript/a/@href=http://mobtop.ru/in/20
/html/body/div/noscript/a/img/@src=http://mobtop.ru/20.gif
/html/body/div/noscript/a/img/@alt=MobTop - top mobile rating
/html/body/div=
/html/body=
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5405
ОС: Gentoo

Re: [решено]Разборка Html страницы

Сообщение /dev/random »

Мда, он ожидает, что в html будет <meta http-equiv="Content-Type" ...> с указанием кодировки, и в противном случае считает, что это latin1. Боюсь, что передать ему кодировку другим способом нельзя. Попробуйте вместо этого поставить _после_ вызова этой утилиты пайп "| iconv -t latin1". Это должно перевести текст обратно в ту кодировку, которая использовалась в html.
Спасибо сказали:
Аватара пользователя
kraz5
Сообщения: 73
ОС: calculate linux

Re: [решено]Разборка Html страницы

Сообщение kraz5 »

/dev/random писал(а):
16.09.2012 15:28
Мда, он ожидает, что в html будет <meta http-equiv="Content-Type" ...> с указанием кодировки, и в противном случае считает, что это latin1. Боюсь, что передать ему кодировку другим способом нельзя. Попробуйте вместо этого поставить _после_ вызова этой утилиты пайп "| iconv -t latin1". Это должно перевести текст обратно в ту кодировку, которая использовалась в html.


О, спасибо за наводку, теперь на русском. Теперь думаю пройтись с помощью grep а потом *откусить* теги. Ну, /html/body, /html/body/div/div с помощью sed
Спасибо сказали:
Аватара пользователя
kraz5
Сообщения: 73
ОС: calculate linux

Re: [решено]Разборка Html страницы

Сообщение kraz5 »

Блин, что-то у меня загвоздка случилась!

Код: Выделить всё

#! /bin/bash
# -*- coding: utf-8 -*-#
wget -q --load-cookies=/tmp/cookies.txt "http://spaces.ru/forums/?sid=&cid=1153" -O - | grep -o '<div class="even">.*</div>' |  html2 | iconv -t latin1 | grep -o '/html/body/div/a=.*'

Получаю:

Код: Выделить всё

/html/body/div/a=~Новости~
/html/body/div/a=~Знакомство~
/html/body/div/a=~Counter_Strike~
/html/body/div/a=~Полезное~
/html/body/div/a=~Киберспорт~
/html/body/div/a=~Опросы~
/html/body/div/a=~Кланбар~
/html/body/div/a=~Темы по интересам.~
/html/body/div/a=~Об сообществе~
/html/body/div/a=~Технический раздел~
/html/body/div/a=~Архив~


А если добавляю | grep "/html/body/div/span=(.*)" Получаю ошибку, что я не правильно указываю?!
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5405
ОС: Gentoo

Re: [решено]Разборка Html страницы

Сообщение /dev/random »

Проще всего так:
... | html2 | iconv -t latin1 | grep -B6 'span=(.*)' | grep /a=
(если вы уверены, что структура всегда будет такой, и между <a> и искомым <span> никто ничего не добавит и не уберёт)
Спасибо сказали:
Аватара пользователя
kraz5
Сообщения: 73
ОС: calculate linux

Re: [решено]Разборка Html страницы

Сообщение kraz5 »

/dev/random писал(а):
17.09.2012 06:38
Проще всего так:
... | html2 | iconv -t latin1 | grep -B6 'span=(.*)' | grep /a=
(если вы уверены, что структура всегда будет такой, и между <a> и искомым <span> никто ничего не добавит и не уберёт)


Пока что структура такая. Спасибо
Спасибо сказали: