wget & русский язык

Модератор: /dev/random

Аватара пользователя
SLEDopit
Модератор
Сообщения: 4823
Статус: фанат консоли (=
ОС: GNU/Debian, RHEL

wget & русский язык

Сообщение SLEDopit »

как обучить wget русскому языку?
пробую

Код: Выделить всё

wget -O - google.ru
получаю иероглифы
пробую

Код: Выделить всё

wget -O - --user-agent="Mozilla/5.0 (compatible; Konqueror/3.0.0/10; Linux)" google.ru
получаю нормальный русский язык.
но пробую на другом сайте, например kinofresh.ru, опять получаю вот такую фигню:

Код: Выделить всё

<div align="justify" class="▒▒▒▒▒1">▒▒▒▒▒▒▒▒▒ ▒▒▒▒▒▒▒ ▒▒▒▒▒▒▒ ▒▒▒▒▒▒▒▒▒▒▒▒▒ ▒▒▒▒▒▒ ▒▒▒ ▒▒▒▒▒▒▒▒▒▒▒▒. ▒▒▒▒▒ ▒ ▒▒▒▒▒▒▒▒▒ ▒▒▒▒▒▒▒ ▒▒▒▒▒▒▒▒▒▒▒ ▒▒ ▒▒▒▒▒▒▒▒ ▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒▒. ▒▒▒▒▒
как это можно побороть?
UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity. © Dennis Ritchie
The more you believe you don't do mistakes, the more bugs are in your code.
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5413
ОС: Gentoo

Re: wget & русский язык

Сообщение /dev/random »

Wget, вызванный без ключа -k, не модифицирует ни единого байта на странице. Если он качает её в таком странном виде, значит, она в таком странном виде лежит на сервере.
Спасибо сказали:
Аватара пользователя
SLEDopit
Модератор
Сообщения: 4823
Статус: фанат консоли (=
ОС: GNU/Debian, RHEL

Re: wget & русский язык

Сообщение SLEDopit »

/dev/random писал(а):
24.05.2009 01:15
Wget, вызванный без ключа -k, не модифицирует ни единого байта на странице. Если он качает её в таком странном виде, значит, она в таком странном виде лежит на сервере.
а почему тогда гугловская страница при указании другого клиента русский язык отображается нормально,а без него - нет?
и как все таки добиться нормального отображения на приведенном в пример сайте?
UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity. © Dennis Ritchie
The more you believe you don't do mistakes, the more bugs are in your code.
Спасибо сказали:
Аватара пользователя
/dev/random
Администратор
Сообщения: 5413
ОС: Gentoo

Re: wget & русский язык

Сообщение /dev/random »

Попробую определить вашу проблему телепатически. Вы просто смотрите данные в другой кодировке, забыв их перекодировать.
wget -O - ... | enconv | less
?

(убедитесь, что enconv установлен)
Спасибо сказали:
Аватара пользователя
SLEDopit
Модератор
Сообщения: 4823
Статус: фанат консоли (=
ОС: GNU/Debian, RHEL

Re: wget & русский язык

Сообщение SLEDopit »

/dev/random
спасибо, сработало :)
UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity. © Dennis Ritchie
The more you believe you don't do mistakes, the more bugs are in your code.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: wget & русский язык

Сообщение drBatty »

SLEDopit писал(а):
24.05.2009 01:59
/dev/random
спасибо, сработало :)

wget - файло качалка. русского она не понимает, а ещё не понимает такжикский, олбанский и английский :)
это проблема в вашем терминале, команда

Код: Выделить всё

$ wget -O - linuxforum.ru

у меня тоже выводит фигню, однако, если перевести фигню в нормальный вид - всё работает. "фигня" здесь(на этом форуме) - это непонятная для моей консоли цп1251

Код: Выделить всё

$ wget -O - linuxforum.ru | iconv -f cp1251

вот таким образом всё будет понятно.
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: wget & русский язык

Сообщение drBatty »

/dev/random писал(а):
24.05.2009 01:31
(убедитесь, что enconv установлен)

спасибо. в mandriva это enca

из man enconv

Код: Выделить всё

enca -- detect and convert encoding of text files
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
SLEDopit
Модератор
Сообщения: 4823
Статус: фанат консоли (=
ОС: GNU/Debian, RHEL

Re: wget & русский язык

Сообщение SLEDopit »

drBatty
а как это объясняет то, что гугл при указании в клиенте мозиллы присылает понятные терминалу русские символы?
drBatty писал(а):
24.05.2009 11:56
спасибо. в mandriva это enca
в дебиане тоже ;)
UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity. © Dennis Ritchie
The more you believe you don't do mistakes, the more bugs are in your code.
Спасибо сказали:
Аватара пользователя
VarLog
Сообщения: 311
ОС: openSUSE 12.2

Re: wget & русский язык

Сообщение VarLog »

Возможно умный гуугл уведев "Linux" решил отправить вам страничку в UTF-8 ? У вас же юникод стоит системной локалью?
На самом деле всё очень просто...
Спасибо сказали:
Аватара пользователя
SLEDopit
Модератор
Сообщения: 4823
Статус: фанат консоли (=
ОС: GNU/Debian, RHEL

Re: wget & русский язык

Сообщение SLEDopit »

VarLog писал(а):
25.05.2009 14:59
У вас же юникод стоит системной локалью?
угу. он самый.
ну впрочем проблема и правда с помощью enconv всегда решается.
UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity. © Dennis Ritchie
The more you believe you don't do mistakes, the more bugs are in your code.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: wget & русский язык

Сообщение drBatty »

SLEDopit писал(а):
24.05.2009 12:00
а как это объясняет то, что гугл при указании в клиенте мозиллы присылает понятные терминалу русские символы?

известно как - моззила UTF понимает, вот ей сервер и отдаёт в UTF, а эту UTF понимает консоль. Т.е. если вы просите для моззилы, то это в UTF ИМХО
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали:
Аватара пользователя
SLEDopit
Модератор
Сообщения: 4823
Статус: фанат консоли (=
ОС: GNU/Debian, RHEL

Re: wget & русский язык

Сообщение SLEDopit »

drBatty писал(а):
25.05.2009 19:48
известно как - моззила UTF понимает, вот ей сервер и отдаёт в UTF, а эту UTF понимает консоль. Т.е. если вы просите для моззилы, то это в UTF ИМХО
просто, к сожалению, такое не везде работает. поэтому видимо и не прослеживается четкой взаимосвязи.
UNIX is basically a simple operating system, but you have to be a genius to understand the simplicity. © Dennis Ritchie
The more you believe you don't do mistakes, the more bugs are in your code.
Спасибо сказали:
Аватара пользователя
drBatty
Сообщения: 8735
Статус: GPG ID: 4DFBD1D6 дом горит, козёл не видит...
ОС: Slackware-current

Re: wget & русский язык

Сообщение drBatty »

SLEDopit писал(а):
25.05.2009 19:53
к сожалению, такое не везде работает. поэтому видимо и не прослеживается четкой взаимосвязи.
ну...
ну и что?
сервер отдаёт как хочет... если его не понимает ВАША консоль - это беда вашей консоли, есть iconv, есть enconv... для решения этой проблемы.
http://emulek.blogspot.ru/ Windows Must Die
Учебник по sed зеркало в github

Скоро придёт
Осень
Спасибо сказали: