Кодировки вообщем и utf8 в частности. (Обсуждается переход на utf8)

Любые разговоры которые хоть как-то связаны с тематикой форума

Модератор: Модераторы разделов

Аватара пользователя
clx
Сообщения: 3121
Статус: Think Different !
ОС: Mac OS X

Re: Кодировки вообщем и utf8 в частности.

Сообщение clx »

(Aliaric @ Суббота, 26 Февраля 2005, 14:03) писал(а):скажите в чем смысл перехода с koi8-r на utf8.


Можно переключаться между несколькими языками, т.е писать как на китайском, так и на русском, на англ и т.д. Будущее за UTF8, меньше траблов с русским.
iMac 20" Core Duo.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

Ну опять не смог удержаться:-)

(clx @ Суббота, 26 Февраля 2005, 14:32) писал(а):
(Aliaric @ Суббота, 26 Февраля 2005, 14:03) писал(а):скажите в чем смысл перехода с koi8-r на utf8.



Можно переключаться между несколькими языками, т.е писать как на китайском, так и на русском, на англ и т.д.


Эт вряд ли, как говаривал товарищ Сухов и присутствующие здесь китаисты

(clx @ Суббота, 26 Февраля 2005, 14:32) писал(а):Будущее за UTF8,


Безусловно...
(clx @ Суббота, 26 Февраля 2005, 14:32) писал(а):меньше траблов с русским.


Но пока в основном траблы:-)
Спасибо сказали:
Аватара пользователя
Bolverk
Бывший модератор
Сообщения: 1571
ОС: Cygwin

Re: Кодировки вообщем и utf8 в частности.

Сообщение Bolverk »

Aliaric: в поиск по флейму. Следующее сообщение в подобном стиле будет удалено.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(Bolverk @ Суббота, 26 Февраля 2005, 14:49) писал(а):Aliaric: в поиск по флейму. Следующее сообщение в подобном стиле будет удалено.


Похоже, тема UTF становится столь же провокационной, как и отношение к религии, пиратству и президенту Ющенко вкупе с неудавшимся Януковичем:-)

Ну не могу я удержаться от ехидства - пока кто-нибудь из приверженцев UTF не напишет подробный мемуар на эту тему.
Спасибо сказали:
Аватара пользователя
Bolverk
Бывший модератор
Сообщения: 1571
ОС: Cygwin

Re: Кодировки вообщем и utf8 в частности.

Сообщение Bolverk »

alv: Раз уж Вы тут появились, не могли бы Вы перенести кусок про нужность utf в соответствующую тему во флейме?
Спасибо сказали:
Аватара пользователя
zenwolf
Бывший модератор
Сообщения: 3139
Статус: Страшный и злой
ОС: Slackware..Salix..x86_64

Re: Кодировки вообщем и utf8 в частности.

Сообщение zenwolf »

(alv @ Суббота, 26 Февраля 2005, 11:56) писал(а):
(Bolverk @ Суббота, 26 Февраля 2005, 14:49) писал(а):Aliaric: в поиск по флейму. Следующее сообщение в подобном стиле будет удалено.


Похоже, тема UTF становится столь же провокационной, как и отношение к религии, пиратству и президенту Ющенко вкупе с неудавшимся Януковичем:-)

Ну не могу я удержаться от ехидства - пока кто-нибудь из приверженцев UTF не напишет подробный мемуар на эту тему.


я не приверженец - мне интересно просто ,а вот мемуар я знаю кто мог бы написать
(поедатель яблокк икс :) )
Quae videmus quo dependet vultus. (лат) - То, что мы видим, зависит от того, куда мы смотрим.
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

К вопросу - для чего?
А хотя бы потому, что Gnome, KDE и иже с ними всё больше рассчитаны именно на UTF-8
И иногда это приводит к некоторым граблям при использовании koi8 (например приходится экспортировать BROKEN_LINKS)
Т.е. UTF-8 всё больше становится международным стандартом. Со всеми вытекающими.
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

По мотивам Венечки Ерофеева

Много раз я слышал, что юникод сделан для удобства пользователей. Слышать слышал,ь а вот видеть (удобства - А.Ф.) не приходилось. Вот и вчера не пришлось (для соответствия оригиналу, на самом деле только что - А.Ф.). И не то чтобы уж очень пьяный был - да вот только опять очутился на Курском вокзале.

Теперь отсебятина.
Получил письмо с аттачментом (palin text) в кодировке UTF8 (если интересно, что за аттачмент - последний перевод от Lao, о vfs в DragonFly, скоро будет на unix.ginras.ru). Ну - фигли нам красивым бабам (как говаривала одна моя знакомая), открываю в Kate и грю: Save as, выставив koi8. Немогирен, отвечает мне Катя: текст содержит символы, которые не имеются в тарджетной кодировке; если, грит, сомневаетесь, какую кодировку выбрать, выбирайте utf8 или utf16. Ну я и сам знаю, что Ганди - но нужна-то мне Тэчер.

Ладно, думаю, плавали, знаем-с: конвертация из utf8 часто спотыкается на всяких там парных кавычках, en dash, em dash и проч. Тут их правда визуально не наблюдается, но кто знает, чего еще нет в koi8 (как известно, там нет в том числе монокля и полного собрания сочинений Шпильгагена). Конвертнем его в cp1251 - а потом обычным порядком, черед любой рекодер, имеющий force-режим (продолжать, несмотря на ошибки). Хрен там - опять грит, что лишние символы (хотя в cp1251 и парные кавычки, и en dash'ы с em dash'ами заведомо есть). И все мои конвертеры (recode и enca) тоже говорят - недопустимая byte sequences.

Вот такая вот загогулина...

Конвертнул, в конце концов, через OOo. И в чем же здесь удобство? Хотя вру, есть удобство: это мне напомнило, что я уже почти месяц без OOo живу - и вынудило поставить:-)

Так что не флейму ради, а вопроса к знатокам utf8 для: какая такая byte sequences может быть в голом utf-тексте, что ее не получилось конвертнуть даже в cp1251 обычными средствами?
Спасибо сказали:
Аватара пользователя
ddc
Бывший модератор
Сообщения: 3535
Статус: OpenBSD-compatible
ОС: OpenBSD -current

Re: Кодировки вообщем и utf8 в частности.

Сообщение ddc »

случайно попал символ из другого сабсета...
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(czarker @ Четверг, 03 Марта 2005, 16:36) писал(а):случайно попал символ из другого сабсета...


Случайно... - а вот в koi8 не попадает:-)
Спасибо сказали:
Аватара пользователя
Lao
Сообщения: 130

Re: Кодировки вообщем и utf8 в частности.

Сообщение Lao »

Для alv'а:

Вы меня, конешно, извините, но над Вашим рассказом я долго и сильно смеялся, в том смысле что и представить себе не мог, как Вы с моими текстами мучаетесь. Это ж у меня на SuSE "юникод" для буквенных языков стоить (на CJK его не хватает, там свои кодировки, но можно извратиться, накачать шрифтов и поставить, коли делать нечего). Текст набирался в KEdit'е. Каюсь, это видимо я виноват. Дело в том, что когда надо изобразить буквесу с ударением, я вставляю её из венгерского или чешского алфавита (пример: бóльшая, плачý, стóит), потому что в русской раскладке, как ни странно, ударения не предусмотрены (и с буквой "ё" проблемы). Ну и такая мелочь - набирая латинские слова, я вместо аглицкой пользовался венгерской раскладкой. Может быть, в этом причина. Точнее не знаю, потому что Вы первый, от кого я такое слышу. Может, надо было не в plain text, а в другом формате посылать?
Спасибо сказали:
Аватара пользователя
ddc
Бывший модератор
Сообщения: 3535
Статус: OpenBSD-compatible
ОС: OpenBSD -current

Re: Кодировки вообщем и utf8 в частности.

Сообщение ddc »

Для Lao:
Нет, просто нефиг было потом alv'у в KOI8-R обратно перекидывать...
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

Отчего же?
AFAIK, у alv'а вся система построена вокруг koi8 + (могу ошибаться, конечно), он активно использует консольный софт, каковой во FreeBSD заточен именно под вышеупомянутую koi8.
Вполне естественный шаг. :)
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

2Lao

Это ни в коем случае Вам не в упрек. И в первый раз было - со всеми прошлыми текстами проблем не было. И с plain text все нормально - на худой конец, как говаривала моя приятельница, у нас есть вареные яйца (сиречь OOo).

А причину нашел - действительно, слово "бОльший" было написано с ударением (и, соответственно, взято из другого чарсета).

На самом деле проблемы нет - я уже привык, и в таких случаях просто убираю парные кавычки, длинные-короткие тире и проч. (даже скриптик сочинил для этого). Теперь буду знать, что еще и с ударениями может быть.

Тем не менее, теоретическая проблема не снимается: ну хорошо, KDE'шные приложения такого не умеют. Но ведь любой нормальный рекодер имеет опцию --force, то есть, споткнувшись на "неправильном" символе, он должен подменить ее какой-нибудь абракадаброй (обычно знаком вопроса) и продолжать декодировать дальше. И обычно так и бывает. Или, на худой конец, как iconv, дойти до первой ошибки и остановиться. Но до нее-то он рекодировать обязан! Почему же в данном случае этого не произошло? Или угорьцы проклятые виноваты?

2czarker и StraNNicK
а на счет koi8... Ну все мои сайты, со времен personal page на geo.tv-sing.ru (ныне мертвом) всегда были в koi - другой кодировки в Рунете тогда не было (даже опция специальная была в аплоудерах - перекодировать в koi при передаче). Старую обезьяну поздно учить новым фокусам. Пока utf8 не победит в мировом масштабе и не настанет светлое будущее:-)

А перевод так пока и не разместил - не могу опять по ftp пробиться. И админ на письма не отвечает - видать, запил с горя:-((
Спасибо сказали:
Аватара пользователя
Lao
Сообщения: 130

Re: Кодировки вообщем и utf8 в частности.

Сообщение Lao »

Почему же в данном случае этого не произошло? Или угорьцы проклятые виноваты?


Не знаю, поможет ли это локализовать причину, но так: из тринадцати (!) наличных венгерских раскладок у меня выставлена default, а в ней, если не считать специфических букв, "зэт" и "игрек" перепутаны местами, а в остальном она от английской не отличается. Шрифт - GNU Unifont Mono (кстати, всем рекомендую - практически аналог Arial Unicode MS по количеству отображаемых языков, только начертание другое), regular, 14. После смены шрифта тоже всякие неожиданности бывают. Или шрифтина прогой воспринимается криво.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(Lao @ Четверг, 03 Марта 2005, 22:07) писал(а):
Почему же в данном случае этого не произошло? Или угорьцы проклятые виноваты?


Не знаю, поможет ли это локализовать причину, но так: из тринадцати (!) наличных венгерских раскладок у меня выставлена default, а в ней, если не считать специфических букв, "зэт" и "игрек" перепутаны местами,


Как в немецком qwertz? И лэш тожеп не на месте?

(Lao @ Четверг, 03 Марта 2005, 22:07) писал(а):а в остальном она от английской не отличается. Шрифт - GNU Unifont Mono (кстати, всем рекомендую - практически аналог Arial Unicode MS по количеству отображаемых языков, только начертание другое), regular, 14. После смены шрифта тоже всякие неожиданности бывают. Или шрифтина прогой воспринимается криво.


Спасибо за информацию, подумаю, с чего все это взялось:-)
Спасибо сказали:
Аватара пользователя
Lao
Сообщения: 130

Re: Кодировки вообщем и utf8 в частности.

Сообщение Lao »

Как в немецком qwertz? И лэш тожеп не на месте?


Честно говоря, не знаю, что такое "лэш" :(, а раскладка вот (верхний ряд - венгерская default, нижний - американская basic; справа - в прописном регистре):

Код: Выделить всё

0123456789öüóű  §'"+!%/=()ÖÜÓŰ
`1234567890-=\  ~!@#$%^&*()_+|

qwertzuiopőú  QWERTZUIOPŐÚ
qwertyuiop[]  qwertyuiop{}

asdfghjkléá  ASDFGHJKLÉÁ
asdfghjkl;'  ASDFGHJKL:"

yxcvbnm,.-  YXCVBNM?:_
zxcvbnm,./  ZXCVBNM<>?


Клавиатура Generic 105-key (Intl) PC
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(Lao @ Пятница, 04 Марта 2005, 18:23) писал(а):
Как в немецком qwertz? И лэш тожеп не на месте?


Честно говоря, не знаю, что такое "лэш" :(, а раскладка вот (верхний ряд - венгерская default, нижний - американская basic; справа - в прописном регистре):


Пардон - слэш, разумеется:-)

А раскладка - самая она. Когда впервые столкнулся с дистрами немецко-скандинавского происхождения, очень доставало. А потом узнал, что у них это если не первый, то второй стандарт, и привык. Любопытно, что и у венгров то же самое:-)

(Lao @ Пятница, 04 Марта 2005, 18:23) писал(а):
Спасибо сказали:
Аватара пользователя
ddc
Бывший модератор
Сообщения: 3535
Статус: OpenBSD-compatible
ОС: OpenBSD -current

Re: Кодировки вообщем и utf8 в частности.

Сообщение ddc »

Для Lao:
"Лэш", это, наверное, "dash"...
Спасибо сказали:
Аватара пользователя
Lao
Сообщения: 130

Re: Кодировки вообщем и utf8 в частности.

Сообщение Lao »

(czarker @ Пятница, 04 Марта 2005, 16:59) писал(а):Для Lao:
"Лэш", это, наверное, "dash"...


Ну и какое значение этого слова ты имеешь в виду? Отвечать здесь.
Спасибо сказали:
Аватара пользователя
William Henry Gates
Сообщения: 493
Статус: ё-моё!!
ОС: jaunty

Re: Кодировки вообщем и utf8 в частности.

Сообщение William Henry Gates »

зря вы так уничижительно про юникод. как же быть большинству землян в китае, индии, японии, исламском мире? повсеместно принудительно вводить английский язык? так что будущее - за юникодом, а 8-битные кодировки станут архаикой. и хотелось бы поскорей :)
You are registered as user #384224 with the Linux Counter. jaunty jackalope & aspire 3650
Спасибо сказали:
Аватара пользователя
ddc
Бывший модератор
Сообщения: 3535
Статус: OpenBSD-compatible
ОС: OpenBSD -current

Re: Кодировки вообщем и utf8 в частности.

Сообщение ddc »

Для Lao:
Я имел в виду кнопку "\" - "|" - "/".
Спасибо сказали:
Аватара пользователя
William Henry Gates
Сообщения: 493
Статус: ё-моё!!
ОС: jaunty

Re: Кодировки вообщем и utf8 в частности.

Сообщение William Henry Gates »

(StraNNicK @ Среда, 10 Ноября 2004, 5:44) писал(а):Еще пару апологетов юникода - и все поймут, что юникодовцы - это даже страшнее гентушников...  ;)

а джентульмен-юникодер? :)
You are registered as user #384224 with the Linux Counter. jaunty jackalope & aspire 3650
Спасибо сказали:
Аватара пользователя
Bolverk
Бывший модератор
Сообщения: 1571
ОС: Cygwin

Re: Кодировки вообщем и utf8 в частности.

Сообщение Bolverk »

Я посмотрел вот тут:
http://www.fileformat.info/info/unicode/
И мне тоже захотелось юникод, если оно ВСЁ ЭТО поддерживает. Буду думать.
Кстати (в порядке флейма) - никто не в курсе, юникод поддерживает руны языков, придуманных Толкиеном? Это всякие там эльфийские, гномские, мордорские руны, не помню уж как правильно языки называются. Имхо эти языки во всем мире знают больше народа, чем рето-романские там всякие :)
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(Bolverk @ Пятница, 18 Марта 2005, 5:36) писал(а):Я посмотрел вот тут:
http://www.fileformat.info/info/unicode/
И мне тоже захотелось юникод, если оно ВСЁ ЭТО поддерживает. Буду думать.
Кстати (в порядке флейма) - никто не в курсе, юникод поддерживает руны языков, придуманных Толкиеном? Это всякие там эльфийские, гномские, мордорские руны, не помню уж как правильно языки называются. Имхо эти языки во всем мире знают больше народа, чем рето-романские там всякие :)


По крайней мере шрифтовые наборы с толкиновскими рунами мне попадались.
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(Bolverk @ Пятница, 18 Марта 2005, 5:36) писал(а):Я посмотрел вот тут:
http://www.fileformat.info/info/unicode/
И мне тоже захотелось юникод, если оно ВСЁ ЭТО поддерживает. Буду думать.
Для написания юникодных текстов вовсе необязательно переходить под юникодную локаль (я вообще пока не знаю, зачем под неё переходить). Достаточно редактора с поддержкой юникода (а таковых нынче масса).
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
Bolverk
Бывший модератор
Сообщения: 1571
ОС: Cygwin

Re: Кодировки вообщем и utf8 в частности.

Сообщение Bolverk »

t.t: я вообще неспешно мечтаю о том, чтобы в консоли текстовой нормально читать
ну хотя бы латинские буквы с разными дополнительными значками. Копать пока не
копал, если кто-нибудь скажет ограничения юникода в текстовой консоли (на
иероглифы заранее не расчитываю, да и не нужно особо) - буду очень благодарен.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(Bolverk @ Суббота, 19 Марта 2005, 5:50) писал(а):t.t: я вообще неспешно мечтаю о том, чтобы в консоли текстовой нормально читать
ну хотя бы латинские буквы с разными дополнительными значками. Копать пока не
копал, если кто-нибудь скажет ограничения юникода в текстовой консоли (на
иероглифы заранее не расчитываю, да и не нужно особо) - буду очень благодарен.


Увы - ограничение очень жесткое, экранный шрифт в linux-консоли может содержать максимум 512 символов. Правда, почему так - я не знаю (вроде что-то аппаратное?), был бы признателен за разъяснение.

Поэтому можно сделать шрифт с латиницей, кириллицей, арабским и еврейским, полный набор латиницы со всеми дополнительными значками для выполнения правил траслитерации, ну навернгое еще что-то запихать. Но использовать юникод на полную катушку в linux-консоли все равно не удастся.

А в BSD вообще напряг: по крайней мере, в syscons внутреннее представление символов 8-битное (в pcvt или wscons - точно не уверен, но думаю, тоже). И потому я вообще не понимаю, как в современном виде к BSD'шной консоли можно юникод прикрутить, даже в таком урезанном виде, как в Linux'е.
Спасибо сказали:
Аватара пользователя
Bolverk
Бывший модератор
Сообщения: 1571
ОС: Cygwin

Re: Кодировки вообщем и utf8 в частности.

Сообщение Bolverk »

alv: Большое спасибо, именно подобный ответ я и хотел услышать.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(Bolverk @ Суббота, 19 Марта 2005, 15:38) писал(а):alv: Большое спасибо, именно подобный ответ я и хотел услышать.


И еще вспомнилось - когда говорят о юникодных шрифтах для консоли, это (по вышеуказанным причинам) не совсем корректно (или совсем некорректно), потому как юникодных шрифтов (таких, как ttf или atm в графическом режиме) для консоли не может быть: шрифты вида *.psfu просто содержат встроенный скринмап. Сейчас я это немного подзабыл, но когда-то с этим немало поковырялся, результаты ковыряния описаны здесь: http://unix.ginras.ru/linux/base010.html

М.б. кто-нибудь продолжит сей скорбный труд с учетом приближения светлого будущего (сиречь юникода)?
Спасибо сказали: