Кодировки вообщем и utf8 в частности. (Обсуждается переход на utf8)

clx · Сообщение **clx** » 26.02.2005 14:32

(Aliaric @ Суббота, 26 Февраля 2005, 14:03) писал(а):скажите в чем смысл перехода с koi8-r на utf8.

↑

Можно переключаться между несколькими языками, т.е писать как на китайском, так и на русском, на англ и т.д. Будущее за UTF8, меньше траблов с русским.

Сообщение **alv** » 26.02.2005 14:48

Ну опять не смог удержаться:-)

(clx @ Суббота, 26 Февраля 2005, 14:32) писал(а):
(Aliaric @ Суббота, 26 Февраля 2005, 14:03) писал(а):скажите в чем смысл перехода с koi8-r на utf8.

↑

Можно переключаться между несколькими языками, т.е писать как на китайском, так и на русском, на англ и т.д.

Эт вряд ли, как говаривал товарищ Сухов и присутствующие здесь китаисты

(clx @ Суббота, 26 Февраля 2005, 14:32) писал(а):Будущее за UTF8,

Безусловно...

(clx @ Суббота, 26 Февраля 2005, 14:32) писал(а):меньше траблов с русским.

↑

Но пока в основном траблы:-)

Сообщение **Bolverk** » 26.02.2005 14:49

Aliaric: в поиск по флейму. Следующее сообщение в подобном стиле будет удалено.

Сообщение **alv** » 26.02.2005 14:56

(Bolverk @ Суббота, 26 Февраля 2005, 14:49) писал(а):Aliaric: в поиск по флейму. Следующее сообщение в подобном стиле будет удалено.

↑

Похоже, тема UTF становится столь же провокационной, как и отношение к религии, пиратству и президенту Ющенко вкупе с неудавшимся Януковичем:-)

Ну не могу я удержаться от ехидства - пока кто-нибудь из приверженцев UTF не напишет подробный мемуар на эту тему.

Сообщение **Bolverk** » 26.02.2005 15:07

alv: Раз уж Вы тут появились, не могли бы Вы перенести кусок про нужность utf в соответствующую тему во флейме?

Сообщение **zenwolf** » 26.02.2005 16:03

(alv @ Суббота, 26 Февраля 2005, 11:56) писал(а):
(Bolverk @ Суббота, 26 Февраля 2005, 14:49) писал(а):Aliaric: в поиск по флейму. Следующее сообщение в подобном стиле будет удалено.

↑

Похоже, тема UTF становится столь же провокационной, как и отношение к религии, пиратству и президенту Ющенко вкупе с неудавшимся Януковичем:-)

Ну не могу я удержаться от ехидства - пока кто-нибудь из приверженцев UTF не напишет подробный мемуар на эту тему.

↑

я не приверженец - мне интересно просто ,а вот мемуар я знаю кто мог бы написать
(поедатель яблокк икс

)

Сообщение **StraNNicK** » 26.02.2005 18:20

К вопросу - для чего?
А хотя бы потому, что Gnome, KDE и иже с ними всё больше рассчитаны именно на UTF-8
И иногда это приводит к некоторым граблям при использовании koi8 (например приходится экспортировать BROKEN_LINKS)
Т.е. UTF-8 всё больше становится международным стандартом. Со всеми вытекающими.

Сообщение **alv** » 03.03.2005 11:37

По мотивам Венечки Ерофеева

Много раз я слышал, что юникод сделан для удобства пользователей. Слышать слышал,ь а вот видеть (удобства - А.Ф.) не приходилось. Вот и вчера не пришлось (для соответствия оригиналу, на самом деле только что - А.Ф.). И не то чтобы уж очень пьяный был - да вот только опять очутился на Курском вокзале.

Теперь отсебятина.
Получил письмо с аттачментом (palin text) в кодировке UTF8 (если интересно, что за аттачмент - последний перевод от Lao, о vfs в DragonFly, скоро будет на unix.ginras.ru). Ну - фигли нам красивым бабам (как говаривала одна моя знакомая), открываю в Kate и грю: Save as, выставив koi8. Немогирен, отвечает мне Катя: текст содержит символы, которые не имеются в тарджетной кодировке; если, грит, сомневаетесь, какую кодировку выбрать, выбирайте utf8 или utf16. Ну я и сам знаю, что Ганди - но нужна-то мне Тэчер.

Ладно, думаю, плавали, знаем-с: конвертация из utf8 часто спотыкается на всяких там парных кавычках, en dash, em dash и проч. Тут их правда визуально не наблюдается, но кто знает, чего еще нет в koi8 (как известно, там нет в том числе монокля и полного собрания сочинений Шпильгагена). Конвертнем его в cp1251 - а потом обычным порядком, черед любой рекодер, имеющий force-режим (продолжать, несмотря на ошибки). Хрен там - опять грит, что лишние символы (хотя в cp1251 и парные кавычки, и en dash'ы с em dash'ами заведомо есть). И все мои конвертеры (recode и enca) тоже говорят - недопустимая byte sequences.

Вот такая вот загогулина...

Конвертнул, в конце концов, через OOo. И в чем же здесь удобство? Хотя вру, есть удобство: это мне напомнило, что я уже почти месяц без OOo живу - и вынудило поставить:-)

Так что не флейму ради, а вопроса к знатокам utf8 для: какая такая byte sequences может быть в голом utf-тексте, что ее не получилось конвертнуть даже в cp1251 обычными средствами?

Сообщение **ddc** » 03.03.2005 16:36

случайно попал символ из другого сабсета...

Сообщение **alv** » 03.03.2005 16:56

(czarker @ Четверг, 03 Марта 2005, 16:36) писал(а):случайно попал символ из другого сабсета...

↑

Случайно... - а вот в koi8 не попадает:-)

Lao · Сообщение **Lao** » 03.03.2005 17:23

Для alv'а:

Вы меня, конешно, извините, но над Вашим рассказом я долго и сильно смеялся, в том смысле что и представить себе не мог, как Вы с моими текстами мучаетесь. Это ж у меня на SuSE "юникод" для буквенных языков стоить (на CJK его не хватает, там свои кодировки, но можно извратиться, накачать шрифтов и поставить, коли делать нечего). Текст набирался в KEdit'е. Каюсь, это видимо я виноват. Дело в том, что когда надо изобразить буквесу с ударением, я вставляю её из венгерского или чешского алфавита (пример: бóльшая, плачý, стóит), потому что в русской раскладке, как ни странно, ударения не предусмотрены (и с буквой "ё" проблемы). Ну и такая мелочь - набирая латинские слова, я вместо аглицкой пользовался венгерской раскладкой. Может быть, в этом причина. Точнее не знаю, потому что Вы первый, от кого я такое слышу. Может, надо было не в plain text, а в другом формате посылать?

Сообщение **ddc** » 03.03.2005 17:46

Для Lao:
Нет, просто нефиг было потом alv'у в KOI8-R обратно перекидывать...

Сообщение **StraNNicK** » 03.03.2005 18:12

Отчего же?
AFAIK, у alv'а вся система построена вокруг koi8 + (могу ошибаться, конечно), он активно использует консольный софт, каковой во FreeBSD заточен именно под вышеупомянутую koi8.
Вполне естественный шаг.

Сообщение **alv** » 03.03.2005 18:40

2Lao

Это ни в коем случае Вам не в упрек. И в первый раз было - со всеми прошлыми текстами проблем не было. И с plain text все нормально - на худой конец, как говаривала моя приятельница, у нас есть вареные яйца (сиречь OOo).

А причину нашел - действительно, слово "бОльший" было написано с ударением (и, соответственно, взято из другого чарсета).

На самом деле проблемы нет - я уже привык, и в таких случаях просто убираю парные кавычки, длинные-короткие тире и проч. (даже скриптик сочинил для этого). Теперь буду знать, что еще и с ударениями может быть.

Тем не менее, теоретическая проблема не снимается: ну хорошо, KDE'шные приложения такого не умеют. Но ведь любой нормальный рекодер имеет опцию --force, то есть, споткнувшись на "неправильном" символе, он должен подменить ее какой-нибудь абракадаброй (обычно знаком вопроса) и продолжать декодировать дальше. И обычно так и бывает. Или, на худой конец, как iconv, дойти до первой ошибки и остановиться. Но до нее-то он рекодировать обязан! Почему же в данном случае этого не произошло? Или угорьцы проклятые виноваты?

2czarker и StraNNicK
а на счет koi8... Ну все мои сайты, со времен personal page на geo.tv-sing.ru (ныне мертвом) всегда были в koi - другой кодировки в Рунете тогда не было (даже опция специальная была в аплоудерах - перекодировать в koi при передаче). Старую обезьяну поздно учить новым фокусам. Пока utf8 не победит в мировом масштабе и не настанет светлое будущее:-)

А перевод так пока и не разместил - не могу опять по ftp пробиться. И админ на письма не отвечает - видать, запил с горя:-((

Lao · Сообщение **Lao** » 03.03.2005 22:07

Почему же в данном случае этого не произошло? Или угорьцы проклятые виноваты?

Не знаю, поможет ли это локализовать причину, но так: из тринадцати (!) наличных венгерских раскладок у меня выставлена default, а в ней, если не считать специфических букв, "зэт" и "игрек" перепутаны местами, а в остальном она от английской не отличается. Шрифт - GNU Unifont Mono (кстати, всем рекомендую - практически аналог Arial Unicode MS по количеству отображаемых языков, только начертание другое), regular, 14. После смены шрифта тоже всякие неожиданности бывают. Или шрифтина прогой воспринимается криво.

Сообщение **alv** » 04.03.2005 08:23

(Lao @ Четверг, 03 Марта 2005, 22:07) писал(а):
Почему же в данном случае этого не произошло? Или угорьцы проклятые виноваты?

Не знаю, поможет ли это локализовать причину, но так: из тринадцати (!) наличных венгерских раскладок у меня выставлена default, а в ней, если не считать специфических букв, "зэт" и "игрек" перепутаны местами,

Как в немецком qwertz? И лэш тожеп не на месте?

(Lao @ Четверг, 03 Марта 2005, 22:07) писал(а):а в остальном она от английской не отличается. Шрифт - GNU Unifont Mono (кстати, всем рекомендую - практически аналог Arial Unicode MS по количеству отображаемых языков, только начертание другое), regular, 14. После смены шрифта тоже всякие неожиданности бывают. Или шрифтина прогой воспринимается криво.

↑

Спасибо за информацию, подумаю, с чего все это взялось:-)

Lao · Сообщение **Lao** » 04.03.2005 18:23

Как в немецком qwertz? И лэш тожеп не на месте?

Честно говоря, не знаю, что такое "лэш"

, а раскладка вот (верхний ряд - венгерская default, нижний - американская basic; справа - в прописном регистре):

Код: Выделить всё

0123456789öüóű  §'"+!%/=()ÖÜÓŰ
`1234567890-=\  ~!@#$%^&*()_+|

qwertzuiopőú  QWERTZUIOPŐÚ
qwertyuiop[]  qwertyuiop{}

asdfghjkléá  ASDFGHJKLÉÁ
asdfghjkl;'  ASDFGHJKL:"

yxcvbnm,.-  YXCVBNM?:_
zxcvbnm,./  ZXCVBNM<>?

Клавиатура Generic 105-key (Intl) PC

Сообщение **alv** » 04.03.2005 19:16

(Lao @ Пятница, 04 Марта 2005, 18:23) писал(а):
Как в немецком qwertz? И лэш тожеп не на месте?

Честно говоря, не знаю, что такое "лэш" , а раскладка вот (верхний ряд - венгерская default, нижний - американская basic; справа - в прописном регистре):

Пардон - слэш, разумеется:-)

А раскладка - самая она. Когда впервые столкнулся с дистрами немецко-скандинавского происхождения, очень доставало. А потом узнал, что у них это если не первый, то второй стандарт, и привык. Любопытно, что и у венгров то же самое:-)

(Lao @ Пятница, 04 Марта 2005, 18:23) писал(а):
↑

Сообщение **ddc** » 04.03.2005 19:59

Для Lao:
"Лэш", это, наверное, "dash"...

Lao · Сообщение **Lao** » 04.03.2005 21:06

(czarker @ Пятница, 04 Марта 2005, 16:59) писал(а):Для Lao:
"Лэш", это, наверное, "dash"...

↑

Ну и какое значение этого слова ты имеешь в виду? Отвечать здесь.

William Henry Gates · 16.03.2005 16:45

зря вы так уничижительно про юникод. как же быть большинству землян в китае, индии, японии, исламском мире? повсеместно принудительно вводить английский язык? так что будущее - за юникодом, а 8-битные кодировки станут архаикой. и хотелось бы поскорей

Сообщение **ddc** » 16.03.2005 16:52

Для Lao:
Я имел в виду кнопку "\" - "|" - "/".

William Henry Gates · 17.03.2005 10:52

(StraNNicK @ Среда, 10 Ноября 2004, 5:44) писал(а):Еще пару апологетов юникода - и все поймут, что юникодовцы - это даже страшнее гентушников...

↑

а джентульмен-юникодер?

Сообщение **Bolverk** » 18.03.2005 05:36

Я посмотрел вот тут:
http://www.fileformat.info/info/unicode/
И мне тоже захотелось юникод, если оно ВСЁ ЭТО поддерживает. Буду думать.
Кстати (в порядке флейма) - никто не в курсе, юникод поддерживает руны языков, придуманных Толкиеном? Это всякие там эльфийские, гномские, мордорские руны, не помню уж как правильно языки называются. Имхо эти языки во всем мире знают больше народа, чем рето-романские там всякие

Сообщение **alv** » 18.03.2005 08:05

(Bolverk @ Пятница, 18 Марта 2005, 5:36) писал(а):Я посмотрел вот тут:
http://www.fileformat.info/info/unicode/
И мне тоже захотелось юникод, если оно ВСЁ ЭТО поддерживает. Буду думать.
Кстати (в порядке флейма) - никто не в курсе, юникод поддерживает руны языков, придуманных Толкиеном? Это всякие там эльфийские, гномские, мордорские руны, не помню уж как правильно языки называются. Имхо эти языки во всем мире знают больше народа, чем рето-романские там всякие

↑

По крайней мере шрифтовые наборы с толкиновскими рунами мне попадались.

Сообщение **t.t** » 18.03.2005 16:06

(Bolverk @ Пятница, 18 Марта 2005, 5:36) писал(а):Я посмотрел вот тут:
http://www.fileformat.info/info/unicode/
И мне тоже захотелось юникод, если оно ВСЁ ЭТО поддерживает. Буду думать.
↑

Для написания юникодных текстов вовсе необязательно переходить под юникодную локаль (я вообще пока не знаю, зачем под неё переходить). Достаточно редактора с поддержкой юникода (а таковых нынче масса).

Сообщение **Bolverk** » 19.03.2005 05:50

t.t: я вообще неспешно мечтаю о том, чтобы в консоли текстовой нормально читать
ну хотя бы латинские буквы с разными дополнительными значками. Копать пока не
копал, если кто-нибудь скажет ограничения юникода в текстовой консоли (на
иероглифы заранее не расчитываю, да и не нужно особо) - буду очень благодарен.

Сообщение **alv** » 19.03.2005 09:55

(Bolverk @ Суббота, 19 Марта 2005, 5:50) писал(а):t.t: я вообще неспешно мечтаю о том, чтобы в консоли текстовой нормально читать
ну хотя бы латинские буквы с разными дополнительными значками. Копать пока не
копал, если кто-нибудь скажет ограничения юникода в текстовой консоли (на
иероглифы заранее не расчитываю, да и не нужно особо) - буду очень благодарен.

↑

Увы - ограничение очень жесткое, экранный шрифт в linux-консоли может содержать максимум 512 символов. Правда, почему так - я не знаю (вроде что-то аппаратное?), был бы признателен за разъяснение.

Поэтому можно сделать шрифт с латиницей, кириллицей, арабским и еврейским, полный набор латиницы со всеми дополнительными значками для выполнения правил траслитерации, ну навернгое еще что-то запихать. Но использовать юникод на полную катушку в linux-консоли все равно не удастся.

А в BSD вообще напряг: по крайней мере, в syscons внутреннее представление символов 8-битное (в pcvt или wscons - точно не уверен, но думаю, тоже). И потому я вообще не понимаю, как в современном виде к BSD'шной консоли можно юникод прикрутить, даже в таком урезанном виде, как в Linux'е.

Сообщение **Bolverk** » 19.03.2005 15:38

alv: Большое спасибо, именно подобный ответ я и хотел услышать.

Сообщение **alv** » 19.03.2005 16:09

(Bolverk @ Суббота, 19 Марта 2005, 15:38) писал(а):alv: Большое спасибо, именно подобный ответ я и хотел услышать.

↑

И еще вспомнилось - когда говорят о юникодных шрифтах для консоли, это (по вышеуказанным причинам) не совсем корректно (или совсем некорректно), потому как юникодных шрифтов (таких, как ttf или atm в графическом режиме) для консоли не может быть: шрифты вида *.psfu просто содержат встроенный скринмап. Сейчас я это немного подзабыл, но когда-то с этим немало поковырялся, результаты ковыряния описаны здесь: http://unix.ginras.ru/linux/base010.html

М.б. кто-нибудь продолжит сей скорбный труд с учетом приближения светлого будущего (сиречь юникода)?

unixforum.org

Кодировки вообщем и utf8 в частности. (Обсуждается переход на utf8)

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.

Re: Кодировки вообщем и utf8 в частности.