Можно переключаться между несколькими языками, т.е писать как на китайском, так и на русском, на англ и т.д. Будущее за UTF8, меньше траблов с русским.
К вопросу - для чего?
А хотя бы потому, что Gnome, KDE и иже с ними всё больше рассчитаны именно на UTF-8
И иногда это приводит к некоторым граблям при использовании koi8 (например приходится экспортировать BROKEN_LINKS)
Т.е. UTF-8 всё больше становится международным стандартом. Со всеми вытекающими.
Много раз я слышал, что юникод сделан для удобства пользователей. Слышать слышал,ь а вот видеть (удобства - А.Ф.) не приходилось. Вот и вчера не пришлось (для соответствия оригиналу, на самом деле только что - А.Ф.). И не то чтобы уж очень пьяный был - да вот только опять очутился на Курском вокзале.
Теперь отсебятина.
Получил письмо с аттачментом (palin text) в кодировке UTF8 (если интересно, что за аттачмент - последний перевод от Lao, о vfs в DragonFly, скоро будет на unix.ginras.ru). Ну - фигли нам красивым бабам (как говаривала одна моя знакомая), открываю в Kate и грю: Save as, выставив koi8. Немогирен, отвечает мне Катя: текст содержит символы, которые не имеются в тарджетной кодировке; если, грит, сомневаетесь, какую кодировку выбрать, выбирайте utf8 или utf16. Ну я и сам знаю, что Ганди - но нужна-то мне Тэчер.
Ладно, думаю, плавали, знаем-с: конвертация из utf8 часто спотыкается на всяких там парных кавычках, en dash, em dash и проч. Тут их правда визуально не наблюдается, но кто знает, чего еще нет в koi8 (как известно, там нет в том числе монокля и полного собрания сочинений Шпильгагена). Конвертнем его в cp1251 - а потом обычным порядком, черед любой рекодер, имеющий force-режим (продолжать, несмотря на ошибки). Хрен там - опять грит, что лишние символы (хотя в cp1251 и парные кавычки, и en dash'ы с em dash'ами заведомо есть). И все мои конвертеры (recode и enca) тоже говорят - недопустимая byte sequences.
Вот такая вот загогулина...
Конвертнул, в конце концов, через OOo. И в чем же здесь удобство? Хотя вру, есть удобство: это мне напомнило, что я уже почти месяц без OOo живу - и вынудило поставить:-)
Так что не флейму ради, а вопроса к знатокам utf8 для: какая такая byte sequences может быть в голом utf-тексте, что ее не получилось конвертнуть даже в cp1251 обычными средствами?
Вы меня, конешно, извините, но над Вашим рассказом я долго и сильно смеялся, в том смысле что и представить себе не мог, как Вы с моими текстами мучаетесь. Это ж у меня на SuSE "юникод" для буквенных языков стоить (на CJK его не хватает, там свои кодировки, но можно извратиться, накачать шрифтов и поставить, коли делать нечего). Текст набирался в KEdit'е. Каюсь, это видимо я виноват. Дело в том, что когда надо изобразить буквесу с ударением, я вставляю её из венгерского или чешского алфавита (пример: бóльшая, плачý, стóит), потому что в русской раскладке, как ни странно, ударения не предусмотрены (и с буквой "ё" проблемы). Ну и такая мелочь - набирая латинские слова, я вместо аглицкой пользовался венгерской раскладкой. Может быть, в этом причина. Точнее не знаю, потому что Вы первый, от кого я такое слышу. Может, надо было не в plain text, а в другом формате посылать?
Отчего же?
AFAIK, у alv'а вся система построена вокруг koi8 + (могу ошибаться, конечно), он активно использует консольный софт, каковой во FreeBSD заточен именно под вышеупомянутую koi8.
Вполне естественный шаг.
Это ни в коем случае Вам не в упрек. И в первый раз было - со всеми прошлыми текстами проблем не было. И с plain text все нормально - на худой конец, как говаривала моя приятельница, у нас есть вареные яйца (сиречь OOo).
А причину нашел - действительно, слово "бОльший" было написано с ударением (и, соответственно, взято из другого чарсета).
На самом деле проблемы нет - я уже привык, и в таких случаях просто убираю парные кавычки, длинные-короткие тире и проч. (даже скриптик сочинил для этого). Теперь буду знать, что еще и с ударениями может быть.
Тем не менее, теоретическая проблема не снимается: ну хорошо, KDE'шные приложения такого не умеют. Но ведь любой нормальный рекодер имеет опцию --force, то есть, споткнувшись на "неправильном" символе, он должен подменить ее какой-нибудь абракадаброй (обычно знаком вопроса) и продолжать декодировать дальше. И обычно так и бывает. Или, на худой конец, как iconv, дойти до первой ошибки и остановиться. Но до нее-то он рекодировать обязан! Почему же в данном случае этого не произошло? Или угорьцы проклятые виноваты?
2czarker и StraNNicK
а на счет koi8... Ну все мои сайты, со времен personal page на geo.tv-sing.ru (ныне мертвом) всегда были в koi - другой кодировки в Рунете тогда не было (даже опция специальная была в аплоудерах - перекодировать в koi при передаче). Старую обезьяну поздно учить новым фокусам. Пока utf8 не победит в мировом масштабе и не настанет светлое будущее:-)
А перевод так пока и не разместил - не могу опять по ftp пробиться. И админ на письма не отвечает - видать, запил с горя:-((
Почему же в данном случае этого не произошло? Или угорьцы проклятые виноваты?
Не знаю, поможет ли это локализовать причину, но так: из тринадцати (!) наличных венгерских раскладок у меня выставлена default, а в ней, если не считать специфических букв, "зэт" и "игрек" перепутаны местами, а в остальном она от английской не отличается. Шрифт - GNU Unifont Mono (кстати, всем рекомендую - практически аналог Arial Unicode MS по количеству отображаемых языков, только начертание другое), regular, 14. После смены шрифта тоже всякие неожиданности бывают. Или шрифтина прогой воспринимается криво.
Почему же в данном случае этого не произошло? Или угорьцы проклятые виноваты?
Не знаю, поможет ли это локализовать причину, но так: из тринадцати (!) наличных венгерских раскладок у меня выставлена default, а в ней, если не считать специфических букв, "зэт" и "игрек" перепутаны местами,
Как в немецком qwertz? И лэш тожеп не на месте?
(Lao @ Четверг, 03 Марта 2005, 22:07) писал(а):а в остальном она от английской не отличается. Шрифт - GNU Unifont Mono (кстати, всем рекомендую - практически аналог Arial Unicode MS по количеству отображаемых языков, только начертание другое), regular, 14. После смены шрифта тоже всякие неожиданности бывают. Или шрифтина прогой воспринимается криво.
Честно говоря, не знаю, что такое "лэш" , а раскладка вот (верхний ряд - венгерская default, нижний - американская basic; справа - в прописном регистре):
Честно говоря, не знаю, что такое "лэш" , а раскладка вот (верхний ряд - венгерская default, нижний - американская basic; справа - в прописном регистре):
Пардон - слэш, разумеется:-)
А раскладка - самая она. Когда впервые столкнулся с дистрами немецко-скандинавского происхождения, очень доставало. А потом узнал, что у них это если не первый, то второй стандарт, и привык. Любопытно, что и у венгров то же самое:-)
зря вы так уничижительно про юникод. как же быть большинству землян в китае, индии, японии, исламском мире? повсеместно принудительно вводить английский язык? так что будущее - за юникодом, а 8-битные кодировки станут архаикой. и хотелось бы поскорей
You are registered as user #384224 with the Linux Counter. jaunty jackalope & aspire 3650
Я посмотрел вот тут: http://www.fileformat.info/info/unicode/
И мне тоже захотелось юникод, если оно ВСЁ ЭТО поддерживает. Буду думать.
Кстати (в порядке флейма) - никто не в курсе, юникод поддерживает руны языков, придуманных Толкиеном? Это всякие там эльфийские, гномские, мордорские руны, не помню уж как правильно языки называются. Имхо эти языки во всем мире знают больше народа, чем рето-романские там всякие
(Bolverk @ Пятница, 18 Марта 2005, 5:36) писал(а):Я посмотрел вот тут: http://www.fileformat.info/info/unicode/
И мне тоже захотелось юникод, если оно ВСЁ ЭТО поддерживает. Буду думать.
Кстати (в порядке флейма) - никто не в курсе, юникод поддерживает руны языков, придуманных Толкиеном? Это всякие там эльфийские, гномские, мордорские руны, не помню уж как правильно языки называются. Имхо эти языки во всем мире знают больше народа, чем рето-романские там всякие
(Bolverk @ Пятница, 18 Марта 2005, 5:36) писал(а):Я посмотрел вот тут: http://www.fileformat.info/info/unicode/
И мне тоже захотелось юникод, если оно ВСЁ ЭТО поддерживает. Буду думать.
Для написания юникодных текстов вовсе необязательно переходить под юникодную локаль (я вообще пока не знаю, зачем под неё переходить). Достаточно редактора с поддержкой юникода (а таковых нынче масса).
t.t: я вообще неспешно мечтаю о том, чтобы в консоли текстовой нормально читать
ну хотя бы латинские буквы с разными дополнительными значками. Копать пока не
копал, если кто-нибудь скажет ограничения юникода в текстовой консоли (на
иероглифы заранее не расчитываю, да и не нужно особо) - буду очень благодарен.
(Bolverk @ Суббота, 19 Марта 2005, 5:50) писал(а):t.t: я вообще неспешно мечтаю о том, чтобы в консоли текстовой нормально читать
ну хотя бы латинские буквы с разными дополнительными значками. Копать пока не
копал, если кто-нибудь скажет ограничения юникода в текстовой консоли (на
иероглифы заранее не расчитываю, да и не нужно особо) - буду очень благодарен.
Увы - ограничение очень жесткое, экранный шрифт в linux-консоли может содержать максимум 512 символов. Правда, почему так - я не знаю (вроде что-то аппаратное?), был бы признателен за разъяснение.
Поэтому можно сделать шрифт с латиницей, кириллицей, арабским и еврейским, полный набор латиницы со всеми дополнительными значками для выполнения правил траслитерации, ну навернгое еще что-то запихать. Но использовать юникод на полную катушку в linux-консоли все равно не удастся.
А в BSD вообще напряг: по крайней мере, в syscons внутреннее представление символов 8-битное (в pcvt или wscons - точно не уверен, но думаю, тоже). И потому я вообще не понимаю, как в современном виде к BSD'шной консоли можно юникод прикрутить, даже в таком урезанном виде, как в Linux'е.
И еще вспомнилось - когда говорят о юникодных шрифтах для консоли, это (по вышеуказанным причинам) не совсем корректно (или совсем некорректно), потому как юникодных шрифтов (таких, как ttf или atm в графическом режиме) для консоли не может быть: шрифты вида *.psfu просто содержат встроенный скринмап. Сейчас я это немного подзабыл, но когда-то с этим немало поковырялся, результаты ковыряния описаны здесь: http://unix.ginras.ru/linux/base010.html
М.б. кто-нибудь продолжит сей скорбный труд с учетом приближения светлого будущего (сиречь юникода)?