Кодировки вообщем и utf8 в частности. (Обсуждается переход на utf8)

Любые разговоры которые хоть как-то связаны с тематикой форума

Модератор: Модераторы разделов

Аватара пользователя
DW
Бывший модератор
Сообщения: 662
Статус: и это еще не все или ничего.

Re: Кодировки вообщем и utf8 в частности.

Сообщение DW »

граждане, спорить о том сколько у "поднебесных" иероглифов и сколько они используют ... может лучше составить список в каких дистрах утф по дефолту, а в каких настраивается (или не настраивается).
подумал -> выпил -> подумал -> ... но недавно врачи запретили пить.
Спасибо сказали:
Аватара пользователя
VN_MAClover
Сообщения: 1233
Статус: Человек с бульвара Капуцинов

Re: Кодировки вообщем и utf8 в частности.

Сообщение VN_MAClover »

(aim @ Воскресенье, 05 Декабря 2004, 17:26) писал(а):и отбросим миллиард китайцев? нуну... :)


Среднестатистическая книга на китайском - 15-20 000 иероглифов. Так что хватает. Unicode - первый этап. Дальше будет что-то ещё.
In RMS we trust.
Зачем нам Ваши окна, если LAMPочка даёт достаточно света?
Спасибо сказали:
Topper
Бывший модератор
Сообщения: 2087
Статус: Насильник бабушек-педофилок
ОС: Windows 10

Re: Кодировки вообщем и utf8 в частности.

Сообщение Topper »

(VN_MAClover @ Воскресенье, 05 Декабря 2004, 21:24) писал(а):
(aim @ Воскресенье, 05 Декабря 2004, 17:26) писал(а):и отбросим миллиард китайцев? нуну... :)


Среднестатистическая книга на китайском - 15-20 000 иероглифов. Так что хватает. Unicode - первый этап. Дальше будет что-то ещё.


/me представил себе таблицу символов, в которой на каждый символ отведено по 16 байт... а зато все иероглифы и древнеегипетские письмена поместяться!
Хрю.
Спасибо сказали:
snake
Бывший модератор
Сообщения: 677

Re: Кодировки вообщем и utf8 в частности.

Сообщение snake »

(StraNNicK @ Воскресенье, 05 Декабря 2004, 11:39) писал(а):У меня в китайском спаме иероглифы вполне даже видны. Что во Фри, что в Винде...
Но это уже оффтопик

У меня на работе тоже видны и локаль koi8 :P Впрочем, это уже действительно офтоп, а вот то что отпадает проблема обмена текстом методом кута енд паста между motiff'ом и gtk(2?)... Вот этот момент, пожалуй заставит меня призадуматься об utf'е.
В реальности все не так, как на самом деле...
JabberID: zmeyk@jabber.ru
Спасибо сказали:
Аватара пользователя
VN_MAClover
Сообщения: 1233
Статус: Человек с бульвара Капуцинов

Re: Кодировки вообщем и utf8 в частности.

Сообщение VN_MAClover »

(snake @ Воскресенье, 05 Декабря 2004, 23:56) писал(а):Вот этот момент, пожалуй заставит меня призадуматься об utf'е.


И он не один!
In RMS we trust.
Зачем нам Ваши окна, если LAMPочка даёт достаточно света?
Спасибо сказали:
Аватара пользователя
Shurik
Сообщения: 415
ОС: Mandriva 2010.2

Re: Кодировки вообщем и utf8 в частности.

Сообщение Shurik »

Странно - но факт!
Вроде-бы я подружился с UTF-8 из коробки. Без дополнительных телодвижений и плясок с бубном. SuSe9.2 - первый дистрибутив встречаю, где UTF-8 нормально прикручен и где всё работает (пока не встретил нигде ни одной кракозяблы). Удивлён немерянно!
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

Развели тут, пымаш. Во-первых, речь не о китайцах, это не китайский форум, всё же. Во-вторых, вас так смутило слово "utf-8" в заголовке темы? Но ведь utf и вправду бывает не только 8 -- помимо уже помянутого utf-16 есть ещё, если мне не изменяет память, и utf-32. А тем, кто с восточными языками дела не имеет, и utf-8 хватит за глаза (некоторым, вот, вообще koi-8r хватает :)).
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(galki @ Четверг, 16 Декабря 2004, 7:47) писал(а):because their old filesystems
А кто мешает монтировать в других кодировках??
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(galki @ Четверг, 16 Декабря 2004, 15:53) писал(а):Ну это сейчас вроде уже история, но недовольны были люди пользовавшиеся редхатом версии меньше чем 8 и сделавшие апгрейд. Если такой пользователь
перед апгрейдом был не в курсе проблемы, то скорее всего он о ней узнавал когда
у него уже будет перелопаченная файловая система с двумя кодировками.
У русских с кодировками все и до того было неоднозначно, так что никто особо
и не заметил.
А.. Ну, понятно. Но, надо сказать, от тотального перехода КрасноШляпов под юникод я ничего хорошего и не ждал. Рановато ещё, всё-таки.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
VN_MAClover
Сообщения: 1233
Статус: Человек с бульвара Капуцинов

Re: Кодировки вообщем и utf8 в частности.

Сообщение VN_MAClover »

Как бы поздно не стало :new_mad:
In RMS we trust.
Зачем нам Ваши окна, если LAMPочка даёт достаточно света?
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(t.t @ Четверг, 16 Декабря 2004, 15:14) писал(а):
(galki @ Четверг, 16 Декабря 2004, 7:47) писал(а):because their old filesystems
А кто мешает монтировать в других кодировках??



Как сказал бы академик Крылов, пользователь, дающий файлам имена из символов за пределами первых 128 ASCII, заслуживает четвертования на дворцовой площади. Это примерно то же самое, что врачи стали бы выписывать, а провизоры отпускать лекарства, названия которых записаны не на латыни, а на русском-китайском-маорийском etc.

И еще оффтопик, но не совсем. Один мой знакомый хирург, полковник медицинской службы, говорил про трахеотомию: это та операция, которую вы должны уметь выполнить малой пехотной лопаткой на полу общественного сортира. ИМХО - с файловыми системами история аналогичная, потому и не должно быть в именах файлов ничего, кроме чистого ASCII.
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(alv @ Четверг, 16 Декабря 2004, 18:18) писал(а):Как сказал бы академик Крылов, пользователь, дающий файлам имена из символов за пределами первых 128 ASCII, заслуживает четвертования на дворцовой площади. Это примерно то же самое, что врачи стали бы выписывать, а провизоры отпускать лекарства, названия которых записаны не на латыни, а на русском-китайском-маорийском etc.
Можно бы и так рассуждать, если бы не то, что большинство людей привыкли именовать файлы на родном языке и в частности слать такие файлы остальным.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
m.belen
Сообщения: 217

Re: Кодировки вообщем и utf8 в частности.

Сообщение m.belen »

(alv @ Четверг, 16 Декабря 2004, 18:18) писал(а):Как сказал бы академик Крылов, пользователь, дающий файлам имена из символов за пределами первых 128 ASCII, заслуживает четвертования на дворцовой площади. Это примерно то же самое, что врачи стали бы выписывать, а провизоры отпускать лекарства, названия которых записаны не на латыни, а на русском-китайском-маорийском etc.

Не могу с Вами согласиться. По моему, файловая система конкретного компьютера -- это своего рода база данных, в которой имя файла -- один из атрибутов конкретного объекта/записи этой БД (возможно, немного путаю терминологию, поскольку не специалист в базах данных, но надеюсь, смысл понятен). Причем это атрибут, по которому чаще всего пользователь ищет конкретный объект.
Разве является чем-то кромольным в пользовательских базах данных использовать символы национальных алфавитов? Представьте себе, Вы пришли в библиотеку ищите книгу по картатеке, в которой Толстой именуется Tolstoy, а Война и мир -- Vojna i mir. По момему нелепо.
Или рассмотрим проблему с другой стороны. Вот я юрист, и в файлах храню, соответственно, договоры, протоколы, акты, письма и т.п. причем в названии файла я обычно пишу, с кем заключен договор или кому адресовано письмо. Представьте себе, как бы нелепо выглядили названия фирм или фамилии адресатов, написанные латинскими буквами, и насколько бы дольше я бы искал эти файлы. Я уже не говорю о том, что этими файлами я постоянно обмениваюсь с контрагентами, которых в принципе невозможно заставить использовать конкретные правила именования файлов.
Обмен файлами с пользователями других ОС -- это кстати ещё один повод перехода на Юникод :)
ArchLinux 0.7.2 [openbox 3.3.rc2 | e17] на Cel500/256Mb RAM
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

Вероятно, я несколько утрировал. Однако...

Именно потому, что файловая система - это нечто вроде базы данных, она должна быть максимально унифицирована. И имя файла в такой базе выступает не столько атрибутом объекта, сколько его идентификатором. А к идентификатору предъявляется единственное требование - быть уникальным, то есть однозначно идентифицировать объект, так что и сочетание нулей и единиц в данном случае выглядит не так нелепо, как могло показаться. Другое дело - запомнить такие сочетания нормальный человек не в состоянии, и потому в имена файлов всегда вносится некоторая мнемоника.

2galki
Но вот лично я считаю, что если какая-то гениальная tehnicheskaya concepciya несовместима с моим языком, это не повод отказываться от моего языка.


Согласен. Однако использовать чистую латиницу в именах файлов - не отказ от родной речи. Как не отказ от нее - передавать родовые-видовые имена животных или названия лекарств по латыни. Не комплексуют же по этому поводу биологи и медики всех стран.

Обратный пример - геология, где не сложилась традиция передачи спецтерминов по латыни (хотя бы названий минералов и пород). В результате геологическая терминология стала запутанной до полной взаимонепонятности.

Так что в данном случае латиница в имена файлов и выступает как латынь.

2m.belen
Вот я юрист, и в файлах храню, соответственно, договоры, протоколы, акты, письма и т.п. причем в названии файла я обычно пишу, с кем заключен договор или кому адресовано письмо.


Опять же готов согласиться - в Вашем случае это может быть оправдано. Однако в любом случае - у Вас есть система именования файлов. Я же в сущности имел ввиду случай, когда пользователь бездумно принимает имя файла, предложенное вордом. А это, как известно - просто его первая фраза, могущая не иметь отношения к содержанию.

2t.t
И именно от такой привычки - бездумных русских имен, да еще и рассылки их другим, - пользователей и нужно отучать всеми средствами. Вплоть до телесных наказаний:-)
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

Алексей, я сейчас пользуюсь унаследованной базой файлов от предыдущего сотрудника.
Именовал он их исключительно латиницей по схеме 8.3
ПОУБИВАЛ БЫ!
Осмысленное имя файла - СИЛЬНО экономит время.
Если система не поддерживает имена файлов в национальной кодировке - в сад такую ОС.
Когда файлов становится много, нет даже МНОГО - начинаешь задумываться о классификации и упорядочении.

Так вот, возвращаясь к моей ситуации - файлы упорядочены и структурированы хорошо. Названия несут смысловую нагрузку, но когда надо найти что-либо быстро...

Теперь я убеждённый сторонник длинных имен файлов с поддержкой национальных алфавитов.
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
aim
Бывший модератор
Сообщения: 749
ОС: GNU/Linux

Re: Кодировки вообщем и utf8 в частности.

Сообщение aim »

(StraNNicK @ Пятница, 17 Декабря 2004, 13:50) писал(а):Именовал он их исключительно латиницей по схеме 8.3


Ужас какой... Думаю что имелось ввиду что стоит использовать транслитерацию по ГОСТ вместо того чтобы юзать ту или иную кодировку.
Спасибо сказали:
Аватара пользователя
m.belen
Сообщения: 217

Re: Кодировки вообщем и utf8 в частности.

Сообщение m.belen »

(aim @ Пятница, 17 Декабря 2004, 13:15) писал(а):
(StraNNicK @ Пятница, 17 Декабря 2004, 13:50) писал(а):Именовал он их исключительно латиницей по схеме 8.3


Ужас какой... Думаю что имелось ввиду что стоит использовать транслитерацию по ГОСТ вместо того чтобы юзать ту или иную кодировку.


Угу... тока сначала ввести изучение этого ГОСТ в школе в обязательную программу и обязательно с гос. экзаменами! :new_biggrin:
ArchLinux 0.7.2 [openbox 3.3.rc2 | e17] на Cel500/256Mb RAM
Спасибо сказали:
Аватара пользователя
aim
Бывший модератор
Сообщения: 749
ОС: GNU/Linux

Re: Кодировки вообщем и utf8 в частности.

Сообщение aim »

(m.belen @ Пятница, 17 Декабря 2004, 14:20) писал(а):Угу... тока сначала ввести изучение этого ГОСТ в школе в обязательную программу и обязательно с гос. экзаменами!  :new_biggrin:


самообразования пока никто не отменял... :new_megalol: :new_megalol: :new_megalol:
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(aim @ Пятница, 17 Декабря 2004, 13:40) писал(а):
(m.belen @ Пятница, 17 Декабря 2004, 14:20) писал(а):Угу... тока сначала ввести изучение этого ГОСТ в школе в обязательную программу и обязательно с гос. экзаменами!  :new_biggrin:


самообразования пока никто не отменял... :new_megalol: :new_megalol: :new_megalol:



Не помню, учили ли в наше время правила транслитерации - но вот в универе точно. Да и вообще - тут у нас вроде на форуме людей, имеющих отношение к лингвистике, немало. Они подтвердят, что правила транслитерации международны. Причем именно на латиницу с доп. символами, а не на древнеебипетские иероглифы или что-нибудь иное.
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

Бейте меня ногами, но найти файл с названием "Табличка Почетный гражданин (Мухоршибирь)" мне сильно проще и быстрее, чем "Tabl Pochyotn gr (Mukhorshibir)" и уж тем более - mukhorsh.cdr
Все примеры - реальные.
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(StraNNicK @ Пятница, 17 Декабря 2004, 14:50) писал(а):Бейте меня ногами, но найти файл с названием "Табличка Почетный гражданин (Мухоршибирь)" мне сильно проще и быстрее, чем "Tabl Pochyotn gr (Mukhorshibir)" и уж тем более - mukhorsh.cdr
Все примеры - реальные.


А как Вам такое: "Глубокоуважаемый Апполинарий Евстархович! В ответ на Ваш исходящий.doc"?

Вообще я думаю, что каждый из нас давно придумал свои систему именования файлов, которая подходит к его задачам. И пусть она будет хоть по китайски. Я же все к чему веду - что по известным причинам перлы, подобные вышеприведенному, за которыми не стоит никакой системы, распространяются все шире и шире.

А по поводу поиска - лет 15 назад работал с одной дамой, профессиональной секретаршей (=пррофессиональный делопроизводитель), так она очень быстро наловчилась именовать свои файлы так: ish#_год_месяц_число (все латиницей, конечно, и английского она практически не знала), и прекрасно в этом ориентировалась.

А именовать свои файлы латинским транслитом - еще один повод забыть о кодировках и опциях монтирования. И зачем мы только не послушали резинового Полыхаева и не перевели делопроизводство на латинский алфавит?

К слову - одна из причин, почему в постсоветских республиках, в частности, тюркоязычных, отказываются от кириллицы в пользу латиницы.
Спасибо сказали:
Аватара пользователя
m.belen
Сообщения: 217

Re: Кодировки вообщем и utf8 в частности.

Сообщение m.belen »

(alv @ Пятница, 17 Декабря 2004, 17:38) писал(а):А именовать свои файлы латинским транслитом - еще один повод забыть о кодировках и опциях монтирования.

По моему, про Юникод говорят тоже самое :new_wink_3:
ArchLinux 0.7.2 [openbox 3.3.rc2 | e17] на Cel500/256Mb RAM
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(m.belen @ Пятница, 17 Декабря 2004, 18:35) писал(а):
(alv @ Пятница, 17 Декабря 2004, 17:38) писал(а):А именовать свои файлы латинским транслитом - еще один повод забыть о кодировках и опциях монтирования.

По моему, про Юникод говорят тоже самое :new_wink_3:



Не-е, об опциях монтирования при этом забыть не удастся. По крайней мере пока.
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

Короче - jedem das seine.
А приведённый Вами пример "Уважаемый..." - это как раз прямой аналог untitled001.doc и иже с ними

P.S. Каждый раз, когда читаю, что каких-то буржуёв поймали на том, что в их .doc-ах нашлась доп. информация я поражаюсь - они заполняют "свойства документа" (автор, дата и т.п.) Как бы и мне научиться... ;)
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
VN_MAClover
Сообщения: 1233
Статус: Человек с бульвара Капуцинов

Re: Кодировки вообщем и utf8 в частности.

Сообщение VN_MAClover »

(Shurik @ Воскресенье, 12 Декабря 2004, 20:18) писал(а):Сразу после установки лезешь сюда:
http://mcmcc.bat.ru/

И откатываешься в прошлый век. Надо UTF-8 локализацию доводить, а не сидеть и держаться за старьё. :new_mad:
In RMS we trust.
Зачем нам Ваши окна, если LAMPочка даёт достаточно света?
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(StraNNicK @ Суббота, 18 Декабря 2004, 12:27) писал(а):А приведённый Вами пример "Уважаемый..." - это как раз прямой аналог untitled001.doc и иже с ними
Как раз хотел привести ещё один реальный пример: "New folder 1/New Folder 1/Документ3.doc".
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

Немного не в тему, но около. Только что буквально рассказали страшную историю.

В одной весьма серьезной академической комиссии вдруг пропали все документы из компьютера - протоколы, переписка и прочее. Зовут моего приятеля (он и рассказывал), говорят - помоги найти. Смотрит - диск C девственно чист, кроме системы и программ ни одного пользовательского файла вааще. Смотрит в корзину (вдруг случайно постирали) - там тоже пусто. Он спрашивает - как все произошло? Ему в ответ: что-то тут машина у нас тормозить начала, мы одного мальчика позвали, он что-то поделал. Работать стало быстрее, а документы пропали. Приятель звонит тому мальчику, спрашивает - что мол делал. Да ничего особенногго, тот отвечает, у них там корзина под завязку была забита, я почистил. Так вот, оказалось, что _всю_ свою документацию они в папке "Корзина" (русская версия виндов была) и хранили. Думали, что это и есть место для хранения бумаг.
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

жЫзнь заставляет хранить файлы в латинице. В роли жЫзни - Illustrator, каковой очень не любит русские имена папок/файлов... :(
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(StraNNicK @ Понедельник, 20 Декабря 2004, 15:08) писал(а):жЫзнь заставляет хранить файлы в латинице. В роли жЫзни - Illustrator, каковой очень не любит русские имена папок/файлов...
Неужто, рускоязычной версии нет?
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
Shurik
Сообщения: 415
ОС: Mandriva 2010.2

Re: Кодировки вообщем и utf8 в частности.

Сообщение Shurik »

(VN_MAClover @ Понедельник, 20 Декабря 2004, 1:17) писал(а):
(Shurik @ Воскресенье, 12 Декабря 2004, 20:18) писал(а):Сразу после установки лезешь сюда:
http://mcmcc.bat.ru/

И откатываешься в прошлый век. Надо UTF-8 локализацию доводить, а не сидеть и держаться за старьё. :new_mad:



Хммм...
Надысь надумал я пересобрать mplayer Даю ему опцию при ./configure --language=ru Собираю. Запускаю. Каракули. Меняю UTF-8 на KOI8-R. Собираю. Запускаю. Всё на отличном русском.
Понимаешь, какое дело, не нужна мне гуёвина на английском-немецком-французском-китайском и пр. 180 (или сколько там) языками. На русском нужна. Вот такое вот у меня скромное требование к программам. Интерфейс - русский. Я не слишком много запросил?
Спасибо сказали: