Кодировки вообщем и utf8 в частности. (Обсуждается переход на utf8)

Любые разговоры которые хоть как-то связаны с тематикой форума

Модератор: Модераторы разделов

Аватара пользователя
Shurik
Сообщения: 415
ОС: Mandriva 2010.2

Re: Кодировки вообщем и utf8 в частности.

Сообщение Shurik »

Ещё раз повторяю - все ревизионные органы России принимают документацию на сменных носителях (дискетах) исключительно в DOS-кодировке. Эти самые органы плевать хотели на ЛЮБУЮ кодировку, если она у них не прочитается. Они просто завернут назад твоего бухгалтера вместе с юникодом и пошлют его куда подальше. И будут правы. Им плевать на сесь мир с его унификацией. У него не читается - значит неправильно сделано. Всё! Точка! Катись и делай, согласно установленным нормам. А сдают отчёты АБСОЛЮТНО ВСЕ фирмочки, конторки фирмы и корпорации. В отличии от специализированных фирм, которые пользуются Корелами и прочим. И программы создают свои, согласно установленным нормам. Нигде и ни разу я не слышал, что-бы кто-то эти нормы собирался менять.
Спасибо сказали:
snake
Бывший модератор
Сообщения: 677

Re: Кодировки вообщем и utf8 в частности.

Сообщение snake »

(StraNNicK @ Friday, 13 August 2004, 11:46) писал(а):WinXP? Последние MS Office'ы? Ах, да - у Вас же 386-е...
Да-да-да... Правильно! Новые ОСи и технологии - зло!
Ваша контора == всё прогрессивное человечество.  -_-

Ну зачем же с таким сарказмом то? :huh: Ну что поделать если минфин заставляет работать с досовскими прогами :angry: если думаете, что мне или юзерам это шибко приятно, то вы ошибаетесь. (затрахался я уже, честно говоря, прикручивать всю эту хренотень к винтукею, да еще налаживать печать на уесбишные принтера из-под доса, да еще и русский язык через раз отваливаеться :blink: ) А что делать в такой ситуации? Варианты: "послать минфин лесом" или "выбрать более другое государство" не катят категорически!

(StraNNicK @ Friday, 13 August 2004, 11:46) писал(а):
(Shurik @ Friday, 13 August 2004, 16:19) писал(а):От документооборота с cp866 мы ещё ОЧЕНЬ долго не уйдём. Так-же, как и с koi8-r. Это - Россия. По дорогам которой ещё катаются машины, выпуска 40-х годов, а в конторах стоят компьютеры выпуска 90-х годов. Нравится это кому-то, или нет. Не будут Госучреждения переводить сейчас и разом документацию за 10-12 лет в юникод - это им просто НЕ НУЖНО!

Да, конечно, а я все это время предлагаю расстреливать пользователей других кодировок... <_<

Нет не предлагаете. Однако, как вы себе представляете проверку всего нового софта на совместимость со старыми русскими кодировками? Напомню, что в своей массе производители ключевого софта отнюдь не русскоязычные товарищи и о наших проблемах могут просто недогадываться. Или вы предлагаете всех русских програмистов запрячь писать рускоязычно-специфические патчи? Я, лично, пока ясного выхода из этой проблемы пока не вижу... :unsure:
В реальности все не так, как на самом деле...
JabberID: zmeyk@jabber.ru
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(snake @ Friday, 13 August 2004, 12:00) писал(а):Что ж вы из меня эдакого демона ретрограда делаете?
Да ну что вы... ;)
(snake @ Friday, 13 August 2004, 12:00) писал(а):на что я и ответил: "Юникод, вообще-то, не более чем уже существующий представитель зоопарка кодировок, так что вместо единого стандарта вы просто вводите еще одну кодировку. Обоснуйте зачем?"
К выделенному вами я добавил ещё одно выделение. Вот из-за просматривающегося здесь противоречия я видимо вас и не понял.
(snake @ Friday, 13 August 2004, 12:00) писал(а):И концептуально ничего против не имею, однако, меня беспокоет, что о старых кодировках при этом могут просто забыть (разработчикам то, в основном, проблемы русского языка по-барабану, т.к. говорят они отнюдь не на нем)
Давно уже проблемы языков разработчикам далеко не по барабану. Тем паче, что для большинства этих разработчиков английский -- далеко не родной язык.
(snake @ Friday, 13 August 2004, 12:00) писал(а):а без совместимости новых систем со старым контентом мы получим шуриковский велосипед.
Вот этого "шуриковского велосипеда" я хоть убей понять не могу. Есть сейчас cp866? Живёт и процветает. Хотя вроде и устаревшая. Почему после перехода всего софта на юникод должны вымереть все остальные кодировки? Чем iconv -t utf-8 отличается от iconv -t koi8-r? Или catdoc -d utf-8 от catdoc -d koi8-r? Да и тот же мс-офис уже сейчас, при полной своей внутренней юникодности, запросто импортирует тексты и в cp1251, и в cp866.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
Golden
Сообщения: 163
ОС: Ubuntu Linux 7.10

Re: Кодировки вообщем и utf8 в частности.

Сообщение Golden »

Ребята, у меня конечно нет зоопарка машин как у StraNNicK'а, равно как и нет 386 как у Shurik'а. Но принятая у нас кодировка документооборота - Win-1251 и я пока не вижу причин кроме фанатичных возгласов, чтобы что-либо менять. Равно как я до сих пор использую протокол ICQ - потому как не вижу преимуществ Jabbera над ним (хотя jabber-аккаунт завел - см. подпись).

В целом я согласен со StraNNicK'ом - эра UTF придет неминуемо. Но пока я не вижу причин ее торопить.

Вопрос к тем, кто активно ратует за UTF - приведите, пожалуйста, конкретный пример, где у вас были проблемы с кодировками, а с введением UTF проблемы закончились.
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(Golden @ Friday, 13 August 2004, 12:47) писал(а):Вопрос к тем, кто активно ратует за UTF - приведите, пожалуйста, конкретный пример, где у вас были проблемы с кодировками, а с введением UTF проблемы закончились.
Да ведь уже приводили конкретику: мне нужно редактировать один текст на русском и французском (украинском и немецком, болгарском и чешском, не суть). Это даже не проблемы, это просто невозможность, не менее. У одной моей знакомой живы воспоминания, когда ей приходилось куски одного текста на разных языках набирать по отдельности, править по отдельности, распечатывать по отдельности и собирать черновики чуть ли не ножницами и клеем.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

(Golden @ Friday, 13 August 2004, 18:47) писал(а):Ребята, у меня конечно нет зоопарка машин как у StraNNicK'а, равно как и нет 386 как у Shurik'а. Но принятая у нас кодировка документооборота - Win-1251 и я пока не вижу причин кроме фанатичных возгласов, чтобы что-либо менять. Равно как я до сих пор использую протокол ICQ - потому как не вижу преимуществ Jabbera над ним (хотя jabber-аккаунт завел - см. подпись).

Ээх, развернись рука, раззудись плечо! Даёшь холи вор! ;)

Для начала немного оффтопика - насчет jabber'а. Он удобнее двумя вещами - непроприетарный (читай - никто не закроет центральный сервер. Что? У меня паранойя? Да, профессиональная болезнь...), второе - на нем очень удобно делать корпоративный IM (даже если в конторе - десяток машин)... У меня в одной конторе сейчас стоит самопальная поделка - т.н. Тринитроська - и как я её должен из под Фри пользовать? Под wine она работает безобразно криво... :(
Оффтопик кончился.
(Golden @ Friday, 13 August 2004, 18:47) писал(а):Вопрос к тем, кто активно ратует за UTF - приведите, пожалуйста, конкретный пример, где у вас были проблемы с кодировками, а с введением UTF проблемы закончились.

Читаем мой пост выше -
То-то ко мне регулярно бегают пользователи до-юникодных софтин - разного рода старых Офисов и Корелов - у них, видите-ли кракозяблы...

ОЙ! А еще мне на аську регулярно приходят кракозябры. А вот на изначально юникодный жаббер - не приходят (вот вам и третья выгода)...

Еще раз - куда денется тот же iconv? Да никуда!
gedit - юникодный? Юникодный. В cp1251, koi8-r etc. сохраняет? Сохраняет.
В чем проблема?

Старый неюникодный софт создает проблемы.
Новый юникодный - нет.
После этого Вы мне говорите, что юникод суксь маздайная? Таки я Вам не поверю.

P.S. Шурик, может просто сохранять отчеты в голом .txt, а потом перекодировать?
Под вин [пере]кодировщиков тоже много. Кстати, из личного опыта. Начиная с w2k лучше не парить себе мОзги и запускать DOSовые программы (те самые - из Минфина) не в винде, а в DosBox'е. Сильно уменьшает геморрой. Попробуйте. И удачи... ;)
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
ugoday
Сообщения: 16

Re: Кодировки вообщем и utf8 в частности.

Сообщение ugoday »

Господа, мне тут случайно встретилось одно новое слово, которое великолепно описывает ситуацию с кодировками, -- "зооздец". (зоопарк + пи****).

Ну это так лирика.

>ugoday выдвинул тезу "8-битовые кодировки суксь, они вымрут сразу как только >введеться utf, и больше не будет зоопарка -- один сплошной юникод!"

Читать не умеем? Я говорил, что 8-битные кодировки -- суксь, и чем скорее они вымрут, тем будет лучще, бо некомфортно это, жить в эпоху перемен.

Про недоделанных скриптописателях, для которых сделать нормальную локализацию является невооброзимо сложной задачей. Они сами себе злобные антропоморфные дендромутанты.

Про бух. учёт в ср866. Что-то я не припомню осей с локалью ср866. Так что для этого вам всё равно придётся пользоваться перекодировщиками. Чем, скажите на милость, перекодировка с юникода сложнее перекодирвки из коi-8r?

Про старые досовские программы. А в досе, насколько я знаю, свою локаль в принципе сделать невозможно. Так что всеобщая юникодизация проходит мимо этого старья. И введение юникода проблем не создаёт.

> В Windows проблем с кракозяблами нет.

см. ниже

>- Ну что придурки красноглазые? Опять велосипед изобрели с рулём на жопе и >овальными колёсами? Ни хера по-русски проситать не можете - одни кракозяблы да >квадратики, а ещё пытаетесь Windows подвинуть!

О великий гуру, у меня есть раздел с w2k (fat32) и GNU/Linux (reiserfs). Из линукса всё пишется, читается (правда после небольшого мозготраха с кодировками), а из маздая, я не то что по-руски, по-английски ничего прочитать не могу. И кто, после этого, придурок красноглазый?

>Да, конечно, а я все это время предлагаю расстреливать пользователей других >кодировок...

Я это уже говорил. Не слушают. Есть такая болезнь -- избирательное восприятие.

>Есть сейчас cp866? Живёт и процветает. Хотя вроде и устаревшая.

Почему это ср866 устаревшая? С технической точки зрения все 8-битные кодировки одинаково ущербны.

>Да ведь уже приводили конкретику

Следует добавить, что введение юникода помогает избежать проблем при общении между полиглотом (для которого юникод - спасение) и двуязычного человека (которому вообще пофиг на кодировки)
Увидешь биллгейца - не убивай его, он мой!
Спасибо сказали:
Аватара пользователя
KiWi
Бывший модератор
Сообщения: 2521
Статус: статус, статус, статус

Re: Кодировки вообщем и utf8 в частности.

Сообщение KiWi »

(ugoday @ Friday, 13 August 2004, 15:59) писал(а):Про недоделанных скриптописателях, для которых сделать нормальную локализацию является невооброзимо сложной задачей.

Так говорю _только_ про себя(веб скриптописатель):
если что-то не будет отображаться _хоть_ у одного пользователя так, как это задумывалось, то я быстрее откажусь от скрипта, чем выложу в и-нет...
Каждый пользователь - золото... И у меня сейчас не встаёт проблем при использовании koi8-r или cp1251... я _сначала_ сделаю сайт в какой-то из этих кодировок, а _потом_ _может_быть_ в юникоде... так как конвертировать из cp1251 в koi8-r _легче_ и результат будет 100%, так как я на 100% уверен, что без каких-либо дополнительных модулей или скриптов при помощи php я смогу конвертировать из koi8-r в cp1251...
я сейчас на стороне koi8-r и остального зоопарка, так как с ними у меня не возникает _никаких_ проблем с кодировками...
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(ugoday @ Friday, 13 August 2004, 15:59) писал(а):Про бух. учёт в ср866. Что-то я не припомню осей с локалью ср866.

(ugoday @ Friday, 13 August 2004, 15:59) писал(а):А в досе, насколько я знаю, свою локаль в принципе сделать невозможно.
Ну да. А какая в ней "локаль", как не cp866?
(ugoday @ Friday, 13 August 2004, 15:59) писал(а):Почему это ср866 устаревшая?
Потому. Устаревшая -- это не с технической, а с исторической точки зрения.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
Shurik
Сообщения: 415
ОС: Mandriva 2010.2

Re: Кодировки вообщем и utf8 в частности.

Сообщение Shurik »

(ugoday @ Friday, 13 August 2004, 15:59) писал(а):О великий гуру, у меня есть раздел с w2k (fat32) и GNU/Linux (reiserfs). Из линукса всё пишется, читается (правда после небольшого мозготраха с кодировками), а из маздая, я не то что по-руски, по-английски ничего прочитать не могу. И кто, после этого, придурок красноглазый?


Т.е. документ, созданный в Linux с использованием UTF-8 ты не можешь прочитать в W2K? И что тут странного? Абсолютно нормально. Мелкософт сейчас себе репу чешет - ввёл в ОфисХР и Офис2003 UTF-8, как основную - документы, созданные в них, перестали понимать более ранние Офисы. Их посносили, и ОфисХР и Офис 2003. Парится с кодировками и юникодом не захотела ни одна контора. И перекодировать тоже ни у кого желания не возникло. Присылают в контору файл - а она им в ответ - у Вас Офис испорченный, наш Офис не понимает - что вы там написали. Отфутболили с одной, конторы, со второй, с третьей и всё! Новый Офис в помойку, опять ставится 2000-ый и нет проблем - все друг друга понимают и живут счастливо. По заявлениям того-же Мелкософта - доля этих Офисов в России менее 1%. Это - полный провал. Основной офис в России - 97 и 2000. Довольно частое явление - Офис 95. Свой ответ Мелкософту и локали UTF-8 Россия выдала однозначный - не нужен! Теперь будешь дожидатся такого-же ответа от Linux-пользователей? Вроде все ратуют за "...даёшь ласты в офис!...", а на деле делается всё возможное, что-бы этих самых "ласт" в офисе на дух не было!
Три кита, на которых сейчас необходимо опиратся для внедрения "ласт" в офис - cp1251, koi8-r,cp866. UTF-8 в офисе никаким раком и боком не прилепишь. Три ведущие кодировки справляются абсолютно со всеми проблеммами на 5. Добавлять сейчас ещё одну кодировку, а тем более делать её ВЕДУЩЕЙ кодировкой, это будет означать только одно - поставить жирнейший крест на применении "пингвина" в офисе России.
Спасибо сказали:
ugoday
Сообщения: 16

Re: Кодировки вообщем и utf8 в частности.

Сообщение ugoday »

2mani13
Верю, что у вас всё замечательно перекодируется. Но сегодня я лично наблюдал крякозябры два раза, на двух разных сайтах. Браузер - огнелис 0.9.

2.t.t

То что дос работает в ср866, я помню. Но так как в досе юникодную локаль сделать невозможно в принципе, то он и не рассматривается.

>Потому. Устаревшая -- это не с технической, а с исторической точки зрения.

Имхо, устаревший -- это именно техническая точка зрения. То что вы имеете в виду скорее определяется словом "непопулярный". Например, Рахманинов менее популярен чем Тату (или что там сейчас молодёжь слушает), скажете что Рахманинов устарел?

2Shurik

>Т.е. документ, созданный в Linux с использованием UTF-8 ты не можешь прочитать в >W2K?

Шурик, поздравляю тебя, ты балбес. W2k потому не может прочитать линуксовые файлы, что этот беззубый глюкодром не умеет работать с reiserfs. Оно вообще кроме фат и нтфс ни с чем работать не умеет. (про сторонние и бесплатные программы работающие с ext2 я знаю, а вот чтобы читать данные с рейзера нужен paragon driver, который за денюжку). И локаль тут не причём. Я могу хоть ср1251 сделать. Всё равно до своих файлов не до стучусь. Именно по этому у офтопика меньше проблем с крякозябрами ( кстати они есть и здесь. Например при прослушке в винампе мп3щек с тегами в кодировке ср866)

Что же до их офисов, то они всегда "выгодно" отличались слабой обратной совместимостью (наверно билли так продажи поднимает) и юникод тут не при чём. Более того возможна такая ситуация. Документ создан в мазайном офисе. После этого он открыт на другой машине. Форматирование слетело нафиг. Версии осей и офисов совпадают. Кто знает от чего такое происходит? (подсказка, юникод тут не при чём).

>Основной офис в России - 97 и 2000

Это оттого, что большинству пользователям функционала 97 хватает за глаза. А новый офис, кроме больших тормозов, ничего не даёт. Вот и нет продаж у билли.

Кстати, а башни-близнецы в штатах тоже юникод завалил? А то он у вас во всех грехах повинен. ;)

Да, если хотите передать кому-либо сложный документ и хотите, чтобы он гарантированно открылся правильно, то используйте pdf и не парьте мозги окружающим. Правда данный метод предполагает, что принимающая сторона не будет модифицировать ваш документ.

Мечтательно, ах когда же наконец народ осознает рулезность LaTeX'а. Вот с ним таких проблем точно нет.
Увидешь биллгейца - не убивай его, он мой!
Спасибо сказали:
JrKI
Сообщения: 79

Re: Кодировки вообщем и utf8 в частности.

Сообщение JrKI »

Shurik
[quote]у Вас Офис испорченный, наш Офис не понимает - что вы там написали.[quote]
Респект :D. Одной фразой так метко описать Русского Ламера :D
[quote]опять ставится 2000-ый[quote]
ИМХО самая рулезная версия офиса.
[quote]доля этих Офисов в России менее 1%. Это - полный провал. [quote]
Патамушта нада прадавать "хреновый" офис по 100 рублей, а не по x $.
[quote]Основной офис в России - 97 и 2000.[quote]
А основной комп в России - это Pentium Pro + 16 MB RAM + Win 98
[quote]Довольно частое явление - Офис 95. [quote]
А также лексикон, а то еще и edit.com :D
[quote]Свой ответ Мелкософту и локали UTF-8 Россия выдала однозначный - не нужен![quote]
"Дуракам закон не писан"
[quote]Теперь будешь дожидатся такого-же ответа от Linux-пользователей? Вроде все ратуют за "...даёшь ласты в офис!...", а на деле делается всё возможное, что-бы этих самых "ласт" в офисе на дух не было![quote]
ИМХО все что касается работы - делать надо в офисе 2000 через ж..у в виде кодировок koi8-r/cp1251, а все что работы не касается - в UTF-8.
[quote]UTF-8 в офисе никаким раком и боком не прилепишь.[quote]
А еще я удивляюсь - почему везде стоят Wintel / Lintel / Wamd / Lamd компы, а не "Микроши" какие-нибудь.
[quote]Три ведущие кодировки справляются абсолютно со всеми проблеммами на 5.[quote]
"Дуракам закон не писан"? Почему вместо одной кодировки надо использовать три?
[quote]Добавлять сейчас ещё одну кодировку, а тем более делать её ВЕДУЩЕЙ кодировкой [quote]
... требуется для излечения ламерства
[quote]поставить жирнейший крест на применении "пингвина" в офисе России.[quote]
А на пингвине сейчас все стараются крест поставить. Не приживется в офисах - приживется дома.
Спасибо сказали:
Аватара пользователя
Shurik
Сообщения: 415
ОС: Mandriva 2010.2

Re: Кодировки вообщем и utf8 в частности.

Сообщение Shurik »

Я уже давным-давно выяснил одну простую вещь - когда человеку сказать и (или) возразить не чего, то он переходит к аргументам - сам дурак!
Спасибо сказали:
snake
Бывший модератор
Сообщения: 677

Re: Кодировки вообщем и utf8 в частности.

Сообщение snake »

(Shurik @ Friday, 13 August 2004, 19:28) писал(а):Мелкософт сейчас себе репу чешет - ввёл в ОфисХР и Офис2003 UTF-8, как основную - документы, созданные в них, перестали понимать более ранние Офисы.
:huh:
А вы ни чего не путаете???
Водораздел был между 95 офисом (кстати так он называеться только на пиратских сидюках) и 97-м, с которого начиная, внутри *.doc и *.xls файлов используеться юникод. А файлы созданые в икспишном офисе легко читаються во всех предыдущих офисах начиная с 97-го. Не без приколов, конечно, иногда, но в подавляющем большинстве случаев. Проблемы только с аксесом -- тот действительно мутирует от версии к версии. За базар отвечаю, сам делал такое много раз и везде ставлю именно хр офис, если конечно ресурсы позволяют, тем более что лицензионных их у нас есть ;) Но и это еще не все -- до сих пор в любой версии, положим, ворда сохраняеться возможность создавать документы прекрасно читающиеся в любом ворде начиная от 6-го (тот, который к win 3.x прикручивали), для это достаточно сохранить документ в формате этого самого 6-го ворда, делов -- 3 секунды!

(Shurik @ Friday, 13 August 2004, 19:28) писал(а):Основной офис в России - 97 и 2000. Довольно частое явление - Офис 95.

Интересно, а на чем вы строите свои оценки?

Вообще, при всей моей нелюбви к микрософту должен отметить, что на моей практике ХР офис реально работает гораздо быстрее и стабильней предшественников, если имееться хотя бы 128 метров памяти и хотя бы 300 целерон.
В реальности все не так, как на самом деле...
JabberID: zmeyk@jabber.ru
Спасибо сказали:
Аватара пользователя
Shurik
Сообщения: 415
ОС: Mandriva 2010.2

Re: Кодировки вообщем и utf8 в частности.

Сообщение Shurik »

to snake

Работаю со старьём. Ты прав - возможность сохранять есть. Только вот о ней практически никто не в курсе. Как есть по умолчанию, так и сохраняют. И так-же отсылают. Вообще, по моим наблюдениям, возможности того-же офиса используются в лучшем случае на 1-2%, не более.
Спасибо сказали:
snake
Бывший модератор
Сообщения: 677

Re: Кодировки вообщем и utf8 в частности.

Сообщение snake »

(Shurik @ Friday, 13 August 2004, 22:13) писал(а):to snake

Работаю со старьём. Ты прав - возможность сохранять есть. Только вот о ней практически никто не в курсе. Как есть по умолчанию, так и сохраняют. И так-же отсылают. Вообще, по моим наблюдениям, возможности того-же офиса используются в лучшем случае на 1-2%, не более.

Ну ламеры пользователи, и это проблема носит системный характер, одним софтом тут ничего не решишь :( Насчет низкого КПД офисов, причем любых (с ООО чуть получше, но общей картины это не меняет) согласен полностью. Но при всем при этом мирное сосуществование в одной среде микромягких вордов и экселей любых версий начина от 97 и до XP (с 2003 не имел дело -- судить не берусь) не представляет никаких проблем в большинстве случаев -- это факт! Могу еще подкинуть примерчик как сквозная и прозрачная юникодизация дает сбои: Например, имеем файлик *.txt в cp1251 (из W98) там несколько строк на русском языке. Открываем его в w2k и методом cut&paste вставляем эти строки в какой либо системный диалог настройки (Название пользователя електронной почты, например). Получаем в итоге, что все русские буквы заменились на знаки вопроса "?" :o :angry: Как в старые добрые времена третей нетскапы, которая не дружила с русским из жаба скрипта, вобщем -- "время назад!" :devil_2:
В реальности все не так, как на самом деле...
JabberID: zmeyk@jabber.ru
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

Почитал тут после большого перерыва, и вспомнилось: "Я русский бы выучил только за то, что им разговаривал Ленин" (С) Владимир Маяковский

Snake эту проблему уже затрагивал - сакцентирую на ней внимание.

Почему на эсперанто, который можно выучить за 5 недель, разговаривает/пишет/читает _всего_ 5 млн человек? И почему большинство людей предпочитают по 5 лет учить английский/французский/немецкий, а то и по 10 - японский или китайский? Да потому, что на английском писал Шекспир, Шеридан, Голсуорси, Толкин (нужное вписать). На французском - Вийон, Рабле, Стендаль, Ростан (с именами поступит аналогично). На немецком - Шиллер, Гейне и так далее. Не говоря уже о научно-технической литературе: был такой великий немецкий геолог, Ганс Штилле, так вот, его литературный талант (каковой оценить можно только в подлиннике) определил развитие геологии на десятилетия...

А чего ради учить (пусть за 5 недель) эсперанто? Писали на нем авторы масштаба Диккенса или Гёте? Есть на нем что-то аналогичное "Шах-наме" (фарси-дари) или "Джангариаде" (монгольский ойратский)? Или на нем публиковались классики физики/химии.математики? Да хоть линуксовые man'ы или howto'и на нем есть?

Так что если мне так уж приспичит учить какой-то язык, то я лучше затрачу должное время на тот, на котором почитать есть чего (то есть - любой из перечисленных, плюс еще многих других). А сэкономленные на изучении эсперанто 5 недель потрачу на чтение _хорошей_ литературы в _хороших_ русских переводах. Не то, кончено, что оригинал, но лучше, чем ничего.

Аналогично и с нашей коровой, сиречь UTF. Как правильно отметил snake, существует немерянно цифрового контента в cp866 (разного), в koi8 (вспомним Мошкова), появилось - в cp1251. А вот в UTF - еще поискать нужно. Так за каким таким зеленым мне он нужен? Чтобы все собранные доки (а это - многие и многие мегабайты html'ок) в него перекодировать? Или все, что я из Мошкова люблю почитывать? Не говоря уже о собственных сочинениях (а им счет тоже на многие мегабайты идет, между прочим).
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(Shurik @ Friday, 13 August 2004, 19:28) писал(а):Мелкософт сейчас себе репу чешет - ввёл в ОфисХР и Офис2003 UTF-8, как основную
Что-то я не понимаю. У меня дома офиса выше 97-го отродясь не бывало. И тем не менее все .doc-файлы юникодные...
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

И кстати, в офисе XP, который на работе, все мои старые "домашние" документы нормально пооткрывались, и он даже не ругался, что старая версия.

(ugoday @ Friday, 13 August 2004, 20:02) писал(а):>Потому. Устаревшая -- это не с технической, а с исторической точки зрения.

Имхо, устаревший -- это именно техническая точка зрения. То что вы имеете в виду скорее определяется словом "непопулярный". Например, Рахманинов менее популярен чем Тату (или что там сейчас молодёжь слушает), скажете что Рахманинов устарел?
Ну, знаете, точки зрения у вас... linux 2.6.x сейчас наверняка менее популярен (в общей массе), чем дос
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

Вот смотрите. Пример. На пальцах.
Есть ICQ. А в ней кодировки. Разные. Потому что писалась изначально для одной кодировки.
И приходят периодически кракозябры.
Есть Jabber. Юникодный изначально. Кракозябров нет. И не будет.

Есть куча старых текстов. В разных кодировках. Перегонять их в юникод не надо.
Надо новые программы и ОСи, которые изначально юникодные. И всё.

Насчет эсперанто - читал учебник. После 12 страницы смог осмысленно читать (и понимать) текст. Т.е. дело только за словарным запасом (который на 90% совпадает со словами европейских языков). Да, это не панацея. Да, он не отменяет необходимости учить, например, английский. НО. Криво перевести с эсперанто не сможет даже программа. Подробнее: мои знания английского достаточны для перевода С англиского. Писать на нём (или переводить НА него) я не рискну. Ибо сложен и неоднозначен. А вот выложить на сайте свой текст на эсперанто - пожалуйста.
Почему и зачем?
Да потому, что любая программа-переводчик переведёт этот текст вполне адекватно. В отличие от.
Да, еще один костыль. Но куда мы без них?
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(alv @ Monday, 16 August 2004, 10:27) писал(а):Аналогично и с нашей коровой, сиречь UTF. Как правильно отметил snake, существует немерянно цифрового контента в cp866 (разного), в koi8 (вспомним Мошкова), появилось - в cp1251. А вот в UTF - еще поискать нужно. Так за каким таким зеленым мне он нужен? Чтобы все собранные доки (а это - многие и многие мегабайты html'ок) в него перекодировать? Или все, что я из Мошкова люблю почитывать? Не говоря уже о собственных сочинениях (а им счет тоже на многие мегабайты идет, между прочим).
Вот в этом я ugoday'а и не пойму. Если мне нужно редактировать двух-(трёх-...)язычный текст -- тогда я за юникод обеими руками, и готов ради этого выбирать инструмент "под юникод". Но те тексты, которые я пишу/читаю только на русском (русском/английском) я предпочту писать/читать теми средствами, которые мне удобнее/привычнее, и не прикручивать к ним граблей в виде юникода.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

Повторюсь.
Когда вводили ASCII - с буржуинскими кодировками была та же свистопляска.
И не надо говорить, что компов было мало - перевести легче.
Меньше чем сейчас, да. Но мэйнфреймы. И IBM как-то не горела желанием менять свою кодировку на какой-то "стандарт"...
Ровно та же ситуация.
Прошло 30 лет. Кто теперь задумывается в какой кодировке читать английский текст?
Если мне нужно редактировать двух-(трёх-...)язычный текст -- тогда я за юникод обеими руками, и готов ради этого выбирать инструмент "под юникод". Но те тексты, которые я пишу/читаю только на русском (русском/английском) я предпочту писать/читать теми средствами, которые мне удобнее/привычнее, и не прикручивать к ним граблей в виде юникода.

В чем грабли? В новом emacs - unicode кодировка по умолчанию. От этого он перестал быть emacs? utf-8 - просто кодировка. Почему - грабли?
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
alv
Бывший модератор
Сообщения: 7275
Статус: Пенсионер в законе
ОС: Cintu

Re: Кодировки вообщем и utf8 в частности.

Сообщение alv »

(StraNNicK @ Monday, 16 August 2004, 11:02) писал(а):Вот смотрите. Пример. На пальцах.
Есть ICQ. А в ней кодировки. Разные. Потому что писалась изначально для одной кодировки.
И приходят периодически кракозябры.
Есть Jabber. Юникодный изначально. Кракозябров нет. И не будет.

Есть куча старых текстов. В разных кодировках. Перегонять их в юникод не надо.
Надо новые программы и ОСи, которые изначально юникодные. И всё.

Насчет эсперанто - читал учебник. После 12 страницы смог осмысленно читать (и понимать) текст. Т.е. дело только за словарным запасом (который на 90% совпадает со словами европейских языков). Да, это не панацея. Да, он не отменяет необходимости учить, например, английский. НО. Криво перевести с эсперанто не сможет даже программа. Подробнее: мои знания английского достаточны для перевода С англиского. Писать на нём (или переводить НА него) я не рискну. Ибо сложен и неоднозначен. А вот выложить на сайте свой текст на эсперанто - пожалуйста.
Почему и зачем?
Да потому, что любая программа-переводчик переведёт этот текст вполне адекватно. В отличие от.
Да, еще один костыль. Но куда мы без них?


По поводу аськи и джаббера - согласен (тем боее, что ни тем, ни другим не пользуюсь:-)

А вот по поводу эсперанто (это - не оффтопик, аналогия с юникодом вполне прозрачна)...

М.б. в качестве lingua franca он и подошел бы (в рассчете на машинный перевод), но с этой ролью справляется в науке/технике английский (а в других сферах - например, французский, который до сих пор международный язык почтовых служб, не электронных, разумеется). Плюс любой из естественных языков (даже используемый в качестве lмеждународного) предоставляет возможность читать литературу на оном, плюс - это вхождение в мир людей с иным менталитетом. (стереотипом поведения, как говаривал старик Гумилев). А на эсперанто - читать нечего, менталитет - разве что энтузиастов или фанатиков постигать, но они все одинаковы, будь хоть чукчами, хоть полинезийцами.

Что же касается - писать по английски, так это гораздо проще, чем переводить на него с русского. Примером чему - Джозеф Конрад, английский для него родным так и не стал, говорил он на нем плохо, тем не менее, считается не последним стилистом в англоязычной литературе.
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

(alv @ Monday, 16 August 2004, 17:57) писал(а):М.б. в качестве lingua franca он и подошел бы (в рассчете на машинный перевод), но с этой ролью справляется в науке/технике английский (а в других сферах - например, французский, который до сих пор международный язык почтовых служб, не электронных, разумеется).

Позволю себе с Вами не согласиться.
Почему чем дальше, тем чаще в машинных переводчиках в качестве прослойки попадается, например loglan (то же эсперанто - вид сбоку)? Потому что обратной стороной богатства и выразительности языка является его непрозрачность. Корректно перевести фразу с одного языка на другой - задача зачастую сложная даже для человека, который всё-же работает не с отдельно взятой фразой, но в общем контексте. Эсперанто же позволяет не задумываться о том ЧТО хотел сказать автор, в силу своей прозрачности.
Небольшой экскурс в сторону - чем отличается авторский стиль от "новостного"? Первый должен быть максимально непрозрачным, в отличие от второго. Под словом непрозрачный, в данном случае будем понимать использование автором слов не из стандартного обихода, т.е. применение авторского стиля. Авторский текст тем и ценен, что он живой, сочный, дышащий... Акцент (и большой) делается не только (а зачастую - и не столько) на то ЧТО написано, но и на то КАК написано. Новостной же стиль ставит перед собой задачу максимально быстро и полно донести до адресата информацию. Т.е. важно именно ЧТО написано, а вовсе не КАК.
Так вот, эсперанто по-моему, именно средство выражения для "информационного" стиля. Пример: пишем страничку на родном языке и на эсперанто. Вот с неё-то и будет переводить робот. И можно быть уверенным, что переведёт он - правильно. А куда ж он денется [с подводной лодки...]?
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
t.t
Бывший модератор
Сообщения: 7390
Статус: думающий о вечном
ОС: Debian, LMDE

Re: Кодировки вообщем и utf8 в частности.

Сообщение t.t »

(StraNNicK @ Monday, 16 August 2004, 11:42) писал(а):В чем грабли? В новом emacs - unicode кодировка по умолчанию. От этого он перестал быть emacs? utf-8 - просто кодировка. Почему - грабли?
Я про юникодную локаль. Когда я пробовал на неё перейти, грабли были. Правда, пол-года уже прошло, может сейчас их уже и нет? А про emacs это, конечно, хорошо, да вот только я в основном в консоли работаю. Так что мне юникодный emacs без юникодной локали, в принципе, нафиг не упал. Так что, если объясните, что граблей нет -- я за. А так, мы пока так посидим.
¡иɯʎdʞ ин ʞɐʞ 'ɐнɔɐdʞǝdu qнεиж
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

Матерясь и ругаясь, пытаюсь прикрутить юникодную локаль к фрибсд...
Приглашаются болельщики.
Олимпиада, блин...
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
zenwolf
Бывший модератор
Сообщения: 3139
Статус: Страшный и злой
ОС: Slackware..Salix..x86_64

Re: Кодировки вообщем и utf8 в частности.

Сообщение zenwolf »

(StraNNicK @ Tuesday, 17 August 2004, 12:54) писал(а):Матерясь и ругаясь, пытаюсь прикрутить юникодную локаль к фрибсд...
Приглашаются болельщики.
Олимпиада, блин...

ага -счастья тебе ,если сделаешь я тебя пытать буду на медленном огне причём :D
,потом ты об этом книгу напишеь и получишь гонорар - хороша жизнь всё таки !!
Quae videmus quo dependet vultus. (лат) - То, что мы видим, зависит от того, куда мы смотрим.
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

Книгу, не книгу, но статья у доброго дяденьки alv'а точно будет.
Кстати, его статья УЖЕ здорово помогла.
Процесс идёт... ;)
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали:
Аватара пользователя
Shurik
Сообщения: 415
ОС: Mandriva 2010.2

Re: Кодировки вообщем и utf8 в частности.

Сообщение Shurik »

Лично я думаю так - если Linux в России это только декстопы, то нет вопросов, юникод предпочтителен. Если всё-таки Linux на производство, в офисы, конторы и конторочки - про юникод НЕОБХОДИМО забыть и прикручивать его исключительно, как модуль. Дополнительный.
Минфин ни за что не согласится переводить свой контент в юникод. А основные документы по России, которые сдают АБСОЛЮТНО ВСЕ КОНТОРЫ - Налоговая, Пенсионный и т.д. - это отнюдь не юникод. Даже не так важна cp1251, как к примеру cp866, или koi8-r. Практически весь Рунет - koi8-r, вся документация Минфина - cp866. От этого и необходимо плясать. Тут alv писал про контент и-нета. Да, много переводить придётся, но задумайтесь, какой контент в Минфине? Документы с со ВСЕЙ России в электронном виде в cp866 начиная примерно с 1995 года! За 9 лет со всей России. Абсолютно со всех корпораций и конторочек из 2-3-х человек! А налоговая? Сотни миллионов в ГОД! Пенсионный? Опять-же сотни миллионов в ГОД! Это сотни ТЕРРАБАЙТ информации! А Статистика (ЦСУ), её тоже переводить? Её УЖЕ перевели на cp866 с бумаг в элетронный вид. Перекодировать? Кто может поручится за АБСОЛЮТНО БЕЗУПРЕЧНУЮ ПРОГРАММУ ПЕРЕКОДИРОВКИ? Одна запятая не там - и фирма либо переплатила незнамо сколько, либо её владельцев - под суд! Перекодировать Минфин и другие организации не будут однозначно, а это значит необходимо считатся с реалиями России, её "исконно" русскими кодировками и русским языком, а не с реалиями прогрессивной части общества, эсперанто и юникодом.
Поймём это - пингвин зашагает в офис и получит госфинансирование на разработки, не поймём - Linux будет для России любительской поделкой Линуса Торвальдса. Исключительно для декстопов и эстетствующих пользователей.
Спасибо сказали:
Аватара пользователя
StraNNicK
Бывший модератор
Сообщения: 1005
Статус: добрый хиппи

Re: Кодировки вообщем и utf8 в частности.

Сообщение StraNNicK »

Knock, knock Neo!
Шурик, Вы вообще читате, что я, например, пишу?
В windows cp866 - основная кодировка? Или DOS у нас самая распространенная ОС?
Повторяю в незнаюкакойраз - не надо перекодировать старый контент. Не надо.
Еще раз: не надо. Совсем.
Написать перекодировщик текста из одной кодировки в другую - задачка для студента второго курса (я, помниться, написал перекодировщик koi8->cp1251 имея на руках только файл в koi8 и MS Office'97 в качестве среды программирования...). К тому же есть масса достойных программ такого толка (iconv, uiconv, recode - несть им числа). Они что - резко исчезнут? Как раз нет. Именно из-за большого количества унаследованного контента в разнообразнейших кодировках...
Юникод - для гарантированного отсутствия проблем при переносе документов между современными ОСями и платформами. А написать скрипт вида iconv -f UTF-8 -t cp866 доступно любому мало-мальски разбирающемуся в Лине человеку. Прикрутить скрипт к иконке и научить секретаршу запускать его - тоже не архисложно.
Так зачем откатываться на заведомо малораспространенную кодировку?
И почему всё-же нельзя использовать юникод?
Ушёл навсегда. В личку не заглядываю.
Спасибо сказали: