Доброго времени суток!
Как заставить TeTeX понимать японские символы(включая настройку шрифтов)? Долго искал, но ни одного человеческого мануала не нашел, а по остальным обрезкам ничего путного не вышло.
P.S. Slackware
LaTeX, Japanese characters
Модератор: /dev/random
-
NickLion
- Сообщения: 3408
- Статус: аватар-невидимка
- ОС: openSUSE Tumbleweed x86_64
Re: LaTeX, Japanese characters
Проще всего — использовать XeTeX/XeLaTeX — модификацию TeX/LaTeX с нативной поддержкой юникода.
-
BratSinot
- Сообщения: 812
- ОС: Slackware64
-
Hephaestus
- Сообщения: 3728
- Статус: Многоуважаемый джинн...
- ОС: Slackware64-14.1/14.2
Re: LaTeX, Japanese characters
Юникод. Но для японского языка этого не достаточно. Там нужно UTF-16, вроде бы, не меньше.
-
rm_
- Сообщения: 3340
- Статус: It's the GNU Age
- ОС: Debian
Re: LaTeX, Japanese characters
Неправда, UTF-8 достаточно.
-
Hephaestus
- Сообщения: 3728
- Статус: Многоуважаемый джинн...
- ОС: Slackware64-14.1/14.2
Re: LaTeX, Japanese characters
Может быть. Спорить не буду.
Ссылку сейчас не найду, но для каких-то языков нужно не меньше двух байтов.
Вроде какие-то восточные языки. Хотя я мог и перепутать.
-
NickLion
- Сообщения: 3408
- Статус: аватар-невидимка
- ОС: openSUSE Tumbleweed x86_64
Re: LaTeX, Japanese characters
Длина символа в UTF-8 переменная от 1 байта для латиницы, 2-х для кириллицы, например, и до 4-х для текущего диапазона Юникода, в теории расширяется ещё до 6-ти байт. Охват Юникода у UTF-8 ровно такой же как у UTF-16 (у которого символ может занимать 2 или 4 байта — суррогатные пары) и UTF-32.
-
NickLion
- Сообщения: 3408
- Статус: аватар-невидимка
- ОС: openSUSE Tumbleweed x86_64
-
sash-kan
- Администратор
- Сообщения: 13939
- Статус: oel ngati kameie
- ОС: GNU
Re: LaTeX, Japanese characters
перепутали·
с помощью кодировки utf-8 можно представить любой из ныне зарегистрированных символов unicode·
p.s. с помощью utf-16 тоже можно представить·
p.p.s. вы, возможно, думаете, что 16-ти бит достаточно для представления всех ныне зарегестированных символов? увы… wikipedia://List of Unicode characters
Писать безграмотно - значит посягать на время людей, к которым мы адресуемся, а потому совершенно недопустимо в правильно организованном обществе. © Щерба Л. В., 1957
при сбоях форума см.блог
при сбоях форума см.блог
-
watashiwa_daredeska
- Бывший модератор
- Сообщения: 4038
- Статус: Искусственный интеллект (pre-alpha)
- ОС: Debian GNU/Linux
Re: LaTeX, Japanese characters
16 байт-то достаточно для представления всех ныне зарегестрированных codepoint'ов :) А вот символов… даже затрудняюсь сказать, сколько байт нужно. Мне не известно об ограничениях на длину паровоза combining'ов.
Мои розовые очки
-
rm_
- Сообщения: 3340
- Статус: It's the GNU Age
- ОС: Debian
Re: LaTeX, Japanese characters
sash-kan писал(а): ↑06.02.2012 17:09p.s. с помощью utf-16 тоже можно представить·
p.p.s. вы, возможно, думаете, что 16-ти байт достаточно для представления всех ныне зарегестированных символов? увы… wikipedia://List of Unicode characters
UTF-16 называется так потому что 16 бит, а не байт: https://en.wikipedia.org/wiki/UTF-16
но она тоже переменной ширины, и ею можно всё что угодно представить.
А вот в случае с UCS-2, 16-битной кодировкой постоянной ширины, уже нет: https://en.wikipedia.org/wiki/UCS-2
Только через т.н. суррогатные пары, которые не везде поддерживаются и вообще криво работают.
Если же речь об упомянутых 16 байтах, так это ведь 128 бит, 2128, или 3.40282367 x 1038. Подозреваю, в это число легко поместятся все существующие и когда либо существовавшие символы человеческих языков, и не по одному миллиону раз каждый.
-
BratSinot
- Сообщения: 812
- ОС: Slackware64
Re: LaTeX, Japanese characters
Так, что-то я немного не понял. UTF-8 не 8-битная? Хотя я тут по кодам символов посмотрел, вроде где-то 8-бит, а потом идет 16-бит. UTF-8 имеет переменный размер символа? А тогда, чем UTF-8 отличается от UTF-16?
Я тут посмотрел и увидел, что для XeTeX нужен TeTeX или TeXlive. Значит XeTeX это тоже простое дополнение?
-
NickLion
- Сообщения: 3408
- Статус: аватар-невидимка
- ОС: openSUSE Tumbleweed x86_64
Re: LaTeX, Japanese characters
Да, я вроде выше писал, что в UTF-8 символ может занимать 1 байт (символы с кодом 0-127), 2 байта (символы с кодом 128-2047), 3 (2048-65535), 4 байта (65536-2097151). Также спокойно расширяется на 5 и 6 байт (до кода 231-1), но пока не потребовалось.
Отличие UTF-16 в том, что там используется 2 байта для большинства символов, а для остального — суррогатные пары. Кодовое простарнство UTF-8 на данный момент 0 - 221-1 (чуть более 2 млн) и теоретически до 231-1. А UTF-16 < 220. Впрочем пока и этого хватает, хотя некоторые китайцы жалуются. Плюс есть UTF-16 LE и BE.
Отличие UTF-16 в том, что там используется 2 байта для большинства символов, а для остального — суррогатные пары. Кодовое простарнство UTF-8 на данный момент 0 - 221-1 (чуть более 2 млн) и теоретически до 231-1. А UTF-16 < 220. Впрочем пока и этого хватает, хотя некоторые китайцы жалуются. Плюс есть UTF-16 LE и BE.
Нет, просто использует определения. Движок там отдельный (напрямую в PDF умеет).Я тут посмотрел и увидел, что для XeTeX нужен TeTeX или TeXlive. Значит XeTeX это тоже простое дополнение?
-
sash-kan
- Администратор
- Сообщения: 13939
- Статус: oel ngati kameie
- ОС: GNU
Re: LaTeX, Japanese characters
watashiwa_darede...
rm_
ну оговорился·
конечно, я подразумевал, что в 16 _бит_ не влезут все ныне зарегистрированные символы·
p.s. сейчас поправлю пост, а то «образованные просто одолели», и не обманешь их даже…
rm_
ну оговорился·
конечно, я подразумевал, что в 16 _бит_ не влезут все ныне зарегистрированные символы·
p.s. сейчас поправлю пост, а то «образованные просто одолели», и не обманешь их даже…
Писать безграмотно - значит посягать на время людей, к которым мы адресуемся, а потому совершенно недопустимо в правильно организованном обществе. © Щерба Л. В., 1957
при сбоях форума см.блог
при сбоях форума см.блог