LaTeX, Japanese characters

Софт под Linux, разные программы, но только связанные с Linux

Модератор: /dev/random

BratSinot
Сообщения: 812
ОС: Slackware64

LaTeX, Japanese characters

Сообщение BratSinot »

Доброго времени суток!

Как заставить TeTeX понимать японские символы(включая настройку шрифтов)? Долго искал, но ни одного человеческого мануала не нашел, а по остальным обрезкам ничего путного не вышло.
P.S. Slackware
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: LaTeX, Japanese characters

Сообщение NickLion »

Проще всего — использовать XeTeX/XeLaTeX — модификацию TeX/LaTeX с нативной поддержкой юникода.
Спасибо сказали:
BratSinot
Сообщения: 812
ОС: Slackware64

Re: LaTeX, Japanese characters

Сообщение BratSinot »

NickLion писал(а):
06.02.2012 09:37
Проще всего — использовать XeTeX/XeLaTeX — модификацию TeX/LaTeX с нативной поддержкой юникода.

Я может конечно и не прав, но UTF-8 разве не Unicode?
Спасибо сказали:
Аватара пользователя
Hephaestus
Сообщения: 3728
Статус: Многоуважаемый джинн...
ОС: Slackware64-14.1/14.2

Re: LaTeX, Japanese characters

Сообщение Hephaestus »

BratSinot писал(а):
06.02.2012 13:45
Я может конечно и не прав, но UTF-8 разве не Unicode?
Юникод. Но для японского языка этого не достаточно. Там нужно UTF-16, вроде бы, не меньше.
Пускай скрипят мои конечности.
Я - повелитель бесконечности...
Мой блог
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: LaTeX, Japanese characters

Сообщение rm_ »

fflatx писал(а):
06.02.2012 15:16
BratSinot писал(а):
06.02.2012 13:45
Я может конечно и не прав, но UTF-8 разве не Unicode?
Юникод. Но для японского языка этого не достаточно. Там нужно UTF-16, вроде бы, не меньше.

Неправда, UTF-8 достаточно.
Спасибо сказали:
Аватара пользователя
Hephaestus
Сообщения: 3728
Статус: Многоуважаемый джинн...
ОС: Slackware64-14.1/14.2

Re: LaTeX, Japanese characters

Сообщение Hephaestus »

rm_ писал(а):
06.02.2012 15:21
Неправда, UTF-8 достаточно.
Может быть. Спорить не буду.
Ссылку сейчас не найду, но для каких-то языков нужно не меньше двух байтов.
Вроде какие-то восточные языки. Хотя я мог и перепутать.
Пускай скрипят мои конечности.
Я - повелитель бесконечности...
Мой блог
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: LaTeX, Japanese characters

Сообщение NickLion »

Длина символа в UTF-8 переменная от 1 байта для латиницы, 2-х для кириллицы, например, и до 4-х для текущего диапазона Юникода, в теории расширяется ещё до 6-ти байт. Охват Юникода у UTF-8 ровно такой же как у UTF-16 (у которого символ может занимать 2 или 4 байта — суррогатные пары) и UTF-32.
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: LaTeX, Japanese characters

Сообщение NickLion »

BratSinot писал(а):
06.02.2012 13:45
Я может конечно и не прав, но UTF-8 разве не Unicode?

В родном TeX/LaTeX поддержка UTF-8 сделана через пень-колоду, ибо родной двжок поддерживает только 8-битные кодировки, к которым UTF-8 не относится.
Спасибо сказали:
Аватара пользователя
sash-kan
Администратор
Сообщения: 13939
Статус: oel ngati kameie
ОС: GNU

Re: LaTeX, Japanese characters

Сообщение sash-kan »

fflatx писал(а):
06.02.2012 15:34
Хотя я мог и перепутать.
перепутали·
с помощью кодировки utf-8 можно представить любой из ныне зарегистрированных символов unicode·

p.s. с помощью utf-16 тоже можно представить·
p.p.s. вы, возможно, думаете, что 16-ти бит достаточно для представления всех ныне зарегестированных символов? увы… wikipedia://List of Unicode characters
Писать безграмотно - значит посягать на время людей, к которым мы адресуемся, а потому совершенно недопустимо в правильно организованном обществе. © Щерба Л. В., 1957
при сбоях форума см.блог
Спасибо сказали:
watashiwa_daredeska
Бывший модератор
Сообщения: 4038
Статус: Искусственный интеллект (pre-alpha)
ОС: Debian GNU/Linux

Re: LaTeX, Japanese characters

Сообщение watashiwa_daredeska »

sash-kan писал(а):
06.02.2012 17:09
16-ти байт достаточно для представления всех ныне зарегестированных символов? увы…
16 байт-то достаточно для представления всех ныне зарегестрированных codepoint'ов :) А вот символов… даже затрудняюсь сказать, сколько байт нужно. Мне не известно об ограничениях на длину паровоза combining'ов.
Спасибо сказали:
Аватара пользователя
rm_
Сообщения: 3340
Статус: It's the GNU Age
ОС: Debian

Re: LaTeX, Japanese characters

Сообщение rm_ »

sash-kan писал(а):
06.02.2012 17:09
p.s. с помощью utf-16 тоже можно представить·
p.p.s. вы, возможно, думаете, что 16-ти байт достаточно для представления всех ныне зарегестированных символов? увы… wikipedia://List of Unicode characters

UTF-16 называется так потому что 16 бит, а не байт: https://en.wikipedia.org/wiki/UTF-16
но она тоже переменной ширины, и ею можно всё что угодно представить.

А вот в случае с UCS-2, 16-битной кодировкой постоянной ширины, уже нет: https://en.wikipedia.org/wiki/UCS-2
Только через т.н. суррогатные пары, которые не везде поддерживаются и вообще криво работают.

Если же речь об упомянутых 16 байтах, так это ведь 128 бит, 2128, или 3.40282367 x 1038. Подозреваю, в это число легко поместятся все существующие и когда либо существовавшие символы человеческих языков, и не по одному миллиону раз каждый.
Спасибо сказали:
BratSinot
Сообщения: 812
ОС: Slackware64

Re: LaTeX, Japanese characters

Сообщение BratSinot »

NickLion писал(а):
06.02.2012 16:52
ибо родной двжок поддерживает только 8-битные кодировки, к которым UTF-8 не относится.

Так, что-то я немного не понял. UTF-8 не 8-битная? Хотя я тут по кодам символов посмотрел, вроде где-то 8-бит, а потом идет 16-бит. UTF-8 имеет переменный размер символа? А тогда, чем UTF-8 отличается от UTF-16?

Я тут посмотрел и увидел, что для XeTeX нужен TeTeX или TeXlive. Значит XeTeX это тоже простое дополнение?
Спасибо сказали:
NickLion
Сообщения: 3408
Статус: аватар-невидимка
ОС: openSUSE Tumbleweed x86_64

Re: LaTeX, Japanese characters

Сообщение NickLion »

Да, я вроде выше писал, что в UTF-8 символ может занимать 1 байт (символы с кодом 0-127), 2 байта (символы с кодом 128-2047), 3 (2048-65535), 4 байта (65536-2097151). Также спокойно расширяется на 5 и 6 байт (до кода 231-1), но пока не потребовалось.

Отличие UTF-16 в том, что там используется 2 байта для большинства символов, а для остального — суррогатные пары. Кодовое простарнство UTF-8 на данный момент 0 - 221-1 (чуть более 2 млн) и теоретически до 231-1. А UTF-16 < 220. Впрочем пока и этого хватает, хотя некоторые китайцы жалуются. Плюс есть UTF-16 LE и BE.

Я тут посмотрел и увидел, что для XeTeX нужен TeTeX или TeXlive. Значит XeTeX это тоже простое дополнение?
Нет, просто использует определения. Движок там отдельный (напрямую в PDF умеет).
Спасибо сказали:
Аватара пользователя
sash-kan
Администратор
Сообщения: 13939
Статус: oel ngati kameie
ОС: GNU

Re: LaTeX, Japanese characters

Сообщение sash-kan »

watashiwa_darede...
rm_
ну оговорился·
конечно, я подразумевал, что в 16 _бит_ не влезут все ныне зарегистрированные символы·

p.s. сейчас поправлю пост, а то «образованные просто одолели», и не обманешь их даже…
Писать безграмотно - значит посягать на время людей, к которым мы адресуемся, а потому совершенно недопустимо в правильно организованном обществе. © Щерба Л. В., 1957
при сбоях форума см.блог
Спасибо сказали: