<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<html>
  <head>

    <meta http-equiv="content-type" content="text/html; charset=UTF-8">
  </head>
  <body bgcolor="#ffffff" text="#000000">
    Hello again, everyone,<br>
    <br>
    I am currently writing an article, in which I also have some
    romanization of Japanese. Until now, I have to define the
    hyphenation manually, which I think is a little bit of a nuisance.<br>
    <br>
    So I wonder if it is possible to include at least hyphenation for
    Japanese, Chinese and Korean? Full support of CJK scripts may be a
    little bit in the future, but I think that at least hyphenation
    patterns shouldn’t be that hard, because the romanizations are quite
    regularly. Unfortunately, I don’t really have any idea how to do
    that, so would someone be willing to help me with it? I think, the
    basic rules would be like that (just some preliminary thoughts):<br>
    <br>
    Japanese - Hepburn:<br>
    Syllable structure are always consonant-vowel or consonant-vowel-n.
    Sometimes, if there is a double consonant (e.g. “<i>asatte</i>”),
    hyphenation should take place between the double consonant. <br>
    <br>
    Chinese - Pinyin:<br>
    Syllables can end with a vowel (<i>lai</i>), n (<i>wan</i>) or ng (<i>zhong</i>).
    Some words like <i>xian </i>cannot be hyphenated, in contrast to
    words like <i>Xi’an</i>. Maybe for that, we could just insert all
    syllables (about 200 or so) in the hyphenation file. Maybe it is
    important that tone marks have to be ignored, so that <i>Zhōngwén </i>is
    treated the same as <i>Zhongwen</i>. <br>
    <br>
    Korean:<br>
    No idea, actually. :(<br>
    <br>
    For Chinese, it would also be nice to have some kind of
    Tone-marks-escaping. Either, for the ease of typing, do it
    automatically when a syllable is followed by a number: Zhōngwén:
    \textchinese{Zhong1wen2}. Or, do it with some kind of escaping:
    \textchinese{\Zhong1\wen2} or something like that. Maybe the first
    method would be nicer to type, but could be a nuisance if you want
    to mix numbers with text, although I think that this will not be the
    case that often. For Wade-Giles, the same thing could be done for
    putting the tone numbers in a superscript (Chung¹-wen²). For that, I
    think the writer has to chose the romanization system in advance. <br>
    <br>
    What do you think about that? Currently, Polyglossia has a huge
    “hole” for CJK languages. Even if there is currently manpower
    lacking for nice full support of the scripts themselves, I think
    romanization is needed as well (maybe even more). If we could start
    with at least hyphenation support for romanization, we could
    gradually improve support of the other features (spacing, word
    breaking rules for Japanese, ruby, vertical writing etc.) as well. I
    think, it is easier to start with some small, easy stuff, instead of
    the difficult features. <br>
    <br>
    I think providing translations for table of contents and so on would
    be easy as well, this could be the next step. <br>
    <br>
    Gerrit<br>
  </body>
</html>