<div dir="ltr">Thank you all for your replies!<div>My programming abilities are quite limited and I realize there aren't many people who need to make hyphenation dictionaries, hence the lack of good Unicode support. But would someone be willing to help with a little more step-by-step help? I am a little confused as how best to map the Khmer Unicode characters to 8-bit values.</div><div>I think it would be quite useful to post a tutorial of the process once I am done so others can more easily create hyphenation dictionaries for languages that don't have them yet (I have yet to find a good tutorial anywhere).</div><div>Thanks again for your help,</div><div>Nathan</div></div><div class="gmail_extra"><br><div class="gmail_quote">On Fri, Oct 10, 2014 at 3:57 AM, Philip Taylor <span dir="ltr"><<a href="mailto:P.Taylor@rhul.ac.uk" target="_blank">P.Taylor@rhul.ac.uk</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class=""><br>
<br>
Mojca Miklavec wrote:<br>
<br>
> No, the patterns should work just fine with a large alphabet.<br>
<br>
</span>This part I do not understand, Mojca; surely the patterns /define/ the<br>
size of the alphabet, do they not ?  If letter <xqqyn> is not in the<br>
patterns, then TeX cannot hyphenate a word containing letter <xqqyn>,<br>
can it ?<br>
<span class=""><br>
> 2.) The fact that "patgen" is limited, "opatgen" is defunct and<br>
> nobody else stepped up yet to create a new tool in some modern<br>
> programming language with built-in Unicode support (or with some<br>
> modern C(++) libraries) has nothing to do with XeTeX's ability to<br>
> interpret patterns. If we don't have a tool that can generate<br>
> patterns for large alphabets that doesn't mean that XeTeX cannot<br>
> handle such patterns.<br>
<br>
</span>It was, in part, the existence or otherwise of such a tool that<br>
interested me, as well as whether XeTeX could natively handle such<br>
patterns were they to be generatable ...  A /very/ quick look at<br>
Patgen.web suggests (to me) that a re-implementation in Perl might be<br>
the fastest way forward (Patgen is run so infrequently that the run-time<br>
overheads of an interpreted language are irrelevant) but I regret I have<br>
too much on my plate at the moment to volunteer to investigate further.<br>
<span class=""><br>
> The patterns can probably be created with patgen with some ugly<br>
> tweaking (as Jonathan suggested).<br>
<br>
</span>That is indeed seriously ugly.  The sooner the whole of the TeX suite<br>
has native UTF-8 clones, the more chance there is of TeX surviving into<br>
the 22nd century, it seems to me.<br>
<br>
** Phil.<br>
</blockquote></div><br></div>