<br><br><div class="gmail_quote">On Sat, Jul 23, 2011 at 2:46 AM, Ulrike Fischer <span dir="ltr"><<a href="mailto:news3@nililand.de">news3@nililand.de</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
WARNING: This e-mail has been altered by the NFIT virus/spamfilter.  Please see below for a record of the changes made.<br>
. In case of problems consider contacting the sender or <a href="mailto:postmaster@nfit.au.dk">postmaster@nfit.au.dk</a><br>
<br>
-------Change report:<br>
<br>
An attachment named xhluatex.bat was removed from this document as it<br>
constituted a security hazard.  If you require this document, please contact<br>
the sender and arrange an alternate means of receiving it.<br></blockquote><div><br></div><div><br></div><div>Could you send me the attachment off-list or paste the contents into an email?</div><div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<br>
Your main problem has nothing to do with tex4ht. While luatex can<br>
handle utf8 *input* natively it has problems to output<br>
non-ascii-chars without fontspec and "unicode fonts" on the output<br>
side.<br>
<br>
Your document is using OT1-encoded fonts (which has 128 characters)<br>
and so your non-ascii-chars are ending in nothingness. With<br>
\usepackage[T1]{fontenc} result will be better but quite a lot chars<br>
will be wrong (e.g. the german ß)<br><br></blockquote><div><br></div><div>Oh, I thought I could use at least the first 256 characters. 128 is a bit limited for sure.</div><div><br></div><div>btw -- would it then make sense to auto-replace the characters in question before and after the transition? I am thinking of:</div>
<div><br></div><div><i>cp unicode.tex /tmp</i></div><div><i>cd /tmp</i></div><div><i>rpl "ü" "ue5394" unicode.tex</i></div><div><i>dvilualatex...</i></div><div><i>.... </i></div></div><div><i>rpl "ue5394" "ü" unicode.html</i></div>
<div><br></div><div>in which 5394 just is a random number so that I don't catch other instances of "ue" when converting back. Hyphenation isn't applied, so it seems that this would work, right?</div><br>
-- <br>Johannes Wilm<br><a href="http://www.johanneswilm.org" target="_blank">http://www.johanneswilm.org</a><br>tel: +1 (520) 399 8880<br><div style="display:inline"></div><br>