<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space;">
Hi Jonathan,
<div class=""><br class="">
<blockquote type="cite" class="">On 12 Dec 2016, at 00:53, Jonathan Fine <<a href="mailto:jfine2358@gmail.com" class="">jfine2358@gmail.com</a>> wrote:<br class="">
<br class="">
Hi Ross<br class="">
<br class="">
Good to talk with you again.  We wrote:<br class="">
<br class="">
<blockquote type="cite" class="">
<blockquote type="cite" class="">2. Could a suitable tool create a useful HTML or XML document from a tagged PDF?<br class="">
</blockquote>
<br class="">
Absolutely.<br class="">
<br class="">
<blockquote type="cite" class="">3. It there already such a tool?<br class="">
</blockquote>
<br class="">
Yes. Adobe's Acrobat Pro does this already.<br class="">
It also exports into RTF and Word formats.<br class="">
So Tagged PDF provides a good solution for submitting TeX PDFs to a journal that only accepts manuscripts done in M$ Word.<br class="">
</blockquote>
<br class="">
This is interesting. If we can produce (good enough) tagged PDF, we<br class="">
can from this also produce (good enough) HTML, XML and Word documents.<br class="">
And I believe that from (good enough) XML we ought to be able to<br class="">
produce (good enough) tagged PDF.<br class="">
<br class="">
So we are, in part, also talking about round-tripping typesetting, and<br class="">
LaTeX to XML.<br class="">
</blockquote>
<div class=""><br class="">
</div>
<div class="">Yes; but really only “kind of”.</div>
<div class=""><br class="">
</div>
<div class="">XML is really just a Meta-format rather than a format in itself.</div>
<div class="">It depends upon just what kind of information you want to have within the XML file.</div>
<div class=""><br class="">
</div>
<div class="">PDF has a concept of attribute “/O-wner”, which seems to govern where this</div>
<div class="">information can be exported.</div>
<div class=""><br class="">
</div>
<div class="">Attributes with owner /Layout  seem to be exported to HTML, but not to XML-1.00 .</div>
<div class=""><br class="">
</div>
<div class="">I need to do more exploration into this, as I continue to support more and more LaTeX</div>
<div class="">environments, for Tagged PDF.</div>
<br class="">
<blockquote type="cite" class=""><br class="">
-- <br class="">
Jonathan<br class="">
</blockquote>
<div class=""><br class="">
</div>
<div class=""><br class="">
</div>
Hope this helps</div>
<div class=""><br class="">
</div>
<div class=""><span class="Apple-tab-span" style="white-space:pre"></span>Ross<br class="">
<br class="">
<div class=""><br class="">
Dr Ross Moore<br class="">
Mathematics Dept | Level 2, S2.638 AHH<br class="">
Macquarie University, NSW 2109, Australia<br class="">
<br class="">
T: +61 2 9850 8955  |  F: +61 2 9850 8114<br class="">
M:+61 407 288 255  |  E: <a href="mailto:ross.moore@mq.edu.au" class="">ross.moore@mq.edu.au</a><br class="">
<br class="">
http://www.maths.mq.edu.au<br class="">
<br class="">
<br class="">
<span><img height="58" width="260" apple-inline="yes" id="638087C2-B0E7-4862-912F-F9038F489CCC" apple-width="yes" apple-height="yes" src="cid:image001.png@01D030BE.D37A46F0" class=""></span><br class="">
<br class="">
<br class="">
CRICOS Provider Number 00002J. Think before you print. <br class="">
Please consider the environment before printing this email.<br class="">
<br class="">
This message is intended for the addressee named and may <br class="">
contain confidential information. If you are not the intended <br class="">
recipient, please delete it and notify the sender. Views expressed <br class="">
in this message are those of the individual sender, and are not <br class="">
necessarily the views of Macquarie University.<br class="">
</div>
<br class="">
</div>
</body>
</html>