<div dir="ltr"><div class="gmail_default" style="font-family:georgia,serif">Thank you for this info.</div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif">There is still a lot of content in Hindi being generated in non-Unicode fonts (lot of DTP software being used in India still does not support Unicode).</div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif">>>

<span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8px;font-style:normal;font-variant-ligatures:normal;font-variant-caps:normal;font-weight:400;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline">The LDC *might* still have the encoding converters laying around somewhere.</span>

</div><div class="gmail_default" style="font-family:georgia,serif"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8px;font-style:normal;font-variant-ligatures:normal;font-variant-caps:normal;font-weight:400;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline"><br></span></div><div class="gmail_default" style="font-family:georgia,serif"><span style="color:rgb(34,34,34);font-family:arial,sans-serif;font-size:12.8px;font-style:normal;font-variant-ligatures:normal;font-variant-caps:normal;font-weight:400;letter-spacing:normal;text-align:start;text-indent:0px;text-transform:none;white-space:normal;word-spacing:0px;background-color:rgb(255,255,255);text-decoration-style:initial;text-decoration-color:initial;float:none;display:inline">These will be very useful, if they can be made available. There is a need for easily converting legacy documents to Unicode. One of the applications for which someone was looking for these recently was for checking for plagiarism in student projects/thesis.</span></div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr">ShreeDevi<br>____________________________________________________________<br>भजन - कीर्तन - आरती @ <a href="http://bhajans.ramparivar.com" target="_blank">http://bhajans.ramparivar.com</a><br></div></div></div>
<br><div class="gmail_quote">On Sat, Feb 17, 2018 at 10:45 PM, Mike Maxwell <span dir="ltr"><<a href="mailto:maxwell@umiacs.umd.edu" target="_blank">maxwell@umiacs.umd.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On 2/17/2018 11:58 AM, ShreeDevi Kumar wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Before unicode, devanagari fonts used the ASCII range (legacy fonts) - however AFAIK there is no standardization in the mapping, though various families of fonts had similar mapping.<br>
<br>
see <a href="http://hindi-fonts.com/tools" rel="noreferrer" target="_blank">http://hindi-fonts.com/tools</a> for converters from different mappings to unicode.<br>
<br>
So,  ASCII to Unicode mapping for Devanagari will change based on the font used.<br>
</blockquote>
<br>
Indeed!  In 2003, DARPA held a "surprise language exercise", the goal of which was to produce (very basic) MT etc. tools for Hindi, in a month's time.  I had been involved in the prep for it to ensure that there would be no roadblocks (at the time, I was working at the LDC).  One of the things that Bill Poser and I verified was that there was a Unicode encoding for Hindi/Devanagari.  There was, but that was the wrong question.<br>
<br>
The right question was whether any Hindi website used Unicode.  The answer to that was that the BBC and Colgate did, but hardly anyone else.  A few Indian government sites used ISCII, which wouldn't have been bad, but most places used proprietary encodings that went along with a proprietary font.  Worse, these were not simple code-point-to-character encodings; it was as if the Latin letter 'l' had been encoded as 'l', but then 'd' had been encoded as 'c' + 'l', 'b' as 'l' + a sort of backwards 'c', 'p' as a lowered 'l' _ the backwards 'c', etc.  It was a mess, and for awhile it was unclear whether the exercise would fail because most of the data we needed was in these weird proprietary encodings.  (It eventually succeeded.)<br>
<br>
There are some notes here--<br>
<br>
<a href="http://languagelog.ldc.upenn.edu/myl/ldc/hindi_fonts_and_conversions.html" rel="noreferrer" target="_blank">http://languagelog.ldc.upenn.e<wbr>du/myl/ldc/hindi_fonts_and_con<wbr>versions.html</a><br>
--that Mark Liberman of the LDC made at the time concerning some of the issues.  Most of it is long out of date (and the links are probably broken), and these proprietary encodings have thankfully been replaced by Unicode; but if you're dealing with documents from that era, you might still run into them.  The LDC *might* still have the encoding converters laying around somewhere.<span class="HOEnZb"><font color="#888888"><br>
-- <br>
   Mike Maxwell<br>
   "My definition of an interesting universe is<br>
   one that has the capacity to study itself."<br>
         --Stephen Eastmond<br>
</font></span></blockquote></div><br></div>