<div dir="ltr"><div class="gmail_default" style="font-family:georgia,serif">Hello All,</div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif">I am using xelatex for processing hindi and sanskrit text in devanagari script. While the resulting pdf displays devanagari correctly, it does not have the correct devanagari text layer, hence it can not be used for searching or extracting the text. The result also changes based on the devanagari font used. </div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif">I wanted to know if there are any options that I can set in the xetex source file to get better result.</div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif">---MWE --</div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif"><p style="margin:0px">\documentclass[12pt]{article}</p>
<p style="margin:0px">\usepackage{fontspec}</p>
<p style="margin:0px">\pagestyle{empty}</p>
<p style="margin:0px">\def\sampletext{आप अभी देखते हैं कि एक अकेला उड़ता हुआ पक्षी गीत गाना आरंभ कर रहा है।</p>
<p style="margin:0px">महिलाओं को देखते हुए दूसरी औरतें ऑफ़िस की ओर जाने पड़ी। श्री गणेशाय नमः।}</p>
<p style="margin:0px">\parskip\baselineskip</p>
<p style="margin:0px">\def\dvng #1{{\fontspec[Script=Devanagari]{#1}\sampletext\par}}</p>
<p style="margin:0px">\pagestyle{empty}<br></p>
<p style="margin:0px">\begin{document}</p>
<p style="margin:0px">\dvng{Sanskrit 2003}</p>
<p style="margin:0px">\dvng{Siddhanta}</p>
<p style="margin:0px">\dvng{Uttara}</p>
<p style="margin:0px">\dvng{Nakula}</p>
<p style="margin:0px">\dvng{Sahadeva}</p>
<p style="margin:0px">\end{document}</p><p style="margin:0px"><br></p><p style="margin:0px">------</p></div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif">Here is the text copied from the pdf created by xelatex, viewed in Foxit pdf reader..</div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif">---</div><div class="gmail_default" style="font-family:georgia,serif"><div class="gmail_default">आप अभी दे खत े ह िक एक अक े ला उड़ता आ पी गीत गाना आरं भ कर रहा है । मिहलाओ ंको</div><div class="gmail_default">द े खत े ए सरी औरत ऑिफ़स की ओर जान े पड़ी। ौी गण े शाय नमः।</div><div class="gmail_default">अाप अभी देखते है ं क एक अके ला उड ़ता अा पी गीत गाना अारंभ कर रहा</div><div class="gmail_default">है। महलाअाे ं काे देखते ए दू सर अाैरते ं अाॅफ ़</div><div class="gmail_default">स क अाेर जाने पड ़। ी गणेशाय</div><div class="gmail_default">नमः।</div><div class="gmail_default">आप अभी देखते हैं क एक अके ला उड़ता ْआ प€ी गीत गाना आरं भ कर रहा है।</div><div class="gmail_default">म हलाओं को देखते ْए द ू सर) औरतें ऑ फ़स क, ओर जाने पड़)। Ôी गणेशाय नमः।</div><div class="gmail_default">आप अभी दे खते हӔўक एक अक े ला उड़ता हु आ प̯ी गीत गाना आरं भ कर रहा है ।</div><div class="gmail_default">मўहलाओं को दे खते हु ए द ू सरҰ औरतӒ ऑўफ़स कҴ ओर जाने पड़ी। ौी गणे शाय नमः।</div><div class="gmail_default">आप अभी दे खते हӔ ўक एक अक ेला उड़ता हु आ प̯ी गीत गाना आरं भ कर रहा है ।</div><div class="gmail_default">मўहलाओं को दे खते हु ए द ू सरҰ औरतӒ ऑўफ़स कҴ ओर जाने पड़ी। ौी गणे शाय नमः।</div><div class="gmail_default">----</div><div class="gmail_default"><br></div><div class="gmail_default">When I OCR this pdf using tesseract-ocr and create another pdf through that, the text copied in foxit reader from the pdf created by tesseract-ocr does not have the issues with 'maatraas' as in the sample above, but the OCR output is not 100% accurate. See the copied text below...</div></div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif">----</div><div class="gmail_default" style="font-family:georgia,serif"><div class="gmail_default">आप अभी देखते हैं कि एक अकेला उड़ता हुआ पक्षी गीत गाना आरंभ कर रहा है । महिलाओं को</div><div class="gmail_default">देखते हुए दूसरी औरतें ऑफिस की और जाने पड़ी । श्री गणेशाय नमः ।</div><div class="gmail_default">आप अभी देखते हैं कि एक अकेला उड़ता हुआ पक्षी गीत गाना आरंभ कर रहा</div><div class="gmail_default">है। र्माहरछ।आ को द्खुन्न हुए दूसरी औरत ऑफ़िस की और जाने पड़ी। श्री गणेशाय</div><div class="gmail_default">नमः।</div><div class="gmail_default">आप अभी देखते है कि एक अकेला उडता हुआ पक्षी गीत गाना आरंभ कर रहा है।</div><div class="gmail_default">महिलाओं को देखते हुए दूसरी औरतें ओंफिस्र की और जाने पड़ी। श्री गणेशाय नमः।</div><div class="gmail_default">आप अभी देखते हैं कि एक अकेला उड़ता हुआ पक्षी गीत गांना आरंभ कर रहा है ।</div><div class="gmail_default">महिलाओं को द्ररन्नतं हुए दूसरी ओरतंण् ओंफिरों की और जाने पडी। श्री गणेशाय नमः।</div><div class="gmail_default">आप अभी देखते हैं कि एक अकेला उड़ता हुआ पक्षी गीत गाना आरंभ कर रहा है।</div><div class="gmail_default">महिलाओ को देखते हुए दूसरी औरतें आँफ़िस की और जाने पड़ी। श्री गणेशाय नमः।</div><div class="gmail_default">-----------</div><div class="gmail_default"><br></div><div class="gmail_default">Is there anyway to improve xetex processing to provide correct devanagari text layer in the pdf for searching and copying?</div><div class="gmail_default"><br></div><div class="gmail_default">Thanks!!</div><div class="gmail_default"><br></div></div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature"><div dir="ltr">ShreeDevi<br>____________________________________________________________<br>भजन - कीर्तन - आरती @ <a href="http://bhajans.ramparivar.com" target="_blank">http://bhajans.ramparivar.com</a><br></div></div></div>
<br><div class="gmail_quote">On Mon, Dec 8, 2014 at 7:03 PM, ShreeDevi Kumar <span dir="ltr"><<a href="mailto:shreeshrii@gmail.com" target="_blank">shreeshrii@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr"><div class="gmail_default" style="font-family:georgia,serif">Is it possible to create searchable pdf for devanagari using xetex?</div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif">Thanks,</div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div class="gmail_default" style="font-family:georgia,serif"><br></div><div><div><div dir="ltr">ShreeDevi<br>____________________________________________________________<br>भजन - कीर्तन - आरती @ <a href="http://bhajans.ramparivar.com" target="_blank">http://bhajans.ramparivar.com</a><br></div></div></div>
</div>
</blockquote></div><br></div>