<p dir="ltr">Jonathan,</p>
<p dir="ltr">This is a really useful feature and I look forward to using it once it is released in TLY2016.</p>
<p dir="ltr">Since how well the search and copy paste features work could also be font dependent, I would like to test some more PDFs in unicode devanagari created by this new feature using other fonts. I usually use Siddhanta and Sanskrit2003 font.</p>
<p dir="ltr">I would appreciate if you or other members who have this feature installed can provide a few more sample PDFs in devanagari  for testing.</p>
<p dir="ltr">Thanks!</p>
<p dir="ltr">- sent from my phone. excuse the brevity.</p>
<div class="gmail_quote">On 24-Feb-2016 3:37 pm, "Jonathan Kew" <<a href="mailto:jfkthame@gmail.com">jfkthame@gmail.com</a>> wrote:<br type="attribution"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">On 24/2/16 09:22, ShreeDevi Kumar wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
Testing dev-actualtext.pdf sent by JK<br>
<br>
  * Adobe Acrobat Reader XI on Windows 10<br>
      o Does not highlight text fully<br>
      o SEARCH finds words and word parts correctly but usually<br>
        highlights only beginning of the word containing the letter<br>
      o COPY paste to NOTEPAD++, OPENOFFICE WRITER works correctly,<br>
      o Save as TXT file does not work correctly - only saves ... in it,<br>
        not the actual unicode text which can be copied<br>
</blockquote>
<br>
So it looks like Acrobat makes use of the ActualText for Search and Copy, but sadly its "Save as Text" doesn't support Unicode.<br>
<br>
I'm pleasantly surprised to see the Gmail previewer also handles it.<br>
<br>
The others (Foxit, Edge) sound like they're just working from the glyph stream, which is basically doomed to failure.<br>
<br>
For a further data point, I tried Evince (Document Viewer) on Ubuntu 15.10, and found that Copy and Search work well; it looks like it is using the ActualText correctly. This is thanks to the poppler library, I believe. The (poppler-based) "pdftotext" tool was also able to extract the Unicode text correctly from the PDF, although "pdftohtml" didn't do so well.<br>
<br>
One issue with Evince is that drag-selecting text to highlight it (as for Copy/Paste) looks bad: the highlighting completely obscures the selected text, although it will end up being copied correctly. Interestingly, its highlighting of search results doesn't suffer from this problem, and it even makes a fair attempt (not completely accurate) at highlighting specific letters within a word, not just entire words.<br>
<br>
JK<br>
<br>
<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  * Foxit Reader 7.3 on Windows 10<br>
      o Highlights text fully,<br>
      o smallest highlight unit is word,<br>
      o COPY paste to notepad++ as well as SEARCH does NOT work<br>
        correctly as Unicode text is not fully correct.<br>
<br>
            ूय<br>
<br>
            िनकोड क्या ह ? ै<br>
<br>
      o<br>
        ​Save as TXT file does not work correctly - saves the unicode<br>
        text with same problems as in copy and paste​<br>
<br>
  *<br>
    ​Microsoft Edge Viewer on Windows 10<br>
      o<br>
        ​<br>
        Highlights text fully,<br>
      o COPY paste to notepad++ as well as SEARCH does NOT work<br>
        correctly as Unicode text is not fully correct.<br>
<br>
                    य ूिनकोड क्या है?<br>
<br>
  *<br>
    ​<br>
    Previewing from within gmail in Chrome on Windows 10 -<br>
      o Highlights text fully,<br>
      o smallest highlight unit is word,<br>
      o COPY paste to NOTEPAD++, OPENOFFICE WRITER works correctly,<br>
      o (highlights only first letter of first word in<br>
        paragraph यू rather than full word यूनिकोड)<br>
      o there is NO SEARCH feature<br>
      o there is no save as TXT file feature<br>
  * Same as above while Previewing from within gmail in Internet<br>
    Explorer on Windows 10<br>
<br>
<br>
ShreeDevi<br>
____________________________________________________________<br>
भजन - कीर्तन - आरती @ <a href="http://bhajans.ramparivar.com" rel="noreferrer" target="_blank">http://bhajans.ramparivar.com</a><br>
<br>
On Tue, Feb 23, 2016 at 11:30 PM, Jonathan Kew <<a href="mailto:jfkthame@gmail.com" target="_blank">jfkthame@gmail.com</a><br>
<mailto:<a href="mailto:jfkthame@gmail.com" target="_blank">jfkthame@gmail.com</a>>> wrote:<br>
<br>
    On 23/2/16 17:39, Philip Taylor wrote:<br>
<br>
        Using Akira-san's "actest.pdf" as sample, Adobe Acrobat Pro 7.1<br>
        allows<br>
        me to select only half of the text whereas Adobe Reader DC<br>
        allows me to<br>
        select it all; neither allows me to select individual kanji.<br>
<br>
<br>
    Ah, right... as there are no spaces between the kanji, they'll end<br>
    up in the same text object. That's a shortcoming of how the current<br>
    implementation works, for scripts that don't use inter-word spaces.<br>
<br>
    In either case, copy&paste actually gives you the whole text, even<br>
    though AAPro only highlights half of it, I guess?<br>
<br>
    JK<br>
<br>
<br>
<br>
<br>
    --------------------------------------------------<br>
    Subscriptions, Archive, and List information, etc.:<br>
    <a href="http://tug.org/mailman/listinfo/xetex" rel="noreferrer" target="_blank">http://tug.org/mailman/listinfo/xetex</a><br>
<br>
<br>
<br>
<br>
<br>
<br>
--------------------------------------------------<br>
Subscriptions, Archive, and List information, etc.:<br>
   <a href="http://tug.org/mailman/listinfo/xetex" rel="noreferrer" target="_blank">http://tug.org/mailman/listinfo/xetex</a><br>
<br>
</blockquote>
<br>
<br>
<br>
--------------------------------------------------<br>
Subscriptions, Archive, and List information, etc.:<br>
 <a href="http://tug.org/mailman/listinfo/xetex" rel="noreferrer" target="_blank">http://tug.org/mailman/listinfo/xetex</a><br>
</blockquote></div>