<div dir="ltr"><div dir="ltr">On Thu, 4 Jul 2019 at 00:28, Peter Flynn <<a href="mailto:peter@silmaril.ie">peter@silmaril.ie</a>> wrote:<br></div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;padding-left:1ex;border-left-color:rgb(204,204,204);border-left-width:1px;border-left-style:solid">On 03/07/2019 22:09, Aaron Gray wrote:<br>
> I  am scanning old papers in both image and OCR'ed form and I want to<br>
> be able to combine them in a PDF document so the images are visible<br>
> but the text also is in the PDF for anyone who wants to extract it.<br>
> <br>
> I have found camera ready PDF's that have text in them and been able<br>
> to extract both so I want to be able to do the same.<br>
<br>
The pdfimages utility will extract the images separately to PNM files,<br>
which you can convert to JPEG with ImageMagick or similar.<br>
<br>
What are you using for the OCR? I have had excellent restults with </blockquote><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;padding-left:1ex;border-left-color:rgb(204,204,204);border-left-width:1px;border-left-style:solid">
Tesseract.<br></blockquote><div><br></div><div>Sorry no I am after creating PDF's with image based content and hidden text that it retrievable with PDF text extraction tools. </div><div><br></div><div>Thanks,</div><div><br></div><div>Aaron</div><div><br></div></div>-- <br><div class="gmail_signature" dir="ltr"><div dir="ltr"><div><div dir="ltr"><div>Aaron Gray</div><div><br></div><div>Independent Open Source Software Engineer, Computer Language Researcher, Information Theorist, and amateur computer scientist.<br></div></div></div></div></div></div>