<div dir="ltr"><div>Hi Paulo</div><div><br></div><div>I suggested use 'file' because it looks at the content, and ignores the extension. Users sometimes give their files odd extensions.</div><div><br></div><div>For example, is chapter1.exe an exe file, or a collection of exercises.</div><div><br></div><div>I think what you want first is a collection of quick tools that never (or almost never) can be trusted.</div><div><br></div><div>A tool that never gives a false negative can be trusted when it gives a negative.</div><div>Similarly, false positive and positive.</div><div><br></div><div>Once you've quickly winnowed out most of the files to be excluded, the problem becomes smaller.</div><div><br></div><div>I hope your code goes up on github (and that you choose Python over Perl, smile).</div><div><br></div><div>best wishes</div><div><br></div><div>Jonathan</div><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
</blockquote></div>
</blockquote></div>
</blockquote></div></div>