Goede OCR software die te automatiseren is

Bas · July 1, 2023, 11:04am

Ik ben op zoek naar een goed open source OCR pakket of combinatie van tooltjes die het volgende kunnen:

Scan aanpakken (PDF)
Tekst herkennen en netjes OCRen, dus rekening houden met layout en wisselende contrasten
Tekst controleren op spelling en evt grammatica om de meest opvallende OCRfouten er uit te halen
En dan al die tekst weer zodanig op de bladspiegel terugplakken dat het door een schermlezer te gebruiken is.

We hebben op school nu Alinea Suite/Alinea Online en dat maakt er echt een bende van:

wordt “herkend” als

Juerd · July 1, 2023, 12:04pm

Gevaarlijk, gezien de erbarmelijke staat van Nederlandse spellingscontrole. En dan niet alleen de dingen met vrije licentie, maar alles. Zelfs de beste spellingscontrole is totaal kansloos om geautomatiseerd te gebruiken. Spellingscontrole is hooguit iets waarmee je een checklist kunt maken voor dingen om na te kijken, maar als je automatisch de suggesties volgt, zul je allerhande correct gespelde dingen verfouteren.

pinoaffe · July 3, 2023, 9:55am

Ik heb goede ervaringen met tesseract ( GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) ), maar ik heb het alleen gebruikt voor zwarte tekst op witte achtergrond, dus ik weet niet hoe goed het werkt bij het soort plaatje dat jij liet zien. Bij digitaal geproduceerde plaatjes van zwarte tekst op witte achtergrond was het nagenoeg foutloos, bij scans kwamen er wel eens foutjes voor.

Ik weet niet of de kwaliteit hoog genoeg is om het te gebruiken i.c.m. een schermlezer.

Ik sluit me bij Juerd aan dat spelling/grammatica-fouten geautomatiseerd weghalen gevaarlijk is, ik vermoed dat het afhankelijk van het tekst-type zelfs meer fouten zal introduceren dan corrigeren (bijvoorbeeld bij teksten met veel eigennamen, afkortingen, getallen, eenheden, etc)

f0x · July 3, 2023, 10:08am

Ik ben zelf nog aan het spelen met Paperless-ngx, best wel gaaf systeem op documenten te ocr’en, (automatisch) te labelen en terug te kunnen vinden. Voor OCR gebruikt het OCRmyPDF (die vervolgens weer Tesseract gebruikt).

Doet het beter met dat plaatje, maar nog steeds niet perfect:

HAPSNAP
Selfie maken? Boete
betalen’ a…