Gevaarlijk, gezien de erbarmelijke staat van Nederlandse spellingscontrole. En dan niet alleen de dingen met vrije licentie, maar alles. Zelfs de beste spellingscontrole is totaal kansloos om geautomatiseerd te gebruiken. Spellingscontrole is hooguit iets waarmee je een checklist kunt maken voor dingen om na te kijken, maar als je automatisch de suggesties volgt, zul je allerhande correct gespelde dingen verfouteren.
Ik heb goede ervaringen met tesseract ( GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) ), maar ik heb het alleen gebruikt voor zwarte tekst op witte achtergrond, dus ik weet niet hoe goed het werkt bij het soort plaatje dat jij liet zien. Bij digitaal geproduceerde plaatjes van zwarte tekst op witte achtergrond was het nagenoeg foutloos, bij scans kwamen er wel eens foutjes voor.
Ik weet niet of de kwaliteit hoog genoeg is om het te gebruiken i.c.m. een schermlezer.
Ik sluit me bij Juerd aan dat spelling/grammatica-fouten geautomatiseerd weghalen gevaarlijk is, ik vermoed dat het afhankelijk van het tekst-type zelfs meer fouten zal introduceren dan corrigeren (bijvoorbeeld bij teksten met veel eigennamen, afkortingen, getallen, eenheden, etc)
Ik ben zelf nog aan het spelen met Paperless-ngx, best wel gaaf systeem op documenten te ocr’en, (automatisch) te labelen en terug te kunnen vinden. Voor OCR gebruikt het OCRmyPDF (die vervolgens weer Tesseract gebruikt).
Doet het beter met dat plaatje, maar nog steeds niet perfect: