Checklist pentru OCR

Pentru documentele în limba română.

Lista de verificări

Diacriticele corecte

Ghilimele și apostroafe

Liniuțe și elipse

Caractere neașteptate

Regex-ul /[^a-zăâîșț0-9.,;:\s!?&\-–—―…„”’()]/i ar trebui să nu prea dea rezultate.

Dacă se folosește vreun limbaj de markup, mai pot fi excluse și caracterele aferente (#_*>~[] pentru Markdown, </> pentru HTML etc.).

Punctuație