Logiciel de reconnaissance
de caractères
Généralités
La reconnaissance
optique de caractères ne peut être effectuée que par des
procédés informatiques, à l'exception notable de l'être
humain, qui, lui, exécute, en plus de la reconnaissance, la compréhension
du message, sa mémorisation, voire son analyse critique dans un seul
temps.
Un ordinateur réclame
pour l'exécution de cette tâche un logiciel de reconnaissance optique
de caractères, ROC ou OCR (abréviation du terme anglais optical
character recognition), Celui-ci permet de récupérer le texte
dans l'image d'un texte imprimé et de le sauvegarder dans un fichier
pouvant être exploité dans un traitement de texte pour enrichissement,
et stocké dans une base de données ou du moins, sur un support
sûr et exploitable par un système informatique..
Fonctionnement
- On part de l'image
numérique réalisée par un scanner optique d'une page
(document imprimé, feuillet dactylographié, etc.) dont on veut
récupérer le texte.
- L'image doit être
assez contrastée pour que le programme discerne facilement les caractères.
Certains logiciels comportent en outre une interface pour l'acquisition numérique
de l'image.
- Le principe du
programme est de lire le document et, grâce à des bibliothèques
de formes, détecter les caractères afin d'en faire correspondre
la forme au caractère attendu.
- Des dictionnaires
permettent de récupérer certaines erreurs puisque le logiciel
se basera alors sur des mots existants pour faire ses comparaisons.
- Certains logiciels
vont même tenter de conserver l'enrichissement du texte (corps, graisse
et police) ainsi que la mise en page, voir rebâtir les tableaux.