Quel est le programme le plus adéquate pour extraire du texte ?

Il arrive parfois que, lors d’une demande d’un service de traduction, le client ne dispose pas du fichier sous format éditable et envoie un document numérisé (parfois même photographié) qui apparaît en générale sous la forme d’un portable document format, plus connu sous le nom de PDF.

Ne s’agissant pas d’un document modifiable, la possibilité d’extraire le texte afin de pouvoir l’utiliser avec un outil de traduction est relativement réduite mais cependant possible grâce aux programmes de reconnaissance optique de caractères (plus connu sous leur sigle anglais OCR).

Je me concentrerai ci-dessous sur les deux options les plus utiles, de mon point de vue, selon la complexité de l’extraction du texte.

Documents PDF simples

Il est commun que de nombreux PDF soient créés sous des programmes comme Adobe Indesign, Illustrator, ou même Microsoft Word. Pour ces cas-là, l’outil de choix est Adobe Acrobat, soit la version Professionnelle, soit la version Standard. Les deux programmes sont des versions plus avancées d’Adobe Reader qui est souvent utilisé pour la lecture de documents PDF. Ces versions disposent de leur propre OCR responsable de l’extraction du texte vers un document Microsoft Word (vous pouvez choisir entre l’extension Doc. ou. Docx.). Le document final est très fidèle au document source et seuls quelques clics suffisent pour disposer d’une copie identique au format modifiable.

Documents PDF complexes ou images

Par complexes que je fais référence à ces documents numérisés, comme par exemples des photographies qui présentent du texte inclut dans des images ou des schémas. La solution la plus appropriée pour ce type de document est l’Abby Fine Reader. Ce programme offre non seulement un ensemble de plus de 180 langues, officielles et non officielles (comme par exemple l’espéranto ou l’ido), des langues artificielles telles que le Basic ou le C + + et même la configuration de l’OCR pour des textes de chimie, permettant ainsi d’extraire le plus fidèlement possible le format des formules.

L’Abby Fine Reader, contrairement à d’autres programmes de même nature, nous permet de travailler avec plus d’une langue à la fois, ce qui est très utile lorsqu’il s’agit de travailler avec un document qui alternent différents systèmes d’écriture (par exemple, entre les langues occidentales et orientales). Ce programme  est également plus souple que le reste étant donné que, le cas échéant, il permet à l’utilisateur de sélectionner des zones particulières dans le document permettant de différencier des tables, du texte, des images et même des images d’arrière-plan.

La complexité restera toujours présente, mais connaître différents outils d’extraction de texte permet de gagner du temps et des efforts, avec de meilleurs résultats.