Acrobat : enregistrer les corrections des suspects vers Word

Raphaël31

Membre actif
6 Septembre 2006
162
5
Paris
Bonjour,

Je tente de convertir en fichier Word un texte numérisé en format .jpg (300 dpi). Je procède ainsi : je l'ouvre avec Acrobat Pro 10.1.1, Outils > Reconnaissance du texte > Dans ce fichier, style de sortie PDF : Image indexable (je ne peux pas faire de corrections avec les deux autres options) ; après quoi je corrige les suspects (en appuyant sur la touche "Suivant" ou "Accepter et rechercher" j'obtiens la même chose à la fin : un fichier Word sans les corrections), puis je tente de migrer mon document vers Word mais une nouvelle reconnaissance du texte se fait automatiquement (autrement c'est l'image qui passe vers Word et non le texte que j'ai modifié), et du coup toutes mes corrections sont perdues.

Aussi je ne sais pas comment afficher le texte reconnu dans Acrobat, et non le scan. Par exemple quand on fait les corrections des suspects ce serait beaucoup plus simple si seulement le texte analysé par le logiciel s'affichait et restait affiché (or le texte reconnu ne s'affiche que par toutes petites portions quand je clique dans les cadres rouges indiquant les suspects). Y a-t-il des options à côté desquelles je suis passé ? J'espère vraiment que mes interrogations sont ridicules et que je n'ai pas bien saisi certaines fonctionnalités, car j'imagine que ce que je veux faire doit être possible.

J'ai beaucoup lu sur le Net à ce sujet sans comprendre grand chose... Je viens de faire des dizaines de tests en variant les options sans succès. Je précise que quand je copie-colle le texte du document enregistré en .pdf vers un fichier Word, mes corrections apparaissent bien.

Pardon pour ma maladresse et un grand merci d'avance pour toute aide !
 
Salut,

je sais bien que l'OCR d'Acrobat fait des progrès à chaque version mais dans le cas présenté ça ne me parait pas être la meilleure solution.

Pourquoi ne pas utiliser un logiciel d'OCR "classique" comme celui qui est (certainement) fourni avec le scanner et qui permet de récupérer directement le texte dans Word ?

Mais si tu y tiens vraiment je peux t'aider à l'extraire depuis Acrobat.
:zen:
 
[HS]

Tu dis ça comme si Acrobat Pro n'était pas terrible magicPDF.
Il me semblait pourtant avoir lu que l'OCR d'AP était le plus performant.
Il y a mieux ?

[/HS]
 
Moi aussi j'ai lu que l'OCR d'Acrobat Pro était le mieux ; je vois qu'il gère bien les accents (sauf des majuscules), les polices, l'italique, plein de trucs, donc... Et j'ai aussi lu que les OCR des scanners étaient des "sous-logiciels", nettement moins performants. Comme j'y ai passé déjà des heures et des heures sur Acrobat Pro je voudrais bien une solution oui, ce serait bien aimable magicPDF (que de promesses dans ce pseudo...) J'ai une imprimante-scanner Canon MP540 qui n'est pas toute jeune et je voudrais des fichiers Word propres.

Merci pour vos réponses, je me sens moins seul ! J'hésite toujours beaucoup à poser des questions...
 
Si, si, l'OCR d'Acrobat est un des plus performant du marché, surtout si on tient compte du nombre de langues reconnues.

Ce que je veux dire c'est que à la base l'OCR d'Acrobat n'est pas fait pour récupérer du texte dans Word, parce-que ça impose une étape supplémentaire.

Cependant tout est possible avec l'outil de sélection de texte notamment :
http://help.adobe.com/fr_FR/acrobat/pro/using/WS58a04a822e3e50102bd615109794195ff-7ee5.w.html

Astuce : il faut mettre l'affichage en mode "pages continues" pour pouvoir sélectionner le texte sur plusieurs pages, ou sur toutes (CMD + A).

Sinon il y a l'excellent plugin gratuit TET Plugin qui ajoute à Acrobat un autre outil de sélection de texte et de nombreuses fonctions d'extraction de contenu :
http://www.pdflib.com/download/free-software/tet-plugin/

:up:
 
Bonjour magicPDF, et merci beaucoup d'avoir pris le temps !

Premier problème : quand je rajoute le dossier PDFlib TET dans les plugs-in d'AP j'obtiens le message suivant lors de la reconnaissance du texte, que je n'avais jamais eu, et que je la fasse sur un seul .jpg ou deux combinés en PDF : "Acrobat n'a pas pu remplacer la page active par la page reconnue en raison de l'erreur suivante : Nombre d'arguments trop important. Cela peut provenir de la saturation de la mémoire ou de l'insuffisance de l'espace disque disponible". J'enlève le dossier plug-in : ça fonctionne. De plus ce n'est pas clair si on doit ajouter le dossier "PDFlibt TET" ou "TETPlugin.acroplugin" dans le dossier "Plug-ins" d'AP (ça n'a rien d'évident quand on n'y connaît rien) mais j'ai essayé les deux, et j'ai bien vérifié les préférences > Générales : décoché "utiliser uniquement des modules externes certifiés".

---------- Nouveau message ajouté à 08h34 ---------- Le message précédent a été envoyé à 08h19 ----------

Concernant l'outil de sélection j'ai fait le test sur une page numérisée : je fais la correction des suspects, puis je sélectionne toute la page, cmd + C, cmd + V dans un fichier Word : toutes mes corrections sont remplacées par de petits carrés noirs.

Autre essai : je fais une "copie avec formatage" (clic droit), je colle dans un fichier Word : je n'ai pas de carrés noirs mais aucune de mes corrections n'a été sauvegardée, la copie dans le presse-papier prend un certain temps pour un résultat imparfait (le numéro de page, centré, est alignée à gauche).
 
Dernière édition:
J'avais oublié ce bug de TET-plugin… il faut relancer Acrobat X en anglais pour q'il fonctionne correctement, ou bien utiliser Acrobat 9…

Sinon, qu'est-ce que ça donne quand tu enregistres le PDF aux formats : Texte (normal), RTF, ou MS-Word ?

N'aurais tu pas intérêt à utiliser le correcteur de Word plutôt que la recherche des suspects (qui m'a toujours parue un peu laborieuse) ?

:confused:
 
Dernière édition:
Merci pour le suivi.

J'ai essayé plein de trucs toute la journée et tout est trop laborieux, je dois convertir des centaines et des centaines de scans... Il y a trop de corrections à faire, les doc obtenus sont trop lourds, je dois faire 20 pages par 20 pages, les textes sur 2 colonnes sont très mal gérés ; pour ce dernier problème j'ai choisi l'option "conserver la disposition des pages", qui fait qu'on obtient un document en zones de texte et ça va beaucoup mieux (pas de lignes bouffées, de sauts de colonne importuns, etc.), mais je m'aperçois que ça va être un bordel pas possible de le modifier puisqu'il y a très souvent un seul mot par zone de texte... Que des galères donc. Je viens de décider de tout garder en pdf, de faire la correction des suspects et j'utiliserai les documents en pdf, tant pis. Jusqu'à présent j'ai toujours voulu des .doc parce que c'était beaucoup plus facile à "mettre en valeur" : mettre en gras, grossir la police, surligner, supprimer ou diminuer la taille de certains passages, etc. mais là tout corriger serait encore plus ennuyeux donc je vais plutôt me former à mettre le texte en valeur de la façon la plus efficace possible sur pdf. Je me souviens que j'utilisais cmd + ctrl + H sur Aperçu, ce genre de trucs pas pratique, mais bon... (j'adore les raccourcis clavier mais pour les pdf jusqu'à présent...) Je m'y remets donc, et je poserai d'autres questions, ailleurs sans doute, au besoin, sur la mise en valeur du texte en pdf.

Merci encore !
 
Merci !

Par contre là j'essaie de voir quelle est la meilleure option pour enregistrer en pdf, a priori c'est Clearscan qui donne de beaux pdf vectorisés, clairs, légers. Sauf que je ne peux pas corriger les suspects... Donc j'ai fait un test en passant d'abord par une reconnaissance "image indexable", je corrige les suspects, puis je fais une reconnaissance "Clearscan", j'enregistre le pdf et mes corrections sont bien prises en compte, par contre le fichier a pris 50 % de poids par rapport à la première méthode sans correction possible ("problème" mineur). J'imagine qu'il y a plus simple ?

D'autre part je répète une de mes interrogations : est-il impossible de visualiser le texte reconnu dans AP ? Car il y a des mots mal reconnus qui n'apparaissent pas parmi les suspects et que je ne parviens donc pas à corriger...

Merci beaucoup !
 
Il ne faut pas perdre de vue que l'OCR d'Acrobat est prévu pour faire des facs-similés : des documents identiques aux originaux papier.

Il n'est donc pas surprenant que toute modification soit laborieuse.

Depuis Acrobat 9 il n'y a plus de mode "Texte seul", la reconnaissance se fait soit en mode " image indexable" (avec ou sans sous-échantillonnage) soit en mode ClearScan (vectoriel) qui produit des fichiers bien plus légers.

En "image indexable" l'aspect original est intégralement conservé et en "ClearScan" il est conservé au plus proche…

Dans les 2 cas l'accès au "vrai" texte ne présente que peu d'intérêt, il n'est utilisé que par les moteurs de recherche ou bien par les logiciels de lecture (milles excuses aux handicapés visuels).
:)
 
  • J’aime
Réactions: Raphaël31
Mais depuis le début on parle de reconnaissance du "vrai" texte, donc on part du principe que ça a une importance... En tout cas c'est ce dont j'ai besoin, je veux pouvoir naviguer facilement dans mes documents (plusieurs centaines de pages chacun) via la recherche en tapant certains mots.

Pardon d'insister mais donc, vous êtes sûr qu'il est impossible d'avoir "facilement" accès au texte mal reconnu et non inclus dans les suspects ? Parce qu'en fait, j'y parviens, mais pas facilement, c'est-à-dire qu'il me faut d'abord faire la reconnaissance en "image indexable", et en sélectionnant du texte avec Contenu > modifier le texte du document, et en réécrivant par dessus à l'aveugle, je parviens à faire d'autres corrections que les suspects, corrections qui sont enregistrées dans les pdf "image indexable" mais pas en "clearscan", alors que les corrections des suspects y sont bien. Le texte de ces corrections non-incluses dans les suspects devient en revanche visible tout comme celui des suspects une fois celles-ci faites et qu'on double-clique à leur endroit. Il est très laborieux de vérifier par ailleurs (avec des copiers-collers) si le texte est bien reconnu, puis de revenir corriger à l'aveugle sur AP, je n'arrive pas à croire qu'il n'y ait pas une autre solution, c'est pourquoi je vous demande si vous êtes bien sûr... Je ne peux pas commencer ce long travail sans être bien sûr d'être efficace et d'avoir choisi la meilleure méthode... Merci encore.
 
Dernière édition:
Mais depuis le début on parle de reconnaissance du "vrai" texte, donc on part du principe que ça a une importance...
C'est bien pour ça qu'au début j'avais suggéré qu'Acrobat n'est peut être pas l'outil le plus adéquat…
;)

Pour la gestion des suspects je ne peux rien dire de plus, ce ne sont pas des fonctions que j'utilise souvent.
Ce que j'ai constaté c'est qu'une bonne image, scannée avec une bonne résolution et si nécessaire avec un peu de nettoyage préalable dans Photoshop, donne immédiatement de bons résultas en OCR.
:zen:
 
Alors nous nous sommes mal compris, car lorsque nous évoquions les qualités d'Acrobat Pro je parlais surtout de ses capacités de reconnaissance, ce en quoi je me suis senti "rassuré" par vos interventions, à tort visiblement. Et en effet, après un essai avec ABBY FineReader, AP ne peut que s'incliner... J'ai fait un test avec une page à deux colonnes de texte de travers et c'est un sans faute pour FineReader, quelques erreurs d'accents et de parenthèse/crochet pour AP. Par contre AP conserve la même disposition sur la page, et il y a toujours trop d'ajustements à mon goût à faire sur FineReader.

Avec AP, j'ai réussi à obtenir un pdf de 239 pages de 10 Mo seulement, avec le texte vectorisé donc, en ayant corrigé au préalable au sein des suspects les mots qui pouvaient servir de mots-clés dans le futur, ce qui m'a pris moins d'une demi-heure (de correction + 10 sec/page à chaque reconnaissance [d'abord en 'image indexable', puis en 'ClearScan']). Inconvénient : parmi le texte qu'AP "pense" avoir bien reconnu et que je n'ai pas pu corriger, il y a sans doutes des mots-clés écorchés... Il faudra, à la lecture, faire des tests de temps en temps et ajouter des zones de texte par-ci par-là.

Merci pour votre aide en tout cas !
 
Dernière édition: