Acrobat Pro : erreur 'texte à générer' empêchant ROC

Raphaël31

Membre actif
6 Septembre 2006
162
5
Paris
Bonsoir,

Pour obtenir des pdf légers aux suspects corrigés, je fais d'abord une ROC en 'image indexable', je corrige les suspects, puis ROC 'ClearScan'. Or j'ai un problème lors de la dernière étape, j'ai souvent le message d'erreur : "La page contient du texte à générer" donc 2ème ROC impossible. J'ai repéré certaines pages qui bloquaient la ROC dont un mot était en gras dans la vignette de page, mais qui ne se différenciait pas dans la page normale. En supprimant "l'objet mot", puis une sorte de carré blanc qui est en dessous, laissant apparaître le même mot, je peux ensuite lancer la ROC. Mais pour certaines pages aucun mot n'apparaît en gras dans la vignette, et même quand je supprime "l'objet page", il ne reste aucun mot visible qui bloque la ROC. Les mots que j'ai repérés et qui bloquent ne sont pas des suspects corrigés.

Il m'est évidemment possible d'abandonner l'idée de la 2e conversion en ClearScan pour ces quelques pages qui bloquent mais c'est en réalité très fastidieux, il faut faire la ROC par petits groupes de pages, trouver celles qui bloquent par une recherche en entonnoir, et ce plusieurs fois, relancer plein de fois la ROC, bref ça prend beaucoup trop de temps pour des pdf de plus de 100/200 pages.

Je vous remercie d'avance pour votre aide !

---------- Nouveau message ajouté à 23h27 ---------- Le message précédent a été envoyé à 22h15 ----------

Après un énième essai sur une des pages qui "bloquent" je découvre une minuscule poussière qui demeure lorsque je fais disparaître tout le texte de la page... Sur les autres pages, je scrute : minuscule poussière aussi... Une fois l'objet correspondant supprimé, la ROC se fait. Mes scans ne sont pourtant pas propres, il y a plein de taches partout. Et le problème reste le même : la ROC ne peut se faire que par petits morceaux, et c'est fastidieux, donc si quelqu'un a une idée d'où peut venir le problème... J'avais déjà transformé un long fichier auparavant sans que cela n'arrive, 250 pages avaient subi les 2 ROC d'affilée sans problème. Là j'ai une page qui bloque toutes les 3 pages !

---------- Nouveau message ajouté à 23h51 ---------- Le message précédent a été envoyé à 23h27 ----------

Là sur une page c'est juste un guillemet : je supprime l'objet, je supprime un petit carré blanc, et dessous se fait jour le guillemet qui ne pose pas problème... Si ça peut être un indice sur l'origine du problème. Et si quelqu'un sait si un outil pourrait m'aider pour repérer plus facilement ce "texte à générer"...
 
AMHA tu ne trouveras aucune aide car non seulement tu ne devrais pas effectuer 2 OCR un même fichier mais en plus tu ne devrais pas pouvoir le faire…
:eek:

Je suis très surpris qu'Acrobat accepte d'effectuer un 2e OCR, normalement il ne devrait pas.
:zen:
 
Eh bien on s'est mal compris dans l'autre sujet où tu m'aidais car c'était la solution à laquelle j'étais arrivé : la 2e ROC enregistrait les suspects corrigés (après la 1re ROC) mais pas le texte que je modifiais d'une autre façon, donc je ne corrigeais que les suspects, puis j'allégeais le pdf via une ROC ClearScan.

Et pourquoi je ne devrais pas ? Le résultat est excellent.
 
Dernière édition:
Et pourquoi je ne devrais pas ? Le résultat est excellent.
Je ne nie pas le résultat ni la méthode, mais normalement ça ne devrait pas être possible…
Partant de là c'est forcément le grand saut dans l'inconnu.
:zen:
 
Comme tu commençais par me dire que je ne devrais pas procéder ainsi avant de me dire que je ne devrais pas pouvoir, je pensais que tu allais m'expliquer les problèmes que tu pouvais envisager relativement à une superposition de calques ou je ne sais quoi ; je serais très friand de comprendre comment tout cela fonctionne, ce qui m'aiderait à comprendre certains bugs sans doute.
 
Non, je n'en ai aucune idée, je n'ai jamais fait ça…
:zen:

Par contre j'ai répondu un peu à coté : normalement on ne peut pas effectuer 2 OCR sur un même fichier, sauf, si et seulement si, le 2e OCR est effectué en mode ClearScan.

Mais… ce 2e OCR ne "reconnaît" pas le texte (puisque c'est déjà fait) et se "contente" de vectoriser les pages (pour alléger le poids du fichier).
:up:
 
Dernière édition:
Lors de la 2e OCR toutes les étapes sont à nouveau affichées, dont "redressement de l'image" etc. mais peut-être que le texte n'est pas vraiment reconnu une 2e fois mais bon peu importe ; il m'est par contre arrivé plusieurs fois d'obtenir des fichiers dont le texte était bien reconnu mais qui soudain, ensuite, ne l'était plus et donnait des carrés ou des sortes de demi-carrés (juste la base et les deux côtés commençant) lors du copié-collé... Des heures de travail foutu en l'air ; je n'ai pas encore déterminé à quoi c'était dû, à quel genre de modification du fichier (qui ne peut être que locale mais qui agirait sur le fichier en général...) J'ai donc arrêté de corriger les suspects et je ne fais qu'une ROC directement en Clearscan, tant pis pour les mots mal reconnus et la correction des suspects. Je ne sais pas encore si ces nouveaux fichiers seront eux aussi susceptibles de "perdre leur texte", je verrai... Mais que d'impossibilités et que de bugs... (Acrobat Pro a quitté inopinément un nombre très important de fois pendant mes manips...)
 
J'ai donc arrêté de corriger les suspects et je ne fais qu'une ROC directement en Clearscan, tant pis pour les mots mal reconnus et la correction des suspects.
Comme je le disais dans mes premières réponses, en général c'est ce que l'on finit par faire tellement la correction est laborieuse…

Surtout depuis Acrobat 8 qui a un moteur d'OCR déjà bien plus performant que ce qui se faisait avant, et surtout depuis Acrobat X qui innove très fort de ce coté là : avec un fichier scanné correctement on obtient facilement des taux de reconnaissance proche de 100%.

;)
 
Bon ben je ne sais pas si tu le savais magicPDF mais un fichier qui a subi une ROC ClearScan NE PEUT PAS être surligné, souligné ou que sais-je dans Aperçu, sans que le texte reconnu ne se transforme en suite de petits carrés dont je parlais, et ce dès l'enregistrement après une modification (le texte de tout le document est perdu pour la modification d'un mot, et comme il me semble assez peu possible de paramétrer Aperçu j'imagine qu'il n'y a rien à faire pour modifier sa façon d'enregistrer)... Encore quelques documents bousillés et des heures de perdues... Je commençais à flipper puisque je ne peux pas installer AP sur mon PowerBook mais en fait Adobe Reader fait ça très bien sans perdre le texte reconnu, il faut juste prendre soin d'enregistrer les pdf sous > Fichier PDF Reader Extended > Activer les fonctions complémentaires... pour pouvoir les modifier sur Adobe Reader.

Pour la correction des suspects, j'insistais pour cette option car AP demeure un peu nul en ROC concernant certaines polices, couplées à de l'italique par exemple, et quand des textes mélangent du français et de l'anglais... sans compter que j'ai pas mal de fichiers mal scannés au niveau de la reliure. Il y a carrément des polices où AP me transforme systématiquement les K en |<... C'est donc toujours loin d'être la panacée.
 
Dernière édition:
Ne t'étonne pas que aperçu bouzille les textes, et tout le reste, dans tes PDF :

Tout PDF enregistré avec Aperçu est potentiellement détruit de manière irréversible :

- Aperçu ne reconnait que l'antique (1999) format PDF 1.4, et encore pas complètement.

- A l'ouverture d'un PDF en version supérieure Aperçu ne prévient pas qu'il a des éléments qui seront potentiellement ignorés.

- L'enregistrement d'un PDF avec Aperçu repasse le fichier en version 1.4 en détruisant définitivement tout ce qui a été ignoré par Aperçu et tout ce qui n'est pas compatible avec cette version du format&#8230;

- Exemple : ouvrir ce PDF (multimédia) avec Aperçu et l'enregistrer : http://abracadabrapdf.net/articles.php?lng=fr&pg=807
1- Pas d'avertissement à l'ouverture et pas d'avertissement à l'enregistrement.
2- De 1,5 Mo à l'origine ce PDF 1.7 enregistré par Aperçu ne pèse plus que 25 Ko : Aperçu a tout ignoré et il n'y a plus rien dedans.

Sans que l'utilisateur ne soit jamais prévenu de ce qui se passe à l'insu de son plein gré&#8230;

==> L'utilisation d'Aperçu comme lecteur de PDF par défaut est un des plus mauvais service que Apple pouvait rendre à ses clients-utilisateurs.

:( :eek: :hein:

---------- Nouveau message ajouté à 10h32 ---------- Le message précédent a été envoyé à 10h30 ----------

PS : et il y a plein d'autres bonnes raisons pour ne jamais utiliser Aperçu comme lecteur de PDF :
http://abracadabrapdf.net/articles.php?lng=fr&pg=405

:zen:
 
Dernière édition:
OK, merci pour toutes ces infos :). Dans Aperçu la recherche est bien, tout de même, j'ai vu que sur AP pour obtenir la même chose (et même un peu mieux [le contexte]) il fallait faire une recherche avancée mais je n'ai pas trouvé de raccourci clavier, et il faut donc cliquer sur une toute petite flèche, puis une 2e fois... Et je n'aime pas utiliser ma souris.

Autrement, en modifiant mes pdf sur mon PowerBook avec Adobe Reader 9 je ne suis pas susceptible de perdre quoi que ce soit a priori ?...
 
OK, merci pour toutes ces infos :). Dans Aperçu la recherche est bien, tout de même
Tu aurais plutôt intérêt à utiliser cette très puissante fonction : http://abracadabrapdf.net/articles.php?lng=fr&pg=533
:up:

(Qui fait partie des fonctionnalités ignorées et détruites sans égard par Aperçu&#8230;)


j'ai vu que sur AP pour obtenir la même chose (et même un peu mieux [le contexte]) il fallait faire une recherche avancée mais je n'ai pas trouvé de raccourci clavier, et il faut donc cliquer sur une toute petite flèche, puis une 2e fois... Et je n'aime pas utiliser ma souris.
Dans Adobe Reader ou dans Acrobat : Préférences : Recherche : Toujours afficher les options supplémentaires avec la recherche avancée.
:zen:

Autrement, en modifiant mes pdf sur mon PowerBook avec Adobe Reader 9 je ne suis pas susceptible de perdre quoi que ce soit a priori ?...
Non, aucun risque.
Les logiciels Adobe ont certainement des défauts mais pas celui-là : si jamais c'est le cas l'utilisateur est toujours prévenu et invité à enregistrer une copie.
:)
 
  • J’aime
Réactions: divoli
Je découvrirai abracadabrapdf bientôt normalement... Je ne sais toujours pas s'il est installé en fait... J'irai lire à ce sujet.

J'ai lu l'aide Acrobat comme toi concernant la recherche et j'avais bien coché "Préférences : Recherche : Toujours afficher les options supplémentaires avec la recherche avancée" mais quand on utilise cmd + F ça ne change rien, et il faut toujours appuyer sur la toute petite flèche, puis une 2e fois sur la paire de jumelles. Ce que tu dis ne fait qu'ajouter le champ "Rechercher dans : Document actif, etc.", ça ne m'est pas utile, au contraire, je préfère que ça ne s'affiche pas.
 
J'ai lu l'aide Acrobat comme toi concernant la recherche et j'avais bien coché "Préférences : Recherche : Toujours afficher les options supplémentaires avec la recherche avancée" mais quand on utilise cmd + F ça ne change rien
Dans ce cas il te faut utiliser un doigt supplémentaire pour la touche majuscule.
;)
 
Mais c'est magique ! :)

Bon là par contre y a un autre truc magique qui arrive mais pas cool et qui n'a rien à voir avec le fil, c'est que je viens d'ouvrir un fichier pour tester ce merveilleux cmd + maj + F, et toutes les pages du fichier sont à l'envers... C'est la 2e fois que ça m'arrive. Je sais évidemment comment rétablir la chose, mais pas comment faire en sorte que ça n'arrive plus.