modifier pdf (document scanné)

reou

Membre actif
21 Janvier 2010
212
7
Bonjour ,

est il possible de modifier un pdf ?

Je scanne un document texte avec scansnap ( ou autre ) , et j'aimerai par la
suite modifier(proprement ) une partie du texte .

Merci

ps je suis sous SL
 
Bonjour,

Au moins deux possibilités :
  • soit tu passes par un logiciel d'édition bitmap (perso je fais ça avec Graphic Converter) et tu utilises la gomme pour supprimer du texte et l'outil Texte pour l'ajouter. Ca peut être un peu galère pour trouver la bonne police; (éventuellement regarder si Apercu peut le faire ??)
  • soit il te faut un logiciel d'OCR (reconnaissance optique des caractères) et là, tu peux travailler le texte comme tu le souhaites.
 
  • J’aime
Réactions: Powerdom
Un scanner génère une image, qu'elle soit stockée dans un PDF ou sous un autre format est anecdotique. Pour transformer cette image en un texte composé de caractères, que ce texte finisse dans un PDF ou sous un autre format est anecdotique, il faut passer par un OCR, ce que ne fait pas ton extension. :zen:
 
Un scanner génère une image, qu'elle soit stockée dans un PDF ou sous un autre format est anecdotique. Pour transformer cette image en un texte composé de caractères, que ce texte finisse dans un PDF ou sous un autre format est anecdotique, il faut passer par un OCR, ce que ne fait pas ton extension. :zen:

Exactement.
Une image, même enregistrée au format PDF, ça se modifie avec un éditeur d'image.
Sinon, on peut effectuer une reconnaissance optique de caractères, récupérer le texte, et refaire la mise en page.
:zen:
 
  • J’aime
Réactions: Powerdom
Bonjour,
On peut le faire très facilement avec Pages.

Mettre le pdf en fond, le verrouiller puis ajouter du texte.

On peut le faire avec aperçu, mais magicPDF n'aime pas trop ;)
 
Mais non. Ne laissez pas tomber à la première difficulté. Nous sommes la pour vous guider.

Essayons avec aperçu d'accord ?
 
Salut reou.

Les autres (que je salue collectivement) t'ont tout expliqué comme il faut. Dès que tu scannes un document, qu'il s'agisse au départ d'une photo ou d'un texte, tu obtiens un fichier .jpg (par défaut) qui a un statut image. Pour éditer 'proprement' (comme tu dis), càd. textuellement, le 'scan-image' d'un document-texte à l'origine, il convient de re-convertir ce fichier-image en fichier-texte qui pourra être ouvert par un traitement de texte et édité en mode écriture. Cette opération est réalisée par des logiciels de Reconnaissance Optique de Caractères (OCR en Anglais), dont «ABBYY».

Je suppose que tu as téléchargé la démo. de ABBYY qui, malgré ses limitations, s'avère opératoire. Je te propose une simple séquence illustrée de la procédure en utilisant ce «ROC».

211784_original.jpg

Voilà un scan-image d'un texte farfelu intitulé «Lorem Ipsum». J'ai récupéré le texte sur le Net, je l'ai copié dans le presse-papier, collé dans une page de «TextEdit», transformé en format .pdf par «Aperçu», imprimé sous forme papier, enfin scanné par mon scanner «Canon» sous forme de fichier-numérique ayant un statut de document-image .jpg, afin de me placer exactement dans ta situation.

Maintenant, je lance «ABBYY» ce qui me donne la fenêtre d'options suivante :

211975_original.jpg

Je clique sur Convertir en document texte, ce qui va me permettre de naviguer jusqu'à mon scan qui réside sur le Bureau, que je choisis. À présent, j'engage la procédure de re-conversion du fichier-image en fichier-texte par «ABBYY» ainsi :

212556_original.jpg

Je sélectionne ma 'langue-source', mon 'format de sortie', je vérifie si l'OCR a bien cadré mon scan-image dans ses parties utiles et je lance la 'conversion'. Cela me donne sans erreur (dès lors qu'on part de polices modernes dans un document propre avec identification de la langue de rédaction) une re-conversion en document-texte .rtf que je peux ouvrir dans «Word-Mac» (en cas de doute sur des erreurs éventuelles d'identification de caractères, sélectionner tout et lancer le vérificateur orthographique) :

212429_original.jpg

À partir de là, je peux me payer le luxe d'éditer, en mode écriture, mon document comme ceci :

212925_original.jpg

À malin, malin et demi. La première partie du texte 'Lorem Ipsum' est une falsification volontaire d'un extrait du traité philosophique de Cicéron intitulé : «De Finibus Bonorum et Malorum». Le visuel montre mon processus facétieux d'édition à rebours du texte initial par amendement d'après le texte originel. J'ai fait exprès de juxtaposer les phases successives, mais il est bien évident que je pourrais directement agir sur le document-texte produit par «ABBYY» sans toute cette mise-en-scène humoristique.

À l'arrivée, j'ai un document-texte édité que je peux, à ma guise, convertir en .pdf grâce à «Aperçu».

Ce descriptif paraît un tantinet complexe et longuet. Dans la pratique, il est déconcertant de facilité et de rapidité.
 
Dernière édition par un modérateur:
  • J’aime
Réactions: Powerdom
Mettre le pdf en fond, le verrouiller puis ajouter du texte.
On peut le faire avec aperçu, mais magicPDF n'aime pas trop ;)

S'agissant d'un "faux" PDF (ou "vraie" image scannée) Aperçu fera tout aussi bien l'affaire que n'importe quel autre éditeur image.

Aperçu est très bien pour les images, c'est pour les "vrais" PDF qu'il est dangereux.

:)
 
Bonjour et merci pour votre aide
Mais quand je scanne un document , celui ci est directement transformé en pdf
si j'ouvre ABBYY ( scan to searchable pdf ) , je n'ai pas de fenêtre mais une conversion
automatique
le fichier s'ouvre ensuite avec aperçu
 
Salut reou.

quand je scanne un document , celui ci est directement transformé en pdf

Peu importe! Ton .pdf issu du scan est équivalent à un fichier-image, c'est comme une photo de texte (n'en déplaise aux puristes) - la preuve, tu ne peux pas l'exploiter en mode écriture. Dis-toi que c'est, purement et simplement, une image. Et cette image inutilisable telle quelle, tu vas la fournir à un OCR pour qu'il te la décode en version texte. Où tu pourras écrire à ta guise.

si j'ouvre ABBYY ( scan to searchable pdf ), je n'ai pas de fenêtre mais une conversion automatique

Si tu lances «ABBYY», tu obtiens cette fenêtre de choix au départ :

213847_original.jpg

[Je te signale en passant que tu as dû télécharger une version anglaise, au vu du menu que tu cites : 'scan to cherchable .pdf', là où il y a une version française qui traduit : 'Convertir en PDF avec possibilité de recherche'. Au cas où tu serais plus à l'aise dans la langue de Molière que dans celle de Shakespeare.]

Comme tu peux le voir dans mon visuel, il faut expressément que tu choisisses : CONVERTIR EN DOCUMENT TEXTE. Pourquoi voudrais-tu convertir en .pdf un déjà .pdf? Autant faire une copie directe (⌘D) de ton document-scan qui est un .pdf. Je le redis : cesse de te focaliser sur le pdf! La seule chose qui t'importe, c'est que tu as un fichier-image issu du scan et que tu veux le convertir en fichier-texte, qu'un traitement de texte saura ouvrir et où tu pourras écrire à loisir.

Donc choisis 'Convertir en document texte', navigue à l'adresse de ton fichier et convertis ou laisse convertir automatiquement [J'ai l'impression effectivement que quand on part d'une base .pdf, la conversion en texte .rtf se lance automatiquement, à la différence d'une base .jpg. Mais sur le fond, rien ne change : le document de départ est traité comme une 'image' à soumettre à une 'Reconnaissance Optique de Caractères', et l'important est d'avoir opté dans la fenêtre de choix pour : 'Convertir en document texte' pour obtenir ... du texte!]. Le résultat sera nécessairement un fichier-texte .RTF. C'est ça qui compte. «Word» l'ouvrira sans problème. Ce n'est pas à «Aperçu» de le faire dans le contexte où nous sommes ici, qui est de traiter du texte comme tel, et pas d'afficher des 'images de texte'.

[Dans mes tuyaux, j'ai exploré uniquement la problématique : convertir de l'image-texte issue d'un scan, qu'elle soit .pdf ou .jpg peu importe, en 'texte scriptible'. Mais d'autres avant moi avaient très justement signalé aussi l'autre voie, qui s'apparente à la 'retouche-photo' : traiter ton image-texte comme une 'photo', où tu pourrais couper un bloc, restaurer une couleur de fond convenable, et superposer une couche d'écriture. Le procédé sera moins propre, mais dans certaines limites acceptable aussi.]

[J'en profite pour m'excuser auprès des puristes pour mon emballage quelque peu sommaire du .pdf dans le même 'sac documentaire' que les images. C'est tactique. Dans une problématique de 'Reconnaissance Optique de Caractères', cela ne change rien à la donne. Je me suis amusé à faire charger par «ABBYY» une notice 'Samsung' de 161 pages en .pdf à partir de l'option : 'Convertir en document texte' : remarquable résultat à l'arrivée en .RTF. Que «Word» ouvre et où tout a une mise en page et une exactitude étonnantes. Scriptitble, bien évidemment.]

[Édit. Bien évidemment, il existe des logiciels spécialisés dans la conversion .pdf ⇒ .doc, genre : «AnyBizSoft PDF to Word» - payant bien entendu, avec une démo. limitée à 5 pages. Pour ma part, je m'en tient à la polyvalence de 'couteau-suisse' qu'est un OCR, mais j'entends bien que quelqu'un qui aurait spécifiquement affaire à du .pdf en masse et rien d'autre pourrait préférer un convertisseur plus spécialisé.]
 
Dernière édition par un modérateur:
Bonjour et merci pour votre aide
Mais quand je scanne un document , celui ci est directement transformé en pdf

Bon, j'interviens pour préciser un point que reou semble avoir du mal à comprendre :

reou, quand tu scanne un document, tu en fais une photo (si si, comme avec un appareil photo), rien de plus, donc quel que soit le format du document en sortie, ça reste une photo, une image, type de document sur lequel Photoshop ou The Gimp te permettront de faire des modifications, mais que ni un traitement de texte, ni un quelconque "PDF modifier" (Acrobat compris) ne te permettront de corriger.
 
ni un quelconque "PDF modifier" (Acrobat compris) ne te permettront de corriger.


Par contre Acrobat possède son propre OCR permettant rapidement de convertir ce PDF contenant juste une image de la page en PDF contenant le texte reconnaissable écrit sur la page.