numériser doc papier vers word pour pouvoir le corriger

Louna.L

Membre actif
24 Janvier 2009
209
9
Sud Est
Bonjour,
je cherche, je cherche... J'ai lu les fils sur pdf-word, entre autres.
Voilà ce que je veux faire : numériser un doc papier et pouvoir le corriger (boulot : correction d'articles).
Voilà ce que j'ai essayé , sachant que j'ai une HP all-in one C4390 et un macbook OSX processeur intel :
-numériser vers OCR : la cata, ça va dans text edit et c'est total illisible.
- numériser image, puis, vers pdf, puis avec convert pdf, passer dans word. C'est ok sauf que dans word j'ai aussi une image (!!!) et que je ne peux pas agir sur le texte.
-numériser image puis ocr vers word : c'est encore ce qui marche le mieux mais j'ai des tas d'espaces introduits partout qui rende le texte difficilement lisible, et le texte est "dispatché" il faut que je le remtte dans l'ordre avant de pouvoir travailler : c'est très long !
Quelqu'un aurait une idée ?
merci merci
 
...
-numériser image puis ocr vers word : c'est encore ce qui marche le mieux mais j'ai des tas d'espaces introduits partout qui rende le texte difficilement lisible, et le texte est "dispatché" il faut que je le remtte dans l'ordre avant de pouvoir travailler : c'est très long !
Quelqu'un aurait une idée ?
merci merci
juste un conseil : numériser seulement en noir et blanc et à une résolution d'au moins 300 ppp (points par pouce). En noir et blanc l'image ne sera pas trop lourde et de toute façon ce n'est qu'un fichier temporaire qui sera jeté, puisqu'en final ce sera un fichier texte.

Salutations.
 
Peut être que le logiciel d'OCR que tu utilises n'est pas top ?
Ici une sélection de logiciel, un des plus connus étant omnipage qui fait plutôt bien, très bien, l'ocr.
 
juste un conseil : numériser seulement en noir et blanc et à une résolution d'au moins 300 ppp (points par pouce). En noir et blanc l'image ne sera pas trop lourde et de toute façon ce n'est qu'un fichier temporaire qui sera jeté, puisqu'en final ce sera un fichier texte.

Salutations.
Merci por cette info je testerai demain et vous dirai. J'ai oublié de dire que très souvent, il y a des photos au milieu du texte...

---------- Post added at 00h09 ---------- Previous post was at 00h07 ----------

Peut être que le logiciel d'OCR que tu utilises n'est pas top ?
Ici une sélection de logiciel, un des plus connus étant omnipage qui fait plutôt bien, très bien, l'ocr.
Super, merci pour ce listing. je vais tester demain...
 
Le résultat de ton scan sort en Textedit, mais tu peux l'ouvrir avec Word ou Pages ou autre.. et ça change tout.
Clique sur le fichier avec la touche "ctrl" enfoncée, et choisis dans "ouvrir avec" !
 
Désolée, j'ai corrigé mes articles, pas eu le temps de revenir avant.

Merci Moonwalker.
Ben je sais pas, mais je trouve que l'agressivité n'est pas indispensable. Si je suis venue là c'est que je n'ai pas trouvé. Pas que je n'ai pas cherché. Je croyais que les forums servaient aussi à ça ??? Et si mes questions t'importunent tu n'es pas obligé d'y répondre... Encore désolée, je ne sais pas ce qu'est un pdf indexé.
Et oui j'ai cherché. L'aide papier de l'imprimante est nulle, et sur écran c'est zéro.
Le coup de "ouvrir avec" j'ai fait aussi, sans résultat.
Le fait de scanner en noir et blanc idem.
En fait le meilleur résultat c'est toujours "OCR vers msword"
Comme moonwalker m'a dit que mon logiciel était excellent, je n'ai pas essayé les autres... Mais merci pour la liste.

Je crois que je sais ce qui bug. Mes articles sont en mode "colonnes" et à l'issu du scan j'ai du linéaire. le scan ne reconnait pas les sauts donc il me mélange tout !
Je ne vois pas bien quoi faire
 
Il ne faut pas passer par numériser vers image. Ce que tu veux traiter n'est pas une image mais un document. Dans ce cas les options sont légèrement différentes. Numériser vers PDF ou vers OCR.

Ne pas opérer depuis le panneau d'imprimante mais depuis le logiciel HP Scan Pro.

Un PDF indexé c'est un PDF qui contient du vrai texte, un document dans lequel tu peux rechercher une occurrence.

Tu peux sortir plusieurs type => Texte — Texte sur image — Image — Image sur texte

"Image sur texte" permet d'avoir un PDF réplique exacte de ton document et dans lequel tu peux rechercher des occurrences.

Si ton document est complexe, il te faut régler l'OCR sur Texte cadré. Tu peux aussi choisir la sortie HTML.

capturedcran20100213040.png


Maintenant, si tu as à traiter beaucoup de documents de cette sorte, avec des tableaux et une mise en page complexe, je pense que tu devrais passer au niveau supérieur de l'OCR. Readiris Pro 12 (129€) est spécialement conçu pour fonctionner avec Microsoft Word 2008.

[nota : ma capture est celle du nouveau HP Scan pour Mac OS X Snow Leopard. C'est un peu différent avec HP Scan Pro et Mac OS X 10.5 mais on y retrouve les mêmes options.]

Un dernier truc : il n'y a aucune agressivité à conseiller la consultation de l'aide. C'est la base. Tu consultes l'aide avant de venir poster — et même si elle te semble rébarbative, l'aide des logiciels HP est assez complète. On n'est pas une Hot-line.
 
Maintenant, si tu as à traiter beaucoup de documents de cette sorte, avec des tableaux et une mise en page complexe, je pense que tu devrais passer au niveau supérieur de l'OCR. Readiris Pro 12 (129€) est spécialement conçu pour fonctionner avec Microsoft Word 2008.
Vous avez l'air de vous y connaître en reformatage pdf => OCR => doc.

Il existe pas mal d'applications qui permettent de faire cela, dont Adobe Acrobat Pro. J'ai la version Acrobat Pro 8.0, qui est n'est pas la dernière. Lorsque je vais des conversions (c'est pas très souvent) j'ai parfois de drôles de résultats, avec des textes convertis dans des cadres et des cadres qui se chevauchent. J'ai perdu parfois plus de temps à repositionner les cadres que si j'avais recopié le texte manuellement.

J'avais eu l'occasion de tester Read Iris 11 à mon ancien boulot avec des résultats pas beaucoup plus probants. Mais peut-être que c'était dû au fait que mes réglages de conversion n'étaient pas optimums.

Ma question à vous qui avez l'expérience, est-ce que la technologie OCR embarquée dans Read Iris 12 a fait de gros progrès ? Avez-vous aussi des problèmes tels que décrits parfois lors de conversions ? Si oui, est-ce que vous arrivez à les résoudre en affûtant les réglages ?

Je précise, pour ne pas vous faire perdre trop de temps, que je n'ai pas de travail spécifique à résoudre et donc pas véritablement de problème. Ce sont des questions de curiosité.
 
Sur le rendu vers Microsoft Office 2008, le Readiris Pro 12 est en net progrès par rapport au 11. C'est patent avec Word mais encore plus sur Excel. On ne passe plus par le RTF ou le HTML mais directement en .docx et .xlsx. Notons aussi la possibilité OpenDocument [.odt] pour OpenOffice.org.

Je précise que je dispose des deux, le 11 sur mon iMac et le 12 sur mon MBP.

Je reproche au 12 son interface que je trouve moins pratique que le 11. Mais peut-être est-ce aussi une question d'habitude ?

Il est toujours délicat d'obtenir exactement ce qu'on désir dans Microsoft Office, et plus le document d'origine est complexe plus on augmentera les chances de déconvenues.

Il ne faut pas hésiter non plus à forcer sur la résolution de numérisation. 300pp c'est un minimum en OCR. Il m'est arrivé pour certains documents de pousser à 600pp.

Il peut être aussi intéressant de procéder d'abord par la numérisation sous forme d'un PDF Image et de le passer ensuite par Readiris Pro. Sur le 11, j'obtenais ainsi de meilleurs résultats qu'en acquisition directe.

Il y a eu un accord entre Iris et Adobe qui fait que ce sont les technologies I.R.I.S. qui sont utilisées par Acrobat pour l'OCR. De même, le nouveau format PDF IHQ ultra compressé de Readiris Pro 12 ne peut être lu correctement qu'avec Adobe Reader.
 
  • J’aime
Réactions: twinworld
Merci beaucoup pour ces précisions !! :up::up:
 
Moonwalker :
Il ne faut pas passer par numériser vers image. Ce que tu veux traiter n'est pas une image mais un document. Dans ce cas les options sont légèrement différentes. Numériser vers PDF ou vers OCR.

Ne pas opérer depuis le panneau d'imprimante mais depuis le logiciel HP Scan Pro.

Un PDF indexé c'est un PDF qui contient du vrai texte, un document dans lequel tu peux rechercher une occurrence.

Tu peux sortir plusieurs type => Texte — Texte sur image — Image — Image sur texte

"Image sur texte" permet d'avoir un PDF réplique exacte de ton document et dans lequel tu peux rechercher des occurrences.

Si ton document est complexe, il te faut régler l'OCR sur Texte cadré. Tu peux aussi choisir la sortie HTML.

:up:

Merci pour ces infos précieuses.
J'ai testé le PDF en suivant ton process, c'est nickel.Juste il faut maintenant que j'aprenne à me servir du pdf
Et en réglant l'OCR sur texte cadré, la fonction OCR vers word me donne un article en place, les colonnes respectées !
Alors encore merci.
Et sans vouloir insister, j'avais déjà pas mal cherché avant, je ne vois pas où j'aurais pu trouver les infos que tu m'as données ;)
 
Bonjour,
Le gros problème que j'ai, c'est que je ne trouve nul part les "components OCR" pour intégrer dans mon Epson scan panel. Sur cette panel il y a bien "Scan to OCR" mais le bouton est grisé. Sachant que mon Epson cx5400 est capable de scanner en OCR, je ne comprends pas pourquoi le logiciel n'est pas sur le CD d'installaton, ni sur le site Epson.

Quelqu'un pourrait-il m'aider ?
Merci