Ca veut dire quoi OCR ?
Il y a effectivement des millions de documents ! et une grande partie (registres) est écrite à la main...
Ouuutch ! Là, je pense que ta boite va devoir prévoir un budget conséquent à l'opération. Je pense que l'opération de numérisation pourrait être sous-traitée à une société spécialisée, ces boites, dotée d'un matos performant, peuvent faire le travail pour un coût moins élevé que si vous le faites en interne.
Par contre, la base de données associée devra être conçue avec le plus grand soin, et avec un véritable SGDB relationnel (Oracle, DB2, Sybase, ...), gérer ça avec un système style FM Pro engendrerait des temps de réponse ingérables.
A mon humble avis, si vous voulez obtenir un résultat exploitable au meilleur prix, le mieux serait de confier l'ensemble de la réalisation à une société spécialisée dans ce domaine (je n'ai pas d'adresse mais je sais qu'il en existe, il y a une quinzaine d'années, l'une d'entre elles occupait le stand voisin du nôtre sur un salon informatique).
Ca veut dire quoi OCR ?
Il y a effectivement des millions de documents ! et une grande partie (registres) est écrite à la main...
Perso, j'ai commencé à numériser (environs 500 articles pour l'instant) ma pile de magazines divers et variés avec un Canon Lide 60, un scanner ultra plat à 60 Euro, l'un des moins chers du marché.
Il est livré, comme tout scanner moderne, avec une espèce de logiciel à tout faire, en l'occurrence Cannoscan Toolbox, qui gère les fonctions mail, photocopie, fax, etc...
... et, ce qui nous intéresse ici, des PDF indéxables dans Spotlights.
Avantages : beaucoup plus rapide à mettre en oeuvre qu'un logiciel pro tel qu'OmniPage. On peut même faire tu traitement par lot.
Voilà donc ce que l'on peut faire avec l'un des scanners les moins chers du marché. Donc si tu veux faire fu travail "de gros", ne vise pas forcément un scanner haut de gamme en définition mais surtout rapide, choisis les bon réglages (pour le poids) ou investit dans un logiciel pro et prends le temps de l'appréhender (conversion au texte brut, etc...)
Ensuite, tu peux combiner les PDF avec PDF Lab et/ou leur adjoindre des mots clefs supplémentaires pour l'indéxation Spotlight.
Avec un Mac et un scanner à plat ? je vois le temps qu'il m'a fallu pour numériser mes bulletins de salaires depuis 1970, là, il sera mort de vieillesse avant d'en avoir fait la moitié. :mouais:
Ça reviendrait cher, pour faire ça en deux mois, il faudrait environ 45 stagiaires, donc 45 postes équipés et 45 scanners qui ne serviraient plus après. Par ailleurs, le temps nécessaire pour constituer la base de données associée serait au moins aussi important, mais nécessiterait lui du personnel qualifié.
Non, la sous-traitance reste la meilleure option. ces gens ont un matériel bien plus adapté, des compétences et de l'expérience. En outre, leur prestation, au lieu de gonfler la taxe professionnelle de l'entreprise (en partie basée sur les salaires), se déduit des impôts via les frais de gestion, donc ... :siffle: