crawler un pdf

fredmac75 · 7 Avril 2006

bonjour,
quelqu'un peut-il me dire si "notre ami à tous" et consort peut indexer le contenu d'un pdf.. au dela du nom de fichier ?

Autre question : existe t-il des méta données éditable sur un fichier pdf ?

Merci

Marc-André · 13 Avril 2006

La version complète d'Acrobat permet le Catalog d'un fichier pdf.
Ensuite il doit être possible de fouiller dedans cet index.

Marc-André

da capo · 13 Avril 2006

Dans l'aide de Acrobat :

Aide de Acrobat a dit:
Les documents Adobe PDF créés dans les versions 5.0 et ultérieures d'Acrobat comportent des métadonnées de document au format XML. Ces métadonnées fournissent des informations sur le document et son contenu, telles que le nom de l'auteur, des mots-clés et des informations sur les droits d'auteur, qui peuvent être utilisées par des utilitaires de recherche.

Une petite recherche chez notre bon ami, me laisse penser que Google lit bien les pdf.
D'ailleurs, il est possible d'écrire une requête du type "monmotclé filetype

df"

fredmac75 · 13 Avril 2006

Merci pour vos réponses... j'avais un doute, il est dissipé.

crawler un pdf

fredmac75

Membre expert

Marc-André

Membre actif

da capo

abonné absent

fredmac75

Membre expert

Sujets similaires