crawler un pdf

La version complète d'Acrobat permet le Catalog d'un fichier pdf.
Ensuite il doit être possible de fouiller dedans cet index. ;)

Marc-André
 
Dans l'aide de Acrobat :
Aide de Acrobat a dit:
Les documents Adobe PDF créés dans les versions 5.0 et ultérieures d'Acrobat comportent des métadonnées de document au format XML. Ces métadonnées fournissent des informations sur le document et son contenu, telles que le nom de l'auteur, des mots-clés et des informations sur les droits d'auteur, qui peuvent être utilisées par des utilitaires de recherche.

Une petite recherche chez notre bon ami, me laisse penser que Google lit bien les pdf.
D'ailleurs, il est possible d'écrire une requête du type "monmotclé filetype:pdf"