Archives

Umbre

Membre confirmé
30 Août 2007
89
12
Bonjour,

Dans le cadre de mes recherches je dois consulter, télécharger et archiver une certaine quantité de documents disponibles sur le site internet servant d'archives pour les quotidiens islandais.
Il me faut assez souvent télécharger 50 à 100 pages et donc cliquer sur autant de liens..

Je me demande donc s'il n'existe pas un add-on, un petit script ou autre outils afin de télécharger un ensemble de documents présents sur un ensemble de liens ?

Petit exemple :

http://timarit.is/search_init.jsp?lang=en&orderby=date&q=%FAtflytjandi&beyging=beyging&longsnippets=true&advanced=word&pubId=255&date_from=01.01.1995&date_to=31.12.2014


Je sais que cette question peut paraître idiote mais passé les 300 premièrs liens je commence à avoir des envies de meurtre.
 
il serait plus que judicieux de donner ton OS X
( il y en a 10, et selon l'OS les scripts ou options sont très differents)
 
Pardon, je manque à tous mes devoirs.

Un bon vieux Snow Leopard 10.6.8;
 
ok donc dans ta chasse de scripts Applescript ou Automator ne prendre que des "anciens" car la syntaxe Applescript ( et automator) a changé sur des details avec OS récents

autre voie
partir en chasse d'extensions de navigateurs qui feraient ca
( je suis quasi certain d'en avoir entrapercues , du moins pour firefox)
 
J'ai essayé les add-on tels que download master &co. Le problème est qu'ils ne fonctionnent pas avec ce type de site les liens n'étant pas directement des liens pour télécharger les PDF mais des liens conduisant à une page façon " viewer " d'ou l'on peut télécharger le PDF.
 
ouep je viens de verifier le " lien " est un "view_page_init.jsp"

ceci dit pourquoi ne demanderais tu pas un conseil directement au site en expliquant le problème?
y a peut etre une bidouille que le webmaster connait

( c'est une institution qui met à dispo des archives , c'est pas comme si tu raflais un film en salles)
 
C'est tellement simple que je n'y ait pas pensé.

Je vais voir ça avec le webm.

En tout cas merci.