Récupérer contenu d'un site web

goam

Membre confirmé
25 Mai 2009
80
3
51
Bonjour,

Je suis a la recherche d'un utilitaire qui puisse me permettre de récupérer des infos d'un site de manière automatique.
Il existe sur le net des annuaires regroupant des professionnels que je cherche a joindre.
Je dois me constituer une base de données et plutôt que le faire 1 par 1 je souhaiterais pouvoir automatiser cette tache.

L'utilitaire devra pouvoir récupérer l'ensemble des données des annuaires. Auriez vous une idée ?

Merci pour votre aide
 
Avec Safari > Développement > Afficher les ressources de la page, cela ne te suffit pas ?
Tu as le lien de la page que tu veux siphonner ?
 
Subsole tu as bien identifié mon besoin.
Si tu as site/forum, ça te plairait qu'on le siphonne en reprenant tout ton travail ? Que tu te constitues une base de données personnelle n'est pas en soi un problème, mais c'est bien à toi de la constituer manuellement. Sinon avec SiteSucker tu peux aspirer un site, mais en aucun cas de sa base de données !
 
Oui je connais site sucker.
Par ailleurs pour répondre a ta question, a partir du moment ou tu publies des infos sur le net, c'est pour qu'elles soient exploitées. Donc si je publiais un annuaire, cela ne me dérangerait pas qu'on puisse l'exploiter. Cela me dérangerait si la personne en fait commerce, et la ce n'est pas le cas. Je ne vais pas revendre les fichiers.

Merci pour ta reponse ;)
 
Par ailleurs pour répondre a ta question, a partir du moment ou tu publies des infos sur le net, c'est pour qu'elles soient exploitées. Donc si je publiais un annuaire, cela ne me dérangerait pas qu'on puisse l'exploiter. Cela me dérangerait si la personne en fait commerce, et la ce n'est pas le cas. Je ne vais pas revendre les fichiers.
Je crois que tu fais une confusion en parlant de base de données ! Tu pourrais préciser ?
 
Un base de données, c'est simplement un fichier excel avec des informations me permettant de travailler dessus.
 
Bonjour,
@goam, pour faire simple les bases de données sont un peu plus qu'un fichier excel, elles sont hébergées sur un serveur distant et protégées, bien que tu puisses voir leurs contenus (ou du moins ce que l'on veut bien te laisser voir) sur le site, elles ne sont en aucun cas contenues dans le code html car les requêtes des BD sont exécutées coté serveur.
Voilou, voila...
 
  • J’aime
Réactions: pouppinou et subsole
Bonjour, merci pour cette reponse. Effectivement je m'en doute bien. Le but est simplement un systeme qui lie les informations sur le front.
Non pas recuperer leur BD en dur.
Mais je ne sais pas si ce genre d"outil" existe. Comme par exemple executer un cron ou script pour faire cela.
Mais si je ne trouve pas je le ferai a la main ;)
 
Bonjour, merci pour cette reponse. Effectivement je m'en doute bien. Le but est simplement un systeme qui lie les informations sur le front.
Non pas recuperer leur BD en dur.
Mais je ne sais pas si ce genre d"outil" existe. Comme par exemple executer un cron ou script pour faire cela.
Mais si je ne trouve pas je le ferai a la main ;)
Tu peux aspirer un site pour en voir le contenu, mais concernant la base de données, même pas en rêve ! Ça reviendrait à avoir les clés des forums de MacG au niveau de l'administration. Et là, ce n'est plus du stade de l'information, mais de hackage !
 
Mais je ne sais pas si ce genre d"outil" existe. Comme par exemple executer un cron ou script pour faire cela.
Mais si je ne trouve pas je le ferai a la main
Humm quasi impossible, comment veux-tu 'extraire' des informations ciblées parmi la multitude de données que contient un site web ou même une page........
Tu gagneras du temps a créer ta propre base
 
  • J’aime
Réactions: pouppinou
Je dirais qu'il cherche à siphonner des bases de données.
Oui c'est ce que j'avais compris, mais siphonner tout un site (même si il existe de nombreux logiciel pour ça) n'est pas toujours la panacée. C'est pourquoi parfois il faut une porte d'entrée pour chercher ce que l'on veut. En général là où s'affiche ce que l'on veut. Mais comme très bien dit par @Diablo76 et @Locke pour ce qui est exécuté côté serveur cela demande du "hackage", c'est bien pour ça que j'étais interrogatif.
Dans ma jeunesse avec l'avènement de la télé-réalité, j'arrivais à débusquer les codes des caméras dans le Loft 1. :happy: Mais cela n'a rien à voir avec "hacker" une BD protégée. Reconstituer ce que hache un script par exemple, reste possible en fouillant dans le code et en le reconstituant, comme par exemple des adresses de courriels protogées pour éviter la lecture de ces derniers par les bots où autres adresses vidéos, images etc...
Mais effectivement là, on entre dans une autre dimension de savoir-faire et de légalité.
 
Après, si c'est juste récupérer une zone de texte sur une page qui change à chaque affichage: c'est simple à faire