récuperer les infos d'un fichier html

MacDonGio · 22 Avril 2004

Bonjour à tous...

J'ai mon emploi du temps qui est régulièrement mis à jour sur internet, sur le site de mon école et j'aimerais créer un petit programme qui me permettrait de transformer la page html, une fois enregistrée en .txt, pour en récuperer les informations qui m'interessent et les mettre dans un nouveau fichier texte reconnu par iCal, pour ne pas avoir à tout le temps retaper mon emploi du temsp.

Donc je cherche les commandes, shell, ou autre, qui me permettrait par exemple de supprimer certaines balises, les remplacer par celles de iCal (celles qu'on a lorsqu'on ouvre un fichier .ics (edt de iCal) ), récuperer des mots pour les réorganiser, etc...

Merci beaucoup aux personnes qui pourront m'aider.

aLittleWoodElfe · 23 Avril 2004

Parser un fichier html est loin d'être évident. Maintenant si le fichier de départ est simple et invariant dans sa structure tu devrais pouvoir y arriver.
Regardes par exemple du coté de sed (man sed dans un terminalt) pour tout ce qui transformations de balise. Par exemple :

Code:<hr /><pre>
s/rouge/vert/g
</pre><hr />

va transformer toutes les occurences du mot rouge par le mot vert dans ton document.

MacDonGio · 25 Avril 2004

ok, je vais commencer par ça
merci

marc_ferraton · 26 Avril 2004

Si tu cherches un outil pour traiter du texte le plus efficace me semble gawk. dans le principe tu décris dans un fichier le traitement que tu veux effectué pour chaque ligne du fichier source.
la fonction gsub permet de remplacer une chaine par une autre plus simplement qu'avec sed ( surtout si tu as des caracteres dit protégés comme - / : - le remplacement s'avere sportif avec sed

)
gawk manipule des variables comme tout langage de programmation, mais avec les spécificités au traitement des chaines de caracteres.

Tu peux même trouver qques exemples à partir de Google
Si tu as un cas précis, je peux te proposer un début de résolution en exemple.

Sinon tu as aussi la solution d'utiliser un browser que te supprime tous les balises html comme lynx
$ lynx -dump http://unsite/index.html

MacDonGio · 29 Avril 2004

ok, je vais aller faire un tour sur ce site, merci

je vais te donner un exemple, le fichier que je récupère dans la page html est de cette forme:
&nbsp; </TD>
<TD WIDTH="05%" BGCOLOR="#AABBEE">08h00 &nbsp; </TD>
<TD WIDTH="18%" BGCOLOR="#33CCFF">Electricit&eacute; &nbsp; </TD>
<TD WIDTH="10%" BGCOLOR="#33CCAA">COURS &nbsp; </TD>
<TD WIDTH="05%" BGCOLOR="#33CCCC">01h30 &nbsp;</TD>
<TD WIDTH="10%" BGCOLOR="#33CCDD">30 &nbsp; </TD>
<TD WIDTH="15%" BGCOLOR="#33CCEE"> &nbsp;</TD>
</TR><TR VALIGN=TOP><TD WIDTH="20%" BGCOLOR="#33AAAA">21-04-04 &nbsp; &nbsp; </TD>

et je voudrais le transformer en fichier du type :
BEGIN:VEVENT
DTSTART;TZID=Europe/Paris:20040422T133000
DTEND;TZID=Europe/Paris:20040422T163000
SUMMARY:Math?©matiques g?©n?©rales\, cours
UID:56A2F9A4-93AB-11D8-9CB2-000A95B14486
SEQUENCE:1
DTSTAMP:20040211T175817Z
END:VEVENT

un petit coup de pouce de plus serait le bienvenu...
merci d'avance

la tortue · 29 Avril 2004

<blockquote> MacDonGio:<hr />(...) et je voudrais le transformer en fichier du type : (...)

[/QUOTE]
Ben tu sais, c'est assez délicat ton affaire.

Ton fichier html n'a évidemment aucune structure, ce serait du XML encore...
Le contenu d'un tel document n'a de sens qu'une fois visualisé par un navigateur... Un programme aura du mal à y trouver quoi que ce soit...
C'est pas pour te décourager, mais là...

Faut vraiment être motivé...

Bon sinon, de quelles technologies disposes-tu pour faire ça?

marc_ferraton · 29 Avril 2004

ok, je vais aller faire un tour sur ce site, merci

Je crois que je me suis mal exprimé
http://unsite/index.html voulait decrire la page html de ton emploi du temps

donc
récuperes une page d'emploi du temps (tu peux faire enregistrer sous avec ton navigateur si tu n'a pas lynx)
{Lynx est un navigateur en mode texte que tu lances dans un terminal}

Si tu as lynx l'option -dump retirera toutes les balises HTML et te donneras un document qui pourra lui être transformé par une procedure awk suivant les quelques regles que tu fournis dans ton message, A CONDITION bien sur que le texte de la page soit significatif pour l'usage que tu veux en faire

Donc en résumé
-Récuperes une page d'emploi du temps à transferer, postes la moi, j'ai "lynx"
-si tu trouves lynx sur ta machine, récuperes cette même page en mode texte, lynx -dump http://.....tapagedemploidutemps
ou
lynx -dump http://.....tapagedemploidutemps >fichieraetudier
pour avoir une copie en fichier texte
- analyse les informations et dis moi comment elles doivent être transformées
un exemple imaginé completement loufoque de ta page emploi du temps
---------------------------------------------------------
21-04-2004 designation professeur classe
15h30 30mn cours de mathématique Mr Gourou Maternelle salle A
...
...

c'est jouable à premiere vue

MacDonGio · 30 Avril 2004

tout doucement mais surement, j'ai commencé à transformer le fichier de départ avec des commandes perl

j'ai commancé par écrire dans un fichier .pl les commandes suivantes:

#!/usr/bin/perl
open(FIC,"<1");

$l = <FIC>;

while( defined( $l = <FIC> ) )
{

$l =~ s/<TD........................33CCFF.>/SUMMARY:/g;
$l =~ s/<TD........................33CCEE.>/END:VEVENT/g;
$l =~ s/<TD........................33AAAA.>/DTSTART;TZID=EUROPE_PARIS:/g;
$l =~ s/<TD........................33CCBB.>//;
$l =~ s/<TD........................33CCCC.>//;
$l =~ s/<TD........................33CCDD.>//;
$l =~ s/<TD........................AACCBB.>//;
$l =~ s/<TD........................33CCAA.>//;
$l =~ s/<TD........................AABBEE.>//;
$l =~ s/<TR VALIGN=TOP>/BEGIN:VEVENT\n/g;
$l =~ s/<.TD>//;
$l =~ s/<.html>//;
$l =~ s/<.TR>//;
$l =~ s/<.TABLE>//;
$l =~ s/<.BODY>//;
$l =~ s/.nbsp.//;
$l =~ s/&nbsp;//;
$l =~ s/ &nbsp;//;
$l =~ s/&//;
$l =~ s/nbsp;//;
$l =~ s/<TR>//;
$l =~ s/<.*ME1.*//;
$l =~ s/<.*Consultation.*//;
$l =~ s/Date.*//;
$l =~ s/Mati.re.*//;
$l =~ s/Groupe.*//;
$l =~ s/Type_s.ance.*//;
$l =~ s/Dur.e.*//;
$l =~ s/Salle.*//;
$l =~ s/Observations//;
$l =~ s/Professeur//;
$l =~ s/Heure//;
$l =~ s/ //;
$l =~ s/<TABLE.*//;
$l =~ s/<body.*//;
$l =~ s/.*head>//;
$l =~ s/eacute;/e/;
$l =~ s/&eacute;/e/g;

# a partir d'ici il n'y a plus de cochonnerie dans le fichier

print $l;
}

ce qui me remplace :
</TR><TR VALIGN=TOP><TD WIDTH="20%" BGCOLOR="#33AAAA">07-04-04 &nbsp; &nbsp; </TD>
<TD WIDTH="05%" BGCOLOR="#AABBEE">13h30 &nbsp; </TD>
<TD WIDTH="18%" BGCOLOR="#33CCFF">Hydraulique &nbsp; </TD>
<TD WIDTH="07%" BGCOLOR="#AACCBB">01/02 &nbsp; </TD>
<TD WIDTH="10%" BGCOLOR="#33CCAA">TRAVAUX-PRATIQUES &nbsp; </TD>
<TD WIDTH="10%" BGCOLOR="#33CCBB">GRATON &nbsp; </TD>
<TD WIDTH="05%" BGCOLOR="#33CCCC">04h00 &nbsp;</TD>
<TD WIDTH="10%" BGCOLOR="#33CCDD">HYDRAULIQUE &nbsp; </TD>
<TD WIDTH="15%" BGCOLOR="#33CCEE"> &nbsp;</TD>

en :
BEGIN:VEVENT
DTSTART;TZID=EUROPE_PARIS:07-04-04
13h30
SUMMARY:Hydraulique
01/02
TRAVAUX-PRATIQUES
GRATON
04h00
HYDRAULIQUE
END:VEVENT

maintenant il faudrai que je trouve le moyen de récupérer certaines informations comme l'heure et la date pour tout mettre sous la forme yyyymmddThhmmss , puis récuperer la durée pour le rajouter

merci de votre aide

PS: si quelqu'un pouvait me dire à quoi correspond la ligne
UID:56A2FF84-93AB-11D8-9CB2-000A95B14486
du fichier .ics d'iCal, ça m'aiderait aussi pas mal

LaGaFFe · 1 Mai 2004

Bonjour, j'suis un nouveau venu dans ce forum. J'avoue ne pas avoir tout lu mais pour la partie recuperer la page html dans un fichier le testurl.c de mon projet (verificateur de lien web) fera l'affaire

MacDonGio · 1 Mai 2004

LaGaFFe a dit:
Bonjour, j'suis un nouveau venu dans ce forum. J'avoue ne pas avoir tout lu mais pour la partie recuperer la page html dans un fichier le testurl.c de mon projet (verificateur de lien web) fera l'affaire

alors tu vas ptete pouvoir m'aider

donc si tu pouvais m'en dire d'avantage...

merci d'avance

LaGaFFe · 1 Mai 2004

Donc des précisions sur mon projet:
J'ai un code TestURL.C fourni par mon prof qui teste si l'url est bonne (pas de pb serveur, erreur 404, etc) puis te permet de récuperer le document html.

Ce dont tu aura besoin:
les fichiers TestURL.C, TestURL.h et testurl.c

Comment ça marche:
Le fichier TestURL.C contient le code des fonctions. Le TestURL.h les prototypes pour savoir qu'est-ce que tu peut utiliser et comment. testurl.c est un programme d'example fourni par le prof pour illustrer comment appeller les fonctions.
Donc en résumé, dans ton cas il te faut faire un GetHTTP(ton serveur, ton chemin); GetHTTP retournera un code d'erreur, si ce code = 200 tout s'est bien passé et tu peut ensuite utiliser la page html avec GetDoc() qui te retourne une chaine contenant la page. Reste plus qu'à la traiter... à la fin mettre un FreeURL() pour rendre la mémoire de tes fonctions web.

Voila voili

récuperer les infos d'un fichier html

MacDonGio

Membre confirmé

aLittleWoodElfe

Membre confirmé

MacDonGio

Membre confirmé

marc_ferraton

Membre confirmé

MacDonGio

Membre confirmé

la tortue

Membre actif

marc_ferraton

Membre confirmé

MacDonGio

Membre confirmé

LaGaFFe

Invité

MacDonGio

Membre confirmé

LaGaFFe

Invité

Sujets similaires