Bonjour
Sofizabel.
robots.txt est un fichier localisé dans l'espace-racine des sites web, qui comporte des consignes destinées aux "
robots" (les automates d'indexation des moteurs de recherche, comme
Googlebot pour
Google) stipulant, pour certains
bots désignés ou pour tous, certaines pages ou toutes les pages du site devant être échappées par l'indexation.
La syntaxe type consiste dans le binôme d'entrées :
User-Agent étant associé en regard aux
bots et
Disallow aux
adresses du site. Ainsi, les instructions :
Bloc de code:
User-Agent: *
Disallow: /
sont radicales, car elles interdisent à tous les
bots (
*) toutes les pages du site à partir du point de montage (
/).
Diverses variations peuvent intervenir comme par exemple :
Bloc de code:
User-Agent: Googlebot
Disallow: /
User-Agent: *
Disallow:
qui interdit au seul
bot Googlebot de
Google l'indexation de toutes les pages du site, mais autorise tous les autres à tout indexer, la rubrique
Disallow: n'étant associée pour eux à aucune saisie d'adresse. [etc. => tu vois le topo ?]
Pour une raison qui m'échappe, lors de ta tentative d'accès à telle page d'un site machin, tu as été assimilée à un
bot et tu t'es vue proscrire l'affichage de la page au motif que :
Bloc de code:
"Page cannot be displayed due to robots.txt."
càd. : "
la page n'a pas pu être affichée par suite des consignes préventives du fichier robots.txt du site visité".
Les robots dits «
bienveillants » ont tendance à tenir pour des règles les consignes des fichiers
robots.txt des sites, à la différence des robots «
malveillants » (qui s'en tamponnent le coquillard).