Le fichier Robots.txt est le premier fichier que visitent les moteurs de recherche lorsqu’ils explorent votre site. Il offre aux webmasters la possibilité de protéger l’accès à certains fichiers ou répertoire du site, pour tous les moteurs de recherche ou seulement certains.
Par défaut, si un moteur de recherche ne trouve pas de fichier Robots.txt à la racine du site, ou si ce fichier accès est vide, le moteur aura potentiellement à tous les fichiers et répertoires du site (à condition, bien sûr, qu’il en connait l’existence via, par exemple, un Plan du site ou un bon réseau de liens internes accessibles dans les pages du site web).
Comment savoir si vous avez besoin de définir des restrictions dans un fichier Robots.txt ? Dans quoi cas cela est-il conseillé ? Considérez les cas suivants :
- Y at-il des pages dans votre site qui, bien qu’accessibles par le grand public, ne devraient pas figurer parmi les résultats de recherche ? (Ce peut-être le cas d’un annuaire interne, de conditions générales de ventes, de formulaires d’inscriptions, etc.)
- Y at-il des répertoires du site qui ne contiennent que des éléments de programmation (fichiers de ressources linguistiques, scripts, fichiers d’inclusions, etc.) ?
- Y at-il des images qui ne devraient pas être trouvées via les outils de recherche d’images ? Ce peut être le cas des images composant la charte graphique du site.
- Y at-il des pages présentant du contenu dupliqué ?
Pour plus d’informations sur le fichier Robots.txtsa structure et la façon dont il est exploité par les moteurs de recherche :
- Les pages des robots Web
- Aide de Google sur l’utilisation du fichier Robots.txt
Par curiosité, regardez le fichier Robots.txt à la racine de Google.fr !








Lien vers le message d’origine