A la lecture de toutes ces polémiques sur les robots.txt ou pas … comme chez Sylvain par exemple
http://blog.axe-net.fr/bref-jai-change-mon-robots-txt/
bref, c’est quoi la méthode infaillible pour ne pas que google indexe une page ??
Parce que pour le coup ca m’interesse
- robots.txt
- balise robots
et on ne répond pas
- login mot de passe
- javascript
c’est juste pas envisageable …ou complètement inutile dans mon cas de figure
parce que la {pro|débutante|experte|baltringue|ou ce que vous voulez} que je suis est perdue …
A vot’ bon coeur


23 commentaires
le 22/02/2012 RDD
Pour ne pas se faire indexer en etant discret : htaccess ma chere sandrine
le 22/02/2012 SuperBenoit
Encrypter via javascript la totalité des pages, je l’ai testé ça marche !!! Le contenu est lisible via le navigateur mais le reste bah ya plus rien à voir XD
et je peux prouver ce que j’avance, encoyer moi une page que j’encryte à superbenoit@live.fr et on fait l’essais XD
le 22/02/2012 Loiseau2nuit de Plafond tendu Paris
pour ma part la meta robot à noindex fonctionne assez régulièrement. Après, sur les directives litigieuses (comprendre par là : celles que Google s’autorise à transgresser 9 fois sur 10) si je dois doubler la consigne dans un robots.txt, ca prend 3 secondes, ca ne mange pas de pain et au moins on peut dire au client que c’est pourtant pas faute d’avoir essayé (obligation de moyen, pas de résultat, tout ça… ^^)
le 22/02/2012 SuperBenoit
Ouais mais HTaccess ça peut être aussi contourné :s
le 22/02/2012 Loiseau2nuit de référencement angers
@RDD tu fais comment dans un htaccess, parce que là moi aussi ça m’intéresse oO ???
le 22/02/2012 RDD
@Loiseau2nuit : un debut de piste ici http://www.renardudezert.com/2010/09/22/a-eviter-dans-robots-txt.html
P.S. : Pardonne moi pour l’auto-promo sandrine
le 23/02/2012 Sandrine
Cool je vais aller lire ca et bien-sur que je pardonne l’auto promo
le 23/02/2012 Aurélien
Plusieurs solutions :
- ne pas mettre son site en ligne
- htaccess
- robots.txt + meta noindex (lorsque le bot est de bonne humeur uniquement).
le 23/02/2012 Sandrine
ne pas mettre son site en ligne … ne me tente pas
ca faisait longtemps que tu étais pas venu mettre un commentaire, je m’inquiétais
le 23/02/2012 Sandrine
Ce que je retiens, c’est que finalement ne pas faire indexer une page c’est pas aussi simple qu’il n’y parait surtout quand on sait que cette page va se promener sur internet.
Merci à vous de vos conseils, je ne manquerais pas de vous tenir au courant.
le 23/02/2012 Romain
Je ne vois pas trop pourquoi la question de la non indexation se pose :p. Cela dis c’est mon prof de réseau qui est à l’origine de cette petite polémique sur le robots.txt, il a bien craqué …
le 24/02/2012 sandrine
Il y a des tas de cas où tu peux vouloir laisser une page pour l’internaute mais pas pour les moteurs.
Soit dit en passant effectivement ton prof a craqué mais ce n’est pas de ca dont je parle ici mais plutôt je rebondis sur « Google indexe des pages en noindex » et comme j’ai le cas en ce moment, je cherchais une solution « fiable » et qui corresponde aux attentes de l’intégralité d’une équipe …
le 24/02/2012 sylvain de axenet
Attention :
Quand Google le respecte, c’est noindex.
Mais une fois fait, ne mettez pas un disallow dans le robots.txt parce que Google n’ira plus crawler la page et ne verra pas le noindex.
Voir une discussion à ce sujet ici :
http://www.google.com/support/forum/p/Webmasters/thread?tid=25f6db1c7f335b51&hl=en
il suffit que quelqu’un fasse un lien vers votre page pour que Google indexe, alors si ensuite vous lui dites de ne pas crawler dans le robots.txt et bien je le répète, il ne verra pas votre noindex.
Bon, ensuite, Google est un aspirateur qui indexe tout ce qu’il peut et qui respecte ce qui l’arrange.
le 24/02/2012 Antoine de Outil seo
La seule méthode qui me parait fiable, ce serait d’envoyer un 401 (donc protection derrière login et mot de passe) ou alors détecter l’user agent Googlebot et lui envoyer un forbidden.
Pour le reste, meta noindex ou robots.txt, même avis que les commentaires précédents, Matt Cutts a déjà publié une vidéo dans laquelle il disait que ça n’était pas toujours respecté.
le 29/02/2012 Songeur
Vous êtes loin de proposer la solution ultime.
Pour que google n’indexe pas une page : ne la publie pas !
le 2/03/2012 Sandrine
@songeur : oui je sais … mais bon on ne fait toujours comme on veut ^^
@antoine : pareil
le 5/03/2012 cdillat de actu deux roues
Je vote comme Antoine mais avec une 404. Tu sers le contenu comme si de rien avec status 404 : IMPARABLE
le 8/03/2012 Gael de Bamuas
Le robot.txt est de moins en moins utilisé en effet.. mais Axenet a raison de « prévenir » Google de ne pas suivre les pages recherches de WordPress.
« Disallow: /?s= »
Gael
le 8/03/2012 Loiseau2nuit de Scanner côlon Paris
Hmmm la soluce de la 404 me parait un peu bancale là quand même. Prendre le risque de pénaliser le reste du contenu indexé pour protéger une ou quelques pages… :-/
@RDD :Merci
le 10/03/2012 Alekseo de Redirection 301
Bonjour, Sandrine!
Je suis également d’avis que Google indexe tout ce que l’utilisateur lambda peut voir.
Donc, quant à moi la seule variante gagnante pour cacher son contenu est de transférer les pages nécessaires dans la partie du site fermée par login et mot de passe.
Bonnee journée à vous!
le 12/03/2012 Cerbere de Digg-Like Zen
Pour ne pas être indexé il faut ne pas publier.
Au pire il y a la balise qui fonctionne assez bien ^_^
le 13/03/2012 Arnaud de Blog webmaster
Bonjour,Très bon article, mais certaines solution de ne sont pas très fiables…l’outils webmaster tools de Google semble une bonne alternative.
le 13/03/2012 RenardBlanc de Potager en carré
Salut a tous et toutes,
De mon cotés, et en relisant les commentaires. Je préfère la méthode du Renardudezert qui pour un blog WordPress complexe et qui a besoin d’être indexé semble le meilleur compromis sans ce prendre la tête. Quoi que
Vais peut être aller faire le ménage sur mon robot et mon fichier .htaccess du coup