Interessante Einblicke zum Thema “noindex” hat Google-Mitarbeiter Matt Cutts in seinem Blog veröffentlicht. Neben dem üblichen Einbau des Tags meta name=”ROBOTS” content=”NOINDEX” in den HTML-Kopf, stellt er eine Methode vor, mit dem Querystring einen entsprechenden Parameter zu übergeben. Mit diesem Workaround kann man die robots.txt Datei ausnutzen, den Bot diese bestimmten Aufrufe nicht indizieren zu lassen.

Hängt man einer URL z.B. den Parameter googlebot=nocrawl an ( http://www.deinehomepage.de/xy.php?googlebot=nocrawl ), kann man mit einem entsprechenden Eintrag in der robots.txt den GoogleBot vom Indizieren dieser Seite abhalten:
User-agent: Googlebot
Disallow: *googlebot=nocrawl

So weit – so gut. Weitere Aussagen im Artikel von Matt sind aber ebenfalls interessant:
Erstens liefert Matt eine Begründung dafür, warum die Seiten bei Verwendung von nofollow zwar nicht indiziert werden, der Link auf diese Seiten aber durchaus gewertet wird und die nicht indizierte Seite trotzdem in den Google Suchergebnissen angezeigt wird (allerdings ohne Seitenbeschreibung).
Zweitens bestätigt Matt, das Vorgehen bei der Indizierung von URLs deren Parameter den Bezeichner “id” enthalten. Zwar verfolgt der GoogleBot grundsätzlich URLs, die Parameter enthalten, dabei wird jedoch davon ausgegangen, dass es sich bei einem solchen speziellen Parameter um eine Session-ID handelt (oder handeln könnte). Damit ist die Verwendung dieses Bezeichners nicht empfehlenswert, wenn es sich nicht tatsächlich um eine Session-ID handelt.