Domina tu robots.txt

robots_txt

Si nunca has oído hablar del Sr. Robot, no te preocupes. Yo mismo no sabía lo que era el SEO hasta hace un par de años. No obstante, sin embargo, la mayor parte de vosotros sabe lo que es pero no exactamente cómo dominar al robot.

Los ficheros robot.txt no son secretos. Puedes literalmente espiar el robot de cualquiera simplemente accediendo a http://www.dominio.com/robots.txt. El fichero debería estar únicamente y siempre en la raíz del dominio y TODO sitio web debería tener uno, aunque sea uno genérico, y te diré por qué.

Hay opiniones mezcladas sobre el uso de robots.txt. Úsalo. No lo uses. Usa meta-robots. Puedes incluso haber oído el consejo de abandonar el robots.txt por completo. ¿Quién tiene razón?

La receta secreta es ésta. Pruébala.

Lo primero es lo primero. Entiende que el fichero robots.txt no ha sido diseñado para que lo utilice un humano, sino para organizar cómo deben comportarse los robots de los motores de búsqueda en tu sitio. Establece parámetros que deben obedecer y gobiernan a qué información pueden y no pueden acceder.

Esto es crítico para el éxito SEO de tu sitio. Y es que no quieres que los robots anden buscando por tus armarios sucios, por así decirlo.

¿Qué es el fichero robots.txt?

No es más que un fichero de texto sencillo que debe estar en el directorio raíz de tu sitio. Una vez que entiendes el formato es muy fácil crearlo. El sistema recibe el nombre de Robots Exclusion Standard.

Asegúrate de crear el fichero en un editor de texto básico como Notepad o TextEdit y no en un editor HTML como Dreamweaver o FrontPage. Esto es crítico. El fichero robots.txt no es un fichero HTML y su formato no se acerca ni remotamente al de cualquier otro lenguaje para la web. Tiene su propio formato y es completamente distinto al de cualquier otro lenguaje. Por suerte es extremadamente simple una vez sabes cómo utilizarlo.

El fichero robots.txt en detalle

El fichero es simple, contiene dos directivas principales: User-agent y Disallow.

Cada elemento en el fichero robots.txt es especificado por lo que se llama un «agente de usuario». La línea User-agent especifica a qué robot se está refiriendo el comando. Por ejemplo:

User-agent: googlebot

En esta línea podría utilizarse un comodín para referirse a todos los robots simultáneamente. Por ejemplo:

User-agent: *

Si no sabes cuáles son los nombres de los agentes, los puedes encontrar fácilmente en las trazas de tu sitio buscando peticiones del fichero robots.txt. Lo molón es que los principales motores de búsqueda les han puesto nombres a sus robots como si fuesen mascotas. No es broma. Por ejemplo:

Googlebot

Yahoo! Slurp

MSNbot

Teoma

Mediapartners-Google (Google AdSense Robot)

Xenu Link Sleuth

La segunda parte más importante del fichero robots.txt es la directiva Disallow la cual suele escribirse justo debajo del User-agent. Recuerda que no sólo porque una directiva Disallow esté presente esto quiere decir que se impida por completo el acceso del robot a tu sitio. Puedes en realidad elegir lo que pueden y no pueden acceder o descargar.

La directiva Disallow puede especificar ficheros y directorios.

Por ejemplo, si quieres que los motores de búsqueda no puedan añadir al índice tu política de privacidad, escribirías:

User-agent: *

Disallow: privacy.html

O bien directorios completos, así:

User-agent: *

Disallow: /cgi-bin/

De nuevo, si sólo quieres retirarle el permiso a un robot en concreto, escribe su nombre en lugar del *. El ejemplo anterior bloquea a los motores de búsqueda el acceso al directorio cgi-bin.

El Super Truco Ninja para robots.txt

La seguridad es un asunto importante en la red. Por supuesto, a algunos editores les pone nervioso enumerar los directorios que quieren mantener privados pensando que así estarán facilitando a los hackers un mapa que dirige a su material más secreto.

Pero somos más listos que eso, ¿o no?

Esto es lo que harás. Si el directorio que quieres bloquear es secreto todo lo que has de hacer es abreviar su nombre y añadir un asterisco al final. Tendrás que asegurarte de que la abreviación es única. Si le das al directorio que quieres proteger el nombre /secretitos/ sólo tendrás que añadir una línea así a tu fichero robots.txt

User-agent: *

Disallow: /sec*

Problema resuelto.

Esta directiva bloquea a los motores de búsqueda el acceso a directorios cuyo nombre comienza por «sec». Tendrás que echarle un segundo vistazo a tu estructura de directorios para asegurarte de que no estás bloqueando cualquier otro directorio que no deseas. Por ejemplo, una directiva así estaría bloqueando el directorio /secundario/ si existe en tu servidor.

Para hacerlo más fácil, tal y como ocurre con User-agent, hay un comando comodín para Disallow. Si niegas el acceso a /tos entonces por defecto estás impidiendo el acceso también a tos.html, así como a cualquier fichero en el directorio /tos/ como /tos/terms.html.

Tácticas para dominar al robot

Sitúa tu fichero robots.txt en la raíz de tu sitio de forma que sea accedido como http://www.tudominio.com/robots.txt.

Si dejas la línea Disallow en blanco, significa que es posible acceder a TODOS los ficheros.

User-agent:*

Disallow:

Puedes añadir tantas directivas Disallow a un User-agent particular como necesitas, pero cada User-agent obligatoriamente debe indicar una directiva Disallow, tanto si contiene ficheros como si no.

Para los macarras SEO, al menos una línea Disallow debe estar presente por cada User-agent. Pero como no te gustaría que los robots te malentiendan, revísala cuidadosamente. Si no te haces con el formato el fichero completo podría ser ignorado y eso no mola. La mayor parte de quienes tienen indexado material que no deseaban hacer público han cometido errores de sintaxis en su robots.txt.

Utiliza la herramienta Analyze Robots.txt en Google Webmaster Tools para estar seguro de que has editado el fichero correctamente.

Un robots.txt vacío es exactamente lo mismo que no tener ninguno. Así que, en caso de duda, utiliza la directiva básica explicada antes que permite el acceso al sitio completo.

¿Es posible añadir comentarios? Todo lo que has de hacer es poner un # al comienzo de una línea y esa línea completa será ignorada. Ten cuidado de no poner comentarios al final de una directiva, es incorrecto y algunos robots podrían no interpretar correctamente el contenido.

¿A qué podrías no querer permitir el acceso en tu robots.txt?

  • Cualquier carpeta cuyo contenido no quieras hacer público y no puedas proteger con contraseña.
  • Versiones para impresora de tus páginas, para evitar el filtro de contenido duplicado.
  • El directorio de imágenes, para protegerlo de robos y hacer que tu contenido se indexe más rápidamente.
  • El directorio cgi-bin que contiene el código ejecutable de tu sitio.
  • En general cualquier fichero cuyo acceso mamonee tu ancho de banda sin darte valor a cambio.

Tácticas Robot Maestras

Esto permite que los robots visiten todo lo que está en tu sitio o en tu servidor, así que úsalo con cuidado. El * especifica TODOS los robots y el Disallow abierto elimina restricciones a cualquiera de ellos.

User-agent: *

Disallow:

Esto en cambio previene que tu sitio completo sea indexado o descargado. En teoría mantiene a todos los robots alejados.

User-agent: *

Disallow: /

Esto lo hace con sólo un robot. En este caso bloqueamos sólo al de Ask.com, llamado Teoma.

User-agent: Teoma

Disallow: /

Esto aleja a todos los robots de tu cgi-bin y de tu directorio de imágenes.

User-agent: *

Disallow: /cgi-bin/

Disallow: /images/

Si quieres impedir que Google indexe tus imágenes en su motor de búsqueda para las mismas, pero permitírselo al resto de robots, utiliza esto:

User-agent: Googlebot-Image

Disallow: /images/

Si creas una página perfecta para Yahoo! pero no quieres que Google la vea.

User-Agent: Googlebot

Disallow: /yahoo-page.html

# nunca utilices robots.txt para hacer cloaking, eso es un suicidio SEO

Si no usas un fichero robots.txt

Un fichero bien escrito asegura una exploración al menos un 15% más rápida y profunda para la mayor parte de los sitios. Te permite controlar tu contenido de manera que tus técnicas SEO sean limpias y fácilmente indexables, comida rápida para los motores de búsqueda. El esfuerzo merece la pena.

Todos deben tener y emplear un robots.txt sólido. Es crítico para el éxito a largo plazo de tu sitio.

Así que empieza ahora.

Leave a Reply

Your email address will not be published. Required fields are marked *