Robots.txt y su uso con prudencia

Bruno 22 febrero, 2013 0

Robots TxTLuego de un tiempo de lucha incansable contra el Contenido Duplicado he logrado comprender la estricta finalidad en el uso de la herramienta Robots.txt ya que el mismo es uno de los recursos más extremos en cuanto a bloqueo y es utilizado (o mencionado) para evitar la duplicación de contenido por parte de los Bots. El hecho es que cuando participa en esta tarea lo hace en casos muy puntuales y debemos ser muy cautelosos en su uso ya que puede bloquear el acceso a muchas páginas si lo empleamos de la forma equivocada.

Contenido Duplicado

Para evitarlo en primera instancia debemos implementar un buen SEO en el Contenido, Títulos y Url amigable, una vez cubiertos esos aspectos, debemos ocuparnos de aspectos más técnicos del Contenido Duplicado y apunta directamente a la duplicación Interna de este contenido (en las URL) para ello contamos con:

  • X-Robots-Tag
  • Meta Robots
  • Meta Tags específicas

Algunos ejemplos que en su uso en conjunto solucionarían un gran porcentaje (por no decir todo…) de contenido duplicado son:

  • <link rel=”canonical” href=”URL Preferida” />
  • <meta name=”robots” content=”noindex” />
  • <a rel=”nofollow” href=”URL” >Texto de Ancla</a>

 

Uso de Robots.txt

Robots.txt bloquea el acceso a directorios, archivos y URL’s mediante el uso de parámetros (entiéndase como caracteres que forma parte de una url) y comodines. Debemos ser muy cuidadosos en el uso justamente de estos “parámetros” y comodines ya que como lo mostraré en ejemplos, su mal uso puede ser muy perjudicial.

 

Ejemplo:

Disallow: /folder/  Bloquea el rastreo de la careta “folder” y todas las URL incluidas en ella.

Disallow: /*/folder/  Bloquea el rastreo a todas las carpetas “folder” de segundo nivel en nuestro web.

Disallow: /*?*  Bloquea el rastreo de cualquier URL de nuestro dominio que contenga “?”

Disallow: /*#*  Crees que Bloquea todas carpetas y URL’s que contienen “#” FALSO, esta línea en particular bloquea todo el sitio, la única URL rastreable con esta línea es nuestro dominio. Puedes verificarlo incluyéndola en el robots.txt cargado en la sección URL bloqueadas de Google Webmaster Tools, verás que cualquier URL de tu sitio es bloqueada por esa línea.

El gran problema que se genera con su uso indebido, es que luego que el bot intenta rastrear un URL que esta bloqueada por Robots.txt la indexa de la forma similar a esta:

Sin Descripción por Robots.txt

Perdiendo claramente posicionamiento sobre ese URL y si tienes muchos posts puede tardar mucho tiempo para que el bot retorne a rastrear ese URL y actualizar su descripción. Si se tarda mucho tiempo en corregir ese error los problemas pueden tener una gravedad más acentuada como una baja en la calidad del contenido del dominio o eliminación de la URL del indice. El problema se agrava aún más porque Google almacena una copia de robots.txt hasta por 2 días y si tiene errores… permanecerá raastreando durante 2 dias tu web con bloqueos mal hechos.

Es por este motivo que cuando no son carpetas Privadas (carpetas que no proporcionan ningún contenido al web) a bloquear o los casos muy puntuales como los feeds, trackbacks… de WordPress por ejemplo, no es aconsejable usarlo con prudencia.

 

Este es un ejemplo clásico de robots para WordPress:

User-agent: *
 Disallow:
 Disallow: /wp-*/
 Disallow: /comments/feed
 Disallow: /*/feed/$
 Disallow: /*/feed/rss/$
 Disallow: /*/trackback/$
 Disallow: /*/*/feed/$
 Disallow: /*/*/feed/rss/$
 Disallow: /*/*/trackback/$
 Disallow: /*/*/*/feed/$
 Disallow: /*/*/*/feed/rss/$
 Disallow: /*/*/*/trackback/$

Donde se especifícan lineamientos objetivos de bloqueo.

 



Conectate con:

Responder »

Debes estar conectado para comentar.