Llegó el momento. ¡Dale al play y disfruta!

Transcripción del Vídeo sobre Robots.txt y Meta Robots Nivel Básico [Revisión Julio 2017]

¿Quieres tener todo el contenido del vídeo por escrito? ¡Aquí lo tienes y con ampliaciones!

No pierdas detalle de la formación impartida por nuestro compañero en este vídeo, a la que hemos añadido algunas preguntas frecuentes y datos que refuercen el aprendizaje sobre estos conceptos claves en posicionamiento web.

¡Hola amigos del SEO! Soy Iván Torrente, consultor dentro del equipo de Webpositer. En el vídeo de hoy vamos a conocer cómo mejorar el crawl budget, el presupuesto de rastreo del motor de búsqueda con robots.txt y con los metarobots. ¡Adelante!

¿Qué Es el Robots.txt? [ Segundo 52 ]

robotstxt

Lo primero que voy a explicar en el vídeo de hoy es qué es robots.txt.

Es un archivo que cuelga de la raíz de nuestro dominio, normalmente es el nombre de nuestro dominio, barra robots.txt.

EJEMPLO –> midominio.com/robots.txt

+ INFO:

El archivo robots.txt es un método para evitar que ciertos bots que analizan los sitios web u otros robots que investigan todo o una parte del acceso de un sitio web, agreguen información innecesaria a los resultados de búsqueda.

El robots.txt, conocido también como protocolo de exclusión de robots, consiste en un archivo de texto que deberás insertar en el folder principal de tu web, cuyo objetivo es indicar a los bots de Google cuáles son aquellas URLs que queremos que indexen y cuáles queremos que omitan y que por tanto no se almacenen en la base de datos de Google ni se muestren en los resultados de búsqueda.

¿Para Qué Sirve el Robots.txt?

Este archivo sirve para bloquear cualquier directorio o URL que no queramos que rastree el motor de búsqueda y no pierda tiempo. Así ahorraremos presupuesto de rastreo, el famoso crawl budget, para que se dedique a otras URLs más importante.

+ INFO:

La utilización de este archivo es necesaria para evitar la indexación de aquellas páginas que no queremos que Google tenga en cuenta, imposibilitando su rastreo y por tanto su indexación. Sin la presencia del archivo robots.txt, los robots rastrearán todo tu sitio web e indexarán todas las URLs que se encuentren en su camino.

Los robots de Google antes de comenzar con el rastreo, buscarán el archivo robots.txt para conocer la ruta que deben seguir, por lo que es importante dejar claro en el archivo cuáles son aquellas URL que queremos que indexen y las que no.

A partir de aquí se trabaja con la directriz Disallow. Puede ser con parámetros, ordenaciones o filtros, depende. Por ejemplo, en WordPress podemos bloquear el típico wp-admin, podemos bloquear para prestashop el order by o filtrados si tenemos diferenciaciones dentro de las categorías. Todo esto lo vamos a bloquear para no tener contenido duplicado ni URLs.

Es importante saber que el archivo robots.txt es uno de los más leídos por el motor de búsqueda, por lo que debemos indicarle dónde está ubicado el sitemap.

Lo haremos en la parte inferior del archivo robots.txt, que normalmente suele ser midominio.com/sitemap.xml.

Diferencias entre Robots.txt vs Meta Robots: ¿Tanto Monta, Monta Tanto? Post + Vídeo - Compártelo en Twitter con un Click

Powered by Vcgs-Toolbox

¿Qué Son los Meta Robots? [ Minuto 2:00 ]

robotstxt-metarobots

Los meta robots es una etiqueta HTML que suele aparecer en la parte superior de cada URL. Cada URL de nuestra web debe tener unos meta robots diferenciados, dependiendo de lo que nos interese. Pueden ir etiquetados como No Index/Index o No Follow/Follow.

+ INFO:

La etiqueta meta robots indica a Google qué paginas de nuestro sitio web no queremos que sean indexadas ni aparezcan en los resultados de búsqueda.

Funciona de un modo similar al archivo robots.txt, con la particularidad que con la etiqueta meta robots y la directiva no index se evita que los bots indexen una URL en Google, pero no que la rastreen, lo que significa que Google lee el contenido y sabe que esas páginas están presentes, pero finalmente no las agrega a su base de datos.

Una de las particularidades que presenta la etiqueta meta robots es que permite ofrecer información a Google, no solo sobre aquellas URLs que desees indexar o no, sino también sobre enlaces internos, imágenes o cualquier tipo de archivo.

¿Qué Indica Cada Una de Estas Etiquetas?

  • No Index sirve para que esa URL no se indexe.
  • Index se utiliza para que sí que se indexe dicha URL.
  • No Follow se emplea para que no traspase autoridad a los enlaces que tengan en esa URL interna.
  • Follow para que sí traspase autoridad. En el código jugaremos con el index y el follow, como muestra, este ejemplo de etiqueta html meta robots: .
  • Dependiendo de nuestros intereses, jugaremos con las diferentes combinaciones de etiquetas. [Más información en la sección FAQ’S sobre Robots.txt y Meta Robots]

Ejemplos prácticos [ Minuto 3:00 ]

Ahora con el ordenador delante vamos a ver algunos ejemplos prácticos tanto del robots.txt como de la etiqueta meta robots.

Cogemos la web de Zalando.es como ejemplo y vemos su código fuente. Si clicamos el atajo de teclado «Control + F» hallaremos los robots. Por ejemplo, en este caso, en la home lo tiene en index, follow. Podemos hacer esto de forma más visual con extensiones de Google Chrome para SEO como Seerobots.

Sin tener que entrar en el código fuente nos indica qué es el Index, Follow de esta página.

Nosotros trabajamos la mayoría de las veces con ScreamingFrog, una de las herramientas más potentes para simular cómo rastrea el motor de Google nuestra web.

Simplemente, has de abrir Screaming Frog, insertamos Zalando.es y la va a empezar a rastrearla.

No nos vamos a esperar a que la rastree al completo porque es una web infinita pero dejamos que rastree unas cuantas URLs y lo vamos a parar para ver si vemos diferencias entre No Index e Index.

Screaming Frog divide todo lo que hemos localizado en columna y vamos a buscar la columna de los meta robots. La podemos llevar al principio si queremos para trabajar con ella más cómodamente.

Análisis de Meta Robots con Screaming Frog [ Minuto 4:56 ]

Vemos que aparece meta robots a la izquierda y luego las URLs.

De este modo, podemos ver cuáles son las páginas que suelen llevar la etiqueta No Index en el meta robots:

  • Cookies
  • Ley de Protección de Datos
  • Aviso Legal

Todas estas páginas deben llevar No Index porque no son interesantes para su posicionamiento en buscadores. Sin embargo, sí deben tener el parámetro Follow, para que traspase autoridad en los enlaces que tenga.

Por ejemplo, en Zalando vemos que tiene como No Index algunas categorías o tallas, a lo mejor porque las ha eliminado. Eso dependerá del caso de vuestra web lo podemos trabajar de una forma o de otra.

Si vamos a utilizar algún full screen dentro de Google, yo he detectado que, haciendo site:zalando.es inurl:size”s, vemos todas las URLs que Zalando tienen con artículos de la talla S.

Si las abrimos vemos que See Robots indica que esa página es No Index, Follow.

¿Qué está haciendo Zalando? He detectado al preparar este minicurso que este tipo de URLs está poniendo No Index para luego bloquearlas con robots.txt.

IMPORTANTE: Antes de bloquear cualquier cosa en robots.txt, tiene que estar desindexada. ¿Por qué? Porque si bloqueamos antes de insertar No Index en Meta Robots, no se va a indexar porque Google no va a poder rastrearlo y desindexarlo correctamente.

Ejemplos de Robots.txt [ Minuto 6:26 ]

¿Algún ejemplo curioso de robots.txt? La Casa Real, supongo que lo conoceréis. Si nos fijamos vemos que tiene bloqueado al señor Urdangarín.

robotstxt-casa-real

El de Vodafone lo han utilizado para dar algo de publicidad. Los robots le dan algún punto de viral para que luego comenten en los blogs.

robots-txt-vodafone

FAQ’S SOBRE ROBOTS.TXT Y METAROBOTS

#1 – ¿Cómo Se Crea el Archivo Robots.txt?

Para la creación del archivo robots.txt se puede utilizar el bloc de notas de tu ordenador, donde tendrás que insertar el contenido correspondiente que indicará a Google el camino que deben seguir sus bots.

  • User-agent: [nombre spider / bot de Google]
  • Disallow: [directorio o archivo]
  • Allow: [directorio o archivo]
  • Sitemap: [URL del sitemap XML]

User-agent hace referencia al nombre oficial que recibe el bot de Google (Googlebot, googlebot-image, googlebot-mobile, etc.)

El comando “disallow” indica aquellos contenidos que no queremos que se indexen, mientras que “allow” hace todo lo contrario.

Y con el comando “sitemap” le mostramos a Google la URL de nuestro sitemap XML, ayudando a que indexe de una manera más rápida.

Si quieres conocer el robots.txt de cualquier web, tan solo debes teclear la URL correspondiente acompañada del comando /robots.txt → www.ejemplo.com/robots.txt.

#2 – ¿Qué combinaciones de meta robots se pueden hacer?

A través de la etiqueta meta robots se pueden realizar diferentes combinaciones en función de la manera que desees que Google actúe:

  • Index, Follow: De esta manera le estarás diciendo a Google que sus bots rastreen y posteriormente indexen una página →.
  • No Index, Follow: Con esta combinación se evita la indexación pero sí se permite el rastreo. Esta es la opción más eficaz cuando desees evitar que una página en concreto aparezca en los resultados de búsquedas →.
  • Index, No Follow: Permite la indexación de una URL pero no su rastreo. Esta combinación es recomendable cuando tienes una página con enlaces que quieres que pasen desapercibidos para Google →.
  • No Index, No Follow: Se evita tanto la indexación como el rastreo →.

Si trabajas con un CMS, te recomendamos que utilices un plugin que te permita configurarlo correctamente como Yoast SEO o SEO Ultimate.

#3 – Entonces, ¿Cuál Es la Gran Diferencia entre Robots.txt y Meta Robots?

La principal diferencia entre ambos elementos está en que, mientras el archivo robots.txt indica a los bots las páginas que no deben rastrear, la etiqueta meta robots permite el rastreo de las páginas, pero no la indexación.

Con ambas opciones, las páginas deberían ser totalmente invisibles en la SERP de Google, pero mientras que bloqueando con robots.txt se bloqueará tanto la página como cualquier enlace incluido en dicha página, si optas por meta robots la página no estará indexada pero si habrá sido rastreada, siguiendo la ruta de los enlaces que hayan incluido y transmitiendo el valor de estos enlaces.

Si tenemos en cuenta que Google se apoya en los enlaces para viajar de una URL a otra, encontramos una ventaja evidente en la etiqueta meta robots, ya que te ofrece la oportunidad de evitar la indexación de las páginas que desees, sin que se conviertan en un obstáculo para los buscadores a la hora de rastrear nuevas páginas.

Por otro lado, robots.txt se muestra más eficaz que la etiqueta meta robots a la hora de bloquear directorios completos, ya que los bots no necesitan acceder a la página para saber si debe o no rastrearla, permitiendo una lectura mucho más rápida y que se pueda rastrear un mayor número de páginas en cada visita de los robots.

La clave del éxito está en saber combinar ambas técnicas, bloqueando con robots.txt y utilizando la etiqueta meta robots para todo aquello que con el archivo de protocolo de exclusión de robots no podamos abarcar.

Conclusión

Aquí tienes dos conceptos esenciales en la optimización web ya que gracias al archivo robots.txt podemos impedir el rastreo de una página al bot de Google, pero no su indexación. Por su parte, la etiqueta meta robots sí impide la indexación de una URL, pero no su rastreo, motivo por el que dicha página no aparecerá en los resultados de Google.

Por tanto, aunque ambas opciones se emplean para evitar que una página aparezca en las SERPs del gran buscador, cada una actúan de un modo concreto, de ahí la necesidad de conocer su naturaleza y escoger la mejor alternativa en función de nuestros objetivos.

Esperamos que tanto el vídeo como el artículo te hayan ayudado a ver la luz al final del túnel de estos dos conceptos tan similares pero distintos a la vez.

¿Tienes dudas? Déjanos tus comentarios a continuación.


1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (Ninguna valoración todavía)
Cargando…