Llegó el momento. ¡Dale al play y disfruta!

Transcripción del Vídeo sobre Robots.txt y Meta Robots Nivel Básico [Revisión Julio 2017]

¬ŅQuieres tener todo el contenido del v√≠deo por escrito? ¬°Aqu√≠ lo tienes y con ampliaciones!

No pierdas detalle de la formaci√≥n impartida por nuestro compa√Īero en este v√≠deo, a la que hemos a√Īadido algunas preguntas frecuentes y datos que refuercen el aprendizaje sobre estos conceptos claves en posicionamiento web.

¬°Hola amigos del SEO! Soy Iv√°n Torrente, consultor dentro del equipo de Webpositer. En el v√≠deo de hoy vamos a conocer c√≥mo mejorar el crawl budget, el presupuesto de rastreo del motor de b√ļsqueda con robots.txt y con los metarobots. ¬°Adelante!

¬ŅQu√© Es el Robots.txt? [ Segundo 52 ]

robotstxt

Lo primero que voy a explicar en el vídeo de hoy es qué es robots.txt.

Es un archivo que cuelga de la raíz de nuestro dominio, normalmente es el nombre de nuestro dominio, barra robots.txt.

EJEMPLO –> midominio.com/robots.txt

+ INFO:

El archivo robots.txt es un m√©todo para evitar que ciertos bots que analizan los sitios web u otros robots que investigan todo o una parte del acceso de un sitio web, agreguen informaci√≥n innecesaria a los resultados de b√ļsqueda.

El robots.txt, conocido tambi√©n como protocolo de exclusi√≥n de robots, consiste en un archivo de texto que deber√°s insertar en el folder principal de tu web, cuyo objetivo es indicar a los bots de Google cu√°les son aquellas URLs que queremos que indexen y cu√°les queremos que omitan y que por tanto no se almacenen en la base de datos de Google ni se muestren en los resultados de b√ļsqueda.

¬ŅPara Qu√© Sirve el Robots.txt?

Este archivo sirve para bloquear cualquier directorio o URL que no queramos que rastree el motor de b√ļsqueda y no pierda tiempo. As√≠ ahorraremos presupuesto de rastreo, el famoso crawl budget, para que se dedique a otras URLs m√°s importante.

+ INFO:

La utilización de este archivo es necesaria para evitar la indexación de aquellas páginas que no queremos que Google tenga en cuenta, imposibilitando su rastreo y por tanto su indexación. Sin la presencia del archivo robots.txt, los robots rastrearán todo tu sitio web e indexarán todas las URLs que se encuentren en su camino.

Los robots de Google antes de comenzar con el rastreo, buscar√°n el archivo robots.txt para conocer la ruta que deben seguir, por lo que es importante dejar claro en el archivo cu√°les son aquellas URL que queremos que indexen y las que no.

A partir de aquí se trabaja con la directriz Disallow. Puede ser con parámetros, ordenaciones o filtros, depende. Por ejemplo, en WordPress podemos bloquear el típico wp-admin, podemos bloquear para prestashop el order by o filtrados si tenemos diferenciaciones dentro de las categorías. Todo esto lo vamos a bloquear para no tener contenido duplicado ni URLs.

Es importante saber que el archivo robots.txt es uno de los m√°s le√≠dos por el motor de b√ļsqueda, por lo que debemos indicarle d√≥nde est√° ubicado el sitemap.

Lo haremos en la parte inferior del archivo robots.txt, que normalmente suele ser midominio.com/sitemap.xml.

Diferencias entre Robots.txt vs Meta Robots: ¬ŅTanto Monta, Monta Tanto? Post + V√≠deo - Comp√°rtelo en Twitter con un Click

Powered by Vcgs-Toolbox

¬ŅQu√© Son los Meta Robots? [ Minuto 2:00 ]

robotstxt-metarobots

Los meta robots es una etiqueta HTML que suele aparecer en la parte superior de cada URL. Cada URL de nuestra web debe tener unos meta robots diferenciados, dependiendo de lo que nos interese. Pueden ir etiquetados como No Index/Index o No Follow/Follow.

+ INFO:

La etiqueta meta robots indica a Google qu√© paginas de nuestro sitio web no queremos que sean indexadas ni aparezcan en los resultados de b√ļsqueda.

Funciona de un modo similar al archivo robots.txt, con la particularidad que con la etiqueta meta robots y la directiva no index se evita que los bots indexen una URL en Google, pero no que la rastreen, lo que significa que Google lee el contenido y sabe que esas p√°ginas est√°n presentes, pero finalmente no las agrega a su base de datos.

Una de las particularidades que presenta la etiqueta meta robots es que permite ofrecer información a Google, no solo sobre aquellas URLs que desees indexar o no, sino también sobre enlaces internos, imágenes o cualquier tipo de archivo.

¬ŅQu√© Indica Cada Una de Estas Etiquetas?

  • No Index sirve para que esa URL no se indexe.
  • Index se utiliza para que s√≠ que se indexe dicha URL.
  • No Follow se emplea para que no traspase autoridad a los enlaces que tengan en esa URL interna.
  • Follow para que s√≠ traspase autoridad. En el c√≥digo jugaremos con el index y el follow, como muestra, este ejemplo de etiqueta html meta robots: .
  • Dependiendo de nuestros intereses, jugaremos con las diferentes combinaciones de etiquetas. [M√°s informaci√≥n en la secci√≥n FAQ’S sobre Robots.txt y Meta Robots]

Ejemplos pr√°cticos [ Minuto 3:00 ]

Ahora con el ordenador delante vamos a ver algunos ejemplos pr√°cticos tanto del robots.txt como de la etiqueta meta robots.

Cogemos la web de Zalando.es como ejemplo y vemos su c√≥digo fuente. Si clicamos el atajo de teclado ¬ęControl + F¬Ľ hallaremos los robots. Por ejemplo, en este caso, en la home lo tiene en index, follow. Podemos hacer esto de forma m√°s visual con extensiones de Google Chrome para SEO como Seerobots.

Sin tener que entrar en el código fuente nos indica qué es el Index, Follow de esta página.

Nosotros trabajamos la mayoría de las veces con ScreamingFrog, una de las herramientas más potentes para simular cómo rastrea el motor de Google nuestra web.

Simplemente, has de abrir Screaming Frog, insertamos Zalando.es y la va a empezar a rastrearla.

No nos vamos a esperar a que la rastree al completo porque es una web infinita pero dejamos que rastree unas cuantas URLs y lo vamos a parar para ver si vemos diferencias entre No Index e Index.

Screaming Frog divide todo lo que hemos localizado en columna y vamos a buscar la columna de los meta robots. La podemos llevar al principio si queremos para trabajar con ella más cómodamente.

An√°lisis de Meta Robots con Screaming Frog [ Minuto 4:56 ]

Vemos que aparece meta robots a la izquierda y luego las URLs.

De este modo, podemos ver cu√°les son las p√°ginas que suelen llevar la etiqueta No Index en el meta robots:

  • Cookies
  • Ley de Protecci√≥n de Datos
  • Aviso Legal

Todas estas páginas deben llevar No Index porque no son interesantes para su posicionamiento en buscadores. Sin embargo, sí deben tener el parámetro Follow, para que traspase autoridad en los enlaces que tenga.

Por ejemplo, en Zalando vemos que tiene como No Index algunas categorías o tallas, a lo mejor porque las ha eliminado. Eso dependerá del caso de vuestra web lo podemos trabajar de una forma o de otra.

Si vamos a utilizar alg√ļn full screen dentro de Google, yo he detectado que, haciendo site:zalando.es inurl:size‚ÄĚs, vemos todas las URLs que Zalando tienen con art√≠culos de la talla S.

Si las abrimos vemos que See Robots indica que esa p√°gina es No Index, Follow.

¬ŅQu√© est√° haciendo Zalando? He detectado al preparar este minicurso que este tipo de URLs est√° poniendo No Index para luego bloquearlas con robots.txt.

IMPORTANTE: Antes de bloquear cualquier cosa en robots.txt, tiene que estar desindexada. ¬ŅPor qu√©? Porque si bloqueamos antes de insertar No Index en Meta Robots, no se va a indexar porque Google no va a poder rastrearlo y desindexarlo correctamente.

Ejemplos de Robots.txt [ Minuto 6:26 ]

¬ŅAlg√ļn ejemplo curioso de robots.txt? La Casa Real, supongo que lo conocer√©is. Si nos fijamos vemos que tiene bloqueado al se√Īor Urdangar√≠n.

robotstxt-casa-real

El de Vodafone lo han utilizado para dar algo de publicidad. Los robots le dan alg√ļn punto de viral para que luego comenten en los blogs.

robots-txt-vodafone

FAQ’S SOBRE ROBOTS.TXT Y METAROBOTS

#1 – ¬ŅC√≥mo Se Crea el Archivo Robots.txt?

Para la creación del archivo robots.txt se puede utilizar el bloc de notas de tu ordenador, donde tendrás que insertar el contenido correspondiente que indicará a Google el camino que deben seguir sus bots.

  • User-agent: [nombre spider / bot de Google]
  • Disallow: [directorio o archivo]
  • Allow: [directorio o archivo]
  • Sitemap: [URL del sitemap XML]

User-agent hace referencia al nombre oficial que recibe el bot de Google (Googlebot, googlebot-image, googlebot-mobile, etc.)

El comando ‚Äúdisallow‚ÄĚ indica aquellos contenidos que no queremos que se indexen, mientras que ‚Äúallow‚ÄĚ hace todo lo contrario.

Y con el comando ‚Äúsitemap‚ÄĚ le mostramos a Google la URL de nuestro sitemap XML, ayudando a que indexe de una manera m√°s r√°pida.

Si quieres conocer el robots.txt de cualquier web, tan solo debes teclear la URL correspondiente acompa√Īada del comando /robots.txt ‚Üí www.ejemplo.com/robots.txt.

#2 – ¬ŅQu√© combinaciones de meta robots se pueden hacer?

A trav√©s de la etiqueta meta robots se pueden realizar diferentes combinaciones en funci√≥n de la manera que desees que Google act√ļe:

  • Index, Follow: De esta manera le estar√°s diciendo a Google que sus bots rastreen y posteriormente indexen una p√°gina ‚Üí.
  • No Index, Follow: Con esta combinaci√≥n se evita la indexaci√≥n pero s√≠ se permite el rastreo. Esta es la opci√≥n m√°s eficaz cuando desees evitar que una p√°gina en concreto aparezca en los resultados de b√ļsquedas ‚Üí.
  • Index, No Follow: Permite la indexaci√≥n de una URL pero no su rastreo. Esta combinaci√≥n es recomendable cuando tienes una p√°gina con enlaces que quieres que pasen desapercibidos para Google ‚Üí.
  • No Index, No Follow: Se evita tanto la indexaci√≥n como el rastreo ‚Üí.

Si trabajas con un CMS, te recomendamos que utilices un plugin que te permita configurarlo correctamente como Yoast SEO o SEO Ultimate.

#3 – Entonces, ¬ŅCu√°l Es la Gran Diferencia entre Robots.txt y Meta Robots?

La principal diferencia entre ambos elementos está en que, mientras el archivo robots.txt indica a los bots las páginas que no deben rastrear, la etiqueta meta robots permite el rastreo de las páginas, pero no la indexación.

Con ambas opciones, las páginas deberían ser totalmente invisibles en la SERP de Google, pero mientras que bloqueando con robots.txt se bloqueará tanto la página como cualquier enlace incluido en dicha página, si optas por meta robots la página no estará indexada pero si habrá sido rastreada, siguiendo la ruta de los enlaces que hayan incluido y transmitiendo el valor de estos enlaces.

Si tenemos en cuenta que Google se apoya en los enlaces para viajar de una URL a otra, encontramos una ventaja evidente en la etiqueta meta robots, ya que te ofrece la oportunidad de evitar la indexación de las páginas que desees, sin que se conviertan en un obstáculo para los buscadores a la hora de rastrear nuevas páginas.

Por otro lado, robots.txt se muestra m√°s eficaz que la etiqueta meta robots a la hora de bloquear directorios completos, ya que los bots no necesitan acceder a la p√°gina para saber si debe o no rastrearla, permitiendo una lectura mucho m√°s r√°pida y que se pueda rastrear un mayor n√ļmero de p√°ginas en cada visita de los robots.

La clave del éxito está en saber combinar ambas técnicas, bloqueando con robots.txt y utilizando la etiqueta meta robots para todo aquello que con el archivo de protocolo de exclusión de robots no podamos abarcar.

Conclusión

Aquí tienes dos conceptos esenciales en la optimización web ya que gracias al archivo robots.txt podemos impedir el rastreo de una página al bot de Google, pero no su indexación. Por su parte, la etiqueta meta robots sí impide la indexación de una URL, pero no su rastreo, motivo por el que dicha página no aparecerá en los resultados de Google.

Por tanto, aunque ambas opciones se emplean para evitar que una p√°gina aparezca en las SERPs del gran buscador, cada una act√ļan de un modo concreto, de ah√≠ la necesidad de conocer su naturaleza y escoger la mejor alternativa en funci√≥n de nuestros objetivos.

Esperamos que tanto el v√≠deo como el art√≠culo te hayan ayudado a ver la luz al final del t√ļnel de estos dos conceptos tan similares pero distintos a la vez.

¬ŅTienes dudas? D√©janos tus comentarios a continuaci√≥n.


1 estrella2 estrellas3 estrellas4 estrellas5 estrellas (Ninguna valoración todavía)
Cargando…