Robots.txt que es

Ejemplo de robots.txt

Bloquear páginas no públicas: A veces tienes páginas en tu sitio que no quieres que se indexen. Por ejemplo, puede tener una versión de una página en fase de pruebas. O una página de inicio de sesión. Estas páginas deben existir. Pero no quiere que personas al azar aterricen en ellas. Este es un caso en el que se utiliza robots.txt para bloquear estas páginas de los rastreadores y bots de los motores de búsqueda.
Evitar la indexación de recursos: El uso de meta directivas puede funcionar tan bien como el Robots.txt para evitar que las páginas sean indexadas. Sin embargo, las meta directivas no funcionan bien para los recursos multimedia, como los PDF y las imágenes. Ahí es donde entra en juego robots.txt.
Además, si tiene miles de páginas que desea bloquear, a veces es más fácil bloquear toda la sección de ese sitio con robots.txt en lugar de añadir manualmente una etiqueta noindex a cada página.
Fuera de estos tres casos extremos, recomiendo utilizar las meta directivas en lugar de robots.txt. Son más fáciles de implementar. Y hay menos posibilidades de que ocurra un desastre (como bloquear todo el sitio).

Robots.txt permiten

El estándar de exclusión de robots, también conocido como protocolo de exclusión de robots o simplemente robots.txt, es un estándar utilizado por los sitios web para comunicarse con los rastreadores web y otros robots web. El estándar especifica cómo informar al robot web sobre qué áreas del sitio web no deben ser procesadas o escaneadas. Los robots suelen ser utilizados por los motores de búsqueda para clasificar los sitios web. No todos los robots cooperan con la norma; los recolectores de correo electrónico, los spambots, los programas maliciosos y los robots que escanean en busca de vulnerabilidades de seguridad pueden incluso empezar con las partes del sitio web en las que se les ha dicho que se mantengan al margen. La norma puede utilizarse junto con los sitemaps, una norma de inclusión de robots en los sitios web.
El estándar fue propuesto por Martijn Koster,[1][2] cuando trabajaba para Nexor[3] en febrero de 1994[4] en la lista de correo www-talk, el principal canal de comunicación para las actividades relacionadas con la WWW en aquella época. Charles Stross afirma haber provocado a Koster para que sugiriera robots.txt, después de que escribiera un rastreador web de mal comportamiento que provocó inadvertidamente un ataque de denegación de servicio al servidor de Koster[5].

Robots.txt disallow

Los orígenes del protocolo robots.txt, o “protocolo de exclusión de robots”, se remontan a mediados de la década de 1990, durante los primeros días en que las arañas web viajaban por Internet para leer sitios web. Algunos webmasters se preocuparon por saber qué arañas visitaban sus sitios. Un archivo que contenía instrucciones sobre qué secciones del sitio debían rastrearse y cuáles no ofrecía a los propietarios de sitios la promesa de tener más control sobre qué arañas podían visitar sus URL y cuánta capacidad podían consumir. Desde entonces, el robots.txt ha crecido para satisfacer las necesidades de los diseñadores y propietarios de sitios web modernos.
Las versiones actuales del protocolo son aceptadas por las arañas y los principales motores de búsqueda para enviar a recoger información para sus respectivos algoritmos de clasificación. Se trata de un acuerdo común entre los diferentes motores de búsqueda, lo que hace que los comandos sean una herramienta potencialmente valiosa, pero a menudo ignorada, para las marcas en sus informes de SEO.
Robots.txt es una serie de comandos que indican a los robots de la web, normalmente los motores de búsqueda, qué páginas deben rastrear y cuáles no. Cuando un motor de búsqueda llega a un sitio, mira el comando en busca de instrucciones. Puede parecer contradictorio que un sitio quiera dar instrucciones a un motor de búsqueda para que no rastree sus páginas, pero también puede dar a los webmasters un poderoso control sobre su presupuesto de rastreo.

Comprobador de robots.txt

Bloquear páginas no públicas: A veces tienes páginas en tu sitio que no quieres que se indexen. Por ejemplo, puede tener una versión de una página en fase de pruebas. O una página de inicio de sesión. Estas páginas deben existir. Pero no quiere que personas al azar aterricen en ellas. Este es un caso en el que se utiliza robots.txt para bloquear estas páginas de los rastreadores y bots de los motores de búsqueda.
Evitar la indexación de recursos: El uso de meta directivas puede funcionar tan bien como el Robots.txt para evitar que las páginas sean indexadas. Sin embargo, las meta directivas no funcionan bien para los recursos multimedia, como los PDF y las imágenes. Ahí es donde entra en juego robots.txt.
Además, si tiene miles de páginas que desea bloquear, a veces es más fácil bloquear toda la sección de ese sitio con robots.txt en lugar de añadir manualmente una etiqueta noindex a cada página.
Fuera de estos tres casos extremos, recomiendo utilizar las meta directivas en lugar de robots.txt. Son más fáciles de implementar. Y hay menos posibilidades de que ocurra un desastre (como bloquear todo el sitio).

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad