Un archivo robots.txt bloquea el robot de google

blogger personalizado de robots.txt

Robots.txt ayuda a controlar el rastreo de los robots de los motores de búsqueda. Además, el archivo robots. txt puede contener una referencia al mapa del sitio XML para informar a los rastreadores sobre la estructura de URL de un sitio web. Las subpáginas individuales también pueden excluirse de la indexación utilizando la etiqueta meta robots y, por ejemplo, el valor noindex.
El llamado “Protocolo estándar de exclusión de robots” se publicó en 1994. Este protocolo establece que los robots de los motores de búsqueda (también: agente de usuario) buscan primero un archivo llamado “robots.txt” y leen sus instrucciones antes de comenzar la indexación. Por lo tanto, es necesario archivar un archivo robots.txt en el directorio raíz del dominio con este nombre exacto en minúsculas, ya que la lectura del texto de los robots distingue entre mayúsculas y minúsculas. Lo mismo se aplica a los directorios en los que se anota el robots.txt.
Cada archivo consta de dos bloques. En primer lugar, el creador especifica para qué agente(s) de usuario deben aplicarse las instrucciones. A continuación, hay un bloque con la introducción “Disallow”, tras el cual se pueden enumerar las páginas que deben excluirse de la indexación. Opcionalmente, el segundo bloque puede consistir en la instrucción “allow” para complementarlo con un tercer bloque “disallow” para especificar las instrucciones.

generador de robots.txt

El valor noindex de una metaetiqueta HTML de robots solicita que los robots automatizados de Internet eviten indexar una página web.[1][2] Las razones por las que se puede querer utilizar esta metaetiqueta incluyen aconsejar a los robots que no indexen una base de datos muy grande, páginas web que son muy transitorias, páginas web que están en desarrollo, páginas web que se desean mantener ligeramente más privadas, o las versiones para impresora y móvil de las páginas. Dado que la carga de respetar la etiqueta noindex de un sitio web recae en el autor del robot de búsqueda, a veces estas etiquetas se ignoran. Además, la interpretación de la etiqueta noindex es a veces ligeramente diferente de una compañía de motores de búsqueda a otra.
El motor de búsqueda ruso Yandex introdujo una nueva etiqueta <noindex> que impide la indexación del contenido entre las etiquetas. Para permitir la validación del código fuente, se puede utilizar alternativamente <!–noindex–>:[4]
En 2007, Yahoo! introdujo una funcionalidad similar al microformato en su araña. Sin embargo, la araña de Yahoo! es incompatible ya que busca el valor class=”robots-nocontent” y sólo este valor:[7]

robots.txt google

Un archivo robots.txt es como un guardián de su sitio web, que deja entrar a algunos bots y rastreadores web y a otros no. Un archivo robots.txt mal redactado puede dar lugar a problemas de accesibilidad para los rastreadores y puede provocar una caída del tráfico.
Con un análisis estricto, los archivos robots.txt inexactos podrían dar lugar a un comportamiento de rastreo inesperado. El nuevo análisis sintáctico, más relajado, resuelve algunos de los problemas observados en los archivos robots.txt. El análisis sintáctico relajado es probablemente la intención del webmaster cuando escribió el archivo robots.txt.
En este ejemplo extremo, ambas interpretaciones resultan exactamente en lo contrario y la interpretación relajada es probablemente lo que el usuario pretendía. Como webmaster, debe asegurarse de que ambas interpretaciones son idénticas. Puede hacerlo evitando los problemas que se describen a continuación.
Los problemas comienzan cuando las cosas se vuelven más complejas. Por ejemplo, puede dirigirse a más de un robot, puede añadir comentarios y puede utilizar extensiones como el retardo de rastreo o los comodines. No todos los robots lo entienden todo y aquí es donde la cosa se complica rápidamente.

Esta web utiliza cookies propias para su correcto funcionamiento. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
Privacidad