El analizador robots.txt de Google ahora es de código abierto

guiva

hace 3 años

Durante 25 años, el Protocolo de Exclusión para Robot, o por sus siglas en inglés REP (Robot Exclusion Protocol) ha sido uno de los componentes más básicos y críticos de la web. Permite a los propietarios de sitios web excluir a los clientes automatizados, por ejemplo, los rastreadores web, de acceder a sus sitios, ya sea parcial o completamente.

En 1994, Martijn Koster (el mismo webmaster) creó el estándar inicial después de que los rastreadores abrumaran su sitio. Con más aportes de otros webmasters, el REP nació y fue adoptado por los motores de búsqueda para ayudar a los propietarios de sitios web a administrar sus recursos de servidor más fácilmente.

Sin embargo, el REP nunca se convirtió en un estándar oficial de Internet., lo que significa que los desarrolladores han interpretado el protocolo de manera algo diferente a lo largo de los años. Y desde su inicio, el REP no se ha actualizado para cubrir los casos de la esquina de hoy. Este es un problema desafiante para los propietarios de sitios web porque el estándar ambiguo dificultó la escritura correcta de las reglas.

Este 1 de julio de 2019 Google lanza un comunicado donde dice que desea ayudar a los propietarios y desarrolladores de sitios web a crear experiencias increíbles en Internet en lugar de preocuparse por cómo controlar los rastreadores. Junto con el autor original del protocolo, los webmasters y otros motores de búsqueda, documentan cómo se usa el REP en la web moderna y lo enviarán al IETF.

El borrador de REP propuesto refleja más de 20 años de experiencia en el mundo real de confiar en las reglas de robots.txt, utilizadas tanto por Googlebot y otros rastreadores principales, como por la mitad de los mil millones de sitios web que dependen de REP. Estos controles detallados le dan al editor el poder de decidir qué les gustaría que fueran rastreados en su sitio y potencialmente mostrados a los usuarios interesados. No cambia las reglas creadas en 1994, sino que define esencialmente todos los escenarios no definidos para el análisis y la comparación de robots.txt, y lo amplía para la web moderna.

Cualquier protocolo de transferencia basado en URI puede utilizar robots.txt. Por ejemplo, ya no se limita a HTTP y también se puede usar para FTP o CoAP .
Los desarrolladores deben analizar al menos los primeros 500 kibibytes de un archivo robots.txt. La definición de un tamaño máximo de archivo garantiza que las conexiones no se abran durante demasiado tiempo, aliviando la tensión innecesaria en los servidores.
Un nuevo tiempo máximo de almacenamiento en caché de 24 horas o el valor de la directiva de caché, si está disponible, brinda a los propietarios de sitios web la flexibilidad de actualizar su archivo robots.txt cuando lo deseen, y los rastreadores no están sobrecargando los sitios web con solicitudes de robots.txt. Por ejemplo, en el caso de HTTP, los encabezados Cache-Control podrían usarse para determinar el tiempo de almacenamiento en caché.
La especificación ahora estipula que cuando un archivo robots.txt previamente accesible se vuelve inaccesible debido a fallas del servidor, las páginas desconocidas no permitidas no se rastrean durante un período de tiempo razonablemente largo.

Además, Google ha actualizado la forma aumentada de Backus-Naur en el borrador de Internet para definir mejor la sintaxis de robots.txt, que es fundamental para que los desarrolladores analicen las líneas.

Con esto Google comparte su apertura a ayudar a los desarrolladores web a poner mayor información a la disposición de su Goolgebot y ser elegibles para aparecer en los Buscadores.

Google ha compartido la biblioteca de C ++ que utilizan sus sistemas de producción para analizar y combinar reglas en los archivos robots.txt. Esta biblioteca ha existido durante 20 años y contiene piezas de código que fueron escritas en los años 90. Desde entonces, la biblioteca evolucionó; aprendimos mucho sobre cómo los webmasters escriben los archivos robots.txt y los casos de esquina que debíamos cubrir, y agregamos lo que aprendimos a lo largo de los años también al borrador de Internet cuando tenía sentido.

También incluye una herramienta de prueba en el paquete de código abierto para ayudar a probar algunas reglas.

Visita la biblioteca en el siguiente link de repositorio GitHub para el analizador robots.txt