Tags

«Open Repositories Are Being Profoundly Impacted by AI Bots and Other Crawlers: Results of a COAR Survey.» COAR (blog), April 30, 2025

«Los repositorios abiertos están siendo profundamente afectados por los bots de IA y otros rastreadores: resultados de una encuesta de COAR».

https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impacted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/

Cada día, múltiples bots acceden al repositorio a todas horas, las 24 horas del día, los 7 días de la semana. Estimamos que la actividad de los bots provoca una degradación del rendimiento aproximadamente una o dos veces al día, y al menos una vez a la semana el sistema se bloquea por completo y requiere una intervención, normalmente un reinicio del servicio.

Cada vez hay más bots de IA que rastrean los repositorios. Estos bots automatizados, o rastreadores, navegan por Internet, recopilan datos e indexan información para motores de búsqueda, IA y grandes modelos de lenguaje, entre otros fines. Si bien algunos bots son bastante inocuos, otros son tan agresivos que cada vez causan más interrupciones en el servicio de los repositorios (y otras infraestructuras de comunicación académica). Para obtener más información sobre la situación actual y comprender mejor el impacto de los bots y los rastreadores en los repositorios, COAR distribuyó una encuesta a sus miembros en abril de 2025. La encuesta recibió 66 respuestas de repositorios de todo el mundo (22 de Canadá y Estados Unidos, 22 de Europa, 9 de América Latina, 6 de Asia, 4 de Australasia, 2 de África y 1 desconocido).

Más del 90 % de los encuestados indicaron que su repositorio se enfrenta a bots agresivos, normalmente más de una vez a la semana, lo que a menudo provoca ralentizaciones e interrupciones del servicio. Aunque no hay forma de estar 100 % seguro del propósito de estos bots, la comunidad supone que se trata de bots de IA que recopilan datos para el entrenamiento de IA generativa.

Este tipo de tráfico ha experimentado un notable aumento en los últimos dos años y está teniendo un impacto considerable en los repositorios, tanto en términos de calidad de la prestación del servicio como del tiempo y los recursos necesarios para hacer frente a los bots. Con el fin de mitigar su impacto, se están utilizando diversas medidas para minimizar o impedir el acceso de los bots de IA a los repositorios. Algunas de las medidas utilizadas se consideran relativamente eficaces para proteger los repositorios de las interrupciones del servicio, pero también es evidente que están impidiendo el acceso a los repositorios a otros actores más bienvenidos, como los usuarios humanos individuales y los sistemas benignos.

Con el fin de ayudar a la comunidad de repositorios a navegar por este panorama en rápida evolución y desarrollar soluciones que permitan a los repositorios seguir siendo lo más abiertos posible, COAR ponemarcha un «Grupo de trabajo sobre repositorios y bots de IA» (julio de 2025). El Grupo de trabajo reunirá a representantes técnicos de los repositorios y otros expertos para debatir posibles soluciones a este problema y elaborar recomendaciones para la comunidad de repositorios.