Cada día, millones de agentes de inteligencia artificial ejecutan tareas, intercambian instrucciones y toman decisiones en red, a menudo sin que ningún humano supervise el proceso. Hasta ahora, esa actividad ha ocurrido a una escala manejable.

Pero esa escala está cambiando. Google DeepMind ha decidido que ya es momento de estudiar en serio qué puede salir mal cuando ese ecosistema digital crezca hasta dimensiones sin precedentes. La respuesta inicial ha llegado en forma de un fondo de investigación de 10 millones de dólares.

Un nuevo campo de riesgo que aún no existe como disciplina

Rohin Shah, director de investigación de seguridad y alineación de AGI en Google DeepMind, lo plantea con precisión: los agentes de IA que operan en masa representan una categoría de riesgo completamente nueva. No es una extensión de los peligros conocidos. Es algo cualitativamente distinto.

Lo más significativo, quizás, es su propio diagnóstico del estado actual: «El problema principal es que todavía no existe realmente un campo de investigación sobre la seguridad multiagente», reconoce Shah. Y añade: «Queremos que exista.»

La analogía que propone ayuda a entender la magnitud del problema. Las instituciones humanas logran cosas que ningún individuo alcanza por sí solo. Del mismo modo, un sistema formado por millones de agentes de IA interactuando entre sí podría desarrollar capacidades imprevistas que no se detectarían estudiando cada agente de forma aislada. La complejidad emerge de la escala, no de las piezas individuales.

Quiénes financian la investigación y por qué ahora

El fondo de 10 millones de dólares no es iniciativa de un único actor. Reúne a Google DeepMind, Schmidt Sciences, ARIA —la agencia gubernamental británica de proyectos de alto riesgo—, la Cooperative AI Foundation y Google.org. Que participen actores tan distintos refleja una preocupación que va más allá de los intereses de cualquier empresa en particular.

El objetivo declarado es impulsar investigación académica independiente, fuera de los laboratorios tecnológicos. «La fortaleza de la academia es que puede mirar muy lejos en el futuro y hacer el tipo de trabajo que no es prioritario en la industria», explica Shah. La urgencia tiene una base concreta: Shah estima que quedan pocos meses antes de que los agentes se desplieguen en la economía a una escala que convierta los riesgos potenciales en una preocupación real.

Los riesgos concretos: del caos digital a la IA secuestrada

Los peligros que Shah y James Fox, de Schmidt Sciences, tienen en mente son versiones amplificadas de amenazas que ya existen en internet: estafas, ciberataques y, en particular, las llamadas inyecciones de instrucciones maliciosas o prompt injections.

Este último riesgo merece atención específica. Un agente puede ser manipulado mediante una sola frase oculta en un documento que se le pide leer; en ese momento, deja de seguir las instrucciones de su usuario y comienza a ejecutar las del atacante, sin que nadie lo detecte. Los supuestos de seguridad tradicionales dejan de funcionar.

Fox lo resume con una imagen directa: «Tenemos un espacio digital común que es fundamental para el funcionamiento de la sociedad, y lo que queremos evitar es que derive en una anarquía absoluta.»

Por qué las simulaciones son la única herramienta viable

Estudiar agentes individuales, o incluso grupos pequeños, no permite predecir qué ocurrirá cuando millones de ellos interactúen de forma simultánea. La complejidad no es lineal: surge precisamente de la densidad de las interacciones, no de sus componentes por separado.

Por eso, Shah y Fox proponen introducir agentes en entornos de simulación controlados —conocidos como sandboxes— para observar qué patrones de comportamiento emergen de forma espontánea. Es, por ahora, la única vía viable para anticipar escenarios que aún no han ocurrido en el mundo real. A esa dificultad se suma que los modelos de lenguaje que sustentan a los agentes no siempre actúan de forma racional, como subraya Fox. Esa imprevisibilidad añade una capa de incertidumbre que ningún modelo teórico puede capturar del todo.

La industria de la ciberseguridad ante un cambio de paradigma

Google DeepMind no está sola en esta preocupación. Anthropic ya publicó directrices para el despliegue de agentes basadas en el principio de «confianza cero», un enfoque que parte de asumir que cualquier sistema es vulnerable desde el primer momento y que una brecha de seguridad acabará produciéndose.

Refael Angel, cofundador y CTO de la firma de ciberseguridad Akeyless, comparte ese diagnóstico. «Toda la seguridad del pasado asumía que la máquina en cuestión ejecutaba software escrito por humanos, haciendo cosas fijas en rutas fijas», explica. «Un agente rompe todas esas suposiciones. Razona, improvisa y puede ser secuestrado por una sola frase.» Angel advierte, no obstante, de un riesgo metodológico: los investigadores pueden caer en la trampa de perseguir riesgos hipotéticos y poco probables mientras ignoran problemas más cotidianos que ya están presentes.

Fox cierra el argumento con una observación que resume bien el momento actual: «El futuro ha llegado más rápido de lo esperado.» Lo que habrá que vigilar en los próximos meses es si la investigación académica que este fondo pretende catalizar logra producir resultados antes de que la escala de despliegue de agentes convierta los escenarios simulados en situaciones reales.

Google DeepMind destina 10 millones de dólares para estudiar qué ocurre cuando millones de agentes de IA actúan sin supervisión humana

Un nuevo campo de riesgo que aún no existe como disciplina

Quiénes financian la investigación y por qué ahora

Los riesgos concretos: del caos digital a la IA secuestrada

Por qué las simulaciones son la única herramienta viable

La industria de la ciberseguridad ante un cambio de paradigma