Los sistemas de inteligencia artificial más avanzados del mundo pueden redactar ensayos, mantener conversaciones complejas y resolver ecuaciones matemáticas. Sin embargo, una nueva investigación sugiere que algunos de estos modelos colapsan ante una prueba psicológica clásica que cualquier adulto supera sin demasiado esfuerzo.

¿Qué tiene de especial esa prueba para poner en aprietos a tecnologías capaces de imitar el razonamiento humano con tanta precisión?

La prueba que lleva décadas midiendo la mente humana

El test de Stroop es uno de los experimentos más conocidos de la psicología cognitiva. Se muestran palabras de colores —»rojo», «azul», «verde»— escritas en tintas que pueden coincidir o no con su significado. La tarea parece sencilla: nombrar el color de la tinta, no leer la palabra.

El problema es que leer es un hábito automático. El cerebro tiende a procesar la palabra antes de que puedas evitarlo, y para responder correctamente hay que suprimir ese impulso y mantener el foco en la tinta. No es fácil, aunque lo parezca.

Los psicólogos utilizan esta prueba para medir el control ejecutivo: la capacidad de regular la atención, resistir distracciones y sostener un objetivo. Lleva décadas siendo una herramienta estándar en investigación sobre concentración, autocontrol y procesos cognitivos.

Cómo se sometió a los grandes modelos de lenguaje a la prueba

El equipo liderado por Suketu Patel quiso comprobar si los modelos de lenguaje más avanzados superan este reto de la misma manera que los humanos. Aplicaron el test de Stroop a varios sistemas: GPT-4o, GPT-5, Claude 3.5 Sonnet, Claude Opus 4.1 y Gemini 2.5.

El diseño fue progresivo. Las listas comenzaban con solo cinco palabras y se alargaban gradualmente hasta cuarenta, replicando las condiciones del test humano para permitir una comparación directa.

Con listas cortas, los resultados fueron prometedores. Los modelos respondieron con alta precisión incluso cuando la palabra y el color de la tinta no coincidían. Parecía que la tarea no suponía ningún obstáculo real.

El colapso: de más del 90 % de aciertos a casi cero

La situación cambió radicalmente al aumentar la longitud de las listas. GPT-4o alcanzó el 91 % de precisión con cinco palabras. Con diez, cayó al 57 %. Con cuarenta, llegó apenas al 15 %.

Claude 3.5 Sonnet se mostró más resistente al principio, manteniendo un rendimiento estable hasta las veinte palabras. Pero con listas de cuarenta su precisión se desplomó hasta el 24 %. Patrones similares aparecieron en el resto de modelos evaluados.

El golpe definitivo llegó al mezclar en la misma lista palabras coincidentes y contradictorias. En esas condiciones, la precisión en los ítems conflictivos cayó prácticamente a cero. Los modelos dejaron de seguir la instrucción de nombrar el color y volvieron a su comportamiento más entrenado: leer la palabra.

Por qué los humanos lo hacen mejor, aunque también les cuesta

Los humanos no son inmunes al efecto Stroop. También tendemos a leer las palabras de forma automática, y eso genera interferencia. Aun así, somos capaces de mantener el foco en la tarea incluso cuando las listas se alargan considerablemente.

La diferencia clave está en el control ejecutivo. El cerebro humano puede sostener un objetivo activo mientras filtra información competidora, aunque esta sea muy llamativa, y esa capacidad se mantiene de forma relativamente estable a lo largo de secuencias largas.

Los investigadores señalan que los modelos de lenguaje parecen incapaces de suprimir de forma consistente la respuesta para la que fueron más entrenados. Cuando la tarea se vuelve exigente, el sistema cede y regresa a su patrón dominante. No es un fallo puntual de rendimiento: apunta a algo más estructural.

Qué implica este hallazgo para el futuro de la IA

Los autores no presentan estos resultados como un error puntual ni un fallo de ajuste. Los describen como una limitación fundamental de los transformers actuales, la arquitectura que sustenta la mayoría de los grandes modelos de lenguaje.

La IA puede imitar el comportamiento humano en muchos contextos con una precisión notable, pero su capacidad de mantener la atención en tareas exigentes y prolongadas opera de forma muy distinta a la nuestra. El estudio plantea preguntas relevantes sobre la fiabilidad de estos sistemas en aplicaciones que requieren concentración sostenida.

Vale la pena detenerse en lo que esto sugiere. Hablamos de modelos que superan a muchos humanos en razonamiento abstracto o generación de texto, pero que fallan ante una prueba diseñada hace décadas para medir algo tan básico como mantener la atención. Quizás la inteligencia, en su sentido más completo, incluye capacidades que todavía no sabemos cómo construir artificialmente.

Escriben ensayos y resuelven ecuaciones, pero los modelos de IA más potentes colapsan ante una prueba de atención diseñada hace décadas

La prueba que lleva décadas midiendo la mente humana

Cómo se sometió a los grandes modelos de lenguaje a la prueba

El colapso: de más del 90 % de aciertos a casi cero

Por qué los humanos lo hacen mejor, aunque también les cuesta

Qué implica este hallazgo para el futuro de la IA