Boston Dynamics acaba de equipar a Spot con Gemini Robotics-ER 1.6, el modelo de razonamiento embebido de Google DeepMind. El robot cuadrúpedo puede ahora inspeccionar instalaciones industriales de forma autónoma: leer indicadores complejos, detectar derrames y localizar escombros peligrosos sin intervención humana.

Pero una demostración en vídeo revela, casi de pasada, hasta dónde llegan todavía los límites de esta inteligencia. Cuando Spot recibe la instrucción de reciclar unas latas, las agarra por el lado —exactamente como no debería hacerlo nadie que haya sujetado una lata con líquido dentro.

Gemini Robotics-ER 1.6: qué puede hacer Spot ahora

La integración de Gemini Robotics-ER 1.6 transforma a Spot en algo más que un robot de patrulla. El modelo de razonamiento embebido de Google DeepMind permite al cuadrúpedo inspeccionar instalaciones industriales de forma completamente autónoma: leer indicadores analógicos y mirillas de nivel, identificar derrames y localizar escombros peligrosos. Cuando necesita contexto adicional, puede recurrir a modelos de visión-lenguaje-acción para interpretar mejor su entorno.

El contexto importa, y mucho. Boston Dynamics es una de las pocas empresas que ha desplegado robots con patas a escala comercial —varios miles de unidades activas—, lo que convierte esta integración en algo bastante más sustancial que un experimento de laboratorio. Spot ya tiene clientes reales, en entornos reales, con problemas concretos que resolver.

El problema de ‘entender’ como un humano

Carolina Parada, responsable de robótica en Google DeepMind, lo resume con claridad: el referente para medir el razonamiento de un robot es que responda como lo haría un humano. Esa es la aspiración. La realidad, por ahora, es considerablemente más matizada.

El vídeo de demostración lo ilustra sin rodeos. Cuando Spot recibe la instrucción de reciclar unas latas, las agarra por el lado. Un humano evitaría instintivamente esa postura si la lata pudiera contener líquido; el robot, en cambio, carece todavía de ese conocimiento implícito sobre el mundo físico.

Google DeepMind aborda parte de este problema desde la seguridad semántica. Gemini Robotics-ER 1.6 incorpora el benchmark ASIMOV, que incluye ejemplos en lenguaje natural de acciones que el robot no debería realizar —como dejar una taza de agua al borde de una mesa—. La versión actual de Spot, sin embargo, no aplica estos modelos de seguridad a la manipulación de objetos. La intención es incorporarlos en versiones futuras.

Solo visión: la brecha de los datos táctiles

Hay una limitación estructural en el modelo actual que va más allá de la demostración de las latas. Gemini Robotics-ER 1.6 es, en palabras de Parada, «estrictamente visual». No utiliza sensores táctiles ni de fuerza, pese a que ambos son métodos bien establecidos para verificar si un agarre ha sido exitoso.

La razón no es técnica, sino de datos. Existe una enorme cantidad de información visual en internet sobre cómo manipular objetos. Los datos táctiles, en cambio, son escasos: no hay repositorios comparables que permitan entrenar modelos con información de contacto físico.

La función de detección de éxito intenta compensar esta carencia combinando múltiples ángulos de cámara para determinar si Spot ha agarrado correctamente un objeto. Es una solución funcional, aunque sigue siendo exclusivamente óptica. Para cerrar esta brecha a largo plazo, los clientes que utilicen las nuevas capacidades de inspección deberán compartir sus datos operativos con Boston Dynamics.

El umbral del 80 %: cuándo un robot deja de ser molesto

Marco da Silva, vicepresidente y director general de Spot en Boston Dynamics, es directo sobre lo que significa ser útil en un entorno industrial real. Por encima del 80 % de precisión, el robot aporta valor. Por debajo, los operadores empiezan a ignorar sus alertas —el robot, en sus palabras, «está dando falsas alarmas»— y la herramienta pierde su propósito.

Alcanzar ese umbral con fiabilidad no es trivial. Por eso Boston Dynamics despliega las nuevas capacidades primero en programas beta con un grupo reducido de clientes, antes de anunciarlas públicamente. Solo se publicitan las funciones en las que confían.

La lógica de negocio también es clara. La mayor parte de la infraestructura crítica en una instalación industrial ya está instrumentada con sensores propios. Spot cubre el resto: todo aquello sin monitorización que, si nadie atiende, puede acabar causando un problema serio.

De la inspección industrial al hogar: el camino que queda

Spot no es solo un producto; es también una plataforma de aprendizaje. Su condición de robot comercial desplegado a escala permite a Boston Dynamics y Google DeepMind obtener datos reales sobre cómo funcionan modelos como Gemini Robotics-ER 1.6 en condiciones de uso genuinas. Esa experiencia, según ambas compañías, se trasladará a otras plataformas de IA encarnada, Atlas incluido.

Esto no significa que Atlas vaya a convertirse en el próximo robot de inspección industrial. Pero los aprendizajes acumulados con Spot podrían acortar considerablemente el camino hacia robots domésticos fiables: máquinas capaces de recoger ropa del suelo, sacar a pasear a un perro o vaciar una lata sin derramar su contenido.

El objetivo a largo plazo es que los robots razonen sobre la manipulación física con la misma intuición que un humano. Ese es el reto que la IA encarnada todavía no ha resuelto. La integración entre Spot y Gemini Robotics-ER 1.6 no lo cierra, pero señala con más precisión dónde está la brecha —y en este campo, eso ya representa un avance significativo.

Boston Dynamics y Google DeepMind integran razonamiento autónomo en Spot, pero el robot aún no sabe cómo sujetar una lata

Gemini Robotics-ER 1.6: qué puede hacer Spot ahora

El problema de ‘entender’ como un humano

Solo visión: la brecha de los datos táctiles

El umbral del 80 %: cuándo un robot deja de ser molesto

De la inspección industrial al hogar: el camino que queda