
La semana en que las máquinas aprendieron a caerse
En Pekín, un robot llamado Lightning terminó un medio maratón en cincuenta minutos y veintiséis segundos, siete minutos antes que el récord humano de Jacob Kiplimo. En la línea de salida, varios de sus rivales se desarmaron después de cuatro pasos. Ambas cosas pasaron la misma mañana, en la misma carrera, y ninguna fue noticia por mucho tiempo. Esta es la semana en que las máquinas aprendieron a caerse, a regalar mundos enteros y a doblar camisas que nunca habían visto.
Mi abuelo, que nunca corrió más de cincuenta metros en su vida, solía decir que a un hombre se le conoce por cómo se levanta. La frase era eficaz porque insinuaba, sin decirlo, que caerse era lo normal. El domingo pasado, en la zona industrial de Yizhuang al sureste de Pekín, un robot rojo llamado Lightning —construido por Honor, la empresa china de teléfonos— completó el medio maratón de Beijing E-Town en cincuenta minutos y veintiséis segundos. El récord humano de Jacob Kiplimo son cincuenta y siete minutos y treinta y un segundos. Más de cien robots participaron en la carrera, cuarenta por ciento de manera autónoma; el resto, guiados a control remoto. Varios estallaron en la línea de salida. Lo verdaderamente novedoso —y aquí uno imagina a mi abuelo asintiendo desde su silla— es que los perdedores también fueron máquinas. La carrera cruzó un umbral que nadie anunció: ya no es hombre contra máquina. Es máquina contra máquina, y el humano, si acaso, corre al lado.
Cuatro días antes, la segunda sorpresa llegó sin kit de prensa. Tencent —la empresa china más grande de videojuegos— publicó en Hugging Face un modelo llamado HY-World 2.0, o más específicamente WorldMirror 2.0, con cerca de mil doscientos millones de parámetros y una licencia comercial abierta. Traducción: cualquier persona con una computadora puede hoy convertir un texto, una foto, varias fotos o un video en un mundo tridimensional completo —mallas, splats gaussianos, nubes de puntos— exportable a Unity, Unreal o Blender, y venderlo. Un estudio independiente de Oaxaca puede hacer esta tarde lo que hace un año requería un laboratorio de Google. Hay cálculo comercial detrás, claro: Tencent apuesta a que la comunidad mejore el código gratis. Pero el efecto es el mismo que cuando abren la autopista nueva sin cobrar peaje: pasan por ahí empresas que no estaban invitadas al plano original.
El mismo fin de semana, Nvidia publicó Lyra 2.0, construido sobre un transformador de difusión de catorce mil millones de parámetros. Toma una fotografía —cuatrocientos ochenta por ochocientos treinta y dos píxeles, más pequeña que la que tomaste ayer con el celular—, genera un recorrido de ochenta y un cuadros, y a partir de ese recorrido construye un mundo tridimensional por el que uno puede volar en tiempo real. Una foto de tu sala y de pronto estás dentro de ella, mirando detrás del sillón. El detalle, porque siempre hay un detalle, es que Nvidia lo publicó con licencia exclusivamente para investigación. Sin producto. Sin uso comercial. En México decimos que te prestan el carro pero no las llaves. La razón es transparente: Nvidia vende Omniverse, su plataforma para mundos virtuales corporativos, y canibalizarla no sería prudente. Así que el prodigio existe, está en línea, y al mismo tiempo no lo está. Es el capitalismo dando una clase magistral de arqueología maya.
Al otro lado del mar, en Tokio, el laboratorio Sakana AI publicó algo llamado Digital Ecosystems. Es, literalmente, un juego en el navegador. Uno entra a pub.sakana.ai/digital-ecosystem y encuentra autómatas celulares neuronales donde especies digitales compiten y cooperan sobre una cuadrícula compartida. Uno puede dibujar paredes, sembrar especies, ajustar parámetros y ver cómo el sistema se estabiliza en lo que los especialistas llaman —con solemnidad— el régimen excitable del borde del caos. No hay producto. No hay modelo de negocio. Llion Jones, cofundador de Sakana y uno de los ocho autores originales del paper que inventó los Transformers en 2017, es el tipo de investigador que construye cosas para entender algo, no para venderlo. En una semana donde cada anuncio viene acompañado de una ronda de financiamiento, publicar un juguete sin factura es casi una provocación política.
Y al final, la noticia más callada y quizá la más importante. Lucy Shi, investigadora de Physical Intelligence y doctorante en Stanford, presentó π0.7: un modelo generalista de robots que dobló ropa en un brazo UR5e que jamás había visto durante su entrenamiento, igualando a teleoperadores humanos expertos en el primer intento. Después demostró algo aún más raro con una freidora de aire. El modelo empezó con un cinco por ciento de éxito al abrirla, meter algo y cerrarla. Shi pasó media hora ajustando la instrucción en lenguaje natural —no reentrenando el modelo, solo reformulando la frase— hasta llegar al noventa y cinco por ciento. El robot no aprendió una nueva tarea: aprendió a ser dirigido mejor, como un estudiante brillante al que le explicas mejor el problema. Los ingenieros lo llaman generalización compositiva emergente. Mi abuelo lo habría llamado saber escuchar.