El amanecer de los robots humanoides: La próxima frontera de la inteligencia artificial ~ El blog de Julián Estévez

Durante décadas, los expertos en robótica se han centrado más o menos en controlar los "cuerpos" de los robots -sus brazos, piernas, palancas, ruedas y similares- mediante software orientado a fines específicos. Pero una nueva generación de científicos e inventores cree que el ingrediente hasta ahora ausente de la IA puede dar a los robots la capacidad de aprender nuevas habilidades y adaptarse a nuevos entornos más rápido que nunca. Quizá este nuevo enfoque pueda sacar a los robots de las fábricas y llevarlos a nuestros hogares.

Si está al tanto de la robótica, se habrá dado cuenta de que se ha producido una explosión de nuevas empresas de robots humanoideFs. ¿Por qué? ¿Por qué humanoides? ¿Por qué ahora? Benjie Holson
intenta crear una línea temporal a partir de sus propias conclusiones:

2018: Boston Dynamics publica su primer vídeo de parkour. El movimiento bípedo funciona lo suficientemente bien como para contar con él.
2019: Las redes neuronales profundas convolucionales hacen que la percepción (detección/localización de objetos) funcione lo suficientemente bien como para hacer manipulación.
2022: ChatGPT3 convence a todo el mundo de que el lenguaje natural va a funcionar lo suficientemente bien como para impulsar productos reales.
2023: Tesla publica vídeos de sus robots humanoides. Las empresas de capital riesgo se dan cuenta y la financiación de humanoides es de repente mucho más asequible.
2024: La clonación del comportamiento para su manipulación empieza a funcionar lo suficientemente bien como para demostraciones y vídeos técnicos.

2023 ha sido testigo de un tsunami de avances en el campo de la robótica, impulsado en gran medida por la proliferación de Foundation Models. Este avance no sólo ha sido tecnológico, sino también filosófico en términos de investigación.

Desde el punto de vista tecnológico, hemos visto cómo los avances en robótica han incorporado modelos específicos como GPT-3, PaLI y PaLM. Además, se han adoptado algoritmos de aprendizaje y componentes arquitectónicos como la autoatención y la difusión, aprovechando conjuntos de datos e infraestructuras subyacentes como VQA y CV.

Pero quizá el aspecto más emocionante haya sido el cambio de mentalidad en la investigación robótica. Este año marca un hito en la adopción de la filosofía del modelado de fundamentos: una ferviente creencia en el poder de la escalabilidad, las diversas fuentes de datos, la importancia de la generalización y las capacidades emergentes. Por primera vez, no nos limitamos a teorizar sobre la aplicación de estos principios a la robótica, sino que los ponemos en práctica.

¿Cómo hemos llegado a este apasionante punto?

Todo empezó en 2022, cuando la humanidad descubrió (o creó) lo más parecido a un artefacto mágico alienígena: los Grandes Modelos de Lenguaje (LLM). Estos "artefactos" funcionaban sorprendentemente bien en varios dominios del razonamiento lingüístico, pero no sabíamos muy bien cómo aplicarlos a la robótica.

A mediados de 2022, parecía que podíamos mantener el LLM en una "caja" controlada, ayudando en la planificación y el razonamiento semántico, pero sus resultados seguían siendo abstracciones de alto nivel. Al final de este primer acto, se decidió que el control de bajo nivel -la parte difícil de la robótica- aún debía desarrollarse internamente, quizá inspirándose en el LLM pero manteniéndolo separado de su funcionamiento arcano.

Este primer contacto entre la robótica y los LLM fue intrigante y emocionante, pero aún no transformador. Sin embargo, sentó las bases para los avances revolucionarios que hemos visto en 2023.

El siguiente texto está extraído de la página oficial de NVIDIA (marzo de 2024), y ha sido traducido libremente:

NVIDIA acaba de anunciar el Proyecto GR00T, un modelo básico de propósito general para robots humanoides, diseñado para impulsar su trabajo en pro de la robótica y la IA incorporada.

Como parte de esta iniciativa, la compañía también ha presentado un nuevo ordenador, Jetson Thor, para robots humanoides basado en el sistema en chip (SoC) NVIDIA Thor, así como importantes mejoras en la plataforma robótica NVIDIA Isaac™, que incluyen modelos de base de IA generativa y herramientas para simulación e infraestructura de flujo de trabajo de IA.

Fuente

En otras palabras, no van a construir robots, sino a desarrollar modelos básicos de uso general para robots (humanoides). Es decir, lo que quieren es algo así como desarrollar chips con software para poder entrenar robots más rápidamente, y que éstos sean capaces de entrenarse para muchas tareas.

Uno de los mayores problemas del entrenamiento de robots es que si este entrenamiento se hace con RL (aprendizaje por refuerzo), requiere miles y miles de experimentos, y esto es extremadamente costoso en términos de tiempo.

Los robots impulsados por GR00T, siglas de Generalist Robot 00 Technology, estarán diseñados para entender el lenguaje natural y emular movimientos observando las acciones humanas, con lo que aprenderán rápidamente coordinación, destreza y otras habilidades para navegar, adaptarse e interactuar con el mundo real.

Explicado de forma sencilla, NVIDIA pretende desarrollar el aprendizaje de los robots a través de lo que los investigadores denominan "aprendizaje por imitación". No es una técnica nueva, sino la otra alternativa a la RL para entrenar robots y hacer que aprendan nuevas tareas. En el aprendizaje por imitación, los modelos aprenden a realizar tareas, por ejemplo, imitando las acciones de un humano que teleopera un robot o utilizando un casco de realidad virtual para recoger datos sobre un robot. Se trata de una técnica que ha estado de moda durante décadas, pero que últimamente se ha hecho más popular entre los robots que realizan tareas de manipulación.

Así que, de hecho, NVIDIA está tratando de crear algunos chips que consuman poco y permitan a los robots de otros fabricantes ser capaces de aprender tareas de propósito general con más facilidad. Y de hecho, creo que la reducción del consumo energético será clave para la hipotética masificación de los robots en las industrias y la sociedad. Según Ted Xiao estas son las principales tendencias para el entrenamiento de robots con LLM, que se pueden consultar en su estupendo blog:

En realidad, Google presentó SayTap en julio de 2023 para comunicarse con un perro robot mediante órdenes. Desde entonces, se han logrado grandes avances.

Teniendo en cuenta la interacción humano-robot requerida, ahora tiene sentido para mí la apuesta de Meta por sus gafas VR Ray-Ban, o los movimientos de Apple hacia adelante controlando robots con smartphones, que creo que es el objetivo final.

Comparte: