Inteligencia artificial, robótica, historia y algo más.

2/3/25

¿Por qué no tenemos aún robots mejores?

En el campo de la robótica, en rápida evolución, ha surgido una tesis provocadora: «Los datos son todo lo que necesitas». Este concepto, que se basa en el famoso artículo Attention is All You Need (La atención es todo lo que necesitas), que revolucionó el procesamiento del lenguaje natural, representa una nueva perspectiva sobre cómo podríamos conseguir por fin robots capaces y de uso general.

Este enfoque es fascinante porque no rechaza la ingeniería robótica tradicional en favor del puro aprendizaje automático. En su lugar, aboga por un enfoque híbrido que combine lo mejor de ambos mundos: métodos de aprendizaje basados en datos junto con lo que podría llamarse «ingeniería a la antigua» (GOFE, Good Old Fashioned Engineering), un bonito homenaje a la GOFAI (Good Old Fashioned Artificial Intelligence) de los primeros tiempos de la investigación en IA.

La idea central es que los robots, a diferencia de los sistemas de IA puramente digitales, deben interactuar con el impredecible mundo físico. Esta realidad significa que incluso las redes neuronales más sofisticadas deben basarse en sólidos principios de ingeniería que respeten las limitaciones físicas y los requisitos de seguridad.

Fuente

Grandes modelos de acción robótica (LRAM)

En el centro de esta visión se encuentran los modelos de acción de grandes robots (LRAM, Large Robotic Action Models), paralelos a los grandes modelos lingüísticos que han transformado la IA. Estos LRAM aprenden de vastos conjuntos de datos de acciones, comportamientos y resultados de robots en diversos entornos y tareas.

Lo que hace poderoso a este enfoque es su capacidad de generalización. En lugar de programar robots para tareas específicas, las LRAM pueden aprender patrones subyacentes de estrategias de manipulación exitosas que se transfieren a distintos escenarios. Un robot que aprende a coger un lápiz puede aplicar principios similares para coger un destornillador sin necesidad de reprogramación explícita.

En la charla TED «¿Por qué aún no tenemos mejores robots?», el investigador Ken Goldberg aborda una pregunta que muchos nos hemos hecho. La respuesta es sorprendentemente directa: la robótica se enfrenta a retos de datos únicos que han ralentizado el progreso en comparación con otros dominios de la IA. A diferencia del reconocimiento de imágenes o el procesamiento del lenguaje natural, donde los datos son abundantes y fáciles de recopilar a escala, las interacciones de los robots con el mundo físico son:

  • costosas de generar (requieren hardware físico)

  • consumen mucho tiempo (las acciones físicas requieren tiempo real)

  • difíciles de paralelizar (a diferencia de las tareas puramente computacionales).


Sin embargo, algunos indicios apuntan a un nuevo momento ChatGPT en robótica.


Las dos revoluciones de los datos: Simulación y recogida en el mundo real

Dos desarrollos paralelos pueden estar convergiendo para hacer realidad la visión de «Los datos son todo lo que necesitas»: los entornos de simulación de alta fidelidad y la recopilación generalizada de datos de RA/VR.

La revolución de la simulación de NVIDIA

NVIDIA se ha situado a la vanguardia de la simulación robótica con plataformas como Isaac Sim y Omniverse. Estos entornos permiten a los robots entrenarse en mundos virtuales fotorrealistas que modelan con precisión la física, los materiales y las interacciones entre objetos. Lo que antes llevaba meses de entrenamiento de robots físicos ahora puede hacerse en entornos virtuales acelerados, generando millones de muestras de interacción de la noche a la mañana.

Este planteamiento resuelve varios problemas detectados en el campo de la robótica:

  • Escala: Las simulaciones pueden ejecutar miles de escenarios paralelos

  • Diversidad: Los entornos virtuales pueden variar infinitamente.

  • Seguridad: Los robots pueden fallar catastróficamente en la simulación sin consecuencias en el mundo real.

  • Rentabilidad: Sin depreciación ni daños en el hardware físico


Las simulaciones de NVIDIA encajan perfectamente con la visión de LRAM, ya que generan los enormes conjuntos de datos de interacción necesarios para la generalización entre tareas. Sin embargo, la simulación por sí sola se enfrenta a un reto crítico: la brecha de la realidad. Los entornos virtuales, por sofisticados que sean, siguen siendo diferentes del impredecible mundo real.

Fuente



La estrategia de datos del mundo real de META

Aquí es donde META y las gafas de realidad mixta de otros gigantes tecnológicos entran en escena, cerrando potencialmente la brecha entre simulación y realidad. Dispositivos como las Quest de Meta, las gafas inteligentes de Ray-Ban y otros productos similares de Apple, Google y otros representan mecanismos de recopilación de datos del mundo real sin precedentes.

Estas gafas, que llevan millones de usuarios en entornos cotidianos, capturan datos visuales de cómo los seres humanos interactúan de forma natural con su entorno. Cada vez que alguien coge un objeto de forma extraña, sortea obstáculos inesperados o se adapta a condiciones de luz cambiantes, genera precisamente el tipo de datos de casos extremos que las simulaciones se esfuerzan por producir. Esta recogida pasiva de datos de las interacciones entre las personas y el entorno podría ser el eslabón que falta entre el entrenamiento simulado y el rendimiento robótico en el mundo real.

Fuente


Aunque los problemas de privacidad son importantes y deben abordarse, el potencial técnico es enorme. Combinando las capacidades de simulación de NVIDIA con los datos de observación del mundo real de META, los investigadores en robótica podrían entrenar modelos que salvaran la brecha de la realidad, aprendiendo tanto los fundamentos basados en la física como las adaptaciones matizadas necesarias para el éxito en el mundo real.

El resultado podría ser exactamente lo que la tesis «Data is All You Need» imagina: Grandes modelos de acción robótica entrenados a partir de datos diversos y multimodales que se generalicen en distintos entornos y tareas.

La convergencia: Simulación, realidad e ingeniería


Imaginemos este círculo virtuoso:

  • Los robots se entrenan inicialmente en entornos simulados de NVIDIA.

  • Las gafas de realidad aumentada de META captan cómo los humanos interactúan con los robots y los corrigen.

  • Estos datos de retroalimentación mejoran tanto los entornos de simulación como los modelos de robot
  • Los principios de ingeniería garantizan la seguridad y la fiabilidad en todo momento


Esta visión emergente sugiere que nos estamos acercando a un punto de inflexión en la robótica. A medida que estos métodos complementarios de recopilación de datos maduren y los LRAM se vuelvan más sofisticados, es posible que asistamos a un salto discontinuo en las capacidades de los robots similar al que hemos visto con los grandes modelos lingüísticos.

Para quienes esperan con impaciencia los robots ayudantes prometidos por décadas de ciencia ficción, esta convergencia ofrece un optimismo realista. De hecho, se avecinan mejores robots, impulsados por las capacidades de recopilación de datos sin precedentes de las plataformas de simulación y los dispositivos de realidad aumentada y realidad virtual de uso cotidiano, combinadas con sólidos fundamentos de ingeniería.

Puede que los datos no sean literalmente «todo lo que se necesita», pero podrían ser el ingrediente crítico que finalmente convierta a los robots de uso general en una realidad práctica.
Y la próxima vez que alguien pregunte por qué su casa aún no se parece a «Los Jetsons», puedes explicarle cómo las gafas META de su amigo podrían estar ayudando silenciosamente a resolver ese mismo problema.



Comparte:

0 comentarios:

Publicar un comentario

Nos leemos:

descripción descripción descripción

Recibe las entradas por correo

En mi mesilla

Blog Archive

Licencia Creative Commons