OpenAI supera el Muro con o3. ¿Estamos más cerca de la IA general? ~ El blog de Julián Estévez

Hace unos días, en los últimos coletazos de 2024, OpenAI dio un auténtico bombazo en el mundo tecnológico con el lanzamiento de su sistema de inteligencia artificial o3. Desde entonces, ha dado lugar a muchísimo debate y especulaciones sobre cómo de cerca estamos respecto de la inteligencia artificial general, y si finalmente, hemos tirado abajo el Muro del que se venía hablando en los últimos meses. Lo que ha presentó se está considerando como un antes y un después en el desarrollo de estos sistemas de grandes modelos de lenguaje. Para explicar en qué ha consistido este hito, hoy os traigo este artículo del blog. Empecemos por el inicio:

A lo largo del último par de años, no hemos parado de sorprendernos con distintos lanzamientos de los sistemas LLM (Large Language Model, Grandes Modelos de Lenguaje). Para no enrollar demasiado el post, me voy a centrar exclusivamente en OpenAI, dejando a un lado a su competencia:

La empresa liderada por Sam Altman parecía que había entrado en una espiral de éxito sin parangón y que iba a la cabeza de la carrera tecnológica por el dominio de esta tecnología de inteligencia artificial. En 2021 empezó a rompernos la cabeza y prendió la mecha con su modelo GPT3, posteriormente en 2022 desarrolló ChatGPT, y en marzo de 2023 finalmente lanzó GPT4. Parecía imparable. Cada vez "alucinaba" menos en sus respuestas, y era capaz de entender textos más complejos y tener una comprensión mayor del lenguaje natural, y además, los GPT se volvieron multimodales y comenzaron a aceptar texto, imágenes y audio.

Sin embargo, a partir del lanzamiento de GPT4, OpenAI fue perdiendo comba, y sus rivales le fueron alcanzando en la carrera tecnológica. Según parecía, GPT5 tardaría en salir, y los progresos no estaban siendo todo lo rápidos que a Sam Altman le gustaría. Por si eso no fuera poco, el jefazo de la empresa sufrió un golpe de estado a final de 2023 por parte de su directiva, con su posterior vuelta a la empresa unas semanas más tarde y la purga de casi todos sus compañeros de mesa. Pero volvamos al meollo técnico: OpenAI nunca se ha caracterizado por dar muchas explicaciones de cómo construía sus LLM, por eso, solo podíamos elucubrar sobre cómo funcionaba su inteligencia artificial, y por qué estaba fallando para llegar al próximo GPT5 y acercarnos un poco más a la inteligencia artificial general, que es oficialmente la esencia de la existencia de OpenAI.

Aparentemente, avanzar en el desarrollo de esta inteligencia artificial era cuestión de incorporar más datos y de escalar el sistema. Es decir, lo que parecía que buscaban las empresas eran textos con los que entrenar a sus grandes sistemas, y que el avance en este sistema de inteligencia artificial era cuestión de tamaño. Pero había varios problemas. Por un lado, por aquella época se especuló si los datos reales, los generados por usuarios, se habían agotado. Quizás era la hora de echar mano de lo que llamamos datos sintéticos.

Por otro lado, entrenar con sus servidores y tarjetas GPU requería tal cantidad de recursos, que OpenAI tuvo que hacer una maniobra empresarial para poder levantar más capital de Microsoft y afrontar todos los gastos. Además, entrenar con tantos miles de millones de datos requería una cantidad de energía sin parangón.

Pero es que además, entrenar con más cantidad de datos no estaba dando resultado.

El genio técnico detrás de todos los GPT, Ilya Sutskever, era uno de los que defendía que hacía falta esa cantidad de nueva información. Sin embargo, cuando fue purgado de la junta directiva de OpenAI y se lanzó a crear su nueva startup, comenzó a defender justo lo contrario, y argumentaba que el empleo de más datos para mejorar la inteligencia artificial estaba llegando a sus límites. Donde dije Digo digo Diego. A este fenómeno, es lo que una voz referente de la inteligencia artificial, Gary Marcus, es lo que llamó "el Muro". Acuñó la expresión deep learning is hitting a wall en marzo de 2022. Era el muro que los algoritmos empleados hasta la fecha no podían superar.

Por lo que se había logrado descubrir, OpenAI empleaba un tipo de entrenamiento para sus redes de transformers basados en aprendizaje supervisado, y deep learning. Posteriormente, de cara al afinado de los modelos, empleaba la técnica conocida como aprendizaje por refuerzo con retroalimentación humana (RLHF).

Pero ya por fin nos plantamos en 2024, y concretamente en septiembre del ya pasado año, OpenAI cambió la denominación de sus LLM y lanzó el modelo o1. Este modelo dejó muy buenas sensaciones, ya que parecía que la empresa de Altman volvía a la senda del progreso, y además este modeló demostró que lograba muy buenos resultados en distintos tipos de problemas matemáticos para los cuales GPT4 ofrecía muy malas respuestas. También el modelo o1 fue un cambio de paradigma, y es que comenzó a emplear para el entrenamiento de sus datos el algoritmo del aprendizaje por refuerzo como su técnica principal.

Para entender este concepto y que nos hagamos una idea del cambio de propuesta, podemos imaginar que a los modelos antiguos (los GPTs) los investigadores de OpenAI les daban la mejor vuelta rápida que hacía un Formula 1, y los LLM se dedicaban a imitar esa trayectoria, velocidad, giros de volante, etc. Sin embargo, con o1 los investigadores han comenzado a entrenar a sus LLM dándoles el dibujo del circuito, y que los algoritmos descubran cuál es la vuelta rápida por ellos mismos. Con este cambio, o1 se volvió un modelo que tardaba más tiempo que sus predecesores en dar una respuesta a nuestros prompts, pero era capaz de "razonar" parecido a un humano y de dar respuestas mucho más acertadas a ese tipo de problemas de ingenio.

Finalmente, como colofón a este nuevo impulso y entusiasmo por los nuevos modelos, y casi por sorpresa, OpenAI presentó en diciembre su modelo o3 (no nos hemos perdido: la compañía se ha saltado el modelo o2 por posibles problemas de copyright con la empresa de telecomunicaciones).

El sistema o3 ha sorprendido aún más a la comunidad tecnológica por su capacidad de razonamiento y por obtener una nota muy alta en el test ARC-AGI, creado por François Chollet. Chollet es un investigador francés y uno de los referentes en inteligencia artificial. Se hizo famoso hace algunos años gracias a su extenso artículo On the measure of intelligence, a lo largo del cual se planteaba cómo se podía medir la inteligencia y el progreso de las máquinas, y las dificultades para hacerlo. Y para hacerlo, desarrolló su test, que consiste principalmente en la resolución de problemas de ingenio representados mediante gráficos y diferentes imágenes, los cuales deberían ser resueltos por el humano medio. En el ARC-AGI, o3 logró un 75,7% en modo “bajo coste” y un 87,5% en modo “alto coste, lo cual es un salto enorme, ya que el modelo o1 logró un 21%. Es un test que hasta ahora ningún modelo de inteligencia artificial había sido capaz de estar tan cerca de resolver.

El o3 consume una barbaridad de recursos de entrenamiento y empleo, además de que tarda muchísimo en proporcionar las respuestas que se le piden. Por esta razón, nosotros no lo tendremos a nuestra disposición hasta dentro dentro de un tiempo, durante el cual la velocidad de los algoritmos y su consumo energético se hayan optimizado.

Por lo tanto, muchos titulares han corrido a afirmar que OpenAI por fin ha roto el Muro que le impedía avanzar. ¿Estamos más cerca de una inteligencia artificial general? No tanto, ya que o3 demostró que aunque es capaz de resolver problemas de ingenio y matemáticos mejor que sus predecesores, ofrece peores respuestas en el lenguaje natural. Es decir, parece que la gente de OpenAI no logra una generalización de su LLM y que sirva para todo. Así que puede que se haya roto un muro, pero que surjan nuevos obstáculos en el futuro. Pero eso es harina de otro costal, y tenemos 2025 por delante para ver lo que nos deparará el futuro.

Estamos viviendo una época fascinante.

Comparte: