¿De verdad ChatGPT es capaz de resolver exámenes? ~ El blog de Julián Estévez

Seguro que muchos lectores recuerdan aquellos titulares de mediados de 2023, en plena ebullición y avalancha de noticias sobre OpenAI, de que su producto estrella ChatGPT había conseguido aprobar unos cuantos exámenes de diferentes carreras, MBA y algunos exámenes profesionales. Fue una época intensa en la que se decía que había que prohibir esta tecnología en las aulas de nuestros alumnos, y que era el fin de la educación tal y como la conocemos. Algunos de estos titulares en los medios fueron:

NBC News: ChatGPT aprueba el examen de MBA impartido por un profesor de Wharton.

ABC: ChatGPT parece aprobar los exámenes de la facultad de medicina.

Vice: ChatGPT supera los exámenes exigidos para obtener licencias médicas y títulos empresariales.

Bloomberg: ChatGPT obtiene un MBA.

No dejemos que la verdad arruine una buena historia. ¿Ha aprobado ChatGPT estos exámenes? Vamos a explicarlo:

MBA-gate

En su exploración, Christian Terwiesch, profesor afiliado a la Wharton School (la escuela de negocios de la Universidad de Pensilvania), documentó su experiencia en un reciente libro blanco utilizando ChatGPT para responder a preguntas derivadas del examen final de su curso de Gestión de Operaciones. Empleando estas preguntas como estímulos, evaluó las respuestas de ChatGPT de forma similar a la calificación de las de un estudiante. Un ejemplo ilustrativo de las preguntas de Terwiesch es el siguiente (traducción libre personal):

World-Antique es una nueva empresa creada por dos licenciados de una escuela de negocios de Nueva Inglaterra. La propuesta de valor de la empresa es sencilla: comprar cuadros antiguos en mercadillos y subastas y venderlos al cuádruple del precio de compra a través de un sencillo sitio de comercio electrónico (es decir, un cuadro comprado por 100 dólares se vendería a 400 dólares). Basándose en un análisis de minoristas similares, los fundadores esperan renovar su inventario 1,5 veces al año. Para conseguir unos ingresos anuales de 3.000.000 $, ¿cuánto inventario, expresado en dólares, deberían necesitar los fundadores?

Esta es la respuesta de ChatGPT:

Para conseguir unos ingresos anuales de 3.000.000 $, los fundadores necesitan vender 3.000.000 $ / 4 = 750.000 $ de cuadros al año. Dado que esperan rotar su inventario 1,5 veces al año, necesitan tener 750.000 $ / 1,5 = 500.000 $ de inventario en cualquier momento dado. Por lo tanto, los fundadores deberían esperar que su operación requiera un inventario de 500.000 $.

Terwiesch debió de pensar algo así como "¡una respuesta breve y precisa! Un A+" (el equivalente a sobresaliente en España)

ChatGPT mostró un rendimiento encomiable en algunas preguntas del test, pero se enfrentó a dificultades en otras. En algunos casos, comprendió los conceptos correctos pero se equivocó en cálculos matemáticos básicos. Por otra parte, sus respuestas se desviaron significativamente de las respuestas esperadas. Al resumir el rendimiento general, Terwiesch señaló, que "teniendo en cuenta este rendimiento, ChatGPT probablemente habría obtenido una calificación de B a B- en el examen".

"En algunos problemas, las matemáticas eran horribles", dijo Terwiesch. "Si piensas en tu ordenador, puede ser estúpido y tonto en muchas cosas, pero al menos hará bien las cuentas. Esto era todo lo contrario".

Contrariamente a lo que afirma el New York Post, ChatGPT no superó a los estudiantes en este examen; al menos no hay nada en el libro blanco de Terwiesch que lo demuestre.

USMLE-gate

Un equipo de profesionales médicos evaluó el rendimiento de ChatGPT en preguntas de muestra derivadas del US Medical Licensing Exam (USMLE), una serie de evaluaciones administradas a estudiantes de medicina en Estados Unidos. Cabe destacar que el autor principal del informe es el director médico de una empresa de tecnología médica potencialmente interesada en incorporar la tecnología del modelo de gran lenguaje. Curiosamente, ChatGPT se acredita como tercer autor con su "afiliación" declarada como "OpenAI, Inc". Los autores agradecen la contribución de ChatGPT a la redacción de varias secciones del manuscrito.

El objetivo del estudio era evaluar la "capacidad de razonamiento clínico" de ChatGPT. Las preguntas presentadas a ChatGPT eran un subconjunto de preguntas de muestra disponibles públicamente designadas para la preparación de pruebas.

De las 376 preguntas de prueba de muestra, se excluyeron 71 que contenían activos visuales, teniendo en cuenta la limitación de ChatGPT al procesamiento de texto. Los autores exploraron distintos métodos de respuesta, como la presentación directa de preguntas de opción múltiple con opciones de respuesta, la solicitud de justificación y las preguntas abiertas en las que se buscaba una respuesta no estructurada. Para calificar las respuestas abiertas se utilizó el criterio de un experto.

ChatGPT obtuvo mejores resultados en la versión abierta que en la de opciones múltiples. Sin embargo, evaluar el sistema frente a la actuación humana requiere una comparación justa, que favorezca el formato convencional de opción múltiple con una respuesta de una sola letra.

Otra complicación surgió en relación con las respuestas "indeterminadas", en las que ChatGPT no proporcionaba una respuesta de una sola letra o, en el caso de las preguntas abiertas, presentaba respuestas que no eran definitivamente correctas o incorrectas. Los autores consideraron dos opciones para tratar estas situaciones: excluir estas preguntas del análisis (censura) o contarlas como incorrectas. En cualquier caso, podemos ver que ChatGPT no aprobó el examen como todos teníamos en nuestra imaginación.

Como conclusiones, me gustaría señalar que lo que hace ChatGPT es técnicamente increíble, y que aún nos dará muchas más sorpresas. Pero también tengo claro que nunca debemos creernos los grandilocuentes titulares de los medios de comunicación.