Inteligencia artificial, robótica, historia y algo más.

30/3/25

¿Y si automatizásemos el descubrimiento científico?

«Imaginemos que las piezas de un puzzle se diseñan y crean de forma independiente y que, al recuperarlas y ensamblarlas, revelan un patrón no diseñado, no intencionado y nunca antes visto, pero un patrón que despierta interés e invita a la interpretación. Estoy convencido de que las piezas de conocimiento creadas de forma independiente pueden albergar un patrón invisible, desconocido e involuntario». - Don R. Swanson


En el panorama en rápida evolución de la inteligencia artificial y la robótica, una de las aplicaciones más intrigantes es el potencial para automatizar el descubrimiento científico. La cuestión no es simplemente si las máquinas pueden generar hipótesis, sino si pueden descubrir conexiones valiosas que los investigadores humanos pasan por alto debido al enorme volumen de literatura científica.

Esta exploración se sitúa en la fascinante intersección de la IA, la recuperación de información y la innovación científica.


La naturaleza combinatoria de la innovación

Una teoría convincente sobre la innovación sugiere que los descubrimientos más valiosos surgen de combinaciones novedosas de ideas existentes. Como demuestra la investigación científica, no se trata de una mera especulación filosófica, sino que existen pruebas empíricas sustanciales que respaldan este punto de vista.

Este concepto, conocido como «innovación combinatoria», combinatorial innovation, sugiere que las nuevas ideas son esencialmente configuraciones novedosas de componentes preexistentes. Tal y como explica el autor Matt Clancy en su blog, incluso la famosa bombilla de Thomas Edison puede entenderse de este modo: Edison probó miles de materiales diferentes combinados con su aparato antes de encontrar un filamento que funcionara. Una vez inventada, la propia bombilla se convirtió en un componente que podía combinarse con otras tecnologías para crear lámparas de escritorio, faros y mucho más.

El método científico como ciclo: La observación conduce a la investigación, la hipótesis, la prueba, el análisis y la comunicación de conclusiones, que a su vez alimentan nuevas observaciones. Cada etapa representa una oportunidad para que la IA ayude al descubrimiento.



Si suponemos que la ciencia es un sistema completamente cerrado en el que nuestros científicos modelo están confinados en laboratorios sin ventanas -sus conocimientos sobre el mundo exterior proceden únicamente de una biblioteca de artículos científicos-, entonces las nuevas observaciones realizadas por estos científicos dependerían necesariamente de las conclusiones comunicadas por otros científicos.

Pero esto no se acerca a la realidad. De hecho, los científicos pasan tiempo fuera de sus laboratorios sin ventanas. Pueden hacer observaciones sobre el mundo que no proceden de algo que han leído. Tienen amigos y colegas con los que a veces discuten estas observaciones, y estas discusiones normalmente no se escriben ni se publican.

A pesar de estas deficiencias, la simplicidad de este modelo de ciencia basado en agentes tiene propiedades computacionales atractivas. Algunas teorías combinatorias de la innovación sugieren que los nuevos descubrimientos son el resultado de combinaciones únicas de conceptos preexistentes, por lo que puede que ni siquiera necesitemos suponer que estos científicos son competentes; sólo necesitamos un número suficiente de ellos para explorar de forma eficiente el espacio combinatorio de hipótesis plausibles. Dado el reciente crecimiento de las capacidades de procesamiento del lenguaje natural, la dependencia exclusiva de este modelo simplificado del texto científico como base para nuevas observaciones científicas suscita una pregunta: ¿podríamos automatizar este modelo de científicos y extraer nuevas observaciones científicas únicamente de la literatura científica?



Innovación combinatoria (Combinatorial innovation)

Hace dos décadas, Martin Weitzman, ya fallecido, esbozó las fascinantes implicaciones de los modelos de innovación combinatoria. En su obra de 1998, Weitzman describía la innovación como la combinación de dos ideas o tecnologías existentes que, con una inversión adecuada en I+D y unas circunstancias afortunadas, da lugar a un nuevo concepto o tecnología. Weitzman lo ilustró con la búsqueda de Thomas Edison de un material adecuado para el filamento de las bombillas. Edison probó miles de materiales diferentes en combinación con el diseño de su bombilla antes de encontrar la combinación perfecta. Este proceso no es exclusivo de la bombilla: prácticamente cualquier innovación puede considerarse una nueva combinación de componentes ya existentes.

Un punto importante es que, una vez que se combinan con éxito dos componentes, la nueva idea resultante se convierte en un componente que se puede combinar con otros. Para ampliar el ejemplo de la bombilla de Weitzman, una vez inventada la bombilla, podían inventarse nuevos inventos que utilizaran bombillas como componente tecnológico: cosas como lámparas de escritorio, focos, faros, etcétera.

Uno de los primeros en investigar las posibilidades de automatizar los descubrimientos científicos fue Don R. Swanson. Swanson, uno de los primeros lingüistas computacionales y científicos de la información, sentó las bases de lo que se convertiría en el campo del descubrimiento basado en la literatura en un artículo de 1986 titulado «Undiscovered Public Knowledge» (Swanson, 1986). En él, Swanson sostiene que la organización distribuida y en profundidad de la empresa científica genera un importante conocimiento latente que, si se recupera y combina adecuadamente, podría dar lugar a nuevos descubrimientos científicos.

Swanson desarrolló el «procedimiento ABC», según el cual las relaciones existentes entre los conceptos A↔B y B↔C podrían revelar conexiones A↔C no descubiertas. Sus exitosas aplicaciones incluyeron la vinculación del aceite de pescado con el tratamiento del síndrome de Raynaud, del magnesio con el alivio de la migraña y del atletismo de resistencia con el riesgo de fibrilación auricular, todo ello validado posteriormente por ensayos clínicos.

Lo que hace especialmente fascinante el trabajo de Swanson es el contexto personal que subyace a sus descubrimientos. Como revela la bibliografía, el propio Swanson padecía el síndrome de Raynaud y migrañas frecuentes. A pesar de ser un ávido corredor que completó una media maratón a los 80 años, sufrió una fibrilación auricular crónica que acabó provocándole un derrame cerebral en 2007, lo que puso fin tanto a su carrera como a la científica. Sus propios problemas de salud probablemente guiaron su interés por la investigación, un recordatorio de que incluso los descubrimientos científicos «objetivos» suelen estar impulsados por la experiencia personal.

La evolución de los métodos manuales de Swanson a las modernas técnicas de IA representa un salto cuántico en nuestra capacidad para extraer conocimientos ocultos.

Investigadores como Tshitoyan et al. (2019) han demostrado que los algoritmos de aprendizaje no supervisado pueden capturar relaciones significativas entre conceptos científicos. Mediante el análisis de 3,3 millones de resúmenes de ciencias de los materiales publicados entre 1922 y 2018, crearon representaciones vectoriales que predijeron con éxito futuros materiales termoeléctricos antes de que se confirmaran experimentalmente.

Uno de los hallazgos más notables fue que sin ningún conocimiento científico previo codificado, el modelo Word2Vec aprendió a realizar aritmética vectorial significativa que coincidía con las propiedades físicas reales.


La extraña dinámica de la innovación combinatoria

Uno de los aspectos más fascinantes de la innovación combinatoria es su peculiar patrón de crecimiento. Martin Weitzman demostró en 1998 que los procesos combinatorios empiezan lentamente pero acaban explotando en productividad.

Para ilustrar este concepto, contrastemos un ejemplo sencillo pero contundente: Empiece con 100 ideas. Las posibles parejas únicas que se pueden crear son 4.950. Si sólo el 1% de estas combinaciones producen nuevas ideas viables, tendríamos 49 nuevas ideas. Ahora tenemos 149 ideas, que pueden formar 11.026 pares posibles. Tras eliminar las 4.950 que ya hemos investigado, quedan 6.076 nuevas combinaciones por explorar. Si el 1% de ellas son viables, añadimos 61 ideas más. El proceso continúa, y cada iteración produce más y más ideas.

El crecimiento de las ideas a través de la innovación combinatoria: Al principio, el crecimiento se asemeja a un proceso exponencial, pero en el periodo 6 se produce una explosión en la que las nuevas ideas de cada periodo empequeñecen todo el conocimiento acumulado anterior.

Lo sorprendente es que este patrón refleja fielmente la historia de la innovación humana y el crecimiento económico:



En realidad, el autor Matt Clancy también recopila algunas formas interesantes de medir cómo se combinan las viejas ideas en los trabajos de investigación para obtener las nuevas ideas más impactantes. Bastante interesante, en mi opinión.

El Proceso de Poincaré: Cómo las grandes mentes buscan en el espacio combinatorio

Henri Poincaré, uno de los matemáticos más grandes de la historia, ofreció una visión extraordinaria de cómo la mente humana navega por los espacios combinatorios en su ensayo sobre la creación matemática:

«Una noche, en contra de mi costumbre, bebí café solo y no pude dormir. Las ideas surgían en tropel; las sentía chocar hasta que los pares se entrelazaban, por así decirlo, formando una combinación estable. A la mañana siguiente había establecido la existencia de una clase de funciones fuchsianas, las que proceden de la serie hipergeométrica; sólo tenía que escribir los resultados, lo que me llevó unas pocas horas».


Poincaré reconocía que para innovar con éxito es necesario navegar eficazmente por el vasto paisaje combinatorio:

«Inventar, he dicho, es elegir; pero la palabra quizá no sea del todo exacta. Hace pensar en un comprador ante el que se expone un gran número de muestras y que las examina, una tras otra, para elegir. En este caso, las muestras serían tan numerosas que no bastaría toda una vida para examinarlas. Esta no es la realidad. Las combinaciones estériles ni siquiera se presentan a la mente del inventor. Nunca aparecen en el campo de su conciencia combinaciones que no sean realmente útiles, salvo algunas que él rechaza pero que tienen hasta cierto punto las características de las combinaciones útiles


Esta descripción coincide precisamente con lo que esperamos que puedan lograr los sistemas de IA: navegar de forma eficiente por el espacio combinatorio para identificar combinaciones prometedoras que los humanos podrían pasar por alto.


Conclusión: El mundo por descubrir del conocimiento científico

Ya hemos experimentado muchas formas de automatización del proceso de innovación:
- el tratamiento de textos automatiza ciertas tareas de composición tipográfica asociadas a la redacción de nuestros resultados
- los paquetes estadísticos automatizan análisis estadísticos que antes se realizaban a mano o escribiendo código personalizado
- Google ha «automatizado» el recorrido por las estanterías de la biblioteca y el hojeo de revistas antiguas
- Elicit automatiza muchas partes del proceso de revisión bibliográfica.
- AphaFold automatiza el descubrimiento de la estructura tridimensional de las proteínas.
- La demostración automatizada de teoremas puede hacer justo lo que su nombre indica.

El crecimiento exponencial de la literatura científica significa que ningún investigador puede dominar todos los conocimientos pertinentes, ni siquiera dentro de especialidades muy concretas. Sólo las ciencias de la vida cuentan con más de 37 millones de artículos en la base de datos bibliográfica OpenAlex, la mayor cantidad de cualquier materia. Dentro de este vasto océano de conocimientos, es probable que permanezcan ocultas innumerables conexiones valiosas.

La cuestión última no es si la IA puede acelerar la ciencia, sino si sus recursos cognitivos pueden escalar con la suficiente rapidez para seguir el ritmo del crecimiento explosivo de las posibilidades combinatorias.

Las herramientas de IA que nos ayudan a navegar y conectar conocimientos entre dominios no sustituirán a los científicos humanos, sino que se convertirán en sus compañeros esenciales en la exploración. El futuro no pertenece a quienes confían ciegamente en la IA ni a quienes la rechazan por completo, sino a quienes aprenden a convivir con estas nuevas herramientas, aprovechando sus puntos fuertes y compensando sus puntos débiles mediante la creatividad humana, el pensamiento crítico y la validación experimental.

Los grandes modelos de lenguaje (LLM), como Deep Research, representan una nueva y poderosa herramienta en este proceso de descubrimiento combinatorio. Al procesar y conectar eficazmente conceptos de millones de artículos científicos, los LLM pueden identificar patrones y relaciones que, de otro modo, permanecerían ocultos en nuestro fragmentado panorama científico. Al igual que Swanson conectó manualmente literatura dispar para descubrir avances médicos, los LLM modernos pueden realizar conexiones similares a una escala y velocidad sin precedentes. Sin embargo, el enfoque más productivo probablemente reflejará la idea de Poincaré: estas herramientas no se limitarán a generar combinaciones aleatorias, sino que ayudarán a los investigadores a navegar por el vasto espacio combinatorio de forma más eficiente, destacando las conexiones prometedoras que merezcan una mayor investigación. En este paradigma emergente, los científicos humanos que desarrollen relaciones simbióticas con estos sistemas de IA -guiando su exploración al tiempo que aprovechan sus capacidades de reconocimiento de patrones- abrirán nuevas fronteras de descubrimiento científico que ni los humanos ni las máquinas podrían alcanzar por sí solos.




Comparte:

0 comentarios:

Publicar un comentario

Nos leemos:

descripción descripción descripción

Recibe las entradas por correo

En mi mesilla

Blog Archive

Licencia Creative Commons