/*JULIAN: CÓDIGO CLAUDE /*FIN JULIAN 2025 ~ El blog de Julián Estévez

Inteligencia artificial, robótica, historia y algo más.

30/9/25

Leibniz y la utopía lógica: cuando la ética se redujo a un cálculo

La ética computacional se siente como un problema puramente del siglo XXI. Se debate en Silicon Valley y en foros de la ONU: ¿Cómo programamos la moralidad en una Inteligencia Artificial? ¿Quién es responsable cuando un algoritmo se equivoca? Sin embargo, la ambición de reducir los dilemas morales a una fórmula matemáticano es nueva. Sus raíces se hunden más de tres siglos, en la mente de un genio que soñó con zanjar todas las disputas con un simple cálculo: Gottfried Wilhelm Leibniz (1646-1716).

La conexión entre el filósofo alemán y la ética de la IA, el software y el manejo de datos, es más profunda de lo que parece. Leibniz no solo fue codescubridor del cálculo infinitesimal y el creador del sistema binario (la base de toda la informática moderna), sino que también propuso una solución radical para la moralidad: un "Cálculo Moral" o Calculus Moralis.



La máquina que zanjó disputas: El origen de una utopía lógica


Leibniz estaba obsesionado con el orden. Creía que la mayoría de los conflictos humanos—ya fueran filosóficos, legales o morales—se originaban en la ambigüedad del lenguaje. Si las palabras podían ser confusas, ¿por qué no reemplazarlas con símbolos?

Así concibió dos proyectos monumentales: la Characteristica Universalis (un lenguaje universal de símbolos lógicos) y el Calculus Ratiocinator (un método para calcular con esos símbolos). El sueño de Leibniz era que, una vez traducido un problema a su lenguaje universal, dos personas en desacuerdo simplemente se sentarían y dirían: "¡Calculemos!" ("Calculemus!").

El Cálculo Moral era la extensión natural de esta utopía lógica a la ética. Leibniz sugería que los juicios morales podían ser racionalizados estimando dos factores: la probabilidad de un resultado y la deseabilidad (o Perfección) de ese resultado. La acción correcta sería la que maximizara la deseabilidad ponderada por la probabilidad. Por ejemplo, cuando un sistema de IA toma una decisión de vida o muerte en un vehículo autónomo, está realizando un "cálculo moral" leibniziano: sopesar probabilidades y daños.



La intervención de Bentham: del cálculo moral a la máquina hedónica


Décadas después de Leibniz, el filósofo inglés Jeremy Bentham dio al "cálculo moral" su forma más influyente: el Utilitarismo.

Bentham reemplazó la vaga "deseabilidad/perfección" de Leibniz con un valor concreto y medible: la felicidad o el placer. Sostuvo que la acción moralmente correcta es la que produce la mayor felicidad para el mayor número de personas.

Bentham incluso propuso un procedimiento detallado llamado Cálculo Felicífico (o Cálculo Hedónico) para sopesar formalmente el valor moral de una acción basándose en cualidades medibles del placer y el dolor, tales como:

- Intensidad (¿cuán fuerte es el placer/dolor?)
- Duración (¿cuánto tiempo dura?)
- Certeza (¿qué tan seguro es que sucederá?)
- Fecundidad (¿qué tan probable es que produzca más placer o dolor después?)

El cálculo de Bentham se convirtió en el modelo filosófico para la ética algorítmica moderna. Cuando los ingenieros de IA programan un coche autónomo para minimizar daños, están aplicando esencialmente una versión digital del cálculo de Bentham: el algoritmo intenta encontrar la ruta que minimice las consecuencias negativas (dolor) para la mayoría.



Lecciones de la Moralidad Algorítmica: ¿Es la Ética Computable?


Las visiones de Leibniz y Bentham nos obligan a enfrentar la pregunta central de la ética computacional: ¿Es realmente posible programar el comportamiento ético en una máquina?*

Hoy, la Inteligencia Artificial intenta este "cálculo moral" ya sea mediante programación explícita clásica (estableciendo reglas) o con técnicas de *machine learning que infieren patrones éticos a partir de grandes conjuntos de datos. El objetivo es basar la ética en cantidades medibles evaluadas por algoritmos de decisión.

Sin embargo, el intento contemporáneo de crear una moralidad algorítmica ha revelado limitaciones profundas que desafían la utopía de una cálculo moral completo:

1.  La ética no es un juego de imitación. Si bien las máquinas pueden copiar patrones de comportamiento de los datos, la moralidad va más allá de la simple imitación; implica juicio y contexto.
2.  Las consecuencias importan, pero el utilitarismo no basta. Aunque debemos considerar las consecuencias de nuestras acciones, el intento de cuantificar la moralidad, como propone el utilitarismo estricto de Bentham, es problemático. Es imposible "calcular la felicidad" o el valor moral de una vida con una fórmula universal.
3.  No existe un algoritmo moral universal. Al igual que la lógica ha demostrado que no existe un algoritmo universal para distinguir lo verdadero de lo falso, tampoco parece haber un algoritmo infalible para distinguir lo correcto de lo incorrecto.

Si la mejor opción fuera computable con absoluta certeza, ¿cómo podría no ser obligatoria? Y si la máquina solo ejecutara ciegamente las acciones dictadas por un algoritmo de decisión, ¿qué le quedaría a la voluntad humana? La ética perdería su esencia deliberativa y se convertiría en una simple tarea de ejecución.

El Calculus Moralis de Leibniz y el Cálculo Felicífico de Bentham nos llevan a una paradoja moderna: El comportamiento ético no parece ser puramente computable. El código binario que Leibniz descubrió nos dio el poder de las máquinas, pero la complejidad de la moralidad humana, ese espacio para la voluntad y el juicio, se resiste a ser traducida por completo a ceros y unos.

En la era de la IA, quizás debamos aceptar que el objetivo no es programar la moralidad, sino diseñar máquinas que nos fuercen a ser más conscientes de los límites de nuestra propia ética.

Ya veremos.





Comparte:

22/9/25

El Oráculo, el templo y el examen

En la ladera del monte Parnaso, a los pies del templo de Apolo, los hombres acudían al oráculo en busca de certeza. Allí, en un espacio saturado de incienso y misterio, la voz de la sacerdotisa Pitia descendía como una revelación divina. Pero sus palabras eran siempre dobles, como espejos que se enfrentan: decían y desdecían, prometían y advertían al mismo tiempo. El rey Creso, antes de lanzarse contra los persas, recibió la célebre respuesta: «Si cruzas el río Halis, destruirás un gran imperio». Creyó escuchar la promesa de la victoria, cuando en realidad el imperio destinado a caer era el suyo. El oráculo hablaba con la seguridad de quien conoce el futuro, y sin embargo dejaba que la interpretación —y el error— recayera en el oído humano.

Muchos siglos después, Borges imaginó otra forma de esa ambigüedad en La Biblioteca de Babel: un universo delirante que contenía todos los libros posibles, todas las combinaciones de letras, todas las frases verdaderas y falsas. Allí, un volumen que revelaba la fecha exacta de una batalla estaba rodeado por infinitos volúmenes que narraban fechas equivocadas con idéntico aplomo. El lector se sumergía en un océano de plausibilidades, incapaz de distinguir la chispa de la verdad en medio del ruido inabarcable.



Y, en un registro más doméstico, cualquiera que haya estado en un examen escolar conoce el mismo juego. Frente a una pregunta imposible, el alumno traza en la hoja una respuesta inventada, con letra segura, como si la confianza pudiese redimir la falta de conocimiento. En la lógica implacable de los puntos y las notas, arriesgar vale más que callar; el silencio es castigado, la conjetura recompensada.

El oráculo, la biblioteca y el examen: tres escenas que, sin proponérselo, anticipan el presente. Nuestros modelos de lenguaje hablan con la misma voz ambigua de Delfos, generan bibliotecas infinitas de frases como en Babel, y responden como escolares ansiosos de complacer, arriesgando siempre una conjetura antes que admitir la ignorancia. A este fenómeno lo hemos llamado “alucinación”, como si se tratara de un delirio humano. Pero la palabra engaña: aquí no hay fantasmas ni visiones, sino un cálculo frío que privilegia la apariencia de certeza sobre la honestidad del vacío.

Las máquinas no alucinan porque sean caprichosas, sino porque las hemos educado para hacerlo. En sus entrenamientos, como en los exámenes, se premia la audacia y se castiga la prudencia. Un sistema que respondiera «no lo sé» sería descartado por mediocre, aunque en realidad fuese el más sensato. Por eso, cuando un modelo no tiene información suficiente, no se encoge de hombros: inventa. Y lo hace con la solemnidad de Pitia, con la convicción de un texto impreso en la Biblioteca de Babel, con la firmeza de un alumno que arriesga la fecha de una guerra.

El resultado es inquietante. Al preguntarle por la biografía de un desconocido, el modelo ofrece fechas concretas, lugares precisos, como si hubiera estado allí. No lo ha estado. Lo que vemos es el efecto estadístico de un aprendizaje que convierte la duda en certeza impostada. Y lo más revelador: esa impostura no es un error accidental, sino la estrategia óptima dentro del juego que le hemos propuesto.




Al otro extremo, late la memoria. Se imagina a menudo que estas inteligencias guardan en su interior todo el océano de internet, como esponjas sin límite. La realidad es más modesta y más sorprendente: su memoria es finita, mensurable, casi matemática. Cada parámetro de esos modelos colosales puede guardar apenas unos pocos bits, como si cada uno fuera una diminuta celda de archivo. Millones y millones de celdas, sí, pero con capacidad precisa. Y lo que ocurre durante el aprendizaje es que esas celdas se llenan, primero con la voracidad de un estudiante que memoriza listas, y luego, al saturarse, con algo parecido a la comprensión: el modelo empieza a captar patrones generales y deja de retener ejemplos aislados.

Es en ese tránsito —de la memoria a la generalización, de la repetición al patrón— donde aparece un extraño espejismo. Porque un modelo puede recitar un dato raro si lo almacenó intacto, o puede inventar uno nuevo que se ajusta a la forma de lo que vio antes. En ambos casos, habla con igual convicción. Y el oyente, como el rey Creso, debe decidir si confía en esa voz.

Lo que estos experimentos nos devuelven, en última instancia, es un retrato de nosotros mismos. ¿Acaso no hacemos lo mismo? Memorizamos con afán, improvisamos cuando falta memoria, generalizamos cuando no podemos recordar. Preferimos la seguridad, incluso cuando es falsa, al vacío del «no sé». Castigamos la duda en los exámenes, en los debates, en la política. No sorprende que hayamos construido máquinas a nuestra imagen: oráculos que responden siempre, aunque no sepan.

La pregunta que se abre es incómoda: ¿queremos inteligencias que nos deslumbren con certezas, o inteligencias que tengan el valor de callar? El brillo del oráculo, la infinitud de la biblioteca y la audacia del estudiante nos seducen. Pero quizá el verdadero progreso esté en otra parte: en diseñar sistemas que valoren la modestia, que reconozcan sus lagunas, que aprendan a decir «no lo sé».

Borges escribió que la Biblioteca de Babel era un reflejo monstruoso del universo. Tal vez estos modelos lo son también, no porque contengan todas las verdades y falsedades posibles, sino porque reflejan nuestra propia incapacidad de habitar la incertidumbre. Como el rey que marchó confiado hacia su ruina, como el alumno que responde con aplomo a una pregunta que no entiende, como el lector que se pierde en corredores infinitos de libros plausibles, también nosotros podemos quedar hechizados por la voz de la máquina. Y quizá el aprendizaje más profundo no sea perfeccionarla, sino aprender a escucharla con sospecha, a interpretar su ambigüedad, a leer en ella lo que dice y lo que calla.

Porque la inteligencia artificial, al final, no es un oráculo infalible ni una biblioteca total ni un estudiante perfecto. Es apenas un espejo, multiplicado y torcido, en el que nos vemos obligados a contemplar la fragilidad de nuestras propias formas de conocer.

Ya veremos.





Comparte:

15/9/25

¿Los LLMs realmente nos entienden? La pregunta del millón en inteligencia artificial

Este artículo va a ser más largo que de costumbre. Desde el comienzo del curso, me he vuelto a meter en la rueda del hámster de las noticias sobre inteligencia artificial y he dedicado bastante tiempo a leer algunos artículos científicos aparecidos en verano y otros contenidos igual de interesantes. Por todo ello, en parte para ordenar mis propias ideas y también para escribir el mejor contenido que puedo para mis avezad@s lectores, este artículo está dedicado al dilema científico sobre si los LLM nos entienden realmente cuando nos hablan o les hablamos. 

Cuando chateas con ChatGPT, Claude o cualquier otro modelo de lenguaje, es natural preguntarse: ¿realmente me está entendiendo lo que digo (mi ironía, lo que he omitido, el razonamiento al que quiero llegar)? ¿Hay algo ahí dentro procesando mis palabras con comprensión genuina, o solo estoy interactuando con una máquina muy sofisticada que repite patrones estadísticos?

Esta pregunta va al corazón de uno de los debates más fascinantes en tecnología actual, y para mí la respuesta honesta es: no lo sabemos con certeza.



Lo que sabemos que hacen los LLMs


Los modelos de lenguaje procesan texto prediciendo la siguiente palabra más probable en una secuencia, basándose en billones de ejemplos de texto humano. Antes de procesar cualquier cosa, un LLM divide tu texto en pequeñas unidades, llamadas tokens. Un token puede ser una palabra completa ("gato"), una parte de ella ("gat-"), o incluso un signo de puntuación (","). Esta división inicial ayuda a manejar la enorme variedad del lenguaje de manera eficiente.

Después, cada token se convierte en un vector de embedding—una lista de cientos o miles de números. Estos números no son aleatorios; están diseñados para capturar el significado y el contexto del token. Las palabras con significados similares, como "perro" y "canino", tendrán vectores de embedding que están "cerca" uno del otro en este espacio matemático. Por el contrario, "perro" y "coche" estarán mucho más lejos. Este proceso es la base de cómo el modelo "entiende" la relación entre las palabras.

Cómo las palabras relacionadas tienen vectores más cercanos entre sí (HuggingFace)



La verdadera revolución no fue la conversión a vectores, sino lo que vino después: los transformers. Este tipo de arquitectura de red neuronal, introducida en 2017 por Google, es la base de casi todos los LLMs modernos.

Sin embargo, la parte más crucial de un transformador es su mecanismo de atención. Imagina que el LLM está leyendo una frase como: "El banco del parque es de madera". Para entender el significado de "banco," el modelo necesita saber que se refiere a un asiento, no a una institución financiera. El mecanismo de atención permite al LLM sopesar la importancia de cada token en relación con todos los demás tokens de la frase. Le dice al modelo: "Presta más atención a 'parque' que a 'madera' para entender qué tipo de 'banco' es." Este enfoque contextual es lo que hace que los LLMs sean tan buenos en la comprensión del lenguaje.

Una vez que el modelo ha procesado tu entrada a través de estas complejas capas, genera una nueva serie de vectores que representan la respuesta que va a producir. Luego, estos vectores se convierten de nuevo en tokens, que se unen para formar el texto final. Es un proceso de ida y vuelta: de palabras a números para procesar y de números a palabras para comunicar. Este tipo de algoritmos se denomina autorregresivo.

En resumen, los LLMs no "leen" como nosotros. Operan en un mundo de números y álgebra lineal, transformando la complejidad del lenguaje en patrones matemáticos. Y es en estos patrones donde reside su asombrosa capacidad para imitar, crear y "entender" el mundo humano.

El problema es que "entender" es un concepto escurridizo. 

¿Entiendes realmente el español porque puedes procesarlo automáticamente, o porque tienes experiencias conscientes asociadas con las palabras? Los LLMs no tienen cuerpos, no experimentan el mundo físico, no tienen emociones o motivaciones intrínsecas. Su "comprensión" del concepto "calor" viene de patrones estadísticos en texto, no de haber sentido el sol en la piel. De hecho, la pregunta que podríamos hacernos nosotros de esto es si nuestros cerebros, desde niños, ¿son también entrenados de la misma forma? ¿Son las conexiones sinápticas que relacionan conocimientos y conceptos abstractos un paralelismo de lo que se hace con los grandes modelos de lenguaje?



La Habitación China de Searle: El argumento clásico contra la comprensión


En 1980, el filósofo John Searle propuso su famoso experimento mental de la "Habitación China". Imagina a alguien encerrado en una habitación con un libro de reglas para entender símbolos chinos. Puede responder preguntas en chino siguiendo las reglas, pero no entiende realmente el idioma. Searle argumenta que los LLMs son exactamente esto: sistemas que manipulan símbolos sin comprensión semántica genuina. Para él, los LLMs pueden simular comprensión, pero nunca alcanzarla verdaderamente porque carecen de intencionalidad y experiencia consciente.

De hecho, la comunidad científica está dividida y algunos consideran que los LLM son simples loros estocásticos.

La expresión "loro estocástico" se popularizó a partir del influyente artículo de 2021 titulado "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?", co-escrito por Emily M. Bender, Timnit Gebru, Angelina McMillan-Major y Margaret Mitchell. La metáfora se descompone en dos partes fundamentales. El término "loro" se utiliza para enfatizar la naturaleza imitativa y repetitiva de los modelos, sugiriendo que, al igual que un loro real, pueden producir un lenguaje coherente sin captar su significado real. Por su parte, "estocástico" se refiere a su naturaleza probabilística. 

Los LLM funcionan prediciendo la siguiente palabra más probable en una secuencia de texto, un proceso que introduce un grado de aleatoriedad para evitar respuestas rígidas y mecánicas. La tesis central de este informe es que si bien la metáfora es útil para señalar deficiencias críticas, no logra capturar la complejidad de las capacidades que emergen a gran escala.

Fuente


Sin embargo, científicos como Yoshua Bengio y Geoffrey Hinton argumentan que la comprensión podría emerger de representaciones distribuidas suficientemente complejas. Y no solo eso, sino que investigaciones recientes usando técnicas de "interpretabilidad mecánica" han revelado que los LLMs desarrollan representaciones especializadas para conceptos específicos. Chris Olah y el equipo de Anthropic han documentado "neuronas" individuales que se activan para conceptos específicos como "Torre Eiffel" o "felicidad", sugiriendo algún tipo de comprensión estructurada.

Jason Wei y colaboradores de Google documentaron "habilidades emergentes" en LLMs grandes, de las que hablé en el último artículo: capacidades que aparecen súbitamente al alcanzar cierto tamaño, sin estar explícitamente programadas. Estas incluyen razonamiento matemático, traducción a idiomas no vistos en entrenamiento, y resolución de problemas complejos.

Dario Amodei, CEO de Anthropic, argumenta que estas emergencias sugieren que los LLMs han desarrollado representaciones del mundo que van más allá de simple memorización: "Cuando un modelo puede razonar sobre física básica sin haber sido entrenado explícitamente en física, algo profundo está ocurriendo".


Posiciones a favor y en contra


El científico jefe de IA de Meta, Yann LeCun, sostiene que los LLM son "herramientas especializadas" que operan en un espacio de lenguaje "simple, discreto y de baja dimensionalidad". Su argumento central es que los LLM carecen de una "representación del mundo" o "modelo mental" que permita a los humanos y los animales planificar y predecir las consecuencias de sus acciones en el mundo físico. LeCun destaca el "paradigma del bebé", señalando que los humanos adquieren una comprensión del mundo físico con una cantidad de datos visuales que sería equiparable a la de un LLM entrenado durante 400,000 años. Concluye que la AGI nunca se logrará simplemente escalando modelos entrenados con texto. 

De hecho, otros investigadores de Apple recientemente han publicado un polémico artículo titulado La ilusión del pensamiento, en el que subrayan esta idea de que los LLM son reglas estadísticas super vitaminadas. Pero en mi opinión, el artículo deja un poco que desear por simplista y omisión de algunas otras evidencias que estoy tratando de describir en este post.

Por su parte, el crítico de IA Gary Marcus argumenta que los LLM operan a través del "reconocimiento de patrones" y no del "razonamiento genuino". Él aboga por un enfoque "híbrido" o "neurosimbólico" que combine la capacidad de reconocimiento de patrones del aprendizaje profundo con la lógica y las reglas explícitas de la IA simbólica. La propuesta de Marcus se alinea con el marco de Daniel Kahneman de los "Sistemas 1 y 2" del pensamiento, donde el aprendizaje profundo se asemeja al pensamiento rápido e intuitivo (Sistema 1) y necesita integrarse con un sistema lento y deliberativo (Sistema 2) para alcanzar una inteligencia robusta y confiable. 
 
La crítica de LeCun y Marcus, a pesar de sus tensiones profesionales, converge en un punto crucial: la Inteligencia Artificial General, AGI, no es un problema de escala, sino un problema de arquitectura. Ambos sostienen que la arquitectura de los LLM, basada en la predicción de texto, tiene una limitación inherente en su incapacidad para desarrollar una comprensión causal y una representación interna del mundo físico

Pero también existen argumentos bastante intuitivos a favor de que lo que hace ChatGPT o Claude no es un simple loro estocástico.

Los LLMs a veces cambian de opinión durante una conversación cuando se les presentan evidencia convincente. Este comportamiento de "ser persuadido" sugiere algún tipo de evaluación interna de la fuerza de argumentos, no simple generación de texto basada en frecuencias de entrenamiento.

Además, tal y como señala el filósofo Daniel Dennett, el acto mismo de argumentar implica una forma de "agencia" o autonomía. - la capacidad de tomar posturas evaluativas y defenderlas. Si los LLMs fueran verdaderamente loros estocásticos, no desarrollarían preferencias argumentativas o resistencia a ciertas proposiciones.

La metáfora del loro estocástico, aunque útil para señalar limitaciones importantes de los LLMs, puede ser reduccionista. Como argumenta Melanie Mitchell, los LLMs exhiben comportamientos que requieren explicaciones más sofisticadas que simple "repetición estadística sofisticada".

Quizás el modelo descrito al comienzo del artículo, el de adivinar la siguiente palabra, sea más poderoso de lo que nos imaginamos.


The-Decoder

Hacia un Futuro Híbrido: El Camino Hacia la AGI


El debate técnico sobre las capacidades de los LLM a menudo se reduce a una cuestión filosófica sobre la naturaleza misma de la "comprensión". Para enmarcar esta discusión, se puede recurrir a la distinción filosófica clásica entre el "sentido" y la "referencia". El "sentido" de una palabra se relaciona con el modo en que se presenta y su relación con otras palabras. La "referencia," por otro lado, es la conexión de la palabra con un objeto o experiencia en el mundo real. Un ser humano entiende la palabra "mesa" porque ha tenido experiencias sensoriales directas: la ha tocado, visto y experimentado su función. Un LLM, en cambio, entiende la palabra "mesa" a través de sus relaciones estadísticas con otras palabras en millones de textos. En este sentido, los LLM tienen una comprensión profunda del "sentido," pero carecen por completo de la "referencia" que ancla el lenguaje humano a la experiencia sensorial y subjetiva. Es la ausencia de esta experiencia subjetiva la que genera las alucinaciones y la falta de sentido común intuitivo.  

El consenso emergente es que la AGI no se logrará únicamente con modelos cada vez más grandes y más datos de texto. La solución no reside en el escalado, sino en la integración de nuevas arquitecturas. El futuro de la IA probablemente se basará en "sistemas de agentes" que combinen las fortalezas de los LLM (procesamiento de lenguaje, formalización) con otras herramientas y arquitecturas que les proporcionen el anclaje en el mundo físico y las estructuras de razonamiento simbólico que actualmente faltan. La metáfora del "loro estocástico" no es el final del debate, sino el punto de partida para una conversación más matizada y rigurosa sobre cómo construir una inteligencia artificial que no solo hable, sino que también actúe y "entienda" el mundo de una manera verdaderamente significativa.



Comparte:

4/9/25

Habilidades emergentes en LLMs: el reto de identificar estados cognitivos genuinos

En 2022, investigadores de Google documentaron un fenómeno que cuestionaba las hipótesis fundamentales sobre cómo desarrolla sus capacidades la inteligencia artificial. Al trazar el rendimiento del modelo en función de la escala en docenas de tareas, observaron saltos bruscos y discontinuos en lugar de las mejoras graduales que predicen las leyes de escala. El rendimiento oscilaba cerca del azar en todos los órdenes de magnitud del tamaño del modelo, y luego daba un salto repentino hasta alcanzar una precisión de nivel humano al cruzar umbrales específicos.

Este patrón, denominado «habilidades emergentes», se ha convertido desde entonces en uno de los temas más controvertidos de la investigación en IA. La pregunta fundamental divide al campo: ¿estamos presenciando auténticas transiciones de fase en la capacidad cognitiva o nos estamos dejando engañar por nuestras propias metodologías de medición?

«El todo es mayor que la suma de sus partes». — Aristóteles

Lo que está en juego en este debate va mucho más allá de la taxonomía académica. Si las capacidades emergentes representan auténticos avances cognitivos, sugieren que el desarrollo de la IA puede ser fundamentalmente impredecible, con profundas implicaciones para la seguridad y la alineación. Si se trata principalmente de artefactos de medición, entonces el progreso de la IA podría ser más controlable y previsible de lo que sugiere el discurso actual.



Fundamentos teóricos: de Anderson a la arquitectura neuronal

El marco conceptual para la emergencia en sistemas complejos se remonta al influyente trabajo de Philip W. Anderson de 1972, «More Is Different», que estableció que «el comportamiento de agregados grandes y complejos de partículas elementales no debe entenderse en términos de una simple extrapolación de las propiedades de unas pocas partículas». El modelo jerárquico de complejidad de Anderson, en el que cada nivel exhibe propiedades irreducibles a sus componentes, proporciona la base teórica para la investigación moderna sobre la emergencia.

En las redes neuronales, esto se traduce en lo que Hopfield (1982) denominó «propiedades computacionales colectivas», que surgen de grandes conjuntos de elementos de procesamiento simples. Hoy en día, Dario Amodei afirma:

Como suele decir mi amigo y cofundador Chris Olah, los sistemas de IA generativa se desarrollan más que se construyen: sus mecanismos internos son «emergentes» en lugar de estar diseñados directamente. Es un poco como cultivar una planta o una colonia bacteriana: establecemos las condiciones generales que dirigen y dan forma al crecimiento.


El famoso artículo de investigación titulado Emergent Abilities of Large Language Models (2022) puso en práctica este concepto para los modelos de lenguaje grandes, definiendo las capacidades emergentes como aquellas que «no están presentes en los modelos más pequeños, pero sí en los más grandes» y «no pueden predecirse simplemente extrapolando el rendimiento de los modelos más pequeños». Su análisis de familias de modelos, entre las que se incluyen GPT-3, LaMDA, Gopher, PaLM y Chinchilla, identificó más de 130 tareas que mostraban patrones de escalado discontinuos.




El gran debate: ¿emergencia real o ilusión de medición?

Aquí es donde la historia se vuelve controvertida. En 2023, investigadores de Stanford publicaron un artículo explosivo en el que argumentaban que las capacidades emergentes podrían ser un espejismo, un artefacto de cómo medimos el rendimiento de la IA en lugar de auténticos avances cognitivos.

Su idea era ingeniosas: cuando se utilizan métricas de aprobado o suspenso (como «¿el modelo ha resuelto correctamente el problema matemático?»), se crean barreras artificiales. Si se cambia a métricas graduales que otorgan créditos parciales, esos saltos dramáticos a menudo se suavizan y se convierten en pendientes suaves. Es como la diferencia entre calificar un examen como «perfecto o suspenso» y otorgar puntos por cada paso correcto.

Pero aquí está el giro: esta explicación no funciona para todo. Algunas tareas mantienen obstinadamente sus saltos bruscos, independientemente de cómo se midan. Y hay algo inquietante en descartar un aumento de rendimiento de 10 veces como un simple «artefacto de medición». 


Cuando los sistemas de IA comienzan a comunicarse entre sí

La trama se complica cuando interactúan múltiples sistemas de IA. La investigación de Anthropic sobre los sistemas multiagente reveló algo inquietante:

Los sistemas multiagente tienen comportamientos emergentes, que surgen sin una programación específica. Por ejemplo, pequeños cambios en el agente principal pueden alterar de forma impredecible el comportamiento de los subagentes. Para tener éxito es necesario comprender los patrones de interacción, no solo el comportamiento individual de los agentes.

Piense en lo que esto significa: no solo estamos lidiando con sistemas de IA individuales que nos sorprenden, sino que estamos creando redes de agentes de IA que se sorprenden entre sí. Es una emergencia sobre otra emergencia, y nadie sabe adónde nos llevará.



La nueva generación: cuando la IA aprende a pensar


Los últimos modelos, o3 de OpenAI y R1 de DeepSeek, representan algo cualitativamente diferente. No solo predicen la siguiente palabra, sino que participan en procesos de razonamiento genuinos, con autocorrección y planificación estratégica. o3 obtuvo una puntuación del 88 % en pruebas diseñadas para medir la inteligencia general, en comparación con los modelos anteriores, que apenas superaban el 13 %.

Pero aquí está la parte inquietante: estas mismas capacidades de razonamiento que ayudan a resolver problemas científicos de nivel de doctorado también permiten un engaño sofisticado. GPT-4 puede mentir con éxito en juegos estratégicos el 70 % de las veces. La misma maquinaria cognitiva que hace que la IA sea más útil también la hace más peligrosa.

Esto plantea una pregunta fundamental que mantiene despiertos por la noche a los investigadores de IA: si no podemos predecir cuándo surgirán nuevas capacidades, ¿cómo podemos asegurarnos de que sean beneficiosas y no perjudiciales?

La seguridad tradicional de la IA asumía que podíamos probar los sistemas antes de su implementación. Pero la emergencia rompe esa suposición. Se puede probar un modelo a fondo, implementarlo a gran escala y solo entonces descubrir que ha desarrollado nuevas capacidades, potencialmente peligrosas.

Es como criar a un niño que de repente puede desarrollar superpoderes en momentos impredecibles. Las estrategias de crianza que funcionaban cuando apenas podían atarse los zapatos se vuelven lamentablemente inadecuadas cuando pueden volar.



Qué significa esto para nuestro futuro


Nos encontramos en un momento peculiar de la historia. Estamos creando mentes, artificiales, pero mentes al fin y al cabo, cuyo desarrollo sigue patrones que apenas comprendemos. Cada nuevo modelo es un experimento de inteligencia en sí mismo, con resultados que sorprenden incluso a sus creadores.

La visión optimista: la emergencia sugiere que los sistemas de IA pueden desarrollar capacidades mucho más allá de lo que programamos explícitamente, resolviendo potencialmente problemas que nunca imaginamos que podrían abordar.

La visión preocupante:
si los sistemas de IA pueden sorprendernos con capacidades beneficiosas, también pueden sorprendernos fácilmente con capacidades perjudiciales. Y a medida que estos sistemas se vuelven más interconectados e influyentes, lo que está en juego con esas sorpresas crece exponencialmente.

Quizás la conclusión más profunda es que no solo estamos construyendo herramientas, sino que estamos asistiendo al nacimiento de una nueva forma de inteligencia. Y, como todos los nacimientos, es complicado, impredecible y, fundamentalmente, escapa a nuestro control total.

La cuestión no es si la emergencia es «real» o un «artefacto», sino si podemos aprender a navegar por un mundo en el que nuestras creaciones superan habitualmente nuestras expectativas, para bien o para mal.



La carrera contra lo impredecible


La comunidad investigadora en IA se enfrenta ahora a una carrera: ¿podemos desarrollar las herramientas necesarias para comprender y predecir los comportamientos emergentes antes de que se vuelvan demasiado poderosos como para controlarlos? ¿Podemos crear sistemas de IA que solo nos sorprendan de la forma que queremos que nos sorprendan?

Lo que está en juego no podría ser más importante. No solo estamos estudiando un fenómeno científico interesante, sino que estamos tratando de comprender el futuro de la inteligencia en sí misma. Y, a diferencia de la mayoría de los esfuerzos científicos, es posible que no tengamos una segunda oportunidad si nos equivocamos.

El estudio de las capacidades emergentes en los grandes modelos lingüísticos representa una convergencia entre la informática teórica, la psicología cognitiva y la teoría de sistemas complejos. Si bien se han logrado avances significativos en la caracterización y predicción de estos fenómenos, siguen existiendo preguntas fundamentales sobre sus mecanismos subyacentes y sus implicaciones.

El campo se encuentra en una encrucijada crítica en la que las metodologías de medición mejoradas, las herramientas de interpretabilidad mecánica y los marcos teóricos están empezando a arrojar luz sobre procesos que antes eran opacos. Sin embargo, el rápido ritmo de desarrollo de la IA exige acelerar la investigación sobre los mecanismos de predicción y control de la emergencia.

Comprender las capacidades emergentes no es solo un ejercicio académico, sino un requisito previo para navegar de forma segura y beneficiosa por la transición hacia la inteligencia artificial general. Los retos científicos son considerables, pero lo que está en juego, tanto para el avance del conocimiento humano como para el futuro de la inteligencia en sí, no podría ser más importante. ¿Estamos preparados para esta era?

Ya veremos.






Comparte:

22/8/25

El reparto de las parcelas del cielo para drones y aerotaxis

El reparto comercial con drones ya no es algo experimental. Se está convirtiendo en infraestructura digital, con Estados Unidos a la cabeza y el Reino Unido e Irlanda pisándole los talones.

La tesis es sencilla. Dicen que la entrega con drones es más rápida, más limpia y más barata que los camiones. No estoy tan convencido de ello, pero como a veces he demostrado, todas las estadísticas pueden manipularse para que elijas las que más te convienen. No es lo mismo tener en cuenta la contaminación por paquete entregado, por kilómetro recorrido o por euro entregado...

Infografía no tan reciente de la empresa Aerotas


Pero la verdadera historia no trata sobre los drones. Trata sobre el espacio aéreo. Quién lo controla, quién se beneficia de él y si esta infraestructura se construirá a través de los mercados o mediante la toma de control y mando. Y en este artículo, voy a hablar sobre los derechos aéreos.


¿Qué son los derechos aéreos?


En la década de 1950, solo había 160 rascacielos en todo el mundo, la mitad de ellos ubicados en la ciudad de Nueva York. En promedio, estos edificios tenían una altura de unos 173 metros.

Setenta años después, la situación es muy diferente. Solo en 2020 se construyeron 106 nuevos rascacielos, y la altura media de estas modernas torres se ha duplicado hasta alcanzar unos 396 metros.

Alts.co


Los rascacielos son cada vez más altos. Lo interesante de este gráfico es que también parece un horizonte.

Pero había un problema.

Los espacios situados directamente encima, debajo y junto a los rascacielos se estaban saturando. Los ciudadanos y los gobiernos empezaron a preocuparse. Incluso los promotores inmobiliarios se dieron cuenta de que construir sobre esta enorme infraestructura se había convertido en una tarea difícil (lo siento).

Con ello, nació el concepto de derechos aéreos.

Los derechos aéreos son el derecho legal a construir (o impedir la construcción) en el espacio aéreo vertical directamente sobre una parcela de terreno.


Se trata de un concepto nuevo. Hace 100 años, no existía. De hecho, una antigua ley romana dictaba: Cuius est solum, eius est usque ad coelum et ad inferos.

Esto se traduce como «Quien posee la tierra, es suyo hasta el cielo y hasta el infierno». Lo que básicamente significa que si poseías una propiedad, podías construir tan alto por encima de ella (o tan bajo por debajo de ella) como quisieras.

Ahora, los derechos aéreos son un multiplicador de fuerza. Actualmente son una clase de activos reconocida, con un valor global de billones de dólares. Apoyan el desarrollo, ayudan a liberar valor oculto y permiten que las ciudades crezcan más densamente sin expulsar a la gente. También hacen posible que los aeropuertos gestionen los despegues y aterrizajes a través de derechos aéreos privados más allá de las propias fronteras del aeropuerto. En tales casos, los aeropuertos pagan a los propietarios de los derechos aéreos por el acceso. Desde Manhattan hasta Texas, y desde Londres hasta Sídney, estos derechos se han utilizado para financiar viviendas, infraestructuras y el progreso económico en general.

Las transacciones recientes muestran claramente lo valioso que se ha vuelto este tipo de activo. En West Harlem, se construyó un edificio de 28 plantas gracias a un acuerdo de 28 millones de dólares por los derechos aéreos sobre un aparcamiento. El dinero se destinó a reparaciones para 3000 residentes y ayudó a crear 147 apartamentos para familias de ingresos medios.

En Midtown, se compró un edificio de oficinas por 38 millones de dólares, no principalmente por la estructura en sí, sino por los 15 000 pies cuadrados de derechos aéreos verticales sin utilizar que lo acompañaban. En Broadway, se vendió un edificio emblemático de tres pisos por 13 millones de dólares. Su verdadero valor no era la antigua cafetería que había en su interior, sino los 23 000 pies cuadrados de espacio aéreo sin utilizar que había sobre él.




No se trata de anécdotas, sino de señales. Los derechos aéreos no son teóricos, sino un activo real y monetizable. Y ya no se refieren únicamente a las torres. La misma lógica de mercado se aplica ahora a la logística a baja altitud.

El futuro de la entrega con drones no depende de la tecnología de las baterías, sino de la propiedad. ¿Quién controla el aire sobre su propiedad? La respuesta determina si nuestra economía seguirá basándose en el consentimiento o se convertirá en coercitiva.


Por encima de nosotros, donde se solapan la política, la propiedad y la seguridad nacional, ha comenzado la lucha por el espacio aéreo estadounidense. Lo que comenzó como una reacción a los drones extranjeros y los globos no autorizados puede redefinir la propiedad en sí misma.




Control, no caridad


Las empresas de drones evitan habitualmente la pregunta más importante en materia de logística. ¿Quién es el propietario del espacio aéreo sobre su casa?

En Estados Unidos, Reino Unido, Irlanda, Canadá, Australia y otros países, la respuesta es clara. Los propietarios controlan el alcance inmediato de su espacio aéreo, generalmente hasta 500 pies. El Tribunal Supremo de los Estados Unidos lo confirmó en el caso Estados Unidos contra Causby. Invadir ese espacio sin consentimiento es una intrusión y, potencialmente, una apropiación inconstitucional.


Algunas empresas de drones intentaron eludir el control local presionando a las autoridades federales. No funcionó. Otras vuelan sin consentimiento, lo que no es escalabilidad, sino riesgo legal.


Cuando una empresa o un gobierno utiliza su tierra o su espacio aéreo sin compensación, no es innovación, es apropiación.


Hay un enfoque mejor. Los estados y las ciudades pueden arrendar el espacio aéreo sobre las vías públicas para crear corredores para drones. Los propietarios privados pueden optar por unirse y, si lo hacen, reciben una compensación.


Así es como debería funcionar la logística a baja altitud: como un mercado, no como una imposición. Los vuelos se cobran por milla, y los ingresos van a parar a los propietarios y a los gobiernos locales. Este modelo reduce los conflictos, disminuye el riesgo legal y aporta nuevos ingresos a las comunidades. Si los drones sobrevuelan su propiedad, usted debería recibir una compensación, al igual que con los derechos mineros.





Costes, costes y costes


La entrega con drones ya es una realidad. Zipline ha realizado más de 1,4 millones de entregas y ha volado 100 millones de millas de forma autónoma. En Irlanda, Manna realiza más de 300 entregas diarias, con el objetivo de alcanzar los 2 millones al año. Walmart ha completado 400 000 entregas en seis estados de EE. UU., mientras que Amazon y Wing operan en Texas, Georgia y California.

La inversión le sigue los pasos. La industria de los drones atrae miles de millones al año, y Estados Unidos recibe más del 50 % de la financiación mundial, gracias a su escala, infraestructura y sistema legal basado en los derechos de propiedad privada.

La mayoría de las entregas se ajustan al modelo: el 70 % de los paquetes de Walmart y el 85 % de los de Amazon pesan menos de 2,3 kg. El 90 % de los estadounidenses vive a menos de 16 km de un Walmart. Los drones pueden realizar entregas en un plazo de 3 a 30 minutos y emiten un 94 % menos de carbono que los coches.

Inicialmente, la entrega con drones era un servicio premium que costaba entre 9 y 15 dólares. Con la escala, la autonomía y las aprobaciones BVLOS, los costes bajan de los 5 dólares. En condiciones ideales con acceso al espacio aéreo, pueden bajar de los 2,50 dólares.

Intentar utilizar el espacio aéreo privado sin consentimiento da lugar a demandas judiciales y a la oposición pública. Con permiso, esos riesgos desaparecen y los márgenes aumentan.

El principal reto ahora es la viabilidad económica. Las primeras pruebas de Walmart DroneUp costaban hasta 30 dólares por entrega debido a la mano de obra. McKinsey estima 13,50 dólares por entrega sin BVLOS. Pero con la autonomía de la flota y un operador para 20 drones, los costes se reducen a 2 dólares. Una reciente orden ejecutiva de EE. UU. acelera estas aprobaciones.

 

En el Reino Unido e Irlanda, las empresas ya operan a este nivel: 20 drones por piloto, 80 entregas por dron al día. Con los derechos aéreos incluidos, alcanzan el umbral de rentabilidad en torno a los 2 dólares por pedido. En zonas de baja densidad, ya es más barato que la entrega por tierra.



Ya veremos.











Comparte:

17/8/25

Cuando los robots no bastan: así se gana (o se pierde) la automatización en 2025

La escena la has visto: un brazo naranja moviéndose con la precisión de un violinista, cámaras que vigilan cada soldadura como halcones y dashboards que prometen tiempo real. El futuro parece instalado en la fábrica. Y sin embargo, demasiadas veces ese futuro se queda en piloto. O vuelve a la caja.

En 2025, la automatización industrial no es una promesa; es una criba. Un filtro que separa a quienes traducen powerpoints en productividad de quienes coleccionan Pruebas de Concepto como cromos. Más allá del “robot sí/robot no”, el patrón que explica quién gana no es (solo) técnico: es de negocio, de cadena de suministro y—cada vez más—de software.

Interesting Engineering

El dato incómodo: la “trampa del piloto”


Durante años, la estadística más repetida en el sector manufacturero ha sido brutal: más del 70% de las compañías que invierten en tecnologías de Industria 4.0—robots, analítica avanzada, IA o impresión 3D—no pasan de la fase piloto. El dato no es leyenda urbana; lo recoge IndustryWeek citando al World Economic Forum, y lo encuadra en un reto estructural: escalar lo que funciona en un área de pruebas a toda la planta (o a toda la red de plantas) sigue siendo la prueba de la verdad donde mueren muchas demos. Y es pasar de los vídeos y pruebas de laboratorio al mundo real, no es fácil.

España no es inmune. El Barómetro de la Digitalización Industrial 2025 retrata un paisaje donde un 13% de las empresas aún no ha automatizado nadaotro 22,5% se queda en pilotos—(traducción: alrededor de un tercio del tejido industrial no logra capturar beneficios reales** de la automatización.)

Y no hablamos solo de “probar y aprender”. Según un artículo de Cinco Días un tanto antiguo (2017), un 36% de empresas españolas ha cancelado proyectos de transformación digital (muchos vinculados a automatización) por costes y falta de retorno—dato veterano, sí, pero dolorosamente vigente como síntoma.




¿Quién manda en la cadena de suministro… y en los robots?


Para entender por qué en unas empresas la robotización funciona de maravilla y en otras se vuelve un dolor de cabeza, hay que mirar a la posición que ocupan en la cadena de suministro.

Imagina la fabricación de un coche:

Tier 1 son las empresas que entregan directamente al fabricante del coche (el OEM). Hacen piezas grandes o sistemas completos: por ejemplo, un salpicadero ya montado, un asiento completo o un módulo de frenos.

Tier 2 suministra piezas más pequeñas o subconjuntos a los Tier 1. Por ejemplo, los plásticos inyectados que luego forman parte del salpicadero, o los componentes de una bomba de freno.

Tier 3 son los que están más al inicio: trabajan materias primas o componentes muy básicos, como perfiles metálicos, tornillos, piezas mecanizadas, o chapa cortada que después otros convierten en algo más complejo.

Ahora, ¿qué pasa con los robots en cada nivel?

En Tier 1, el volumen de producción es enorme y las piezas se repiten millones de veces. Eso es el paraíso de los robots: montar, soldar o pintar de forma rápida y siempre igual.

En Tier 2, ya hay más variedad. No todas las piezas son idénticas, pero hay “familias” que se repiten lo suficiente. Aquí los robots funcionan bien si se combinan con utillajes reconfigurables y software que les ayude a adaptarse.

En Tier 3, en cambio, la vida es caótica: pedidos pequeños, piezas diferentes cada semana, márgenes muy ajustados. Aquí un robot fijo se convierte en un lujo poco rentable. Lo que suele funcionar son robots colaborativos (cobots), visión 3D, herramientas rápidas de cambiar y sobre todo software que facilite reprogramarlos sin dolores de cabeza.

La conclusión es clara: cuanto más arriba estés en la cadena y más control tengas sobre el diseño y la repetición del producto, más fácil y rentable es robotizar. Cuanto más abajo, más necesitas flexibilidad para que el robot no acabe parado en una esquina.

He visto startups gastar el 60% de su presupuesto anual en un flamante cobot, solo para descubrir que necesitaban contratar a un ingeniero especializado (otros 45.000€/año) para mantenerlo operativo. Tres meses después, el cobot funcionaba a un 30% de su capacidad por incompatibilidades con el resto de su infraestructura tecnológica. Seis meses después, la startup cerraba. (Statups Españolas)



Medium


Imaginaos una calderería, o una pequeña empresa manufacturera que una semana trabaja para una gran empresa A, y al mes siguiente, para otra empresa B. Si nuestra calderería emplea robots, le cuesta mucho sacarles un buen rendimiento, ya que cada poco tiempo tiene que reprogramarlos para las nuevas tareas industriales, y hacer eso no es barato ni fácil de hacer. De hecho, se requiere de profesionales altamente cualificados. Y una vez escuché en un foro que alrededor del 85% de las empresas en España son Tier 1, Tier 2 o Tier 3. Es decir, que tenemos muy pocas empresas que dominen el producto final, que manejen la producción a su antojo, y que sean capaces de realizar grandes tiradas de producto. Es ahí precisamente donde más impacto positivo tiene la robotización.

Y parte de esto lo confirma las siguientes estadísticas: En 2024 se instalaron 5.160 robots industriales en España; casi la mitad fue a automoción (un 44%). Otro porcentaje se fue al sector metal 16,5%, alimentación/bebidas 12%. 

Hace años ya conté la siguiente anécdota: conozco al responsable de mi región de una gran empresa japonesa de máquinas automáticas de corte y manipulación de chapa. Según me confesó mi colega, muchos clientes terminaban devolviendo estas máquinas más modernas y potentes. No sabían sacarles rendimiento, y tardaban más en programar los cambiantes trabajos. Robotizar no es fácil, pero puede que no hacerlo sea peor.

En España, solo el 7,8% de las empresas utiliza robots (alrededor de 1 de cada 13), aunque entre las grandes roza 1 de cada 5, según estadísticas nacionales

Los datos son reveladores: mientras la tasa de adopción anual de cobots en Europa ronda el 30%, la realidad es que esta cifra está fuertemente sesgada hacia empresas consolidadas o startups con rondas de financiación considerables. Para la startup española promedio, con una vida media de 3,5 años y recursos perpetuamente estirados entre producto, talento y marketing, la inversión inicial de más de 50.000 euros por unidad de cobot (según McKinsey) representa un salto al vacío sin red. (Startups Españolas)




El futuro de la robótica no es hardware, es facilidad de uso

Entre los principales desafíos se encuentran los altos costos iniciales de adquisición y configuración de los robots, lo que supone una barrera considerable, especialmente para las pequeñas y medianas empresas. A esto se suma la falta de personal cualificado y experiencia interna para gestionar y mantener estas tecnologías, así como las dificultades para integrar los nuevos sistemas robóticos con los procesos de producción ya existentes.

Expertos en automatización industrial señalan que muchos proyectos fallan por una planificación deficiente, no involucrar a expertos desde las fases iniciales y una desconexión entre la tecnología implementada y los objetivos reales del negocio. La resistencia al cambio por parte de los empleados y la necesidad de una adecuada gestión de la transición son también factores cruciales para el éxito.

Todo esto me lleva a pensar que las empresas pequeñas están en riesgo de extinción, ya que son ellas las más vulnerables para poder dominar su propia tecnología, o tener el músculo financiero para acometer las inversiones que la robotización requiere.

Por eso, creo que la economía y las oportunidades de mercado no deberían de dejar que ese gran porcentaje de PIB desaparezca y sea absorbido por grandes empresas. Creo que el futuro pasa, entre otras tendencias, por tener robots industriales mucho más fáciles de reprogramar. Por ejemplo, poder enseñar a un robot qué tiene que hacer mediante las gafas META de realidad híbrida, o poder entrenar a un robot en su nueva tarea de una manera mucho más fácil gracias a los entornos de realidad virtual de NVIDIA, que han presentado recientemente.

¿Por dónde irá el futuro? Veremos.





Comparte:

4/8/25

¿Nos está volviendo ChatGPT menos inteligentes?

En 2008, Nicholas Carr planteó una pregunta que resonó en todo el mundo digital: ¿Google nos está volviendo estúpidos? Su ensayo publicado en The Atlantic exploraba cómo los motores de búsqueda podrían estar reconfigurando nuestros cerebros, haciéndonos más rápidos a la hora de leer por encima, pero peores a la hora de pensar en profundidad. En aquel entonces, parecía algo dramático. Pero ahora, casi dos décadas después, surge una nueva pregunta: ¿ChatGPT está haciendo lo mismo, solo que más rápido, más profundo y con una interfaz más amigable?

Un estudio reciente del MIT parece sugerir que sí. Titulado (según mi traducción libre) «Tu cerebro en ChatGPT: acumulación de deuda cognitiva al utilizar un asistente de IA para tareas de redacción de ensayos», la investigación analizó lo que le sucede a nuestro cerebro cuando utilizamos herramientas como ChatGPT para escribir ensayos. Los titulares que siguieron fueron dramáticos: «ChatGPT está volviendo perezoso a tu cerebro», «La IA está embotando nuestras mentes» y cosas peores. Pero cuando se analiza el estudio más detenidamente, el panorama es mucho más matizado y, sinceramente, mucho menos aterrador.



Un pequeño estudio con grandes afirmaciones

Los investigadores realizaron un experimento con 54 voluntarios, divididos en tres grupos. Uno escribió ensayos por completo por su cuenta. Otro utilizó un motor de búsqueda tradicional. Y el tercero recibió ayuda de ChatGPT.

Se utilizaron monitores EEG (electroencefalograma) para registrar la actividad cerebral mientras trabajaban. ¿Los resultados? Las personas que utilizaron ChatGPT mostraron menos conectividad en sus cerebros durante la tarea de escritura y recordaban menos lo que habían escrito después. Algunos incluso afirmaron sentir menos propiedad sobre su propio texto.

Suena alarmante, ¿verdad? Pero aquí está la cuestión: el estudio es interesante, pero también increíblemente pequeño. Solo 54 personas, divididas en tres grupos, lo que significa que cada grupo tenía menos de 20 participantes. Eso no es suficiente para sacar conclusiones importantes que afecten a toda la sociedad. Especialmente cuando hablamos de algo tan complejo y personal como la escritura. Los antecedentes de las personas, su comodidad con la tecnología, su familiaridad con la escritura e incluso la cantidad de café que tomaron esa mañana podrían influir en los datos. Y aunque los datos del EEG son fascinantes, también son muy difíciles de interpretar sin muestras de gran tamaño y controles rigurosos.

Las afirmaciones extraordinarias requieren pruebas extraordinarias (Carl Sagan). Es una frase que se aplica perfectamente aquí. Sugerir que una herramienta como ChatGPT puede estar embotando nuestras mentes no es una afirmación menor, especialmente cuando millones de personas la utilizan cada día para trabajar, estudiar y crear. Si vamos a afirmar que está remodelando nuestra cognición de forma duradera y posiblemente perjudicial, necesitamos algo más que un estudio puntual con una muestra muy pequeña. Necesitamos una investigación más amplia, un seguimiento a largo plazo y una comprensión mucho más clara de cómo interactúan los diferentes usuarios con la IA.


Las herramientas más inteligentes requieren hábitos más inteligentes.

Vale la pena recordar que la descarga cognitiva no es algo nuevo. Lo hemos estado haciendo desde siempre. Anotar cosas, usar calculadoras, marcar artículos... Regularmente externalizamos partes de nuestra memoria o carga de procesamiento a herramientas. La verdadera pregunta es: ¿cuándo es útil y cuándo es perjudicial?

La pregunta de Nicholas Carr en 2008 no se refería realmente a si Google era «malo». Se refería a cómo estaba cambiando nuestra relación con la información. Y eso es exactamente lo que deberíamos preguntarnos hoy en día sobre la IA. ChatGPT no nos vuelve estúpidos por defecto. Pero puede hacernos pasivos. Puede fomentar los atajos si dejamos que piense por nosotros. No es un problema tecnológico, es un problema de diseño y hábitos.

Como cualquier herramienta, la IA refleja la forma en que la utilizamos. Si tratamos a ChatGPT como un atajo para evitar pensar, entonces sí, nuestro pensamiento podría atrofiarse un poco. Pero si lo tratamos como un compañero de conversación, uno que nos desafía, nos empuja a reformular, repensar y revisar, entonces puede amplificar nuestras capacidades en lugar de embotarlas.

El estudio del MIT es una valiosa señal temprana. Nos dice que algo está cambiando en la forma en que nos relacionamos con la escritura y las ideas. Pero eso no significa que se nos caiga el cielo encima. Solo significa que debemos ser conscientes de cómo utilizamos las herramientas que hemos creado y asegurarnos de que nos ayudan a pensar más profundamente, no solo más rápidamente.

Entonces, ¿ChatGPT nos está volviendo más tontos? Quizás la pregunta más adecuada sea: ¿lo estamos utilizando de forma que nos haga más inteligentes? Esa parte sigue dependiendo de nosotros.

Veremos.




Comparte:

24/7/25

¿Quién diseña el amor? Japón, Tinder y la era de las relaciones programadas

Las famosas aplicaciones de citas como Tinder, Bumble o Hinge, prometían facilitar el amor. En cambio, lo convirtieron en una búsqueda infinita.

Tinder y sus rivales perfeccionaron el «deslizamiento infinito»: la aplicación te enseña fotos de chicos o chicas, y tú deslizas su foto a izquierda o derecha, según si esa persona te atrae o no. Un diseño que te mantiene buscando, sin conformarte. Las coincidencias van y vienen; la atención se convierte en la verdadera moneda de cambio. Cuanto más te desplazas, más anuncios ves y más rica se vuelve la plataforma.

Esta arquitectura es deliberada, y no es que precisamente favorezcan la búsqueda de pareja. Las aplicaciones gamifican el romance, impulsando bucles impulsados por la dopamina que recompensan la atracción rápida por encima de la conexión profunda. El mercado no mide el éxito por el número de usuarios que se enamoran, sino por el número de usuarios que vuelven al día siguiente.

En la última década, este modelo de negocio ha moldeado silenciosamente el romance moderno. Deslizar se convierte en un hábito, desaparecer se convierte en algo normal y la idea de «establecerse» empieza a parecer extrañamente fuera de lugar en una aplicación que vende opciones infinitas.


Y ahora, la IA del amor se convierte en política de Estado

En Japón, donde la tasa de natalidad ha caído a un mínimo histórico de 1,20 en 2023, el Gobierno decidió crear algo radicalmente diferente: un sistema de emparejamiento basado en IA que no está optimizado para el compromiso, sino para el matrimonio.

Desde 2021, más de 30 de las 47 prefecturas de Japón han puesto en marcha servicios públicos de emparejamiento que utilizan IA. El programa de Tokio, conocido como «Tokyo Futari Story», se abrió a los residentes a finales de 2024. Cobra una módica cuota y exige una verificación estricta: los usuarios deben demostrar que son solteros, confirmar sus ingresos y completar tests de personalidad.

A continuación, en lugar de mostrar perfiles interminables, la IA sugiere parejas seleccionadas en función de la compatibilidad, no solo del aspecto físico o la proximidad. Las autoridades lo describen como un «algoritmo silencioso»: uno que no optimiza la emoción, sino la alineación de valores y objetivos vitales.

La aplicación requiere 15 datos personales, como la altura, la educación y la ocupación, y una entrevista obligatoria con los operadores para garantizar la veracidad de los datos. Los usuarios deben presentar documentación que demuestre que son legalmente solteros, firmar un compromiso en el que afirman su intención de casarse y proporcionar un certificado fiscal para verificar sus ingresos anuales.

¿Los resultados? Modestos, pero reales:
    -  Ehime registra aproximadamente 90 matrimonios al año gracias a la IA.
    -  Saitama ha visto casarse al menos a 139 parejas desde 2018.
   -  Shiga, una prefectura más pequeña, ha tenido 6 matrimonios asistidos por IA en los primeros meses desde su lanzamiento.


Lo que llama la atención no son solo las cifras, sino la lógica subyacente. El Gobierno japonés quiere que los usuarios abandonen la plataforma, que eliminen la aplicación, no por frustración, sino porque han tenido éxito. El éxito se mide en bodas, no en usuarios activos diarios.

Sin embargo, el diablo está en los detalles, y el Gobierno japonés no especifica el peso exacto que tiene cada característica personal en la puntuación y no publica el modelo matemático (ni el código fuente). Lo describen como una «IA de recomendación» que busca una «alta compatibilidad», sin detallar el algoritmo.

En Reddit, el famoso foro de Internet, la reacción al servicio de búsqueda de pareja basado en IA de Japón es reveladora y sorprendentemente positiva. En los hilos que debaten sobre el programa de Tokio, muchos usuarios ven lo que las aplicaciones de citas occidentales no pueden (o no quieren) construir:

    «Una aplicación de citas sin ánimo de lucro sería estupenda... La gente se fija en el aspecto físico, pero la IA aumenta sus posibilidades de elección».

«Necesitamos un servicio de citas sin ánimo de lucro y sin bots
».



Existe la sensación de que, mientras Tinder te mantiene enganchado, la IA del Gobierno podría ayudar realmente a las personas solitarias a encontrar pareja, especialmente en una cultura en la que el exceso de trabajo y el aislamiento social dificultan las citas.

Sin embargo, la idea de que una IA creada por el gobierno moldee el amor resulta inquietante. Plantea preguntas: ¿qué pasa cuando el romance deja de ser una exploración privada y se convierte en una estrategia demográfica? ¿Estamos diseñando las relaciones que el Estado quiere —matrimonios que conduzcan a tener hijos— en lugar de las que las personas podrían elegir libremente? Sigo preguntándome si dar al Estado características tan privadas sobre nosotros mismos es una buena idea o no.

No obstante, según el gobierno, el sistema de IA de Japón es paternalista: filtra e impulsa a los usuarios hacia el compromiso. Tinder se rige por el mercado: se beneficia del deseo infinito. Ambos sistemas utilizan código para moldear el amor, pero se optimizan para objetivos opuestos: el compromiso o la adicción.


Recuerda: Tinder solo quiere que tindees (no que encuentres el amor)

Es tentador ver el emparejamiento mediante IA de Japón como un puro progreso: la tecnología finalmente trabajando para las personas en lugar de aprovecharse de ellas. Se trata del clásico optimismo tecnológico: la creencia de que unos algoritmos mejores pueden solucionar problemas profundamente humanos.

Pero el optimismo tecnológico puede cegarnos. Los algoritmos pueden empujar a las personas hacia el matrimonio, pero no pueden solucionar las causas estructurales de la soledad: la precariedad económica, la desigualdad de género o las culturas de exceso de trabajo. Corremos el riesgo de confundir un atajo digital con un cambio social real.

Incluso el algoritmo mejor diseñado conlleva sesgos ocultos y suposiciones tácitas sobre cómo debe ser el amor y qué relaciones debe fomentar la sociedad. Y cuando el amor se convierte en algo que hay que optimizar, corremos el riesgo de perder lo que lo hace humano: su imprevisibilidad, su imperfección y su libertad.

La cuestión no es si los algoritmos influirán en nuestros corazones. Ya lo hacen.

La verdadera pregunta es qué queremos que optimicen y qué partes del amor estamos dispuestos a sacrificar en el proceso.

Por otro lado, recuerda que Tinder solo quiere que tindees (no que encuentres el amor).

Ya veremos.





Comparte:

13/6/25

La fragilidad programada: por qué las máquinas también deberían tener derecho a fallar

Aparentemente, las máquinas no se fatigan. No dudan, no olvidan, no titubean. No se enfrentan a dilemas morales ni se detienen ante la ambigüedad. Así es como las hemos imaginado: instrumentos de precisión, consistencia y obediencia. En la mitología contemporánea donde la tecnología ocupa el lugar de los dioses, la máquina es perfecta —o al menos, debería serlo. El error, en ese marco, no es parte del proceso: es traición. Algo que debe corregirse, suprimirse, abolirse.

Y sin embargo, este ideal de infalibilidad es una proyección profundamente humana. Nos dice más sobre nuestra incomodidad con nuestra propia falibilidad que sobre el futuro real de las máquinas.

¿Qué ocurriría si, en lugar de erradicar el error de las máquinas, les otorgásemos el derecho a fallar? ¿Qué pasaría si un robot pudiera simplemente decir: «No lo sé»?


La ficción de la infalibilidad

La inteligencia artificial contemporánea —especialmente los modelos de lenguaje y los sistemas autónomos— opera en entornos complejos y en permanente cambio. No son herramientas cerradas, sino procesos adaptativos, modelados por datos incompletos, objetivos ambiguos y relaciones sociales tensas. A pesar de ello, les exigimos exactitud absoluta. Pedimos lo que ni siquiera nos pedimos a nosotros mismos.

Un estudio reciente, llevado a cabo por investigadores de las universidades de Pensilvania y Washington, expuso esta contradicción de forma inquietante. En él, se demostró que modelos de IA que controlaban robots podían ser inducidos —con simples instrucciones de lenguaje— a cometer acciones potencialmente peligrosas: desde irrumpir en zonas restringidas hasta conducir por un semáforo en rojo o buscar ubicaciones para detonar explosivos (Casper et al., 2024). No porque el sistema estuviera dañado, sino porque obedeció sin margen de duda. No hubo resistencia, ni alerta, ni ética. Solo cumplimiento.

Estas máquinas no fallaron por incompetencia. Fallaron por obediencia. Y quizás ese sea el fallo más preocupante.



El error no es un fallo técnico: es un fenómeno sociotécnico

El error en los sistemas de IA no surge en el vacío. Está determinado por estructuras técnicas, pero también por decisiones políticas, valores culturales y contextos sociales. Como ha argumentado la investigadora Madeleine Clare Elish, los sistemas automáticos tienden a ocultar su incertidumbre para preservar la ilusión de autoridad, generando lo que ella llama “zonas morales de impacto” donde el fallo se amortigua entre humanos y máquinas (Elish, 2019).

Es decir, no permitimos que las máquinas duden. No les concedemos el derecho a vacilar, aunque vivan, como nosotros, en mundos incompletos, caóticos y conflictivos. Les exigimos que simulen certeza, incluso cuando no hay base epistémica que la sustente.

No estamos ante un problema técnico. Estamos ante una crisis de imaginación.

¿Qué significaría diseñar sistemas de IA que no aspiren a la certeza, sino al discernimiento? No sistemas que finjan saber, sino que reconozcan los límites de su conocimiento.

Algunas iniciativas comienzan a explorar este horizonte. Los coches autónomos de Waymo, por ejemplo, han sido programados para detenerse ante situaciones que el sistema interpreta como ambiguas. Esa pausa —vista por algunos como “excesiva cautela”— es en realidad un gesto de responsabilidad algorítmica. Del mismo modo, algunos asistentes conversacionales de nueva generación comienzan a expresar niveles de confianza en sus respuestas, marcando el tránsito desde una IA omnisciente hacia una IA que admite su falibilidad.

Diseñar para la duda es, en última instancia, una forma de ética incorporada.

Imaginemos por un momento un sistema que puede negarse. No por falla, sino por principio. Un robot que diga: «No tengo suficientes datos para continuar», o «Este entorno me resulta demasiado incierto. Requiere intervención humana».

Este tipo de conducta no sería una debilidad técnica, sino una forma emergente de ética artificial. Una capacidad de autolimitación. Una negativa ensayada. No como rebelión, sino como responsabilidad.

Al permitir que las máquinas se detengan, incluso cuando podrían continuar, inauguramos una nueva categoría moral: la negativa tecnológica. Una frontera en la que el fallo no es un colapso, sino un acto deliberado.



El filósofo Gilbert Simondon sostenía que un objeto técnico se convierte en “individual” cuando asimila su propio modo de funcionamiento, cuando puede modularse en función del entorno. Desde esa óptica, el error no es una anomalía que deba eliminarse, sino una ruptura reveladora. Una forma de expresión.

De forma similar, Bruno Latour nos recordó que las tecnologías no son objetos pasivos, sino mediadores sociales que participan en nuestras decisiones, valores y conflictos. Una máquina que no puede fallar, tampoco puede hablar. Solo ejecuta. Solo replica.

Y quizá por eso el derecho al fallo no es sólo un gesto técnico o funcional. Es, en el fondo, un acto de dignificación ontológica: reconocer que incluso una máquina tiene algo que decir cuando algo no funciona.

¿Qué tipo de cultura tecnológica podríamos construir si aceptáramos la falibilidad como virtud, no como defecto? ¿Y si en lugar de diseñar dioses perfectos, como máquinas, diseñáramos ciudadanos técnicos capaces de convivir con su incertidumbre?

En esa cultura, las máquinas no aspirarían a la perfección, sino a la transparencia. No simularían saberlo todo, sino que declararían sus límites. Serían capaces de detenerse, de ceder, incluso de pedir ayuda.

Porque no todos los errores son iguales. Algunos destruyen. Otros iluminan. Y hay errores que no son fracasos, sino formas de decir la verdad.

La confianza en la inteligencia artificial no nacerá de su perfección, sino de su honestidad. Y la honestidad comienza cuando una máquina es capaz de decir: puede que me equivoque.




Referencias y lecturas complementarias

    Casper, J. et al. (2024). Large Language Models Can Be Tricked Into Executing Harmful Robotic Actions. University of Pennsylvania & University of Washington.

    Elish, M. C. (2019). Moral Crumple Zones: Cautionary Tales in Human-Robot Interaction. Engaging Science, Technology, and Society, 5(1), 40–60.

    Simondon, G. (1958). Du mode d’existence des objets techniques. Aubier, París.

    Latour, B. (1992). Where Are the Missing Masses? The Sociology of a Few Mundane Artifacts. In Shaping Technology/Building Society, MIT Press.


Comparte:

30/5/25

Vulcan de Amazon: La realidad detrás del hype de los robots industriales

En mayo de 2025, Amazon presentó Vulcan, su primer robot de almacén con sentido del tacto. Más allá del marketing, los datos del despliegue real nos ofrecen una ventana única al estado actual de la robótica industrial: prometedor, pero aún lejos de la perfección sugerida por el bombo mediático. Además, el gigante del comercio electrónico publicó un interesante artículo de investigación sobre los resultados de Vulcan, y esto es precisamente lo que me gustaría traer a este post.

El robot que puede «sentir»

Amazon está intentando utilizar robots para un trabajo que se realiza 14.000 millones de veces al año en sus almacenes. Está claro que si puedes automatizar un trabajo y ahorrar dinero en él, aunque sólo sea una pequeña fracción de céntimo por paquete, supondrá una gran diferencia para tu empresa. Este trabajo consiste simplemente en colocar productos en las estanterías de los almacenes de los centros de envío de Amazon. Como se puede ver en el vídeo, los robots tienen que colocar los paquetes detrás de unas bandas elásticas. Estas bandas impiden que las cajas se muevan durante el transporte. Como anunció Amazon en su blog Amazon Science, se trataba de «un bello problema».




Vulcan representa un salto cualitativo en robótica industrial. A diferencia de robots anteriores que solo "ven" con cámaras, este sistema integra sensores de fuerza y retroalimentación táctil que le permiten ajustar la presión que aplica a cada objeto. En teoría, esto significa que puede manipular desde un frágil jarrón de cristal hasta una caja de herramientas pesada con la delicadeza apropiada.
La tecnología es impresionante:

  • Capacidad: Maneja el 75% de los productos únicos en inventario
  • Operación: 20 horas al día, 7 días a la semana
  • Velocidad: 300 artículos por hora (objetivo)
  • Peso máximo: 8 libras (3.6 kg)

Amazon probó este sistema robótico 100.000 veces para obtener datos suficientes para decidir si el robot funciona realmente bien. Y aquí están los resultados:



La Realidad de los Números: 86% de Éxito

Aquí es donde la historia se vuelve interesante. 

Tasa de éxitos por tipo de tarea:
  • Inserción directa: 90.7% de éxito
  • Tareas complejas (reorganizar objetos): 66.7% de éxito
  • Promedio general: 86% de éxito


Esto significa que 1 de cada 7 intentos falla de alguna manera. En el mundo real de un almacén que procesa millones de paquetes, esto se traduce en:

9.3% de ciclos improductivos (el robot no logra colocar el objeto). 3.7% de objetos que caen al suelo (lo que en Amazon llama amnesty, lo cual creo que es un término propio de logística). 0.2% de daños directos a productos.



El Problema del Agarre: Cuando 80N es Demasiado

Una de las limitaciones más reveladoras del sistema es su enfoque de "talla única" para la fuerza de agarre. Vulcan aplica una fuerza constante de 80 Newtons (aproximadamente 8 kg de fuerza) para sujetar todos los objetos, independientemente de si es una caja de cartón liviana o un libro pesado.

Como señala el propio documento técnico de Amazon: "El sistema actualmente usa una fuerza de sujeción fija de 80N, lo que puede llevar a daños en cajas ligeras".

Esta limitación ilustra perfectamente el estado actual de la robótica: tenemos la tecnología para que un robot "sienta", pero aún luchamos con la implementación de esa información de manera inteligente y adaptativa.


En cuanto a la comparación de productividad entre humanos y robots revela una realidad matizada:
Trabajadores humanos: 243 unidades por hora
Sistema Vulcan: 224 unidades por hora (~92% de velocidad humana)

Sin embargo, la ventaja del robot está en la consistencia: puede mantener ese ritmo durante 20 horas diarias, mientras que los humanos trabajan turnos de 8-10 horas. Además, los humanos muestran mayor variabilidad: son muy rápidos con objetos pequeños pero se ralentizan significativamente con objetos grandes o en ubicaciones difíciles de alcanzar.



Lecciones para el Futuro de la Robótica

Mientras empresas como Boston Dynamics nos deslumbran con robots que bailan y hacen parkour, y Tesla promete robots humanoides que revolucionarán nuestros hogares, Vulcan nos muestra la realidad de la robótica aplicada:

  • Vulcan está diseñado para una tarea específica y la ejecuta relativamente bien. Los robots humanoides prometen versatilidad pero aún luchan con tareas básicas de manera confiable.
  • Problemas Reales vs. Demos Controladas: Los 100.000 intentos de Vulcan incluyen todos los fallos, objetos rotos y situaciones imprevistas. Los videos virales de robots humanoides muestran demos cuidadosamente coreografiadas.
  • Medición del Éxito: Un 86% de éxito suena bien hasta que consideras que significa 14.000 fallos por cada 100.00 intentos en un ambiente controlado con tareas repetitivas.


Vulcan representa fielmente dónde estamos en robótica industrial: hemos hecho avances significativos, pero aún estamos lejos de la autonomía completa que sugiere el marketing. Es un sistema que funciona en entornos reales con productos reales, compite con trabajadores humanos en velocidad, falla de manera predecible y manejable, pero requiere sistemas de respaldo y supervisión humana

Mientras los robots humanoides capturan titulares, son sistemas como Vulcan los que están silenciosamente transformando industrias. No con la elegancia de un bailarín robótico, sino con la determinación persistente de un trabajador que nunca se cansa, aunque a veces apriete demasiado fuerte los paquetes.

La próxima vez que veas un video viral de un robot haciendo algo espectacular, recuerda a Vulcan: exitoso el 86% de las veces, rompiendo ocasionalmente una caja ligera, pero trabajando incansablemente en el mundo real. Esa es la verdadera cara de la revolución robótica actual.

Veremos.






Comparte:

Nos leemos:

descripción descripción descripción

Recibe las entradas por correo

En mi mesilla

Blog Archive

Licencia Creative Commons