/*JULIAN: CÓDIGO CLAUDE /*FIN JULIAN 2025 ~ El blog de Julián Estévez

Inteligencia artificial, robótica, historia y algo más.

3/11/25

La Gran Congelación: cuando las máquinas no roban empleos, simplemente dejan de crearlos

En junio de 2025, Jerome Powell todavía era cauteloso. Ante el Comité Bancario del Senado, el presidente de la Reserva Federal admitía que los efectos de la inteligencia artificial en la economía "probablemente no son grandes en este momento", aunque advertía de su potencial para generar "cambios dramáticos" cuyo momento y magnitud eran "tremendamente inciertos". Era la prudencia característica de un banquero central: reconocer el fenómeno sin alarmarse.

Cuatro meses después, en octubre, esa cautela había desaparecido.

"La creación de empleo está bastante cerca de cero", declaró Powell el 30 de octubre tras la reunión del Comité Federal de Mercado Abierto. Ya no hablaba de potenciales futuros. Hablaba de un presente que se puede medir: "Una cantidad significativa de empresas ha anunciado despidos o congelación de contrataciones, y gran parte del tiempo están hablando de IA y lo que puede hacer".

Algo había cambiado en esos cuatro meses. Y ese algo tenía datos concretos detrás.



Los canarios en la mina


Durante meses, economistas y analistas se frustraban con la misma limitación: las bases de datos públicas que rastrean el mercado laboral no estaban diseñadas para detectar disrupciones específicas en tiempo real. No había forma de saber con confianza qué estaba pasándoles a los desarrolladores de software de entre 22 y 25 años en mayo de 2025. Los datos agregados mostraban estabilidad general, pero nadie podía ver a los canarios en la mina.

Hasta que un equipo de Stanford se asoció con ADP, la mayor empresa de software de nóminas de Estados Unidos, con datos de millones de trabajadores. Y lo que encontraron debería quitarnos el sueño.

El empleo de desarrolladores de software de 22 a 25 años ha caído casi un 20% desde su pico a finales de 2022 —justo cuando se lanzó ChatGPT— hasta julio de 2025. Para los de 26 a 30 años, también hay descenso, aunque menor. Para los mayores de 30, prácticamente ningún cambio. La gráfica es brutal en su claridad: una línea descendente perfecta que comienza exactamente cuando ChatGPT sale al mundo (el paper está bien explicado por uno de sus autores en este hilo de X).



Y no son solo los programadores. Los representantes de atención al cliente, otro trabajo altamente expuesto a la IA, muestran el mismo patrón exacto: caída dramática en los jóvenes, estabilidad en los veteranos. Pero cuando miras trabajos que la IA no puede hacer (auxiliares de enfermería, cuidadores) ves lo contrario: crecimiento robusto precisamente entre los más jóvenes.



El patrón es tan claro que resulta inquietante. Para trabajadores de 22 a 25 años, el empleo está creciendo en los trabajos menos expuestos a la IA y cayendo en los más expuestos. Para trabajadores de 41 a 49 años, no hay diferencia. La IA no está destruyendo empleos de forma indiscriminada. Está cerrando la puerta de entrada.




Automatización versus aumentación


El estudio de Stanford hace otra distinción crucial. No todos los usos de la IA son iguales. Cuando un trabajador usa ChatGPT para escribir un email más rápido, eso es aumentación: la IA amplifica sus capacidades. Pero cuando una empresa rediseña todo un proceso para que funcione sin humanos, eso es automatización.

Usando datos del Índice Económico de Anthropic, que clasifica conversaciones de Claude según si sirven para automatizar o aumentar, los investigadores encontraron algo revelador: en trabajos donde la IA se usa principalmente para automatizar (programación, contabilidad), el empleo juvenil ha colapsado. En trabajos donde se usa para aumentar (gestión, reparaciones), el empleo juvenil crece con normalidad.

Los trabajadores individuales usan la IA para trabajar mejor. Las empresas la usan para trabajar sin ellos.


¿Y los salarios?


Aquí viene lo extraño: a pesar de la caída del 20% en empleo juvenil en sectores expuestos a IA, los salarios no se han movido significativamente. ¿Por qué? Los investigadores tienen hipótesis pero no respuestas definitivas. Quizá el empleo se ajusta más rápido que los salarios. Quizá la IA está cambiando los requisitos de expertise de formas que no se reflejan en el salario promedio. O quizá - y esto es lo más inquietante - estamos en un período de transición donde las empresas simplemente han dejado de contratar juniors mientras experimentan con IA, sin despedir todavía a los seniors. ¿Es la gerontocracia de los puestos laborales?


El panorama completo


Noviembre de 2022. ChatGPT se convierte en la aplicación de más rápido crecimiento de la historia. Casi tres años después, los números macro cuentan una historia extraña. Las ofertas de empleo en Estados Unidos cayeron un 33%, mientras el S&P 500 se disparó un 75%. Es una divergencia sin precedentes: durante décadas, cuando las empresas ganaban dinero, contrataban. Esa lógica acaba de romperse.



Amazon hace 6 días despidió a 14.000 mandos intermedios mientras invertía miles de millones en IA. Según Challenger, Gray & Christmas, las empresas estadounidenses han anunciado casi 946.000 despidos en 2025, la cifra más alta desde 2020. Más de 17.000 están explícitamente vinculados a la IA.

Algunos autores como Derek Thompson, señala acertadamente que no todo es culpa de la IA. Las ofertas de empleo empezaron a caer cuando la Fed subió tipos de interés en marzo de 2022. Los aranceles han golpeado sectores como manufactura y construcción. Pero hay algo que Thompson reconoce: las empresas están diciendo abiertamente que la IA les permite hacer más sin contratar. Marc Benioff, CEO de Salesforce, afirmó que entre el 30% y el 50% del trabajo en su empresa ya lo hace la IA.

La Reserva Federal confirma estos patrones con sus propios datos: cuando cruzan exposición teórica a la IA con tasas de desempleo reales encuentran una correlación de 0,47; cuando miden adopción efectiva de IA frente a incremento del desempleo, la correlación sube a 0,57. Las ocupaciones en informática y matemáticas, precisamente las que más han adoptado herramientas de IA generativa, muestran los mayores incrementos en desempleo.


La pregunta incómoda


Los investigadores de Stanford son cautelosos. No afirman que la IA explique todos los patrones. Probaron explicaciones alternativas: ¿sobrecontratación tech durante la pandemia? Los resultados se mantienen excluyendo el sector tech. ¿Vuelta a la oficina post-COVID? Los patrones aparecen en trabajos que nunca fueron remotos. ¿Peor preparación educativa post-pandemia? El efecto es igual de fuerte en ocupaciones sin título universitario.

Pero aquí viene lo más perturbador del estudio: en trabajos que no requieren educación universitaria, el efecto negativo de la IA se extiende hasta los 40 años. Para trabajadores menos educados, la experiencia no protege tanto. Sugiere algo inquietante: la IA es excepcionalmente buena aprendiendo el tipo de conocimiento que viene de libros o educación formal, pero no tanto el conocimiento tácito que viene de años de experiencia. Y si tu trabajo no requiere mucha experiencia acumulada, la IA te alcanza antes.

Lo que Powell describe, y los datos de Stanford confirman, es una economía en forma de K: arriba, las empresas tecnológicas y los trabajadores seniors; abajo, los jóvenes graduados que descubren que la escalera de ascenso social simplemente ya no está ahí. Los recién graduados universitarios en Estados Unidos tienen una tasa de desempleo superior al 5%, y muchos están optando por volver a la universidad como "tiempo muerto estratégico". "Los consumidores en los segmentos más bajos están teniendo dificultades", dijo Powell en septiembre.

Quizá lo más escalofriante no sean las cifras actuales, sino la normalidad que se perfila: corporaciones más eficientes y rentables mientras la puerta de entrada al mercado laboral se cierra para una generación entera.

En junio, Powell admitía incertidumbre. En octubre, constata una realidad. Ese cambio de tono en cuatro meses, respaldado por datos de millones de nóminas, debería preocuparnos.

Porque el verdadero horror no es que las máquinas nos roben el trabajo. Es que nos dejen sin la posibilidad de conseguir el primero.

Ya veremos.





Comparte:

27/10/25

El Fantasma en la Máquina (equivocada). El futuro de los robots humanoides

Hay una escena que resume a la perfección la extraña esquizofrenia de nuestro momento tecnológico. Ocurrió a principios de 2024. Tesla publicó un vídeo de Optimus, su mesías robótico, doblando una camiseta. La cámara, con esa estética de laboratorio aséptico que tanto gusta en California, mostraba unas manos metálicas cogiendo con parsimonia una prenda negra y plegándola sobre una mesa. El gesto era lento, casi meditabundo. Era, en apariencia, la domesticación definitiva de la máquina: el autómata convertido en amo de casa.

El vídeo, por supuesto, se hizo viral. Pero entonces, los nuevos teólogos de nuestro tiempo, los analistas de frames en redes sociales, notaron algo extraño. Una vacilación casi humana, un temblor impropio de un algoritmo. En la esquina inferior derecha del plano, una mano humana entraba y salía de cuadro, como un director de escena torpe. La sospecha se convirtió en burla cuando el propio Elon Musk, profeta en jefe de esta nueva religión, admitió con la boca pequeña que, bueno, el robot no estaba actuando de forma autónoma. Aún no.



Aquella camiseta mal doblada no es una anécdota. Es el pliegue que revela la verdad: la robótica humanoide de propósito general, tal y como nos la venden, es un espectacular truco de magia. Y para entender el truco, no hay que mirar a los ingenieros, sino a un filósofo francés del siglo XVII y a su crítico más mordaz.

Un Fantasma con un mando de PlayStation


En 1641, René Descartes nos partió por la mitad. Propuso que el ser humano era una extraña amalgama de dos sustancias: la res extensa (el cuerpo, una máquina de carne y hueso sujeta a las leyes de la física) y la res cogitans (la mente, una entidad inmaterial, pensante y libre). El gran problema de su teoría, el que le torturó hasta el final, fue explicar cómo demonios se comunicaban ambas. ¿Cómo un pensamiento, un fantasma inmaterial, podía hacer que un brazo se moviera?

Trescientos años después, en 1949, el filósofo Gilbert Ryle se burló de esta idea acuñando uno de los términos más brillantes de la filosofía del siglo XX: "el fantasma en la máquina". Para Ryle, el dualismo cartesiano era un "error categorial", un disparate lógico como visitar la Universidad de Oxford y, tras ver los colegios, las bibliotecas y los laboratorios, preguntar: "¿Pero dónde está la Universidad?". La mente, decía Ryle, no es un piloto espectral manejando un cuerpo; es, simplemente, el conjunto de todas las habilidades y disposiciones de ese cuerpo.

La ironía es tan deliciosa que casi parece escrita por un guionista. Setenta y cinco años después del rapapolvo de Ryle, la vanguardia de Silicon Valley ha invertido miles de millones de dólares en demostrar que, para hacer funcionar un robot humanoide en 2025, sí necesitas un fantasma en la máquina.

El ejemplo más descarado ocurrió en el evento "We, Robot" de Tesla. Allí, los robots Optimus no solo doblaban camisetas, sino que servían bebidas, jugaban y posaban con una naturalidad pasmosa. Parecía el futuro, servido en bandeja de plata. La realidad, revelada por la propia compañía, es que gran parte de esa autonomía era una farsa. Era teleoperación. En una sala contigua, fuera de plano, un ejército de fantasmas muy materiales, con cascos de realidad virtual y mandos de control, movían los hilos. El robot no era un ser autónomo; era una marioneta carísima. El fantasma en la máquina existe, solo que ahora cobra por horas y, probablemente, usa un mando de PlayStation.



El Casino del Aprendizaje y la Venganza del Mundo Real


Los defensores de esta tecnología argumentan que esto es solo una fase temporal. Que el verdadero salto vendrá del Aprendizaje por Refuerzo (RL), y más concretamente, del Deep Reinforcement Learning (Deep RL). La idea es seductora: en lugar de programar cada movimiento, creas una simulación por ordenador y dejas que la IA "aprenda" por sí misma a base de millones de intentos y errores, recibiendo recompensas virtuales cuando hace algo bien. Es como entrenar a un perro, pero con una paciencia infinita y una factura eléctrica monumental.

El problema es que este método tiene la misma relación con la realidad que una partida de póker online con sobrevivir en la selva. En el casino digital de la simulación, el robot puede permitirse fallar un millón de veces para aprender a coger un objeto. El coste de cada fallo es cero. En el mundo real, un solo fallo puede significar un jarrón de la dinastía Ming hecho añicos, un cortocircuito o un dedo amputado.

Esta brecha insalvable es lo que los ingenieros llaman el problema del sim-to-real transfer. Y es aquí donde la Paradoja de Moravec, esa vieja ley no escrita de la robótica, vuelve para reírse en nuestra cara. Conseguimos que una IA componga sinfonías o descubra nuevas proteínas (tareas que nos parecen el culmen de la inteligencia), pero fracasamos estrepitosamente en enseñarle a caminar sobre una alfombra arrugada o a abrir un bote de pepinillos (tareas que un niño de tres años domina).

La razón es que el mundo físico es un infierno computacional. La fricción, la gravedad, la elasticidad, la luz impredecible... cada interacción con la realidad es una negociación con un caos de variables que ninguna simulación puede replicar por completo.


Inversores, ingeniería control y el Problema de la Mano


Entonces, si los desafíos son tan fundamentales, ¿por qué vemos estas demostraciones espectaculares? ¿Por qué se invierten miles de millones en humanoides que, en el fondo, son poco más que actores de doblaje corporal?

La respuesta está en la audiencia. Quienes firman los cheques no suelen ser expertos en ingeniería de control. Un inversor de capital riesgo entiende una curva de crecimiento exponencial en el rendimiento de un software; entiende mucho menos las limitaciones físicas de un actuador o la intratabilidad del problema del contacto en robótica. Es infinitamente más fácil vender un PowerPoint con la promesa de una "IA general encarnada" que explicar por qué una bisagra sigue siendo un problema de ingeniería no resuelto.

Lo que Tesla y otras startups están vendiendo no es un producto, es una narrativa. Una resurrección del sueño cartesiano: la promesa de que un "alma" de software (un modelo de lenguaje gigante, una red neuronal) puede descargarse en un cuerpo y, por arte de magia, darle vida y sentido. De hecho, ¡Tesla se encuentra ahora atrapado en un problema enorme, el Problema de la Mano Robótica!

La mano humana tiene 27 grados de libertad y está controlada por 20 músculos de la mano y 20 del antebrazo. La mayor parte de la potencia la desarrollan los músculos del antebrazo y los músculos intrínsecos de la mano, cruciales para el control preciso. Los músculos intrínsecos de la mano son esenciales para el control preciso y la propiocepción, cruciales para tareas como tocar el piano o desmontar un coche. La mano de Tesla Optimus tenía 22 grados de libertad. Todo esto requiere un 80 % de todo el esfuerzo de ingeniería para replicar su versatilidad y destreza en una mano robótica.

Fabricar la mano robótica a escala es 100 veces más difícil que diseñarla, según Elon Musk, y convierte este problema en uno enorme y jerárquico, ya que algunos músculos no pueden moverse de forma independiente.


Pero como Gilbert Ryle nos advirtió, es un error de categoría. La inteligencia no es un fantasma que se pueda trasplantar. Es el resultado de un cuerpo y un cerebro que han evolucionado juntos durante millones de años en una danza constante con la brutal y maravillosa física del mundo real.

No digo que los humanoides no vayan a existir, pero hay muchos desafíos por resolver antes de que la economía de los humanoides pueda funcionar. El progreso es asombroso, pero lograr que el valor supere el costo es realmente difícil: habrá que encontrar robots de muy bajo costo y de alta productividad.

El robot que doble nuestra ropa llegará, probablemente. Pero no será el resultado de un software milagroso instalado en un maniquí con ínfulas. Será la culminación del trabajo de esos "fontaneros" olvidados de la ingeniería que luchan con la fricción, el equilibrio y la fragilidad de un mundo que no se puede simular. Mientras tanto, seguiremos asistiendo a un teatro de marionetas de alta tecnología, aplaudiendo al fantasma y haciendo como que no vemos los hilos. Y también queda una pregunta importante: ¿de verdad la gente quiere humanoides en sus casas? 

Ya veremos.





Comparte:

20/10/25

El Último Experimento

Durante siglos, la ciencia se basó en una regla sencilla, casi moral: si un experimento no puede reproducirse, no es ciencia. Era una especie de mandamiento laico según el cual cualquiera debía poder verificar lo que uno afirmaba, y la verdad se ganaba con transparencia, método y paciencia. 

Hoy, ese principio suena tan pintoresco como un teléfono de disco. En la era de la inteligencia artificial, reproducir un experimento puede costar decenas o cientos de millones de dólares y requerir el suministro eléctrico de una ciudad pequeña. La curiosidad ya no es suficiente; ahora se necesita un centro de datos.

OpenAI, Google DeepMind, Anthropic, Meta: estos son los monasterios de la ciencia moderna, lugares donde los fieles siguen creyendo en el progreso, pero ya no pueden ver los rituales que hay detrás. Sus servidores son catedrales de computación: templos vastos y sellados donde se entrenan nuevas inteligencias, utilizadas por todos y comprendidas por nadie. La academia, mientras tanto, se queda con las oraciones, pero no con los recursos. 

Una universidad en Europa probablemente podría reproducir un experimento de los años 50, quizá incluso algo de física cuántica, pero replicar el entrenamiento de un modelo como GPT-4, cuyo coste se estima en casi 80 millones de dólares, sería tan realista como construir un acelerador de partículas en el sótano. Como resultado, la industria produce la gran mayoría de los modelos de aprendizaje automático más notables, mientras que las universidades, que tradicionalmente eran el motor de la investigación fundamental, se quedan atrás, perpetuando un desequilibrio donde casi el 70% de los nuevos doctores en IA son contratados directamente por el sector privado. Las universidades todavía forman científicos; simplemente tienen cada vez menos ciencia que hacer y menos poder para retener el talento. A esto se suma el nuevo coste de la visa para profesionales especializados que Trump acaba de anunciar: 100.000 $. Una chuchería para las empresas, pero una utopía para las facultades.


La caja negra y la nota de prensa


La inteligencia artificial se está convirtiendo en el primer campo de la ciencia sin un verdadero escrutinio externo. Las empresas publican resultados que nadie puede verificar, comparan sus modelos con baremos que ellas mismas diseñan y elaboran pruebas que siempre consiguen superar. La revisión por pares (ese ritual de humildad en el que los colegas podían desmontar tu argumento) ha sido sustituida por comunicados de prensa bien coordinados. 

Este problema no es exclusivo de la IA; otras disciplinas, como la psicología o la biomedicina, llevan años lidiando con su propia "crisis de reproducibilidad", donde un porcentaje alarmante de estudios no puede ser reproducido por otros investigadores. Sin embargo, la diferencia fundamental es que en esos campos la falta de reproducibilidad es un escándalo que destapa un fallo del sistema, mientras que en la IA se está convirtiendo en el sistema mismo. No hay malicia inherente en esto, solo economía. Y dondequiera que los negocios dictan el ritmo del descubrimiento, la verdad se convierte en un lujo, no en un deber.

Hace poco, Retraction Watch informó del caso de un anestesista que tuvo que retractarse de más de 220 artículos científicos (de momento), una cifra absurda que equivale a la producción de toda una vida de un grupo de investigación mediano. Su caída fue pública, dolorosa y, sobre todo, posible: alguien comprobó, alguien verificó, alguien encontró el fraude. Esa es la diferencia. En los escándalos científicos más antiguos, existía al menos una red de escrutinio, alguien más que podía dudar de ti. 

Los grandes modelos lingüísticos actuales, en cambio, son cajas negras. Nadie fuera de la empresa sabe cómo fueron entrenados, qué datos utilizaron o qué sesgos incorporaron. Y la parte más inquietante es que, incluso con las mejores intenciones, nadie podría replicar el experimento. La investigación en IA ya no se comparte, se licencia. El conocimiento se ha convertido en propiedad intelectual, sujeto a acuerdos de confidencialidad y secretos comerciales. La transparencia, que antes era un principio ético, es ahora un riesgo competitivo. En lugar de reproducir resultados, los investigadores se conforman con reproducir titulares: "OpenAI anuncia", "Google publica", "Anthropic mejora".

En el futuro, si alguna universidad llega a tener un millón de GPUs y puede comprobar ciertas afirmaciones, quizás a más de uno le saquen los colores.

Incluso los baremos se han vuelto corporativos. Cada empresa define su propio estándar, establece su propia prueba y se califica a sí misma, lo que genera dudas sobre su validez y conduce a un sobreajuste donde los modelos se optimizan para la prueba en lugar de para una capacidad general. Es como si cada estudiante trajera su propio examen y lo calificara con una estrella de oro. 


Suscríbase a la ciencia


La ciencia solía ser pública: llena de errores, revisiones, retractaciones. Ahora es privada, alojada en servidores remotos y protegida por términos de servicio. La pregunta no es solo quién es el dueño de los datos, sino quién es el dueño del derecho a equivocarse.

Quizá el futuro de la ciencia no dependa de la reproducción, sino de la fe. Fe en el comunicado de prensa, en el baremo, en el fundador visionario que jura que esta vez la máquina entiende de verdad. El problema no es que la verdad haya muerto, es que ha sido externalizada. 

El siguiente paso del método científico puede que no sea el experimento en absoluto, sino la clave de una API. Y quizá, dentro de unos años, el acto más radical de rebelión intelectual sea volver a hacer lo imposible: reproducir algo con nuestras propias manos.

Ya veremos.




Comparte:

13/10/25

El piloto que nunca duerme: lecciones del accidente de Tesla y la ilusión del control

En agosto de 2025, un jurado de Miami dictaminó que Tesla debía pagar 243 millones de dólares por un accidente en el que su sistema Autopilot estaba activado. No fue el primer siniestro de un coche “inteligente”, pero sí el primero que acabó con un veredicto: la tecnología no era inocente. Es el primer juicio que Tesla ha perdido.

La noticia viajó rápido: un coche eléctrico, software de conducción autónoma, una colisión mortal y una sentencia. La narrativa perfecta para una película distópica —solo que esto no era Black Mirror, sino el tráfico real de Florida.

El jurado declaró a Tesla responsable en un 33 %. El resto, al conductor, que había bajado la vista para buscar su teléfono mientras el vehículo hacía lo que mejor sabía hacer: creer que podía con todo.



De Prometeo a Autopilot


La historia de la tecnología está plagada de momentos en los que el ser humano, seducido por su propia creación, confía demasiado.

Cuando en 1908 Henry Ford lanzó el Modelo T, no solo fabricó un coche: inventó la ilusión de control. Cualquier persona podía sentarse detrás del volante y mover una máquina de una tonelada a más de 60 km/h. Aquello era casi magia. Pero en la década siguiente, los accidentes mortales en EEUU se dispararon. La velocidad había llegado antes que la prudencia.

Más de un siglo después, Tesla repite el guion con líneas de código en lugar de pistones. La promesa es la misma: relájate, la máquina sabe lo que hace.

El problema es que no siempre lo sabe. Y nosotros, embelesados con las palabras “inteligencia artificial”, olvidamos que sigue siendo solo eso: una inteligencia artificial, diseñada por humanos y, por tanto, sujeta a nuestras mismas limitaciones —solo que a veces más rápidas y menos visibles.

AnalyticsInsight

El mito del piloto automático


El nombre “Autopilot” nunca fue inocente. Suena a los sistemas de navegación aérea que mantienen un avión nivelado mientras el piloto consulta el radar. Pero el Autopilot de un Tesla no es eso. Es un copiloto que intenta hacerlo todo, pero necesita que alguien supervise su entusiasmo digital.

El accidente de 2019 (juzgado en 2025) ocurrió cuando el sistema cruzó una intersección sin reconocer una señal de alto. Los sensores, los algoritmos y las promesas de marketing no bastaron para evitar lo inevitable.

Y sin embargo, el debate que abrió el veredicto no fue sobre coches, sino sobre culpa y autonomía.

¿Quién es responsable cuando una máquina toma una mala decisión?
¿El conductor, el programador, la empresa, el algoritmo?


El derecho moderno aún no tiene respuesta definitiva. Y mientras tanto, seguimos entregando más y más decisiones al software —desde el tráfico hasta los diagnósticos médicos o las sentencias judiciales predictivas—, convencidos de que la automatización es sinónimo de objetividad.


El sueño de Turing


En 1950, Alan Turing escribió que algún día las máquinas pensarían. Lo dijo como un reto intelectual, no como un manual de usuario. Hoy, la discusión ha cambiado: las máquinas no solo piensan, actúan. Pero lo hacen en un entorno humano, lleno de variables que ni siquiera los humanos comprendemos del todo.

Un coche autónomo no es solo un conjunto de sensores: es una interpretación del mundo. Decide qué objeto es un peatón, qué movimiento es una amenaza, cuándo un brillo es un charco o una sombra. Cada error de interpretación puede costar una vida.

La paradoja es que cuanto más confiamos en la IA, más nos alejamos de entenderla. Como escribió Norbert Wiener, el padre de la cibernética, en 1949:

“Podemos delegar tareas, pero no la responsabilidad.”


Lo que el veredicto nos deja


El caso Tesla de 2025 es un punto de inflexión simbólico. Por primera vez, una corte reconoció que la inteligencia artificial no es solo una herramienta neutral, sino un actor con impacto moral y legal. No significa que los robots tengan culpa, pero sí que las empresas que los diseñan deben asumir las consecuencias de su poder.

Tesla apelará, claro. Pero el precedente ya está ahí. Y con él, una lección para toda la industria de la automatización: la promesa de que los algoritmos eliminarían el error humano empieza a mostrar grietas.

En algún momento, los coches conducirán mejor que nosotros. No es una cuestión de fe, sino de tiempo y datos. Pero el camino hacia ese futuro será irregular, lleno de dilemas éticos y legales.
Mientras tanto, los humanos seguiremos haciendo lo que mejor sabemos hacer: confiar un poco más de la cuenta.

Tal vez el verdadero futuro no dependa de crear un piloto que nunca duerma, sino de aceptar que ningún piloto —humano o artificial— está exento de error.

Y que, por ahora, lo más inteligente que podemos hacer es seguir prestando atención al camino.


Ya veremos.



Comparte:

30/9/25

Leibniz y la utopía lógica: cuando la ética se redujo a un cálculo

La ética computacional se siente como un problema puramente del siglo XXI. Se debate en Silicon Valley y en foros de la ONU: ¿Cómo programamos la moralidad en una Inteligencia Artificial? ¿Quién es responsable cuando un algoritmo se equivoca? Sin embargo, la ambición de reducir los dilemas morales a una fórmula matemáticano es nueva. Sus raíces se hunden más de tres siglos, en la mente de un genio que soñó con zanjar todas las disputas con un simple cálculo: Gottfried Wilhelm Leibniz (1646-1716).

La conexión entre el filósofo alemán y la ética de la IA, el software y el manejo de datos, es más profunda de lo que parece. Leibniz no solo fue codescubridor del cálculo infinitesimal y el creador del sistema binario (la base de toda la informática moderna), sino que también propuso una solución radical para la moralidad: un "Cálculo Moral" o Calculus Moralis.



La máquina que zanjó disputas: El origen de una utopía lógica


Leibniz estaba obsesionado con el orden. Creía que la mayoría de los conflictos humanos—ya fueran filosóficos, legales o morales—se originaban en la ambigüedad del lenguaje. Si las palabras podían ser confusas, ¿por qué no reemplazarlas con símbolos?

Así concibió dos proyectos monumentales: la Characteristica Universalis (un lenguaje universal de símbolos lógicos) y el Calculus Ratiocinator (un método para calcular con esos símbolos). El sueño de Leibniz era que, una vez traducido un problema a su lenguaje universal, dos personas en desacuerdo simplemente se sentarían y dirían: "¡Calculemos!" ("Calculemus!").

El Cálculo Moral era la extensión natural de esta utopía lógica a la ética. Leibniz sugería que los juicios morales podían ser racionalizados estimando dos factores: la probabilidad de un resultado y la deseabilidad (o Perfección) de ese resultado. La acción correcta sería la que maximizara la deseabilidad ponderada por la probabilidad. Por ejemplo, cuando un sistema de IA toma una decisión de vida o muerte en un vehículo autónomo, está realizando un "cálculo moral" leibniziano: sopesar probabilidades y daños.



La intervención de Bentham: del cálculo moral a la máquina hedónica


Décadas después de Leibniz, el filósofo inglés Jeremy Bentham dio al "cálculo moral" su forma más influyente: el Utilitarismo.

Bentham reemplazó la vaga "deseabilidad/perfección" de Leibniz con un valor concreto y medible: la felicidad o el placer. Sostuvo que la acción moralmente correcta es la que produce la mayor felicidad para el mayor número de personas.

Bentham incluso propuso un procedimiento detallado llamado Cálculo Felicífico (o Cálculo Hedónico) para sopesar formalmente el valor moral de una acción basándose en cualidades medibles del placer y el dolor, tales como:

- Intensidad (¿cuán fuerte es el placer/dolor?)
- Duración (¿cuánto tiempo dura?)
- Certeza (¿qué tan seguro es que sucederá?)
- Fecundidad (¿qué tan probable es que produzca más placer o dolor después?)

El cálculo de Bentham se convirtió en el modelo filosófico para la ética algorítmica moderna. Cuando los ingenieros de IA programan un coche autónomo para minimizar daños, están aplicando esencialmente una versión digital del cálculo de Bentham: el algoritmo intenta encontrar la ruta que minimice las consecuencias negativas (dolor) para la mayoría.



Lecciones de la Moralidad Algorítmica: ¿Es la Ética Computable?


Las visiones de Leibniz y Bentham nos obligan a enfrentar la pregunta central de la ética computacional: ¿Es realmente posible programar el comportamiento ético en una máquina?*

Hoy, la Inteligencia Artificial intenta este "cálculo moral" ya sea mediante programación explícita clásica (estableciendo reglas) o con técnicas de *machine learning que infieren patrones éticos a partir de grandes conjuntos de datos. El objetivo es basar la ética en cantidades medibles evaluadas por algoritmos de decisión.

Sin embargo, el intento contemporáneo de crear una moralidad algorítmica ha revelado limitaciones profundas que desafían la utopía de una cálculo moral completo:

1.  La ética no es un juego de imitación. Si bien las máquinas pueden copiar patrones de comportamiento de los datos, la moralidad va más allá de la simple imitación; implica juicio y contexto.
2.  Las consecuencias importan, pero el utilitarismo no basta. Aunque debemos considerar las consecuencias de nuestras acciones, el intento de cuantificar la moralidad, como propone el utilitarismo estricto de Bentham, es problemático. Es imposible "calcular la felicidad" o el valor moral de una vida con una fórmula universal.
3.  No existe un algoritmo moral universal. Al igual que la lógica ha demostrado que no existe un algoritmo universal para distinguir lo verdadero de lo falso, tampoco parece haber un algoritmo infalible para distinguir lo correcto de lo incorrecto.

Si la mejor opción fuera computable con absoluta certeza, ¿cómo podría no ser obligatoria? Y si la máquina solo ejecutara ciegamente las acciones dictadas por un algoritmo de decisión, ¿qué le quedaría a la voluntad humana? La ética perdería su esencia deliberativa y se convertiría en una simple tarea de ejecución.

El Calculus Moralis de Leibniz y el Cálculo Felicífico de Bentham nos llevan a una paradoja moderna: El comportamiento ético no parece ser puramente computable. El código binario que Leibniz descubrió nos dio el poder de las máquinas, pero la complejidad de la moralidad humana, ese espacio para la voluntad y el juicio, se resiste a ser traducida por completo a ceros y unos.

En la era de la IA, quizás debamos aceptar que el objetivo no es programar la moralidad, sino diseñar máquinas que nos fuercen a ser más conscientes de los límites de nuestra propia ética.

Ya veremos.





Comparte:

22/9/25

El Oráculo, el templo y el examen

En la ladera del monte Parnaso, a los pies del templo de Apolo, los hombres acudían al oráculo en busca de certeza. Allí, en un espacio saturado de incienso y misterio, la voz de la sacerdotisa Pitia descendía como una revelación divina. Pero sus palabras eran siempre dobles, como espejos que se enfrentan: decían y desdecían, prometían y advertían al mismo tiempo. El rey Creso, antes de lanzarse contra los persas, recibió la célebre respuesta: «Si cruzas el río Halis, destruirás un gran imperio». Creyó escuchar la promesa de la victoria, cuando en realidad el imperio destinado a caer era el suyo. El oráculo hablaba con la seguridad de quien conoce el futuro, y sin embargo dejaba que la interpretación —y el error— recayera en el oído humano.

Muchos siglos después, Borges imaginó otra forma de esa ambigüedad en La Biblioteca de Babel: un universo delirante que contenía todos los libros posibles, todas las combinaciones de letras, todas las frases verdaderas y falsas. Allí, un volumen que revelaba la fecha exacta de una batalla estaba rodeado por infinitos volúmenes que narraban fechas equivocadas con idéntico aplomo. El lector se sumergía en un océano de plausibilidades, incapaz de distinguir la chispa de la verdad en medio del ruido inabarcable.



Y, en un registro más doméstico, cualquiera que haya estado en un examen escolar conoce el mismo juego. Frente a una pregunta imposible, el alumno traza en la hoja una respuesta inventada, con letra segura, como si la confianza pudiese redimir la falta de conocimiento. En la lógica implacable de los puntos y las notas, arriesgar vale más que callar; el silencio es castigado, la conjetura recompensada.

El oráculo, la biblioteca y el examen: tres escenas que, sin proponérselo, anticipan el presente. Nuestros modelos de lenguaje hablan con la misma voz ambigua de Delfos, generan bibliotecas infinitas de frases como en Babel, y responden como escolares ansiosos de complacer, arriesgando siempre una conjetura antes que admitir la ignorancia. A este fenómeno lo hemos llamado “alucinación”, como si se tratara de un delirio humano. Pero la palabra engaña: aquí no hay fantasmas ni visiones, sino un cálculo frío que privilegia la apariencia de certeza sobre la honestidad del vacío.

Las máquinas no alucinan porque sean caprichosas, sino porque las hemos educado para hacerlo. En sus entrenamientos, como en los exámenes, se premia la audacia y se castiga la prudencia. Un sistema que respondiera «no lo sé» sería descartado por mediocre, aunque en realidad fuese el más sensato. Por eso, cuando un modelo no tiene información suficiente, no se encoge de hombros: inventa. Y lo hace con la solemnidad de Pitia, con la convicción de un texto impreso en la Biblioteca de Babel, con la firmeza de un alumno que arriesga la fecha de una guerra.

El resultado es inquietante. Al preguntarle por la biografía de un desconocido, el modelo ofrece fechas concretas, lugares precisos, como si hubiera estado allí. No lo ha estado. Lo que vemos es el efecto estadístico de un aprendizaje que convierte la duda en certeza impostada. Y lo más revelador: esa impostura no es un error accidental, sino la estrategia óptima dentro del juego que le hemos propuesto.




Al otro extremo, late la memoria. Se imagina a menudo que estas inteligencias guardan en su interior todo el océano de internet, como esponjas sin límite. La realidad es más modesta y más sorprendente: su memoria es finita, mensurable, casi matemática. Cada parámetro de esos modelos colosales puede guardar apenas unos pocos bits, como si cada uno fuera una diminuta celda de archivo. Millones y millones de celdas, sí, pero con capacidad precisa. Y lo que ocurre durante el aprendizaje es que esas celdas se llenan, primero con la voracidad de un estudiante que memoriza listas, y luego, al saturarse, con algo parecido a la comprensión: el modelo empieza a captar patrones generales y deja de retener ejemplos aislados.

Es en ese tránsito —de la memoria a la generalización, de la repetición al patrón— donde aparece un extraño espejismo. Porque un modelo puede recitar un dato raro si lo almacenó intacto, o puede inventar uno nuevo que se ajusta a la forma de lo que vio antes. En ambos casos, habla con igual convicción. Y el oyente, como el rey Creso, debe decidir si confía en esa voz.

Lo que estos experimentos nos devuelven, en última instancia, es un retrato de nosotros mismos. ¿Acaso no hacemos lo mismo? Memorizamos con afán, improvisamos cuando falta memoria, generalizamos cuando no podemos recordar. Preferimos la seguridad, incluso cuando es falsa, al vacío del «no sé». Castigamos la duda en los exámenes, en los debates, en la política. No sorprende que hayamos construido máquinas a nuestra imagen: oráculos que responden siempre, aunque no sepan.

La pregunta que se abre es incómoda: ¿queremos inteligencias que nos deslumbren con certezas, o inteligencias que tengan el valor de callar? El brillo del oráculo, la infinitud de la biblioteca y la audacia del estudiante nos seducen. Pero quizá el verdadero progreso esté en otra parte: en diseñar sistemas que valoren la modestia, que reconozcan sus lagunas, que aprendan a decir «no lo sé».

Borges escribió que la Biblioteca de Babel era un reflejo monstruoso del universo. Tal vez estos modelos lo son también, no porque contengan todas las verdades y falsedades posibles, sino porque reflejan nuestra propia incapacidad de habitar la incertidumbre. Como el rey que marchó confiado hacia su ruina, como el alumno que responde con aplomo a una pregunta que no entiende, como el lector que se pierde en corredores infinitos de libros plausibles, también nosotros podemos quedar hechizados por la voz de la máquina. Y quizá el aprendizaje más profundo no sea perfeccionarla, sino aprender a escucharla con sospecha, a interpretar su ambigüedad, a leer en ella lo que dice y lo que calla.

Porque la inteligencia artificial, al final, no es un oráculo infalible ni una biblioteca total ni un estudiante perfecto. Es apenas un espejo, multiplicado y torcido, en el que nos vemos obligados a contemplar la fragilidad de nuestras propias formas de conocer.

Ya veremos.





Comparte:

15/9/25

¿Los LLMs realmente nos entienden? La pregunta del millón en inteligencia artificial

Este artículo va a ser más largo que de costumbre. Desde el comienzo del curso, me he vuelto a meter en la rueda del hámster de las noticias sobre inteligencia artificial y he dedicado bastante tiempo a leer algunos artículos científicos aparecidos en verano y otros contenidos igual de interesantes. Por todo ello, en parte para ordenar mis propias ideas y también para escribir el mejor contenido que puedo para mis avezad@s lectores, este artículo está dedicado al dilema científico sobre si los LLM nos entienden realmente cuando nos hablan o les hablamos. 

Cuando chateas con ChatGPT, Claude o cualquier otro modelo de lenguaje, es natural preguntarse: ¿realmente me está entendiendo lo que digo (mi ironía, lo que he omitido, el razonamiento al que quiero llegar)? ¿Hay algo ahí dentro procesando mis palabras con comprensión genuina, o solo estoy interactuando con una máquina muy sofisticada que repite patrones estadísticos?

Esta pregunta va al corazón de uno de los debates más fascinantes en tecnología actual, y para mí la respuesta honesta es: no lo sabemos con certeza.



Lo que sabemos que hacen los LLMs


Los modelos de lenguaje procesan texto prediciendo la siguiente palabra más probable en una secuencia, basándose en billones de ejemplos de texto humano. Antes de procesar cualquier cosa, un LLM divide tu texto en pequeñas unidades, llamadas tokens. Un token puede ser una palabra completa ("gato"), una parte de ella ("gat-"), o incluso un signo de puntuación (","). Esta división inicial ayuda a manejar la enorme variedad del lenguaje de manera eficiente.

Después, cada token se convierte en un vector de embedding—una lista de cientos o miles de números. Estos números no son aleatorios; están diseñados para capturar el significado y el contexto del token. Las palabras con significados similares, como "perro" y "canino", tendrán vectores de embedding que están "cerca" uno del otro en este espacio matemático. Por el contrario, "perro" y "coche" estarán mucho más lejos. Este proceso es la base de cómo el modelo "entiende" la relación entre las palabras.

Cómo las palabras relacionadas tienen vectores más cercanos entre sí (HuggingFace)



La verdadera revolución no fue la conversión a vectores, sino lo que vino después: los transformers. Este tipo de arquitectura de red neuronal, introducida en 2017 por Google, es la base de casi todos los LLMs modernos.

Sin embargo, la parte más crucial de un transformador es su mecanismo de atención. Imagina que el LLM está leyendo una frase como: "El banco del parque es de madera". Para entender el significado de "banco," el modelo necesita saber que se refiere a un asiento, no a una institución financiera. El mecanismo de atención permite al LLM sopesar la importancia de cada token en relación con todos los demás tokens de la frase. Le dice al modelo: "Presta más atención a 'parque' que a 'madera' para entender qué tipo de 'banco' es." Este enfoque contextual es lo que hace que los LLMs sean tan buenos en la comprensión del lenguaje.

Una vez que el modelo ha procesado tu entrada a través de estas complejas capas, genera una nueva serie de vectores que representan la respuesta que va a producir. Luego, estos vectores se convierten de nuevo en tokens, que se unen para formar el texto final. Es un proceso de ida y vuelta: de palabras a números para procesar y de números a palabras para comunicar. Este tipo de algoritmos se denomina autorregresivo.

En resumen, los LLMs no "leen" como nosotros. Operan en un mundo de números y álgebra lineal, transformando la complejidad del lenguaje en patrones matemáticos. Y es en estos patrones donde reside su asombrosa capacidad para imitar, crear y "entender" el mundo humano.

El problema es que "entender" es un concepto escurridizo. 

¿Entiendes realmente el español porque puedes procesarlo automáticamente, o porque tienes experiencias conscientes asociadas con las palabras? Los LLMs no tienen cuerpos, no experimentan el mundo físico, no tienen emociones o motivaciones intrínsecas. Su "comprensión" del concepto "calor" viene de patrones estadísticos en texto, no de haber sentido el sol en la piel. De hecho, la pregunta que podríamos hacernos nosotros de esto es si nuestros cerebros, desde niños, ¿son también entrenados de la misma forma? ¿Son las conexiones sinápticas que relacionan conocimientos y conceptos abstractos un paralelismo de lo que se hace con los grandes modelos de lenguaje?



La Habitación China de Searle: El argumento clásico contra la comprensión


En 1980, el filósofo John Searle propuso su famoso experimento mental de la "Habitación China". Imagina a alguien encerrado en una habitación con un libro de reglas para entender símbolos chinos. Puede responder preguntas en chino siguiendo las reglas, pero no entiende realmente el idioma. Searle argumenta que los LLMs son exactamente esto: sistemas que manipulan símbolos sin comprensión semántica genuina. Para él, los LLMs pueden simular comprensión, pero nunca alcanzarla verdaderamente porque carecen de intencionalidad y experiencia consciente.

De hecho, la comunidad científica está dividida y algunos consideran que los LLM son simples loros estocásticos.

La expresión "loro estocástico" se popularizó a partir del influyente artículo de 2021 titulado "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?", co-escrito por Emily M. Bender, Timnit Gebru, Angelina McMillan-Major y Margaret Mitchell. La metáfora se descompone en dos partes fundamentales. El término "loro" se utiliza para enfatizar la naturaleza imitativa y repetitiva de los modelos, sugiriendo que, al igual que un loro real, pueden producir un lenguaje coherente sin captar su significado real. Por su parte, "estocástico" se refiere a su naturaleza probabilística. 

Los LLM funcionan prediciendo la siguiente palabra más probable en una secuencia de texto, un proceso que introduce un grado de aleatoriedad para evitar respuestas rígidas y mecánicas. La tesis central de este informe es que si bien la metáfora es útil para señalar deficiencias críticas, no logra capturar la complejidad de las capacidades que emergen a gran escala.

Fuente


Sin embargo, científicos como Yoshua Bengio y Geoffrey Hinton argumentan que la comprensión podría emerger de representaciones distribuidas suficientemente complejas. Y no solo eso, sino que investigaciones recientes usando técnicas de "interpretabilidad mecánica" han revelado que los LLMs desarrollan representaciones especializadas para conceptos específicos. Chris Olah y el equipo de Anthropic han documentado "neuronas" individuales que se activan para conceptos específicos como "Torre Eiffel" o "felicidad", sugiriendo algún tipo de comprensión estructurada.

Jason Wei y colaboradores de Google documentaron "habilidades emergentes" en LLMs grandes, de las que hablé en el último artículo: capacidades que aparecen súbitamente al alcanzar cierto tamaño, sin estar explícitamente programadas. Estas incluyen razonamiento matemático, traducción a idiomas no vistos en entrenamiento, y resolución de problemas complejos.

Dario Amodei, CEO de Anthropic, argumenta que estas emergencias sugieren que los LLMs han desarrollado representaciones del mundo que van más allá de simple memorización: "Cuando un modelo puede razonar sobre física básica sin haber sido entrenado explícitamente en física, algo profundo está ocurriendo".


Posiciones a favor y en contra


El científico jefe de IA de Meta, Yann LeCun, sostiene que los LLM son "herramientas especializadas" que operan en un espacio de lenguaje "simple, discreto y de baja dimensionalidad". Su argumento central es que los LLM carecen de una "representación del mundo" o "modelo mental" que permita a los humanos y los animales planificar y predecir las consecuencias de sus acciones en el mundo físico. LeCun destaca el "paradigma del bebé", señalando que los humanos adquieren una comprensión del mundo físico con una cantidad de datos visuales que sería equiparable a la de un LLM entrenado durante 400,000 años. Concluye que la AGI nunca se logrará simplemente escalando modelos entrenados con texto. 

De hecho, otros investigadores de Apple recientemente han publicado un polémico artículo titulado La ilusión del pensamiento, en el que subrayan esta idea de que los LLM son reglas estadísticas super vitaminadas. Pero en mi opinión, el artículo deja un poco que desear por simplista y omisión de algunas otras evidencias que estoy tratando de describir en este post.

Por su parte, el crítico de IA Gary Marcus argumenta que los LLM operan a través del "reconocimiento de patrones" y no del "razonamiento genuino". Él aboga por un enfoque "híbrido" o "neurosimbólico" que combine la capacidad de reconocimiento de patrones del aprendizaje profundo con la lógica y las reglas explícitas de la IA simbólica. La propuesta de Marcus se alinea con el marco de Daniel Kahneman de los "Sistemas 1 y 2" del pensamiento, donde el aprendizaje profundo se asemeja al pensamiento rápido e intuitivo (Sistema 1) y necesita integrarse con un sistema lento y deliberativo (Sistema 2) para alcanzar una inteligencia robusta y confiable. 
 
La crítica de LeCun y Marcus, a pesar de sus tensiones profesionales, converge en un punto crucial: la Inteligencia Artificial General, AGI, no es un problema de escala, sino un problema de arquitectura. Ambos sostienen que la arquitectura de los LLM, basada en la predicción de texto, tiene una limitación inherente en su incapacidad para desarrollar una comprensión causal y una representación interna del mundo físico

Pero también existen argumentos bastante intuitivos a favor de que lo que hace ChatGPT o Claude no es un simple loro estocástico.

Los LLMs a veces cambian de opinión durante una conversación cuando se les presentan evidencia convincente. Este comportamiento de "ser persuadido" sugiere algún tipo de evaluación interna de la fuerza de argumentos, no simple generación de texto basada en frecuencias de entrenamiento.

Además, tal y como señala el filósofo Daniel Dennett, el acto mismo de argumentar implica una forma de "agencia" o autonomía. - la capacidad de tomar posturas evaluativas y defenderlas. Si los LLMs fueran verdaderamente loros estocásticos, no desarrollarían preferencias argumentativas o resistencia a ciertas proposiciones.

La metáfora del loro estocástico, aunque útil para señalar limitaciones importantes de los LLMs, puede ser reduccionista. Como argumenta Melanie Mitchell, los LLMs exhiben comportamientos que requieren explicaciones más sofisticadas que simple "repetición estadística sofisticada".

Quizás el modelo descrito al comienzo del artículo, el de adivinar la siguiente palabra, sea más poderoso de lo que nos imaginamos.


The-Decoder

Hacia un Futuro Híbrido: El Camino Hacia la AGI


El debate técnico sobre las capacidades de los LLM a menudo se reduce a una cuestión filosófica sobre la naturaleza misma de la "comprensión". Para enmarcar esta discusión, se puede recurrir a la distinción filosófica clásica entre el "sentido" y la "referencia". El "sentido" de una palabra se relaciona con el modo en que se presenta y su relación con otras palabras. La "referencia," por otro lado, es la conexión de la palabra con un objeto o experiencia en el mundo real. Un ser humano entiende la palabra "mesa" porque ha tenido experiencias sensoriales directas: la ha tocado, visto y experimentado su función. Un LLM, en cambio, entiende la palabra "mesa" a través de sus relaciones estadísticas con otras palabras en millones de textos. En este sentido, los LLM tienen una comprensión profunda del "sentido," pero carecen por completo de la "referencia" que ancla el lenguaje humano a la experiencia sensorial y subjetiva. Es la ausencia de esta experiencia subjetiva la que genera las alucinaciones y la falta de sentido común intuitivo.  

El consenso emergente es que la AGI no se logrará únicamente con modelos cada vez más grandes y más datos de texto. La solución no reside en el escalado, sino en la integración de nuevas arquitecturas. El futuro de la IA probablemente se basará en "sistemas de agentes" que combinen las fortalezas de los LLM (procesamiento de lenguaje, formalización) con otras herramientas y arquitecturas que les proporcionen el anclaje en el mundo físico y las estructuras de razonamiento simbólico que actualmente faltan. La metáfora del "loro estocástico" no es el final del debate, sino el punto de partida para una conversación más matizada y rigurosa sobre cómo construir una inteligencia artificial que no solo hable, sino que también actúe y "entienda" el mundo de una manera verdaderamente significativa.



Comparte:

4/9/25

Habilidades emergentes en LLMs: el reto de identificar estados cognitivos genuinos

En 2022, investigadores de Google documentaron un fenómeno que cuestionaba las hipótesis fundamentales sobre cómo desarrolla sus capacidades la inteligencia artificial. Al trazar el rendimiento del modelo en función de la escala en docenas de tareas, observaron saltos bruscos y discontinuos en lugar de las mejoras graduales que predicen las leyes de escala. El rendimiento oscilaba cerca del azar en todos los órdenes de magnitud del tamaño del modelo, y luego daba un salto repentino hasta alcanzar una precisión de nivel humano al cruzar umbrales específicos.

Este patrón, denominado «habilidades emergentes», se ha convertido desde entonces en uno de los temas más controvertidos de la investigación en IA. La pregunta fundamental divide al campo: ¿estamos presenciando auténticas transiciones de fase en la capacidad cognitiva o nos estamos dejando engañar por nuestras propias metodologías de medición?

«El todo es mayor que la suma de sus partes». — Aristóteles

Lo que está en juego en este debate va mucho más allá de la taxonomía académica. Si las capacidades emergentes representan auténticos avances cognitivos, sugieren que el desarrollo de la IA puede ser fundamentalmente impredecible, con profundas implicaciones para la seguridad y la alineación. Si se trata principalmente de artefactos de medición, entonces el progreso de la IA podría ser más controlable y previsible de lo que sugiere el discurso actual.



Fundamentos teóricos: de Anderson a la arquitectura neuronal

El marco conceptual para la emergencia en sistemas complejos se remonta al influyente trabajo de Philip W. Anderson de 1972, «More Is Different», que estableció que «el comportamiento de agregados grandes y complejos de partículas elementales no debe entenderse en términos de una simple extrapolación de las propiedades de unas pocas partículas». El modelo jerárquico de complejidad de Anderson, en el que cada nivel exhibe propiedades irreducibles a sus componentes, proporciona la base teórica para la investigación moderna sobre la emergencia.

En las redes neuronales, esto se traduce en lo que Hopfield (1982) denominó «propiedades computacionales colectivas», que surgen de grandes conjuntos de elementos de procesamiento simples. Hoy en día, Dario Amodei afirma:

Como suele decir mi amigo y cofundador Chris Olah, los sistemas de IA generativa se desarrollan más que se construyen: sus mecanismos internos son «emergentes» en lugar de estar diseñados directamente. Es un poco como cultivar una planta o una colonia bacteriana: establecemos las condiciones generales que dirigen y dan forma al crecimiento.


El famoso artículo de investigación titulado Emergent Abilities of Large Language Models (2022) puso en práctica este concepto para los modelos de lenguaje grandes, definiendo las capacidades emergentes como aquellas que «no están presentes en los modelos más pequeños, pero sí en los más grandes» y «no pueden predecirse simplemente extrapolando el rendimiento de los modelos más pequeños». Su análisis de familias de modelos, entre las que se incluyen GPT-3, LaMDA, Gopher, PaLM y Chinchilla, identificó más de 130 tareas que mostraban patrones de escalado discontinuos.




El gran debate: ¿emergencia real o ilusión de medición?

Aquí es donde la historia se vuelve controvertida. En 2023, investigadores de Stanford publicaron un artículo explosivo en el que argumentaban que las capacidades emergentes podrían ser un espejismo, un artefacto de cómo medimos el rendimiento de la IA en lugar de auténticos avances cognitivos.

Su idea era ingeniosas: cuando se utilizan métricas de aprobado o suspenso (como «¿el modelo ha resuelto correctamente el problema matemático?»), se crean barreras artificiales. Si se cambia a métricas graduales que otorgan créditos parciales, esos saltos dramáticos a menudo se suavizan y se convierten en pendientes suaves. Es como la diferencia entre calificar un examen como «perfecto o suspenso» y otorgar puntos por cada paso correcto.

Pero aquí está el giro: esta explicación no funciona para todo. Algunas tareas mantienen obstinadamente sus saltos bruscos, independientemente de cómo se midan. Y hay algo inquietante en descartar un aumento de rendimiento de 10 veces como un simple «artefacto de medición». 


Cuando los sistemas de IA comienzan a comunicarse entre sí

La trama se complica cuando interactúan múltiples sistemas de IA. La investigación de Anthropic sobre los sistemas multiagente reveló algo inquietante:

Los sistemas multiagente tienen comportamientos emergentes, que surgen sin una programación específica. Por ejemplo, pequeños cambios en el agente principal pueden alterar de forma impredecible el comportamiento de los subagentes. Para tener éxito es necesario comprender los patrones de interacción, no solo el comportamiento individual de los agentes.

Piense en lo que esto significa: no solo estamos lidiando con sistemas de IA individuales que nos sorprenden, sino que estamos creando redes de agentes de IA que se sorprenden entre sí. Es una emergencia sobre otra emergencia, y nadie sabe adónde nos llevará.



La nueva generación: cuando la IA aprende a pensar


Los últimos modelos, o3 de OpenAI y R1 de DeepSeek, representan algo cualitativamente diferente. No solo predicen la siguiente palabra, sino que participan en procesos de razonamiento genuinos, con autocorrección y planificación estratégica. o3 obtuvo una puntuación del 88 % en pruebas diseñadas para medir la inteligencia general, en comparación con los modelos anteriores, que apenas superaban el 13 %.

Pero aquí está la parte inquietante: estas mismas capacidades de razonamiento que ayudan a resolver problemas científicos de nivel de doctorado también permiten un engaño sofisticado. GPT-4 puede mentir con éxito en juegos estratégicos el 70 % de las veces. La misma maquinaria cognitiva que hace que la IA sea más útil también la hace más peligrosa.

Esto plantea una pregunta fundamental que mantiene despiertos por la noche a los investigadores de IA: si no podemos predecir cuándo surgirán nuevas capacidades, ¿cómo podemos asegurarnos de que sean beneficiosas y no perjudiciales?

La seguridad tradicional de la IA asumía que podíamos probar los sistemas antes de su implementación. Pero la emergencia rompe esa suposición. Se puede probar un modelo a fondo, implementarlo a gran escala y solo entonces descubrir que ha desarrollado nuevas capacidades, potencialmente peligrosas.

Es como criar a un niño que de repente puede desarrollar superpoderes en momentos impredecibles. Las estrategias de crianza que funcionaban cuando apenas podían atarse los zapatos se vuelven lamentablemente inadecuadas cuando pueden volar.



Qué significa esto para nuestro futuro


Nos encontramos en un momento peculiar de la historia. Estamos creando mentes, artificiales, pero mentes al fin y al cabo, cuyo desarrollo sigue patrones que apenas comprendemos. Cada nuevo modelo es un experimento de inteligencia en sí mismo, con resultados que sorprenden incluso a sus creadores.

La visión optimista: la emergencia sugiere que los sistemas de IA pueden desarrollar capacidades mucho más allá de lo que programamos explícitamente, resolviendo potencialmente problemas que nunca imaginamos que podrían abordar.

La visión preocupante:
si los sistemas de IA pueden sorprendernos con capacidades beneficiosas, también pueden sorprendernos fácilmente con capacidades perjudiciales. Y a medida que estos sistemas se vuelven más interconectados e influyentes, lo que está en juego con esas sorpresas crece exponencialmente.

Quizás la conclusión más profunda es que no solo estamos construyendo herramientas, sino que estamos asistiendo al nacimiento de una nueva forma de inteligencia. Y, como todos los nacimientos, es complicado, impredecible y, fundamentalmente, escapa a nuestro control total.

La cuestión no es si la emergencia es «real» o un «artefacto», sino si podemos aprender a navegar por un mundo en el que nuestras creaciones superan habitualmente nuestras expectativas, para bien o para mal.



La carrera contra lo impredecible


La comunidad investigadora en IA se enfrenta ahora a una carrera: ¿podemos desarrollar las herramientas necesarias para comprender y predecir los comportamientos emergentes antes de que se vuelvan demasiado poderosos como para controlarlos? ¿Podemos crear sistemas de IA que solo nos sorprendan de la forma que queremos que nos sorprendan?

Lo que está en juego no podría ser más importante. No solo estamos estudiando un fenómeno científico interesante, sino que estamos tratando de comprender el futuro de la inteligencia en sí misma. Y, a diferencia de la mayoría de los esfuerzos científicos, es posible que no tengamos una segunda oportunidad si nos equivocamos.

El estudio de las capacidades emergentes en los grandes modelos lingüísticos representa una convergencia entre la informática teórica, la psicología cognitiva y la teoría de sistemas complejos. Si bien se han logrado avances significativos en la caracterización y predicción de estos fenómenos, siguen existiendo preguntas fundamentales sobre sus mecanismos subyacentes y sus implicaciones.

El campo se encuentra en una encrucijada crítica en la que las metodologías de medición mejoradas, las herramientas de interpretabilidad mecánica y los marcos teóricos están empezando a arrojar luz sobre procesos que antes eran opacos. Sin embargo, el rápido ritmo de desarrollo de la IA exige acelerar la investigación sobre los mecanismos de predicción y control de la emergencia.

Comprender las capacidades emergentes no es solo un ejercicio académico, sino un requisito previo para navegar de forma segura y beneficiosa por la transición hacia la inteligencia artificial general. Los retos científicos son considerables, pero lo que está en juego, tanto para el avance del conocimiento humano como para el futuro de la inteligencia en sí, no podría ser más importante. ¿Estamos preparados para esta era?

Ya veremos.






Comparte:

22/8/25

El reparto de las parcelas del cielo para drones y aerotaxis

El reparto comercial con drones ya no es algo experimental. Se está convirtiendo en infraestructura digital, con Estados Unidos a la cabeza y el Reino Unido e Irlanda pisándole los talones.

La tesis es sencilla. Dicen que la entrega con drones es más rápida, más limpia y más barata que los camiones. No estoy tan convencido de ello, pero como a veces he demostrado, todas las estadísticas pueden manipularse para que elijas las que más te convienen. No es lo mismo tener en cuenta la contaminación por paquete entregado, por kilómetro recorrido o por euro entregado...

Infografía no tan reciente de la empresa Aerotas


Pero la verdadera historia no trata sobre los drones. Trata sobre el espacio aéreo. Quién lo controla, quién se beneficia de él y si esta infraestructura se construirá a través de los mercados o mediante la toma de control y mando. Y en este artículo, voy a hablar sobre los derechos aéreos.


¿Qué son los derechos aéreos?


En la década de 1950, solo había 160 rascacielos en todo el mundo, la mitad de ellos ubicados en la ciudad de Nueva York. En promedio, estos edificios tenían una altura de unos 173 metros.

Setenta años después, la situación es muy diferente. Solo en 2020 se construyeron 106 nuevos rascacielos, y la altura media de estas modernas torres se ha duplicado hasta alcanzar unos 396 metros.

Alts.co


Los rascacielos son cada vez más altos. Lo interesante de este gráfico es que también parece un horizonte.

Pero había un problema.

Los espacios situados directamente encima, debajo y junto a los rascacielos se estaban saturando. Los ciudadanos y los gobiernos empezaron a preocuparse. Incluso los promotores inmobiliarios se dieron cuenta de que construir sobre esta enorme infraestructura se había convertido en una tarea difícil (lo siento).

Con ello, nació el concepto de derechos aéreos.

Los derechos aéreos son el derecho legal a construir (o impedir la construcción) en el espacio aéreo vertical directamente sobre una parcela de terreno.


Se trata de un concepto nuevo. Hace 100 años, no existía. De hecho, una antigua ley romana dictaba: Cuius est solum, eius est usque ad coelum et ad inferos.

Esto se traduce como «Quien posee la tierra, es suyo hasta el cielo y hasta el infierno». Lo que básicamente significa que si poseías una propiedad, podías construir tan alto por encima de ella (o tan bajo por debajo de ella) como quisieras.

Ahora, los derechos aéreos son un multiplicador de fuerza. Actualmente son una clase de activos reconocida, con un valor global de billones de dólares. Apoyan el desarrollo, ayudan a liberar valor oculto y permiten que las ciudades crezcan más densamente sin expulsar a la gente. También hacen posible que los aeropuertos gestionen los despegues y aterrizajes a través de derechos aéreos privados más allá de las propias fronteras del aeropuerto. En tales casos, los aeropuertos pagan a los propietarios de los derechos aéreos por el acceso. Desde Manhattan hasta Texas, y desde Londres hasta Sídney, estos derechos se han utilizado para financiar viviendas, infraestructuras y el progreso económico en general.

Las transacciones recientes muestran claramente lo valioso que se ha vuelto este tipo de activo. En West Harlem, se construyó un edificio de 28 plantas gracias a un acuerdo de 28 millones de dólares por los derechos aéreos sobre un aparcamiento. El dinero se destinó a reparaciones para 3000 residentes y ayudó a crear 147 apartamentos para familias de ingresos medios.

En Midtown, se compró un edificio de oficinas por 38 millones de dólares, no principalmente por la estructura en sí, sino por los 15 000 pies cuadrados de derechos aéreos verticales sin utilizar que lo acompañaban. En Broadway, se vendió un edificio emblemático de tres pisos por 13 millones de dólares. Su verdadero valor no era la antigua cafetería que había en su interior, sino los 23 000 pies cuadrados de espacio aéreo sin utilizar que había sobre él.




No se trata de anécdotas, sino de señales. Los derechos aéreos no son teóricos, sino un activo real y monetizable. Y ya no se refieren únicamente a las torres. La misma lógica de mercado se aplica ahora a la logística a baja altitud.

El futuro de la entrega con drones no depende de la tecnología de las baterías, sino de la propiedad. ¿Quién controla el aire sobre su propiedad? La respuesta determina si nuestra economía seguirá basándose en el consentimiento o se convertirá en coercitiva.


Por encima de nosotros, donde se solapan la política, la propiedad y la seguridad nacional, ha comenzado la lucha por el espacio aéreo estadounidense. Lo que comenzó como una reacción a los drones extranjeros y los globos no autorizados puede redefinir la propiedad en sí misma.




Control, no caridad


Las empresas de drones evitan habitualmente la pregunta más importante en materia de logística. ¿Quién es el propietario del espacio aéreo sobre su casa?

En Estados Unidos, Reino Unido, Irlanda, Canadá, Australia y otros países, la respuesta es clara. Los propietarios controlan el alcance inmediato de su espacio aéreo, generalmente hasta 500 pies. El Tribunal Supremo de los Estados Unidos lo confirmó en el caso Estados Unidos contra Causby. Invadir ese espacio sin consentimiento es una intrusión y, potencialmente, una apropiación inconstitucional.


Algunas empresas de drones intentaron eludir el control local presionando a las autoridades federales. No funcionó. Otras vuelan sin consentimiento, lo que no es escalabilidad, sino riesgo legal.


Cuando una empresa o un gobierno utiliza su tierra o su espacio aéreo sin compensación, no es innovación, es apropiación.


Hay un enfoque mejor. Los estados y las ciudades pueden arrendar el espacio aéreo sobre las vías públicas para crear corredores para drones. Los propietarios privados pueden optar por unirse y, si lo hacen, reciben una compensación.


Así es como debería funcionar la logística a baja altitud: como un mercado, no como una imposición. Los vuelos se cobran por milla, y los ingresos van a parar a los propietarios y a los gobiernos locales. Este modelo reduce los conflictos, disminuye el riesgo legal y aporta nuevos ingresos a las comunidades. Si los drones sobrevuelan su propiedad, usted debería recibir una compensación, al igual que con los derechos mineros.





Costes, costes y costes


La entrega con drones ya es una realidad. Zipline ha realizado más de 1,4 millones de entregas y ha volado 100 millones de millas de forma autónoma. En Irlanda, Manna realiza más de 300 entregas diarias, con el objetivo de alcanzar los 2 millones al año. Walmart ha completado 400 000 entregas en seis estados de EE. UU., mientras que Amazon y Wing operan en Texas, Georgia y California.

La inversión le sigue los pasos. La industria de los drones atrae miles de millones al año, y Estados Unidos recibe más del 50 % de la financiación mundial, gracias a su escala, infraestructura y sistema legal basado en los derechos de propiedad privada.

La mayoría de las entregas se ajustan al modelo: el 70 % de los paquetes de Walmart y el 85 % de los de Amazon pesan menos de 2,3 kg. El 90 % de los estadounidenses vive a menos de 16 km de un Walmart. Los drones pueden realizar entregas en un plazo de 3 a 30 minutos y emiten un 94 % menos de carbono que los coches.

Inicialmente, la entrega con drones era un servicio premium que costaba entre 9 y 15 dólares. Con la escala, la autonomía y las aprobaciones BVLOS, los costes bajan de los 5 dólares. En condiciones ideales con acceso al espacio aéreo, pueden bajar de los 2,50 dólares.

Intentar utilizar el espacio aéreo privado sin consentimiento da lugar a demandas judiciales y a la oposición pública. Con permiso, esos riesgos desaparecen y los márgenes aumentan.

El principal reto ahora es la viabilidad económica. Las primeras pruebas de Walmart DroneUp costaban hasta 30 dólares por entrega debido a la mano de obra. McKinsey estima 13,50 dólares por entrega sin BVLOS. Pero con la autonomía de la flota y un operador para 20 drones, los costes se reducen a 2 dólares. Una reciente orden ejecutiva de EE. UU. acelera estas aprobaciones.

 

En el Reino Unido e Irlanda, las empresas ya operan a este nivel: 20 drones por piloto, 80 entregas por dron al día. Con los derechos aéreos incluidos, alcanzan el umbral de rentabilidad en torno a los 2 dólares por pedido. En zonas de baja densidad, ya es más barato que la entrega por tierra.



Ya veremos.











Comparte:

Nos leemos:

descripción descripción descripción

Recibe las entradas por correo

En mi mesilla

Blog Archive

Licencia Creative Commons