Los sesgos de los sistemas inteligentes y la realidad ~ El blog de Julián Estévez

Hace dos semanas, saltó a la palestra la noticia de que el programa de inteligencia artificial que usa Amazon para contratar a trabajadores tenía una clara preferencia hacia los hombres. Estas distinciones y decisiones injustas merecen más atención desde hoy mismo que la que los medios le están dando, pero no le veo fácil solución a este problema de la tecnología. En este texto explico por qué.

Para ello, me voy a centrar en un caso un poco más antiguo, de mayo de 2016, en el que el medio ProPublica acusaba a un sistema inteligente, COMPAS, usado en el sistema de justicia estadounidense, de tener un sesgo contra las personas negras a la hora de predecir si un delincuente volvería a reincidir o no. Concretamente, con las personas blancas tenía una mayor posibilidad de predecir que no reincidían, y finalmente sí que lo hacían. Mientras, con las negras predecía que iban a volver a delinquir y finalmente no lo hacían.

A pesar de que se armó un buen escándalo, cuatro meses después el Washington Post publicó un artículo en el que demostraba que las interpretaciones de sesgos sobre COMPAS que había realizado ProPublica no eran nada consistentes y que no estaba claro que el programa tuviera una mala preferencia. El problema está en cómo define ProPublica un sistema justo.

Fuente

Para Northpoint, la empresa desarrolladora de COMPAS, la aplicación es justa y veraz, ya que la proporción de la población que reincidió es igual en cualquiera de los dos colectivos, tal y como se puede ver en la imagen. A esto se le denomina calibración del sistema. Sin embargo, ProPublica se fijaba en el conjunto que finalmente no reincidió. Y aquí viene el problema: es imposible tener una solución tecnológica que sea justa según las dos definiciones. De hecho, eso de lo que acusó ProPublica es una de las consecuencias necesarias de diseñar un algoritmo sin sesgos. Un equipo de investigadores de la universidad de Stanford se propusieron calcular el coste de la equidad y concluyeron que el algoritmo, en efecto, se podía hacer que no tuviera la famosa distinción entre blancos y negros, pero a costa de perder precisión en el conjunto global. Llevaría a tener un 17% más de blancos en la cárcel con muy poco riesgo de reincidencia.

Hay que tener claro qué es estrictamente hablando, un sesgo, en el sentido matemático, y qué es lo que promulgan muchos medios. Vayamos en primer lugar con el sentido científico:

En estadística, un sesgo (bias en inglés) se define como un predictor que provoca que los todos los errores vayan en la misma dirección. Es distinto de la imprecisión (variance), el cual se usa para describir errores sin ninguna dirección en particular. El siguiente gráfico lo describe muy bien:

Fuente

Es decir, para un matemático un sesgo corresponde a la diferencia entre la respuesta que da un sistema de inteligencia artificial y la realidad. Sin embargo, los medios extienden que un sesgo es la diferencia entre la respuesta tecnológica y la realidad idealizada que tienen los periodistas. Y eso no tiene ningún sentido. Una cosa es la realidad veraz, la que existe y a partir de la cual se extraen los datos para entrenar a una solución inteligente, y otra cosa muy distinta es la realidad que alguien crea que debería ser.

Por decirlo de una manera sencilla: es nuestra realidad la que está sesgada. Y manipular los datos para que no lo sea, implica una manipulación que daría lugar a otro tipo de sesgos en las respuestas de los sistemas inteligentes. Cualquier modelización de nuestra realidad va a estar sesgada. Siempre va a existir el mismo problema mientras existan dos distribuciones de personas de diferente tamaño. De hecho, no importa cuánto me aleje o me acerque al detalle de la muestra: siempre apareceran subgrupos.

Como consecuencia, la cuestión sobre este tipo de algoritmos se reduce a una cuestión moral que habrá que regular de alguna manera. Habrá que establecer unas reglas de manera que se establezcan un orden de prioridades de sesgos asumibles, siendo conscientes de que se van a producir. De hecho, Google tiene una página interactiva donde se expone claramente un caso de dos grupos de población y cómo procesa la información un algoritmo a la hora de decidir si concederles un crédito o no. El ejemplo original se basaba en que a las personas negras les rechazaban muchos más créditos que a las blancas. Pero simplemente respondía a la realidad de que el primer grupo tenía menos ingresos y más impagos que el segundo. No nos gusta la realidad. Pero el gigante tecnológico concluye en que se podría eliminar ese sesgo a costa de que muchas menos personas reciban una respuesta positiva a su préstamo, en los dos grupos de población.

Cada vez aparecerán más casos de este tipo. Al caso de Amazon y COMPAS, hay que unir los no tan famosos del mismo Google, algoritmos financieros y medios de comunicación. Pero no serán ni los primeros ni los últimos, y hay que tener claro de qué estamos hablando.

En este caso concreto, me temo que los códigos abiertos no van a venir a arreglar el problema.

Fuentes:
- Jacobitemag.org
- Hackernoon.com

Comparte: