Una famosa cita científica dice que si no usas datos, probablemente lo que hagas no sea ciencia. Pero contar con datos no resuelve el problema completo, ya que normalmente hay que interpretarlos y establecer una relación entre los datos con los que contemos.
En este artículo pretendo explicar un par de casos históricos famosos sobre el problema de sobreajuste. Es decir, lograr que la relación que calcules sobre tus datos, sea demasiado cercana a los propios datos. Se va a entender muy bien con los siguientes ejemplos:
- Evolución del tamaño de población de Estados Unidos
Este ejemplo apareció en la página de Mathworks del software matemático Matlab. En ella, se dibujan algunos puntos del tamño de población de Estados Unidos a lo largo de la historia, y se ajusta con uan ecuación de segundo grado.
Pero si yo fuera Donald Trump, me preocuparía por ver la evolución de esta gráfica en el futuro:
Es decir, este ejemplo demuestra que a pesar de que la curva se ajusta muy bien a los datos puntuales con los que yo tenía, la gráfica no es correcta (o eso esperamos).
Lógicamente, no todos las líneas, según su grado, van a ajustar correctamente con la realidad, pero puede que arrojen resultados más lógicos.
- Ptolomeo y su sistema de círculos
Ptolomeo consideró que la Tierra era el centro del universo, y para eso creó un sistema de círculos que según él, reproducía perfectamente los movimientos de todos los cuerpos celestes alrededor de la Tierra. El problema era que había que dibujar nuevos círculos cada cierto tiempo para ajustar los datos.
Cuando el resto de los astrónomos tuvieron que crear tantos círculos que el modelado les parecía dudoso, llegó Copérnico a desarrollar un sistema más realista.
- La central de Fukushima
Este ejemplo de la central nuclear probablemente sea uno de los más esclarecedores de sobreajuste: para fabricar la central, los ingenieros se basaron en una relación denominada ley de Gutenberg - Richter, la cual establece la frecuencia de que ocurran terremotos de cierta magnitud. Desde los imperceptibles hasta los terremotos de grado 10.
Ahora, fijaros en las siguientes dos imágenes:
La primera imagen representa la relación que crearon los ingenieros, consistente en dos líneas rectas, donde el punto de inflexión ocurre alrededor de 7,3. La segunda imagen muestra un ajuste de los datos peor, consistente en una única recta. Sin embargo, la primera imagen establece que un terremoto de grado 9 se da cada 13.000 años, mientras que la segunda imagen indica que un terremoto así se da cada 300. Y por esta razón, Fukushima fue dimensionada solo para aguantar un terremoto de 8,6 grados.
¿Sorprendente? Un error de cálculo que costaba arreglar 30 segundos provocó que se echase a perder una gran infraestructura. Los datos no lo son todo. También existe su correcta interpretación.
Fuente:
1- https://ml.berkeley.edu/blog/2017/07/13/tutorial-4/
2- https://stats.stackexchange.com/questions/128616/whats-a-real-world-example-of-overfitting
3- https://datascience.stackexchange.com/questions/61/why-is-overfitting-bad-in-machine-learning
4- https://www.britannica.com/science/Ptolemaic-system
0 comentarios:
Publicar un comentario