La frase "Los datos son el nuevo petróleo" fue acuñada en 2006 por Clive Humby, un matemático británico. Desde entonces, muchas otras personas han utilizado este concepto o algo parecido. Pero no fue hasta 2017, cuando The Economist publicó un artículo titulado "The world's most valuable resource is no longer oil, but data" (El recurso más valioso del mundo ya no es el petróleo, sino los datos), cuando el concepto generó muchos debates activos y esta frase se convirtió en el nuevo eslogan con el que se aglutina la Cuarta Revolución Industrial.
Desde 2017, se pueden encontrar en Internet múltiples versiones de la mencionada frase, tanto a favor como en contra.
A principios de esta semana, el Wall Street Journal informó de que las empresas de IA se estaban topando con un muro a la hora de recopilar datos de entrenamiento de alta calidad. Hoy, el New York Times ha detallado algunas de las formas en que las empresas se han enfrentado a esta situación. Como era de esperar, se trata de hacer cosas que caen en la difusa zona gris de la ley de derechos de autor de la IA.
La historia comienza con OpenAI, que, desesperada por conseguir datos de entrenamiento, desarrolló su modelo de transcripción de audio Whisper para transcribir más de un millón de horas de vídeos de YouTube y entrenar así a GPT-4. Según el New York Times, el modelo de transcripción de audio Whisper de OpenAI ha sido utilizado para entrenar a GPT-4. La empresa sabía que era legalmente cuestionable, pero creía que se trataba de un uso legítimo.
Ahora, algunos estudios predicen que los datos de alta calidad podrían agotarse en 2026. A medida que surgen más aplicaciones, la demanda de datos para entrenar modelos crece exponencialmente. Además, factores como la privacidad de los datos personales y los derechos de autor sobre los contenidos en línea restringen cada vez más la disponibilidad de datos utilizables para el entrenamiento. Y también preocupa especialmente la escasez de datos para los idiomas y dominios menos abundantes.
Entre las posibles soluciones a ese problema está el entrenamiento de modelos con datos sintéticos, que consiste en generar datos artificiales con la esperanza de que sustituyan a piezas de información reales. Se ha utilizado incluso para entrenar modelos de conducción autónoma. Sin embargo, el uso de datos sintéticos para el enfoque de entrenamiento LLM aún no está probado.
Los datos sintéticos tienen dificultades para capturar la verdadera complejidad y diversidad de los datos del mundo real, y existen diferentes técnicas para generarlos. Los datos sintéticos resultan útiles cuando no hemos recopilado demasiados casos extremos y clases poco comunes.
Algunos de los principales retos a los que se enfrentan los datos sintéticos son:
1. Falta de
heterogeneidad: Los datos del mundo real suelen ser muy diversos, con
una gran variedad de tipos de datos, formatos, distribuciones, etc. Es
difícil replicar esa complejidad en datos sintéticos.
2. Sesgo y
distribuciones poco realistas: Los procesos utilizados para generar
datos sintéticos a menudo introducen sesgos y distribuciones que no se
alinean con la realidad. Esto puede llevar a modelos de IA entrenados en
estos datos a desarrollar comportamientos y habilidades poco realistas.
3. Ausencia de
interacciones del mundo real: Los datos sintéticos a menudo carecen de
las interacciones y contextos del mundo real que dan forma a los datos
del mundo físico. Esto puede hacer que los modelos de IA entrenados en
estos datos sean poco robustos fuera de los escenarios sintéticos.
Por lo tanto, es crucial combinar el uso de datos sintéticos con datos del mundo real, e incluso con enfoques de aprendizaje continuo que permitan a los modelos de IA adaptarse y evolucionar a medida que interactúan con datos más diversos y realistas. Sólo así podremos desarrollar sistemas de IA verdaderamente robustos, capaces de navegar por la complejidad del mundo.
0 comentarios:
Publicar un comentario