En la era de la inteligencia artificial y el machine learning, el valor de los datos es incuestionable. Los modelos aprenden, predicen y toman decisiones a partir de los datos con los que son entrenados.

Sin embargo, cuando los datos reales escasean o no pueden utilizarse por razones de privacidad, muchos equipos recurren a una solución aparentemente ideal: los datos sintéticos. Estos son generados artificialmente para imitar las características estadísticas de conjuntos de datos reales y al mismo tiempo evitar revelar información identificable o confidencial.
El caso es que, aunque es cierto que los datos sintéticos tienen múltiples beneficios, que van desde proteger la privacidad hasta aumentar el volumen de datos disponibles para entrenar modelos, su uso excesivo o mal gestionado puede conducir a un problema cada vez más preocupante: la degradación progresiva de la calidad de los datos y, en consecuencia, de los modelos entrenados con ellos.
¿Qué es la degradación de datos?
La degradación de datos ocurre cuando los modelos se entrenan repetidamente con datos que no representan fielmente la realidad. Si bien los datos sintéticos pueden ser útiles como complemento, cuando se convierten en la fuente principal, o única, de información, los modelos empiezan a aprender patrones que no existen en el mundo real, o a reforzar errores estadísticos generados durante la síntesis de datos, ¿habéis jugado alguna vez al teléfono escacharrado?, pues es básicamente lo mismo, el primer modelo tendrá unos datos correctos pero lo que le llegue al último es otra historia.
Un fenómeno relacionado a la degradación de los datos, y consecuencia de éste, es el de la autointoxicación de modelos: cuando modelos generativos son entrenados con datos producidos por otros modelos, que a su vez fueron entrenados con datos sintéticos. Este bucle puede producir una pérdida acumulativa de precisión y relevancia. Con el tiempo, el sistema comienza a divergir de la realidad, haciendo predicciones o generando contenido cada vez menos útil, e incluso peligroso.
Ejemplo: degradación en modelos generativos
Un caso concreto de cómo se produce este fenómeno se puede observar en los modelos generativos de lenguaje e imagen.
Si un modelo de lenguaje es entrenado con grandes cantidades de texto generado por otros modelos (en lugar de texto humano original), comenzará a mostrar síntomas de lo que se conoce como modelo degenerativo. El vocabulario puede volverse más limitado, las estructuras gramaticales más repetitivas y la riqueza semántica disminuye.
En modelos de imagen, entrenar con imágenes sintéticas puede llevar a resultados visuales borrosos, patrones repetitivos o pérdida de fidelidad visual, como ocurre cuando haces una foto de una foto y observas que sin apenas darte cuenta vas perdiendo calidad en cada iteración. A medida que más modelos se entrenan con contenido generado por otros modelos, se crea una especie de “ecosistema artificial” donde los errores y sesgos se amplifican.
¿Hay soluciones?
El uso de datos sintéticos no es inherentemente malo. De hecho, puede ser una herramienta muy valiosa si se utiliza con responsabilidad. Para eso algunas buenas prácticas que se pueden aplicar son:
- Planificar: analizar previamente los datos que se van a incorporar, seleccionar variables y preprocesar los datos originales para sentar unas bases sólidas para la generación de datos sintéticos. El objetivo es garantizar que los datos sintéticos se ajusten a los casos de uso previstos y reproduzcan eficazmente el conjunto de datos original.
- Validación constante con datos reales: los modelos deben evaluarse regularmente con datos del mundo real para evitar que se desvíen de la realidad.
- Documentación y trazabilidad: saber cómo se generaron los datos sintéticos y qué supuestos estadísticos se usaron son elementos clave para entender sus limitaciones.
- Uso de datos híbridos: combinar datos reales con datos sintéticos manteniendo un equilibrio adecuado.
- Control de calidad en la generación sintética: aplicar filtros, verificaciones estadísticas y pruebas para asegurar que los datos sintéticos no introduzcan ruido o sesgos significativos.
Los datos sintéticos son una herramienta poderosa, pero como toda tecnología, su uso requiere criterio, supervisión y una comprensión profunda de sus riesgos. La degradación de datos es un peligro silencioso pero real, que puede socavar la confiabilidad de los modelos y afectar decisiones en múltiples ámbitos. Por eso, la clave está en recordar que los datos sintéticos no reemplazan a la realidad: sólo la simulan. Entrenar sistemas inteligentes sin contacto constante con datos reales es, a la larga, entrenarlos para un mundo que no existe.

