El procesamiento masivo de datos es una herramienta de importancia creciente en nuestros días. Personas y objetos producimos grandes cantidades de datos que, convenientemente interpretados, aportan nuevo conocimiento y ventajas competitivas. En ocasiones, existen limitaciones a esta explotación, bien por condicionantes legales (protección de datos personales) o bien por resultar costoso o complejo obtener datos relevantes suficientes para comprender un determinado fenómeno.

Los datos sintéticos surgen en respuesta a estas limitaciones. Son elaboraciones de información creadas por ordenador a partir de datos reales o simulaciones. Buscan imitar fielmente los eventos del mundo real, de tal manera que los análisis y resultados mantengan la veracidad que se habría obtenido con datos originales.

Una aplicación sencilla de los datos sintéticos es la anonimización de datos personales. La Agencia Española de Protección de Datos contempla técnicas de «perturbación de datos», como la generación de datos aleatorios sobre el conjunto original (distorsión de datos) y la combinación de datos originales con datos sintéticos (hibridación). De este modo se evita revelar información que pueda conducir a la identificación de casos específicos.

También en el segmento financiero, donde existen elevados requisitos de confidencialidad, los datos sintéticos permiten avanzar en la prevención y detección de operaciones fraudulentas. En este contexto, Hazy ofrece una plataforma de generación de datos sintéticos para incrementar la precisión en la detección de falsos positivos de fraude en pagos con tarjeta bancaria, así como para mejorar la evaluación de riesgos de los clientes en productos financieros y seguros.

En el ámbito de la salud, el futuro European Health Data Space se basa en adoptar tecnologías de anonimización de información de pacientes y en la creación de datos sintéticos para entrenar algoritmos de inteligencia artificial y mejorar el diagnóstico de enfermedades.

Precisamente en las aplicaciones de la inteligencia artificial, los datos sintéticos muestran una gran potencialidad. Facebook los aplica para identificar posibles casos de bullying a partir del empleo de lenguaje intimidante en su plataforma. Waymo, la empresa desarrolladora de vehículos autónomos de Google, obtiene grandes cantidades de datos sintéticos en simuladores de conducción antes de hacer pruebas en entorno real. La española Anyverse utiliza datos sintéticos para replicar digitalmente entornos del mundo real, acortando el tiempo de desarrollo de vehículos autónomos avanzados.

Desgraciadamente, otras aplicaciones de los datos sintéticos persiguen oscuros objetivos, como la generación de contenido multimedia engañoso (vídeos falseados y fake news), que se ha incrementado en un 50% durante la cuarentena. Para combatirlo, además de los esfuerzos de los grandes operadores de redes sociales (mejora de algoritmos de control y verificadores de datos), es necesario practicar el análisis crítico, como mejor protección individual y colectiva. Todo un desafío.