Human Rights Watch (HRW) ha destapado un grave problema que afecta la privacidad infantil en el ámbito de la inteligencia artificial. Según una reciente investigación, el conjunto de datos LAION-5B, utilizado para entrenar modelos de IA, incluye más de 100 imágenes de niños que fueron obtenidas sin el consentimiento de sus padres.
La investigadora Hye Jung Han ha descubierto que este conjunto de datos contiene hasta 170 fotos de niños brasileños, extraídas de blogs, redes sociales y videos de YouTube con restricciones de acceso. Esto es particularmente alarmante porque YouTube prohíbe la recopilación de datos personales sin la debida autorización, lo que pone en evidencia un incumplimiento serio de sus normas.
La situación se agrava con el hallazgo de otras 190 imágenes de niños australianos, algunas de las cuales incluyen fotos de recién nacidos y niños en trajes de baño, publicadas bajo estrictas medidas de privacidad. Muchas de estas imágenes fueron tomadas por fotógrafos contratados por familias o instituciones educativas para eventos específicos, lo que resalta la falta de control en la recopilación de datos.
Más preocupante aún es que algunas de estas imágenes contienen información sensible, como nombres y direcciones. En un caso, una imagen permitió a los investigadores identificar a dos niños en Perth, Australia, junto con la guardería que frecuentaban. Esto muestra la vulnerabilidad de los menores en el entorno digital actual.
Aunque encontrar estas imágenes a través de búsquedas convencionales en internet es complicado, la creación de conjuntos de datos como LAION-5B ha pasado por alto las medidas de privacidad de padres y cuidadores. HRW ha revisado solo una muestra del conjunto de datos, pero ha encontrado una cantidad significativa de fotos privadas de niños.
En respuesta a estas revelaciones, LAION, la organización detrás del conjunto de datos, ha afirmado tener una política de "tolerancia cero con el contenido ilegal". Sin embargo, ha admitido que eliminar estas imágenes es un proceso complicado y que, una vez que los modelos de IA han sido entrenados, no es posible "olvidar" la información, lo que significa que el daño ya está hecho.
Este descubrimiento subraya la necesidad urgente de implementar regulaciones más estrictas y controles rigurosos en la recopilación y uso de datos para entrenar modelos de IA. La privacidad y los derechos de los menores no deben sacrificarse en nombre de la precisión y eficacia de estos modelos, planteando serias preguntas sobre la ética y legalidad de las prácticas actuales de recopilación de datos.
Comentarios