A LAION, uma organização alemã sem fins lucrativos que gerencia um conjunto de dados usado para treinar ferramentas populares de inteligência artificial (IA), removeu de seu conjunto de dados algumas fotos de crianças e adolescentes que foram secretamente incluídas e usadas indevidamente para alimentar modelos de IA. Estes modelos, por sua vez, poderiam gerar deepfakes com imagens realistas de outras crianças e adolescentes.
A medida ocorre após um relatório de dezembro de 2023 do Stanford Internet Observatory encontrar imagens conhecidas de abuso sexual infantil no conjunto de dados da LAION, e investigações recentes da Human Rights Watch identificarem fotos pessoais de crianças e adolescentes brasileiros e australianos secretamente inseridas no conjunto de dados.
O treinamento com fotos reais de crianças e adolescentes permite que os modelos de IA criem clones convincentes. As imagens que encontramos no conjunto de dados da LAION capturavam os rostos e os corpos de 358 crianças e adolescentes do Brasil e 362 da Austrália, sem seu consentimento, e foram usadas para treinar modelos de IA utilizados para criar deepfakes sexualmente explícitas de outras crianças e adolescentes.
A LAION confirmou nossa descoberta de que algumas imagens de crianças e adolescentes estavam acompanhadas de informações sensíveis, as quais, conforme denunciamos, tornavam suas identidades facilmente rastreáveis. A Human Rights Watch confirmou que a LAION removeu as fotos identificadas de crianças e adolescentes de seu recém-lançado conjunto de dados.
A remoção dessas imagens pela LAION é um passo positivo e prova que é possível remover os dados pessoais de crianças dos conjuntos de dados de treinamento de IA. Também reconhece a gravidade dos danos causados a crianças e adolescentes quando seus dados pessoais são usados para prejudicá-los ou para prejudicar terceiros de maneiras que são impossíveis de prever ou evitar, devido à natureza dos sistemas de IA.
Contudo, sérias preocupações permanecem. Analisamos apenas uma pequena fração – menos de 0,0001% – do conjunto de dados da LAION, sendo provável que as imagens de muito mais crianças e adolescentes identificáveis permaneçam no conjunto de dados. Os modelos de IA que foram treinados no conjunto de dados anterior não podem esquecer as imagens que agora foram removidas. Além disso, a Human Rights Watch só conseguiu realizar essa pesquisa porque o conjunto de dados da LAION é de código aberto, ou seja, os conjuntos de dados que foram construídos e são de propriedade privada de empresas de IA permanecem sem escrutínio.
É por isso que os governos deveriam aprovar leis que protejam a privacidade de todas as crianças e adolescentes por meio de seus dados.
Este mês, o governo australiano anunciará se honrará seu compromisso de introduzir a primeira lei desse tipo no país, o Código de Privacidade da Criança. E o Senado brasileiro deliberará em breve sobre uma proposta de lei que protege os direitos das crianças on-line, incluindo a privacidade de seus dados.
Essas são oportunidades raras de proteger crianças e adolescentes de forma significativa. Legisladores deveriam protegê-los.