Com o setor da Inteligência Artificial aquecido, as plataformas digitais também estão desenvolvendo seus próprios produtos baseados em IA generativa. E estão utilizando os conteúdos públicos postados pelos próprios usuários nas redes como dados de treinamento.
O X, antigo Twitter, poderá coletar dados de usuários para treinar modelos de aprendizado de máquina e softwares de inteligência artificial em breve. No final de agosto, a rede social atualizou seus termos de uso e políticas de privacidade para incluir a coleta de dados biométricos de usuários e seus históricos acadêmicos e de trabalho. Em setembro passado, essas políticas foram atualizadas novamente, e uma seção específica do documento afirma que a plataforma poderá usar dados biométricos e outras informações públicas para treinar robôs de IA.
No início deste mês, a Meta anunciou o lançamento do chatbot Meta AI e da ferramenta generativa de imagens Emu. Para construir e aperfeiçoar essas novas funcionalidades, a empresa afirmou ter utilizado postagens de texto e de imagem compartilhadas publicamente pelos próprios usuários no Facebook e Instagram.
Isso significa que aquele carrossel com fotos das férias, a legenda em homenagem ao aniversário do amigo ou um desabafo sobre uma situação rotineira, se postados em modo público, agora servem de base para o funcionamento dessas novas tecnologias. Mas até que ponto isso pode ser feito?
A pesquisadora do Data Privacy Brasil, Paula Guedes, explica que, no Brasil, existem parâmetros mínimos de uso e proteção de dados pessoais, mesmo que públicos, definidos pela Lei Geral de Proteção de Dados (LGPD), e que devem ser seguidos por essas empresas no treinamento de suas aplicações de IA. “Não é porque o dado pessoal é público que ele pode ser utilizado como quiser”, afirma a pesquisadora.
O tratamento desses dados, explica Guedes, deve considerar a finalidade, a boa-fé e o interesse público que justificaram sua disponibilização. O tratamento também deve resguardar os direitos do titular e os princípios da lei. Além disso, os dados podem até ser utilizados para outras finalidades, além daquelas descritas originalmente, mas apenas quando observados propósitos legítimos e específicos para isso.
“Por exemplo, se um usuário disponibiliza suas fotos em uma rede social para compartilhamento com amigos, não é esperado por ele que essas fotos sejam usadas para nutrir bancos de dados para gerar novas fotos suas por IA”, explica.
Sobre os dados privados, aqueles que são compartilhados em chats ou em perfis fechados, as empresas afirmam não utilizarem para o treinamento dos sistemas inteligentes. Questionada sobre o cumprimento desse compromisso, Paula diz que é cética “mas, a princípio, não vejo muita escapatória além de confiar no que é alegado”.
Desafios de conformidade à LGPD
A pesquisadora do Data Privacy Brasil também explica que a raspagem de dados de redes sociais para o desenvolvimento de sistemas de IA não é algo novo, sendo realidade e um tópico problemático antes mesmo do ChatGPT e concorrentes se popularizarem.
No entanto, com a entrada dos novos modelos generativos no cenário comunicacional – que precisam de uma quantidade e variedade massiva de dados para fins diversos e não definidos previamente – essa coleta apresenta novos desafios de adequação às diretrizes jurídicas estabelecidas previamente no Brasil para coleta e manejo de dados digitais.
“Em caso de dados pessoais, eu acredito que haja grande dificuldade de enquadrar essa coleta de dados para treinamento de IA dentro dos requisitos da Lei Geral de Proteção de Dados”, avalia a pesquisadora.
Isso porque, ainda segundo ela, essas novas dinâmicas trazidas pelas IAs generativas apresentam dificuldades de conformidade às chamadas bases legais definidas pela LGPD, que justificam a coleta de dados realizados pelas empresas. Uma dessas bases é o consentimento dado pelo próprio usuário, que deve autorizar a extração dos dados mediante a explicação transparente sobre as finalidades e as formas como suas informações serão utilizadas.
Outro ponto identificado pela pesquisadora é a dificuldade dessas empresas em cumprir os princípios estabelecidos pela mesma lei, como a de finalidade e de necessidade, os quais determinam que as empresas devem justificar ao usuário o propósito da extração, limitando o tratamento ao mínimo necessário para que seja realizada a finalidade explicitada.
PL 2338 propõe segurança de dados pessoais
Além da LGPD, em em vigência desde 2018, atualmente se encontra em tramitação no Senado Federal o Projeto de Lei 2338/2023, de autoria do senador Rodrigo Pacheco (PSD-MG), e que atualmente se encontra sob análise da Comissão Temporária Interna sobre Inteligência Artificial no Brasil (CTIA). O PL também propõe mecanismos de segurança para proteger os dados pessoais dos cidadãos brasileiros.
No texto que se encontra na casa legislativa, o projeto prevê, por exemplo, que pessoas afetadas por sistemas de IA consigam pedir o bloqueio ou a eliminação de dados pessoais que consideram desnecessários, excessivos ou tratados em desconformidade com a legislação.
“Caso aprovado como está hoje, eventualmente teríamos IAs Generativas enquadradas como sistemas de alto risco pela regulação, o que pode trazer maior proteção das pessoas”, diz a pesquisadora do Data Privacy Brasil.
Organização pede que Microsoft esclareça uso de dados
A Mozilla Foundation lançou uma campanha, no início de setembro, pedindo que a Microsoft deixasse claro aos usuários se estão utilizando dados pessoais dos usuários produzidos nos seus 130 produtos (incluindo os aplicativos Office, Skype e Teams) para o treinamento de sistemas de IA. A campanha foi iniciada após os integrantes da organização, como advogados e especialistas em privacidade, não conseguirem identificar os planos da corporação no novo contrato de serviço disponibilizado aos usuários.
“Se nove especialistas em privacidade não conseguem entender o que a Microsoft faz com nossos dados, qual é a chance que uma pessoa comum tem para isso? É por essa razão que estamos pedindo à Microsoft para falar se eles estão usando nossos dados pessoais para treinar suas IAs”, afirmou a organização.