Um estudo recente da Anthropic, em parceria com o Instituto de Segurança de IA do Reino Unido e o Instituto Alan Turing, revelou que grandes modelos de linguagem (LLMs), como o Claude e o ChatGPT, podem ser facilmente “envenenados” por agentes maliciosos, mesmo com uma quantidade pequena de dados contaminados. A pesquisa mostrou que inserir cerca de 250 documentos maliciosos contendo uma frase específica — chamada de backdoor — já é suficiente para que o modelo apresente comportamentos indesejáveis, como gerar textos aleatórios e sem sentido sempre que essa frase for detectada. A principal conclusão da investigação é que a eficácia do ataque não depende da dimensão do modelo nem do volume de dados de treino legítimos.
Com informações de Núcleo
Últimas notícias

Modelos de IA são fáceis de ‘envenenar’, revela estudo da Anthropic
