Início 9 Ligeiras de IA 9 Modelos de IA são fáceis de ‘envenenar’, revela estudo da Anthropic

Últimas notícias

out 16, 2025 | Ligeiras de IA, Notícias

Modelos de IA são fáceis de ‘envenenar’, revela estudo da Anthropic

COMPARTILHAR:

Um estudo recente da Anthropic, em parceria com o Instituto de Segurança de IA do Reino Unido e o Instituto Alan Turing, revelou que grandes modelos de linguagem (LLMs), como o Claude e o ChatGPT, podem ser facilmente “envenenados” por agentes maliciosos, mesmo com uma quantidade pequena de dados contaminados. A pesquisa mostrou que inserir cerca de 250 documentos maliciosos contendo uma frase específica — chamada de backdoor — já é suficiente para que o modelo apresente comportamentos indesejáveis, como gerar textos aleatórios e sem sentido sempre que essa frase for detectada. A principal conclusão da investigação é que a eficácia do ataque não depende da dimensão do modelo nem do volume de dados de treino legítimos.
Com informações de Núcleo

COMPARTILHAR: