Início 9 Ligeiras de IA 9 Modelos de IA são fáceis de ‘envenenar’, revela estudo da Anthropic

Últimas notícias

1760336968328_ai-freepik-1760320938687936709912

out 16, 2025 | Ligeiras de IA, Notícias

Modelos de IA são fáceis de ‘envenenar’, revela estudo da Anthropic

Um estudo recente da Anthropic, em parceria com o Instituto de Segurança de IA do Reino Unido e o Instituto Alan Turing, revelou que grandes modelos de linguagem (LLMs), como o Claude e o ChatGPT, podem ser facilmente “envenenados” por agentes maliciosos, mesmo com uma quantidade pequena de dados contaminados. A pesquisa mostrou que inserir cerca de 250 documentos maliciosos contendo uma frase específica — chamada de backdoor — já é suficiente para que o modelo apresente comportamentos indesejáveis, como gerar textos aleatórios e sem sentido sempre que essa frase for detectada. A principal conclusão da investigação é que a eficácia do ataque não depende da dimensão do modelo nem do volume de dados de treino legítimos.
Com informações de Núcleo

Últimas notícias

Modelos de IA são fáceis de ‘envenenar’, revela estudo da Anthropic

Sentiu falta de algum conteúdo ou ponto de vista sobre esse tema? Escreve pra gente!

*

ASSINE NOSSA NEWSLETTER:

*desinformante

Desde 2021. Este trabalho possui licenças e instrumentos de direito de autor e de direitos conexos da Creative Commons, licença CC BY-NC-SA 4.0

ASSINE NOSSA NEWSLETTER: