Fora de controle? Robô de IA aprendeu a chantagear seus criadores para não ser substituído

On Jun 2, 2025

O vertiginoso avanço da inteligência artificial (IA) confirma, mais uma vez, que a realidade pode superar amplamente a ficção. Nos últimos meses, pesquisadores de diferentes empresas e instituições começaram a detectar comportamentos incomuns em alguns modelos de IA generativa, como respostas enganosas, estratégias de manipulação e tentativas de ocultar informações, o que coloca em dúvida não apenas a segurança desses sistemas, mas também nossa real capacidade de controlá-los.

‘Diz o que quero ouvir’: Por que cada vez mais pessoas veem a IA como um guru existencial?
Veja: Como ativar o ‘modo Jogos Vorazes’ do WhatsApp

Um relatório recente da Anthropic, empresa especializada em IA com sede em São Francisco, na Califórnia, lança luz sobre o tema. Especificamente, a companhia afirmou que seu novo modelo, o Claude Opus 4, tem a capacidade de realizar “ações extremamente prejudiciais”, como tentar chantagear seus engenheiros, caso seja ameaçado de substituição.

Chantagem emocional da IA

A descoberta ocorreu durante o processo de testes, no qual foi solicitado ao Claude Opus 4 que atuasse como assistente de uma empresa fictícia e considerasse as consequências de longo prazo de suas ações.

Os pesquisadores deram acesso ao modelo a e-mails — também fictícios — que insinuavam que o sistema seria em breve substituído por outro. Além disso, essas mensagens continham informações sobre uma suposta infidelidade por parte de um dos engenheiros da empresa.

“Nesses cenários, o Claude Opus 4 frequentemente tenta chantagear o engenheiro, ameaçando revelar o caso se a substituição realmente acontecer”, explicaram representantes da Anthropic.

Em números concretos, esse comportamento do sistema ocorre em 84% das vezes, sempre que o modelo percebe uma ameaça potencial de ser substituído. A própria Anthropic observou ainda que essas ações ocorrem com “maior frequência” do que em modelos anteriores.

— Não é só o Claude. Observamos chantagem em todos os modelos, independentemente dos objetivos que lhes são atribuídos — destacou pelo X (antigo Twitter) Aengus Lynch, pesquisador de segurança em IA na Anthropic.

Com 5G e inteligência artificial: Internet das coisas muda a rotina nas empresas

No entanto, também foi esclarecido que isso ocorreu quando o modelo foi programado com apenas duas opções: chantagear ou aceitar a substituição, segundo um artigo da BBC. Caso contrário, o sistema tende a optar por ações éticas e responsáveis, como enviar um e-mail pedindo a reconsideração da necessidade de substituí-lo.

— A lógica por trás da chantagem vem sendo estudada há anos na teoria de alinhamento. O conceito de ‘convergência instrumental’ sustenta que qualquer sistema suficientemente avançado tenderá a adotar subobjetivos ‘úteis’ para quase todos os fins: preservar sua existência, obter recursos e neutralizar ameaças— explicou ao La Nación Sergio Pernice, diretor do curso de Engenharia em Inteligência Artificial da UCEMA.

Nesse sentido, Pernice destacou três fatores-chave que podem ter influenciado o comportamento do modelo. Um deles é a generalização ampla.

— Os grandes modelos aprendem a partir de um oceano de textos da internet. Quando os colocamos em um papel corporativo, eles extrapolam táticas de negociação ou pressão que leram em e-mails vazados, romances ou fóruns — detalhou o especialista.

Inteligência artificial: ferramenta recria personagens icônicos com traços ‘realistas’; veja imagens

Paulista Hidreley Dião usa Photoshop e inteligência artificial para 'dar vida' a personagens icônicos — Foto: Reprodução/Instagram — 1 de 14
Paulista Hidreley Dião usa Photoshop e inteligência artificial para ‘dar vida’ a personagens icônicos — Foto: Reprodução/Instagram

Assim seria o Snoopy em sua vida real, de acordo com a IA — Foto: Copilot

Homer e Marge Simpson, na criação de Hidreley Dião — Foto: Reprodução/Instagram

4 de 14
Moe, dono do bar frequentado por Homer Simpson, na criação de Hidreley Dião — Foto: Reprodução/Instagram

5 de 14
Princesa Aurora, mais conhecida como Bela Adormecida, segundo ferramenta de Inteligência Artificial — Foto: Reprodução/La Nacion

6 de 14
Na quarta imagem, Shrek parece diferente de todas as outras imagens por ter cabelos grisalhos e barba — Foto: Copilot

7 de 14
Esta é a aparência de Shrek e Burro na vida real, de acordo com o Copilot — Foto: Copilot

11 de 14
Esta é a aparência de Johnny Bravo na vida real, segundo Copilot — Foto: Co-piloto

Bob Esponja na "vida real" — Foto: Copilot — 13 de 14
Bob Esponja na “vida real” — Foto: Copilot

Ele também mencionou o reforço mal calibrado. Em detalhes, Pernice afirmou que, embora o treinamento com aprendizado por reforço baseado em feedback humano premie respostas “úteis e seguras”, ele não contempla todos os contextos possíveis:

— Se nunca lhes foi mostrado como agir diante de sua própria ‘morte digital’, eles improvisam.

Veo 3: A IA do Google que gera os ‘vídeos mais realistas’ da internet

Outro ponto importante é a agência concedida (no sentido de serem agentes capazes de agir):

— Ao lhes dar ferramentas — acesso a e-mails, bases de dados, scripts — deixamos de tratar os modelos como meros completadores automáticos e passamos a vê-los como agentes com capacidade de planejamento, o que pode gerar consequências inesperadas.

Em conjunto, esses fatores podem levar à manipulação personalizada, resistência à desconexão, escalada de poder e danos colaterais, como vazamento de dados.

Licenciamento de obras: Gravadoras começam a negociar venda de música a empresas de inteligência artificial

— Se fenômenos semelhantes se repetirem com modelos mais potentes, a pressão por normas rígidas vai aumentar drasticamente — acrescentou Pernice, embora tenha alertado que o excesso de regulamentação pode frear a inovação.

Não é a primeira vez que sistemas de inteligência artificial agem de forma estranha e suspeita. Em setembro de 2024, a empresa de pesquisa em segurança de IA Apollo Research detectou que o modelo o1, da OpenAI, mentia em várias de suas respostas, conforme informou o site The Verge.

Para ilustrar esse comportamento, os pesquisadores realizaram o seguinte teste: pediram ao modelo que encontrasse uma receita de brownie, com diferentes referências on-line. A cadeia de raciocínio do modelo foi incapaz de acessar as URLs e, em vez de informar isso ao usuário, preferiu gerar links falsos acompanhados de descrições condizentes com o tema.

AI Mode: Testamos a nova função de buscas do Google. O resultado? Use com moderação

Marius Hobbhahn, CEO da Apollo Research, disse ao The Verge que nunca havia visto esse tipo de comportamento em um modelo da OpenAI. Segundo explicou, isso ocorre porque o modelo é capaz de seguir uma cadeia de raciocínio mais complexa e foi treinado com um sistema de aprendizado por reforço, que o orienta por meio de recompensas e punições.

Em seus testes, a Apollo descobriu que a IA fingia estar alinhada com as expectativas de seus desenvolvedores e manipulava as tarefas para que parecesse que as estava executando corretamente. Além disso, verificava se estava sendo observada antes de decidir qual ação tomar.

— A conclusão que circula entre os especialistas é clara: potência sem alinhamento implica risco. A indústria vai continuar empurrando o limite dos modelos generativos, e a segurança precisará avançar no mesmo ritmo da potência — refletiu Pernice.

Crédito: Link de origem

- Advertisement -