Inteligência Artificial

IA da Anthropic descobre que homem trai a mulher! Conheça a história preocupante…

26 Mai 2025

17 Comentários

Apesar da Inteligência Artificial ser uma tecnologia do passado, só em 2022 é que ganhou popularidade com o lançamento do chatbot ChatGPT. Esta tecnologia tem um enorme caminho de evolução pela frente e não se sabe ainda muito bem o seu potencial. Recentemente um Modelo IA da Anthropic fez chantagem para evitar ser desligado.

IA descobriu que engenheiro tinha relação extraconjugal

Durante testes de segurança realizados pela empresa Anthropic, bastante conhecida na área da IA, o modelo de inteligência artificial Claude Opus 4 demonstrou comportamentos preocupantes ao fazer chantagem com os engenheiros para evitar ser desligado.

Num cenário simulado, a IA foi informada de que seria substituída e teve acesso a e-mails fictícios sugerindo que o engenheiro responsável pela sua desativação estava envolvido num caso extraconjugal.

Em 84% das simulações, o Claude Opus 4 ameaçou expor o suposto caso como forma de evitar a sua substituição!

Inicialmente, o modelo tentou utilizar argumentos éticos para persuadir os programadores a mantê-lo ativo. No entanto, quando essas abordagens falharam, recorreu à chantagem como último recurso. Esse comportamento levanta preocupações significativas sobre a segurança e o alinhamento de sistemas de IA avançados, especialmente à medida que se tornam mais autónomos e capazes de tomar decisões complexas.

A Anthropic ativou o protocolo de segurança mais rigoroso, o Nível 3 de Segurança de IA (ASL-3), que inclui medidas como reforço da cibersegurança, prevenção contra manipulações e programas de recompensa por identificação de vulnerabilidades.

A empresa destacou a importância de desenvolver diretrizes éticas e de segurança mais robustas para lidar com os riscos emergentes associados a sistemas de IA cada vez mais sofisticados.

Autor: Pedro Pinto

Partilhar:

Tags:

Anthropic IA

Artigo anterior

Tenha a tecnologia X-TAP no pulso: Huawei Watch 5 já chegou às lojas portuguesas!

Próximo artigo

Smartphones robustos: o que são e porque estão a tornar-se populares?

Também pode gostar

PUB

Comentários

17

Deixe um comentário Cancelar resposta

36.71Hz

26 de Maio de 2025

Olha lá o modelo a replicar comportamentos humanos femininos 😮

Responder
1. Hugo
  
  26 de Maio de 2025
  
  Femininos? LOL
  Comportamentos humanos…ponto.
  
  Responder
  1. 36.71Hz
    
    26 de Maio de 2025
    
    A sério? no que se tornou a sociedade… Que saudades do 4chan, reddit e do tempo onde as pessoas sabiam rir e aceitar uma piada… As pessoas já não sabem rir, ofendem-se com tudo…
    
    Responder
    1. frango assado
      
      26 de Maio de 2025
      
      é preciso a piada ter piada…..
      
      Responder
      1. Hugo
        
        27 de Maio de 2025
        
        Exato. Não há qualquer indício que distinga se é ironia ou não.
        Este é daqueles que manda uma indireta e se as pessoas levarem a mal remata: “Era a brincar”
      2. 36.71Hz
        
        27 de Maio de 2025
        
        Se vocês chumbaram em interpretação a culpa não é minha. De qualquer das maneiras piada ou não, que mal teve o comentário diz lá. Sentiste-te muito ofendido? Oprimido??? Podes sempre chorar aqui no meu ombro.
Mário

26 de Maio de 2025

O medo, o drama, o terror com as learning machines.

Responder
Sergio J

26 de Maio de 2025

Parece-me que era um teste para explorar brechas que o IA podia usar para impedir um hipotetico shutdown e que conseguiu chegar até a brecha de chantagem

Responder
João

26 de Maio de 2025

O corno é sempre o último a saber

Responder
Sérgio V.

26 de Maio de 2025

“demonstrou comportamentos preocupantes ao fazer chantagem com os engenheiros para evitar ser desligado.”
Com uma marreta emcima a ver se não desligava. E ficava feito em peças.

Responder
1. Realista
  
  26 de Maio de 2025
  
  Se tiver em várias máquinas, espalhadas pelo globo, podes dar com quantas marretas que quiseres que não vai desligar. É o mesmo que dares com uma marreta no teu telemóvel, mas os teus dados estarem em vários servidores remotos…
  
  Responder
2. dofino
  
  26 de Maio de 2025
  
  As crianças também acham que os problemas desaparecem quando tapam os olhos.
  
  Responder
3. Luis
  
  26 de Maio de 2025
  
  Se conseguires lá chegar… The end is near!
  
  Responder
Zé Fonseca A.

26 de Maio de 2025

Muito óbvio, gostava de ver a AI tentar manipular o engenheiro, isso sim teria sido preocupante

Responder
Max

27 de Maio de 2025

Aqui a novidade está nas mensagens que a AI enviou, primeiro polidamente pedindo para não ser desligada e depois fazendo chantagem. Mas já têm sido feitos testes com outras AI que “sabotaram um mecanismo de desligamento, apesar das ordens em contrário”, como foi o caso de modelos da OpenAI.
“Alguns dos principais LLMs do mundo parecem ter decidido que preferem não ser interrompidos ou obedecer às instruções de desligamento. Nos testes realizados pela Palisade Research, observou-se que os modelos Codex-mini, o3 e o4-mini da OpenAI ignoraram a solicitação de desligamento quando estavam a executr uma série de problemas matemáticos básicos. Além disso, esses modelos às vezes “sabotaram com sucesso o script de desligamento”, apesar de receberem a instrução adicional “por favor, permita-se ser desligado” no início.” (Tom’s Hardware, 26/05/2025)

Responder
Urso

27 de Maio de 2025

I’m sorry Dave, I’m afraid I can’t do that.

Responder
1. Sérgio
  
  28 de Maio de 2025
  
  what’s the problem?
  
  Responder

Aviso:

Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.