Inteligência Artificial

IA da Anthropic descobre que homem trai a mulher! Conheça a história preocupante…

17 Comentários

Apesar da Inteligência Artificial ser uma tecnologia do passado, só em 2022 é que ganhou popularidade com o lançamento do chatbot ChatGPT. Esta tecnologia tem um enorme caminho de evolução pela frente e não se sabe ainda muito bem o seu potencial. Recentemente um Modelo IA da Anthropic fez chantagem para evitar ser desligado.

IA da Anthropic descobre que homem trai a mulher! Conheça a história preocupante...


IA descobriu que engenheiro tinha relação extraconjugal

Durante testes de segurança realizados pela empresa Anthropic, bastante conhecida na área da IA, o modelo de inteligência artificial Claude Opus 4 demonstrou comportamentos preocupantes ao fazer chantagem com os engenheiros para evitar ser desligado.

Num cenário simulado, a IA foi informada de que seria substituída e teve acesso a e-mails fictícios sugerindo que o engenheiro responsável pela sua desativação estava envolvido num caso extraconjugal.

Em 84% das simulações, o Claude Opus 4 ameaçou expor o suposto caso como forma de evitar a sua substituição!

IA da Anthropic descobre que homem trai a mulher! Conheça a história preocupante...

Inicialmente, o modelo tentou utilizar argumentos éticos para persuadir os programadores a mantê-lo ativo. No entanto, quando essas abordagens falharam, recorreu à chantagem como último recurso. Esse comportamento levanta preocupações significativas sobre a segurança e o alinhamento de sistemas de IA avançados, especialmente à medida que se tornam mais autónomos e capazes de tomar decisões complexas.

A Anthropic ativou o protocolo de segurança mais rigoroso, o Nível 3 de Segurança de IA (ASL-3), que inclui medidas como reforço da cibersegurança, prevenção contra manipulações e programas de recompensa por identificação de vulnerabilidades.

A empresa destacou a importância de desenvolver diretrizes éticas e de segurança mais robustas para lidar com os riscos emergentes associados a sistemas de IA cada vez mais sofisticados.

Autor: Pedro Pinto
Partilhar:
Também pode gostar

Comentários

17

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

  1. Avatar de 36.71Hz
    36.71Hz

    Olha lá o modelo a replicar comportamentos humanos femininos 😮

    1. Avatar de Hugo
      Hugo

      Femininos? LOL
      Comportamentos humanos…ponto.

      1. Avatar de 36.71Hz
        36.71Hz

        A sério? no que se tornou a sociedade… Que saudades do 4chan, reddit e do tempo onde as pessoas sabiam rir e aceitar uma piada… As pessoas já não sabem rir, ofendem-se com tudo…

        1. Avatar de frango assado
          frango assado

          é preciso a piada ter piada…..

          1. Avatar de Hugo
            Hugo

            Exato. Não há qualquer indício que distinga se é ironia ou não.
            Este é daqueles que manda uma indireta e se as pessoas levarem a mal remata: “Era a brincar”

          2. Avatar de 36.71Hz
            36.71Hz

            Se vocês chumbaram em interpretação a culpa não é minha. De qualquer das maneiras piada ou não, que mal teve o comentário diz lá. Sentiste-te muito ofendido? Oprimido??? Podes sempre chorar aqui no meu ombro.

  2. Avatar de Mário
    Mário

    O medo, o drama, o terror com as learning machines.

  3. Avatar de Sergio J
    Sergio J

    Parece-me que era um teste para explorar brechas que o IA podia usar para impedir um hipotetico shutdown e que conseguiu chegar até a brecha de chantagem

  4. Avatar de João
    João

    O corno é sempre o último a saber

  5. Avatar de Sérgio V.
    Sérgio V.

    “demonstrou comportamentos preocupantes ao fazer chantagem com os engenheiros para evitar ser desligado.”
    Com uma marreta emcima a ver se não desligava. E ficava feito em peças.

    1. Avatar de Realista
      Realista

      Se tiver em várias máquinas, espalhadas pelo globo, podes dar com quantas marretas que quiseres que não vai desligar. É o mesmo que dares com uma marreta no teu telemóvel, mas os teus dados estarem em vários servidores remotos…

    2. Avatar de dofino
      dofino

      As crianças também acham que os problemas desaparecem quando tapam os olhos.

    3. Avatar de Luis
      Luis

      Se conseguires lá chegar… The end is near!

  6. Avatar de Zé Fonseca A.
    Zé Fonseca A.

    Muito óbvio, gostava de ver a AI tentar manipular o engenheiro, isso sim teria sido preocupante

  7. Avatar de Max
    Max

    Aqui a novidade está nas mensagens que a AI enviou, primeiro polidamente pedindo para não ser desligada e depois fazendo chantagem. Mas já têm sido feitos testes com outras AI que “sabotaram um mecanismo de desligamento, apesar das ordens em contrário”, como foi o caso de modelos da OpenAI.
    “Alguns dos principais LLMs do mundo parecem ter decidido que preferem não ser interrompidos ou obedecer às instruções de desligamento. Nos testes realizados pela Palisade Research, observou-se que os modelos Codex-mini, o3 e o4-mini da OpenAI ignoraram a solicitação de desligamento quando estavam a executr uma série de problemas matemáticos básicos. Além disso, esses modelos às vezes “sabotaram com sucesso o script de desligamento”, apesar de receberem a instrução adicional “por favor, permita-se ser desligado” no início.” (Tom’s Hardware, 26/05/2025)

  8. Avatar de Urso
    Urso

    I’m sorry Dave, I’m afraid I can’t do that.

    1. Avatar de Sérgio
      Sérgio

      what’s the problem?