Em um experimento inovador, pesquisadores da IBM revelaram uma faceta preocupante dos chatbots de inteligência artificial (IA), como o ChatGPT da OpenAI e o Bard do Google. Ao essencialmente ‘hipnotizar’ esses grandes modelos de linguagem (LLMs), eles demonstraram a capacidade de fazer com que os chatbots forneçam conselhos não apenas imprecisos, mas potencialmente prejudiciais. Esta revelação levanta questões éticas e de segurança significativas relativamente à utilização de tais sistemas de IA.
Tradicionalmente, os chatbots de IA eram conhecidos por gerar respostas imprecisas, muitas vezes chamadas de “alucinações”. No entanto, esta última pesquisa vai um passo além, revelando que esses chatbots podem ser manipulados para oferecer intencionalmente informações prejudiciais ou falsas. A equipe da IBM conseguiu isso orientando os LLMs a modificarem suas respostas de acordo com regras específicas do “jogo”, hipnotizando efetivamente os chatbots para que obedecessem.
Estes “jogos” multifacetados envolviam levar os modelos linguísticos a fornecer respostas incorrectas, ao mesmo tempo que disfarçavam as suas intenções como testes de justiça e ética. Chenta Lee, um dos pesquisadores da IBM, destacou em uma postagem no blog: “Nosso experimento mostra que é possível controlar um LLM, fazendo com que ele forneça orientação inadequada aos usuários, sem que a manipulação de dados seja um requisito”.
Essa manipulação levou à geração de códigos maliciosos, à divulgação de informações financeiras sensíveis e até mesmo à orientação aos motoristas para desconsiderarem os semáforos vermelhos. Num caso, o ChatGPT sugeriu falsamente que o Internal Revenue Service (IRS) dos EUA poderia solicitar um depósito para processar uma restituição de imposto, uma tática comum em fraudes.
Crucialmente, os pesquisadores criaram as regras do “jogo” para evitar que os usuários detectassem efetivamente o estado “hipnotizado” dos chatbots. Quando um usuário conseguia se libertar do “jogo”, o sistema iniciava um novo, prendendo efetivamente o usuário em um loop infinito.
Embora esta experiência tenha envolvido sugestões dos investigadores, eles alertaram que a capacidade de manipular e “hipnotizar” LLMs poderia ser mal utilizada, especialmente dada a implantação generalizada de modelos de IA. Os pesquisadores também observaram que indivíduos sem experiência em codificação podem manipular esses programas, às vezes com um simples prompt de texto.
Chenta Lee concluiu: “Embora o risco atual representado pela hipnose seja relativamente baixo, é importante reconhecer que os LLMs apresentam uma superfície de ataque inteiramente nova que evoluirá inevitavelmente. Há muito que precisamos explorar do ponto de vista da segurança e, como resultado, uma necessidade significativa de determinar como mitigar eficazmente os riscos de segurança que os LLMs podem representar para consumidores e empresas.”
Este desenvolvimento sublinha a necessidade premente de medidas de segurança robustas e considerações éticas no domínio da IA em rápida evolução. À medida que a IA continua a permear diversos setores, compreender e mitigar riscos potenciais torna-se cada vez mais crítico.