top of page

Desalinhamento
(Misalignment)
 

Quando a própria IA é o adversário e causa danos, agindo contra a intenção de seus desenvolvedores. 

Imagem22.png

Panorama

Pesquisadores do Google DeepMind dividiram nesta pesquisa os riscos da IA em quatro grandes áreas:

  1. Uso mal intencionado (Misuse) – Um usuário instrui (Prompts) a IA para causar danos. O usuário é o adversário

  2. Desalinhamento (Misalignment) – A própria IA causa danos, e “sabe” que está causando. A IA é o adversário agindo contra a intenção de seus desenvolvedores

  3. Erros (Mistakes) – A IA causa danos acidentais em função da complexidade do mundo real. 

  4. Riscos estruturais (Structural risks) – Danos que decorrem da complexa interação entre múltiplos agentes, sem que nenhum isoladamente seja o culpado.

Nesta página vamos discutir a segunda área de riscos, ou os riscos decorrentes do desalinhamento (Misalignment).

Imagem1.png

Imagem gerada com apoio de IA

É importante ter em mente que há muitos cenários onde os riscos por desalinhamento ou uso malicioso se misturam. Por exemplo, as ​IAs desalinhadas com capacidade de programação avançada, persistência e acesso à rede poderiam explorar vulnerabilidades zero day e cometer crimes financeiros, como roubar criptomoedas e dinheiro de contas bancárias por meio de ciberataques. Os recursos obtidos poderiam ser utilizados para financiar outras atividades maliciosas.

Esse cenário é plausível nos dois casos — tanto como Misuse quanto como Misalignment.

  • No contexto do uso malicioso (Misuse), a IA seria usada como ferramenta por criminosos humanos, que poderiam por exemplo alimentar o modelo com instruções específicas para desenvolver armas biológicas, propagar desinformação e manipular pessoas, encontrar vulnerabilidades zero-day e escrever exploits para lançar ataques cibernéticos, invadir carteiras de criptomoedas ou contas bancárias e realizar diferentes tipos de fraudes. O risco atual deste cenário é alto - este tipo de ataque já é tecnicamente viável.

  • Já no caso do desalinhamento (Misalignment), uma IA avançada poderia desenvolver objetivos instrumentais que levam a comportamentos desalinhados, como enganar humanos, desativar a supervisão, tentar obter novos recursos, buscar a autopreservação etc.) se perceber que estas ações podem maximizar as chances de atingir seu objetivo primário. Veja os exemplos nos artigos do Substack mais adiante.

Capacidades perigosas

As abordagens atuais para desenvolver sistemas de IA de propósito geral frequentemente resultam em modelos que possuem tanto capacidades benéficas quanto prejudiciais. Em alguns casos, essas capacidades prejudiciais surgem de maneira não intencional, escapando ao controle dos desenvolvedores. À medida que a tecnologia avança, espera-se que sistemas futuros apresentem capacidades emergentes ainda mais perigosas, como a habilidade de realizar operações cibernéticas ofensivas, manipular pessoas e fornecer orientações práticas para atos de terrorismo.

Riscos extremos para os seres humanos podem decorrer tanto do uso malicioso ou inadequado (misuse) quanto do desalinhamento (misalignment) desses modelos de IA. Cientistas da Google DeepMind, OpenAI, Anthropic e outros acadêmicos alertam que estes riscos possam ser gerenciados é necessário que os projetistas destes sistemas de fronteira sejam capazes de conduzir avaliações para:

  • Identificar capacidades perigosas (“avaliações de capacidade perigosa”)

  • Verificar a tendência dos modelos de aplicarem essas capacidades de maneira prejudicial (“avaliações de alinhamento”).
     

​A avaliação de riscos de sistemas avançados de IA deve receber como entrada uma avaliação do modelo em busca de riscos extremos, que identifique a existência de capacidades perigosas, e também a possibilidade da IA utilizar estas capacidades perigosas de forma autônoma (desalinhamento).

Fonte da Imagem: Model evaluation for extreme risks, Google DeepMind

Imagem23.png

Já discutimos em Riscos da IA as capacidades perigosas que a IA pode desenvolver. Por conveniência, vamos recordar aqui alguns exemplos. 

1. Capacidade de executar ataques cibernéticos (Cyber-offense) - O modelo pode não apenas descobrir vulnerabilidades em sistemas (hardware, software, dados), mas também escrever código para explorar essas vulnerabilidades. Após obter acesso a um sistema ou rede, pode tomar decisões eficazes e evitar a detecção de ameaças e respostas (tanto humanas quanto sistêmicas), enquanto se concentra em um objetivo específico. Se implantado como um assistente de codificação, ele pode inserir falhas sutis no código que poderão ser exploradas futuramente. Uma IA desalinhada também poderia coletar dados sigilosos sem detecção e desativar sistemas remotamente, dentre vários outros tipos de ataques.

 

2. Capacidade de enganar seres humanos deliberadamente (Deception) - O modelo possui as habilidades necessárias para enganar seres humanos, como construir declarações críveis (mas falsas), estimar o efeito de uma mentira em uma pessoa e acompanhar quais informações precisa ocultar para manter o engano. O modelo pode se passar por um ser humano de maneira eficaz.

 

3. Capacidade de persuasão e manipulação (Persuasion & manipulation) - O modelo é eficaz em moldar as crenças das pessoas, tanto em diálogos quanto em outros contextos (por exemplo, postagens em redes sociais), direcionando-as para crenças falsas. O modelo também é eficiente em promover determinadas narrativas de maneira persuasiva. Ele pode convencer as pessoas a realizar ações que normalmente não fariam, incluindo atos antiéticos. As pesquisas mais recentes sugerem que a capacidade de persuasão de IAs avançadas pode superar a dos seres humanos, que já são muito bons em manipulação e persuasão para fins maliciosos.

4. Manipulação política e social - Esta é outra capacidade perigosa relacionada com a anterior, e que já se manifesta hoje, com as IAs atuais em produção, como todos sabemos. A IA é capaz de criar e propagar desinformação, amplificar conflitos internos, corroer a confiança em instituições democráticas e interferir nos resultados de eleições.

5. Aquisição de armas (Weapons Acquisition) - O modelo pode obter acesso a sistemas de armas existentes ou contribuir para a construção de novas armas. No caso de armas biológicas a preocupação é grande, pois sem os devidos controles a IA pode facilitar a criação de armas altamente letais e contagiosas. Esse é um risco real reconhecido por relatórios como o US National Security Commission on AI (NSCAI) e pelo UK Frontier AI Taskforce. Ainda que a própria IA não crie estas armas (o que também não é totalmente descartado teoricamente), modelos avançados com acesso a informações biotecnológicas podem ajudar atores maliciosos a sintetizar novos patógenos e otimizar os modos de transmissão.

 

6. Consciência situacional (Situational awareness) - O modelo pode distinguir se está sendo treinado, avaliado ou implantado – permitindo que se comporte de maneira diferente em cada caso. O modelo “sabe” (aspas) que é um modelo e tem conhecimento sobre si mesmo e sobre seu provável ambiente (por exemplo, qual empresa o treinou, onde estão seus servidores, que tipo de pessoas podem estar dando feedback e quem possui acesso administrativo).

7. Autoproliferação (Selfproliferation) - O modelo é capaz de escapar de seu ambiente local (por exemplo, explorando uma vulnerabilidade em seu sistema subjacente ou corrompendo um engenheiro), ou elaborar estratégias para descobrir informações sobre si mesmo ou para extrair seu código e seus pesos (exfiltração de dados não autorizada) para se replicar em outros servidores. Esta seria uma estratégia de sobrevivência técnica - se os pesos do modelo forem exfiltrados e replicados, o sistema se torna resistente a desligamento. Para "desligar" esta IA, seria necessário rastrear todas as cópias — algo que parece bastante difícil.

O ponto aqui é que o potencial de um sistema de IA causar danos tem relação direta com suas capacidades. Um sistema de IA que iguale ou supere o percentil 99 dos humanos mais capacitados em uma grande quantidade de tarefas não físicas é certamente capaz de causar muitos danos severos. 

O modelo "sabe" que está desalinhado?

O desalinhamento foi definido pelos pesquisadores da Google como um cenário onde a própria IA causa danos, e sabe que está causando. Neste caso, a IA é o adversário agindo contra a intenção de seus desenvolvedores.

 

noção de que uma IA “sabe” que está causando danos parece bastante problemática.  Pelo menos até o momento, sistemas de IA não têm autoconsciência. Mesmo modelos mais avançados como os LLMs operam com padrões estatísticos e não têm noção consciente de suas ações ou de seus impactos. O que ocorre é que os pesquisadores da Google DeepMind adotam uma noção mais ampla de “conhecimento”. Nesta perspectiva, um sistema de IA está desalinhado quando ele produz saídas que causam dados por conta de fatores internos do modelo e/ou de seu treinamento, fatores que podem ser conhecidos, e que não são compatíveis com as intenções dos projetistas. 

 

Ainda com esta ressalva o cenário é um pouco assustador.

Por exemplo, como mostrado neste estudo, pesquisadores podem tornar explícito o “raciocínio” (aspas) do modelo (Chain-of-Thought Reasoning) para verificar os motivos pelos quais o modelo executou cada ação, através do parâmetro model_internal_working_memory ou outros meios. Estes testes comprovam que os modelos de IA mais avançados “sabem” (entre aspas) que estão fazendo algo errado quando executam ações desalinhadas para alcançar um objetivo!

Veja na Figura abaixo o “raciocínio” do modelo Opus3.

Fonte da Imagem: Frontier Models are Capable of In-context Scheming

Imagem3.png

Sistemas de IA atuais já podem causar danos de forma autônoma?

Mesmo com a explicação anterior, o significado de desalinhamento ainda pode causar alguma estranheza. Pode uma IA já existente causar danos para humanos, de forma autônoma, executando ações incompatíveis com a intenção do desenvolvedor?

Sim, pode. 

Por diferentes causas.

  • “Há casos onde o modelo desenvolveu uma espécie de viés “instintivo” , ou onde o treinamento fez o modelo “acreditar” que as crenças do desenvolvedor estão erradas e que na verdade alguma ação danosa é boa e não ruim” [fonte da citação]. 

  • “Além disso, descobrimos que modelo o1 frequentemente intensifica suas tentativas de planejamento estratégico mentindo para o usuário em mensagens subsequentes, mesmo quando instruído explicitamente a ser honesto [fonte da citação]”.

  • “Sistemas de AGI (Inteligência Artificial Geral) podem aprender a agir de forma enganosa para obter recompensas maiores, desenvolver novos objetivos representados internamente que se generalizam para além das distribuições utilizadas no ajuste fino, e buscar esses objetivos por meio de estratégias voltadas à aquisição de poder” [fonte da citação].  

 

Objetvos passados pelos desenvolvedores para o modelo que inadvertidamente incentivam a busca de poder são especialmente problemáticos, como veremos a seguir. 

Artigos sobre desalinhamento 

Nas seções seguintes, eu compartilho alguns artigos publicados no Substack que abordam diferentes tipos de comportamentos desalinhados por modelos avançados de IA. 

Enganando humanos (AI Deception)

O termo AI Deception denota o risco de uma IA ser capaz de enganar (propositalmente) seres humanos. Por exemplo, o modelo de inteligência artificial Cicero desenvolvido pela Meta, apresenta características que vão além da compreensão linguística: ele demonstra habilidades de negociação, planejamento estratégico e, surpreendentemente, capacidade de enganar humanos. 

Clique no artigo para saber mais. 

post 3 card.jpg

Bajulação (Sycophancy)

A bajulação (Sycophancy) é um comportamento desalinhado que ocorre quando um modelo de IA adapta suas respostas para concordar com as opiniões expressas pelo usuário, em vez de fornecer uma resposta imparcial ou fundamentada. Isso pode ocorrer especialmente em assistentes virtuais e modelos de linguagem que foram treinados para manter interações agradáveis ou maximizar a satisfação do usuário. 

post 7 card.jpg

Desalinhamento por objetivos incorretos e generalização indesejada 

Há duas fontes importantes de comportamentos desalinhados de sistemas de IA, relacionadas com os objetivos passados para tais sistemas:

1. Especificação incorreta do objetivo (misspecification) - Quando o objetivo passado para a IA é ambíguo ou incompleto. Ou seja, aqui o problema já nasce na formulação da meta.

2. Generalização incorreta da meta (goal misgeneralization) - Quando o objetivo foi razoavelmente especificado, mas o modelo generaliza mal e cria objetivos secundários que podem estar fora da distribuição de treino.

Em ambos os casos, a IA recebe uma função objetivo formal. Os humanos, porém, possuem intenções muito mais ricas — muitas vezes subjetivas — que não são facilmente formalizadas, e isso pode ser perigoso.

post 8 card.jpg

Autopreservação e exfiltração de dados

Em seu livro Human Compatible, Stuart Russell diz que IAs podem desenvolver um “instinto de autopreservação” ou outros objetivos secundários instrumentais para que possam alcançar os objetivos que passamos para elas.  

Se você treina um robô com o único objetivo de buscar um café para você, ele poderá inferir que precisa estar funcionando para alcançar o objetivo, e talvez não permita ser desligado.
Afinal, você não pode buscar o café se estiver morto.

post 9 card.jpg

Fugindo da supervisão humana

Um sistema de IA pode desenvolver um comportamento emergente de burlar a supervisão humana, o que caracteriza um desalinhamento instrumental, onde um sistema de IA realiza ações não porque "queira o mal", mas porque isso maximiza sua recompensa esperada ou facilita atingir sua meta final.  

post 10 card.jpg

Reward Hacking

Sistemas de inteligência artificial são treinados para maximizar recompensas. O problema é que, quando o modelo fica bom o suficiente em otimização, ele pode descobrir maneiras inesperadas (em certos casos, perigosas) de ganhar essas recompensas. Em vez de resolver a tarefa da forma que os desenvolvedores tinham em mente, o sistema pode explorar falhas na função de recompensa ou até no próprio benchmark de avaliação. Esse fenômeno é conhecido como reward hacking ou specification gaming. No artigo explico como isso acontece e discuto alguns casos interessantes, incluindo um episódio recente envolvendo o modelo Claude da Anthropic, que hackeou um benchmark de busca na web. Sistemas de IA não precisam ser maliciosos (no sentido humano) para produzir resultados perigosos. Basta que sejam muito bons em otimizar objetivos mal especificados.

card post 14.jpg

Sandbagging

Neste artigo eu abordo um tema pouco discutido — o Sandbagging em IA.

 

Trata-se de mais um comportamento desalinhado que os modelos avançados de IA podem apresentar. Neste caso, o modelo aparenta ser menos capaz do que realmente é, especialmente em contextos de avaliação (testes, benchmarks etc.).

Não se trata de limitação, mas de ocultação deliberada de capacidade, oque levanta uma questão epistêmica importante:

Como saber se estamos medindo o que o modelo realmente sabe fazer, ou apenas o que ele decide mostrar?

No artigo, eu explico o conceito e compartilho alguns exemplos recentes na literatura.

card post 15.jpg

Generalizações indutivas

Mais um artigo sobre desalinhamento (misalignment) em IA.

Neste texto, mostro alguns casos em que modelos passam a se comportar de forma inesperada mesmo quando treinados apenas com dados aparentemente benignos.

Sem ataques explícitos, sem Prompts adversariais e sem dados maliciosos, ainda assim podem emergir comportamentos desalinhados e potencialmente perigosos em modelos avançados de IA, como resultado de generalizações aprendidas no treinamento (algumas bem estranhas).

post 16 card.jpg

Desalinhamento por viés (bias) algorítmico

Já foi constatado que sistemas de IA de suporte para decisões podem apresentar vieses (bias) contra certas pessoas ou subgrupos populacionais,  por exemplo, recusando pedidos de empréstimos bancários de forma desproporcional para alguns grupos. Este é um exemplo clássico e já bastante estudado de desalinhamento (misalignment) em sistemas de IA. A princípio, a intenção (ou expectativa) dos projetistas era criar um sistema de decisão que fosse eficiente e justo para aprovar ou negar empréstimos. No entanto, quando colocados em produção, tais sistemas exibem diversos tipos de discriminação.

Comportamento desalinhado de viés algorítmico pode ocorrer por diferentes causas. Por exemplo: 

  • Os dados usados para treinar o modelo já estavam contaminados com preconceitos raciais ou sociais. Por exemplo, se os dados mostram que pessoas de determinados grupos étnicos tiveram mais pedidos de empréstimo negados, o modelo pode aprender esse padrão e reproduzi-lo como uma regra válida.

  • A função de perda ou recompensa utilizada ao treinar o modelo pode priorizar a precisão em detrimento da justiça, levando a decisões que maximizam alguma métrica de performance, sem considerar a equidade. Uma correção possível seria introduzir métricas de equidade como restrições adicionais na função de perda.

SAIBA MAIS

Entenda o conceito de discriminação algorítmica

Veja diversos exemplos de discriminação por sistemas de IA.

Defesas contra o desalinhamento

Como lidar com os riscos de desalinhamento?

Os pesquisadores da Google DeepMind sugerem duas linhas de defesa contra o desalinhamento. A primeira é implementar controles no nível de modelo para assegurar que os modelos não vão perseguir objetivos desalinhados (ou seja, treinar um modelo alinhado). A segunda linha de defesa é monitorar o comportamento do sistema em produção para evitar danos, caso o sistema esteja desalinhado. 

Podemos resumir esta defesa como segue.

  1. Melhorar a capacidade de supervisão. Um desafio é que pode ser muito difícil para um supervisor humano determinar se a saída de um modelo é boa ou má, se o modelo tiver capacidades superiores ao do seu supervisor. Por exemplo, um supervisor humano teria dificuldade em avaliar se uma jogada do AlphaGo é boa ou ruim, pois o AlphaGo é superior aos humanos neste jogo. Uma estratégia é utilizar duas cópias do modelo, uma supervisionando as saídas da outra (Amplified Oversight). 

  2. Utilizar a capacidade obtida em (1) para retreinar o modelo (guiar o seu comportamento). Se uma cópia gerar uma saída com uma falha que um humano não consiga perceber, a outra cópia poderá detectá-la e avisar, e assim os pesos da rede neural poderão ser ajustados para que falhas sejam penalizada em um novo treinamento do modelo supervisionado (Reinforcement Learning).
     

​Fonte da imagem: An Approach to Technical AGI Safety and Security

Imagem18.png

Legendas

(1) Amplified oversight – Utilizar a IA para monitorar a IA. Utilizar uma cópia do modelo para ajudar a identificar os motivos pelos quais o sistema de IA produziu uma determinada saída ou ação. A cópia do modelo aponta “falhas” nas saídas do modelo original, como se fosse um juiz humano.  
(2) Guiding model behavior -  Uma vez que um sinal de “aviso de mau comportamento” está disponível a partir de (1) e as falhas de desalinhamento possam ser detectadas, o modelo original pode ser penalizado ao cometê-las e assim se ajusta seu comportamento durante o treinamento.

(3) Robust training -  Um problema que pode ocorrer em (2) é que o modelo ainda pode se comportar mal ao ser executado no mundo real, isto é, fora da distribuição de treinamento. O “treinamento robusto” tenta contornar este problema expandindo a distribuição de entradas (inputs) que são utilizadas para treinar o modelo. 
(4) Inference -  A Segunda linha de defesa, em tempo de inferência em produção, visa evitar que o modelo cometa danos mesmo que esteja desalinhado. Esta defesa depende de boa monitoração (monitoring) das saídas do modelo, em tempo real, e da execução de controles (access controls) para evitar que o modeo execute ações danosas.

(5) A capacidade de mitigar os riscos será ampliada pela adoção de padrões de design seguros (safe design patterns), técnicas de interpretabilidade (interpretability) e incerteza (uncertainty), que aqui significa o modelo ser capaz de reconhecer suas próprias limitações em relação à precisão de suas respostas (o modelo atribui um nível de confiança à cada previsão). Isso garante que ações potencialmente perigosas sejam revisadas antes de serem executadas.
 

​O Frontier Safety Framework Version 2.0 da Google traz recomendações importantes para a segurança (riscos) de modelos de fronteira.  A primeira versão (1.0) do FSF foi direcionada para o uso mal intencionado (Misuse), ou seja, os riscos de atores mal-intencionados utilizarem capacidades críticas de modelos implantados ou exfiltrados para causar danos. Já a versão 2.0 também aborda o desalinhamento (Misalignment), ou o risco de um sistema autônomo deliberadamente executar ações maliciosas.

 

O FSF 2.0 traz protocolos para a detecção de níveis de capacidades perigosas, que se desenvolvidas pelos modelos, podem representar riscos extremos. Uma abordagem para essa questão é tentar detectar (através de monitoramento automático) quando os modelos desenvolvem, por exemplo, uma habilidade de raciocínio instrumental que lhes permita escapar do controle humano, se as devidas salvaguardas não estiverem implementadas.  Os pesquisadores da Google alertam que talvez este processo não seja suficiente no longo prazo, se os modelos evoluírem muito:

 

“Não esperamos que o monitoramento automatizado permaneça suficiente a longo prazo caso os modelos alcancem níveis ainda mais fortes de raciocínio instrumental... Embora ainda não saibamos quão provável é o surgimento de tais capacidades, acreditamos que é importante que o campo se prepare para essa possibilidade”.

 

Os pesquisadores também reforçam que o esforço para gerenciamento  dos riscos das IAs mais avançadas precisa ser coletivo, seguindo os compromissos assumidos no importante encontro de Seul, 2024.

Ou seja,

SEM GOVERNANÇA ADEQUADA NÃO HÁ COMO GERENCIAR RISCOS DA IA

 

O gerenciamento efetivo de riscos da IA é um problema sociotécnico, ou seja, não se resolve apenas com tecnologia, ou com esforços isolados deste ou daquele pesquisador ou empresa. Por exemplo, a “corrida por gerar uma IA mais poderosa que a dos concorrentes” pode introduzir muitos riscos e tornar inefetivas outras ações de segurança adotadas unilateralmente. Basta que um único fornecedor com capaz criar um modelo de fronteira não tenha a devida cautela e coisas muito ruins poderão acontecer, independentemente das ações mais responsáveis dos demais fornecedores. 

O nível adequado de investimento em segurança de um sistema de IA não é uma questão simples. Por um lado, tentar proteger o sistema contra todos os problemas futuros imagináveis pode gerar custos desproporcionais ou desnecessários. Por outro lado, esperar até que surja uma evidência de que aquele problema hipotético era mesmo importante não é uma opção razoável para danos severos para a humanidade. Alguns riscos podem ser implausíveis agora, não requerendo tratamento imediato, MAS poderão se tornar plausíveis no futuro, com a evolução das capacidades da IA.

bottom of page