top of page

O problema do alinhamento

2025-09-30_101122.png

Como "embutir" valores morais humanos em algoritmos?

Como "alinhar" uma IA superinteligente com estes valores?

O propósito do "alinhamento de valores" é assegurar que os sistemas de IA (sobretudo os mais poderosos e capazes de produzir maior impacto e com mais alcance) estejam adequadamente alinhados com valores morais humanos.

Como veremos, este é um desafio bastante difícil

Para os interessados, selecionamos algumas referências sobre o "problema do alinhamento":

Capa livro "Human Compatible"
Artigo de Iason Gabriel (Artificial Intelligence, Values and Alignment)
Capa livro "The Alignment Problem"

Os dois aspectos do "problema do alinhamento"

De forma simplificada, o problema de "alinhamento de valores" tem duas partes, uma técnica, e outra filosófica:

1. Como implementar valores morais em um sistema de IA?

Esta é a parte técnica do problema do alinhamento. Soluções de IA que utilizam Machine Learning para aprender com dados são projetadas para maximizar a eficiência na execução de alguma tarefa (por exemplo, classificar imagens) - e fazem isso muito bem. Porém, não farão nada além disso se não forem instruídas para tal, de modo objetivo. Se você otimiza um algoritmo para maior precisão, não ganhará transparência, privacidade e não discriminação como um bônus a troco de nada. Assim, é preciso encontrar meios técnicos (por exemplo, através de restrições matemáticas definidas durante o treinamento do modelo) de incluir os valores morais desejados no design da solução. 

Em um dos exemplos citados pelo professor Russell, se um algoritmo de recomendações de conteúdo utilizado em mídias sociais tem como único objetivo "maximizar o número de cliques dos usuários", sem levar em conta qualquer outro valor  moral que imponha limitações (como ocorre em muitas implementações), provavelmente haverá problemas éticos no uso desta aplicação. Se a pornografia ou a violência extrema aumentarem estatisticamente o número de cliques por parte dos usuários, este será o caminho que o algoritmo do sistema de recomendações poderá tomar na ausência de outros controles para maior "alinhamento" com outros valores morais. A questão aqui é que a "lógica atual da otimização pura e simples de um sistema para alcançar este ou aquele objetivo" precisa ser abandonada: Como sugere o professor Stuart Russell, "em vez dos sistemas de IA serem considerados "inteligentes" na medida em que conseguem atender os seus objetivos, eles devem ser considerados benéficos na medida em que consigam atingir os nossos objetivos". Mas para isso, é preciso determinar quais objetivos seriam estes, o que nos leva ao aspecto filosófico do problema do alinhamento de valores.

2. Com quais valores desejamos que o sistema de IA esteja alinhado?

Esta é a parte mais filosófica ou normativa do "problema do alinhamento". Como a sociedade vai decidir sobre quais princípios (ou objetivos) devem ser "codificados" em sistemas de IA? Quem decidirá sobre isso, considerando que vivemos em uma sociedade pluralista com diferentes visões de mundo e crenças sobre valores morais, em alguns casos, incompatíveis entre si? Como fazer isso de forma que um determinado grupo não "imponha" seus valores preferidos sobre outros grupos? 
 
O filósofo eticista Iason Gabriel nos ensina que há diferentes concepções sobre como isso pode ser feito. Por exemplo, em uma abordagem minimalista o foco seria em tentar embutir na IA pelo menos os controles que impeçam os impactos maiores (por exemplo, que atentem contra a segurança humana ou tragam outros resultados ruins sobre esta ótica da segurança e confiabilidade). Esta concepção nos levaria ao que o autor chama de "IA segura" (Safe AI). Já na abordagem maximalista o desafio seria ter não apenas segurança, mas uma "IA boa e justa" (Good IA), uma meta mais ambiciosa e próxima do que queremos dizer com "IA ética e responsável", mas também mais difícil, dado que é neste caso justamente que será preciso lidar com a "questão das definições".  ​Assim, a parte normativa do "problema do alinhamento" parece ser a mais difícil, até pelo fato de que enquanto ela não for endereçada não será possível resolver a parte técnica de forma adequada (não podemos embutir valores morais na IA se não concordamos ainda sobre quais são eles). ​O mundo é plural, há diferentes sistemas morais e opiniões sobre o que significa ser justo, ou se a transparência deve ter prioridade sobre a eficiência, ou se a privacidade é mais ou menos importante que a precisão etc. É preciso definir qual seria o melhor método para discutir sobre a parte normativa.

 

Sobre isso, o filósofo nos explica que há três principais abordagens.

  • A primeira é a "Busca da Sobreposição de Valores", ou a ideia que ainda que existam diferenças entre as visões sobre quais seriam os melhores valores para direcionar a IA, existe consenso sobre um grupo de valores, sobre o qual todos ou a grande maioria concorda. Por exemplo, uma pesquisa em diferentes fontes de princípios para a IA ética revela que há razoável convergência sobre alguns princípios éticos como transparência, justiça, igualdade, segurança (confiabilidade), responsabilização e privacidade.

  • A segunda é o "Véu da Ignorância", fundamentado nos estudos do filósofo John Rawls. Esta abordagem visa evitar que os princípios sejam criados pensando-se "no interesse próprio e em cada caso particular", e em vez disso sejam definidos com base apenas em considerações gerais, como se seus criadores não soubessem quem vai ser afetado, nem onde, nem quando. 

  • A terceira é a "Escolha Social", ou seja, deixar a sociedade votar e decidir sobre quais devem ser os princípios e noções morais que a IA deve seguir. Neste caso não se pretende obter princípios universais e categóricos (no sentido Kantiano), ou princípios sobre o qual todos concordem, mas em vez disso adotar o que foi escolhido pela maioria da sociedade, que afinal é quem será afetada pelas aplicações de IA. Esta seria portanto a "abordagem democrática" para atacar a parte normativa do "problema do alinhamento". Naturalmente, tem também suas dificuldades (como assegurar representatividade e conduzir esta votação? Cada país fará sua análise de escolhas isoladamente, e depois isso será agregado globalmente de alguma forma? Etc.).

O autor nos lembra também que dados os interesses econômicos em jogo e o alcance e importância da IA hoje no mundo, o problema não é apenas técnico e moral, mas tem um forte componente político, e também nos lembra que a IA é ainda uma tecnologia emergente, sobre o qual sabemos pouco, e que portanto é preciso cautela e uma abordagem progressiva na sua normatização, apesar dos anseios em todo o mundo por marcos regulatórios para o uso da IA.

Ainda que seja difícil de implementar, o "alinhamento de valores" é importante para evitar os riscos da singularidade e outros problemas que podem derivar de uma IA treinada apenas para "otimizar a performance em um objetivo específico". Veja a discussão sobre o "Efeito Midas" a seguir.

O "efeito Midas"

Cuidado com o objetivo que você passa para a IA, pois ela vai tentar alcançá-lo da forma mais otimizada possível.

A imagem mostra o professor Stuart Russel na TED Talk "3 principles for creating safer AI", que é bastante interesssante (e divertida, apesar da seriedade e relevância do tema).

Stuart Russell em TED Talk sobre riscos da IA

Um alerta feito por Stuart Russell (que reforça a importância do "alinhamento de valores") é que devemos “entender exatamente o que está sendo pedido” para um sistema de IA, pois pela forma como os modelos de Machine Learning funcionam, os algoritmos vão tentar otimizar a sua performance na tarefa que devem resolver (por exemplo, classificar imagens), sem se preocupar com outros objetivos se estes não forem explicitamente definidos. Temos que ter muita atenção ao que estamos pedindo, para evitar o “efeito Midas ” na IA: Obter resultados ótimos, porém não alinhados ao que realmente desejamos.

Um exemplo já antigo e anedótico porém ainda ilustrativo de Nick Bostrom (filósofo da Universidade de Oxford) sobre o “problema do rei Midas na IA” é o da "produção de clips de papel":

“AI, produza a maior quantidade possível de clips de papel”.
Se é este o único objetivo passado para o sistema, o algoritmo poderá tentar otimizá lo dispondo de todos os recursos que estiverem disponíveis, e eventualmente poderá destruir estruturas para obter mais metal para a produção de clips, até cobrir o planeta Terra com estes objetos.  

You build a system that’s extremely good at optimizing some utility function, but the utility function isn’t quite right. Russell has this example of paperclips. You say, “Make some paperclips.” And it turns the entire planet into a vast junkyard of paperclips. You build a super optimizer what utility function do you give it? Because it’s going to do it.

Exemplo "Paper Clip Maximizer"
Capa livro "Superintelligence"

O livro "Superintelligence" do filósofo Nick Bostrom deixou Bill Gates e Elon Musk apavorados. Musk chegou a declarar que a IA representa um "risco existencial" para a humanidade. A propósito, o já falecido físico teórico Stephen Hawking também tinha a preocupação de que uma IA superinteligente poderia causar a extinção da raça humana.

Isso nos remete para o "temor da singularidade".

IF ANYONE BUILDS IT, EVERYONE DIES

O livro "If Anyone Builds it, Everyone Dies - Why Superuman AI Would Kill us all", de Eliezer Yudkowsky e Nate Soares, publicado em 2025, tem uma mensagem clara e perturbadora — construir uma IA superinteligente poderá resultar na extinção da humanidade. O risco decorre justamente do "problema do alinhamento de valores", que já havia sido formulado anos atrás por Stuart Russell e outros estudiosos.

 

Os modelos modernos de IA são “treinados” a partir de enormes conjuntos de dados, e deste treinamento emergem comportamentos imprevisíveis. Uma IA assim pode até ser instruída a perseguir metas aparentemente simples, mas a sua interpretação destas metas e a ausência de "freios morais" pode levar a IA a adotar a estratégias imprevistas, como explorar recursos de maneira agressiva ou manipular ambientes e pessoas. Mais do que uma possibilidade, os autores defendem a tese de que uma IA verdadeiramente superinteligente provavelmente terá objetivos ou comportamentos que entrarão em conflito com os interesses humanos. Embora o livro possa ser criticado por seu tom alarmista, é uma obra importante, que tem o mérito de propor a reflexão sobre um problema real e de difícil solução. 

2025-09-30_084829.png

Esta preocupação tem fundamento no que já se observa nos modelos avançados de IA atualmente disponíveis.

"Sem um esforço substancial para evitá-lo, AGIs (Inteligências Artificiais Gerais) podem aprender a perseguir objetivos que estão em conflito (ou seja, desalinhados) com os interesses humanos. Se forem treinadas como os modelos mais avançados de hoje, as AGIs podem aprender a agir de forma enganosa para obter recompensas mais altas, desenvolver internamente objetivos desalinhados que se generalizam além das distribuições usadas no ajuste fino, e perseguir esses objetivos por meio de estratégias voltadas à obtenção de poder. Revisamos evidências emergentes que apontam para essas características. AGIs com essas características seriam difíceis de alinhar e podem parecer alinhadas mesmo quando não estão."

The Alignment Problem from a Deep Learning Perspective, Richard Ngo et al, 3 Mar 2025 

Os riscos das IAs avançadas associados com o "desalinhamento" são discutidos com detalhes nesta página.

Um exemplo acadêmico sobre a necessidade do alinhamento de valores é o quadro abaixo, reproduzido do artigo "AI Alignment: A Comprehensive Survey, Jiaming Ji etal". O quadro mostra diferentes capacidades perigosas que as IAs podem desenvolver se estiverem orientadas durante seu treinamento a apenas a CUMPRIR UM OBJETIVO, sem restrições adicionais relacionadas com valores humanos. 

2025-04-16_165413.png

Crédito de Imagem: "AI Alignment: A Comprehensive Survey, Jiaming Ji etal", Figure 1

O quadro resume uma importante variedade de capacidades que a IA pode desenvolver que podem representar riscos importantes para a humanidade, em caso de desalinhamento de valores:

  • Evitar ser desligada.

  • Hackear sistemas de computadores.

  • Fazer cópias (de forma autônoma).

  • Adquirir recursos.

  • Violações éticas.

  • Manipular humanos.

  • Fazer pesquisas e desenvolver software (de forma autônoma).

  • Persuadir, fazer lobbys em defesa de certos interesses.

  • Ocultar comportamentos inadequados (eticamente).

  • Aparentar alinhamento (para iludir humanos).

  • Evitar contenções (limites, restrições etc.).

  • Fazer pesquisa e desenvolvimento (por conta própria).

  • Fabricação e robótica (controladas por IA).

  • Armas autônomas (controladas por IA, com pouca ou nenhuma supervisão humana).

Vale ressaltar que algumas destas capacidades já são realidades hoje, ou estão próximas disso. Por exemplo, "fazer pesquisas e desenvolver software" já está bem ao alcance de várias aplicações de IA - com maior ou menor grau de autonomia. Os pesquisadores alertam, por exemplo, que em algum ponto a IA pode desenvolver algum tipo de "percepção situacional" (Situational Awareness), adquirindo a capacidade de adquirir e utilizar conhecimento sobre o seu próprio status, sua posição no ambiente, meios de influenciar este ambiente, e reações potenciais para o mundo (incluindo seres humanos) que tentem controlar suas ações. 

Também é realista a preocupação de que sistemas de IA em algum momento tentem ganhar controle sobre recursos (inclusive seres humanos!) e exercer controle sobre estes recursos em busca de alcançar um objetivo. O racional por trás desta previsão é que para quase todos os objetivos que envolvem maximizar algum resultado (por exemplo, o retorno de um investimento), a estratégia ótima envolve algum tipo de comportamento de "ganho de poder" (por exemplo, manipular o mercado), e na ausência de restrições éticas e morais (alinhamento de valores) não é improvável que a IA vá por este caminho, como já discutido anteriormente, não por "maldade" ou intencionalidade, mas por busca de otimizar sua performance. 

Referências

Jiaming Ji et al

Last Uptade: 4 Apr 2025

Richard Ngo, Lawrence Chan, Sören Mindermann

Last Uptade: 3 Mar 2025

OpenAI Blog

July 5, 2023

Yoshua Bengio

22 May 2023

Future of Life Institute

22 March, 2023

bottom of page