Os desafios para uma IA ética e responsável

Pessoa lendo jornal "The Daily Fake News"

As aplicações baseadas em inteligência artificial (doravante IA) têm imenso potencial de impacto nas vidas humanas – para o bem e para o mal. Há inegáveis benefícios, mas também muitos riscos como as campanhas de desinformação e discursos de ódio impulsionadas por IA que ameaçam as democracias em todo o mundo. A inovação tecnológica evolui rapidamente e não vai desacelerar, e por conta disso, como alerta Brad Smith, “é o trabalho para gerenciá-la que precisa ganhar velocidade”. Dado que já existem inúmeras aplicações deste tipo em uso é necessário acelerar as discussões sobre a governança das soluções de AI, bem como a necessidade de princípios éticos e marcos regulatórios adequados.

Este esforço de governança e regulamentação já é bastante difícil, e está ocorrendo em escala global. Entretanto, embora necessário, provavelmente não será suficiente. O ideal seria tentar "embutir" de alguma forma certos valores morais humanos já na concepção e treinamento dos sistemas de IA mais poderosos, em oposição a apenas tentar otimizar o desempenho destes sistemas no alcance de objetivos específicos.

Como veremos, isso é difícil de fazer na IA PREDITIVA, e ainda mais difícil na IA GENERATIVA.

Antes de prosseguir, porém, vamos concordar sobre o significado de "IA Preditiva" e "IA Generativa".

IA Preditiva e IA Generativa

Para nossos propósitos,

A IA Preditiva foca em prever resultados futuros ou classificar dados com base em padrões históricos. Seu objetivo é analisar dados existentes para tomar decisões informadas. Modelos são treinados por algoritmos de aprendizado supervisionado (como regressão, árvores de decisão, redes neurais tradicionais) para analisar padrões nos dados e prever o que pode acontecer. Os resultados produzidos são dados estruturados, como classificações (ex: "spam" ou "não spam") ou valores numéricos (ex: previsão de vendas).

Por exemplo,

Prever se um cliente vai cancelar um serviço.
Apoiar um diagnóstico médico com base em sintomas.
Fazer recomendações (ex: Netflix, Amazon).
Detectar anomalias (ex: falhas em equipamentos, fraudes em transações bancárias).

Já a IA Generativa (como o nome sugere) tem como objetivo gerar novos conteúdos (textos, áudios, imagens, vídeos, códigos de computador etc.). Modelos de linguagem são treinados por redes neurais complexas (muitas camadas) e aprendem a partir dos dados a gerar algo novo, como um poema, ou a imagem de um gato astronauta. Produz conteúdo complexo e não estruturado, como textos, imagens, áudios ou vídeos que não existiam anteriormente (como faz o ChatGPT).

Por exemplo,

Gerar textos coerentes.
Criar imagens, vídeos ou códigos (software).
Compor músicas inéditas.
Design de moléculas para novos medicamentos.

Feita esta distinção, vamos abordar a questão dos algoritmos éticos e da busca pelo "alinhamento de valores".

Algoritmos éticos

Alguns especialistas como Aaron Roth e Michael Kearns defendem que em vez de apenas regulamentar os sistemas de IA depois que já estão prontos, deve-se buscar a construção de algoritmos éticos - de modo que as aplicações de IA já sejam treinadas por algoritmos que tenham aguns valores morais humanos "embutidos" como restrições matemáticas. Por exemplo, o conceito "moral" de que a privacidade deve ser preservada já pode ser embutida em algoritmos. Graças ao trabalho de Cynthia Dwork e outros pesquisadores, a noção de "privacidade" foi ao menos parcialmente encapsulada na definição matemática de privacidade diferencial e assim ganhou uma métrica objetiva.

Infelizmente, como veremos em seguida, para outros valores morais a busca de uma definição matemática ou outra forma objetiva de representar princípios éticos nos algoritmos que treinam sistemas de IA é bem mais difícil no contexto da IA PREDITIVA (Ex.: sistemas de crédito, diagnósticos médicos, algoritmos de justiça criminal, recomendação de emprego etc.), e no caso da IA GENERATIVA, este alinhamento é ainda mais complicado.

Sem lanche grátis...

Como exemplos da dificuldade da criação de "algoritmos éticos" vejamos os casos da imparcialidade e da transparência. Veremos que ainda que não seja tecnicamente impossível incluir restrições nos sistemas de IA para que fiquem mais "alinhados" com estes dois valores, haverá escolhas difíceis a fazer, incluindo trade-offs inevitáveis entre "imparcialidade" e "precisão", ou entre "transparência" e "precisão".

A figura mostra um experimento em Machine Learning onde é necessário optar entre o modelo mais "justo" ou imparcial (com menor disparidade nas predições entre diferentes grupos sociais) e o sistema mais preciso (com maior acurácia) .

Comparação de modelos de IA - Fairness versus Performance

Imparcialidade (não discriminação)

Uma enorme preocupação no contexto da "AI ética e responsável" é o problema da discriminação. Há inúmeros relatos de algoritmos que revelaram 'padrão discriminatório' contra subgrupos sociais. Porém, não é trivial passar para algoritmos a noção de fairness (imparcialidade), ou do que significa um sistema de IA ser "justo" (do ponto de vista estatístico) com diferentes subgrupos. Para começar, não há um conjunto único e bem definido de conceitos morais como "justiça" sobre os quais todos concordem. Por exemplo, existem 21 definições diferentes de imparcialidade (fairness) e já foi provado que não é possível satisfazer simultaneamente a todas elas. Ou seja, ao se tentar diminuir a 'injustiça' em uma solução de IA entre diferentes subgrupos sociais privilegiando uma certa noção de fairness (por exemplo, 'paridade estatística'), pode-se aumentar a injustiça se esta for medida por outra métrica (por exemplo, 'taxa de falsos positivos e negativos'). Além disso, a redução da discriminação algorítmica em muitos casos vai requerer um trade-off com a eficiência. Como mostrado na figura anterior, ao embutir restrições para maximizar a imparcialidade (fairness) usando alguma definição que pareça adequada ao contexto no treinamento de um modelo, a acurácia do modelo (ou outra medida de performance) poderá diminuir - suas predições não serão tão precisas, e isso pode ter impactos negativos que a sociedade precisa compreender. Não há lanche grátis.

Transparência

Há também dificuldades em lidar com o problema da transparência, ou o propósito de evitar que as soluções de IA funcionem como caixas pretas (black boxes) cujas decisões não são compreensíveis pelas partes afetadas. Embora existam processos e ferramentas que conferem maior interpretabilidade e explanabilidade aos algoritmos de IA, o problema não é trivial. Vale observar que "maior transparência" não se trata apenas de "revelar o algoritmo" utilizado. Em função da irredutibilidade da computação mesmo que sejam divulgados todos os detalhes sobre o código fonte de sistema de IA pode ser extremamente difícil predizer o que este código ou algoritmo vai fazer. Além disso, assim como no caso da busca pela não discrimininação pode ocorrer um trade-off entre "performance" e "imparcialidade", na busca pela maior transparência também ocorre um trade-off entre "ter um sistema de IA mais transparente" e "ter um sistema de IA mais preciso". Ou seja, ao se tentar produzir um sistema otimizado em termos de performance, é pouco provável que se consiga ao mesmo tempo uma narrativa mais amigável aos humanos sobre como o modelo funciona e como suas decisões são tomadas (como é o caso das aplicações de IA treinadas por redes neurais complexas com muitas camadas, utilizadas em deep learning). Sem lanche grátis aqui também.

O problema do alinhamento de valores

Mensagem de Mira Murati sobre a importância do alinhamento de valores morais humanos com a IA

Todos desejamos uma IA mais ética e responsável, aderente aos valores morais como justiça, igualdade, inclusividade, segurança, privacidade, transparência, responsabilização e outros, alguns deles já considerados direitos fundamentais do homem. Os princípios para uma IA ética tentam colocar em palavras os valores que se deseja assegurar.

Vimos que uma abordagem interessante é tentar incluir ao menos alguns destes princípios ou valores morais nos próprios algoritmos que suportam os sistemas de IA (ou seja, investir no design de algoritmos éticos). Já existe consenso de que esta tarefa se torna cada vez mais importante na medida em que vários sistemas poderosos de IA já estão em uso, alguns operando com grande autonomia para tomar decisões que antes eram relegadas aos humanos.

Porém, há uma dificuldade importante - como "embutir" valores morais humanos em algoritmos?

O nome usualmente utilizado para denotar esta tarefa é "alinhamento de valores" (Value Alignment). Esta tarefa não é simples, e requer uma abordagem multidisciplinar envolvendo legisladores, políticos, especialistas em IA, cientistas de dados, estatísticos, desenvolvedores de software, psicólogos, antropologistas, filósofos e a sociedade em geral.

Como mencionado, o propósito do "alinhamento de valores" é assegurar que os sistemas de IA (sobretudo os mais poderosos e capazes de produzir maior impacto e com mais alcance) estejam adequadamente alinhados com valores morais humanos. Para os interessados, selecionamos algumas referências:

Este tema é discutido pelo cientista da computação Stuart Russel em seu livro "Human Compatible: AI and the Problem of Control" e em outras referências.
O assunto também é abordado com grande competência no artigo "Artificial Intelligence, Values, and Alignment" de Iason Gabriel, filósofo eticista da DeepMind em Londres.
Outra boa referência é o livro "The Alignment Problem" de Brian Christian.
Veja também a abordagem da OpenAI (criadora do ChatGPT) para o "problema do alinhamento de valores".

Artigo de Iason Gabriel (Artificial Intelligence, Values and Alignment)

De forma simplificada, o problema de "alinhamento de valores" tem duas partes, uma técnica, e outra filosófica:

1. Como implementar valores morais em um sistema de IA?

Esta é a parte técnica do problema do alinhamento. Soluções de IA que utilizam Machine Learning para aprender com dados são projetadas para maximizar a eficiência na execução de alguma tarefa (por exemplo, classificar imagens) - e fazem isso muito bem. Porém, não farão nada além disso se não forem instruídas para tal, de modo objetivo. Se você otimiza um algoritmo para maior precisão, não ganhará transparência, privacidade e não discriminação como um bônus a troco de nada. Assim, é preciso encontrar meios técnicos (por exemplo, através de restrições matemáticas definidas durante o treinamento do modelo) de incluir os valores morais desejados no design da solução.

Em um dos exemplos citados pelo professor Russell, se um algoritmo de recomendações de conteúdo utilizado em mídias sociais tem como único objetivo "maximizar o número de cliques dos usuários", sem levar em conta qualquer outro valor moral que imponha limitações (como ocorre em muitas implementações), provavelmente haverá problemas éticos no uso desta aplicação. Se a pornografia ou a violência extrema aumentarem estatisticamente o número de cliques por parte dos usuários, este será o caminho que o algoritmo do sistema de recomendações poderá tomar na ausência de outros controles para maior "alinhamento" com outros valores morais. A questão aqui é que a "lógica atual da otimização pura e simples de um sistema para alcançar este ou aquele objetivo" precisa ser abandonada: Como sugere o professor Stuart Russell, "em vez dos sistemas de IA serem considerados "inteligentes" na medida em que conseguem atender os seus objetivos, eles devem ser considerados benéficos na medida em que consigam atingir os nossos objetivos". Mas para isso, é preciso determinar quais objetivos seriam estes, o que nos leva ao aspecto filosófico do problema do alinhamento de valores.

2. Com quais valores desejamos que o sistema de IA esteja alinhado?

Esta é a parte mais filosófica ou normativa do "problema do alinhamento". Como a sociedade vai decidir sobre quais princípios (ou objetivos) devem ser "codificados" em sistemas de IA? Quem decidirá sobre isso, considerando que vivemos em uma sociedade pluralista com diferentes visões de mundo e crenças sobre valores morais, em alguns casos, incompatíveis entre si? Como fazer isso de forma que um determinado grupo não "imponha" seus valores preferidos sobre outros grupos?

O filósofo eticista Iason Gabriel nos ensina que há diferentes concepções sobre como isso pode ser feito. Por exemplo, em uma abordagem minimalista o foco seria em tentar embutir na IA pelo menos os controles que impeçam os impactos maiores (por exemplo, que atentem contra a segurança humana ou tragam outros resultados ruins sobre esta ótica da segurança e confiabilidade). Esta concepção nos levaria ao que o autor chama de "IA segura" (Safe AI). Já na abordagem maximalista o desafio seria ter não apenas segurança, mas uma "IA boa e justa" (Good IA), uma meta mais ambiciosa e próxima do que queremos dizer com "IA ética e responsável", mas também mais difícil, dado que é neste caso justamente que será preciso lidar com a "questão das definições". Assim, a parte normativa do "problema do alinhamento" parece ser a mais difícil, até pelo fato de que enquanto ela não for endereçada não será possível resolver a parte técnica de forma adequada (não podemos embutir valores morais na IA se não concordamos ainda sobre quais são eles). O mundo é plural, há diferentes sistemas morais e opiniões sobre o que significa ser justo, ou se a transparência deve ter prioridade sobre a eficiência, ou se a privacidade é mais ou menos importante que a precisão etc. É preciso definir qual seria o melhor método para discutir sobre a parte normativa.

Sobre isso, o filósofo nos explica que há três principais abordagens.

A primeira é a "Busca da Sobreposição de Valores", ou a ideia que ainda que existam diferenças entre as visões sobre quais seriam os melhores valores para direcionar a IA, existe consenso sobre um grupo de valores, sobre o qual todos ou a grande maioria concorda. Por exemplo, uma pesquisa em diferentes fontes de princípios para a IA ética revela que há razoável convergência sobre alguns princípios éticos como transparência, justiça, igualdade, segurança (confiabilidade), responsabilização e privacidade.
A segunda é o "Véu da Ignorância", fundamentado nos estudos do filósofo John Rawls. Esta abordagem visa evitar que os princípios sejam criados pensando-se "no interesse próprio e em cada caso particular", e em vez disso sejam definidos com base apenas em considerações gerais, como se seus criadores não soubessem quem vai ser afetado, nem onde, nem quando.
A terceira é a "Escolha Social", ou seja, deixar a sociedade votar e decidir sobre quais devem ser os princípios e noções morais que a IA deve seguir. Neste caso não se pretende obter princípios universais e categóricos (no sentido Kantiano), ou princípios sobre o qual todos concordem, mas em vez disso adotar o que foi escolhido pela maioria da sociedade, que afinal é quem será afetada pelas aplicações de IA. Esta seria portanto a "abordagem democrática" para atacar a parte normativa do "problema do alinhamento". Naturalmente, tem também suas dificuldades (como assegurar representatividade e conduzir esta votação? Cada país fará sua análise de escolhas isoladamente, e depois isso será agregado globalmente de alguma forma? Etc.).

O autor nos lembra também que dados os interesses econômicos em jogo e o alcance e importância da IA hoje no mundo, o problema não é apenas técnico e moral, mas tem um forte componente político, e também nos lembra que a IA é ainda uma tecnologia emergente, sobre o qual sabemos pouco, e que portanto é preciso cautela e uma abordagem progressiva na sua normatização, apesar dos anseios em todo o mundo por marcos regulatórios para o uso da IA.

Ainda que seja difícil de implementar, o "alinhamento de valores" é importante para evitar os riscos da singularidade e outros problemas que podem derivar de uma IA treinada apenas para "otimizar a performance em um objetivo específico". Veja a discussão sobre o "Efeito Midas" a seguir.

O "efeito Midas"

Cuidado com o objetivo que você passa para a IA, pois ela vai tentar alcançá-lo da forma mais otimizada possível.

A imagem mostra o professor Stuart Russel na TED Talk "3 principles for creating safer AI", que é bastante interesssante (e divertida, apesar da seriedade e relevância do tema).

Stuart Russell em TED Talk sobre riscos da IA

Um alerta feito por Stuart Russell (que reforça a importância do "alinhamento de valores") é que devemos “entender exatamente o que está sendo pedido” para um sistema de IA, pois pela forma como os modelos de Machine Learning funcionam, os algoritmos vão tentar otimizar a sua performance na tarefa que devem resolver (por exemplo, classificar imagens), sem se preocupar com outros objetivos se estes não forem explicitamente definidos. Temos que ter muita atenção ao que estamos pedindo, para evitar o “efeito Midas ” na IA: Obter resultados ótimos, porém não alinhados ao que realmente desejamos.

Um exemplo já antigo e anedótico porém ainda ilustrativo de Nick Bostrom (filósofo da Universidade de Oxford) sobre o “problema do rei Midas na IA” é o da "produção de clips de papel":

“AI, produza a maior quantidade possível de clips de papel”.
Se é este o único objetivo passado para o sistema, o algoritmo poderá tentar otimizá lo dispondo de todos os recursos que estiverem disponíveis, e eventualmente poderá destruir estruturas para obter mais metal para a produção de clips, até cobrir o planeta Terra com estes objetos.

You build a system that’s extremely good at optimizing some utility function, but the utility function isn’t quite right. Russell has this example of paperclips. You say, “Make some paperclips.” And it turns the entire planet into a vast junkyard of paperclips. You build a super optimizer what utility function do you give it? Because it’s going to do it.

O livro "Superintelligence" do filósofo Nick Bostrom deixou Bill Gates e Elon Musk apavorados. Musk chegou a declarar que a IA representa um "risco existencial" para a humanidade. A propósito, o já falecido físico teórico Stephen Hawking também tinha a preocupação de que uma IA superinteligente poderia causar a extinção da raça humana.

Isso nos remete para o "temor da singularidade".

A IA Generativa e o alinhamento de valores

Como vimos, a IA GENERATIVA abrange os assistentes baseados em modelos de linguagem (LLMs) como o ChatGPT, a geração de áudios, imagens e vídeos, chatbots etc. Nestes casos, obter alinhamento com valores morais humanos é ainda mais difícil do que na IA preditiva, em função de:

Comportamento emergente e não determinístico: Enquanto sistemas preditivos têm objetivos mais bem definidos e estruturados, modelos generativos não têm métricas tão claras de sucesso. Estes modelos aprendem padrões estatísticos massivos e geram conteúdo aberto de forma altamente dependente de contexto, sem supervisão humana, em tempo real. Tudo isso dificulta prever como valores éticos se manifestarão.

Propriedades emergentes: Sistemas de IA generativa possuem propriedades emergentes imprevisíveis e podem alucinar ou mentir em suas respostas, o que torna a tradução de valores morais em regras computacionais mais desafiadora e incerta.
Falta de interpretabilidade: A transparência já é difícil nos sistemas preditivos, se não for levada em conta já no início do proejto. No caso da IA generativa é ainda mais complexo conseguir "explicar" como o modelo "decidiu" gerar uma determinada resposta, para que seja possível corrigir eventuais falhas éticas.
Treinamento em conteúdo obtido na internet: Sem a devida curadoria, o conteúdo utilizado no treinamento de um modelo de IA generativa pode conter vieses, preconceitos e discursos de ódio — e muitos desses padrões acabam replicados nos modelos.
Alinhamento incompleto com valores humanos: A dificuldade filosófica do alinhamento também se aplica aqui - o que é “ético” pode variar bastante entre culturas e contextos, e não há um consenso universal que possa ser traduzido em objetivos de otimização, ainda que isso se torne tecnicamente possível.
Risco de manipulação ou uso indevido: Modelos generativos podem ser usados propositalmente para gerar deepfakes, propagar desinformação e outras formas de manipulação política, e estes resultados são difíceis de conter apenas com princípios éticos previamente incorporados. Uma coisa é prevenir um resultado desalinhado acidental, outra é impedir resultados eticamente desalinhados gerados de propósito.

Vejamos o que dizem os especialistas:

"Sem um esforço substancial para evitá-lo, AGIs (Inteligências Artificiais Gerais) podem aprender a perseguir objetivos que estão em conflito (ou seja, desalinhados) com os interesses humanos. Se forem treinadas como os modelos mais avançados de hoje, as AGIs podem aprender a agir de forma enganosa para obter recompensas mais altas, desenvolver internamente objetivos desalinhados que se generalizam além das distribuições usadas no ajuste fino, e perseguir esses objetivos por meio de estratégias voltadas à obtenção de poder. Revisamos evidências emergentes que apontam para essas características. AGIs com essas características seriam difíceis de alinhar e podem parecer alinhadas mesmo quando não estão."

The Alignment Problem from a Deep Learning Perspective, Richard Ngo et al, 3 Mar 2025

Por exemplo,

Um assistente baseado em um LLM (como o ChatGPT) pode ser solicitado a escrever uma piada engraçada, gerar uma imagem, ou responder uma pergunta polêmica. Se o modelo não estiver alinhado com normas éticas e culturais, pode gerar conteúdo ofensivo, enviesado, enganoso ou perigoso.
Ao otimizar o objetivo de "ser útil ou agradável ao usuário" sem limites, um assistente de IA Generativa pode produzir desinformação para satisfazer esta expectativa.
A IA pode gerar respostas convincentes, mas falsas, se a meta for apenas "parecer informada".
A IA também pode alucinar, gerar conteúdo inapropriado ou incentivar comportamentos inadequados, se o objetivo for apenas "maximizar engajamento" em redes sociais.

Algumas "restrições éticas" podem ser aplicadas na IA Generativa por meio de técnicas de alinhamento, como como RLHF (Reinforcement Learning from Human Feedback), onde humanos avaliam respostas e moldam o comportamento do modelo, e o uso de filtros pós-treinamento, curadoria de dados e outras regras de segurança ("guardrails") embutidas após o treinamento do modelo para prevenir respostas ofensivas, discriminatórias ou perigosas. Porém, considerando o estado atual da tecnologia estas tentativas de alinhamento da IA Generativa com valores morais humanos ainda são imperfeitas.

Um outro exemplo NÃO ANEDÓTICO e acadêmico sobre a necessidade do alinhamento de valores é o quadro abaixo, reproduzido do artigo "AI Alignment: A Comprehensive Survey, Jiaming Ji etal". O quadro mostra diferentes capacidades "perigosas" que as IAs podem desenvolver se estiverem orientadas apenas a CUMPRIR UM OBJETIVO, sem restrições adicionais relacionadas com valores humanos.

Crédito de Imagem: "AI Alignment: A Comprehensive Survey, Jiaming Ji etal", Figure 1

O quadro resume uma importante variedade de capacidades que a IA pode desenvolver que podem representar riscos importantes para a humanidade, em caso de desalinhamento de valores:

Evitar ser desligada.
Hackear sistemas de computadores.
Fazer cópias (de forma autônoma).
Adquirir recursos.
Violações éticas.
Manipular humanos.
Fazer pesquisas e desenvolver software (de forma autônoma).
Persuadir, fazer lobbys em defesa de certos interesses.
Ocultar comportamentos inadequados (eticamente).
Aparentar alinhamento (para iludir humanos).
Evitar contenções (limites, restrições etc.).
Fazer pesquisa e desenvolvimento (por conta própria).
Fabricação e robótica (controladas por IA).
Armas autônomas (controladas por IA, com pouca ou nenhuma supervisão humana).

Vale ressaltar que algumas destas capacidades já são realidades hoje, ou estão próximas disso. Por exemplo, "fazer pesquisas e desenvolver software" já está bem ao alcance de várias aplicações de IA - com maior ou menor grau de autonomia.

Os pesquisadores alertam, por exemplo, que em algum ponto a IA pode desenvolver algum tipo de "percepção situacional" (Situational Awareness), adquirindo a capacidade de adquirir e utilizar conhecimento sobre o seu próprio status, sua posição no ambiente, meios de influenciar este ambiente, e reações potenciais para o mundo (incluindo seres humanos) que tentem controlar suas ações.

Também é realista a preocupação de que sistemas de IA em algum momento tentem ganhar controle sobre recursos (inclusive seres humanos!) e exercer controle sobre estes recursos em busca de alcançar um objetivo. O racional por trás desta previsão é que para quase todos os objetivos que envolvem maximizar algum resultado (por exemplo, o retorno de um investimento), a estratégia ótima envolve algum tipo de comportamento de "ganho de poder" (por exemplo, manipular o mercado), e na ausência de restrições éticas e morais (alinhamento de valores) não é improvável que a IA vá por este caminho, como já discutido anteriormente, não por "maldade" ou intencionalidade, mas por busca de otimizar sua performance.

Referências