Filosofia e Inteligência Artificial
Transparência
A transparência é um requisito para legitimar decisões tomadas com base em IA que afetam pessoas.
A falta de transparência pode trazer riscos.
Large language models display impressive capabilities. However, for the most part, the mechanisms by which they do so are unknown.
(On the Biology of a Large Language Model -Anthropic)

Saídas dos modelos de Machine Learning
As saídas ou resultados de um sistema de IA variam com o tipo de modelo utilizado e seu propósito. Por exemplo, podem ser uma predição (qual será a safra de tomates no próximo semestre), uma recomendação (você deve gostar deste próximo filme na Netflix), ou uma classificação (esta imagem é de um gato, e não de um cachorro). No caso dos modelos mais sofisticados utilizados nas aplicações de IA Generativa, as saídas podem ser textos ou imagens gerados a partir de Prompts fornecidos pelos usuários.
De qualquer forma, as saídas geradas por modelos podem ser utilizadas na tomada de decisões. Em certos casos, as saídas do modelo de IA servem como subsídio ou apoio para que um humano tome a decisão. Porém, em outros casos a decisão pode ser tomada diretamente pelo sistema de IA, de forma autônoma, sem intervenção humana.
Estas decisões podem ter impactos importantes na vida de pessoas ou grupos, e é justificável que as pessoas impactadas por tais decisões queiram compreender quais foram os critérios utilizados, ou como estas decisões foram tomadas.

Fonte da Imagem: AI Explainability in Practice – The Alan Turing Institute
Transparência na IA é importante
Dado que as aplicações de IA podem trazer impactos práticos na vida das pessoas a transparência é um requisito importante no desenvolvimento destes sistemas para que possa existir legitimidade. As pessoas devem ser capazes de exercer o seu direito de avaliar as decisões que as impactam. Isso já é assim nas decisões tomadas por humanos, e deve valer também para os sistemas de IA com autonomia para tomar decisões.
A falta de transparência (pouca interpretabilidade ou explanabilidade) também pode representar riscos. Um exemplo especialmente preocupante é o do uso de modelos de Machine Learning no apoio em diagnósticos médicos. Já existem centenas de modelos de IA para apoio em decisões médicas aprovados pela FDA, sendo a grande maioria utilizada por radiologistas para detectar anormalidades em exames de imagens (como tumores malignos). Muitos destes modelos são "caixas pretas", de modo que o médico que os utiliza não tem ideia de como as decisões / predições do modelo são geradas. Embora tais modelos tenham excelente performance, a falta de transparência é uma preocupação. Será que o modelo treinado com dados genéricos se aplica a um caso particular de um paciente específico? Será que todas as variáveis levadas em conta são relevantes para aquele caso?
Há muitos outros exemplos onde a transparência nos sistemas de IA é importante, inclusive na documentação do modelo - o que faz, em que contexto pode ser utilizado, quais são suas limitações etc. Por exemplo, sistemas de IA podem “decidir” quem deve ou não ser chamado para uma entrevista de emprego ou quem pode ou não receber um financiamento bancário. Talvez o modelo utilizado para dar predições sobre policiamento preditivo não seja aplicável neste ou naquele caso específico, ou contenha features (variáveis) irrelevantes, de modo que seu uso não seria recomendado em certos contextos, e as pessoas (organizações, governos) podem utilizar tais modelos mesmos nestes casos por não saber disso - em função do desconhecimento sobre como os modelos funcionam, seus parâmetros, variáveis consideradas etc.
A transparência é também um requisito para que cientistas de dados, desenvolvedores, analistas, auditores, gestores de compliance e executivos possam atestar a conformidade de uma aplicação de IA com critérios e requisitos definidos internamente em políticas corporativas, padrões da indústria ou regulamentações aplicáveis. Neste contexto, podem ocorrer riscos de não conformidade associados com a falta de transparência.
Vale ressaltar que tanto a GDPR na União Europeia quando a LGPD (Lei Geral de Proteção de Dados) no Brasil têm requisitos que tratam de decisões automatizadas. Em particular, o artigo 20 da LGPD assegura ao titular o direito de requerer a revisão de decisões tomadas unicamente com base em tratamento automatizado de seus dados pessoais. Ou seja, se um sistema toma decisões de forma autônoma que possam gerar impactos sobre o titular (por exemplo, se a pessoa é ou não elegível para receber um empréstimo), tal decisão deve ser explicada e deve permitir uma revisão por agente humano.
A transparência tem forte relação com dois conceitos - interpretabilidade e explanabilidade.
Interpretabilidade e explanabilidade
O requisito da transparência é diretamente relacionado com a interpretabilidade e a explanabilidade dos modelos. Em muitos artigos estes dois termos são utilizados como sinônimos, mas tecnicamente os conceitos são diferentes:
-
A interpretabilidade (Interpretability) tem relação com a facilidade de se estabelecer uma relação de causa e efeito nas predições, ou seja, a capacidade de predizer o que vai acontecer em função dos dados e parâmetros fornecidos como entradas (inputs). Maior interpretabilidade requer o entendimento do funcionamento dos mecanismos internos e da lógica do modelo, ou ao menos das partes do modelo que são relevantes para as predições. Como veremos, isso pode ser fácil de fazer para determinados algoritmos e pode ser bastante difícil em modelos mais complexos.
-
A explanabilidade (Explainability) prioriza a explicação dos resultados ou decisões do modelo para pessoas comuns (não especialistas). Resumidamente, se o modelo em si é uma função muito complexa (uma rede neural), tenta-se aproximar esta função por outra mais simples (usar um outro modelo para tentar "explicar" as decisões do complexo, ou ao menos indicar quais features (variáveis) foram mais relevantes na tomada de decisões). Há diversas técnicas e ferramentas que os desenvolvedores podem empregar para conferir maior explanabilidade em seus modelos de Machine Learning, como LIME, SHAP e PFI, e esta página traz algumas referências.
Alguns tipos de algoritmos utilizados para treinar modelos em Machine Learning são bem interpretáveis. De modo geral, este é o caso das técnicas de Regressão Linear, Regressão Logística e Árvore de Decisão por exemplo. Porém, mesmo no caso mais trivial da Regressão Linear (onde a boa interpretabilidade decorre da linearidade do modelo), a interpretabilidade pode ser reduzida com o aumento do número de features (maior dimensionalidade). Da mesma forma, Árvores de Decisão pequenas são em geral interpretáveis, pois sua lógica pode ser seguida do início ao final. Além destes exemplos, há outros métodos que são considerados interpretáveis, como K-Nearest Neighbour (KNN) e Case-based Reasoning (CBR).
Por outro lado, há outros algoritmos e técnicas que são bastante opacos ("caixas pretas") e cuja interpretabilidade é muito baixa. Por exemplo:
-
Redes neurais (tanto recorrentes quanto convolucionais, ou com arquitetura Transformer, utilizada no treinamento de LLMs).
-
Métodos de ensemble (como a técnica de Random Forest, que combina os resultados de diversos modelos).
-
Modelos treinados com algoritmos do tipo Support Vector Machines (SVM), um tipo de classificador que utiliza uma função especial de mapeamento para construir um divisor entre dois conjuntos de features em um espaço multidimensional.
No caso destes algoritmos mais opacos, o que ocorre é que eles são desenvolvidos visando-se a performance functional. Isso leva à adoção de funções matemáticas que são otimizadas para fornecer a melhor resposta possível para a questão formulada (por exemplo, reconhecer objetos em imagens ou classificar textos), o que é obtido através de um ajuste fino de parâmetros, em um processo que na maior parte dos casos não fornece explicações sobre como tais aproximações e otimizações foram feitas. Assim, em certos casos (como em aplicações de Deep Learning que utilizam redes neurais complexas) poderá haver um trade-off maior entre a interpretabilidade e a performance. Aqui também não há lanche grátis - a maior interpretabilidade pode cobrar um preço em desempenho, como ilustrado na figura seguinte.

Fonte da Imagem: Interpretability versus explainability – AWS Whitepaper
Explanabilidade de modelos de Machine Learning com SHAP (SHapley Additive exPlanations)

Este artigo explica com uma abordagem introdutória a ferramenta SHAP (SHapley Additive exPlanations) como apoio para a explanabilidade das predições geradas por modelos de Machine Learning. Como sabemos, a IA tem sido usada tanto para apoiar decisões humanas quanto para tomar decisões por si própria, de forma autônoma. Em qualquer caso, o princípio da Transparência na Inteligência Artificial requer que seja possível explicar como as saídas (decisões) do modelo foram geradas, sobretudo se tais decisões têm impactos sobre seres humanos. O modelo prevê que João tem diabetes, mas Maria não. Qual é a explicação? O modelo prediz que José deve ser chamado para uma entrevista de emprego, mas Paulo não. Qual o motivo desta decisão? O modelo prevê que uma casa com certos atributos deve custar R$ 400.000,00. Como chegou a este valor? O SHAP é uma forma de resolver o complexo problema da explanabilidade. A base teórica é fundamentada na Teoria dos Jogos, e a ideia é explicar como as features utilizadas no treinamento contribuem para uma determinada predição ou saída pelo modelo. Além de uma explicação de como o SHAP funciona, o texto traz exemplos de gráficos gerados pela ferramenta, e é complementado por um código em Python (Notebook) mostrando o uso do SHAP em um exemplo prático (modelo de classificação para previsão de diabetes utilizando o algoritmo KNN (k-Nearest Neighbors).

Model Cards
Uma técnica que contribui para a maior transparência de modelos de IA é a documentação por model cards - documentos padronizados que descrevem informações essenciais sobre o modelo. Os model cards (ou system cards) foram propostos pela pesquisadora Margaret Mitchell (ex-Google) e seus colegas como uma forma padronizada de documentar modelos de machine learning, com foco em transparência, responsabilidade e equidade no uso de IA.
Essa proposta surgiu em um momento de crescente preocupação com viés algorítmico, a falta de transparência e os impactos sociais da IA. Timnit Gebru, coautora do paper, foi uma das vozes mais influentes nesse debate, tendo liderado o time de ética em IA no Google antes de sua controversa demissão em 2020, que gerou debates intensos sobre ética na inteligência artificial (IA), liberdade acadêmica e a diversidade nas grandes empresas de tecnologia. O caso também intensificou os debates sobre a necessidade de regulamentação da IA e a importância de garantir que a pesquisa nessa área seja conduzida de forma ética e inclusiva.

Um model card típico pode incluir:
-
Descrição do modelo: objetivo, arquitetura, versão.
-
Conjuntos de dados usados: dados de treino, validação e teste.
-
Métricas de desempenho: acurácia, viés, robustez em diferentes grupos ou tarefas.
-
Limitações conhecidas: onde o modelo pode falhar ou não deve ser usado.
-
Testes de segurança e equidade: se e como o modelo foi testado quanto a riscos de segurança, enviesamentos ou usos indevidos.
-
Recomendações de uso: contextos adequados e advertências.
A publicação de model cards pelos criadores do modelo ajuda na transparência de diferentes formas:
-
Responsabilização (accountability): Os cards tornam mais claro quem desenvolveu o modelo e com que propósito.
-
Auditoria e avaliação: permitem que outros pesquisadores, reguladores e usuários avaliem se o modelo é seguro e apropriado para determinado uso.
-
Identificação de riscos: alertam para potenciais falhas, preconceitos ou áreas onde o modelo pode ser perigoso.
-
Confiabilidade: ajudam usuários a confiar (ou desconfiar) de modelos com base em evidências claras de desempenho e testes.
Veja alguns exemplos de model cards para modelos de ponta.
-
Gemini 2.5 Pro (Google) - O card traz informações importantes, mas poucos detalhes sobre testes de segurança.
-
GPT-4 (Open AI) - Detalha arquitetura, desempenho e testes de segurança.
-
GPT-4o (Open AI) - Explica as capacidades multimodais (texto, imagem, áudio) e traz avaliações de risco.
-
Claude 3.5 Sonnet (Anthropic) - Descreve as melhorias em raciocínio, visão e segurança em relação ao Claude 3 Opus.
-
Claude 3.7 Sonnet (Anthropic) - Primeiro modelo de raciocínio híbrido da Anthropic, com foco em segurança e mitigação de danos (uso ético e responsável).
Lendo todos estes documentos, é possível perceber claramente que a transparência varia entre os desenvolvedores. Por exemplo, a OpenAI oferece documentos detalhados para o GPT-4 e GPT-4o, enquanto a documentação do Gemini 2.5 Pro da Google é mais limitada em detalhes sobre testes de segurança. A Anthropic se destaca positivamente por fornecer informações extensas sobre segurança e mitigação de riscos em seus modelos Claude.
Isso nos remete para uma importante questão - é possível abrir a caixa preta (obter maior interpretabilidade) sem prejudicar a acurácia (performance) do modelo?

Fonte da Imagem: AI Explainability in Practice – The Alan Turing Institute
É posível abrir a caixa preta?
Muitos modelos de IA são como "caixas pretas" - alguém fornece uma entrada, e o modelo devolve uma saída, sem que seja claro como a resposta ou decisão fornecida pelo modelo foi tomada. Um caso típico são as redes neurais complexas (com muitas camadas) utilizadas em Deep Learning. Embora modelos treinados com estas redes tenham excelente performance, a sua interpretabilidade é muito baixa, como já discutido acima.
Neste contexto, os pesquisadores têm procurado encontrar formas de "abrir a caixa preta", tornando mesmo os sistemas de IA mais complexos mais transparentes, SEM que ocorra perda significativa em sua performance.
Não é uma tarefa fácil.
Interpretabilidade Mecanicista é viável?
Interpretabilidade mecanicista é um subcampo da pesquisa em interpretabilidade de IA que busca fazer a engenharia reversa do funcionamento interno de modelos de Machine Learning — especialmente redes neurais complexas — em componentes compreensíveis por humanos.
Ela tenta responder perguntas como:
-
"O que exatamente esse modelo está fazendo por dentro?"
-
"Quais componentes internos (neurônios, cabeças de atenção, camadas) são responsáveis por certos resultados ou comportamentos?"
-
"Podemos expressar as operações do modelo como um tipo de algoritmo ou fluxo de informações?"
As práticas envolvidas incluem:
-
Análise de circuitos: Rastrear como os recursos de entrada fluem pela rede neural.
-
Decomposição de neurônios: Entender o que neurônios individuais ou grupos de neurônios calculam.
-
Localização de características: Mapear conceitos (como “negação”, “sentimento”, “reconhecimento de número”) para partes específicas da rede neural.
-
Descoberta de mecanismos: Identificar estruturas computacionais reutilizáveis — como mecanismos que copiam, comparam ou processam sintaxe.
Isso é interessante, mas será viável?
Há quem pense que sim.
Grandes investimentos têm sido feitos ($) nesta área (milhões de dólares nos últimos dez anos), até agora sem grandes retornos, apesar de alguns resultados interessantes terem sido obtidos, como a técnica de Feature Visualizations para explicar modelos de classificação de imagens, e Saliency maps, um método que tenta identificar quais partes específicas de uma entrada (input) são mais relevantes ("salientes") para a tomada de decisão do modelo, que parecia mais promissor do que provavelmente é, conforme discutido neste artigo.
Um resultado importante foi produzido pela Anthropic com o projeto Transformer Circuits, Resumidamente, uma pesquisa divulgada sobre experiências com o modelo Claude 3.0 Sonnet informa que pela primeira vez, os cientistas conseguiram criar um mapa conceitual dos "estados internos" de um modelo de linguagem, visualizando features que representavam entidades como cidades, pessoas, elementos atômicos da tabela periódica e até mesmo síntaxe de programação (chamadas de função). Foi como "mapear a mente de um LLM" pela primeira vez - um importante avanço na pesquisa de interpretabilidade. O estudo completo pode ser visualizado aqui.
A OpenAI também tem um projeto interessante chamado Neuron Explainer. Um outro esforço da OpenAI para testar a escalabilidade dos métodos de interpretabilidade foi o uso da técnica de Análise de Circuitos (Circuit Analysis) para analisar os circuitos neurais do modelo de linguagem Chinchilla (70 bilhões de parâmetros).
Há outros grupos acadêmicos que tentam decodificar modelos, em certos casos usando modelos de linguagem para "explicar" o que fazem os neurônios nas redes neurais em outros modelos de linguagem (ou seja, usar a IA em busca a interpretabilidade da IA).
Há quem pense que não.
Os modelos mais avançados atualmente (modelos de fronteira) têm centenas de bilhões de parâmetros — ordens de magnitude maiores que modelos “de brinquedo” onde a interpretabilidade completa já foi alcançada. O conhecimento e os comportamentos nesses modelos não estão localizados em um único neurônio ou componente da rede neural, mas são espalhados por toda a rede, e muitos comportamentos e capacidades são emergentes - surgem de interações complexas entre muitos componentes, dificultando o mapeamento exato entre causa e efeito.
Sistemas complexos não podem ser facilmente reduzidos a mecanismos simples. À medida que os sistemas se tornam maiores e mais complexos, os cientistas passam a focar em propriedades de nível mais alto — como padrões emergentes, comportamentos coletivos ou descrições estatísticas — em vez de tentar uma análise direta na menor escala das interações fundamentais. Meteorologistas, por exemplo, não tentam prever o tempo rastreando cada molécula individual na atmosfera. Da mesma forma, seria inviável compreender sistemas biológicos começando a partir de partículas subatômicas e subindo a partir daí. E poucos psicólogos tentam explicar o comportamento de uma pessoa quantificando a contribuição de cada neurônio para seus pensamentos. A complexidade torna as IAs mais poderosas, mas menos transparentes. Os sistemas de IA mais poderosos exibem propriedades emergentes que aparecem espontaneamente a partir de um certo nível de complexidade, apesar de não estarem presentes em um número menor de componentes idênticos. Em outras palavras, o todo é mais do que a soma das partes. Os modelos de IA atuais também são sistemas complexos — e isso não é por acaso. Como descobriram os pioneiros do aprendizado profundo, sistemas mais complexos são mais poderosos. Mas também são mais opacos.
Dan Hendrycks e Laura Hiscott (The Misguided Quest for Mechanistic AI Interpretability)
Para estes pesquisadores, tentar explicar de forma resumida (que um humano possa compreender) a cadeia completa de raciocínio (Chain-of-Thought) de modelos de linguagem como o GPT-4 cujos pesos (da rede neural) já estão na escala dos terabytes é um problema intratável.
Mais precisamente, as técnicas de interpretabilidade mecanicista são viáveis para sistemas mais simples, e podem ajudar a rastrear o raciocínio de um modelo e ajudar a explicar seu comportamento, mas são limitadas para explicar (a partir de seu funcionamento interno) o comportamento de modelos maiores e mais complexos como o GPT-4. Para estes modelos mais avançados, a abordagem mecanística deve dar lugar, talvez, a uma abordagem de representação.
Engenharia de Representação
Segundo Dan Hendrycks, um campo promissor para a melhoria da transparência na Inteligência Artificial é o da Engenharia de Representação (Representation engineering - RepE), que utiliza uma abordagem "top down" (representações das propriedades emergentes, em oposição à abordagem "bottom-up" de partir de neurônios e circuitos para entender as saídas do modelo). O método prioriza analisar os sistemas complexos em níveis mais altos, em vez de se ocupar de componentes individuais.

A Figura seguinte, extraída do artigo Representation Engineering: A Top-Down Approach to AI Transparency de Andy Zou et al (Mar 2025) contrasta as abordagens de interpretabilidade mecanística (bottom-up) e de representação (top down).
Talvez este seja o caminho para abrir a "caixa preta". O futuro dirá.

Em defesa da Interpretabilidade
Uma cientista da computação que acredita que mesmo os modelos mais complexos podem ser mais transparentes (mais interpretáveis) é Cynthia Rudin da Duke University. Hoje, ainda predomina a ideia de que "se a interpretabilidade aumentar, a performance cairá" (o já mencionado trade-off), mas Cynthia Rudin discorda desta visão. Ela entende que é possível - mesmo para redes neurais complexas - conseguir boa acurácia e boa interpretabilidade simultaneamente, através de uma técnica chamada Case-based Reasoning (CBR).
Naturalmente, estes são processos complexos, e também caros - é muito mais difícil treinar um modelo para que seja "interpretável", e em muitos casos de uso o custo será proibitivo. Mas em casos onde o modelo toma decisões críticas (como em diagnósticos médicos) ou onde há outros riscos importantes (por exemplo, desinformação propagada rapidamente pelo ChatGPT que pode alterar o resultado de eleições e ameaçar democracias), o esforço deve ser considerado.

Crédito de imagem: Alex M. Sanchez for Quanta Magazine
Um ponto curioso do artigo com a cientista é que ela aposta na interpretabiidade, mas não é uma grande defensora das técnicas de "explanabilidade", que visam tentar explicar para o público as decisões de um modelo complexo ou pelo menos informar quais features (variáveis) foram mais importantes na tomada de decisão (sexo? idade? renda mensal? etc.).
"Even with an explanation, you could have your freedom denied if you were a prisoner and truly not understand why. Or you could be denied a loan that would give you a house, and again, you wouldn’t be able to know why. They could give you some crappy explanation, and there’s nothing you could do about it, really".
"If we don’t have interpretability on large scale language and image generation models, they are harder to control, which means they are likely to assist in propagating dangerous misinformation more quickly. So they changed my mind on the value of interpretability — even for low-stakes decisions it seems we need it".
Pelo menos para a Dra. Rudin, é mais importante investir na construção de modelos mais interpretáveis (entender realmente como a caixa preta funciona e como suas decisões foram tomadas) do que apenas ser capaz de explicar tais decisões para as pessoas por ela afetadas.
Referências selecionadas: "Transparência em sistemas de IA"
OECD.AI - Artigo de Kamya Jagadish (Anthropic)
April 1, 2025
Amazon AWS Whitepaper
2024
Allison Parshall (Quantamagazine)
April 27, 2023
Josua Naiborhu
OCTOBER 17, 2022
Neil Savage
March 29, 2022
Breaking into the black box of artificial intelligence - Scientists are finding ways to explain the inner workings of complex machine-learning models.
Amazon AWS
2022
Interpretability versus explainabilit (AWS) - Model Explainability with AWS Artificial Intelligence and Machine Learning Solutions AWS Whitepaper
Christoph Molnar
Jan 15, 2021
Navdeep Gill et al
February 29, 2020
Samuele Mazzanti
Jan 4, 2020
SHAP Values Explained Exactly How You Wished Someone Explained to You - Making sense of the formula used for computing SHAP values
Chaofan Chen et al
28 Dec 2019
Greg Satell and Josh Sutton
October 28, 2019
Margaret Mitchell et al
Jan 14, 2019
Philipp Schmidt and Felix Biessmann
2019
Virgina Dugnum
Jan 26, 2018
Marco Tulio Ribeiro et al
August 12, 2016
Referências selecionadas: Ferramentas para Desenvolvedores
Veja também