O campo da avaliação de políticas públicas encontra-se historicamente tensionado entre o desejo tecnocrático de controle e a natureza complexa e política da realidade social. O recente lançamento do pacote de orientações Impact Evaluation Guidance pelo Programa das Nações Unidas para o Desenvolvimento (PNUD), em fevereiro de 2026, é um marco ilustrativo dessa tensão.
Em um esforço louvável para modernizar suas operações e demonstrar resultados transformacionais perante doadores e parceiros, o PNUD aposta na institucionalização da avaliação de impacto “rigorosa” para resolver o complexo dilema entre “atribuição versus contribuição”, ou seja, em que medida é possível atribuir os impactos à ação de uma organização ou necessário aceitar que trata-se apenas de contribuição, já que tais impactos dependem de diversos fatores e atores.
O documento orienta gestores a adotarem desenhos de pesquisa experimentais (como os Ensaios Clínicos Aleatorizados – RCTs) ou quase-experimentais (sem aleatorização), bem como abordagens de métodos mistos. Contudo, ao analisarmos este manual a partir de uma perspectiva epistemológica construtivista, emerge uma reflexão crítica fundamental: até que ponto a busca pelo rigor estatístico invisibiliza a dimensão política, valorativa e deliberativa inerente ao desenvolvimento humano?
O fetiche do contrafactual e a ilusão do laboratório social
A espinha dorsal do modelo proposto pelo PNUD é a busca pela atribuição causal por meio de um contrafactual crível. O guia define o contrafactual como um cenário hipotético que ilustra o que teria acontecido na ausência da intervenção, permitindo isolar os efeitos do programa de outras influências externas. Para alcançar isso, propõe-se a divisão de beneficiários em “grupos de tratamento” e “grupos de controle” (ou comparação), seja por sorteio (desenho experimental) ou por modelagem estatística (quase experimental).
No exemplo didático do programa hipotético de resiliência agrícola, o guia sugere alocar aleatoriamente o programa em 50 vilas e usar outras 50 como controle para “demonstrar” o aumento da produtividade. Além das óbvias questões éticas envolvidas em modelos de Experimentos Controlados Aleatórios (RCTs), para políticas sociais na exclusão deliberada de beneficiários, há questões epistemológicas envolvidas. Há problemas de validade externa – é possível generalizar os efeitos causais do programa (?) e de escalabilidade, pequenos experimentos costumam não captar mudanças macroestruturais.
A realidade social não é um sistema fechado ou um laboratório de biologia onde variáveis externas podem ser perfeitamente isoladas e controladas. Intervenções de desenvolvimento ocorrem em sistemas abertos, orgânicos e repletos de interações humanas imprevisíveis e difíceis de mapear. A crença de que é possível “eliminar explicações alternativas” através do rigor estatístico reflete um reducionismo mecanicista. Os efeitos de uma política pública não são meras reações físicas de causa e efeito; eles são construídos contextualmente e dependem visceralmente das interpretações, da cultura e da agência dos próprios sujeitos envolvidos.
Modelos contrafactuais são excelentes para responder se uma política funciona, mas frequentemente falham em explicar por que ou como ela funciona. Eles focam no resultado, mas podem negligenciar os mecanismos intermediários e as nuances qualitativas da implementação que determinam o sucesso ou fracasso da intervenção.
A subordinação do qualitativo e o falso pluralismo
Um avanço inegável no guia de 2026 é o reconhecimento de que métodos exclusivamente quantitativos têm limitações, encorajando a adoção de uma “abordagem de métodos mistos”. O documento do PNUD dedica seções valiosas a métodos qualitativos como Estudos de Caso e Process Tracing (Rastreamento de Processos) para entender os mecanismos causais e o “como” as mudanças ocorrem.
Apesar da roupagem pluralista, o guia mantém uma hierarquia epistemológica velada, onde os métodos experimentais (RCTs) continuam sendo tratados como o “padrão-ouro”. A pesquisa qualitativa é frequentemente enquadrada em um papel acessório e subsidiário: ela serve para “suplementar” ou “triangular” as descobertas, ou para preencher lacunas quando a randomização falha ou é antiética. A quantitativa prova se a política funcionou, e o qualitativo ilustra a narrativa.
Para a perspectiva construtivista, o conhecimento qualitativo e discursivo possui validade intrínseca para capturar as múltiplas realidades e as disputas de narrativa dos atores. O pluralismo metodológico genuíno exige não apenas misturar dados numéricos com entrevistas, mas reconhecer que as evidências são socialmente construídas e que o conhecimento discursivo é uma forma superior de entender problemas públicos complexos.
O “eficiencismo” e a governança das métricas
A justificativa do PNUD para o alto investimento em avaliações de impacto é fortemente ancorada na lógica do “valor pelo dinheiro” (value for money), na demonstração de resultados aos doadores e na identificação de soluções “escaláveis”. O guia instrui a definição de métricas estritas de dados (com base em indicadores SMART) para comprovar a eficiência do programa.
A padronização de indicadores para garantir “comparabilidade e confiabilidade” sofre do viés do eficientismo típico da Nova Gestão Pública[1]. Ao transformar processos profundos de emancipação social, resiliência climática ou paz institucional em meros “pontos de dados mensuráveis”, corre-se o risco de esvaziar o significado político da intervenção. Além disso, a premissa da escalabilidade assume que uma “solução” empacotada que funcionou no contexto A funcionará mecanicamente no contexto B, ignorando a profunda dependência do contexto histórico e cultural das políticas públicas. O sucesso de uma intervenção não se resume a um cálculo utilitarista que pode ser facilmente exportado.
A assepsia política e o silenciamento da deliberação
O manual do PNUD orienta uma gestão cuidadosa dos stakeholders (partes interessadas), incluindo governos nacionais, parceiros e beneficiários. Contudo, essa interação é frequentemente instrumentalizada. O engajamento serve primariamente para “garantir adesão (buy-in)”, “gerenciar expectativas”, “evitar contestações de dados” e assegurar a obediência aos protocolos da pesquisa.
A avaliação, sob o paradigma pós-positivista, é fundamentalmente um fórum argumentativo e deliberativo, e não um mero exercício de extração de dados. Tratar cidadãos e governos locais apenas como unidades a serem alocadas em grupos de tratamento e controle, cujas interações devem ser administradas para evitar a “contaminação” da amostra, é silenciar a natureza política da gestão pública.
Cidadãos não são fontes passivas de dados de linha de base (baseline); eles são agentes reflexivos que devem participar ativamente da definição de quais são os problemas e de quais deveriam ser os critérios de sucesso ou fracasso da política que os afeta. A isto chamamos de avaliação participativa, avaliação inclusiva ou avaliação baseada em atores sociais.
Conclusão
O Guide Impact Evaluation UNDP (2026) consolida o estado da arte das metodologias neopositivistas, oferecendo um arsenal técnico robusto e bem-intencionado para tentar domar a complexidade do desenvolvimento internacional. A incorporação de métodos mistos e de Process Tracing demonstra uma evolução louvável na burocracia internacional.
Entretanto, para que a avaliação transcenda o papel de instrumento tecnocrático de prestação de contas aos doadores, é indispensável cultivar uma inteligência emocional e política. É preciso reconhecer que avaliar políticas públicas é adentrar uma arena de valores disputados.
Dominar a econometria do Diferenças-em-Diferenças ou do Pareamento por Escore de Propensão (PSM) é útil, mas é a escuta ativa, o bom senso e o reconhecimento da incerteza irredutível do mundo social que transformarão a avaliação em um verdadeiro vetor de justiça e aprendizado social. A realidade não é um ensaio clínico; e a emancipação humana resiste em caber perfeitamente nas margens de erro de um grupo de controle.
A avaliação como processo tecno-político de aprendizagem coletiva exige ir além das técnicas contrafactuais. Não se trata de negá-las, ao contrário, os modelos exploratórios e não experimentais devem ser inseridos em contextos históricos, sociais, políticos e sobretudo, humanos. Somente métodos participativos, inclusivos, dialógicos – onde evidências são baseadas em valores, podem garantir uma avaliação de políticas públicas com face humana.
[1] Nova Gestão Pública é um paradigma de administração pública que importa a lógica corporativa e gerencial do setor privado para o Estado, pautando-se fortemente pela busca de eficiência, “valor pelo dinheiro” (value for money) e prestação de contas quantificável (accountability). Sob uma ótica pós-positivista, a NGP promove um “eficiencismo” tecnocrático e reducionista. Ao tentar domar a complexidade do mundo social, esse modelo transforma processos profundos de emancipação e transformação humana em meras métricas de dados e indicadores padronizados de custo-benefício, voltados principalmente para satisfazer as exigências de doadores e gestores. O grande risco da NGP é esvaziar a dimensão política e deliberativa das políticas públicas, priorizando o que é “facilmente mensurável” e “escalável” em detrimento das reais necessidades, dos valores socioculturais locais e das nuances do contexto em que as pessoas vivem.