Por que precisamos de testes clínicos?

25 de fevereiro de 2026

Por que testamos medicamentos e tratamentos? A resposta deveria ser simples e óbvia para todos: para separar o que funciona e o que é seguro daquilo que não funciona e não é seguro. Para saber como utilizar o novo medicamento ou tratamento, em que doses e por quanto tempo. Para obter estas informações, a história da medicina e da saúde pública desenvolveu o que chamamos de testes clínicos. Existem várias modalidades, sendo que o chamado padrão-ouro, aquele que responde a estas perguntas com o maior grau de probabilidade de acerto, é o famoso “teste clínico randomizado, duplo-cego e com grupo placebo”. Ou RCT, para os íntimos.

Durante a pandemia de COVID-19, falou-se tanto sobre RCTs que, se por um lado, a população se familiarizou com a ideia de que medicamentos e vacinas precisam passar por testes rigorosos e controlados, por outro gerou uma ilusão de conhecimento: a maior parte das pessoas entendeu o conceito geral, mas não conheceu os detalhes, as possibilidades de exceção, as escolhas que são feitas para garantir que todos os voluntários sejam tratados de forma justa e ética, preservando o rigor científico.

É preciso agora dar um passo atrás e dedicar um tempo para entender as minúcias dos testes e das regras que seguem.

Um teste clínico busca ser uma comparação justa entre o medicamento ou terapia que estamos querendo entender e algo que já conhecemos bem: pode ser um tratamento já estabelecido, ou nada, ou um placebo. A ideia central é comparar grupos similares de pessoas, onde todas as condições são as mesmas, com exceção apenas do remédio que se quer testar. Isolando o remédio como a única diferença relevante entre os dois grupos, fica mais fácil atribuir qualquer efeito observado ao remédio.

Um grupo recebe o medicamento. É o grupo tratamento. O outro grupo é o grupo controle. Este grupo pode não receber nada, o que seria um controle negativo, ou pode receber um placebo, uma “imitação” do tratamento, que pode ser uma pílula de farinha ou açúcar, uma injeção salina, e já tivemos casos até de “cirurgias falsas”, onde foi feito um corte no mesmo local do procedimento cirúrgico, com suturas: tudo igualzinho ao tratamento sendo testado, exceto a parte crucial que deve fazer diferença.

Um teste clínico controlado deve fazer a seguinte pergunta: eu quero saber o que acontece quando aplico o tratamento/medicamento X. Para isolar o efeito específico do tratamento de outros fatores que podem influenciar minha observação, preciso ter uma ideia do que aconteceria, naquelas mesmas circunstâncias, se eu não aplicasse o tratamento/medicamento X. Este raciocínio é o “contrafactual”.

O grupo placebo é muito útil para fazer o “cegamento” dos voluntários e, quando possível, dos pesquisadores e da equipe médica também. É o tal “duplo-cego”. A vantagem do duplo-cego, quando nem os voluntários nem os pesquisadores que interagem com eles sabem quem está recebendo o tratamento de verdade, é diminuir o impacto de vieses cognitivos, que todo mundo tem. Temos, por exemplo, o viés de confirmação, o desejo de ver o experimento dar certo, que pode nos levar a “enxergar” resultados que na verdade não estão lá. Podemos “ver” a melhora dos pacientes, ou os pacientes podem relatar uma melhora, motivados pelo fato de saberem estar recebendo um remédio que consideram promissor.

O inverso também vale: se as pessoas sabem que estão no grupo placebo, podem “ver” sintomas que na verdade não estão lá. Médicos preocupados, que sabem que estes voluntários não estão recebendo o tratamento de verdade, podem querer fazer mais exames, oferecer mais cuidados e tratar estes pacientes de forma diferenciada. Isto tudo pode enviesar a avaliação dos resultados e comprometer o teste.

Outro tipo de viés comum é o de seleção. Se os grupos não forem “randomizados”, ou seja, se as pessoas não forem distribuídas aleatoriamente para os grupos de tratamento e controle, os grupos podem não ser similares entre si. Imagine estudar um remédio para pressão alta, mas ter um grupo de jovens atletas e outro de idosos sedentários? O exemplo é radical, mas dá para ter uma ideia da importância da randomização.

A randomização também ajuda a eliminar o que chamamos de “fatores de confusão”, que são isso mesmo, fatores que confundem os resultados. Dados demográficos, como o do exemplo acima com a idade dos grupos, podem ser um fator de confusão. Outros exemplos incluem diferenças de aspectos gerais de saúde, alimentação, prática de esportes, acesso a atendimento médico e hospitalar, local de moradia e até mesmo renda familiar e educação. Todos estes fatores deveriam ser, em teoria, equalizados entre os grupos de participantes de um teste clínico, e, se não for possível, devemos usar mecanismos estatísticos para tentar “compensar” estas diferenças.

O tamanho dos grupos também importa. Quanto mais gente, maior o poder estatístico da comparação, isto é, sua capacidade de detectar um efeito real. Um estudo de poder baixo (com um número insuficiente de voluntários) corre dois riscos: deixar de detectar um efeito real ou detectar um efeito ilusório. Se trabalho com poucas pessoas, o resultado que aparece pode ser fruto do acaso, da sorte. Com um grupo maior, diminuímos esta interferência. Quem não se lembra dos testes clínicos de vacinas feitos com milhares de pessoas? Trinta mil, quarenta mil? Era por isso, para garantir uma boa análise estatística de que a vacina funcionava para um grande número de pessoas, com uma diferença significativa entre o grupo tratamento (que recebeu a vacina) e o grupo controle (que recebeu um placebo). A comparação, neste caso, deveria mostrar que muito mais gente no grupo da vacina ficou protegida, comparado ao grupo controle.

Mas não daria para comparar com o nível basal da doença na população? Precisa mesmo de um grupo controle? O grupo controle deve ser usado sempre que possível, porque é a melhor forma de garantir uma comparação justa. Sem o controle, perdemos as condições similares dos grupos. Comparar com o basal da população significaria abrir mão do controle das condições do estudo. Estaríamos comparando grupos diferentes de pessoas, em épocas diferentes, com taxas de transmissão da doença diferentes, em locais diferentes e, às vezes, até com parâmetros diferentes. Fazer um estudo controlado é a forma mais garantida de uma comparação justa, sabendo que tudo foi testado exatamente nas mesmas condições.
⸻

E as exceções?

Existem situações em que um teste controlado não é necessário, mas estas situações são raras e, em geral, muito fáceis de reconhecer. Quando o efeito do tratamento é dramático e óbvio. Um bom exemplo é o uso de desfibriladores ventriculares para paradas cardíacas. Trata-se de situação de emergência aguda, em que aplicar uma corrente elétrica diretamente no peito restaura os batimentos cardíacos. Isto é um efeito dramático e observável. Outros efeitos dramáticos descritos no livro Testando Tratamentos, de Evans e colaboradores, são o uso de drenagem de pus em abscessos e transfusão de sangue para hemorragias. São efeitos observáveis que não poderiam acontecer espontaneamente ou por fatores de confusão no contrafactual.

Outro fator dramático é o tamanho do efeito. Um exemplo clássico é o efeito da vitamina C para tratar escorbuto. Na metade do século 18, um médico da marinha britânica chamado James Lind conduziu o que viria a ser — provavelmente — o primeiro teste clínico controlado da história para uma doença e intervenção. Naquela época, o escorbuto — que hoje sabemos ser causado por deficiência de vitamina C — matava mais marinheiros do que as guerras. Os períodos prolongados no mar, sem acesso à alimentação saudável com frutas e verduras, criavam o ambiente ideal para o desenvolvimento da doença. Vitamina C é essencial para a formação de colágeno, que por sua vez compõe o tecido conjuntivo. Também é necessária em vias metabólicas para produção de energia. A falta de vitamina C causa anemia, fraqueza, dores musculares, dificuldade de cicatrização, enegrecimento das gengivas e perda de dentes.

Lind teve sorte. Se fosse um tamanho de efeito mais discreto, poderia não ter aparecido em um grupo tão pequeno. É o mesmo raciocínio para efeitos adversos. Durante os testes clínicos de vacinas, na pandemia, sabíamos que efeitos adversos raros somente iriam aparecer em números grandes de pessoas, talvez só após a vacina já estar aprovada. O que de fato aconteceu: alguns efeitos só foram documentados depois que algumas vacinas já aprovadas foram aplicadas em milhões. Outro exemplo clássico de tamanho do efeito dramático é o uso de insulina para diabéticos.

O tamanho da amostra também importa por causa disso. Quanto maior a amostra, mais provável identificar efeitos menores e efeitos adversos. O tipo de desfecho que queremos medir também vai ajudar a determinar qual o tamanho da amostra necessária, ou seja, quantas pessoas devo recrutar para ter o poder estatístico necessário que me permita concluir se o tratamento funciona ou não. Quanto mais objetivo e fácil de medir, melhor. Se o desfecho for mais subjetivo e dependente de interpretação, fica mais difícil tirar conclusões e pode ser necessário envolver muito mais pessoas.

⸻

E a questão ética?

Nem sempre é possível ou ético fazer um estudo controlado e com grupo controle ou placebo. O parâmetro mais usado para definir a ética de um teste clínico é o que chamamos de “equipoise”. Equipoise é definido como o estado genuíno de incerteza sobre o mérito de um determinado tratamento. Em outras palavras, se ninguém sabe se o novo tratamento funciona ou não, ou se é melhor do que o pré-existente, é ético conduzir um teste clínico. Se existe informação suficiente de que o novo tratamento funciona e é melhor, ou que não funciona e é pior, então seria antiético conduzir o teste.

Outra questão ética importante é o uso do grupo placebo. Como já vimos, grupos placebo são excelentes para diminuir vieses cognitivos e fatores de confusão, principalmente quando é possível realizar um teste duplo-cego. Mas nem sempre é ético usar um grupo placebo, se isso significar privar um grupo de pessoas de receber tratamentos já aprovados e eficazes. Não se pode, por exemplo, para testar um remédio novo para câncer, alocar pessoas doentes para um grupo tratamento com o novo remédio e outras pessoas doentes para receber uma pílula de açúcar. O que se faz, nestas condições, é comparar o novo tratamento com a terapia padrão para aquela doença. Voltando para o exemplo das vacinas, imagine que alguém quer testar uma vacina nova para uma doença, mas já existe uma vacina mais antiga. A vacina nova então pode ser testada comparando com a antiga, em um teste de “não inferioridade”. Aqui, buscamos mostrar que a vacina nova é pelo menos tão boa quanto a antiga. Mas ninguém deixa de receber proteção.

Há diversos desenhos experimentais que permitem fazer um teste ético e uma comparação justa entre grupos, sem privar ninguém de receber tratamentos existentes. Além de testar contra o tratamento padrão, podemos acrescentar o novo remédio em um modelo A + B. Em alguns casos, dá até para incluir um placebo. Por exemplo, posso desenhar um teste onde ambos os grupos recebem o tratamento padrão A, já aprovado. Mas um dos grupos recebe também o medicamento novo B. E o grupo controle recebe um placebo de B.

Para adaptar o RCT a padrões éticos que não privem ninguém do cuidado adequado, geralmente usa-se o método “SAME”, do acrônimo em inglês que significa Substituição, Aumento, Manutenção e/ou Eliminação. Se as pessoas são alocadas para grupos com algo distinto do padrão, é substituição; se recebem algo além do padrão, é aumento; e assim vai.

Um exemplo foi o teste do antirretroviral nevirapina. Quando este remédio foi testado, já existiam outros medicamentos aprovados para HIV. A maneira como o teste clínico foi desenhado foi a seguinte: ambos os braços do teste clínico receberam o tratamento padrão, zidovudina e didanosina. Apenas um dos braços recebeu o “aumento” com a nevirapina. Para poder fazer o cegamento, o grupo controle recebeu um placebo de nevirapina. O estudo foi publicado como um “estudo clínico controlado, duplo-cego, com grupo placebo”. E completamente ético.

O tamanho do efeito também pode causar um problema ético. Se for um efeito muito dramático, torna-se antiético seguir com o estudo e com pessoas no grupo controle, sem acesso ao tratamento superior. Neste caso, é justificado interromper o estudo, abrir o cegamento e oferecer o tratamento ao grupo placebo.

Tudo isso é determinado caso a caso. Pode ser perfeitamente aceitável usar um placebo, ou um controle que “elimine” parte do procedimento padrão, em uma condição clínica que causa apenas um desconforto quando não tratada, e os voluntários concordam com a participação em um teste clínico por um determinado período de tempo, com a esperança de que isso resulte num remédio melhor e mais prático no futuro. Para doenças como câncer ou HIV/AIDS isso não seria aceitável, e usar o “aumento” parece ser a melhor estratégia. Não existe uma solução única e imutável, ou algo generalizável: “sempre devemos usar placebo”, ou “nunca devemos usar placebo”.

Finalmente, é importante ressaltar que o RCT duplo-cego e com placebo é geralmente a última fase de testes. Até chegar lá, temos um longo caminho de testes pré-clínicos, em células, em animais (roedores e não roedores), para só depois iniciar os testes clínicos em humanos, começando pela Fase 1, que usa algumas dezenas de pessoas para testar apenas a segurança do novo tratamento; depois a Fase 2, com centenas de pessoas, onde se testam parâmetros e marcadores, como por exemplo anticorpos, marcadores de sangue, testes de imagem, e pode ter ou não um grupo controle, dependendo do desenho experimental; e finalmente a Fase 3, onde, se possível, será feito um RCT completo com milhares de pessoas. Após tudo concluído, se aprovado, o medicamento é liberado para o mercado, mas ainda temos a Fase 4, na qual continuamos acompanhando para investigar efeitos adversos, interações medicamentosas, e ver como o novo remédio se comporta no mundo real.

Tudo isso demora anos, geralmente pelo menos algo entre 5–8 anos. Poucas moléculas que se mostram promissoras nos testes pré-clínicos chegam à Fase 3. Então, quando dizemos que algo se mostrou promissor em animais, ou em pequenos testes-piloto em humanos, ou mesmo na Fase 1, só o que podemos dizer é isso: parece promissor. Para saber se funciona, não tem outro jeito a não ser seguir a metodologia científica. As agências regulatórias sabem. Por isso exigem os estudos específicos para cada fase. E essa precaução nos mantém seguros, e com o conhecimento necessário para fazer o melhor uso de cada inovação.

Natalia Pasternak é doutora em microbiologia, presidente do Instituto Questão de Ciência, pesquisadora sênior adjunta do Center for Science and Society e professora adjunta da School of International Relations and Public Affairs (SIPA), ambos da Universidade de Columbia (EUA). É pesquisadora associada do Departamento de Microbiologia do Instituto de Ciências Biomédicas da USP e coautora dos livros "Ciência no Cotidiano" (Editora Contexto), obra ganhadora do Prêmio Jabuti, "Contra a Realidade" (Papirus 7 Mares) e "Que Bobagem!" (Editora Contexto).

⸻

REFERÊNCIAS

Pearl, Judea, and Dana Mackenzie. The Book of Why: The New Science of Cause and Effect. New York: Basic Books, 2018.

Evans I, Thornton H, Chalmers I, Glasziou P. Testing Treatments: Better Research for Better Healthcare. Second Edition.

The James Lind online library. United Kingdom. http://www.jameslindlibrary.org/articles/james-lind-and-scurvy-1747-to-1795/

Freedman B. Equipoise and the ethics of clinical research. N Engl J Med. 1987 Jul 16;317(3):141-5. doi: 10.1056/NEJM198707163170304. PMID: 3600702.

Senn S, Chalmers I. Giving and taking: ethical treatment assignment in controlled trials. Journal of the Royal Society of Medicine.

Confira o artigo original:

https://revistaquestaodeciencia.com.br/artigo/2026/02/25/por-que-precisamos-de-testes-clinicos