Cómo evitar que te la cuelen al analizar ensayos clínicos de obesidad


Cómo evitar que te la cuelen al analizar ensayos clínicos de obesidad

Gonzalo

04-02-2026


"El nuevo fármaco X consigue un 25% de pérdida de peso."
"El fármaco Y solo alcanza un 15%."

¿Cuál es mejor?

La respuesta puede no ser tan obvia como parece

Cada vez que una farmacéutica publica los resultados de un ensayo clínico, los titulares se llenan de porcentajes, pero casi nadie se para a preguntar: ¿cómo se ha calculado ese número?

Porque ese porcentaje puede significar cosas muy distintas según cómo se mida. Y entender esas diferencias es lo que distingue a un inversor que sabe lo que hace y uno que se deja llevar por la narrativa.

En este artículo vas a aprender a leer ensayos clínicos de obesidad como un profesional. No para convertirte en un estadístico, sino para hacerte las preguntas correctas y evitar que te engañen con datos edulcorados.


Las muchas formas de medir la pérdida de peso

Un mismo ensayo clínico puede reportar su eficacia de maneras muy distintas. Y no es casualidad: las empresas tienden a elegir la métrica que les hace quedar mejor. Vamos a desmenuzar las más importantes.

Usaré los términos en inglés porque:

  1. No hay traducción sencilla e intuitiva al español.
  2. Facilitará que podáis aplicarlo en vuestras propias investigaciones al analizar ensayos clínicos, que en su mayoría están escritos en inglés.

ITT vs Per-Protocol: el antiguo filtro que todavía se usa

Imagina un ensayo con 100 pacientes. 30 de ellos abandonan antes de terminar porque no toleran los efectos secundarios. ¿Cómo reportamos los resultados?

Intent-to-Treat (ITT) incluye a TODOS los pacientes que fueron aleatorizados, independientemente de si completaron el estudio o no. Si un paciente abandona en la semana 2, su último peso registrado cuenta en el análisis final. Es la métrica más conservadora y la que mejor refleja qué pasará en el mundo real.

Per-Protocol (PP) solo incluye a los pacientes que completaron el estudio siguiendo todas las instrucciones. Los que abandonaron desaparecen del análisis.

¿Por qué importa? Porque los que abandonan suelen hacerlo por efectos secundarios o falta de eficacia. Si los eliminas del análisis, estás inflando artificialmente los resultados.

El Per-Protocol puede inducir a error fácilmente: Un ensayo donde el 30% abandona por efectos secundarios podría mostrar un 18% de pérdida de peso en Per-Protocol, pero solo un 12% en ITT.

¿Cuál es el dato real? Depende de a quién preguntes. Pero si quieres saber qué le pasará a un paciente típico que empiece el tratamiento, el ITT es tu métrica.

La Regla de oro: desconfía de cualquier nota de prensa que sólo reporte Per-Protocol sin mencionar ITT.

Treatment-Policy Estimand vs. Efficacy Estimand

Aquí es donde la cosa se pone ligeramente técnica, pero merece la pena entenderlo.

ITT y Per-Protocol atienden a un marco regulatorio tradicional. Pero desde 2019, las agencias reguladoras (FDA, EMA) exigen que los ensayos reporten sus resultados usando "estimands" o estimandos, que son básicamente formas estandarizadas de definir qué estás midiendo exactamente.

Tenemos dos estimands:

  • Treatment Policy Estimand
  • Efficacy Estimand

El Treatment Policy Estimand responde a la pregunta: "¿Cuánto peso pierden los pacientes en el mundo real, con abandonos, incumplimientos y todo lo que pasa fuera de un entorno controlado?"

El Treatment Policy Estimand es lo más parecido al antiguo ITT y a la realidad, puesto que incluimos a todos los pacientes aleatorizados y usamos todos los datos disponibles —incluso si un paciente abandonó el ensayo.

El Efficacy Estimand responde a otra pregunta: "¿Cuánto peso perderían los pacientes si todos tomaran el fármaco exactamente como se prescribe durante todo el ensayo?"

Es un escenario idealizado. Teórico. El mejor caso posible —aunque lejos de la realidad porque es imposible que todos los pacientes sigan el protocolo.

Efficacy Estimand NO es equivalente al antiguo Per-Protocol, porque puede usar técnicas de imputación de los datos faltantes en vez de simplemente excluir a esos pacientes.

Por ejemplo, en el ensayo SURMOUNT-1 de tirzepatida, la dosis más alta (15 mg) mostró:

  • 20,9% de pérdida de peso (Treatment Policy Estimand)
  • 22,5% de pérdida de peso (Efficacy Estimand)

La diferencia parece pequeña, pero en términos de marketing es enorme. ¿Qué número crees que aparece en los titulares?

En resumen:

Ninguna medida es mejor que otra; ambas son útiles en su contexto. Lo que no puedes hacer bajo ningún concepto es comparar el treatment-estimand de un ensayo con el efficacy-estimand de otro; te estarías haciendo trampas al solitario.

Pérdida absoluta vs. porcentaje de peso corporal

Otra decisión aparentemente inocua.

Si un paciente pesa 120 kg y pierde 12 kg, eso es un 10% de pérdida de peso. Pero si otro paciente pesa 80 kg y pierde los mismos 12 kg, eso es un 15%.

Por esta razón, los ensayos de obesidad reportan el porcentaje de pérdida de peso corporal, no los kilos perdidos. Normaliza los resultados entre pacientes con distintos pesos de partida.

Pero aquí viene otro truco: el índice de masa corporal.

En los ensayos STEP1 (semaglutida) y SURMOUNT1 (tirzepatida), el BMI medio de los pacientes era de 38.

En el ensayo STEP UP (semaglutida 7,2 mg), el criterio de inclusión era más laxo y el BMI medio subió a 40.

Esto puede parecer una tontería, pero afecta a los resultados. A mayor BMI de partida, mayor margen de pérdida de peso. Si le das semaglutida a una persona sin sobrepeso (BMI < 25), perderá apenas unos pocos kg. Pero si se lo das a alguien con BMI > 40, el margen de pérdida es mucho mayor.

Por eso, el 20,7% de pérdida de peso reportado en STEP UP no es directamente comparable con el 15% de STEP1. Parte del "mejor" resultado viene predeterminado por el mayor peso de partida de los pacientes.

Esto no significa que los datos sean falsos. Simplemente que hay que contextualizarlos.

Análisis de respondedores

El porcentaje medio de pérdida de peso es útil, pero oculta algo importante: la variabilidad entre pacientes.

Algunos pacientes son "super-respondedores" que pierden un 30% de su peso. Respondedores porque su cuerpo responde al tratamiento y pierde peso. Otros apenas notan el efecto. El análisis de respondedores nos dice qué proporción de pacientes alcanza distintos umbrales de pérdida de peso.

Los umbrales típicos son:

  • ≥5%: el mínimo clínicamente significativo según la FDA
  • ≥10%: beneficios metabólicos sustanciales
  • ≥15%: reducción significativa de comorbilidades
  • ≥20%: resultados comparables a cirugía bariátrica

Lo interesante es que la proporción de pacientes que alcanza pérdidas altas (≥20%) diferencia mejor los fármacos que el valor medio. Un fármaco con media del 18% donde el 60% de pacientes pierde más del 20% es muy distinto de uno con la misma media pero donde solo el 30% alcanza ese umbral.


Qué buscar en un ensayo clínico de obesidad

Más allá de los números de eficacia, hay varios aspectos del diseño del ensayo que pueden cambiar completamente tu interpretación de los resultados.

Endpoints primarios y secundarios

El endpoint primario es la pregunta principal que el ensayo intenta responder. En obesidad, suele ser el porcentaje de pérdida de peso a una semana determinada (típicamente 52-72 semanas).

Los endpoints secundarios son métricas adicionales que se miden pero con menor rigor estadístico:

  • Reducción de HbA1c (hemoglobina glicosilada, importante en diabetes)
  • Circunferencia de cintura
  • Presión arterial
  • Niveles de lípidos
  • Calidad de vida

Y luego están los endpoints exploratorios, donde a veces aparecen señales interesantes pero que no tienen suficiente poder estadístico para ser conclusivas.

Un error común es dar el mismo peso a todos los endpoints. Un fármaco que "mejora 15 biomarcadores" puede estar haciendo cherry-picking de resultados exploratorios mientras su endpoint primario es mediocre.

Duración del ensayo y el efecto meseta

Este es uno de los puntos más importantes y menos comprendidos.

La pérdida de peso con análogos de GLP-1 NO es lineal. Sigue una curva característica:

  • Semanas 0-12: pérdida rápida
  • Semanas 12-40: pérdida más lenta pero constante
  • Semanas 40-60: meseta, el peso se estabiliza
  • Después de semana 60: mantenimiento (si se continúa el tratamiento)

Cuidado con los ensayos cortos

Un ensayo de 12 semanas que muestra un 14,7% de pérdida de peso puede parecer superior a uno de 72 semanas con 22,5%.

Pero la realidad es que el primero aún no ha llegado a su meseta. Es como comparar la velocidad de dos coches mirando solo los primeros 100 metros de una carrera de 10 km.

Los ensayos de fase 2 suelen ser cortos (12-24 semanas). Los de fase 3 duran más (52-78 semanas). Nunca compares directamente resultados de fases distintas.

Este efecto explica por qué VK2735 de Viking Therapeutics mostró un impresionante 14,7% de pérdida de peso en solo 13 semanas.

El dato es real, pero no significa necesariamente que vaya a duplicar a la tirzepatida cuando llegue a fase 3.

Esquemas de titulación

La titulación es el proceso de ir aumentando gradualmente la dosis del fármaco para minimizar los efectos secundarios gastrointestinales. Es como empezar dando pequeñas dosis del fármaco para acostumbrar al paciente antes de darle dosis más fuertes.

Diferentes ensayos usan diferentes esquemas: tirzepatida y semaglutida realizan incrementos de dosis cada 4 semanas, mientras que VK2735 ha seguido incrementos cada 3 semanas.

¿Por qué importa? Porque un esquema de titulación más agresivo significa que el paciente acumula más fármaco a un mismo punto temporal del ensayo.

Veámoslo con un ejemplo.

Cuando comparamos la pérdida de peso de VK2735 vs tirzepatida a la semana 13, no estamos comparando la misma exposición al fármaco. VK2735 ha administrado significativamente más dosis acumulada (127.5 mg a la dosis máxima) que tirzepatida (70 mg), lo que explica parte de su aparente superioridad.

De esta manera, si sumamos ambos factores (que VK2735 parece ser algo más potente y que se administra más dosis) es como llegamos a la cifra de pérdida de peso que muestra. No es que sea mucho más potente que la tirzepatida, sino que se administra mucha más dosis en el ensayo.

Ojo: esto no significa que VK2735 no sea un buen fármaco. Si eres capaz de administrar más dosis sin que la tolerabilidad se resienta, significa que VK2735 puede forzar mayor pérdida de peso con efectos secundarios similares a la tirzepatida.

Tasas de abandono y sus razones

El porcentaje de pacientes que abandona el ensayo es información crítica que muchos inversores ignoran.

Un rango típico es 5-30%, pero lo importante son las razones:

  • Efectos secundarios: señal de alarma si es muy alto
  • Falta de eficacia: el fármaco no funciona para todos
  • Violación de protocolo: menos preocupante, puede ser aleatorio
  • Pérdida de seguimiento: típico en estudios largos
  • Decisión del paciente: ambiguo, hay que investigar más

Un ensayo con 25% de abandonos por efectos secundarios tiene un problema serio, aunque el 75% restante muestre resultados espectaculares. Esos datos de eficacia están inflados por sesgo de supervivencia.

Señales de seguridad

Los análogos de GLP-1 comparten un perfil de efectos secundarios conocido, pero hay variaciones importantes entre fármacos.

Los análogos de GLP-1 comparten un perfil de efectos secundarios conocido, pero hay variaciones importantes entre fármacos y pueden darnos avisos. El ejemplo lo tenemos en NN1706 de Novo Nordisk.

Novo tuvo que abandonar su triple agonista NN1706 porque causaba incrementos de hasta 30 latidos por minuto adicionales e incluso bloqueos auriculoventriculares en algunos pacientes. La Retatrutida de Eli Lilly muestra solo 10 bpm de incremento, lo que parece tolerable.

La potencia no lo es todo. Un fármaco más potente que produce efectos secundarios inaceptables es peor que uno menos potente pero seguro.

El incremento en frecuencia cardíaca es particularmente relevante en fármacos que incluyen agonismo al receptor de glucagón. Es algo a vigilar en los ensayos de triples agonistas como la Retatrutida.

Población del estudio

No todos los ensayos incluyen a los mismos pacientes, y eso afecta a la generalización de los resultados.

Criterios de inclusión típicos:

  • BMI >30: obesidad sin comorbilidades
  • BMI >27 + comorbilidad: sobrepeso con hipertensión, dislipidemia, etc.
  • Con o sin diabetes tipo 2: poblaciones muy diferentes

Factores demográficos:

  • Edad media
  • Proporción hombres/mujeres
  • Distribución étnica
  • Geografía (solo EE.UU. vs global)

Por ejemplo, los ensayos VANQUISH de VK2735 se están realizando exclusivamente en Estados Unidos. Esto abarata costes, pero puede limitar la aprobación en otros mercados o revelar que el fármaco funciona diferente en otras poblaciones.


Cómo comparar ensayos (y por qué es tan difícil)

Esta es quizás la sección más importante del artículo. La tentación de comparar directamente los porcentajes de pérdida de peso entre fármacos es enorme, pero casi siempre es un error.

El gold standard: comparaciones head-to-head

La única forma fiable de saber qué fármaco es mejor es probarlos EN EL MISMO ENSAYO, con los mismos pacientes, el mismo protocolo y las mismas condiciones.

Esto es lo que hace el ensayo que compara CagriSema directamente contra tirzepatida, pero no es lo habitual.

¿Por qué las empresas evitan estas comparaciones? Porque tienen mucho que perder. Si tu fármaco sale perdedor, el daño reputacional es enorme. Es más seguro comparar solo contra placebo y dejar que las comparaciones sean indirectas (que siempre puedes disputar).

Las trampas de las comparaciones indirectas

Cuando comparas ensayos distintos, estás comparando manzanas con naranjas. Las diferencias pueden venir de:

  1. Poblaciones basales distintas: diferente BMI medio, comorbilidades, edad
  2. Esquemas de titulación diferentes: más o menos exposición acumulada al fármaco
  3. Duraciones diferentes: fase 2 vs fase 3, 12 semanas vs 72 semanas
  4. Definiciones de endpoints diferentes: qué semana, qué estimand
  5. Intensidad del asesoramiento: cuánto apoyo reciben los pacientes
  6. Geografía: poblaciones estadounidenses vs globales

La regla de oro para comparaciones

Nunca compares directamente el % de pérdida de peso entre ensayos distintos sin ajustar por:

  • BMI de partida
  • Proporción de hombres/mujeres
  • Duración del ensayo
  • Esquema de titulación
  • Tipo de estimand (Efficacy vs Treatment Policy)

Cualquier comparación directa es, en el mejor de los casos, una aproximación grosera. En el peor, es desinformación.

Eficacia ajustada por placebo

Incluso el grupo placebo pierde peso en estos ensayos. ¿Por qué? Porque todos los pacientes reciben asesoramiento nutricional y de ejercicio, tienen seguimiento médico regular, y están motivados por participar en un estudio.

La respuesta placebo varía entre ensayos:

  • Ensayos con asesoramiento intensivo: 3-5% de pérdida de peso en placebo
  • Ensayos con asesoramiento mínimo: 1-2%

Por eso, la eficacia ajustada por placebo (eficacia del fármaco menos eficacia del placebo) es más informativa que la eficacia bruta.

Si un fármaco muestra 18% de pérdida de peso pero el placebo perdió 4%, la eficacia ajustada es 14%. Otro fármaco con 16% bruto pero placebo al 1% tiene eficacia ajustada de 15%, y es objetivamente mejor.

Eficacia vs seguridad: el equilibrio real

Al final, lo que importa no es solo cuánto peso se pierde, sino el beneficio neto considerando también los efectos secundarios.

Un análisis interesante es ajustar la eficacia por seguridad a dosis equivalentes. Esto es lo que hizo un analista en Twitter comparando VK2735 con tirzepatida:

Cuando ajustas por efectos secundarios similares, las dosis equivalentes serían 2,5 mg de VK2735 vs 15 mg de tirzepatida. A estas dosis, la pérdida de peso es prácticamente idéntica.

Esto no significa que VK2735 sea malo. Significa que es más potente (necesita menos dosis para el mismo efecto) pero no necesariamente mejor en términos de beneficio neto.


Checklist del inversor

Cuando leas el próximo comunicado de prensa sobre un ensayo de obesidad, hazte estas 10 preguntas:

  1. ¿Qué estimand reportan?
  2. ¿Cuál es el BMI medio de partida?
  3. ¿Cuánto duró el ensayo?
  4. ¿Cuál fue el esquema de titulación?
  5. ¿Cuál fue la tasa de abandono y por qué?
  6. ¿Qué efectos secundarios severos se reportaron?
  7. ¿Es ITT o Per-Protocol?
  8. ¿Es comparación head-to-head o histórica?
  9. ¿Cuál es la población del estudio?
  10. ¿Qué endpoints secundarios se midieron?

Conclusión

El objetivo de este artículo no es convertirte en un estadístico de ensayos clínicos. Es darte las herramientas para hacer las preguntas correctas.

La próxima vez que leas que "el nuevo fármaco Z consigue un 25% de pérdida de peso", sabrás que ese número por sí solo no significa nada. Necesitas contexto. Necesitas saber cómo se midió, en qué población, durante cuánto tiempo, y con qué efectos secundarios.

Y sólo cuando respondas a esas preguntas (sólo con tilde porque aquí somos solotildistas), habrás analizado de forma crítica los resultados del próximo superventas de obesidad.

Al final, invertir en biotecnológicas es aprender a leer entre líneas.

Un abrazo,

Gonzalo.

Aquí si te quieres dar de baja | 600 1st Ave, Ste 330 PMB 92768, Seattle, WA 98104-2246

Laboratorio de Inversión

Una newsletter para quienes entienden la inversión como un reto intelectual:

Read more from Laboratorio de Inversión
Un anticuerpo uniéndose a un GPCR

Abcellera Biologics: Parte 3 ¿Comprando dólares por centavos? Gonzalo 04-02-2026 Esta es la Parte 3 de 3 del análisis de Abcellera Biologics Esta entrega final cubre finanzas, competencia y valoración. Si llegas directo aquí, te recomiendo leer primero: Abcellera Biologics: Parte 1 Abcellera Biologics: Parte 2 Finanzas Dada la juventud de Abcellera y su reciente cambio hacia desarrollo de ensayos clínicos, las cuentas no nos revelan demasiado información. No obstante, me detendré en un par de...

A tridimensional structure of an antibody

Abcellera Biologics: Parte 2 Del Laboratorio al Mercado Gonzalo 04-02-2026 Esta es la Parte 2 de 3 del análisis de Abcellera Biologics. Hoy analizaremos en qué ha consistido el cambio en el modelo de negocio, qué podemos esperar a futuro, y cuales son los productos con los que esperan diferenciarse de la competencia. Pero antes de eso... Si no has leído la Parte 1, te recomiendo empezar por ahí para entender la tecnología de anticuerpos monoclonales y la plataforma Celium de Abcellera:...

Un linfocito B liberando anticuerpos monoclonales.

Abcellera Biologics: Parte 1 Revolucionando el descubrimiento de anticuerpos. Gonzalo 04-02-2026 Introducción Este análisis cubre la primera parte del estudio de la compañía canadiense Abcellera Biologics (NASDAQ:ABCL). Se trata de una empresa tratando de demostrar que su modelo de negocio es válido mientras el dinero se escapa de sus manos. Desde su salida a bolsa, en pleno COVID-19 e hinchada por el éxito de sus primeros fármacos, la acción ha perdido un 95% de su valor bursátil en 5 años y...