Articles

Análisis de Puntuación de propensión

Antecedentes

Al estimar los efectos del tratamiento en un resultado binario en estudios observacionales, a menudo se da el caso de que los tratamientos no se asignaron aleatoriamente a los sujetos. Si, por ejemplo, los pacientes más enfermos a menudo se asignaban a tratamiento, mientras que los pacientes más sanos a menudo no se trataban, un análisis simple podría estimar erróneamente el grado o la dirección de un efecto del tratamiento.

Una forma común de intentar ajustar el sesgo potencial debido a este tipo de confusión es mediante el uso de modelos de regresión logística multivariable. Un enfoque alternativo es el uso del análisis de puntuación de propensión. En las siguientes secciones, proporcionamos un pequeño conjunto de datos de ejemplo y, a continuación, describimos e ilustramos estos métodos alternativos de análisis estadístico. Nos centramos en el ejemplo más simple en el que se asigna a los pacientes a recibir tratamiento activo o control (es decir, 2 grupos). Al final mencionamos brevemente las posibles extensiones a tres o más grupos de tratamiento.

Datos de ejemplo

El siguiente conjunto de datos de ejemplo se utilizará para ilustrar los conceptos básicos. Los datos incluyen a 400 sujetos incluidos en un estudio de cohorte retrospectivo de varones de 40 a 70 años ingresados en el hospital con sospecha de infarto de miocardio. El resultado de interés es la mortalidad a 30 días (muerte=1). De interés es el posible efecto de la administración rápida de un fármaco anticoagulante más reciente (trt=1) en comparación con una terapia estándar (trt=0) sobre el riesgo de mortalidad. Las covariables relevantes son una puntuación de factores de riesgo preexistentes (en una escala de 0 a 5, siendo 5 el peor) y una puntuación de gravedad de ingreso (en una escala de 0 a 10, siendo 10 el peor). Aquí están los datos de los primeros 12 sujetos:

age male risk severity trt death
48 1 3 8 0 0
59 1 4 6 1 0
67 1 3 6 0 1
51 1 0 6 0 0
56 1 1 6 1 0
60 1 1 6 0 0
53 1 0 3 1 0
54 1 1 2 0 0
54 1 2 7 0 0
62 1 0 4 0 0
64 1 2 6 1 1
70 1 3 8 1 0

Los datos pueden ser descargados como propensión.csv o llamada directamente en R usando el comando:
example <- read.csv("http://web.hku.hk/~bcowling/data/propensity.csv", header=TRUE)

Se puede encontrar un script R adjunto para ejecutar todos los siguientes análisis aquí: propensity.R.

Análisis descriptivo

Un total de 192 (48%) pacientes recibieron el nuevo tratamiento (trt=1). Las tasas de mortalidad a 30 días para pacientes tratados y no tratados se resumen en la siguiente tabla:

Resultado trt=0 trt=1
Sobrevivido 168 162
Muerto 40 30
30 días tasa de mortalidad 19% 16%

Una manera de investigar el potencial efecto del tratamiento es una estimación de la diferencia en el riesgo entre los dos grupos. El riesgo relativo de mortalidad relacionado con el tratamiento 1 es de 0,375/0,40, que es de 0,81, lo que indica un ligero beneficio para el tratamiento más reciente.

Otra forma de estimar el efecto del tratamiento podría ser calcular la razón de probabilidades en lugar del riesgo relativo. El odds ratio es (168×30) / (162×40), que es 0,78, y un intervalo de confianza del 95% puede calcularse como (0,46, 1,31).

Una tercera forma de estimar el efecto del tratamiento es observar la reducción absoluta de las tasas de mortalidad. En este caso, el cambio asociado al tratamiento 1 es de -3,6% (de 19,2% a 15,6%) y un intervalo de confianza del 95% es de -11.5%, 4,3%), es decir, hasta un 12% de reducción o un 4% de aumento de las tasas de mortalidad.

Sin embargo, las siguientes dos gráficas muestran que los sujetos que recibieron el tratamiento más reciente eran ligeramente mayores que los que recibieron la terapia estándar:

gráfica de edad vs trt

Una investigación adicional revela que también parece haber diferencias en los factores de riesgo y la condición actual entre los dos grupos de tratamiento:

gráfico de edad vs riesgo
gráfico de edad vs gravedad

La comparación formal de las distribuciones de estas variables explicativas entre los dos grupos de tratamiento revela que las diferencias de edad (prueba t, ppp

Regresión logística

Los modelos multivariables para variables explicativas importantes. Es necesario ajustar las variables explicativas importantes para garantizar la comparabilidad entre los grupos de tratamiento y de control, y si no se realiza el ajuste, las diferencias entre los grupos pueden dar lugar a estimaciones sesgadas del efecto del tratamiento.

La siguiente tabla muestra la odds ratio bruta del tratamiento, luego el efecto ajustado para otras variables explicativas. La comparación del Criterio de Información de Akaike para cada modelo sugiere que la puntuación de riesgo y el índice de gravedad no mejoran significativamente el ajuste, es decir, se puede preferir el modelo 2 sobre el Modelo 3. Hay una sugerencia de un beneficio del tratamiento (aunque no estadísticamente significativo), y también una confusión aparente por edad como se sospecha en los análisis descriptivos anteriores.

Las estimaciones de un modelo que asume efectos lineales de covariables son muy similares al Modelo 3 (no se muestran los resultados).

Factor n Modelo 1 Modelo 2 Modelo 3
O 95% CI O 95% CI O 95% CI
Tratamiento 0 208 1.00 1.00 1.00
Tratamiento 1 192 0.78 (0.46, 1.31) 0.67 (0.39, 1.15) 0.62 (0.35, 1.11)
Age 40-49 95 1.00
Age 50-59 131 1.72 (0.77, 3.82) 1.26 (0.52, 3.01)
Age 60-70 175 2.62 (1.23, 5.62) 2.03 (0.84, 4.95)
Risk score 0 112 1.00
Risk score 1 103 3.06 (1.34, 6.97)
Risk score 2-3 132 1.33 (0.54, 3.28)
Risk score 4-5 53 2.64 (0.95, 7.35)
Severity index 0-3 108 1.00
Severity index 4 69 1.29 (0.56, 2.96)
Severity index 5 80 0.78 (0.33, 1.87)
Severity index 6 56 1.28 (0.53, 3.08)
Severity index 7-10 87 1.43 (0.65, 3.16)
AIC 374 371 371

For completeness we could also use a non-linear regression model to check the shape of the effects of age, pre-existing risk and severity in the fully adjusted model. El script R que lo acompaña contiene el código para estimar y trazar las funciones spline correspondientes y no las mostramos aquí; observamos que los efectos fueron bastante lineales.

Análisis de puntuación de propensión

Un enfoque alternativo al análisis es intentar imitar las condiciones de un ensayo controlado aleatorizado (ECA). En un ECA, la probabilidad de que un participante reciba un tratamiento en particular es la misma para todos los participantes o, en diseños estratificados, depende solo de las variables explicativas conocidas de un paciente, como la edad, el sexo, etc. En otras palabras, la edad, el sexo (etc.) del paciente.) es información suficiente para decirnos la probabilidad del paciente de recibir el tratamiento.

Si en un estudio observacional tuviéramos toda la información disponible para los profesionales de la salud que asignaron el tratamiento a los sujetos, deberíamos poder recrear su proceso de decisión y estimar la probabilidad de que los pacientes individuales recibieran el tratamiento. Esta probabilidad se conoce como la puntuación de propensión, y en su artículo seminal de 1983, Rosenbaum y Rubin mostraron que, siempre que la puntuación de propensión sea una medida adecuada de la probabilidad de recibir tratamiento, las puntuaciones se pueden usar para ayudar a estimar los efectos causales del tratamiento. Las puntuaciones se utilizan para variables pronósticas equilibradas en los grupos tratados y no tratados, y existen (al menos) cuatro formas posibles de hacerlo:

  • Estratificar a los pacientes en grupos (por ejemplo, quintiles) por puntuación de propensión y comparar los efectos del tratamiento en cada estrato.
  • Haga coincidir los pacientes tratados y no tratados y compare los pares coincidentes resultantes.
  • Ponderación inversa de los resultados por la puntuación de propensión.
  • Ajuste para la puntuación de propensión en un modelo de regresión logística.

5.1 Estimación de la puntuación de propensión

La puntuación de propensión es la probabilidad condicional de que un sujeto sea tratado dadas las variables explicativas observadas; la intención es que esta probabilidad única pueda resumir la información sobre el mecanismo de asignación del tratamiento. Entonces deberíamos ser capaces de obtener estimaciones imparciales de los efectos del tratamiento comparando sujetos que tenían probabilidades similares de recibir un tratamiento (ya sea que realmente lo recibieron o no).

Las puntuaciones de propensión se suelen estimar utilizando un modelo de regresión logística multivariable.

En nuestro ejemplo, ajustamos un modelo de regresión logística para estimar los efectos de la edad, la puntuación de riesgo y el índice de gravedad sobre la probabilidad de recibir tratamiento 1 en lugar de tratamiento 0. Encontramos que la edad es mayor (p = 0,05), la puntuación de riesgo más alta (p=0,05) y el índice de gravedad más alto (p=0.01)se asocian a una mayor probabilidad de recibir tratamiento 1. Las puntuaciones de propensión varían de 0,2 a 0,8, y comparamos la distribución de las puntuaciones entre los dos grupos de tratamiento en la figura siguiente. Las barras muestran la mediana y el rango intercuartílico.

Comparación de la distribución de las puntuaciones de propensión dentro de cada grupo de tratamiento

Como era de esperar, las puntuaciones de propensión (es decir, las probabilidades de recibir tratamiento) son, en promedio, ligeramente superiores en el grupo de tratamiento. Podemos ver que hay un buen grado de superposición, donde podemos encontrar individuos en ambos grupos de tratamiento para cualquier puntuación de propensión entre 0,2 y 0,8. Esto es importante, porque el principio esencial del análisis de puntuación de propensión es que si encontramos dos individuos, uno en cada grupo de tratamiento, podemos imaginar que esos dos individuos fueron asignados ‘aleatoriamente’ a cada grupo en el sentido de que cualquiera de las dos asignaciones es igualmente probable.

5.2 ¿La puntuación de propensión equilibra los grupos?

En cualquier análisis de puntuación de propensión debemos comprobar si el propensityscore nos permite equilibrar la distribución de las variables explicativas. Hay muchas maneras de verificar el equilibrio ; por ejemplo, podríamos ver la distribución de una variable explicativa dentro de los quintiles de la puntuación de propensión. En la figura siguiente se trazan los rangos de edad mediana e intercuartílica en cada quintil de puntuación de propensión:

Mediana de edad (RIC) por quintiles de puntuación de propensión

Sin ajuste (global) hay una discrepancia considerable. Sin embargo, dentro de cada quntil, las distribuciones están muy alineadas.

Podemos cuantificar las diferencias iniciales calculando las estadísticas de dos muestras (es decir, una prueba t para las diferencias de edad por grupo de tratamiento). Esto equivale a encontrar el estadístico t para el tratamiento a partir de un modelo de regresión lineal (o ANOVA) para la edad versus el grupo de tratamiento. Además, podemos medir las diferencias después de ajustar la puntuación de propensión, calculando la estadística t para el tratamiento a partir de un modelo de regresión lineal multivariable (o ANOVA) para ajustar la edad para el tratamiento, así como para ajustar los quintiles de la puntuación de propensión. Las estadísticas t sin ajustar (círculos llenos) y ajustadas (círculos abiertos) se presentan en la figura siguiente:

Estadística t absoluta antes (círculos llenos) y después (círculos abiertos)ajustando las puntuaciones de propensión

Podemos ver que el ajuste de la puntuación de propensión elimina casi todas las diferencias iniciales en edad, puntuación de riesgo e índice de gravedad entre los dos grupos de tratamiento.

5.3 Tasas de mortalidad dentro de los quintiles de puntuación de propensión

Anteriormente, encontramos que las covariables están equilibradas dentro de los quintiles de la puntuación de propensión. Rosenbaum y Rubin mostraron que el efecto promedio del tratamiento dentro de los estratos de puntuación de propensión es una estimación imparcial del verdadero efecto del tratamiento (siempre que se cumplan algunas suposiciones). Trazamos las tasas de mortalidad a 30 días (con intervalos de confianza del 95%) por grupo de tratamiento en cada quintil de puntuación de propensión, a continuación:

Comparación de las tasas de mortalidad dentro de los quintiles de puntuación de propensión

Las tasas de mortalidad fueron generalmente más bajas en el grupo al que se administró el tratamiento 1 (azul) que en el grupo al que se administró el tratamiento 0 (rojo), excepto en Q3, donde las tasas fueron similares. Sin embargo, no hay pruebas sólidas de que los efectos del tratamiento varíen en el rango de puntuaciones de propensión.

Podemos calcular la diferencia en las tasas de mortalidad entre los grupos de tratamiento en cada quintil, y derivar el efecto promedio del tratamiento como la media ponderada en los quintiles. La siguiente figura muestra la reducción absoluta de la tasa de mortalidad para el tratamiento 1 frente al tratamiento 0, y la media ponderada, con intervalos de confianza del 95% :

Comparación de las tasas de mortalidad dentro de los quintiles de puntuación de propensión

En general, hubo una reducción absoluta del 6% en la tasa de mortalidad a 30 días para el tratamiento 1 en comparación con el tratamiento 0, con un intervalo de confianza bastante amplio.

5,4 Tasas de mortalidad entre pares de individuos emparejados

Un enfoque alternativo es encontrar pares de sujetos, uno en cada grupo de tratamiento, con puntuaciones de propensión muy similares. Según la definición de la puntuación de propensión, dos sujetos con puntuaciones de propensión similares también deben ser similares en todas las covariables importantes. Este procedimiento de coincidencia es computacionalmente más simple que la coincidencia simultánea en todas las covariables importantes.

Usando un algoritmo de coincidencia en los datos de ejemplo, encontramos 177 pares coincidentes (es decir, 354 individuos) de los 400 sujetos originales. Podríamos comprobar que el algoritmo de coincidencia ha logrado un equilibrio entre los grupos comparando las distribuciones de covariables entre los dos grupos de tratamiento, entre los pares coincidentes. En el subgrupo emparejado, hubo 23 muertes en el grupo con tratamiento 1 y 36 muertes en el grupo con tratamiento 0, lo que representa una reducción absoluta estadísticamente significativa del 7,8% (intervalo de confianza del 95%: -13,7%, -1,8%).

5,5 Ponderación inversa por puntuaciones de propensión

Rosenbaum describe un uso alternativo de la puntuación de propensión, como factor de ponderación. Sin entrar en detalles de la derivación, muestra que la tasa de mortalidad esperada si todos los sujetos fueron asignados al grupo de tratamiento 1 en lugar del grupo 0 es igual a E(YT/p), donde Y es la variable de resultado, T es el grupo de tratamiento y p es la puntuación de propensión de ser asignados al grupo de tratamiento 1. De manera similar, la tasa de mortalidad esperada si todos los individuos se asignan al grupo de tratamiento 0 se da por E(Y(1-T)/(1-p)). El efecto causal promedio es entonces la diferencia entre estas dos tasas de mortalidad esperadas.

Utilizando las puntuaciones de propensión como ponderaciones, estimamos que el tratamiento 1 se asoció con una reducción absoluta del 6,5% (intervalo de confianza del 95%: -13,9%, 1,8%) frente al tratamiento 0.

5.6 Regresión logística ajustando por la puntuación de propensión

Se estimó el efecto del tratamiento 1 frente al tratamiento 0 en un modelo de regresión logística ajustando por la puntuación de propensión (en quintiles). El odds ratio para el tratamiento 1 se estimó en 0,65 (intervalo de confianza del 95%: 0,37; 1,13). Encontramos un odds ratio estimado similar cuando agregamos las variables explicativas originales al modelo (p.ej. ajustado por la puntuación de propensión, la edad, el riesgo y la gravedad).

Resumen de resultados

Las tasas de mortalidad a 30 días observadas fueron del 19% en el grupo tratado 0 y del 16% en el grupo tratado 1. En el cuadro que figura a continuación se comparan las estimaciones de los diversos métodos estadísticos.

Enfoque la diferencia Absoluta Odds ratio
estimado 95% CI estimado 95% CI
Sin ajuste -3.6% (-11.5%, 4.3%) 0.78 (0.46, 1.31)
regresión Logística ajustando por edad, la puntuación de riesgo, y el índice de gravedad 0.62 (0.35, 1.11)
Stratifying by PS -6.0% (-25.8%, 13.7%)
Matching by PS -7.8% (-13.7%, -1.8%) 0.58 (0.33, 1.04)
Weighting by PS -6.5% (-13.9%, 1.8%) 0.63 (0.34, 1.11)
Logistic regression adjusting for PS 0.65 (0.37, 1.13)

En general, los métodos de puntuación de propensión dan resultados similares al modelo de regresión logística. Este es un hallazgo bien conocido de estudios empíricos y de simulación anteriores .

Nótese la ligera discrepancia en la significación estadística para el método de emparejamiento, donde el intervalo de confianza del 95% para el odds ratio fue calculado por la aproximación estándar y puede ser demasiado amplio.

Discusión

En las secciones anteriores, se ha descrito e ilustrado el uso del ajuste de regresión y las puntuaciones de propensión para el análisis de datos observacionales. Es importante tener en cuenta la inevitable limitación de los datos observacionales sobre los efectos del tratamiento en comparación con los datos de un ensayo aleatorizado. Es decir, los métodos basados en ajustes de regresión o puntuaciones de propensión en datos observacionales solo permiten que el análisis se equilibre sobre covariables conocidas, mientras que la aleatorización equilibra sobre covariables conocidas y desconocidas.

Cuando se utiliza el análisis de puntuación de propensión, es vital verificar que los factores pronósticos importantes estén equilibrados por la puntuación de propensión; sin equilibrio, la teoría subyacente falla. Sin embargo, si hay un gran número de predictores, puede no ser razonable esperar un equilibrio perfecto en cada uno, de la misma manera que en un ECA, una comparación de los factores de referencia ocasionalmente encontrará diferencias entre los grupos por casualidad.

Dado que las puntuaciones de propensión deben equilibrar la distribución de las variables explicativas entre los grupos, a veces el modelo deberá incluir no solo los efectos principales, sino también los términos de interacción entre las variables explicativas. Afortunadamente, el modelo que se utiliza para estimar las puntuaciones de propensión no suele ser el foco de atención, y por lo tanto no necesita ser parsimonioso, solo necesita permitir el equilibrio. Austin et al. se realizó un gran estudio de simulación y se demostró que las variables más importantes para incluir en un modelo de puntuación de propensión (y para garantizar el equilibrio) son las variables explicativas asociadas con el resultado de interés. Por otro lado, no es esencial incluir variables que estén asociadas con la asignación de tratamiento pero no asociadas con el desenlace.

Una situación particularmente adecuada para un enfoque de puntuación de propensión es cuando el resultado del interés es raro, pero el tratamiento es común . En esta situación, es posible que no haya muchos datos para modelar la relación entre el resultado y las variables pronósticas (una regla empírica común es que se deben observar 10 eventos para cada variable pronóstica (nivel a) incluida en un modelo de regresión logística multivariable), mientras que puede haber datos suficientes para construir un buen modelo para la puntuación de propensión. En este caso, el ajuste mediante la puntuación de propensión puede ser el único enfoque viable para el análisis.

Una ventaja potencial de los métodos de puntuación de propensión sobre el ajuste de regresión es que puede ser más fácil verificar que la puntuación de propensión ha equilibrado las variables medidas entre los sujetos tratados y no tratados, mientras que es más difícil juzgar si se ha especificado correctamente un modelo de regresión .

Finalmente, es importante tener en cuenta que el análisis de puntuación de propensión estima un efecto de tratamiento diferente al ajuste de regresión. El análisis de puntuación de propensión estima el efecto marginal, mientras que el ajuste de regresión estima el efecto condicional . El efecto marginal del tratamiento se interpreta a nivel de la población: ¿cómo cambiaría el tratamiento el número total de resultados observados en la población? Cuando se utiliza un modelo de regresión logística, el efecto del tratamiento condicional es el cambio en las probabilidades del resultado para un individuo cuando se expone al tratamiento en comparación con no recibir tratamiento, condicionado a las variables explicativas de ese individuo, es decir, el efecto condicional se interpreta a nivel individual. Un ejemplo numérico de este efecto se da en la siguiente tabla, donde una enfermedad afecta a 13,200 individuos. La mayoría de los individuos son considerados de «bajo riesgo», mientras que un pequeño número son de «alto riesgo», con tasas de mortalidad de 5% y 25%, respectivamente, bajo el tratamiento anterior. Un nuevo tratamiento altamente efectivo reducirá las probabilidades de muerte en un 80% (la razón de probabilidades condicional es 0,2), pero la razón de probabilidades a nivel de población no es 0,2:

Grupo de riesgo n Tratamiento antiguo Nuevo tratamiento Rel. Risk Odds Ratio
High risk 1200 300 (25%) 75 (6.25%) 0.250 0.200
Low risk 12000 600 (5%) 125 (1.04%) 0.208 0.200
Total 13200 900 (6.8%) 200 (1.52%) 0.222 0.210

  1. Rosenbaum PR, Rubin DB. El papel central de la puntuación de propensión en los estudios observacionales de efectos causales. Biometrika, 1983; 70: 41-55. .
  2. Baser O. ¿Demasiado Ruido sobre los Modelos de Puntuación de Propensión? Comparación de Métodos de Emparejamiento de Puntuación de Propensión. Valor en Salud, 2006;9(6):377-85..
  3. Rosenbaum PR. Ajuste directo basado en modelos. Journal of the American Statistical Association, 1987; 82: 387-94. .Shah BR, Laupacis A, Hux JE, Austin PC. Los métodos de puntuación de propensión dieron resultados similares a los modelos de regresión tradicionales en estudios observacionales: una revisión sistemática. Revista de Epidemiología Clínica, 2005;58(6):550-9..Austin PC, Grootendorst P, Anderson GM. A comparison of the ability of different propensity score models to balance measured variables between treated and untreated subjects: a Monte Carlo study. Estadísticas en Medicina, 2007; 26(4):734-53..Braitman LE, Rosenbaum PR. Resultados raros, tratamientos comunes: estrategias analíticas utilizando puntuaciones de propensión . Anales de Medicina Interna, 2002; 137:693-5. .Wang J, Donnan PT. Métodos de puntuación de propensión en estudios de seguridad de medicamentos: práctica, fortalezas y limitaciones. Farmacoepidemiología y Seguridad de los Medicamentos, 2001; 10(4):341-4. .Austin PC, Grootendorst P, Normand SL, Anderson GM. El condicionamiento en la puntuación de propensión puede resultar en una estimación sesgada de las medidas comunes del efecto del tratamiento: Un estudio de Monte Carlo. Estadísticas en Medicina, 2007; 26(4):754-68..

leer Más

  • Austin PC. Una evaluación crítica del emparejamiento de puntuación de propensión en la literatura médica entre 1996 y 2003. Statistics in Medicine, 2008 (en prensa)..
  • D’Agostino RB Jr. Métodos de puntuación de propensión para la reducción del sesgo en la comparación de un tratamiento con un grupo control no aleatorizado. Estadísticas en Medicina, 1998; 17(19):2265-81..
  • Imbens GW. El papel de la puntuación de propensión en la estimación de las funciones dosis-respuesta. Biometrika, 2000; 87(3):706-10..
  • Rosenbaum PR, Rubin DB. Reducción del sesgo en estudios observacionales mediante subclasificación en la puntuación de propensión. Revista de la Asociación Americana de Estadística, 1984; 79(387):516-24..Winkelmayer WC, Kurth T. Puntuaciones de propensión: ¿ayuda o exageración?Trasplante de diálisis Nefrológica, 2004; 19: 1671-3..

Agradecimientos

Gracias a Eric Lau por ayudar a desarrollar el ejemplo ilustrativo.

Licencia Creative CommonsEste trabajo está bajo una licencia Creative Commons Attribution 3.0 Unported. Fue escrito por Ben Cowling
Esta página fue modificada por última vez en
HTML válido 4.01 Estricto