Articles

Analyse du score de propension

Contexte

Lors de l’estimation des effets du traitement sur un résultat binaire dans les études observationnelles, il arrive souvent que les traitements n’aient pas été attribués au hasard aux sujets. Si, par exemple, des patients plus malades étaient souvent affectés à un traitement alors que des patients en meilleure santé n’étaient souvent pas traités, une simple analyse pourrait estimer à tort le degré ou la direction d’un effet du traitement.

Une façon courante de tenter de s’ajuster au biais potentiel dû à ce type de confusion consiste à utiliser des modèles de régression logistique multivariables. Une autre approche est l’utilisation de l’analyse du score de propension. Dans les sections suivantes, nous fournissons un petit exemple d’ensemble de données, puis décrivons et illustrons ces méthodes alternatives d’analyse statistique. Nous nous concentrons sur l’exemple le plus simple où les patients sont affectés à un traitement actif ou à un contrôle (c’est-à-dire 2 groupes). À la fin, nous mentionnons brièvement les extensions possibles à trois groupes de traitement ou plus.

Données d’exemple

L’exemple de jeu de données suivant sera utilisé pour illustrer les concepts de base. Les données incluent 400 sujets inclus dans une étude de cohorte rétrospective d’hommes âgés de 40 à 70 ans admis à l’hôpital avec suspicion d’infarctus du myocarde. Le résultat d’intérêt est la mortalité à 30 jours (décès = 1). L’effet possible de l’administration rapide d’un nouveau médicament anti-caillots (trt = 1) par rapport à un traitement standard (trt = 0) sur le risque de mortalité est intéressant. Les covariables pertinentes sont un score de facteur de risque préexistant (sur une échelle de 0 à 5, 5 étant le pire) et un score de gravité d’admission (sur une échelle de 0 à 10, 10 étant le pire). Voici les données pour les 12 premiers sujets:

age male risk severity trt death
48 1 3 8 0 0
59 1 4 6 1 0
67 1 3 6 0 1
51 1 0 6 0 0
56 1 1 6 1 0
60 1 1 6 0 0
53 1 0 3 1 0
54 1 1 2 0 0
54 1 2 7 0 0
62 1 0 4 0 0
64 1 2 6 1 1
70 1 3 8 1 0

Les données peuvent également être téléchargés en tant que patient.csv ou appelé directement dans R à l’aide de la commande :
example <- read.csv("http://web.hku.hk/~bcowling/data/propensity.csv", header=TRUE)

Un script R d’accompagnement pour exécuter toutes les analyses suivantes peut être trouvé ici: propensity.R.

Analyse descriptive

Au total, 192 patients (48 %) ont reçu le nouveau traitement (trt =1). Les taux de mortalité à 30 jours pour les patients traités et non traités sont résumés dans le tableau suivant:

Résultat trt=0 trt=1
A survécu 168 162
Est décédé 40 30
30 jours taux de mortalité 19% 16%

Une façon d’étudier l’effet potentiel du traitement consiste à estimer la différence de risque entre les deux groupes. Le risque relatif de mortalité associé au traitement 1 est de 0,375 / 0,40, soit 0,81, ce qui suggère un léger avantage pour le nouveau traitement.

Une autre façon d’estimer l’effet du traitement pourrait être de calculer le rapport de cotes plutôt que le risque relatif. Le rapport de cotes est (168×30) / (162×40), soit 0,78, et un intervalle de confiance à 95% peut être calculé comme (0,46, 1,31).

Une troisième façon d’estimer l’effet du traitement consiste à examiner la réduction absolue des taux de mortalité. Ici, le changement associé au traitement 1 est de -3,6% (de 19,2% à 15,6%) et un intervalle de confiance à 95% est de (-11.5 %, 4,3%), c’est-à-dire jusqu’à une réduction de 12 % ou une augmentation de 4 % des taux de mortalité.

Cependant, les deux graphiques suivants montrent que les sujets recevant le traitement le plus récent étaient légèrement plus âgés que ceux recevant le traitement standard:

graphique de l'âge par rapport à la trt

Une enquête plus approfondie révèle qu’il semble également y avoir des différences dans les facteurs de risque et l’état actuel entre les deux groupes de traitement:

Graphique de l'âge par rapport au risque
graphique de l'âge par rapport à la gravité

Une comparaison formelle des distributions de ces variables explicatives entre les deux groupes de traitement révèle que les différences d’âge (test t, ppp

Régression logistique

Des modèles multivariables sont souvent utilisés pour évaluer l’effet du traitement tout en ajustant pour les variables explicatives importantes. L’ajustement en fonction de variables explicatives importantes est nécessaire pour assurer la comparabilité entre les groupes de traitement et les groupes témoins, et si l’ajustement n’est pas effectué, les différences entre les groupes peuvent conduire à des estimations biaisées de l’effet du traitement.

Le tableau ci-dessous montre le rapport de cotes brut du traitement, puis l’effet ajusté pour d’autres variables explicatives. La comparaison du critère d’information Akaike pour chaque modèle suggère que le score de risque et l’indice de gravité n’améliorent pas significativement l’ajustement, c’est-à-dire que le modèle 2 peut être préféré au modèle 3. Il y a une suggestion d’un bénéfice thérapeutique (bien que non statistiquement significatif), ainsi qu’une confusion apparente selon l’âge, comme le soupçonnent les analyses descriptives ci-dessus.

Les estimations d’un modèle supposant des effets linéaires de covariables sont très similaires au modèle 3 (résultats non présentés).

Traitement 1

Facteur n Modèle 1 Modèle 2 Modèle 3
OU IC À 95% OU IC À 95% OU IC À 95%
Traitement 0 208 1,00 1,00 1,00
192 0,78 (0,46, 1,31) 0.67 (0.39, 1.15) 0.62 (0.35, 1.11)
Age 40-49 95 1.00
Age 50-59 131 1.72 (0.77, 3.82) 1.26 (0.52, 3.01)
Age 60-70 175 2.62 (1.23, 5.62) 2.03 (0.84, 4.95)
Risk score 0 112 1.00
Risk score 1 103 3.06 (1.34, 6.97)
Risk score 2-3 132 1.33 (0.54, 3.28)
Risk score 4-5 53 2.64 (0.95, 7.35)
Severity index 0-3 108 1.00
Severity index 4 69 1.29 (0.56, 2.96)
Severity index 5 80 0.78 (0.33, 1.87)
Severity index 6 56 1.28 (0.53, 3.08)
Severity index 7-10 87 1.43 (0.65, 3.16)
AIC 374 371 371

For completeness we could also use a non-linear regression model to check the shape of the effects of age, pre-existing risk and severity in the fully adjusted model. Le script R qui l’accompagne contient le code pour estimer et tracer les fonctions splines correspondantes et nous ne les montrons pas ici; nous notons que les effets étaient assez linéaires.

Analyse du score de propension

Une autre approche de l’analyse consiste à essayer d’imiter les conditions d’un essai contrôlé randomisé (ECR). Dans un ECR, la probabilité qu’un participant reçoive un traitement particulier est la même pour tous les participants ou, dans les plans stratifiés, ne dépend que des variables explicatives connues d’un patient telles que l’âge, le sexe, etc. En d’autres termes, l’âge, le sexe du patient (etc.) est une information suffisante pour nous indiquer la probabilité du patient de recevoir le traitement.

Si, dans le cadre d’une étude observationnelle, nous disposions de toutes les informations à la disposition des professionnels de la santé qui ont assigné le traitement aux sujets, nous devrions être en mesure de recréer leur processus de décision et d’estimer la probabilité que chaque patient reçoive le traitement. Cette probabilité est appelée score de propension, et dans leur article fondateur de 1983, Rosenbaum et Rubin ont montré que tant que le score de propension est une mesure appropriée de la probabilité de recevoir un traitement, les scores peuvent être utilisés pour aider à estimer les effets causaux du traitement. Les scores sont utilisés pour équilibrer les variables pronostiques entre les groupes traités et non traités, et il existe (au moins) quatre façons possibles de le faire:

  • Stratifier les patients en groupes (par exemple quintiles) par score de propension et comparer les effets du traitement dans chaque strate.
  • Faites correspondre les patients traités et non traités et comparez les paires appariées résultantes.
  • Pondération inverse des résultats par le score de propension.
  • Ajustez le score de propension dans un modèle de régression logistique.

5.1 Estimation du score de propension

Le score de propension est la probabilité conditionnelle qu’un sujet soit traité compte tenu des variables explicatives observées; l’intention est que cette probabilité unique puisse résumer les informations sur le mécanisme d’attribution du traitement. Nous devrions alors être en mesure d’obtenir des estimations impartiales des effets du traitement en comparant des sujets qui avaient des probabilités similaires de recevoir un traitement (qu’ils l’aient effectivement reçu ou non).

Les scores de propension sont généralement estimés à l’aide d’un modèle de régression logistique multivariable.

Dans notre exemple, nous avons ajusté un modèle de régression logistique pour estimer les effets de l’âge, du score de risque et de l’indice de gravité sur la probabilité de recevoir le traitement 1 plutôt que le traitement 0. Nous constatons que l’âge plus avancé (p = 0,05), le score de risque plus élevé (p = 0,05) et l’indice de gravité plus élevé (p = 0.01) sont tous associés à une probabilité plus élevée de recevoir un traitement 1. Les scores de propension varient de 0,2 à 0,8, et nous comparons la distribution des scores entre les deux groupes de traitement dans la figure ci-dessous. Les barres montrent la gamme médiane et inter-quartiles.

Comparaison de la distribution des scores de propension au sein de chaque groupe de traitement

Comme on pouvait s’y attendre, les scores de propension (c’est-à-dire les probabilités de recevoir un traitement) sont en moyenne légèrement plus élevés dans le groupe de traitement. Nous pouvons constater qu’il y a un bon degré de chevauchement, où nous pouvons trouver des individus dans les deux groupes de traitement pour des scores de propension compris entre 0,2 et 0,8. Ceci est important, car le principe essentiel de l’analyse du score de propension est que si nous trouvons deux individus, un dans chaque groupe de traitement, nous pouvons imaginer que ces deux individus ont été assignés « au hasard » à chaque groupe dans le sens où l’une ou l’autre allocation est également probable.

5.2 Le score de propension équilibre-t-il les groupes ?

Dans toute analyse de score de propension, nous devons vérifier si le propensityscore nous permet d’équilibrer la distribution des variables explicatives. Il existe de nombreuses façons de vérifier l’équilibre; par exemple, nous pourrions examiner la distribution d’une variable explicative dans les quintiles du score de propension. Dans la figure ci-dessous, nous traçons les fourchettes d’âge médianes et interquartiles de chaque quintile de score de propension :

Âge médian (IQR) par quintiles de score de propension

Sans ajustement (global), il existe une divergence considérable. Cependant, au sein de chaque quntile, les distributions sont très étroitement alignées.

Nous pouvons quantifier les différences initiales en calculant les statistiques à deux échantillons (c’est-à-dire un test t pour les différences d’âge par groupe de traitement). Cela équivaut à trouver la statistique t pour le traitement à partir d’un modèle de régression linéaire (ou ANOVA) pour l’âge par rapport au groupe de traitement. Nous pouvons en outre mesurer les différences après ajustement du score de propension, en calculant les statistiques t pour le traitement à partir d’un modèle de régression linéaire multivariable (ou ANOVA) pour l’ajustement de l’âge pour le traitement ainsi que pour les quintiles du score de propension. Les statistiques t non ajustées (cercles remplis) et ajustées (cercles ouverts) sont présentées dans la figure ci-dessous:

Statistiques t absolues avant (cercles remplis) et après (cercles ouverts) ajustement des scores de propension

Nous pouvons voir que l’ajustement du score de propension supprime presque toutes les différences initiales d’âge, de score de risque et d’indice de gravité entre les deux groupes de traitement.

5.3 Taux de mortalité dans les quintiles du score de propension

Nous avons précédemment constaté que les covariables sont équilibrées dans les quintiles du score de propension. Rosenbaum et Rubin ont montré que l’effet moyen du traitement dans les strates du score de propension est une estimation impartiale de l’effet réel du traitement (à condition que certaines hypothèses soient valables). Nous avons tracé les taux de mortalité sur 30 jours (avec des intervalles de confiance de 95%) par groupe de traitement dans chaque quintile de score de propension, ci-dessous:

Comparaison des taux de mortalité dans les quintiles de score de propension

Les taux de mortalité étaient généralement plus bas dans le groupe recevant le traitement 1 (bleu) que dans le groupe recevant le traitement 0 (rouge), sauf au 3e trimestre où les taux étaient similaires. Cependant, il n’existe aucune preuve solide que les effets du traitement varient selon la gamme des scores de propension.

Nous pouvons calculer la différence des taux de mortalité entre les groupes de traitement dans chaque quintile, et dériver l’effet moyen du traitement en tant que moyenne pondérée entre les quintiles. La figure ci-dessous montre la réduction absolue du taux de mortalité pour le traitement 1 par rapport au traitement 0, et la moyenne pondérée, avec des intervalles de confiance de 95%:

Comparaison des taux de mortalité dans les quintiles du score de propension

Dans l’ensemble, il y a eu une réduction absolue de 6% du taux de mortalité à 30 jours pour le traitement 1 par rapport au traitement 0, avec un intervalle de confiance assez large.

5.4 Taux de mortalité entre paires d’individus appariées

Une autre approche consiste à trouver des paires de sujets, un dans chaque groupe de traitement, avec des scores de propension très similaires. Selon la définition du score de propension, deux sujets ayant des scores de propension similaires devraient également être similaires sur toutes les covariables importantes. Cette procédure de mise en correspondance est plus simple que la mise en correspondance simultanée sur toutes les covariables importantes.

En utilisant un algorithme de correspondance dans les données d’exemple, nous trouvons 177 paires de correspondance (soit 354 individus) sur les 400 sujets d’origine. Nous pourrions vérifier que l’algorithme d’appariement a atteint l’équilibre entre les groupes en comparant les distributions de covariables entre les deux groupes de traitement, parmi les paires appariées. Dans le sous-ensemble apparié, il y a eu 23 décès dans le groupe avec le traitement 1 et 36 décès dans le groupe avec le traitement 0, ce qui représente une réduction absolue statistiquement significative de 7,8% (intervalle de confiance à 95%: -13,7%, -1,8%).

5.5 Pondération inverse par scores de propension

Rosenbaum décrit une autre utilisation du score de propension, comme facteur de pondération. Sans entrer dans les détails de la dérivation, il montre que le taux de mortalité attendu si tous les sujets étaient affectés au groupe de traitement 1 au lieu du groupe 0 est égal à E (YT / p), où Y est la variable de résultat, T est le groupe de traitement et p est le score de propension à être affecté au groupe de traitement 1. De même, le taux de mortalité attendu si tous les individus sont affectés au groupe de traitement 0 est donné par E(Y(1-T) / (1-p)). L’effet causal moyen est alors la différence entre ces deux taux de mortalité attendus.

En utilisant les scores de propension comme poids, nous avons estimé que le traitement 1 était associé à une réduction absolue de 6,5% (intervalle de confiance à 95%: -13,9%, 1,8%) par rapport au traitement 0.

5.6 Régression logistique ajustant le score de propension

Nous avons estimé l’effet du traitement 1 par rapport au traitement 0 dans un modèle de régression logistique ajustant le score de propension (en quintiles). Le rapport de cotes pour le traitement 1 a été estimé à 0,65 (intervalle de confiance à 95 % : 0,37, 1,13). Nous avons trouvé un rapport de cotes estimé similaire lorsque nous avons ajouté les variables explicatives originales au modèle (c.-à-d. ajusté pour le score de propension, l’âge, le risque et la gravité).

Résumé des résultats

Les taux de mortalité observés à 30 jours étaient de 19 % dans le groupe recevant le traitement 0 et de 16 % dans le groupe recevant le traitement 1. Une comparaison des estimations des différentes méthodes statistiques est donnée dans le tableau ci-dessous.

Approche Différence absolue Rapport de cotes
estimation IC à 95% estimation IC À 95%
Aucun ajustement -3,6% (-11.5%, 4.3%) 0,78 (0,46, 1,31)
Ajustement de régression logistique pour l’âge, le score de risque et l’indice de gravité 0,62 (0,35, 1.11)
Stratifying by PS -6.0% (-25.8%, 13.7%)
Matching by PS -7.8% (-13.7%, -1.8%) 0.58 (0.33, 1.04)
Weighting by PS -6.5% (-13.9%, 1.8%) 0.63 (0.34, 1.11)
Logistic regression adjusting for PS 0.65 (0.37, 1.13)

En général, les méthodes de score de propension donnent des résultats similaires au modèle de régression logistique. C’est une conclusion bien connue des études empiriques et de simulation précédentes.

Notez la légère différence de signification statistique pour la méthode d’appariement, où l’intervalle de confiance de 95% pour le rapport de cotes a été calculé par l’approximation standard et peut être trop large.

Discussion

Dans les sections ci-dessus, l’utilisation des scores d’ajustement de régression et de propension pour l’analyse des données d’observation a été décrite et illustrée. Il est important de noter la limitation inévitable des données d’observation sur les effets du traitement par rapport aux données d’un essai randomisé. C’est-à-dire que les méthodes basées sur l’ajustement de régression ou les scores de propension dans les données d’observation ne permettent que d’équilibrer l’analyse sur des covariables connues, tandis que la randomisation s’équilibre sur des covariables connues et inconnues.

Lors de l’analyse du score de propension, il est essentiel de vérifier que les facteurs pronostiques importants sont équilibrés par le score de propension – sans équilibre, la théorie sous-jacente échoue. Cependant, s’il existe un grand nombre de prédicteurs, il peut ne pas être raisonnable de s’attendre à un équilibre parfait pour chacun d’eux, de la même manière que dans un ECR, une comparaison des facteurs de référence trouvera parfois des différences entre les groupes par hasard.

Étant donné que les scores de propension doivent équilibrer la distribution des variables explicatives entre les groupes, le modèle devra parfois inclure non seulement les effets principaux, mais également les termes d’interaction entre les variables explicatives. Heureusement, le modèle utilisé pour estimer les scores de propension n’est généralement pas au centre de l’attention, et il n’a donc pas besoin d’être parcimonieux – il doit seulement permettre un équilibre. Austin et coll. a mené une vaste étude de simulation et a montré que les variables les plus importantes à inclure dans un modèle de score de propension (et pour assurer l’équilibre) sont les variables explicatives associées au résultat d’intérêt. D’autre part, il n’est pas essentiel d’inclure des variables associées à l’affectation du traitement mais non associées au résultat.

Une situation particulièrement adaptée à une approche de score de propension est lorsque le résultat d’intérêt est rare mais que le traitement est commun. Dans cette situation, il peut ne pas y avoir beaucoup de données pour modéliser la relation entre le résultat et les variables pronostiques – une règle empirique commune est que 10 événements doivent être observés pour chaque variable pronostique (niveau de a) incluse dans un modèle de régression logistique multivariable) – alors qu’il peut y avoir suffisamment de données pour construire un bon modèle pour le score de propension. Dans ce cas, l’ajustement à l’aide du score de propension peut être la seule approche viable de l’analyse.

Un avantage potentiel des méthodes de score de propension par rapport à l’ajustement de régression est qu’il peut être plus facile de vérifier que le score de propension a équilibré les variables mesurées entre les sujets traités et les sujets non traités, alors qu’il est plus difficile de juger si un modèle de régression a été correctement spécifié.

Enfin, il est important de noter que l’analyse du score de propension estime un effet de traitement différent de l’ajustement de régression. L’analyse du score de propension estime l’effet marginal, tandis que l’ajustement de régression estime l’effet conditionnel. L’effet marginal du traitement est interprété au niveau de la population: comment le traitement changerait-il le nombre global de résultats observés dans la population? Lors de l’utilisation d’un modèle de régression logistique, l’effet conditionnel du traitement est le changement des chances de résultat pour un individu exposé à un traitement par rapport à l’absence de traitement, conditionnel aux variables explicatives de cet individu – c’est-à-dire que l’effet conditionnel est interprété au niveau individuel. Un exemple numérique de cet effet est donné dans le tableau suivant, où une maladie affecte 13 200 personnes. La plupart des individus sont considérés comme à « faible risque », tandis qu’un petit nombre sont à « risque élevé », avec des taux de mortalité de 5% et 25% respectivement, sous l’ancien traitement. Un nouveau traitement très efficace réduira les chances de décès de 80% (le rapport de cotes conditionnel est de 0,2), mais le rapport de cotes au niveau de la population n’est pas de 0,2:

/th>

Groupe à risque n Ancien traitement Nouveau traitement Rel. Risk Odds Ratio
High risk 1200 300 (25%) 75 (6.25%) 0.250 0.200
Low risk 12000 600 (5%) 125 (1.04%) 0.208 0.200
Total 13200 900 (6.8%) 200 (1.52%) 0.222 0.210

  1. Rosenbaum PR, Rubin DB. Le rôle central du score de propension dans les études observationnelles pour les effets causaux. Biometrika, 1983; 70:41-55. .
  2. Baser O. Trop de bruit sur les Modèles de Score de Propension? Comparaison des Méthodes d’Appariement des scores de Propension. Valeur en Santé, 2006;9(6):377-85..
  3. Rosenbaum PR. Ajustement direct basé sur le modèle. Journal de l’Association américaine de statistique, 1987; 82:387-94. .
  4. Shah BR, Laupacis A, Hux JE, Austin PC. Les méthodes de score de propension ont donné des résultats similaires à la modélisation de régression traditionnelle dans les études observationnelles: une revue systématique. Journal of Clinical Epidemiology, 2005;58(6):550-9..
  5. Austin PC, Grootendorst P, Anderson GM. A comparison of the ability of different propensity score models to balance measured variables between treated and untreated subjects: a Monte Carlo study. Statistiques en Médecine, 2007; 26(4):734-53..
  6. Braitman LE, Rosenbaum PR. Résultats rares, traitements courants: stratégies analytiques utilisant des scores de propension. Annales de médecine interne, 2002;137:693-5. .
  7. Wang J, Donnan PT. Méthodes de score de propension dans les études sur l’innocuité des médicaments: pratique, forces et limites. Pharmacoépidémiologie et innocuité des médicaments, 2001; 10(4):341-4. .
  8. Austin PC, Grootendorst P, Normand SL, Anderson GM. Le conditionnement sur le score de propension peut entraîner une estimation biaisée des mesures courantes de l’effet du traitement: Une étude de Monte Carlo. Statistiques en Médecine, 2007; 26(4):754-68..

Pour en savoir plus

  • Austin PC. A critical appraisal of propensity-score matching in the medical literature between 1996 and 2003. Statistiques en médecine, 2008 (sous presse)..
  • D’Agostino RB Jr. Méthodes de score de propension pour la réduction des biais dans la comparaison d’un traitement à un groupe témoin non randomisé. Statistiques en Médecine, 1998; 17(19):2265-81..
  • Imbens GW. Le rôle du score de propension dans l’estimation des fonctions dose-réponse. Biométrika, 2000; 87(3):706-10..
  • Rosenbaum PR, Rubin DB. Réduction des biais dans les études observationnelles utilisant une sous-classification sur le score de propension. Journal de l’Association Américaine de Statistique, 1984; 79(387):516-24..
  • Winkelmayer WC, Kurth T. Scores de propension: aide ou battage médiatique?Transplantation de dialyse néphrologique, 2004; 19:1671-3..

Remerciements

Merci à Eric Lau d’avoir aidé à développer l’exemple illustratif.

Licence Creative CommonsCette œuvre est sous licence Creative Commons Attribution 3.0 Unported License. Il a été écrit par Ben Cowling
Cette page a été modifiée pour la dernière fois le
HTML 4.01 valide Strict