Articles

Analisi del punteggio di propensione

Background

Quando si stimano gli effetti del trattamento su un risultato binario negli studi osservazionali, è spesso il caso che i trattamenti non siano stati assegnati in modo casuale ai soggetti. Se, ad esempio, i pazienti più malati venivano spesso assegnati al trattamento mentre i pazienti più sani spesso non venivano trattati, una semplice analisi potrebbe stimare erroneamente il grado o la direzione di un effetto terapeutico.

Un modo comune per tentare di adattarsi al potenziale bias dovuto a questo tipo di confusione è l’uso di modelli di regressione logistica multivariabili. Un approccio alternativo è l’uso dell’analisi del punteggio di propensione. Nelle sezioni seguenti forniamo un piccolo set di dati di esempio, quindi descriviamo e illustriamo questi metodi alternativi di analisi statistica. Ci concentriamo sull’esempio più semplice in cui i pazienti sono assegnati a ricevere un trattamento attivo o un controllo (cioè 2 gruppi). Alla fine menzioniamo brevemente le possibili estensioni a tre o più gruppi di trattamento.

Dati di esempio

Il seguente set di dati di esempio verrà utilizzato per illustrare i concetti di base. I dati comprendono 400 soggetti inclusi in uno studio di coorte retrospettivo su uomini di età40-70 ricoverati in ospedale con sospetto infarto miocardico. Il risultato di interesse è la mortalità di 30 giorni (morte=1). Di interesse è il possibile effetto della rapida somministrazione di un nuovo farmaco coagulo-busting (trt=1) rispetto a una terapia standard (trt=0) sul rischio di mortalità. Le covariate rilevanti sono un punteggio del fattore di rischio preesistente (su una scala da 0 a 5, 5 è il peggiore) e un punteggio di gravità dell’ammissione (su una scala da 0 a 10, 10 è il peggiore). Ecco i dati per i primi 12 soggetti:

age male risk severity trt death
48 1 3 8 0 0
59 1 4 6 1 0
67 1 3 6 0 1
51 1 0 6 0 0
56 1 1 6 1 0
60 1 1 6 0 0
53 1 0 3 1 0
54 1 1 2 0 0
54 1 2 7 0 0
62 1 0 4 0 0
64 1 2 6 1 1
70 1 3 8 1 0

I dati possono anche essere scaricato come propensione.csv o chiamato direttamente in R usando il comando:
example <- read.csv("http://web.hku.hk/~bcowling/data/propensity.csv", header=TRUE)

Uno script R di accompagnamento per eseguire tutte le seguenti analisi può essere trovato qui: propensity.R.

Analisi descrittiva

Un totale di 192 (48%) pazienti ha ricevuto il nuovo trattamento (trt=1). I tassi di mortalità a 30 giorni per i pazienti trattati e non trattati sono riassunti nella seguente tabella:

Risultato trt=0 trt=1
Sopravvissuto 168 162
Morto 40 30
30-tasso di mortalità giorni 19% 16%

Un modo per indagare il potenziale effetto del trattamento è una stima della differenza di rischio tra i due gruppi. Il rischio relativo di mortalità associato al trattamento 1 è 0,375 / 0,40, che è 0,81, suggerendo un leggero beneficio per la terapia più recente.

Un altro modo per stimare l’effetto del trattamento potrebbe essere quello di calcolare l’odds ratio piuttosto che il rischio relativo. L’odds ratio è (168×30)/(162×40), che è 0,78, e un intervallo di confidenza del 95% può essere calcolato come (0,46, 1,31).

Un terzo modo per stimare l’effetto del trattamento è guardare alla riduzione assoluta dei tassi di mortalità. Qui la variazione associata al trattamento 1 è -3,6% (dal 19,2% al 15,6%) e un intervallo di confidenza del 95% è (-11.5%, 4,3%), cioè fino a una riduzione del 12% o un aumento del 4% dei tassi di mortalità.

Tuttavia, i seguenti due grafici mostrano che i soggetti sottoposti al trattamento più recente erano leggermente più vecchi di quelli sottoposti alla terapia standard:

trama di età vs trt

Ulteriori indagini rivelano che sembra esserci anche differenze nei fattori di rischio e nelle condizioni attuali tra i due gruppi di trattamento:

trama di età vs rischio
trama di età vs gravità

Formale di confronto delle distribuzioni di queste variabili esplicative tra i due gruppi di trattamento, rivela che le differenze di età (t-test, ppp

di regressione Logistica

i modelli Multivariati sono spesso utilizzano per valutare l’effetto del trattamento durante la regolazione per importanti variabili esplicative. L’adeguamento per importanti variabili esplicative è necessario per garantire la comparabilità tra il gruppo di trattamento e il gruppo di controllo e, se l’aggiustamento non viene eseguito, le differenze tra i gruppi possono portare a stime distorte dell’effetto del trattamento.

La tabella seguente mostra l’odds ratio grezzo del trattamento, quindi l’effetto corretto per altre variabili esplicative. Il confronto del criterio di informazione Akaike per ciascun modello suggerisce che il punteggio di rischio e l’indice di gravità non migliorano significativamente l’adattamento, vale a dire che il modello 2 può essere preferito al modello 3. Vi è un suggerimento di un beneficio terapeutico (anche se non statisticamente significativo), e anche apparente confusione per età come sospettato dalle analisi descrittive di cui sopra.

Le stime di un modello che assume effetti lineari di covariate sono molto simili al Modello 3 (risultati non mostrati).

Fattore n Modello 1 2 Modello 3
O 95% IC O 95% IC O 95% CI
Trattamento 0 208 1.00 1.00 1.00
1 Trattamento 192 0.78 (0.46, 1.31) 0.67 (0.39, 1.15) 0.62 (0.35, 1.11)
Age 40-49 95 1.00
Age 50-59 131 1.72 (0.77, 3.82) 1.26 (0.52, 3.01)
Age 60-70 175 2.62 (1.23, 5.62) 2.03 (0.84, 4.95)
Risk score 0 112 1.00
Risk score 1 103 3.06 (1.34, 6.97)
Risk score 2-3 132 1.33 (0.54, 3.28)
Risk score 4-5 53 2.64 (0.95, 7.35)
Severity index 0-3 108 1.00
Severity index 4 69 1.29 (0.56, 2.96)
Severity index 5 80 0.78 (0.33, 1.87)
Severity index 6 56 1.28 (0.53, 3.08)
Severity index 7-10 87 1.43 (0.65, 3.16)
AIC 374 371 371

For completeness we could also use a non-linear regression model to check the shape of the effects of age, pre-existing risk and severity in the fully adjusted model. Lo script R di accompagnamento contiene il codice per stimare e tracciare le funzioni spline corrispondenti e non le mostriamo qui; notiamo che gli effetti erano abbastanza lineari.

Analisi del punteggio di propensione

Un approccio alternativo all’analisi è cercare di imitare le condizioni di uno studio controllato randomizzato (RCT). In un RCT, la probabilità che un partecipante riceva un particolare trattamento è la stessa per tutti i partecipanti o, in disegni stratificati, dipende solo dalle variabili esplicative note di un paziente come età, sesso ecc. In altre parole, l’età, il sesso del paziente (ecc.) sono informazioni sufficienti per dirci la probabilità del paziente di ricevere il trattamento.

Se in uno studio osservazionale avessimo tutte le informazioni a disposizione degli operatori sanitari che hanno assegnato il trattamento ai soggetti, dovremmo essere in grado di ricreare il loro processo decisionale e stimare la probabilità che i singoli pazienti ricevessero il trattamento. Questa probabilità è indicata come il punteggio di propensione, e nel loro documento seminale del 1983 Rosenbaum e Rubin hanno dimostrato che finché il punteggio di propensione è una misura appropriata della probabilità di ricevere un trattamento, i punteggi possono essere utilizzati per aiutare a stimare gli effetti causali del trattamento. I punteggi sono utilizzati per bilanciare le variabili prognostiche tra gruppi trattati e non trattati, e ci sono (almeno) quattro modi possibili per farlo:

  • Stratificare i pazienti in gruppi (ad esempio quintili) per punteggio di propensione e confrontare gli effetti del trattamento in ogni strato.
  • Abbinare i pazienti trattati e non trattati e confrontare le coppie corrispondenti risultanti.
  • Ponderazione inversa dei risultati per il punteggio di propensione.
  • Regolare per il punteggio di propensione in un modello di regressione logistica.

5.1 Stima del punteggio di propensione

Il punteggio di propensione è la probabilità condizionale che un soggetto venga trattato date le variabili esplicative osservate; l’intenzione è che questa singola probabilità possa riassumere le informazioni sul meccanismo di assegnazione del trattamento. Dovremmo quindi essere in grado di ottenere stime imparziali degli effetti del trattamento confrontando soggetti che avevano probabilità simili di ricevere un trattamento (che lo abbiano effettivamente ricevuto o meno).

I punteggi di propensione sono in genere stimati utilizzando un modello di regressione logistica multivariabile.

Nel nostro esempio, abbiamo montato un modello di regressione logistica per stimare gli effetti dell’età, del punteggio di rischio e dell’indice di gravità sulla probabilità di ricevere il trattamento 1 piuttosto che il trattamento 0. Troviamo che l’età più avanzata (p=0,05), il punteggio di rischio più elevato (p=0,05) e l’indice di gravità più elevato (p=0.01) sono tutti associati ad una maggiore probabilità di ricevere un trattamento 1. I punteggi di propensione variano da 0,2 a 0,8 e confrontiamo la distribuzione dei punteggi tra i due gruppi di trattamento nella figura seguente. Le barre mostrano la gamma mediana e inter-quartile.

Confronto della distribuzione dei punteggi di propensione all'interno di ciascun gruppo di trattamento

Come ci si aspetterebbe, i punteggi di propensione (cioè le probabilità di ricevere il trattamento) sono in media leggermente più alti nel gruppo di trattamento. Possiamo vedere che c’è un buon grado di sovrapposizione, dove possiamo trovare individui in entrambi i gruppi di trattamento per qualsiasi punteggio di propensione tra 0.2 e 0.8. Questo èimportante, perché il principio essenziale dell’analisi del punteggio di propensione è che se troviamo due individui, uno in ciascun gruppo di trattamento, possiamo immaginare che quei due individui siano stati assegnati “casualmente” a ciascun gruppo nel senso che l’allocazione sia ugualmente probabile.

5.2 Il punteggio di propensione bilancia i gruppi?

In qualsiasi analisi del punteggio di propensione dovremmo verificare se il propensityscore ci consente di bilanciare la distribuzione delle variabili esplicative. Ci sono molti modi per controllare l’equilibrio; per esempio potremmo guardare la distribuzione di una variabile esplicativa all’interno dei quintili del punteggio di propensione. Nella figura seguente tracciamo le gamme di età mediana e interquartile in ciascun quintile del punteggio di propensione:

Età mediana (IQR) per quintili del punteggio di propensione

Senza aggiustamento (complessivo) c’è una notevole discrepanza. Tuttavia all’interno di ogni quntile, le distribuzioni sono molto strettamente allineate.

Possiamo quantificare le differenze iniziali calcolando le statistiche a due campioni (cioè un t-test per le differenze di età per gruppo di trattamento). Ciò equivale a trovare la statistica t per il trattamento da un modello di regressione lineare (o ANOVA) per età rispetto al gruppo di trattamento. Possiamo inoltre misurare le differenze dopo aver regolato per il punteggio di propensione, calcolando le statistiche t per il trattamento da un modello di regressione lineare multivariabile (o ANOVA) per la regolazione dell’età per il trattamento e regolando per i quintili del punteggio di propensione. Le statistiche t non regolate (cerchi pieni) e aggiustate (cerchi aperti) sono presentate nella figura seguente:

Statistiche t assolute prima (cerchi pieni) e dopo (cerchi aperti)che regolano i punteggi di propensione

Possiamo vedere che la regolazione del punteggio di propensione rimuove quasi tutte le differenze iniziali in età, punteggio di rischio e indice di gravità tra i due gruppi di trattamento.

5.3 Tassi di mortalità all’interno dei quintili del punteggio di propensione

In precedenza abbiamo scoperto che le covariate sono bilanciate all’interno dei quintili del punteggio di propensione. Rosenbaum e Rubin hanno dimostrato che l’effetto medio del trattamento all’interno degli strati del punteggio di propensione è una stima imparziale del vero effetto del trattamento (a condizione che alcune ipotesi siano valide). Tracciamo la mortalità a 30 giorni, prezzi (con intervalli di confidenza 95%) dal gruppo di trattamento in ogni punteggio propensione quintile, di seguito:

Confronto dei tassi di mortalità entro punteggio propensione quintiles

i tassi di Mortalità sono stati generalmente più bassa nel gruppo di trattamento 1 (blu) rispetto a quelli del gruppo dato un trattamento di 0 (rosso), tranne che in Q3, dove le tariffe erano simili. Tuttavia non vi è alcuna forte evidenza che gli effetti del trattamento variano in tutta la gamma di punteggi di propensione.

Possiamo calcolare la differenza nei tassi di mortalità tra i gruppi di trattamento in ciascun quintile e ricavare l’effetto medio del trattamento come media ponderata tra i quintili. La figura seguente mostra la riduzione assoluta del tasso di mortalità per il trattamento 1 rispetto al trattamento 0 e la media ponderata, con intervalli di confidenza del 95% :

Confronto dei tassi di mortalità all'interno del punteggio di propensione quintili

Nel complesso si è verificata una riduzione assoluta del 6% del tasso di mortalità a 30 giorni per il trattamento 1 rispetto al trattamento 0, con un intervallo di confidenza abbastanza ampio.

5.4 Tassi di mortalità tra coppie abbinate di individui

Un approccio alternativo è quello di trovare coppie di soggetti, uno in ogni gruppo di trattamento, con punteggi di propensione molto simili. Con la definizione del punteggio di propensione, due soggetti con punteggi di propensione simili dovrebbero essere simili anche su tutte le covariate importanti. Questa procedura di corrispondenza è computazionalmente più semplice della corrispondenza simultanea su tutte le covariate importanti.

Utilizzando un algoritmo di matching nei dati di esempio, troviamo 177 coppie corrispondenti (cioè 354 individui) dei 400 soggetti originali. Potremmo verificare che l’algoritmo di matching abbia raggiunto l’equilibrio tra i gruppi confrontando le distribuzioni delle covariate tra i due gruppi di trattamento, tra le coppie abbinate. Nel sottogruppo corrispondente, ci sono stati 23 decessi nel gruppo con trattamento 1 e 36 decessi nel gruppo con trattamento 0, che è una riduzione assoluta statisticamente significativa del 7,8% (intervallo di confidenza del 95%: -13,7%, -1,8%).

5.5 Ponderazione inversa per i punteggi di propensione

Rosenbaum descrive un uso alternativo del punteggio di propensione, come fattore di ponderazione. Senza entrare nei dettagli della derivazione, mostra che il tasso di mortalità atteso se tutti i soggetti sono stati assegnati al gruppo di trattamento 1 anziché al gruppo 0 è uguale a E (YT/p), dove Y è la variabile di esito, T è il gruppo di trattamento e p è il punteggio di propensione assegnato al gruppo di trattamento 1. Allo stesso modo, il tasso di mortalità atteso se tutti gli individui sono assegnati al gruppo di trattamento 0 è dato da E(Y(1-T)/(1-p)). L’effetto causale medio è quindi la differenza tra questi due tassi di mortalità attesi.

Utilizzando i punteggi di propensione come pesi, abbiamo stimato che il trattamento 1 era associato ad una riduzione assoluta del 6,5% (intervallo di confidenza del 95%: -13,9%, 1,8%) rispetto al trattamento 0.

5.6 Regressione logistica regolazione per il punteggio di propensione

Abbiamo stimato l’effetto del trattamento 1 vs trattamento 0 in un modello di regressione logistica regolazione per il punteggio di propensione (in quintili). L’odds ratio per il trattamento 1 è stato stimato come 0,65 (intervallo di confidenza del 95%: 0,37, 1,13). Abbiamo trovato un rapporto di probabilità stimato simile quando abbiamo aggiunto le variabili esplicative originali al modello (cioè aggiustato per il punteggio di propensione, età, rischio e gravità).

Riassunto dei risultati

I tassi di mortalità osservati a 30 giorni sono stati del 19% nel gruppo trattato 0 e del 16% nel gruppo trattato 1. La tabella che segue fornisce un raffronto tra le stime dei vari metodi statistici.

Approccio differenza Assoluta Odds ratio
preventivo 95% CI preventivo 95% IC
No regolazione -3.6% (-11.5%, 4.3%) 0.78 (0.46, 1.31)
regressione Logistica regolazione per età, punteggio di rischio, e l’indice di gravità 0.62 (0.35, 1.11)
Stratifying by PS -6.0% (-25.8%, 13.7%)
Matching by PS -7.8% (-13.7%, -1.8%) 0.58 (0.33, 1.04)
Weighting by PS -6.5% (-13.9%, 1.8%) 0.63 (0.34, 1.11)
Logistic regression adjusting for PS 0.65 (0.37, 1.13)

In generale i metodi del punteggio di propensione danno risultati simili al modello di regressione logistica. Questa è una scoperta ben nota da precedenti studi empirici e di simulazione .

Si noti la leggera discrepanza nella significatività statistica per il metodo di corrispondenza, dove l’intervallo di confidenza del 95% per l’odds ratio è stato calcolato con l’approssimazione standard e potrebbe essere troppo ampio.

Discussione

Nelle sezioni precedenti, è stato descritto e illustrato l’uso dei punteggi di regolazione della regressione e di propensione per l’analisi dei dati osservazionali. È importante notare l’inevitabile limitazione dei dati osservazionali sugli effetti del trattamento rispetto ai dati di uno studio randomizzato. Cioè, i metodi basati sulla regolazione della regressione o sui punteggi di propensione nei dati osservazionali consentono solo di bilanciare l’analisi su covariate note, mentre la randomizzazione si equilibra su covariate note e sconosciute.

Quando si utilizza l’analisi del punteggio di propensione, è fondamentale verificare che importanti fattori prognostici siano bilanciati dal punteggio di propensione – senza equilibrio, la teoria sottostante fallisce. Tuttavia, se ci sono un gran numero di predittori, potrebbe non essere ragionevole aspettarsi un perfetto equilibrio su ognuno, nello stesso modo in cui in un RCT un confronto di fattori di base troverà occasionalmente differenze tra i gruppi per caso.

Poiché i punteggi di propensione devono bilanciare la distribuzione delle variabili esplicative tra gruppi, a volte il modello dovrà includere non solo gli effetti principali ma anche i termini di interazione tra variabili esplicative. Fortunatamente, il modello che viene utilizzato per stimare i punteggi di propensione non è di solito al centro dell’attenzione, e quindi non ha bisogno di essere parsimonioso – ha solo bisogno di consentire l’equilibrio. Austin et al. condotto un ampio studio di simulazione e ha dimostrato che le variabili più importanti da includere in un modello di punteggio di propensione (e per garantire l’equilibrio) sono quelle variabili esplicative associate al risultato di interesse. D’altra parte, non è essenziale includere variabili associate all’assegnazione del trattamento ma non associate al risultato.

Una situazione particolarmente adatta ad un approccio del punteggio di propensione è quando il risultato di interesse è raro ma il trattamento è comune . In questa situazione potrebbero non esserci molti dati per modellare la relazione tra il risultato e le variabili prognostiche – una regola generale comune è che 10 eventi dovrebbero essere osservati per ogni variabile prognostica (livello di a) inclusa in un modello di regressione logistica multivariabile) – mentre potrebbero esserci dati sufficienti per costruire un buon modello per il punteggio di propensione. In questo caso, la regolazione utilizzando il punteggio di propensione può essere l’unico approccio praticabile all’analisi.

Un potenziale vantaggio dei metodi del punteggio di propensione rispetto alla regolazione della regressione è che può essere più facile verificare che il punteggio di propensione abbia bilanciato le variabili misurate tra soggetti trattati e non trattati, mentre è più difficile giudicare se un modello di regressione è stato specificato correttamente .

Infine, è importante notare che l’analisi del punteggio di propensione stima un effetto di trattamento diverso rispetto alla regolazione della regressione. L’analisi del punteggio di propensione stima l’effetto marginale, mentre l’aggiustamento della regressione stima l’effetto condizionale . L’effetto marginale del trattamento è interpretato a livello di popolazione: come cambierebbe il trattamento il numero complessivo di risultati osservati nella popolazione? Quando si utilizza un modello di regressione logistica, l’effetto del trattamento condizionale è il cambiamento delle probabilità del risultato per un individuo quando esposto al trattamento rispetto a non ricevere alcun trattamento, condizionato dalle variabili esplicative di quell’individuo – cioè l’effetto condizionale è interpretato a livello individuale. Un esempio numerico di questo effetto è dato nella seguente tabella, dove una malattia colpisce 13.200 individui. La maggior parte degli individui sono considerati “a basso rischio”, mentre un piccolo numero è “ad alto rischio”, con tassi di mortalità del 5% e del 25% rispettivamente, sotto il vecchio trattamento. Un nuovo trattamento altamente efficace di ridurre le probabilità di morte dell ‘ 80% (il condizionale odds ratio è di 0,2), ma l’odds ratio a livello di popolazione non è 0.2:

Rischio n trattamento Nuovo trattamento Rel. Risk Odds Ratio
High risk 1200 300 (25%) 75 (6.25%) 0.250 0.200
Low risk 12000 600 (5%) 125 (1.04%) 0.208 0.200
Total 13200 900 (6.8%) 200 (1.52%) 0.222 0.210

  1. Rosenbaum PR, Rubin DB. Il ruolo centrale del punteggio di propensione negli studi osservazionali per gli effetti causali. Biometrika, 1983; 70:41-55. .
  2. Baser O. Troppo rumore sui modelli di punteggio di propensione? Confronto dei metodi di corrispondenza del punteggio di propensione. Valore in salute, 2006;9(6):377-85..
  3. Rosenbaum PR. Regolazione diretta basata sul modello. Journal of American Statistical Association, 1987; 82: 387-94. .
  4. Shah BR, Laupacis A, Hux JE, Austin PC. I metodi del punteggio di propensione hanno dato risultati simili alla tradizionale modellazione di regressione negli studi osservazionali: una revisione sistematica. Rivista di Epidemiologia Clinica, 2005;58(6):550-9..
  5. Austin PC, Grootendorst P, Anderson GM. Un confronto della capacità di diversi modelli di punteggio di propensione di bilanciare le variabili misurate tra soggetti trattati e non trattati: uno studio Monte Carlo. Statistiche in Medicina, 2007; 26(4):734-53..
  6. Braitman LE, Rosenbaum PR. Risultati rari, trattamenti comuni: strategie analitiche utilizzando i punteggi di propensione . Annali di Medicina Interna, 2002; 137:693-5. .
  7. Wang J, Donnan PT. Metodi di punteggio di propensione negli studi sulla sicurezza dei farmaci: pratica, punti di forza e limitazioni. Farmacoepidemiologia e sicurezza dei farmaci, 2001; 10(4):341-4. .
  8. Austin PC, Grootendorst P, Normand SL, Anderson GM. Il condizionamento sul punteggio di propensione può comportare una stima parziale delle misure comuni dell’effetto del trattamento: uno studio Monte Carlo. Statistiche in Medicina, 2007; 26(4):754-68..

Ulteriori letture

  • Austin PC. Una valutazione critica della corrispondenza propensione-punteggio nella letteratura medica tra il 1996 e il 2003. Statistiche in Medicina, 2008 (in stampa)..
  • D’Agostino RB Jr.Metodi di punteggio di propensione per la riduzione del bias nel confronto di un trattamento con un gruppo di controllo non randomizzato. Statistichein Medicina, 1998; 17(19):2265-81..
  • Imbens GW. Il ruolo del punteggio di propensione nella stima delle funzioni dose-risposta. Biometrika, 2000; 87(3):706-10..
  • Rosenbaum PR, Rubin DB. Riduzione del bias negli studi osservazionali utilizzando la sottoclassificazione sul punteggio di propensione. Rivista dell’Associazione Statistica Americana, 1984; 79(387):516-24..
  • Winkelmayer WC, Kurth T. Punteggi di propensione: aiuto o hype?Trapianto di dialisi nefrologica, 2004; 19: 1671-3..

Ringraziamenti

Grazie a Eric Lau per aver contribuito a sviluppare l’esempio illustrativo.

Licenza Creative CommonsQuesta opera è distribuita sotto una licenza Creative Commons Attribution 3.0 Unported. E ‘stato scritto da Ben Cowling
Questa pagina è stata modificata l’ultima volta il
HTML 4.01 Strict valido