Articles

Analyse av Tilbøyelighet

Bakgrunn

ved estimering av behandlingseffekter på et binært utfall i observasjonsstudier, er det ofte slik at behandlinger ikke ble randomisert til forsøkspersoner. Hvis for eksempel sykere pasienter ofte ble tildelt behandling mens sunnere pasienter ofte ikke ble behandlet, kan en enkel analyse feilaktig estimere graden eller retningen av en behandlingseffekt.en vanlig måte å forsøke å justere for den potensielle bias på grunn av denne typen confounding er ved bruk av multivariable logistiske regresjonsmodeller. En alternativ tilnærming er bruk av tilbøyelighet score analyse. I de følgende avsnittene gir vi et lite eksempel datasett, og deretter beskrive og illustrere disse alternative metoder for statistisk analyse. Vi fokuserer på det enkleste eksempelet der pasientene får tildelt enten aktiv behandling eller kontroll (dvs. 2 grupper). På slutten nevner vi kort mulige utvidelser til tre eller flere behandlingsgrupper.

Eksempeldata

følgende eksempeldatasett vil bli brukt til å illustrere de grunnleggende konseptene. Dataene inkluderer 400 personer inkludert i en retrospektiv kohortstudie av menn i alderen 40-70 innlagt på sykehus med mistanke om hjerteinfarkt. Utfallet av interesse er 30-dagers dødelighet (død=1). Av interesse er den mulige effekten av rask administrasjon av en nyere blodpropp-busting narkotika (trt=1) versus en standard terapi (trt=0) på risikoen for dødelighet. Relevante kovariater er en eksisterende risikofaktorscore (på en skala fra 0 til 5, 5 er verst) og en alvorlighetsgrad (på en skala fra 0 til 10, 10 er verst). Her er dataene for de første 12 fagene:

age male risk severity trt death
48 1 3 8 0 0
59 1 4 6 1 0
67 1 3 6 0 1
51 1 0 6 0 0
56 1 1 6 1 0
60 1 1 6 0 0
53 1 0 3 1 0
54 1 1 2 0 0
54 1 2 7 0 0
62 1 0 4 0 0
64 1 2 6 1 1
70 1 3 8 1 0

dataene kan også lastes ned som tilbøyelighet.csv eller kalt direkte I R ved hjelp av kommandoen:
example <- read.csv("http://web.hku.hk/~bcowling/data/propensity.csv", header=TRUE)

et tilhørende r-skript for å kjøre alle følgende analyser finner du her: tilbøyelighet.R.

Deskriptiv analyse

Totalt 192 (48%) pasienter fikk den nye behandlingen (trt=1). 30-dagers dødelighet for behandlede og ubehandlede pasienter er oppsummert i følgende tabell:

trt=0 trt=1
overlevde 168
døde 40 30
30-dagers dødelighet 19% 16%

en måte å undersøke den potensielle behandlingseffekten på er med et estimat av forskjellen i risiko mellom de to gruppene. Den relative risikoen for dødelighet forbundet med behandling 1 er 0,375/0,40, som er 0,81, noe som tyder på en liten fordel for den nyere behandlingen.

En annen måte å estimere behandlingseffekten på kan være å beregne oddsraten i stedet for den relative risikoen. Odds ratio er (168×30)/(162×40), som er 0,78, og et 95% konfidensintervall kan beregnes som (0,46, 1,31).

en tredje måte å estimere behandlingseffekten på er å se på den absolutte reduksjonen i dødelighet. Her er endringen forbundet med behandling 1 -3,6% (fra 19,2% til 15,6%) og et 95% konfidensintervall er (-11.5%, 4,3%) dvs. så mye som en 12% reduksjon eller en 4% økning i dødelighet.

de følgende to plottene viser imidlertid at forsøkspersonene som fikk den nyere behandlingen var litt eldre enn de som fikk standardterapien:

plot of age vs trt

Videre undersøkelser viser at det også ser ut til å være forskjeller i risikofaktorer og nåværende tilstand mellom de to behandlingsgruppene:

plott av alder vs risiko
plott av alder vs alvorlighetsgrad

Formell sammenligning av fordelingene av disse forklaringsvariablene på tvers av de to behandlingsgruppene viser at forskjellene i alder (t-test, ppp

Logistisk regresjon

Multivariable modeller brukes ofte til å vurdere behandlingseffekten mens justering for viktige forklaringsvariabler. Justering for viktige forklaringsvariabler er nødvendig for å sikre sammenlignbarhet mellom behandlings-og kontrollgruppene, og hvis justeringen ikke utføres, kan forskjellene mellom gruppene føre til partiske estimater av behandlingseffekten.

tabellen under viser råoddsforholdet for behandling, deretter effekten justert for andre forklaringsvariabler. Sammenligning Av Akaike Informasjonskriterium for hver modell antyder at risikoscore og alvorlighetsgrad indeks ikke forbedrer passform, dvs. Modell 2 kan foretrekkes over Modell 3. Det er et forslag om en behandlingsfordel (men ikke statistisk signifikant), og også tilsynelatende forvirrende etter alder som mistenkt av de beskrivende analysene ovenfor.

estimatene fra en modell som antar lineære effekter av kovariater, er svært lik Modell 3 (resultater ikke vist).

r 95% ki 5% ki 5% ki ller 5% ki

Faktor n Modell 1 modell 2 Modell 3
behandling 0 208 1.00 1.00
Behandling 1 192 0,78 (0,46, 1,31) 0.67 (0.39, 1.15) 0.62 (0.35, 1.11)
Age 40-49 95 1.00
Age 50-59 131 1.72 (0.77, 3.82) 1.26 (0.52, 3.01)
Age 60-70 175 2.62 (1.23, 5.62) 2.03 (0.84, 4.95)
Risk score 0 112 1.00
Risk score 1 103 3.06 (1.34, 6.97)
Risk score 2-3 132 1.33 (0.54, 3.28)
Risk score 4-5 53 2.64 (0.95, 7.35)
Severity index 0-3 108 1.00
Severity index 4 69 1.29 (0.56, 2.96)
Severity index 5 80 0.78 (0.33, 1.87)
Severity index 6 56 1.28 (0.53, 3.08)
Severity index 7-10 87 1.43 (0.65, 3.16)
AIC 374 371 371

For completeness we could also use a non-linear regression model to check the shape of the effects of age, pre-existing risk and severity in the fully adjusted model. Det medfølgende r-skriptet inneholder koden for å estimere og plotte de tilsvarende spline-funksjonene, og vi viser ikke disse her; vi merker oss at effektene var ganske lineære.

Tilbøyelighet score analyse

en alternativ tilnærming til analysen er å prøve å etterligne forholdene i en randomisert kontrollert studie (RCT). I EN RCT er sannsynligheten for at en deltaker mottar en bestemt behandling den samme for alle deltakere, eller i stratifiserte design, avhenger bare av de kjente forklaringsvariablene til en pasient som alder, kjønn etc. Med andre ord, pasientens alder, kjønn (etc.) er tilstrekkelig informasjon til å fortelle oss pasientens sannsynlighet for å få behandling.

hvis vi i en observasjonsstudie hadde all informasjon tilgjengelig for helsepersonell som tildelte behandling til fagpersoner, bør vi kunne gjenskape beslutningsprosessen og estimere sannsynligheten for at enkelte pasienter fikk behandlingen. Denne sannsynligheten er referert til som tilbøyelighet score, Og I sin banebrytende 1983 papir Rosenbaum og Rubin viste At Så lenge tilbøyelighet score er et passende mål på sannsynligheten for å motta behandling, kan score brukes til å estimere årsakseffekter av behandlingen. Resultatene brukes til å balansere prognostiske variabler på tvers av behandlede og ubehandlede grupper, og det er (minst) fire mulige måter å gjøre dette på:

  • Stratifisere pasienter i grupper (f. eks.
  • Match behandlede og ubehandlede pasienter og sammenlign resulterende matchede par.
  • Invers vekting av utfall av tilbøyelighet score.
  • Juster for tilbøyelighet score i en logistisk regresjonsmodell.

5.1 Estimering av tilbøyelighetsscore

tilbøyelighetsscore er den betingede sannsynligheten for at et individ vil bli behandlet gitt de observerte forklaringsvariablene; hensikten er at denne enkle sannsynligheten kan oppsummere informasjonen om behandlingsmekanismen. Vi bør da kunne oppnå objektive estimater av behandlingseffekter ved å sammenligne personer som hadde lignende sannsynligheter for å motta en behandling (om de faktisk mottok den eller ikke).

Tilbøyelighet score er vanligvis estimert ved hjelp av en multivariabel logistisk regresjonsmodell.

i vårt eksempel monterte vi en logistisk regresjonsmodell for å estimere effekten av alder, risikoscore og alvorlighetsgrad på sannsynligheten for å motta behandling 1 i stedet for behandling 0. Vi finner at eldre alder (p=0,05), høyere risikoscore (p=0,05) og høyere alvorlighetsgrad (p=0.01) er alle forbundet med en høyere sannsynlighet for å få behandling 1. Tilbøyelighetsskårene varierer fra 0,2 til 0,8, og vi sammenligner fordelingen av skår mellom de to behandlingsgruppene i figuren nedenfor. Stolpene viser median og interkvartil rekkevidde.

Sammenligning av fordelingen av tilbøyelighet score innenfor hver behandlingsgruppe

som forventet er tilbøyelighet score (dvs.sannsynligheten for å motta behandling) i gjennomsnitt litt høyere i behandlingsgruppen. Wecan se at det er en god grad av overlapping, hvor vi kan finne individer i begge behandlingsgrupper for noen tilbøyelighet score mellom 0,2 og 0,8. Dette er viktig, fordi det grunnleggende prinsippet om tilbøyelighet score analyse er at hvis vi finner to personer, en i hver behandlingsgruppe, kan vi forestille oss at de to personene ble ’tilfeldig’ tildelt hver gruppe i den forstand at enten tildeling er like sannsynlig.

5.2 balanserer tilbøyelighetspoengene gruppene?

i en hvilken som helst analyse av tilbøyelighetspoeng bør vi sjekke om propensityscore tillater oss å balansere fordelingen av forklaringsvariabler. Det er mange måter å sjekke balansen på ; for eksempel kan vi se på fordelingen av en forklaringsvariabel innenfor kvintilene i tilbøyelighetspoenget. I figuren under plotter vi median og interkvartil aldersintervall i hver kvartscore kvintil:

Median alder (iqr) ved kvartscore kvintil

uten justering (totalt) er det betydelig avvik. Men innenfor hver quntile er fordelingene svært nært justert.

vi kan kvantifisere de opprinnelige forskjellene ved å beregne to-prøvestatistikken (dvs.en t-test for forskjeller i alder etter behandlingsgruppe). Dette tilsvarer å finne t-statistikken for behandling fra en lineær regresjonsmodell (ELLER ANOVA) for alder versus behandlingsgruppe. Vi kan videre måle forskjellene etter justering for tilbøyelighetsskår, ved å beregne t-statistikken for behandling fra en multivariabel lineær regresjonsmodell (ELLER ANOVA) for aldersjustering for behandling samt justering for kvintilene i tilbøyelighetsskår. De ujusterte (fylte sirkler) og justerte (åpne sirkler) t-statistikk er presentert i figuren nedenfor:

Absolutt t statistikk før (fylte sirkler) og etter (åpne sirkler)justering for tilbøyelighet score

vi kan se at tilbøyelighet score justering fjerner nesten alle de første forskjellene i alder, risiko score og alvorlighetsgrad indeks mellom de to behandlingsgruppene.

5,3 Mortalitetsrater innen tilbøyelighet score quintiles

Vi har tidligere funnet at kovariater er balansert innenfor kvintilene av tilbøyelighet score. Rosenbaum og Rubin viste at den gjennomsnittlige behandlingseffekten innen propensity score strata er et upartisk estimat av den sanne behandlingseffekten (forutsatt at noen antagelser holder). Vi plotter 30-dagers mortalitetsrater (med 95% konfidensintervall) etter behandlingsgruppe i hver tilbøyelighetsskår kvintil, under:

Sammenligning av mortalitetsrater innen tilbøyelighetsskår kvintiler

Mortalitetsrater var generelt lavere i gruppen som fikk behandling 1 (blå) enn i gruppen som fikk behandling 0 (rød), bortsett fra I Q3 hvor ratene var like. Det er imidlertid ingen sterke bevis for at behandlingseffektene varierer over omfanget av tilbøyelighet score.

vi kan beregne forskjellen i dødelighet mellom behandlingsgrupper i hver kvintil, og utlede gjennomsnittlig behandlingseffekt som vektet gjennomsnitt over kvintilene. Figuren under viser absolutt reduksjon i dødelighet for behandling 1 versus behandling 0, og vektet gjennomsnitt, med 95% konfidensintervall:

Sammenligning av dødelighetsratene innen kvintil tilbøyelighetsskår

Totalt var det en absolutt reduksjon på 6% i 30-dagersdødelighetsraten for behandling 1 sammenlignet med behandling 0, med et relativt bredt konfidensintervall.

5,4 Dødelighetsrater mellom matchede par av individer

en alternativ tilnærming er å finne par av individer, ett i hver behandlingsgruppe, med svært like tilbøyelighetsskår. Ved definisjonen av tilbøyelighet score, to fag med lignende tilbøyelighet score bør også være lik på alle viktige kovariater. Denne matchende prosedyren er beregningsmessig enklere enn samtidig matching på alle viktige kovariater.

Ved å bruke en matchende algoritme i eksempeldataene finner vi 177 matchende par (dvs. 354 personer) ut av de opprinnelige 400 fagene. Vi kunne sjekke at matchingsalgoritmen har oppnådd balanse mellom gruppene ved å sammenligne fordelingene av kovariater mellom de to behandlingsgruppene, blant de matchede parene. I den samsvarende undergruppen var det 23 dødsfall i gruppen med behandling 1 og 36 dødsfall i gruppen med behandling 0, som er en statistisk signifikant absolutt reduksjon på 7,8% (95% konfidensintervall: -13,7%, -1,8%).

5,5 Invers vekting ved tilbøyelighet score

Rosenbaum beskriver en alternativ bruk av tilbøyelighet score, som en vekting faktor. Uten å gå inn i detaljer om avledningen, viser han at forventet dødelighet hvis alle fag ble tildelt behandlingsgruppe 1 i stedet for gruppe 0 er LIK E(YT/p), Hvor Y er utfallsvariabelen, T er behandlingsgruppen, og p er tilbøyelighetsscore for å bli tildelt behandlingsgruppe 1. Tilsvarende er forventet dødelighet hvis alle individer er tildelt behandlingsgruppe 0 gitt Ved E(Y(1-T)/(1-p)). Averague kausal effekt er da forskjellen mellom disse to forventede dødelighetsratene.

ved å Bruke tilbøyelighetsskårene som vekter, estimerte vi at behandling 1 var assosiert med en absolutt reduksjon på 6,5% (95% konfidensintervall: -13,9%, 1,8%) versus behandling 0.

5.6 Logistisk regresjon justering for tilbøyelighet score

vi estimerte effekten av behandling 1 vs behandling 0 i en logistisk regresjonsmodell justering for tilbøyelighet score (i quintiles). Odds ratio for behandling 1 ble estimert til 0,65 (95% konfidensintervall: 0,37, 1,13). Vi fant en lignende estimert oddsratio da vi la de opprinnelige forklaringsvariablene til modellen (dvs. justert for tilbøyelighetsscore, alder, risiko og alvorlighetsgrad).

Sammendrag av resultater

den observerte 30-dagers mortalitetsraten var 19% i gruppen som fikk behandling 0 og 16% i gruppen som fikk behandling 1. En sammenligning av estimater fra de ulike statistiske metodene er gitt i tabellen nedenfor.

Tilnærming Absolutt forskjell Odds ratio
estimat 95% KI estimat 95% ki
ingen justering -3,6% (-11.5%, 4.3%) 0,78 (0,46, 1,31)
0,62 (0,35, 1.11)
Stratifying by PS -6.0% (-25.8%, 13.7%)
Matching by PS -7.8% (-13.7%, -1.8%) 0.58 (0.33, 1.04)
Weighting by PS -6.5% (-13.9%, 1.8%) 0.63 (0.34, 1.11)
Logistic regression adjusting for PS 0.65 (0.37, 1.13)

generelt gir tilbøyelighetsmetodene lignende resultater til den logistiske regresjonsmodellen. Dette er velkjent funn fra tidligere empiriske og simuleringsstudier .

Legg merke til det lille avviket i statistisk signifikans for Matchingsmetoden, hvor 95% konfidensintervall for oddsratio ble beregnet ved standardtilnærming og kan være for bredt.

Diskusjon

i avsnittene ovenfor er bruk av regresjonsjustering og tilbøyelighetsskår for analyse av observasjonsdata beskrevet og illustrert. Det er viktig å merke seg den uunngåelige begrensningen av observasjonsdata på behandlingseffekter sammenlignet med data fra en randomisert studie. Det vil si at metoder basert på regresjonsjustering eller tilbøyelighetsskår i observasjonsdata bare gjør at analysen kan balanseres over kjente kovariater, mens randomiseringsbalanser over kjente og ukjente kovariater.

ved bruk av analyse av tilbøyelighetsscore er det viktig å kontrollere at viktige prognostiske faktorer balanseres av tilbøyelighetsscoren – uten balanse mislykkes den underliggende teorien. Men hvis det er et stort antall prediktorer, kan det ikke være rimelig å forvente perfekt balanse på hver enkelt, på samme måte som i EN RCT vil en sammenligning av baseline faktorer av og til finne forskjeller mellom grupper ved en tilfeldighet.

siden tilbøyelighetspoengene må balansere fordelingen av forklaringsvariabler mellom grupper, må modellen noen ganger ikke bare inkludere hovedeffekter, men også interaksjonsbetingelser mellom forklaringsvariabler. Heldigvis er modellen som brukes til å estimere tilbøyelighetspoengene vanligvis ikke fokus for oppmerksomhet, og derfor trenger den ikke å være parsimonious – den trenger bare å tillate balanse. Austin et al. gjennomført en stor simuleringsstudie og viste at de viktigste variablene som skal inkluderes i en tilbøyelighet score modell (og for å sikre balanse over) er de forklaringsvariablene knyttet til utfallet av interesse. På den annen side er det ikke nødvendig å inkludere variabler som er knyttet til behandlingsoppgave, men ikke knyttet til utfallet.

en situasjon som er spesielt egnet for en tilnærming til tilbøyelighet, er når utfallet av interesse er sjeldent, men behandlingen er vanlig . En vanlig tommelfingerregel er at 10 hendelser skal observeres for hver (nivå av a) prognostisk variabel inkludert i en multivariabel logistisk regresjonsmodell) – mens det kan være tilstrekkelig data til å konstruere en god modell for tilbøyelighetsskår. I dette tilfellet kan justering ved hjelp av tilbøyelighet score være den eneste levedyktige tilnærming til analyse.

en potensiell fordel med tilbøyelighetsscore-metoder over regresjonsjustering er at det kan være lettere å verifisere at tilbøyelighetsscore har balansert målte variabler mellom behandlede og ubehandlede individer, mens det er vanskeligere å bedømme om en regresjonsmodell er riktig spesifisert .

til Slutt er det viktig å merke seg at analyse av tilbøyelighetsscore anslår en annen behandlingseffekt enn regresjonsjustering. Propensity score analyse estimerer marginal effekt, mens regresjonsjustering estimerer betinget effekt . Den marginale behandlingseffekten tolkes på befolkningsnivå: hvordan vil behandlingen endre det totale antall utfall observert i befolkningen? Ved bruk av en logistisk regresjonsmodell er den betingede behandlingseffekten endringen i oddsen for utfallet for en person når den blir utsatt for behandling sammenlignet med å ikke motta behandling, betinget av individets forklaringsvariabler-dvs. den betingede effekten tolkes på individnivå. Et numerisk eksempel på denne effekten er gitt i følgende tabell, hvor en sykdom rammer 13.200 individer. De fleste av individene regnes som ‘lav risiko’, mens et lite antall er ‘høy risiko’, med dødelighet på henholdsvis 5% og 25% under den gamle behandlingen. En ny svært effektiv behandling vil redusere oddsen for død med 80% (den betingede odds ratio er 0,2), men odds ratio på befolkningsnivå er ikke 0,2:

Risikogruppe n Gammel behandling ny behandling rel. Risk Odds Ratio
High risk 1200 300 (25%) 75 (6.25%) 0.250 0.200
Low risk 12000 600 (5%) 125 (1.04%) 0.208 0.200
Total 13200 900 (6.8%) 200 (1.52%) 0.222 0.210

  1. Rosenbaum PR, Rubin DB. Den sentrale rollen til tilbøyelighet score i observasjonsstudier for kausale effekter. Biometrika, 1983; 70: 41-55. .
  2. Baser O. For Mye Ståhei om Tilbøyelighet Score Modeller? Sammenligne Metoder For Tilbøyelighet Score Matching. Verdi I Helse, 2006;9(6):377-85..
  3. Rosenbaum PR. Modellbasert direkte justering. Tidsskrift For Den Norske Legeforening, 1987; 82:387-94. .
  4. Shah BR, Laupacis A, Hux JE, Austin PC. Tilbøyelighet score metoder ga lignende resultater til tradisjonell regresjon modellering i observasjonsstudier: en systematisk oversikt. Tidsskrift For Rettsvitenskap, 2005;58(6):550-9..
  5. Austin PC, Grootendorst P, Anderson GM. En sammenligning av evnen til ulike tilbøyelighet score modeller for å balansere målte variabler mellom behandlede og ubehandlede fag: En Monte Carlo studie. Statistikk I Medisin, 2007; 26(4):734-53..
  6. Braitman LE, Rosenbaum PR. Sjeldne utfall, vanlige behandlinger: analytiske strategier ved hjelp av tilbøyelighet score . Annals Of Internal Medicine, 2002; 137:693-5. .
  7. Wang J, Donnan PT. Tilbøyelighet score metoder i narkotika sikkerhet studier: praksis, styrker og begrensninger. Farmakoepidemiologi Og Narkotikasikkerhet, 2001; 10(4):341-4. .
  8. Austin PC, Grootendorst P, Normand SL, Anderson GM. Kondisjonering på tilbøyelighet score kan resultere i partisk estimering av vanlige tiltak av behandlingseffekt: En Monte Carlo studie. Statistikk I Medisin, 2007; 26(4):754-68..

Videre lesing

  • Austin PC. En kritisk vurdering av tilbøyelighet-score matching i medisinsk litteratur mellom 1996 og 2003. Statistikk I Medisin, 2008(i pressen)..
  • D ‘ Agostino RB Jr. Tilbøyelighet score metoder for bias reduksjon i sammenligning av en behandling til en ikke-randomisert kontrollgruppe. Statistikki Medisin, 1998; 17(19):2265-81..
  • Imbens GW. Rollen til tilbøyelighet score i estimering av dose-respons funksjoner. Biometrika, 2000; 87(3):706-10..
  • Rosenbaum PR, Rubin DB. Redusere bias i observasjonsstudier ved hjelp av sub-klassifisering på tilbøyelighet score. Tidsskrift For rettsvitenskap, 1984; 79(387):516-24..
  • Winkelmayer WC, Kurth T. Tilbøyelighet score: hjelp eller hype? Nephrology Dialysetransplantasjon, 2004; 19:1671-3..

Takk til Eric Lau For å bidra til å utvikle illustrerende eksempel.
Creative Commons-Lisens Dette verk er lisensieret under En Creative Commons Navngivelse 3.0 Unported Lisens. Den ble skrevet Av Ben Cowling
Denne siden ble sist endret på
Gyldig HTML 4.01 Streng