Articles

tilbøjelighed Score analyse

baggrund

ved estimering af behandlingseffekter på et binært resultat i observationsstudier er det ofte tilfældet, at behandlinger ikke blev tilfældigt tildelt forsøgspersoner. Hvis for eksempel syge patienter ofte blev tildelt behandling, mens sundere patienter ofte ikke blev behandlet, kan en simpel analyse fejlagtigt estimere graden eller retningen af en behandlingseffekt.

en almindelig måde at forsøge at justere for den potentielle bias på grund af denne form for forvirring er ved brug af multivariable logistiske regressionsmodeller. En alternativ tilgang er brugen af tilbøjelighed score analyse. I de følgende afsnit giver vi et lille eksempel datasæt, og derefter beskrive og illustrere disse alternative metoder til statistisk analyse. Vi fokuserer på det enkleste eksempel, hvor patienter får tildelt enten aktiv behandling eller kontrol (dvs.2 grupper). I slutningen nævner vi kort mulige udvidelser til tre eller flere behandlingsgrupper.

eksempeldata

følgende eksempel datasæt vil blive brugt til at illustrere de grundlæggende begreber. Dataene inkluderer 400 forsøgspersoner inkluderet i en retrospektiv kohortestudie af mænd i alderen 40-70 indlagt på hospital med mistanke om myokardieinfarkt. Resultatet af interesse er 30-dages dødelighed (død=1). Af interesse er den mulige virkning af hurtig administration af et nyere koagulationsbustende lægemiddel (trt=1) versus en standardterapi (trt=0) på risikoen for dødelighed. Relevante kovariater er en allerede eksisterende risikofaktorscore (på en skala fra 0 til 5, hvor 5 er værst) og en score for sværhedsgrad ved optagelse (på en skala fra 0 til 10, hvor 10 er værst). Her er dataene for de første 12 emner:

age male risk severity trt death
48 1 3 8 0 0
59 1 4 6 1 0
67 1 3 6 0 1
51 1 0 6 0 0
56 1 1 6 1 0
60 1 1 6 0 0
53 1 0 3 1 0
54 1 1 2 0 0
54 1 2 7 0 0
62 1 0 4 0 0
64 1 2 6 1 1
70 1 3 8 1 0

dataene kan også hentes som tilbøjelighed.CSV eller kaldes direkte i R ved hjælp af kommandoen:
example <- read.csv("http://web.hku.hk/~bcowling/data/propensity.csv", header=TRUE)

et ledsagende r-script til at køre alle følgende analyser kan findes her: tilbøjelighed.R.

beskrivende analyse

i alt 192 (48%) patienter modtog den nye behandling (trt=1). 30-dages dødelighed for behandlede og ubehandlede patienter er opsummeret i følgende tabel:

resultat trt=0 trt=1
overlevede 168 162
døde 40 30
30-dages dødelighed 19% 16%

en måde at undersøge den potentielle behandlingseffekt på er med et skøn over forskellen i risiko mellem de to grupper. Den relative risiko for dødelighed forbundet med behandling 1 er 0,375/0,40, hvilket er 0,81, hvilket tyder på en lille fordel for den nyere behandling.

en anden måde at estimere behandlingseffekten på kan være at beregne oddsforholdet snarere end den relative risiko. Oddsforholdet er (168h30) / (162h40), hvilket er 0,78, og et 95% konfidensinterval kan beregnes som (0,46, 1,31).

en tredje måde at estimere behandlingseffekten på er at se på den absolutte reduktion i dødeligheden. Her er ændringen forbundet med behandling 1 -3,6% (fra 19,2% til 15,6%) og et 95% konfidensinterval er (-11.5%, 4,3%) dvs. så meget som en reduktion på 12% eller en stigning på 4% i dødeligheden.

de følgende to plots viser imidlertid, at forsøgspersoner, der fik den nyere behandling, var lidt ældre end dem, der fik standardterapien:

plot of age vs trt

yderligere undersøgelse afslører, at der også synes at være forskelle i risikofaktorer og nuværende tilstand mellem de to behandlingsgrupper:

plot af alder vs risiko
plot af alder vs sværhedsgrad

formel sammenligning af fordelingerne af disse forklarende variabler på tværs af de to behandlingsgrupper afslører, at forskellene i alder (t-test, ppp

logistisk regression

Multivariable modeller bruges ofte til at vurdere behandlingseffekten mens justering for vigtige forklarende variabler. Justering for vigtige forklarende variabler er nødvendig for at sikre sammenlignelighed mellem behandlings-og kontrolgrupperne, og hvis justeringen ikke udføres, kan forskellene mellem grupper føre til partiske skøn over behandlingseffekten.

nedenstående tabel viser det rå odds-forhold for behandling, derefter effekten justeret for andre forklarende variabler. Sammenligning af Akaike-Informationskriteriet for hver model antyder, at risikoscore og alvorlighedsindeks ikke forbedrer tilpasningen væsentligt, dvs.Model 2 kan foretrækkes frem for Model 3. Der er et forslag om en behandlingsfordel (dog ikke statistisk signifikant) og også tilsyneladende forvirring efter alder som mistænkt af de beskrivende analyser ovenfor.

estimaterne fra en model, der antager lineære effekter af kovariater, ligner meget Model 3 (resultater ikke vist).

faktor n Model 1 Model 2 Model 3
eller 95% CI eller 95% CI 95% CI
behandling 0 208 1.00 1. 00 1. 00
behandling 1 192 0, 78 (0, 46; 1, 31) 0.67 (0.39, 1.15) 0.62 (0.35, 1.11)
Age 40-49 95 1.00
Age 50-59 131 1.72 (0.77, 3.82) 1.26 (0.52, 3.01)
Age 60-70 175 2.62 (1.23, 5.62) 2.03 (0.84, 4.95)
Risk score 0 112 1.00
Risk score 1 103 3.06 (1.34, 6.97)
Risk score 2-3 132 1.33 (0.54, 3.28)
Risk score 4-5 53 2.64 (0.95, 7.35)
Severity index 0-3 108 1.00
Severity index 4 69 1.29 (0.56, 2.96)
Severity index 5 80 0.78 (0.33, 1.87)
Severity index 6 56 1.28 (0.53, 3.08)
Severity index 7-10 87 1.43 (0.65, 3.16)
AIC 374 371 371

For completeness we could also use a non-linear regression model to check the shape of the effects of age, pre-existing risk and severity in the fully adjusted model. Det ledsagende r-script indeholder koden til at estimere og plotte de tilsvarende spline-funktioner, og vi viser ikke disse her; vi bemærker, at virkningerne var ret lineære.

tilbøjelighed score analyse

en alternativ tilgang til analysen er at forsøge at efterligne betingelserne for et randomiseret kontrolleret forsøg (RCT). I en RCT er sandsynligheden for, at en deltager modtager en bestemt behandling, den samme for alle deltagere eller afhænger i stratificeret design kun af de kendte forklarende variabler for en patient som alder, køn osv. Med andre ord en patients alder, køn (osv.) er tilstrækkelig information til at fortælle os patientens Sandsynlighed for at modtage behandlingen.

hvis vi i en observationsundersøgelsesindstilling havde alle de oplysninger, der var tilgængelige for sundhedspersonalet, der tildelte behandling til forsøgspersoner, skulle vi være i stand til at genskabe deres beslutningsproces og estimere sandsynligheden for, at individuelle patienter modtog behandlingen. Denne sandsynlighed kaldes tilbøjelighedsscore, og i deres sædvanlige 1983-papir viste Rosenbaum og Rubin, at så længe tilbøjelighedsscore er et passende mål for sandsynligheden for at modtage behandling, kan scorerne bruges til at hjælpe med at estimere årsagseffekterne af behandlingen. Scorerne bruges til afbalancerede prognostiske variabler på tværs af behandlede og ubehandlede grupper, og der er (mindst) fire mulige måder at gøre dette på:

  • stratificere patienter i grupper (f.eks.
  • Match behandlede og ubehandlede patienter og sammenlign resulterende matchede par.
  • omvendt vægtning af resultater ved tilbøjelighed score.
  • Juster for tilbøjelighedsscore i en logistisk regressionsmodel.

5.1 estimering af tilbøjelighedsscore

tilbøjelighedsscore er den betingede sandsynlighed for, at et emne vil blive behandlet i betragtning af de observerede forklarende variabler; hensigten er, at denne enkelt sandsynlighed kan opsummere informationen om mekanismen for behandlingsopgave. Vi skulle derefter være i stand til at opnå upartiske skøn over behandlingseffekter ved at sammenligne forsøgspersoner, der havde lignende sandsynligheder for at modtage en behandling (uanset om de faktisk modtog den eller ej).Tilbøjelighedsscore estimeres typisk ved hjælp af en multivariabel logistisk regressionsmodel.

i vores eksempel monterede vi en logistisk regressionsmodel til at estimere virkningerne af alder, risikoscore og alvorlighedsindeks på sandsynligheden for at modtage behandling 1 snarere end behandling 0. Vi finder ud af, at ældre alder (p=0,05), højere risikoscore (p=0,05) og højere alvorlighedsindeks (p=0.01) er alle forbundet med en højere sandsynlighed for at modtage behandling 1. Tilbøjelighedsscore varierer fra 0,2 til 0,8, og vi sammenligner fordelingen af score mellem de to behandlingsgrupper i nedenstående figur. Søjlerne viser median-og kvartilområdet.

sammenligning af fordelingen af tilbøjelighedsscore inden for hver behandlingsgruppe

som forventet er tilbøjelighedsscore (dvs.sandsynligheden for at modtage behandling) i gennemsnit lidt højere i behandlingsgruppen. Vi kan se, at der er en god grad af overlapning, hvor vi kan finde individer i begge behandlingsgrupper for enhver tilbøjelighed score mellem 0,2 og 0,8. Dette er vigtigt, fordi det væsentlige princip for tilbøjelighed score analyse er, at hvis vi finder to individer, en i hver behandlingsgruppe, kan vi forestille os, at disse to individer blev ’tilfældigt’ tildelt hver gruppe i den forstand, at begge tildelinger var lige sandsynlige.

5.2 balancerer tilbøjelighed score grupperne?

i enhver tilbøjelighed score analyse bør vi kontrollere, om propensityscore giver os mulighed for at afbalancere fordelingen af forklarende variabler. Der er mange måder at kontrollere balance på ; for eksempel kunne vi se på fordelingen af en forklarende variabel inden for kvintilerne i tilbøjelighedsscore. I figuren nedenfor tegner vi median-og interkvartilintervaller for alder i hver tilbøjelighed score kvintil:

Median alder (IKR) ved tilbøjelighed score kvintiler

uden justering (samlet) er der betydelig uoverensstemmelse. Men inden for hver kun, distributionerne er meget tæt afstemt.

Vi kan kvantificere de indledende forskelle ved at beregne to-samplet-statistikken (dvs.en t-test for forskelle i alder efter behandlingsgruppe). Dette svarer til at finde T-statistikken til behandling fra en lineær regressionsmodel (eller ANOVA) for alder versus behandlingsgruppe. Vi kan yderligere måle forskellene efter justering for tilbøjelighedsscore ved at beregne t-statistikken til behandling fra en multivariabel lineær regressionsmodel (eller ANOVA) til aldersjustering til behandling samt justering for kvintilerne i tilbøjelighedsscore. De ujusterede (fyldte cirkler) og justerede (åbne cirkler) t-statistikker er præsenteret i nedenstående figur:

absolut t-statistik før (fyldte cirkler) og efter (åbne cirkler)justering for tilbøjelighedsscore

Vi kan se, at tilpasningen af tilbøjelighedsscore fjerner næsten alle de indledende forskelle i alder, risikoscore og alvorlighedsindeks mellem de to behandlingsgrupper.

5.3 dødelighed inden for tilbøjelighed score kvintiler

Vi fandt tidligere, at kovariater er afbalanceret inden for kvintiler af tilbøjelighed score. Rosenbaum og Rubin viste, at den gennemsnitlige behandlingseffekt inden for tilbøjelighed score strata er et upartisk skøn over den sande behandlingseffekt (forudsat at nogle antagelser holder). Vi plotter 30-dages dødelighed (med 95% konfidensintervaller) efter behandlingsgruppe i hver tilbøjelighed score kvintil, nedenfor:

sammenligning af dødeligheden inden for tilbøjelighed score kvintiler

dødeligheden var generelt lavere i gruppen givet behandling 1 (Blå) end i gruppen givet behandling 0 (rød), undtagen i 3.kvartal, hvor satser var ens. Der er dog ingen stærke beviser for, at behandlingseffekterne varierer på tværs af tilbøjelighedsscore.

Vi kan beregne forskellen i dødelighed mellem behandlingsgrupper i hver kvintil og udlede den gennemsnitlige behandlingseffekt som det vægtede gennemsnit på tværs af kvintilerne. Figuren nedenfor viser den absolutte reduktion i dødelighed for behandling 1 versus behandling 0 og det vægtede gennemsnit med 95% konfidensintervaller:

sammenligning af dødeligheden inden for tilbøjelighed score kvintiler

samlet set var der en 6% absolut reduktion i 30-dages dødelighed for behandling 1 sammenlignet med behandling 0 med et ret bredt konfidensinterval.

5.4 dødelighed mellem matchede par individer

en alternativ tilgang er at finde par forsøgspersoner, en i hver behandlingsgruppe, med meget lignende tilbøjelighedsscore. Ved definitionen af tilbøjelighedsscore bør to emner med lignende tilbøjelighedsscore også være ens på alle vigtige kovariater. Denne matchningsprocedure er beregningsmæssigt enklere end samtidig matchning på alle vigtige kovariater.

Ved hjælp af en matchende algoritme i eksempeldataene finder vi 177 matchende par (dvs.354 individer) ud af de oprindelige 400 emner. Vi kunne kontrollere, at den matchende algoritme har opnået balance mellem grupperne ved at sammenligne fordelingen af kovariater mellem de to behandlingsgrupper blandt de matchede par. I den matchede delmængde var der 23 dødsfald i gruppen med behandling 1 og 36 dødsfald i gruppen med behandling 0, hvilket er en statistisk signifikant absolut reduktion på 7,8% (95% konfidensinterval: -13,7%, -1,8%).

5.5 invers vægtning efter tilbøjelighedsscore

Rosenbaum beskriver en alternativ anvendelse af tilbøjelighedsscore som en vægtningsfaktor. Uden at gå nærmere ind på afledningen viser han, at den forventede dødelighed, hvis alle forsøgspersoner blev tildelt behandlingsgruppe 1 i stedet for gruppe 0, er lig med E(YT/p), hvor Y er resultatvariablen, T er behandlingsgruppen, og p er tilbøjelighedsscore for at blive tildelt behandlingsgruppe 1. Tilsvarende er den forventede dødelighed, hvis alle individer er tildelt behandlingsgruppe 0, givet af E(Y(1-T)/(1-p)). Den gennemsnitlige årsagseffekt er derefter forskellen mellem disse to forventede dødelighed.

Ved hjælp af tilbøjelighedsscore som vægte estimerede vi, at behandling 1 var forbundet med en absolut reduktion på 6,5% (95% konfidensinterval: -13,9%, 1,8%) versus behandling 0.

5.6 logistisk regressionsjustering for tilbøjelighedsscore

Vi estimerede effekten af behandling 1 vs behandling 0 i en logistisk regressionsmodel, der justerede for tilbøjelighedsscore (i kvintiler). Oddsforholdet for behandling 1 blev estimeret til 0,65 (95% konfidensinterval: 0,37; 1,13). Vi fandt et lignende estimeret oddsforhold, da vi tilføjede de originale forklarende variabler til modellen (dvs. justeret for tilbøjelighedsscore, alder, risiko og sværhedsgrad).

sammenfatning af resultater

den observerede dødelighed på 30 dage var 19% i den gruppe, der fik behandling 0, og 16% i den gruppe, der fik behandling 1. En sammenligning af estimater fra de forskellige statistiske metoder er angivet i nedenstående tabel.

tilgang absolut forskel Odds ratio
skøn 95% CI skøn 95% CI
ingen justering -3,6% (-11.5%, 4.3%) 0,78 (0,46; 1,31)
logistisk regressionsjustering for alder, risikoscore og alvorlighedsindeks 0,62 (0, 35, 1.11)
Stratifying by PS -6.0% (-25.8%, 13.7%)
Matching by PS -7.8% (-13.7%, -1.8%) 0.58 (0.33, 1.04)
Weighting by PS -6.5% (-13.9%, 1.8%) 0.63 (0.34, 1.11)
Logistic regression adjusting for PS 0.65 (0.37, 1.13)

generelt giver tilbøjelighed score metoder lignende resultater til den logistiske regressionsmodel. Dette er velkendt fund fra tidligere empiriske og simuleringsundersøgelser .

bemærk den lille uoverensstemmelse i statistisk signifikans for Matchningsmetoden, hvor 95% konfidensintervallet for oddsforholdet blev beregnet ved standardtilnærmelsen og kan være for bredt.

Diskussion

i afsnittene ovenfor er brugen af regressionsjustering og tilbøjelighedsresultater til analyse af observationsdata blevet beskrevet og illustreret. Det er vigtigt at bemærke den uundgåelige begrænsning af observationsdata om behandlingseffekter sammenlignet med data fra et randomiseret forsøg. Det vil sige, metoder baseret på regressionsjustering eller tilbøjelighedsscore i observationsdata tillader kun analysen at blive afbalanceret over kendte kovariater, mens randomisering balancerer over kendte og ukendte kovariater.

når du bruger tilbøjelighed score analyse, er det vigtigt at kontrollere, at vigtige prognostiske faktorer er afbalanceret af tilbøjelighed score – uden balance, den underliggende teori mislykkes. Men hvis der er et stort antal forudsigere, er det måske ikke rimeligt at forvente perfekt balance på hver enkelt, på samme måde som i en RCT en sammenligning af basisfaktorer lejlighedsvis vil finde forskelle mellem grupper ved en tilfældighed.

da tilbøjelighedsscore skal afbalancere fordelingen af forklarende variabler mellem grupper, skal modellen undertiden ikke kun omfatte hovedeffekter, men også interaktionsvilkår mellem forklarende variabler. Heldigvis er modellen, der bruges til at estimere tilbøjelighedsscore, normalt ikke fokus for opmærksomhed, og derfor behøver den ikke at være parsimonious – den behøver kun at tillade balance. Austin et al. gennemført en stor simuleringsundersøgelse og viste, at de vigtigste variabler, der skal medtages i en tilbøjelighedsscore-model (og for at sikre balance over), er de forklarende variabler, der er forbundet med resultatet af interesse. På den anden side er det ikke vigtigt at medtage variabler, der er forbundet med behandlingsopgave, men ikke forbundet med resultatet.

en situation, der er særlig velegnet til en tilbøjelighedsscore-tilgang, er, når resultatet af interesse er sjældent, men behandlingen er almindelig . I denne situation er der muligvis ikke meget data til at modellere forholdet mellem resultatet og de prognostiske variabler – en almindelig tommelfingerregel er, at der skal observeres 10 begivenheder for hvert (niveau af a) prognostisk variabel inkluderet i en multivariabel logistisk regressionsmodel) – mens der kan være tilstrækkelige data til at konstruere en god model til tilbøjelighedsscore. I dette tilfælde kan justering ved hjælp af tilbøjelighedsscore være den eneste levedygtige tilgang til analyse.

en potentiel fordel ved tilbøjelighedsscore-metoder i forhold til regressionsjustering er, at det kan være lettere at kontrollere, at tilbøjelighedsscore har afbalancerede målte variabler mellem behandlede og ubehandlede forsøgspersoner, mens det er vanskeligere at bedømme, om en regressionsmodel er korrekt specificeret .

endelig er det vigtigt at bemærke, at tilbøjelighed score analyse estimerer en anden behandlingseffekt til regressionsjustering. Tilbøjelighed score analyse estimerer den marginale effekt, mens regressionsjustering estimerer den betingede effekt . Den marginale behandlingseffekt fortolkes på befolkningsniveau: hvordan ville behandlingen ændre sigDet samlede antal resultater observeret i befolkningen? Når man bruger en logistisk regressionsmodel, er den betingede behandlingseffekt ændringen i Oddsene for resultatet for et individ, når det udsættes for behandling sammenlignet med at modtage ingen behandling, betinget af individets forklarende variabler – dvs.den betingede effekt fortolkes på individuelt niveau. Et numerisk eksempel på denne effekt er givet i den følgende tabel, hvor en sygdom rammer 13.200 individer. De fleste af individerne betragtes som ‘lav risiko’, mens et lille antal er ‘høj risiko’ med dødelighed på henholdsvis 5% og 25% under den gamle behandling. En ny meget effektiv behandling vil reducere oddsene for død med 80% (det betingede oddsforhold er 0,2), men oddsforholdet på befolkningsniveau er ikke 0,2:

risikogruppe n gammel behandling ny behandling rel. Risk Odds Ratio
High risk 1200 300 (25%) 75 (6.25%) 0.250 0.200
Low risk 12000 600 (5%) 125 (1.04%) 0.208 0.200
Total 13200 900 (6.8%) 200 (1.52%) 0.222 0.210

  1. Rosenbaum PR, Rubin DB. Den centrale rolle tilbøjelighed score i observationsstudier for kausale virkninger. Biometrika, 1983; 70: 41-55. .
  2. Baser O. For Meget Ado Om tilbøjelighed Score modeller? Sammenligning af metoder til matchning af tilbøjelighed. Værdi i sundhed, 2006;9(6):377-85..
  3. Rosenbaum PR. Modelbaseret direkte justering. Tidsskrift for American Statistical Association, 1987; 82:387-94. .
  4. Shah BR, Laupacis A, je je, Austin PC. Tilbøjelighed score metoder gav lignende resultater til traditionel regressionsmodellering i observationsstudier: en systematisk gennemgang. Tidsskrift for klinisk epidemiologi, 2005;58(6):550-9..
  5. Austin PC, Grootendorst P, Anderson GM. En sammenligning af evnen hos forskellige tilbøjelighedsscore-modeller til at afbalancere målte variabler mellem behandlede og ubehandlede forsøgspersoner: en Monte Carlo-undersøgelse. Statistik i medicin, 2007; 26(4):734-53..
  6. Braitman LE, Rosenbaum PR. Sjældne resultater, almindelige behandlinger: analytiske strategier ved hjælp af tilbøjelighedsscore . Annaler for Intern Medicin, 2002; 137:693-5. .
  7. Vang J, Donnan PT. Tilstrækkelighedsscore metoder i lægemiddelsikkerhedsundersøgelser: praksis, styrker og begrænsninger. Farmakoepidemiologi og lægemiddelsikkerhed, 2001; 10(4):341-4. .
  8. Austin PC, Grootendorst P, Normand SL, Anderson GM. Konditionering af tilbøjelighedsscore kan resultere i forudindtaget estimering af almindelige mål for behandlingseffekt: en Monte Carlo-undersøgelse. Statistik i medicin, 2007; 26(4):754-68..

yderligere læsning

  • Austin PC. En kritisk vurdering af tilbøjelighed-score matching i den medicinske litteratur mellem 1996 og 2003. Statistik i medicin, 2008 (i pressen)..D ‘ Agostino RB Jr. tilbøjelighed score metoder til bias reduktion isammenligning af en behandling til en ikke-randomiseret kontrolgruppe. Statistiki Medicin, 1998; 17(19):2265-81..
  • Imbens GV. Tilbøjelighedsscore ‘ s rolle i estimering af dosisresponsfunktioner. Biometrika, 2000; 87(3):706-10..
  • Rosenbaum PR, Rubin DB. Reduktion af bias i observationsstudier ved hjælp af underklassificering på tilbøjelighedsscore. Tidsskrift for American Statistical Association, 1984; 79(387):516-24..
  • H. Tilstrækkelighedsresultater: hjælp eller hype?Nefrologisk Dialysetransplantation, 2004; 19:1671-3..

anerkendelser

tak til Eric Lau for at hjælpe med at udvikle det illustrative eksempel.

Creative Commons Licensedette værk er licenseret under en Creative Commons Attribution 3.0 Unported Licens. Det blev skrevet af Ben kutter
denne side blev sidst ændret den
gyldig HTML 4.01 streng