Articles

Propensity Score Analysis

Bakgrund

vid uppskattning av behandlingseffekter på ett binärt resultat i observationsstudier är det ofta fallet att behandlingar inte slumpmässigt tilldelades ämnen. Om till exempel sjukare patienter ofta tilldelades behandling medan friskare patienter ofta inte behandlades, kan en enkel analys felaktigt uppskatta graden eller riktningen av en behandlingseffekt.

ett vanligt sätt att försöka justera för den potentiella bias på grund av denna typ av confounding är genom användning av multivariabla logistiska regressionsmodeller. Ett alternativt tillvägagångssätt är användningen av benägenhetsanalys. I följande avsnitt ger vi ett litet exempel dataset, och sedan beskriva och illustrera dessa alternativa metoder för statistisk analys. Vi fokuserar på det enklaste exemplet där patienter tilldelas antingen aktiv behandling eller kontroll (dvs. 2 grupper). I slutet nämner vi kort möjliga förlängningar till tre eller flera behandlingsgrupper.

exempeldata

följande exempeldataset kommer att användas för att illustrera de grundläggande begreppen. Uppgifterna inkluderar 400 personer som ingår i en retrospektiv kohortstudie av män i åldern 40-70 inlagda på sjukhus med misstänkt hjärtinfarkt. Resultatet av intresse är 30-dagars dödlighet (död=1). Av intresse är den möjliga effekten av snabb administrering av ett nyare koagelbrytande läkemedel (trt=1) jämfört med en standardterapi (trt=0) på risken för dödlighet. Relevanta kovariater är en befintlig riskfaktorpoäng (på en skala från 0 till 5, 5 är värst) och en upptagningsgrad (på en skala från 0 till 10, 10 är värst). Här är uppgifterna för de första 12 ämnena:

age male risk severity trt death
48 1 3 8 0 0
59 1 4 6 1 0
67 1 3 6 0 1
51 1 0 6 0 0
56 1 1 6 1 0
60 1 1 6 0 0
53 1 0 3 1 0
54 1 1 2 0 0
54 1 2 7 0 0
62 1 0 4 0 0
64 1 2 6 1 1
70 1 3 8 1 0

data kan också laddas ner som benägenhet.CSV eller kallas direkt i R med kommandot:
example <- read.csv("http://web.hku.hk/~bcowling/data/propensity.csv", header=TRUE)

ett medföljande r-skript för att köra alla följande analyser kan hittas här: benägenhet.R.

beskrivande analys

totalt fick 192 (48%) patienter den nya behandlingen (trt=1). Dödligheten på 30 dagar för behandlade och obehandlade patienter sammanfattas i följande tabell:

resultat trt=0 trt=1
överlevde 168 162
dog 40 30
30-dagars dödlighet 19% 16%

ett sätt att undersöka den potentiella behandlingseffekten är med en uppskattning av skillnaden i risk mellan de två grupperna. Den relativa risken för dödlighet i samband med behandling 1 är 0,375/0,40, vilket är 0,81, vilket tyder på en liten fördel för den nyare behandlingen.

ett annat sätt att uppskatta behandlingseffekten kan vara att beräkna oddsförhållandet snarare än den relativa risken. Oddsförhållandet är (168×30) / (162×40), vilket är 0,78, och ett 95% konfidensintervall kan beräknas som (0,46, 1,31).

ett tredje sätt att uppskatta behandlingseffekten är att titta på den absoluta minskningen av dödligheten. Här är förändringen i samband med behandling 1 -3,6% (från 19,2% till 15,6%) och ett 95% konfidensintervall är (-11.5%, 4,3%) dvs. så mycket som en minskning med 12% eller en ökning av dödligheten med 4%.

följande två tomter visar emellertid att försökspersoner som fick den nyare behandlingen var något äldre än de som fick standardterapin:

plot of age vs trt

ytterligare undersökning visar att det också verkar finnas skillnader i riskfaktorer och nuvarande tillstånd mellan de två behandlingsgrupperna:

plot av ålder vs risk
plot av ålder vs svårighetsgrad

formell jämförelse av fördelningarna av dessa förklarande variabler över de två behandlingsgrupperna avslöjar att skillnaderna i ålder (t-test, PPP

logistisk regression

multivariabla modeller används ofta för att bedöma behandlingseffekten medan justering för viktiga förklarande variabler. Justering för viktiga förklarande variabler är nödvändig för att säkerställa jämförbarhet mellan behandlings-och kontrollgrupperna, och om justeringen inte utförs kan skillnaderna mellan grupperna leda till fördjupade uppskattningar av behandlingseffekten.

tabellen nedan visar det råa oddsförhållandet för behandling, sedan effekten justerad för andra förklarande variabler. Jämförelse av Akaike-Informationskriteriet för varje modell tyder på att riskpoäng och svårighetsindex inte förbättrar passformen avsevärt, dvs. Modell 2 kan föredras framför modell 3. Det finns ett förslag på en behandlingsfördel (men inte statistiskt signifikant), och också uppenbar förvirring efter ålder som misstänks av de beskrivande analyserna ovan.uppskattningarna från en modell som antar linjära effekter av kovariater är mycket lik modell 3 (resultat visas inte).

faktor n Modell 1 Modell 2 modell 3
eller 95% CI eller 95% CI
behandling 0 208 1.00 1.00
behandling 1 192 0.78 (0,46, 1,31) 0.67 (0.39, 1.15) 0.62 (0.35, 1.11)
Age 40-49 95 1.00
Age 50-59 131 1.72 (0.77, 3.82) 1.26 (0.52, 3.01)
Age 60-70 175 2.62 (1.23, 5.62) 2.03 (0.84, 4.95)
Risk score 0 112 1.00
Risk score 1 103 3.06 (1.34, 6.97)
Risk score 2-3 132 1.33 (0.54, 3.28)
Risk score 4-5 53 2.64 (0.95, 7.35)
Severity index 0-3 108 1.00
Severity index 4 69 1.29 (0.56, 2.96)
Severity index 5 80 0.78 (0.33, 1.87)
Severity index 6 56 1.28 (0.53, 3.08)
Severity index 7-10 87 1.43 (0.65, 3.16)
AIC 374 371 371

For completeness we could also use a non-linear regression model to check the shape of the effects of age, pre-existing risk and severity in the fully adjusted model. Det medföljande r-skriptet innehåller koden för att uppskatta och plotta motsvarande spline-funktioner och vi visar inte dessa här; vi noterar att effekterna var ganska linjära.

Benägenhetsanalys

ett alternativt tillvägagångssätt för analysen är att försöka efterlikna villkoren för en randomiserad kontrollerad studie (RCT). I en RCT är sannolikheten för att en deltagare får en viss behandling densamma för alla deltagare eller, i stratifierade mönster, beror endast på de kända förklarande variablerna hos en patient som ålder, kön etc. Med andra ord, patientens ålder ,kön (etc.) är tillräcklig information för att berätta patientens sannolikhet att få behandlingen.

Om vi i en observationsstudie hade all information tillgänglig för vårdpersonal som tilldelade behandling till ämnen, borde vi kunna återskapa sin beslutsprocess och uppskatta sannolikheten för att enskilda patienter fick behandlingen. Denna sannolikhet kallas benägenhetspoäng, och i deras seminal 1983-papper visade Rosenbaum och Rubin att så länge benägenhetspoäng är ett lämpligt mått på sannolikheten för att få behandling, kan poängen användas för att uppskatta orsakseffekterna av behandlingen. Poängen används för att balansera prognostiska variabler över behandlade och obehandlade grupper, och det finns (åtminstone) fyra möjliga sätt att göra detta:

  • stratifiera patienter i grupper (t.ex. kvintiler) med benägenhetspoäng och jämföra behandlingseffekter i varje lager.
  • matcha behandlade och obehandlade patienter och jämför resulterande matchade par.
  • invers viktning av resultat med benägenhetspoäng.
  • justera för benägenhetspoängen i en logistisk regressionsmodell.

5.1 uppskatta benägenhetspoängen

benägenhetspoängen är den villkorliga sannolikheten att ett ämne kommer att behandlas med tanke på de observerade förklarande variablerna; avsikten är att denna enda sannolikhet kan sammanfatta informationen om mekanismen för behandlingstilldelning. Vi borde då kunna få objektiva uppskattningar av behandlingseffekter genom att jämföra personer som hade liknande sannolikheter för att få en behandling (oavsett om de faktiskt fick det eller inte).

Benägenhetspoäng uppskattas vanligtvis med hjälp av en multivariabel logistisk regressionsmodell.

i vårt exempel monterade vi en logistisk regressionsmodell för att uppskatta effekterna av ålder, riskpoäng och svårighetsindex på sannolikheten för att få behandling 1 snarare än behandling 0. Vi finner att äldre ålder (p=0,05), högre riskpoäng (p=0,05) och högre svårighetsindex (p=0.01) är alla förknippade med en högre sannolikhet att få behandling 1. Benägenhetspoäng varierar från 0,2 till 0,8, och vi jämför fördelningen av poäng mellan de två behandlingsgrupperna i figuren nedan. Staplarna visar median-och interkvartilområdet.

jämförelse av fördelningen av benägenhetspoäng inom varje behandlingsgrupp

som förväntat är benägenhetspoängen (dvs. sannolikheten för att få behandling) i genomsnitt något högre i behandlingsgruppen. Vi kan se att det finns en bra grad av överlappning, där vi kan hitta individer i båda behandlingsgrupperna för eventuella benägenhetspoäng mellan 0,2 och 0,8. Detta är viktigt, eftersom den väsentliga principen för benägenhetsanalys är att om vi hittar två individer, en i varje behandlingsgrupp, kan vi föreställa oss att dessa två individer slumpmässigt tilldelades varje grupp i den meningen att antingen fördelningen är lika sannolik.

5.2 balanserar benägenhetspoängen grupperna?

i någon benägenhetsanalys bör vi kontrollera om propensityscore tillåter oss att balansera fördelningen av förklarande variabler. Det finns många sätt att kontrollera balans ; till exempel kunde vi titta på fördelningen av en förklarande variabel inom kvintilerna i benägenhetspoängen. I figuren nedan plottar vi median-och interkvartilintervallen för ålder i varje benägenhetspoäng kvintil:

medianålder (IQR) med benägenhetspoäng kvintiler

utan justering (totalt) finns det stor skillnad. Men inom varje quntil är fördelningarna mycket nära inriktade.

vi kan kvantifiera de initiala skillnaderna genom att beräkna tvåprovsstatistiken (dvs. ett t-test för skillnader i ålder per behandlingsgrupp). Detta motsvarar att hitta t-statistiken för behandling från en linjär regressionsmodell (eller ANOVA) för ålder kontra behandlingsgrupp. Vi kan ytterligare mäta skillnaderna efter justering för benägenhetspoäng, genom att beräkna t-statistiken för behandling från en multivariabel linjär regressionsmodell (eller ANOVA) för åldersjustering för behandling samt justering för kvintilerna i benägenhetspoäng. Den ojusterade (fyllda cirklar) och justerade (öppna cirklar) t-statistiken presenteras i figuren nedan:

absolut t-statistik före (fyllda cirklar)och efter (öppna cirklar) justering för benägenhetspoäng

Vi kan se att justeringen av benägenhetspoäng tar bort nästan alla initiala skillnader i ålder, riskpoäng och svårighetsindex mellan de två behandlingsgrupperna.

5.3 dödlighet inom benägenhetspoäng kvintiler

Vi fann tidigare att kovariater är balanserade inom kvintiler av benägenhetspoäng. Rosenbaum och Rubin visade att den genomsnittliga behandlingseffekten inom propensity score strata är en objektiv uppskattning av den sanna behandlingseffekten (förutsatt att vissa antaganden håller). Vi plottar 30-dagars dödlighet (med 95% konfidensintervall) per behandlingsgrupp i varje benägenhetspoäng kvintil, nedan:

jämförelse av dödligheten inom benägenhetspoäng kvintiler

dödligheten var generellt lägre i gruppen som fick behandling 1 (Blå) än de i gruppen som fick behandling 0 (röd), utom i Q3 där priserna var liknande. Det finns dock inga starka bevis för att behandlingseffekterna varierar över intervallet av benägenhetspoäng.

Vi kan beräkna skillnaden i dödlighet mellan behandlingsgrupper i varje kvintil och härleda den genomsnittliga behandlingseffekten som det viktade medelvärdet över kvintilerna. Figuren nedan visar den absoluta minskningen av dödligheten för behandling 1 jämfört med behandling 0 och det vägda medelvärdet med 95% konfidensintervall:

jämförelse av dödligheten inom benägenhetspoäng kvintiler

totalt sett var det en 6% absolut minskning av 30-dagars dödlighet för behandling 1 jämfört med behandling 0, med ett ganska brett konfidensintervall.

5.4 dödlighet mellan matchade par av individer

ett alternativt tillvägagångssätt är att hitta par av ämnen, en i varje behandlingsgrupp, med mycket liknande benägenhetspoäng. Enligt definitionen av benägenhetspoäng bör två ämnen med liknande benägenhetspoäng också vara lika på alla viktiga kovariater. Denna matchningsprocedur är beräkningsmässigt enklare än samtidig matchning på alla viktiga kovariater.

med hjälp av en matchningsalgoritm i exempeldata hittar vi 177 matchande par (dvs. 354 individer) av de ursprungliga 400 ämnena. Vi kunde kontrollera att matchningsalgoritmen har uppnått balans mellan grupperna genom att jämföra fördelningarna av kovariater mellan de två behandlingsgrupperna, bland de matchade paren. I den matchade delmängden fanns det 23 dödsfall i gruppen med behandling 1 och 36 dödsfall i gruppen med behandling 0, vilket är en statistiskt signifikant absolut minskning av 7, 8% (95% konfidensintervall: -13, 7%, -1, 8%).

5.5 invers viktning av benägenhetspoäng

Rosenbaum beskriver en alternativ användning av benägenhetspoängen som en viktningsfaktor. Utan att gå in på detaljer om härledningen visar han att den förväntade dödligheten om alla ämnentilldelades behandlingsgrupp 1 istället för grupp 0 är lika med E(YT/p), där Y är resultatvariabeln, T är behandlingsgruppen och p är benägenhetspoängen för att tilldelas behandlingsgrupp 1. På samma sätt ges den förväntade dödligheten om alla individer tilldelas behandlingsgrupp 0 Av E(Y(1-T)/(1-p)). Den genomsnittliga kausala effekten är då skillnaden mellan dessa två förväntade dödligheten.

med hjälp av benägenhetspoäng som vikter uppskattade vi att behandling 1 var associerad med en absolut minskning av 6,5% (95% konfidensintervall: -13,9%, 1,8%) jämfört med behandling 0.

5.6 logistisk regressionsjustering för benägenhetspoäng

vi uppskattade effekten av behandling 1 mot behandling 0 i en logistisk regressionsmodell som justerade för benägenhetspoäng (i kvintiler). Oddsförhållandet för behandling 1 uppskattades till 0,65 (95% konfidensintervall: 0,37, 1,13). Vi hittade ett liknande uppskattat oddskvot när vi lade till de ursprungliga förklarande variablerna till modellen (dvs. justerat för benägenhetspoäng, ålder, risk och svårighetsgrad).

sammanfattning av resultat

den observerade dödligheten på 30 dagar var 19% i gruppen som fick behandling 0 och 16% i gruppen som fick behandling 1. En jämförelse av uppskattningar från de olika statistiska metoderna ges i tabellen nedan.

tillvägagångssätt absolut skillnad oddskvot
uppskattning 95% CI uppskattning 95% CI
ingen justering -3,6% (-11.5%, 4.3%) 0,78 (0,46, 1,31)
logistisk regressionsjustering för ålder, riskpoäng och svårighetsindex 0,62 (0,35, 1.11)
Stratifying by PS -6.0% (-25.8%, 13.7%)
Matching by PS -7.8% (-13.7%, -1.8%) 0.58 (0.33, 1.04)
Weighting by PS -6.5% (-13.9%, 1.8%) 0.63 (0.34, 1.11)
Logistic regression adjusting for PS 0.65 (0.37, 1.13)

i allmänhet ger benägenhetspoäng metoder liknande resultat som den logistiska regressionsmodellen. Detta är välkänt resultat från tidigare empiriska och simuleringsstudier .

notera den lilla skillnaden i statistisk signifikans för matchningsmetoden, där 95% konfidensintervall för oddsförhållandet beräknades av standard approximationen och kan vara för bred.

diskussion

i avsnitten ovan har användningen av regressionsjustering och benägenhetspoäng för analys av observationsdata beskrivits och illustrerats. Det är viktigt att notera den oundvikliga begränsningen av observationsdata om behandlingseffekter jämfört med data från en randomiserad studie. Det vill säga metoder baserade på regressionsjustering eller benägenhetspoäng i observationsdata tillåter endast analysen att balanseras över kända kovariater, medan randomisering balanserar över kända och okända kovariater.

När man använder benägenhetsanalys är det viktigt att kontrollera att viktiga prognostiska faktorer balanseras av benägenhetsresultatet – utan balans misslyckas den underliggande teorin. Men om det finns ett stort antal prediktorer kan det inte vara rimligt att förvänta sig perfekt balans på var och en, på samma sätt som i en RCT en jämförelse av baslinjefaktorer ibland kommer att hitta skillnader mellan grupper av en slump.eftersom benägenhetspoäng måste balansera fördelningen av förklarande variabler mellan grupper, måste modellen ibland inkludera inte bara huvudeffekter utan också interaktionsvillkor mellan förklarande variabler. Lyckligtvis är modellen som används för att uppskatta benägenhetspoäng vanligtvis inte i fokus, och därför behöver den inte vara parsimonisk – den behöver bara tillåta balans. Austin et al. genomförde en stor simuleringsstudie och visade att de viktigaste variablerna att inkludera i en benägenhetspoängsmodell (och för att säkerställa balans över) är de förklarande variablerna förknippade med resultatet av intresse. Å andra sidan är det inte nödvändigt att inkludera variabler som är förknippade med behandlingstilldelning men inte associerade med resultatet.

en situation som är särskilt lämpad för en benägenhetspoäng är när resultatet av intresse är sällsynt men behandlingen är vanlig . I denna situation kanske det inte finns mycket data för att modellera förhållandet mellan resultatet och de prognostiska variablerna – en vanlig tumregel är att 10 händelser bör observeras för varje (nivå av A) prognostisk variabel som ingår i en multivariabel logistisk regressionsmodell) – medan det kan finnas tillräckliga data för att konstruera en bra modell för benägenhetspoängen. I detta fall kan justering med hjälp av benägenhetspoäng vara den enda genomförbara metoden för analys.

en potentiell fördel med metoder för benägenhetspoäng jämfört med regressionsjustering är att det kan vara lättare att verifiera att benägenhetspoängen har balanserade uppmätta variabler mellan behandlade och obehandlade personer, medan det är svårare att bedöma om en regressionsmodell har specificerats korrekt .

slutligen är det viktigt att notera att benägenhetsanalysen uppskattar en annan behandlingseffekt än regressionsjustering. Analys av benägenhetspoäng uppskattar marginaleffekten, medan regressionsjustering uppskattar den villkorliga effekten . Den marginella behandlingseffekten tolkas på befolkningsnivå: hur skulle behandlingen förändrasdet totala antalet resultat som observerats i befolkningen? Vid användning av en logistisk regressionsmodell är den villkorliga behandlingseffekten förändringen i oddsen för utfallet för en individ när den utsätts för behandling jämfört med att inte få någon behandling, villkorad av individens förklarande variabler – dvs. den villkorliga effekten tolkas på individnivå. Ett numeriskt exempel på denna effekt ges i följande tabell, där en sjukdom drabbar 13 200 individer. De flesta av individerna anses vara ’låg risk’, medan ett litet antal är ’hög risk’, med dödlighet på 5% respektive 25%, under den gamla behandlingen. En ny mycket effektiv behandling kommer att minska dödsoddset med 80% (det villkorliga oddsförhållandet är 0,2), men oddsförhållandet på befolkningsnivå är inte 0,2:

riskgrupp n gammal behandling ny behandling rel. Risk Odds Ratio
High risk 1200 300 (25%) 75 (6.25%) 0.250 0.200
Low risk 12000 600 (5%) 125 (1.04%) 0.208 0.200
Total 13200 900 (6.8%) 200 (1.52%) 0.222 0.210

  1. Rosenbaum PR, Rubin DB. Den centrala rollen för benägenhetspoäng i observationsstudier för kausala effekter. Biometrika, 1983; 70: 41-55. .
  2. Baser O. För mycket Ado om Benägenhetspoäng modeller? Jämföra metoder för benägenhet poäng matchning. Värde i hälsa, 2006;9(6):377-85..
  3. Rosenbaum PR. Modellbaserad direktjustering. Journal of the American Statistical Association, 1987; 82: 387-94. .
  4. Shah BR, Laupacis A, Hux JE, Austin PC. Metoder för benägenhetspoäng gav liknande resultat till traditionell regressionsmodellering i observationsstudier: en systematisk granskning. Journal of Clinical Epidemiology, 2005;58(6):550-9..
  5. Austin PC, Grootendorst P, Anderson GM. En jämförelse av förmågan hos olika modeller för benägenhetspoäng att balansera uppmätta variabler mellan behandlade och obehandlade ämnen: en Monte Carlo-studie. Statistik inom medicin, 2007; 26(4):734-53..
  6. Braitman LE, Rosenbaum PR. Sällsynta resultat, vanliga behandlingar: analytiska strategier med hjälp av benägenhetspoäng . Annaler för internmedicin, 2002; 137:693-5. .
  7. Wang J, Donnan PT. Benägenhetspoäng metoder i läkemedelssäkerhetsstudier: övning, styrkor och begränsningar. Farmakoepidemiologi och läkemedelssäkerhet, 2001; 10(4):341-4. .
  8. Austin PC, Grootendorst P, Normand SL, Anderson GM. Konditionering på benägenhetspoäng kan resultera i partisk uppskattning av vanliga mått på behandlingseffekt: en Monte Carlo-studie. Statistik inom medicin, 2007; 26(4):754-68..

vidare läsning

  • Austin PC. En kritisk bedömning av benägenhet-poäng matchning i medicinsk litteratur mellan 1996 och 2003. Statistik i medicin, 2008 (i press)..
  • d ’ Agostino RB Jr. Benägenhetspoäng metoder för biasminskning ijämförelsen av en behandling till en icke-randomiserad kontrollgrupp. Statistiki Medicin, 1998; 17(19):2265-81..
  • Imbens GW. Benägenhetspoängens roll vid uppskattning av dosresponsfunktioner. Biometrika, 2000; 87(3):706-10..
  • Rosenbaum PR, Rubin DB. Minska bias i observationsstudier med hjälp av underklassificering på benägenhetspoäng. Journal of the American Statistical Association, 1984; 79(387):516-24..
  • Winkelmayer WC, Kurth T. Benägenhet poäng: hjälp eller hype?Nephrology Dialystransplantation, 2004; 19: 1671-3..

bekräftelser

Tack till Eric Lau för att hjälpa till att utveckla det illustrativa exemplet.

Creative Commons Licensedetta verk är licensierat under en Creative Commons Attribution 3.0 Unported licens. Den skrevs av Ben Cowling
denna sida ändrades senast på
giltig HTML 4.01 strikt