Propensity-Score-Analyse
Hintergrund
Bei der Abschätzung von Behandlungseffekten auf ein binäres Ergebnis in Beobachtungsstudien ist es häufig der Fall, dass Behandlungen nicht zufällig Probanden zugewiesen wurden. Wenn zum Beispiel Kränk Patienten wurden oft zur Behandlung zugewiesen, während gesündere Patienten wurden oft nicht behandelt, eine einfache Analyse könnte falsch schätzen den Grad oder die Richtung einer Behandlungswirkung.Ein üblicher Weg, um zu versuchen, die potenzielle Verzerrung aufgrund dieser Art von Verwechslung anzupassen, ist die Verwendung von multivariablen logistischen Regressionsmodellen. Ein alternativer Ansatz ist die Verwendung der Propensity Score-Analyse. In den folgenden Abschnitten stellen wir einen kleinen Beispieldatensatz zur Verfügung und beschreiben und veranschaulichen diese alternativen Methoden der statistischen Analyse. Wir konzentrieren uns auf das einfachste Beispiel, bei dem Patienten entweder eine aktive Behandlung oder eine Kontrolle erhalten (dh 2 Gruppen). Am Ende erwähnen wir kurz mögliche Erweiterungen auf drei oder mehr Behandlungsgruppen.
Beispieldaten
Der folgende Beispieldatensatz wird verwendet, um die grundlegenden Konzepte zu veranschaulichen. Die Daten umfassen 400 Probanden in einer retrospektiven Kohortenstudie von Männern im Alter von 40-70 Jahren, die mit Verdacht auf Myokardinfarkt ins Krankenhaus eingeliefert wurden. Das Ergebnis von Interesse ist die 30-Tage-Mortalität (Tod = 1). Von Interesse ist die mögliche Auswirkung der schnellen Verabreichung eines neueren gerinnungshemmenden Arzneimittels (trt = 1) im Vergleich zu einer Standardtherapie (trt = 0) auf das Mortalitätsrisiko. Relevante Kovariaten sind ein bereits bestehender Risikofaktor-Score (auf einer Skala von 0 bis 5, wobei 5 am schlechtesten ist) und ein Zulassungsschweregrad-Score (auf einer Skala von 0 bis 10, wobei 10 am schlechtesten ist). Hier sind die Daten für die ersten 12 Probanden:
age | male | risk | severity | trt | death |
---|---|---|---|---|---|
48 | 1 | 3 | 8 | 0 | 0 |
59 | 1 | 4 | 6 | 1 | 0 |
67 | 1 | 3 | 6 | 0 | 1 |
51 | 1 | 0 | 6 | 0 | 0 |
56 | 1 | 1 | 6 | 1 | 0 |
60 | 1 | 1 | 6 | 0 | 0 |
53 | 1 | 0 | 3 | 1 | 0 |
54 | 1 | 1 | 2 | 0 | 0 |
54 | 1 | 2 | 7 | 0 | 0 |
62 | 1 | 0 | 4 | 0 | 0 |
64 | 1 | 2 | 6 | 1 | 1 |
70 | 1 | 3 | 8 | 1 | 0 |
… | … | … | … | … |
Die Daten als Neigung.csv oder direkt in R mit dem Befehl aufgerufen:example <- read.csv("http://web.hku.hk/~bcowling/data/propensity.csv", header=TRUE)
Ein begleitendes R-Skript zum Ausführen aller folgenden Analysen finden Sie hier: Neigung.R.
Deskriptive Analyse
Insgesamt erhielten 192 (48%) Patienten die neue Behandlung (trt=1). Die 30-Tage-Mortalitätsraten für behandelte und unbehandelte Patienten sind in der folgenden Tabelle zusammengefasst:
Ergebnis | trt=0 | trt=1 |
---|---|---|
Überlebt | 168 | 162 |
Gestorben | 40 | 30 |
30-Tage-Sterblichkeitsrate | 19% | 16% |
Eine Möglichkeit, den potenziellen Behandlungseffekt zu untersuchen, besteht darin, den Risikounterschied zwischen den beiden Gruppen abzuschätzen. Das relative Mortalitätsrisiko im Zusammenhang mit Behandlung 1 beträgt 0, 375 / 0, 40, was 0, 81 entspricht, was auf einen leichten Nutzen für die neuere Therapie hindeutet.Eine andere Möglichkeit, den Behandlungseffekt abzuschätzen, könnte darin bestehen, die Odds Ratio und nicht das relative Risiko zu berechnen. Das Odds Ratio ist (168×30) / (162×40), was 0,78 ist, und ein 95% -Konfidenzintervall kann als (0,46, 1,31) berechnet werden.Eine dritte Möglichkeit, den Behandlungseffekt abzuschätzen, besteht darin, die absolute Reduktion der Mortalitätsraten zu betrachten. Hier beträgt die mit Behandlung 1 verbundene Veränderung -3, 6% (von 19, 2% auf 15, 6%) und ein 95% -Konfidenzintervall (-11.5%, 4,3%), d. h. bis zu 12% weniger oder 4% höhere Sterblichkeitsraten.
Die folgenden zwei Diagramme zeigen jedoch, dass Probanden, die die neuere Behandlung erhielten, etwas älter waren als diejenigen, die die Standardtherapie erhielten:
Weitere Untersuchungen zeigen, dass es auch Unterschiede in den Risikofaktoren und dem aktuellen Zustand zwischen den beiden Behandlungsgruppen zu geben scheint:
Der formale Vergleich der Verteilungen dieser erklärenden Variablen über die beiden Behandlungsgruppen zeigt, dass die Unterschiede im Alter (t-Test, ppp
Logistische Regression
Multivariable Modelle werden häufig verwendet, um den Behandlungseffekt zu bewerten und gleichzeitig wichtige erklärende variablen. Die Anpassung an wichtige erklärende Variablen ist notwendig, um die Vergleichbarkeit zwischen der Behandlungs- und der Kontrollgruppe zu gewährleisten, und wenn die Anpassung nicht durchgeführt wird, können die Unterschiede zwischen den Gruppen zu verzerrten Schätzungen des Behandlungseffekts führen.
Die folgende Tabelle zeigt die grobe Odds Ratio der Behandlung, dann die Wirkung für andere erklärende Variablen angepasst. Der Vergleich des Akaike-Informationskriteriums für jedes Modell legt nahe, dass der Risikoscore und der Schweregradindex die Passform nicht signifikant verbessern, d. H. Modell 2 kann Modell 3 vorgezogen werden. Es gibt einen Hinweis auf einen Behandlungsvorteil (wenn auch nicht statistisch signifikant) und auch eine offensichtliche Verwechslung nach Alter, wie in den obigen deskriptiven Analysen vermutet.
Die Schätzungen aus einem Modell, das lineare Effekte von Kovariaten annimmt, sind Modell 3 sehr ähnlich (Ergebnisse nicht dargestellt).
Faktor | n | Modell 1 | Modell 2 | Modell 3 | |||
---|---|---|---|---|---|---|---|
ODER | 95% CI | ODER | 95% CI | ODER | 95% CI | ||
Behandlung 0 | 208 | 1,00 | – | 1,00 | – | 1,00 | – |
Behandlung 1 | 192 | 0,78 | (0,46, 1,31) | 0.67 | (0.39, 1.15) | 0.62 | (0.35, 1.11) |
Age 40-49 | 95 | – | – | 1.00 | – | – | – |
Age 50-59 | 131 | – | – | 1.72 | (0.77, 3.82) | 1.26 | (0.52, 3.01) |
Age 60-70 | 175 | – | – | 2.62 | (1.23, 5.62) | 2.03 | (0.84, 4.95) |
Risk score 0 | 112 | – | – | – | – | 1.00 | – |
Risk score 1 | 103 | – | – | – | – | 3.06 | (1.34, 6.97) |
Risk score 2-3 | 132 | – | – | – | – | 1.33 | (0.54, 3.28) |
Risk score 4-5 | 53 | – | – | – | – | 2.64 | (0.95, 7.35) |
Severity index 0-3 | 108 | – | – | – | – | 1.00 | – |
Severity index 4 | 69 | – | – | – | – | 1.29 | (0.56, 2.96) |
Severity index 5 | 80 | – | – | – | – | 0.78 | (0.33, 1.87) |
Severity index 6 | 56 | – | – | – | – | 1.28 | (0.53, 3.08) |
Severity index 7-10 | 87 | – | – | – | – | 1.43 | (0.65, 3.16) |
AIC | 374 | 371 | 371 |
For completeness we could also use a non-linear regression model to check the shape of the effects of age, pre-existing risk and severity in the fully adjusted model. Das zugehörige R-Skript enthält den Code zum Schätzen und Zeichnen der entsprechenden Spline-Funktionen, und wir zeigen diese hier nicht; Wir stellen fest, dass die Effekte ziemlich linear waren.
Propensity Score Analysis
Ein alternativer Ansatz für die Analyse besteht darin, die Bedingungen einer randomisierten kontrollierten Studie (RCT) nachzuahmen. In einer RCT ist die Wahrscheinlichkeit, dass ein Teilnehmer eine bestimmte Behandlung erhält, für alle Teilnehmer gleich oder hängt in geschichteten Designs nur von den bekannten erklärenden Variablen eines Patienten wie Alter, Geschlecht usw. ab. Mit anderen Worten, das Alter eines Patienten, Geschlecht (etc.) ist eine ausreichende Information, um uns die Wahrscheinlichkeit des Patienten zu sagen, die Behandlung zu erhalten.
Wenn wir in einer Beobachtungsstudie alle Informationen hatten, die den Angehörigen der Gesundheitsberufe zur Verfügung standen, die den Probanden eine Behandlung zuordneten, sollten wir in der Lage sein, ihren Entscheidungsprozess nachzubilden und die Wahrscheinlichkeit abzuschätzen, dass einzelne Patienten die Behandlung erhielten. Diese Wahrscheinlichkeit wird als Propensity Score bezeichnet, und in ihrer bahnbrechenden Arbeit von 1983 zeigten Rosenbaum und Rubin, dass, solange der Propensity Score ein geeignetes Maß für die Wahrscheinlichkeit einer Behandlung ist, die Scores verwendet werden können, um die kausalen Auswirkungen der Behandlung abzuschätzen. Die Scores werden verwendet, um prognostische Variablen über behandelte und unbehandelte Gruppen hinweg auszugleichen, und es gibt (mindestens) vier Möglichkeiten, dies zu tun:
- Stratifizieren Sie Patienten in Gruppen (z. B. Quintile) nach Neigungswert und vergleichen Sie die Behandlungseffekte in jeder Schicht.
- Vergleichen Sie behandelte und unbehandelte Patienten und vergleichen Sie die resultierenden übereinstimmenden Paare.
- Inverse Gewichtung der Ergebnisse durch den Propensity Score.
- Adjust für den Propensity Score in einem logistischen Regressionsmodell.
5.1 Schätzung des Propensity Scores
Der Propensity Score ist die bedingte Wahrscheinlichkeit, dass ein Subjekt unter Berücksichtigung der beobachteten erklärenden Variablen behandelt wird. Wir sollten dann in der Lage sein, unvoreingenommene Schätzungen der Behandlungseffekte zu erhalten, indem wir Probanden vergleichen, die ähnliche Wahrscheinlichkeiten hatten, eine Behandlung zu erhalten (ob sie sie tatsächlich erhalten haben oder nicht).
Propensity Scores werden typischerweise unter Verwendung eines multivariablen logistischen Regressionsmodells geschätzt.
In unserem Beispiel haben wir ein logistisches Regressionsmodell angepasst, um die Auswirkungen von Alter, Risikoscore und Schweregradindex auf die Wahrscheinlichkeit, Behandlung 1 statt Behandlung 0 zu erhalten, abzuschätzen. Wir finden, dass älteres Alter (p = 0.05), höherer Risikowert (p = 0.05) und höherer Schweregradindex (p = 0.01) sind alle mit einer höheren Wahrscheinlichkeit einer Behandlung verbunden 1. Die Neigungswerte variieren zwischen 0,2 und 0,8, und wir vergleichen die Verteilung der Werte zwischen den beiden Behandlungsgruppen in der folgenden Abbildung. Die Balken zeigen den Median und den Interquartilbereich.
Wie zu erwarten, sind die Propensity Scores (d. h. Die Wahrscheinlichkeiten, eine Behandlung zu erhalten) in der Behandlungsgruppe im Durchschnitt etwas höher. Wir können sehen, dass es ein gutes Maß an Überschneidungen gibt, wo wir Individuen in beiden Behandlungsgruppen für alle Neigungswerte zwischen 0,2 und 0,8 finden können. Dies ist wichtig, weil das wesentliche Prinzip der Propensity Score-Analyse ist, dass, wenn wir zwei Individuen finden, eine in jeder Behandlungsgruppe, wir uns vorstellen können, dass diese beiden Individuen ‚zufällig‘ jeder Gruppe in dem Sinne zugeordnet wurden, dass jede Zuordnung gleich wahrscheinlich ist.
5.2 Gleicht der Propensity Score die Gruppen aus?
Bei jeder Propensity-Score-Analyse sollten wir prüfen, ob der propensityscore es uns ermöglicht, die Verteilung erklärender Variablen auszugleichen. Es gibt viele Möglichkeiten, das Gleichgewicht zu überprüfen ; Zum Beispiel könnten wir die Verteilung einer erklärenden Variablen innerhalb der Quintile des Propensity Scores betrachten. In der folgenden Abbildung zeichnen wir die medianen und interquartilen Altersbereiche in jedem Propensity Score Quintil auf:
Ohne Anpassung (insgesamt) gibt es erhebliche Diskrepanzen. Innerhalb jedes Quntiles sind die Verteilungen jedoch sehr eng aufeinander abgestimmt.
Wir können die anfänglichen Unterschiede quantifizieren, indem wir die Zwei-Proben-Statistik berechnen (d. h. einen T-Test für Altersunterschiede nach Behandlungsgruppe). Dies entspricht dem Ermitteln der t-Statistik für die Behandlung aus einem linearen Regressionsmodell (oder einer ANOVA) für Alter versus Behandlungsgruppe. Wir können die Unterschiede nach der Anpassung des Propensity-Scores weiter messen, indem wir die t-Statistik für die Behandlung aus einem multivariablen linearen Regressionsmodell (oder ANOVA) für das Alter berechnen, das für die Behandlung angepasst wird, sowie für die Quintile des Propensity-Scores. Die unangepassten (gefüllte Kreise) und angepassten (offene Kreise) T-Statistiken sind in der folgenden Abbildung dargestellt:
Wir können sehen, dass die Propensity Score-Anpassung fast alle anfänglichen Unterschiede in Alter, Risiko-Score und Schweregrad-Index zwischen den beiden Behandlungsgruppen entfernt.
5.3 Mortalitätsraten innerhalb der Propensity-Score-Quintile
Wir haben zuvor festgestellt, dass die Kovariaten innerhalb der Quintile des Propensity-Scores ausgeglichen sind. Rosenbaum und Rubin zeigten, dass der durchschnittliche Behandlungseffekt innerhalb der Propensity Score-Schichten eine unvoreingenommene Schätzung des wahren Behandlungseffekts ist (vorausgesetzt, einige Annahmen halten). Wir zeichnen die 30-Tage-Mortalitätsraten (mit 95% -Konfidenzintervallen) nach Behandlungsgruppe in jedem Propensity-Score-Quintil auf:
Die Mortalitätsraten waren in der Gruppe mit Behandlung 1 (blau) im Allgemeinen niedriger als in der Gruppe mit Behandlung 0 (rot), außer in Q3, wo die Raten ähnlich waren. Es gibt jedoch keine starken Hinweise darauf, dass die Behandlungseffekte über den Bereich der Neigungswerte variieren.
Wir können die Differenz der Mortalitätsraten zwischen den Behandlungsgruppen in jedem Quintil berechnen und den durchschnittlichen Behandlungseffekt als gewichteten Mittelwert über die Quintile ableiten. Die folgende Abbildung zeigt die absolute Reduktion der Mortalitätsrate für Behandlung 1 gegenüber Behandlung 0 und den gewichteten Mittelwert mit 95% Konfidenzintervallen:
Insgesamt gab es eine 6% ige absolute Reduktion der 30-Tage-Mortalitätsrate für Behandlung 1 im Vergleich zu Behandlung 0, mit einem ziemlich breiten Konfidenzintervall.
5.4 Mortalitätsraten zwischen übereinstimmenden Paaren von Individuen
Ein alternativer Ansatz besteht darin, Paare von Probanden zu finden, eine in jeder Behandlungsgruppe, mit sehr ähnlichen Neigungswerten. Nach der Definition des Propensity Scores sollten zwei Probanden mit ähnlichen Propensity Scores auch in allen wichtigen Kovariaten ähnlich sein. Dieses Matching-Verfahren ist rechnerisch einfacher als das gleichzeitige Matching aller wichtigen Kovariaten.
Unter Verwendung eines Matching-Algorithmus in den Beispieldaten finden wir 177 Matching-Paare (d. h. 354 Personen) aus den ursprünglichen 400 Probanden. Wir könnten überprüfen, ob der Übereinstimmungsalgorithmus ein Gleichgewicht zwischen den Gruppen erreicht hat, indem wir die Verteilungen der Kovariaten zwischen den beiden Behandlungsgruppen unter den übereinstimmenden Paaren vergleichen. In der übereinstimmenden Untergruppe gab es 23 Todesfälle in der Gruppe mit Behandlung 1 und 36 Todesfälle in der Gruppe mit Behandlung 0, was einer statistisch signifikanten absoluten Reduktion von 7, 8% entspricht (95% -Konfidenzintervall: -13, 7%, -1, 8%).
5.5 Inverse Gewichtung durch Propensity Scores
Rosenbaum beschreibt eine alternative Verwendung des Propensity Scores als Gewichtungsfaktor. Ohne auf Details der Ableitung einzugehen, zeigt er, dass die erwartete Mortalitätsrate, wenn alle Probanden der Behandlungsgruppe 1 anstelle der Gruppe 0 zugeordnet wurden, gleich E (YT / p) ist, wobei Y die Ergebnisvariable, T die Behandlungsgruppe und p ist der Neigungswert für die Zuordnung zur Behandlungsgruppe 1. In ähnlicher Weise ist die erwartete Mortalitätsrate, wenn alle Personen der Behandlungsgruppe 0 zugeordnet sind, durch E (Y (1-T) / (1-p)) gegeben. Der gemittelte kausale Effekt ist dann die Differenz zwischen diesen beiden erwarteten Mortalitätsraten.
Unter Verwendung der Neigungswerte als Gewichte schätzten wir, dass Behandlung 1 mit einer absoluten Reduktion von 6,5% (95% -Konfidenzintervall: -13,9%, 1,8%) gegenüber Behandlung 0 verbunden war.
5.6 Logistische Regression zur Anpassung des Propensity Scores
Wir schätzten den Effekt von Behandlung 1 gegenüber Behandlung 0 in einem logistischen Regressionsmodell zur Anpassung des Propensity Scores (in Quintilen). Die Odds Ratio für Behandlung 1 wurde auf 0,65 geschätzt (95%-Konfidenzintervall: 0,37; 1,13). Wir fanden eine ähnliche geschätzte Odds Ratio, als wir die ursprünglichen erklärenden Variablen zum Modell hinzufügten (d. h. b. bereinigt um den Propensity Score, Alter, Risiko und Schweregrad).
Zusammenfassung der Ergebnisse
Die beobachteten 30-Tage-Mortalitätsraten betrugen 19% in der Gruppe unter Behandlung 0 und 16% in der Gruppe unter Behandlung 1. Ein Vergleich der Schätzungen aus den verschiedenen statistischen Methoden ist in der folgenden Tabelle dargestellt.
Ansatz | Absolute Differenz | Odds ratio | ||
---|---|---|---|---|
Schätzung | 95% KI | Schätzung | 95% KI | |
Keine Anpassung | -3,6% | (-11.5%, 4.3%) | 0.78 | (0.46, 1.31) |
Logistische Regression Anpassung für Alter, Risiko-Score und Schweregrad-index | – | – | 0.62 | (0.35, 1.11) |
Stratifying by PS | -6.0% | (-25.8%, 13.7%) | – | – |
Matching by PS | -7.8% | (-13.7%, -1.8%) | 0.58 | (0.33, 1.04) |
Weighting by PS | -6.5% | (-13.9%, 1.8%) | 0.63 | (0.34, 1.11) |
Logistic regression adjusting for PS | – | – | 0.65 | (0.37, 1.13) |
Im Allgemeinen liefern die Propensity Score-Methoden ähnliche Ergebnisse wie das logistische Regressionsmodell. Dies ist ein bekannter Befund aus früheren empirischen und Simulationsstudien .
Beachten Sie die leichte Diskrepanz in der statistischen Signifikanz für die Matching-Methode, bei der das 95% -Konfidenzintervall für das Odds Ratio nach der Standardannäherung berechnet wurde und möglicherweise zu groß ist.
Diskussion
In den obigen Abschnitten wurde die Verwendung von Regressionsanpassung und Neigungswerten für die Analyse von Beobachtungsdaten beschrieben und veranschaulicht. Es ist wichtig, die unvermeidliche Einschränkung der Beobachtungsdaten zu Behandlungseffekten im Vergleich zu Daten aus einer randomisierten Studie zu beachten. Das heißt, Methoden, die auf Regressionsanpassung oder Neigungswerten in Beobachtungsdaten basieren, ermöglichen nur das Ausbalancieren der Analyse über bekannte Kovariaten, während die Randomisierung über bekannte und unbekannte Kovariaten ausbalanciert.
Bei der Propensity-Score-Analyse ist es wichtig zu überprüfen, ob wichtige prognostische Faktoren durch den Propensity-Score ausgeglichen werden – ohne Gleichgewicht versagt die zugrunde liegende Theorie. Wenn es jedoch eine große Anzahl von Prädiktoren gibt, ist es möglicherweise nicht sinnvoll, bei jedem ein perfektes Gleichgewicht zu erwarten, so wie bei einem RCT-Vergleich von Baseline-Faktoren gelegentlich zufällig Unterschiede zwischen Gruppen festgestellt werden.
Da die Neigungswerte die Verteilung erklärender Variablen zwischen Gruppen ausgleichen müssen, muss das Modell manchmal nicht nur Haupteffekte, sondern auch Interaktionsterme zwischen erklärenden Variablen enthalten. Glücklicherweise steht das Modell, das zur Schätzung der Neigungswerte verwendet wird, normalerweise nicht im Mittelpunkt der Aufmerksamkeit und muss daher nicht sparsam sein – es muss nur ein Gleichgewicht ermöglichen. In: Austin et al. führte eine große Simulationsstudie durch und zeigte, dass die wichtigsten Variablen, die in ein Propensity Score-Modell aufgenommen werden müssen (und um ein Gleichgewicht zu gewährleisten), die erklärenden Variablen sind, die mit dem Ergebnis von Interesse verbunden sind. Andererseits ist es nicht wesentlich, Variablen einzubeziehen, die mit der Behandlungszuweisung, aber nicht mit dem Ergebnis verbunden sind.
Eine Situation, die sich besonders für einen Propensity-Score-Ansatz eignet, ist, wenn das interessierende Ergebnis selten, die Behandlung jedoch häufig ist . In dieser Situation gibt es möglicherweise nicht viele Daten, um die Beziehung zwischen dem Ergebnis und den prognostischen Variablen zu modellieren – eine allgemeine Faustregel ist, dass 10 Ereignisse für jede (Ebene von a) prognostische Variable beobachtet werden sollten, die in einem multivariablen logistischen Regressionsmodell enthalten ist. In diesem Fall kann die Anpassung mithilfe des Propensity Scores der einzig praktikable Analyseansatz sein.Ein potenzieller Vorteil von Propensity-Score-Methoden gegenüber der Regressionsanpassung besteht darin, dass es einfacher sein kann, zu überprüfen, ob der Propensity-Score Messvariablen zwischen behandelten und unbehandelten Probanden ausgeglichen hat, während es schwieriger ist zu beurteilen, ob ein Regressionsmodell korrekt spezifiziert wurde .
Schließlich ist es wichtig zu beachten, dass die Propensity Score-Analyse einen anderen Behandlungseffekt als die Regressionsanpassung schätzt. Die Propensity-Score-Analyse schätzt den marginalen Effekt, während die Regressionsanpassung den bedingten Effekt schätzt . Der marginale Behandlungseffekt wird auf Bevölkerungsebene interpretiert: Wie würde die Behandlung die Gesamtzahl der in der Bevölkerung beobachteten Ergebnisse verändern? Bei Verwendung eines logistischen Regressionsmodells ist der bedingte Behandlungseffekt die Änderung der Wahrscheinlichkeit des Ergebnisses für eine Person, die einer Behandlung ausgesetzt ist, im Vergleich zu einer Nichtbehandlung, abhängig von den erklärenden Variablen dieser Person – d. H. Der bedingte Effekt wird auf individueller Ebene interpretiert. Ein numerisches Beispiel für diesen Effekt ist in der folgenden Tabelle angegeben, in der eine Krankheit 13.200 Personen betrifft. Die meisten Personen gelten als ‚geringes Risiko‘, während eine kleine Anzahl mit Mortalitätsraten von 5% bzw. 25% unter der alten Behandlung als ‚hohes Risiko‘ eingestuft wird. Eine neue hochwirksame Behandlung reduziert die Todeswahrscheinlichkeit um 80% (die bedingte Odds Ratio beträgt 0,2), aber die Odds Ratio auf Bevölkerungsebene beträgt nicht 0,2:
Risikogruppe | n | Alte Behandlung | Neue Behandlung | Rel. Risk | Odds Ratio | ||
---|---|---|---|---|---|---|---|
High risk | 1200 | 300 | (25%) | 75 | (6.25%) | 0.250 | 0.200 |
Low risk | 12000 | 600 | (5%) | 125 | (1.04%) | 0.208 | 0.200 |
Total | 13200 | 900 | (6.8%) | 200 | (1.52%) | 0.222 | 0.210 |
- Rosenbaum PR, Rubin DB. Die zentrale Rolle des Propensity Scores in Beobachtungsstudien für kausale Effekte. Biometrika, 1983; 70:41-55. .
- Baser O. Zu viel Lärm um Propensity Score Modelle? Vergleich von Methoden des Propensity Score Matching. Wert in der Gesundheit, 2006;9(6):377-85..Rosenbaum PR. Modellbasierte direkte Anpassung. Zeitschrift der American Statistical Association, 1987; 82: 387-94. .
- Schah BR, Laupacis A, Hux JE, Austin PC. Propensity Score-Methoden lieferten ähnliche Ergebnisse wie die traditionelle Regressionsmodellierung in Beobachtungsstudien: eine systematische Überprüfung. Zeitschrift für klinische Epidemiologie, 2005;58(6):550-9..
- Austin PC, Grootendorst P, Anderson GM. Ein Vergleich der Fähigkeit verschiedener Propensity Score-Modelle, Messvariablen zwischen behandelten und unbehandelten Probanden auszugleichen: eine Monte-Carlo-Studie. Statistik in der Medizin, 2007; 26(4):734-53..Braitman LE, Rosenbaum PR. Seltene Ergebnisse, häufige Behandlungen: analytische Strategien mit Propensity Scores . Annalen der Inneren Medizin, 2002; 137:693-5. .
- Wang J, Donnan PT. Propensity Score-Methoden in Studien zur Arzneimittelsicherheit: Praxis, Stärken und Einschränkungen. Pharmakoepidemiologie und Arzneimittelsicherheit, 2001; 10(4):341-4. .
- Austin PC, Grootendorst P, Normand SL, Anderson GM. Die Konditionierung des Propensity Scores kann zu einer voreingenommenen Schätzung gängiger Maßnahmen für den Behandlungseffekt führen: Eine Monte-Carlo-Studie. Statistik in der Medizin, 2007; 26(4):754-68..
Weiterführende Literatur
- Austin PC. Eine kritische Bewertung des Propensity-Score-Matchings in der medizinischen Literatur zwischen 1996 und 2003. Statistik in der Medizin, 2008 (im Druck)..
- D’Agostino RB Jr. Propensity Score Methoden zur Bias-Reduktion im Vergleich einer Behandlung zu einer nicht-randomisierten Kontrollgruppe. Statistikin der Medizin, 1998; 17(19):2265-81..In:
- Imbens GW. Die Rolle des Propensity Scores bei der Schätzung von Dosis-Wirkungs-Funktionen. Biometrika, 2000; 87(3):706-10..Rosenbaum PR, Rubin DB. Verringerung der Verzerrung in Beobachtungsstudien unter Verwendung einer Unterklassifizierung des Propensity Scores. Zeitschrift der American Statistical Association, 1984; 79(387):516-24..
- Winkelmayer WC, Kurth T. Propensity Scores: Hilfe oder Hype?Nephrologie Dialyse Transplantation, 2004; 19: 1671-3..
Danksagung
Vielen Dank an Eric Lau für die Unterstützung bei der Entwicklung des illustrativen Beispiels.
Dieses Werk ist unter einer Creative Commons Attribution 3.0 Unported-Lizenz lizenziert. Es wurde von Ben Cowling geschrieben
Diese Seite wurde zuletzt geändert am
Leave a Reply