Articles

傾向スコア分析

背景

観察研究におけるバイナリアウトカムに対する治療効果を推定するとき、治療が被験者に無作為に割り当てられていないことが多い。 たとえば、病気の患者がしばしば治療に割り当てられ、健康な患者がしばしば治療されなかった場合、単純な分析は、治療効果の程度または方向を誤って推定する可能性がある。

この種の交絡による潜在的なバイアスを調整しようとする一般的な方法は、多変数ロジスティック回帰モデルを使用することです。 別のアプローチは、傾向スコア分析の使用です。 以下のセクションでは、小さなデータセットの例を提供し、これらの統計分析の代替方法について説明し、説明します。 我々は、患者が能動的治療または対照(すなわち2群)のいずれかを受けるように割り当てられている最も単純な例に焦点を当てる。 最後に、我々は簡単に三つ以上の治療群への可能な拡張に言及します。

データの例

次のデータセットの例を使用して、基本的な概念を説明します。 このデータには、心筋梗塞の疑いがある病院に入院した40-70歳の男性のレトロスペクティブコホート研究に含まれる400人の被験者が含まれています。 関心のある結果は、30日の死亡率(死亡=1)である。 興味深いのは、死亡のリスクに対する標準療法(trt=0)対より新しい血栓破裂薬(trt=1)の迅速な投与の可能性のある効果である。 関連する共変量は、既存の危険因子スコア(0〜5のスケールで、5が最悪)および入院重症度スコア(0〜10のスケールで、10が最悪)である。 最初の12科目のデータは次のとおりです:

age male risk severity trt death
48 1 3 8 0 0
59 1 4 6 1 0
67 1 3 6 0 1
51 1 0 6 0 0
56 1 1 6 1 0
60 1 1 6 0 0
53 1 0 3 1 0
54 1 1 2 0 0
54 1 2 7 0 0
62 1 0 4 0 0
64 1 2 6 1 1
70 1 3 8 1 0

データは傾向としてダウンロードすることもできます。csvまたはコマンドを使用してRで直接呼び出されます。
example <- read.csv("http://web.hku.hk/~bcowling/data/propensity.csv", header=TRUE)

次のすべての分析を実行するための付随するRスクリプトは、ここにありR.

記述分析

合計192人(48%)の患者が新しい治療を受けた(trt=1)。 治療された患者および未治療の患者の30日死亡率は、以下の表に要約されている。:Th>

Trt=0 trt=1 16%

潜在的な治療効果を調査する一つの方法は、二つのグループ間のリスクの差の推定値です。 治療1に関連する死亡率の相対リスクは0.375/0.40であり、これは0.81であり、より新しい治療にわずかな利益を示唆している。治療効果を推定する別の方法は、相対リスクではなくオッズ比を計算することです。

治療効果を推定する別の方法は、オッズ比を計算することです。

オッズ比は(168×30)/(162×40)であり、これは0.78であり、95%信頼区間は(0.46,1.31)として計算することができる。

治療効果を推定する第三の方法は、死亡率の絶対的な減少を見ることです。 ここで、治療1に関連する変化は-3.6%(19.2%から15.6%)であり、95%信頼区間は(-11)である。5%、4.3%)すなわち、死亡率の12%の減少または4%の増加と同じくらいである。

しかし、次の二つのプロットは、新しい治療を与えられた被験者は、標準治療を与えられたものよりもわずかに古いことを示しています。

年齢対trtのプロット

さらに調査すると、二つの治療群間の危険因子と現在の状態にも違いがあるように見えることが明らかになった。:

年齢vsリスクのプロット
年齢vs重症度のプロット

二つの治療群間でこれらの説明変数の分布の正式な比較は、年齢(t検定、ppp

ロジスティック回帰

多変数モデルは、多くの場合、重要な説明を調整しながら治療効果を評価するために使用されていることを明らかにしている。変数。 重要な説明変数の調整は、治療群と対照群の間の比較可能性を確保するために必要であり、調整が行われない場合、グループ間の差は、治療効果の偏った推定値につながる可能性がある。

下の表は、治療の粗オッズ比、その後、他の説明変数のために調整された効果を示しています。 各モデルに対する赤池情報基準の比較は、リスクスコアおよび重症度指数が適合性を有意に改善しないことを示唆している。 上記の記述分析によって疑われるように、治療上の利益(統計的に有意ではないが)の示唆、および年齢による明らかな交絡もある。

共変量の線形効果を仮定したモデルからの推定値は、モデル3と非常によく似ています(結果は示されていません)。Th>

N モデル1 モデル2 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3 モデル3

08

1.00 1.00 1.00 1.00 1.00 1.00 治療1 192 0.78 (0.46,1.31) 0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.0.67 (0.39, 1.15) 0.62 (0.35, 1.11) Age 40-49 95 – – 1.00 – – – Age 50-59 131 – – 1.72 (0.77, 3.82) 1.26 (0.52, 3.01)

Age 60-70 175 – – 2.62 (1.23, 5.62) 2.03 (0.84, 4.95) Risk score 0 112 – – – – 1.00 – Risk score 1 103 – – – – 3.06 (1.34, 6.97) Risk score 2-3 132 – – – – 1.33 (0.54, 3.28) Risk score 4-5 53 – – – – 2.64 (0.95, 7.35) Severity index 0-3 108 – – – – 1.00 – Severity index 4 69 – – – – 1.29 (0.56, 2.96) Severity index 5 80 – – – – 0.78 (0.33, 1.87) Severity index 6 56 – – – – 1.28 (0.53, 3.08) Severity index 7-10 87 – – – – 1.43 (0.65, 3.16) AIC 374 371 371

For completeness we could also use a non-linear regression model to check the shape of the effects of age, pre-existing risk and severity in the fully adjusted model. 付属のRスクリプトには、対応するスプライン関数を推定してプロットするコードが含まれていますが、ここではこれらを示していません。分析への別のアプローチは、無作為化比較試験(RCT)の条件を模倣しようとすることです。

傾向スコア分析

分析への別のアプローチは、無作為化比較試験(RCT)の条件を模倣しようとすることです。 RCTでは、参加者が特定の治療を受ける確率は、すべての参加者で同じであるか、層別設計では、年齢、性別などの患者の既知の説明変数にのみ依存する。 言い換えれば、患者の年齢、性別(など)。)は、治療を受ける患者の確率を伝えるのに十分な情報である。

観察研究の設定で、被験者に治療を割り当てた医療専門家が利用可能なすべての情報を持っていれば、決定プロセスを再作成し、個々の患者が治療を受けた確率を推定することができるはずです。 この確率は傾向スコアと呼ばれ、彼らの精液の1983年の論文でRosenbaumとRubinは、傾向スコアが治療を受ける確率の適切な尺度である限り、スコアは治療の因果効 スコアは、治療群と未治療群の予後変数のバランスをとるために使用され、これを行うには(少なくとも)四つの可能な方法があります。

  • 傾向スコアによ
  • 治療された患者と未治療の患者とを一致させ、結果として一致したペアを比較する。
  • 傾向スコアによる結果の逆重み付け。
  • ロジスティック回帰モデルの傾向スコアを調整します。

5.1性向スコアの推定

性向スコアは、観察された説明変数を与えられた被験者が扱われる条件付き確率であり、この単一の確率は、治療割 その後、治療を受ける確率が類似している被験者(実際に治療を受けたかどうかにかかわらず)を比較することにより、治療効果の公平な推定値を得傾向スコアは、通常、多変数ロジスティック回帰モデルを使用して推定されます。

傾向スコアは、多変数ロジスティック回帰モデルを使用して推定さ

この例では、ロジスティック回帰モデルを適合させて、治療0ではなく治療1を受ける確率に対する年齢、リスクスコア、重症度指数の影響を推 我々は、高齢(p=0.05)、より高いリスクスコア(p=0.05)とより高い重症度指数(p=0.05)があることがわかります。01)はすべて、治療を受ける確率が高い1に関連付けられています。 傾向スコアは0.2から0.8まで変化し、下の図の2つの治療群間のスコアの分布を比較します。 バーには、中央値と四分位間の範囲が表示されます。

各治療群内の傾向スコアの分布の比較

予想されるように、傾向スコア(すなわち、治療を受ける確率)は、治療群で平均してわずかに高 我々は0.2と0.8の間の任意の傾向スコアのための両方の治療群の個人を見つけることができる重複の良い程度があることを見ることができます。 これは、傾向スコア分析の本質的な原則は、各治療群に一つの二つの個人を見つけた場合、我々はそれらの二つの個人が均等に可能性があるかの意味で、各グループに”ランダムに”割り当てられていたことを想像することができるということであるため、重要です。5.2傾向スコアはグループのバランスをとっていますか?

5.2傾向スコアはグループのバランスをとっていますか?任意の傾向スコア分析では、propensityscoreが説明変数の分布のバランスをとることを可能にするかどうかを確認する必要があります。

バランスをチェックするには多くの方法があります;例えば、我々は傾向スコアの五分位以内の説明変数の分布を見ることができます。 下の図では、各傾向スコア五分位の年齢の中央値と四分位間の範囲をプロットします。

傾向スコア五分位による年齢の中央値(IQR)

調整なし(全体) しかし、各quntile内では、分布は非常に密接に整列しています。2サンプル統計(すなわち、治療群による年齢差のt検定)を計算することによって、初期差を定量化することができます。

これは、年齢対治療群の線形回帰モデル(またはANOVA)から治療のt統計量を求めることと同じです。 さらに,傾向スコアを調整した後,傾向スコアの五分位数を調整するだけでなく,治療のための年齢調整のための多変数線形回帰モデル(またはANOVA)から治療のためのt統計量を計算することにより,差を測定することができる。 調整されていない(塗りつぶされた円)および調整された(開いた円)t統計量は、次の図に示されています:

傾向スコアを調整する前(塗りつぶした円)と後(開いた円)の絶対t統計

傾向スコア調整により、2つの治療群間の年齢、リスクスコア

5.3傾向スコア五分位以内の死亡率

我々は以前に共変量が傾向スコアの五分位以内にバランスが取れていることがわかりました。 RosenbaumとRubinは、傾向スコア層内の平均治療効果が真の治療効果の公平な推定値であることを示しました(いくつかの仮定が成立している場合)。 各傾向スコア五分位数における治療群別の30日死亡率(95%信頼区間)をプロットします。

傾向スコア五分位数内の死亡率の比較

死亡率は、治療1(青)を与えられた群の死亡率は、治療0(赤)を与えられた群の死亡率よりも一般的に低かったが、率が類似していたQ3を除いて、治療0(赤)を与えられた群の死亡率よりも低かった。 しかし、治療効果が傾向スコアの範囲にわたって変化するという強力な証拠はない。各五分位の治療群間の死亡率の差を計算し、平均治療効果を五分位の加重平均として導出することができます。

各五分位の治療群間の死亡率の差を計算し、平均治療効果を五分位の重み付け平均として導出することができます。 下の図は、治療1対治療0の死亡率の絶対的な減少、および95%の信頼区間を持つ加重平均を示しています:

傾向スコアquintiles内の死亡率の比較

全体的には、治療1の30日死亡率が治療0と比較して6%の絶対的な減少があり、かなり広い信頼区間

5.4個人の一致したペア間の死亡率

別のアプローチは、非常に類似した傾向スコアを持つ、各治療群の一つ、被験者のペアを見つけることです。 傾向スコアの定義により、同様の傾向スコアを持つ2つの被験者もすべての重要な共変量で類似している必要があります。 この照合手順は、すべての重要な共変量での同時照合よりも計算上簡単です。

サンプルデータのマッチングアルゴリズムを使用して、元の400人の被験者のうち177人のマッチングペア(すなわち354人)を見つけます。 マッチングアルゴリズムがグループ間のバランスを達成していることを,マッチングペア間の二つの処理グループ間の共変量の分布を比較することにより確認できた。 一致したサブセットでは、治療1のグループで23人の死亡があり、治療0のグループで36人の死亡があり、これは統計的に有意な絶対減少であり、7.8%(95%信頼区間:-13.7%、-1.8%)である。

5.5傾向スコアによる逆重み付け

Rosenbaumは、重み付け係数としての傾向スコアの代替使用について説明しています。 導出の詳細に入ることなく、彼は、グループ0ではなく治療グループ1に割り当てられたすべての被験者がE(YT/p)に等しい場合の予想死亡率がE(YT/p)に等しいこ 同様に、すべての個体が治療群0に割り当てられた場合の予想死亡率は、E(Y(1−T)/(1−p))によって与えられる。 平均因果効果は、これらの2つの予想死亡率の差です。傾向スコアを重みとして使用して、治療1は、治療0に対して6.5%(95%信頼区間:-13.9%、1.8%)の絶対的な減少と関連していたと推定した。

5.6傾向スコアを調整するロジスティック回帰

傾向スコアを調整するロジスティック回帰モデルで、治療1対治療0の効果を推定しました(五分位数)。 治療1のオッズ比は0.65と推定された(95%信頼区間:0.37、1.13)。 元の説明変数をモデルに追加したときに、同様の推定オッズ比が見つかりました(つまり、 性向スコア、年齢、リスクおよび重症度に合わせて調整される)。

結果の概要

観察された30日死亡率は、治療0を与えられたグループで19%、治療1を与えられたグループで16%であった。 様々な統計的方法からの推定値の比較は、以下の表に示されています。tr>

(-11.5%, 4.3%)

0.78 (0.46,1.31) 年齢、リスクスコア、重症度インデックスを調整するロジスティック回帰 – – 0.62 (0.35,1.31) 年齢、リスクスコア、重症度インデックスを調整するロジスティック回帰 – 0.35 (0.35,1.31) 11) Stratifying by PS -6.0% (-25.8%, 13.7%) – – Matching by PS -7.8% (-13.7%, -1.8%) 0.58 (0.33, 1.04) Weighting by PS -6.5% (-13.9%, 1.8%) 0.63 (0.34, 1.11) Logistic regression adjusting for PS – – 0.65 (0.37, 1.13)

一般に、傾向スコアメソッドはロジスティック回帰モデルと同様の結果を与えます。 これは以前の経験的およびシミュレーション研究からのよく知られた知見である。

オッズ比の95%信頼区間が標準近似によって計算され、広すぎる可能性があるマッチング方法の統計的有意性のわずかな不一致に注意してくださ

Discussion

上記のセクションでは、観測データの分析のための回帰調整と傾向スコアの使用が説明され、図示されています。 無作為化試験のデータと比較して、治療効果に関する観察データの避けられない制限に注意することが重要です。 つまり、観測データの回帰調整または傾向スコアに基づく方法では、既知の共変量で分析をバランスさせることができますが、ランダム化は既知の共変量と未知の共変量でバランスをとることができます。

傾向スコア分析を使用する場合、重要な予後因子が傾向スコアによってバランスされていることを確認することが不可欠です。 しかし、多数の予測子がある場合、rctでベースライン因子の比較が偶然にグループ間の差を見つけるのと同じように、すべての予測因子に完全なバランスを期待することは合理的ではないかもしれません。

傾向スコアはグループ間の説明変数の分布のバランスをとる必要があるため、モデルには主効果だけでなく、説明変数間の相互作用項も含める必要 幸いなことに、傾向スコアを推定するために使用されるモデルは、通常、注意の焦点ではないため、節約する必要はなく、バランスをとるだけでよい。 オースティン他 大規模なシミュレーション研究を実施し、傾向スコアモデルに含める(およびバランスを確実にする)最も重要な変数は、関心のある結果に関連する説明変数であることを示した。 一方、治療の割り当てに関連しているが結果に関連していない変数を含めることは必須ではない。

傾向スコアアプローチに特に適している状況の一つは、関心のある結果はまれであるが、治療が一般的である場合です。

このような状況では、結果と予後変数との関係をモデル化するためのデータはあまりないかもしれません-一般的な経験則は、多変数ロジスティック回帰モデルに含まれる予後変数(aのレベル)ごとに10のイベントが観察されるべきであるということです。 この場合、傾向スコアを使用した調整は、分析に対する唯一の実行可能なアプローチである可能性があります。

回帰調整に対する傾向スコア法の潜在的な利点の一つは、傾向スコアが治療された被験者と未治療の被験者の間で測定された変数のバランス最後に、傾向スコア分析は、回帰調整とは異なる治療効果を推定することに注意することが重要です。

最後に、傾向スコア分析は、回帰調整とは異な 傾向スコア分析は限界効果を推定するのに対し、回帰調整は条件付き効果を推定する。 限界治療効果は母集団レベルで解釈されます:治療はどのように変化するでしょうか集団で観察された結果の全体的な数? ロジスティック回帰モデルを使用する場合、条件付き治療効果は、その個人の説明変数に条件付きで、治療を受けていない場合と比較して、治療にさらされたときの個人のアウトカムのオッズの変化です。つまり、条件付き効果は個々のレベルで解釈されます。 この効果の数値例は、病気が13,200人に影響を与える次の表に示されています。 ほとんどの個体は”低リスク”と考えられているが、少数は”高リスク”であり、死亡率はそれぞれ5%および25%であり、古い治療下である。 新しい非常に効果的な治療は、死の確率を80%減少させます(条件付きオッズ比は0.2です)が、人口レベルでのオッズ比は0.2ではありません:

リスクグループ n 古い治療 古い治療 古い治療 古い治療 古い治療 古い治療 古い治療 古い治療 th colspan=”2″>新しい治療 rel. Risk Odds Ratio
High risk 1200 300 (25%) 75 (6.25%) 0.250 0.200
Low risk 12000 600 (5%) 125 (1.04%) 0.208 0.200
Total 13200 900 (6.8%) 200 (1.52%) 0.222 0.210

  1. ローゼンバウムPR、ルービンDB。 因果効果のための観察研究における傾向スコアの中心的な役割。 Biometrika,1983;70:41-55. .
  2. Baser O.傾向スコアモデルについてあまりにも多くの騒ぎ? 傾向スコアのマッチングの方法を比較します。 健康の価値, 2006;9(6):377-85..
  3. ローゼンバウムPR. モデルベースの直接調整。 アメリカ統計協会のジャーナル、1987;82:387-94。 .
  4. Shah BR,Laupacis A,Hux JE,Austin PC. 傾向スコア法は、観察研究における伝統的な回帰モデリングと同様の結果を与えた:系統的レビュー。 臨床疫学ジャーナル, 2005;58(6):550-9..
  5. オースティンPC、Grootendorst P、アンダーソンGM。 治療された被験者と未治療の被験者の間で測定された変数のバランスをとるための異なる傾向スコアモデルの能力の比較:モンテカルロ研究。 医学の統計, 2007; 26(4):734-53..
  6. Braitman LE,Rosenbaum PR. まれな結果、一般的な治療法:傾向スコアを使用した分析戦略。 内科年報,2002;137:693-5. .
  7. Wang J,Donnan PT. 薬物安全性研究における傾向スコア方法:実践、強み、および限界。 薬物疫学および薬物安全性, 2001; 10(4):341-4. .
  8. オースティンPC、Grootendorst P、ノーマンSL、アンダーソンGM。 傾向スコアのコンディショニングは、治療効果の一般的な尺度の偏った推定をもたらす可能性があります:モンテカルロ研究。 医学の統計, 2007; 26(4):754-68..

さらに読む

  • オースティンPC。 1996年から2003年の間の医学文献における傾向スコアマッチングの重要な評価。 医学の統計、2008(プレスで)。.
  • D’Agostino RB Jr.非ランダム化対照群への治療の比較におけるバイアス低減のための傾向スコア方法。 統計学-医学, 1998; 17(19):2265-81..
  • GWを吸収します。 用量応答関数を推定する際の傾向スコアの役割。 バイオメトリカ, 2000; 87(3):706-10..
  • ローゼンバウムPR、ルービンDB。 傾向スコアのサブ分類を使用して観察研究におけるバイアスを低減する。 アメリカ統計協会のジャーナル, 1984; 79(387):516-24..
  • Winkelmayer Wc,Kurth T. 傾向スコア:ヘルプや誇大広告?腎臓透析移植,2004;19:1671-3..

謝辞

説明的な例を開発するのを手伝ってくれたEric Lauに感謝します。

クリエイティブ-コモンズ-ライセンスこの作品は、クリエイティブ-コモンズ表示3.0未移植ライセンスの下でライセンスされています。 それはベンCowlingによって書かれました
このページは最後に変更されました
有効なHTML4.01Strict