混合効果モデルを用いた縦断的データ分析

ブリストル大学で行われた「Multilevel modelling for longitudinal data, including categorical, count and survival outcomes」というワークショップに二日間、出席してきました。ブリストル大学にはThe Centre for Multilevel Modellingという研究所があり、それに合わせてマルチレベルモデル関係のワークショップ・セミナーなどが頻繁に開催されています。私が博士論文で混合効果モデルを用いて縦断的データの分析を行っていることもあり、今回初めて彼等のイベントに参加しました。マルチレベルモデルの基礎を学んだことがある人が対象で、レベル的には私よりも少し上くらいの人を想定している感じでしたが、講義を理解できないわけではなく、多くのことを学べた二日間でした。以下、私のメモです。私自身もよくわからずメモを取っている箇所もあるので、曖昧な箇所や誤り等ご容赦ください。

【ソフト】

SuperMix: Windows用のマルチレベルモデル専用ソフト。特徴は以下
- 計算が速い
- 非正規分布（混合効果ロジスティック回帰モデルなど）の時にfull likelihoodを用いること。他のソフト（MLwiNなど）はquasi-likelihoodを用いている。

【Mixed-effects models for longitudinal data: An applied introduction】

変量効果＝個々人の平均からの逸脱
共変量構造を見るのも面白い
random-interceptのみのモデルだと、timeによって分散は変わらないという前提（compound symmetry assumption）を置くことになる。しかし通常、縦断的データでは時間と共に分散・共分散は大きくなっていく傾向にある。そのため、random-slopeも入れて分散・共分散が時間と共に変わることを認めた方が良いだろう。
- 実際に、プールしたデータで見てみると、Time 1とTime 2の間の相関はTime 1とTime 5の間の相関よりも高い。これは自然なこと。
縦断的データ分析を行う時にも図は重要。スパゲティープロットや箱ひげ図、multivariate plotなどで分散の推移などを見てみれば良い
変量効果部分の推定値は分散なので、ルート値±1.96に95%のデータが入る
ベイズの墓がロンドンにある
マルチレベルモデルの式を書き、それぞれの推定値が何を表しているのかを考えるとわかりやすい。
- 被験者内モデル
  - $Y_{ij} = b_{0i} + b_{1i} \time Time_{ij} + E_{ij}$
- 被験者間モデル
  - $b_{0i} = \beta_0 + \beta_2 \time Dx_i + v_{0i}$
  - $b_{1i} = \beta_1 + \beta_3 \time Dx_i + v_{1i}$
- 例えば $v_{0i}$ がaverage interceptからのindividual deviationである
- 上の式で、Dxが重要な要因であれば、 $v_{0i}$ 、 $v_{1i}$ が小さくなる。これらはLevel 2 residualsと呼ばれる。
linear transformをすることにより、最後のTimeの時点で群の間に差があるかどうかを検定できる？？
Empirical Bayesは個々人のデータと母集団の傾向に基づく予測値。個々人のデータが少なくても予測できるが、その場合は母集団の傾向（prior）が予測に強い影響を及ぼす。逆に個々人のデータが豊富な場合、予測値は実測値に近くなる

【Mixed models for longitudinal binary outcomes】

回帰モデルのβは単位を調節する役割を果たすと見ることもできる
リンク関数がprobit： $\epsilon_i$ ~ 標準正規分布（平均＝0、分散＝1）
リンク関数がlogistic： $\epsilon_i$ ~ 標準ロジスティック分布（平均＝0、分散＝ $\frac{\pi^2}{3}$ ）
→β推定値はロジスティック回帰の方がプロビット回帰よりも絶対値で大きい（ $\sqrt{\frac{\pi^2}{3}}$ = 1.8倍ほど)
βはsubject-specific odds ratioになる・・？？変量効果があると。
級内相関（intraclass correlation; ICC）とdesign effect (d)は同じような情報を持っている
- 縦断的研究のICCは0.4-0.6くらいになりがち
変数のベースラインがrandamizeされたものであれば、pre-treatmentの分散は意味を持たないので、その変数の主効果は入れずに交互作用だけ入れた方が良い（？）
Generalized Estimating Equation (GEE)はJohn Hopkins大学で研究が盛んなこともあり、米国の東海岸でよく縦断的データ分析に用いられる
実際的には、ロジットリンク関数であれば、σは $\frac{15\pi}{16\sqrt{3}}$ の方が $\frac{\pi}{\sqrt{3}}$ よりも良い (Zeger et al., 1988, Biometrics)
diferent covariance across itemsしたのがIRT？？
- ラッシュモデルをマルチレベルモデルの観点から見ると、全項目に同じ傾き（＝全て同じ弁別力）を仮定している

【Mixed models for longitudinal ordinal and nominal outcomes】

従属変数が順位尺度の場合、P(Y ≦ c)でcは1, ..., C-1となる。Cがカテゴリー数。C-1個のオッズ比が出る。つまり、a-dが順位尺度変数の水準だった場合、a vs bcd、ab vs cd、abc vs dの三つのオッズ比を出す（出して平均する？）ということ。
その閾値が被験者によって異なるというモデルも構築可能だが、大量のデータが必要となる
proportional oddsモデルとnon-proportional oddsモデルがあり、前者はカテゴリー間で変数の影響が変わらず、後者は変わる。（後者は多項式回帰のようなもの？？）
- SuperMixでnon-proportionalモデルを構築するには、Advancedタブでthresholdとの交互作用を入れる
- その交互作用が有意でなければ、proportional oddsの前提が合理的であるということ
- non-proportionalだと、1 vs 234, 12 vs 34, 123 vs 4でdichotomizationするので、情報が失われ、SEが大きくなる
混合効果多項式ロジスティック回帰
- 経済学やtransportationの研究で多項式回帰はよく使われる
- reference cellがあるのが普通だが、それは多項式回帰の必要条件ではない。Holman contrast（？）やprofile contrastでも良い。
- ロジスティック回帰を複数構築するよりも、効率的でSEが小さくなる
- "irrelevance of independent categories assumption" 経済学の用語。変量効果間の相関を認めない？
- 相関を認めるモデルと尤度比検定で比較できる

【Mixed-effects models for count data】

0が最頻値だからどう変換しても正規分布にならないデータなどが対象
オフセット変数：変数の影響を時間によって変える？
negative binomialモデルで過分散パラメータを足すことにより、分散＝平均の制約を緩和できる

【Mixed-effects models for discrete- and grouped-time survival data】

continuous timeの混合効果モデルは難しいが、discreteにしても10水準ほどあるとあまり情報は落ちない（Liu & Huang, 2008, Statistics in Medicine）
group time: 対象事象がある時間内（インターバル）に発生したという情報はあるデータ（interval-censored）
混合効果生存分析を扱った文献。
- Hedeker, Siddiqui, & Hu (2000). Random-effects regression analysis of correlated grouped-time survival data. Statistical Methods in Medical Research, 9, 161-179
- Hedeker & Mermelstein (2010). Multilevel analysis of ordinal outcomes related to survival data. Handbook of Advanced Multilevel Analysis, Hoop & Roberts (eds.), Taylor and Francis
hazard ratioの解釈を行うなら、ロジットよりもclog-logをリンク関数にする方が良い。ただし二者にそれほど大きな違いはない。
quadrature pointsの数は奇数の方が良いという意見がある。0を入れられるため？？
clog-logのerror distributionは $\frac{\pi^2}{6}$
continous timeの混合効果モデルを構築できるソフトはあまりないが、STATAはできる？

DTAL（旧RCEAL）留学記録

2010年1月から2014年半ばまで在学していたケンブリッジ大学理論・応用言語学科でPhDを取得するまでの記録です。

混合効果モデルを用いた縦断的データ分析