Leuven Statistics Days 2012
6月7日・8日にベルギーはルーベンで開催された表題のイベントに参加してきました。このイベント自体は毎年あるようですが、今年のテーマが「Mixed models and modern multivariate methods in linguistics」と言語研究に焦点を当てたもので、しかも最近流行りの混合効果モデルが中心的に扱われるようなので行ってきました。内容は計16件の発表+パネルディスカッション+ポスター発表16件というもので、発表の内4件が基調講演(45分/発表)、4件がspecial contributorと呼ばれる人達によるもの(30分/発表)、残りの8件が通常発表(30分/発表)でした。内容はほとんどがテーマに沿ったものでしたが、一部医学系の研究なども見られました。発表者は会場校であるKU Leuven所属の人達が多く(発表5/16件、ポスター11/16件)、言語データの統計分析がなぜそれほど盛んなのだろうかと思っていたのですが、これはKU Leuvenに「Quantitative Lexicology and Variational Linguistics」という研究グループがあることが理由のようです。その辺りを専門とする人が周りにいない私としては羨ましい限りです。参加者は60-70人くらいでした。また初日は混合効果モデルが中心でしたが、二日目はdistributional semanticsも多く扱われていました。
さて、基調講演者の一人はHarald Baayenでした。私の知る限り、言語研究分野でBaayenほど積極的に新しい統計手法を取り入れそれを積極的に活用した研究を行なっている人はそうはいません。2008年のAnalyzing linguistic data: A practical introduction to statistics using Rは今でも私の統計分析のバイブルとも呼べる書ですし、その後もBaayenの論文は主に統計分析部分を目当てに追うようにしています。そのBaayenの発表は想像以上に面白く、それだけで行った甲斐があったと感じました。自身の分析のことを"layman's approach"と呼んでいましたが、言語研究者としてはspecial contributorの一人であったStefan Evertなどと並び最も高度な統計手法を研究に用いていると思います。
以下、そのBaayenなどの発表に関して私が取ったメモを整形したものです。
1. Mixed-effects models in linguistics and psycholinguistics: A useR's perspective(Harald Baayen)
- 混合効果モデルを用いた四つの研究例
- Case study 1は混合効果モデルを用いて自己相関のあるデータ(被験者内計画)を扱うというもの
- Case study 2は分類課題を混合効果モデルとランダムフォレストで行うというもの
- ctreeはノンパラなのでdistributional propertyは気にしなくて良い
- ランダムフォレストはデータが正規分布しておらず(wildly distributed)、また複雑な交互作用がある場合に良い結果を出す
- 一方で、被験者数・項目数が増えると問題が出るのではないか。なぜならランダムフォレストは被験者・項目の全ての組み合わせを計算しなくてはならず、それは不可能であるから
- Case study 3は一般化加法モデル(GAM)について
- GAM+混合効果モデルはまだ難しい
- Case study 4はERPのデータをGAMで扱う
- 数百万行のデータ
2. Mixed-effects logistic regression modeling and analysis for polytomous outcomes without a reference category(Antti Arppe)
- 回帰モデルに名義尺度変数を入れる場合、通常はダミー変数を用いて参照水準と当該水準の差という形で表すが、ある水準を他の水準全てと比較するという方法もある(one-vs-rest approach)
- その一つの方法がPoisson回帰
- Rのコードで言うと、(1)が(2)になる。
(1) outcome ~ fixed1 + fixed2 + (1|random1) + (1|random2)
(2) count ~ outcome +outcome:fixed1 + outcome:fixed2 + (1|random1) + (1|random2) + (1|Observation)
- polytomousパッケージ内のpolytomous関数でできる
8. Lexical Differences between Tuscan Dialects and Standard Italian: A Sociolinguistic Analysis using Generalized Additive Mixed Modeling(Martijn Wieling, Simonetta Montemagni, John Nerbonne and R. Harald Baayen)
- 一般化加法モデルでは独立変数と従属変数の関係を非線形のsmooth関数で推定する
- 利点は非線形の形を自動的に決められるところ
- Rではgam/bam関数でできるが、bam関数の方が速くメモリ使用も効率的。それでも通常の回帰モデルよりも計算に時間がかかり、変量効果を加えたモデルで55時間かかった
- コードはmodel = bam(nNotStd ~ s(Lon, Lat) +s(Concept, bs="re"), family="binomial", method="ML")というような感じ
- 上記にs(Concept, CommSize, bs="re")を足すとrandom slopeを加えられる
- GAMはanova関数などでのモデル比較はできない
- gam関数でモデル作成→vis.gam関数で等高線図を用いて非線形の視覚化
- 第一発表者の博論がここからDLできるが、これも計量手法的に面白そう
16. The role of dimensionality reduction in distributional semantics:Or having fun with matrix algebra(Stefan Evert)
- distributional semanticsの7ステップ
- corpus with linguistic annotation
- term-context vs term-term matrix
- type and size of context
- feature scaling
- similarity/distance measure & normalisation
- dimensionality reduction ← 本発表の焦点
- semantic distance, nearest neighbours, semantic maps
- 5について
- 頻度を考慮に入れるために、語の間の距離ではなく方向を見る。そのためにコサイン類似度がよく用いられる。
- distributional semanticsではdistributional memory (Baroni and Lenci, 2010)が最新理論(?)であり、これはword、link、wordの組(例えば「book, OBJ, read」)を扱うというもの。これを用いると非常に高次元でsparse(1億3000万セルで98%がゼロ、など)なデータができる。
- そこで次元縮約の方法が必要になる。次元を減じる目的は以下の三点。
- 計算上の利便性
- ノイズを減らす (Landauer and Dumais, 1997)
- latent meaning dimensions (Schutze, 1992, 1998)
- 頻度などを基に素性を選ぶという方法では後ろ二つの目的を達成しない
- なので相関関係を用いてデータポイントをより低次元空間にmapしたい
- 一つの方法が特異値分解 (SVD:singular value decomposition) (固有値分解を一般化したもの)
- 多次元尺度法が用いられない理由の一つは高次元になると厳しいから
Panel discussion(聴衆から予め集められた質問に答えるという形式)
- 混合効果ロジスティック回帰モデルではどの推定法を用いれば良いか?
- 変量効果の分散成分(variance component)がゼロになるというのはどういう状況か?
- 共分散は必ずしも正の数にはならない。変量効果の分散がマイナスにならないのは、そういう場合にはゼロとなるようにアルゴリズムが組まれているから、というだけ。混合効果モデルの解釈として分散がマイナスというのは意味をなさないが、marginal modelとしてはあり得る。負の連関があるということで、分散がないというわけではない。負である(あるいはゼロである)という事実が何かを意味しているのではないか。
- 仮に分散がゼロと出た変量効果を入れたモデルと入れないモデルでAICを比較したら同値だったとすると、それはどう解釈すれば良いのか?→分散が負の値を取ることを許可してAICの比較などをしてみれば良いのではないか。BLUPsは意味を持たなくなるが。
- 変量効果の分散がマイナスになり得る例。カゴの中にマウスを二匹入れる。餌は十分に与えず、カゴの中で競争させる。そのようなカゴを複数作る。そうするとカゴの中のマウス(の発育など?)は相補的な関係になり、カゴ内よりもカゴ間のマウスの発達の方が似ているということになるので、分散が負になる。
- 変量効果の母分布とは何か?
- 変量効果を固定効果としてモデルに組み込むのは問題がある。なぜなら水準(被験者)を足すと推定するパラメータ数が増え推定値が変わるから。前提が破られ最尤推定理論が当てはまらなくなる。
- 今回のイベントでも、分散が解釈されることはあまりなかった。marginal modelが正しいとそれで良いという感じが出ていた。Baayen → しかし分散成分は個人差を見たりできるので非常に有用。反応速度が速い人に対する固定効果の効き方がどうか、などを見ることができる。
- 変量効果が正規分布していないと考えられる場合はどうすれば良いか?
- ベイズ統計を用いるか、あるいは自分でプログラミングするしかない。既存のソフトにはまだ実装されていない。
- 線形モデルであれば共分散構造などのモメントは正しくspecifyされているので大きく影響はないだろう
- しかしロジスティック回帰などであれば結果はより大きく影響を受ける
- 混合効果モデルの対案
- 言語学での統計教育。数学的知識はどの程度必要か。どの段階(学部・修士・博士)でどの程度のことを教える必要があるか。
- 手法の直感的理解を得て、そのメリット・デメリットを理解していれば良いのではないか。数理的な理解ではなく。
- 一方で最近ではソフトがあるので、それらを知らなくても色々とできてしまう。統計の授業とレシピ本は同じであるべきではない。手法の前提などを学ぶことは重要。それらの手法が何をしているかを理解したい。どう行うかという手順だけではなく。
昨年のLCRに引き続き、今回の滞在でもムール貝などのベルギー料理を堪能しました。イギリスが特にまずいとは思わないのですが、それでも他のヨーロッパ諸国の方が食を楽しめることが多いです。
また一昨年のISSA@アムステルダムと同様、今回はケンブリッジ→ロンドン→ブリュッセルとバスで往復しました。ロンドン・ブリュッセル間の格安航空券が見つからず、ユーロスターが随分と高かったのでバスにしたのですが、後ほど友人にオランダなどの近隣国に飛んでそこから電車で移動すれば良かったのではと言われました。全く考えていなかったので今後はこのオプションも頭に入れておこうと思います。さてバスは行きはなかなか快適でした。時間はかかりますが本を読んだりしている内に到着します。ただ帰りは夜行だったので思うように本も読めず、更に混んでいたため隣に人がいて、ちゃんと寝ることもできませんでした。まあ値段相当(往復で£50 = 6500円)といったところでしょうか。一昨年とは違い、帰りはドーバー海峡を電車で潜るのではなく、バスごと船に乗りました。実は(バス・電車・飛行機でドーバー海峡を渡ったことがあったので)次は船で渡りたいと思っていて今回も調べて断念したところだったのでこれは嬉しかったです。・・・とここまで帰りのバス・船の中で書いていたのですが、悪天候で船が遅れ、結果的にバスも遅れ、ロンドン→ケンブリッジのバスに間に合わずに電車で帰るハメになりました。