2013-04-17

進捗と学会発表予定

博論は先週末まで加筆・修正をし、現在は指導教官のコメント待ちです。その間に（今さら）関連文献を読んでいたのですが、ある程度書いてから読むと、読んでいる文献のどの部分が論文に直接関係していてどのように引用できそうかが明白なので、効率が良いですね。逆に言うと常に書いているようにすると読みの効率が上がるということでしょうか。昨年末辺りから博論はラストスパートだと思っていたのですが、スパートした後にまだ結構距離があったようで、結局すべて終わるのは今年の後半になりそうです。

ところで今夏はCorpus Linguistics（7月22-26日＠ランカスター）、EUROSLA（8月28-31日＠アムステルダム）、Learner Corpus Research（9月27-29日＠ベルゲン）で発表する予定です。いらっしゃる方は会場でお会いしましょう。

2013-03-31

博論修正中・電王戦

昨日は朝雪が降っていましたが、イギリスはサマータイムに入りました。時間だけではなく気候的に夏になって欲しいのですが、それにはもう数ヶ月待たないといけないのでしょう。

博論ですが、ドラフトはごく一部を除いて完成し、現在は指導教官のコメントを基に修正しています。割と大幅な加筆が必要な箇所もあり、まだ提出まで時間がかかりそうです。3月末までに提出したいと年始に書きましたが断念しました。早く提出する理由もなくなったので、特に急ぐこともないのかもしれませんが、早く終えて楽になりたいという気持ちはあります。

そんな中ですが、週末は将棋の電王戦を二週間連続でリアルタイムで（＝徹夜で）観戦していました。電王戦とはプロ棋士とコンピューター将棋が対局するというもので、今回は3月-4月にかけて5週間連続で、5人のプロ棋士vs5つのコンピューター将棋ソフトという対局が組まれています。現時点で二戦が行われ、プロ棋士チームの1勝1敗です。第二局では現役男性プロ棋士が史上初めてコンピューターソフトに負けたことで話題になっています。2010年の清水女流vsあから2010、昨年の米長永世棋聖vsボンクラーズで共にコンピューター側に軍配が上がってから、ソフトはプロ棋士を超えたのではないかという世論（？）であったと理解しているのですが、それにもかかわらず第一局のプロ棋士の圧勝劇、第二局の熱戦を観るに、（第二局でプロ棋士を破ったソフトである）ponanzaの開発者の山本一成さんではありませんが、プロ棋士はすごいと私は感じています。ツイッター上でどなたかが仰っていましたが、記憶力や計算力という将棋に必要な個々の能力の多くでは人間はコンピューターに遠く及ばないにもかかわらず、トータルで見ると良い勝負ができています。この（現時点では）人間固有の力は面白いですし、その人間に少なくともパフォーマンスレベルでは近づこうとしている将棋ソフトの開発は、大げさに言えば、理研の将棋プロジェクトなどと合わせ、人間固有の能力の解明に繋がるものだと感じます。またそれが、コンピューター将棋が人工知能の一部として位置付けられている理由だと理解しています。電王戦の残り三戦も楽しみです。

2013-03-19

十色会で発表

ケンブリッジに十色会という日本人会があるのですが、ここでは毎回ケンブリッジ大学の学生や若手研究者が自身の研究を一般向けに発表し、その後に質疑応答を行います。総合大学の街であることを活かした、なんとも学術的な会です。私も来英以来、時々参加していて、耳学問程度に色々と聞けて面白いと思っていたのですが、先日はついにと言うべきか、発表の機会が回ってきてしまいました。

発表タイトルは「英語を学ぶと英語力は伸びるのか - 第二言語習得研究の知見から -」というもの。コーパスの話をしようかとも思ったのですが、コーパス＋英語教育やコーパス＋SLAで一般ウケしそうなアカデミックなネタが思い浮かばず、SLA一本でいくことにしました。内容は「L2習得＝形式-意味-機能のマッピングの暗示的知識を得ること」を時間をかけて説明したもので、SLAをかじったことのある人にとっては特に目新しい事はないはずです。一般向けとは言えオーディエンスには研究者が多いので、アカデミックな内容(1)と専門柄・土地柄、英語学習へのヒント(2)の二点を含めるようにした結果、(1)に関しては明示-暗示の区別や（特に暗示的学習に関しての）研究法、(2)に関しては具体的な学習法（多読・多聴など）にも多少触れましたが、それよりも考え方（上に挙げたマッピングを意識する＋明示的知識だけではダメ）を伝えるようにしました。発表についての私の後日のツイートはこちらをご覧ください。

先週でLent Termも終わり、supervisionも今年度分はほぼ終了しました。なんだかんだで学期中は時間が取られるので、ようやく冬休み以来の腰を落ち着けて博論に取り組める時間がやってきました。博論はもうあと少しで終わるはずなのですが、ずっとそんなことを言ってる気もします。

2013-03-02

混合効果モデルを用いた縦断的データ分析

ブリストル大学で行われた「Multilevel modelling for longitudinal data, including categorical, count and survival outcomes」というワークショップに二日間、出席してきました。ブリストル大学にはThe Centre for Multilevel Modellingという研究所があり、それに合わせてマルチレベルモデル関係のワークショップ・セミナーなどが頻繁に開催されています。私が博士論文で混合効果モデルを用いて縦断的データの分析を行っていることもあり、今回初めて彼等のイベントに参加しました。マルチレベルモデルの基礎を学んだことがある人が対象で、レベル的には私よりも少し上くらいの人を想定している感じでしたが、講義を理解できないわけではなく、多くのことを学べた二日間でした。以下、私のメモです。私自身もよくわからずメモを取っている箇所もあるので、曖昧な箇所や誤り等ご容赦ください。

【ソフト】

SuperMix: Windows用のマルチレベルモデル専用ソフト。特徴は以下
- 計算が速い
- 非正規分布（混合効果ロジスティック回帰モデルなど）の時にfull likelihoodを用いること。他のソフト（MLwiNなど）はquasi-likelihoodを用いている。

【Mixed-effects models for longitudinal data: An applied introduction】

変量効果＝個々人の平均からの逸脱
共変量構造を見るのも面白い
random-interceptのみのモデルだと、timeによって分散は変わらないという前提（compound symmetry assumption）を置くことになる。しかし通常、縦断的データでは時間と共に分散・共分散は大きくなっていく傾向にある。そのため、random-slopeも入れて分散・共分散が時間と共に変わることを認めた方が良いだろう。
- 実際に、プールしたデータで見てみると、Time 1とTime 2の間の相関はTime 1とTime 5の間の相関よりも高い。これは自然なこと。
縦断的データ分析を行う時にも図は重要。スパゲティープロットや箱ひげ図、multivariate plotなどで分散の推移などを見てみれば良い
変量効果部分の推定値は分散なので、ルート値±1.96に95%のデータが入る
ベイズの墓がロンドンにある
マルチレベルモデルの式を書き、それぞれの推定値が何を表しているのかを考えるとわかりやすい。
- 被験者内モデル
  - $Y_{ij} = b_{0i} + b_{1i} \time Time_{ij} + E_{ij}$
- 被験者間モデル
  - $b_{0i} = \beta_0 + \beta_2 \time Dx_i + v_{0i}$
  - $b_{1i} = \beta_1 + \beta_3 \time Dx_i + v_{1i}$
- 例えば $v_{0i}$ がaverage interceptからのindividual deviationである
- 上の式で、Dxが重要な要因であれば、 $v_{0i}$ 、 $v_{1i}$ が小さくなる。これらはLevel 2 residualsと呼ばれる。
linear transformをすることにより、最後のTimeの時点で群の間に差があるかどうかを検定できる？？
Empirical Bayesは個々人のデータと母集団の傾向に基づく予測値。個々人のデータが少なくても予測できるが、その場合は母集団の傾向（prior）が予測に強い影響を及ぼす。逆に個々人のデータが豊富な場合、予測値は実測値に近くなる

【Mixed models for longitudinal binary outcomes】

回帰モデルのβは単位を調節する役割を果たすと見ることもできる
リンク関数がprobit： $\epsilon_i$ ~ 標準正規分布（平均＝0、分散＝1）
リンク関数がlogistic： $\epsilon_i$ ~ 標準ロジスティック分布（平均＝0、分散＝ $\frac{\pi^2}{3}$ ）
→β推定値はロジスティック回帰の方がプロビット回帰よりも絶対値で大きい（ $\sqrt{\frac{\pi^2}{3}}$ = 1.8倍ほど)
βはsubject-specific odds ratioになる・・？？変量効果があると。
級内相関（intraclass correlation; ICC）とdesign effect (d)は同じような情報を持っている
- 縦断的研究のICCは0.4-0.6くらいになりがち
変数のベースラインがrandamizeされたものであれば、pre-treatmentの分散は意味を持たないので、その変数の主効果は入れずに交互作用だけ入れた方が良い（？）
Generalized Estimating Equation (GEE)はJohn Hopkins大学で研究が盛んなこともあり、米国の東海岸でよく縦断的データ分析に用いられる
実際的には、ロジットリンク関数であれば、σは $\frac{15\pi}{16\sqrt{3}}$ の方が $\frac{\pi}{\sqrt{3}}$ よりも良い (Zeger et al., 1988, Biometrics)
diferent covariance across itemsしたのがIRT？？
- ラッシュモデルをマルチレベルモデルの観点から見ると、全項目に同じ傾き（＝全て同じ弁別力）を仮定している

【Mixed models for longitudinal ordinal and nominal outcomes】

従属変数が順位尺度の場合、P(Y ≦ c)でcは1, ..., C-1となる。Cがカテゴリー数。C-1個のオッズ比が出る。つまり、a-dが順位尺度変数の水準だった場合、a vs bcd、ab vs cd、abc vs dの三つのオッズ比を出す（出して平均する？）ということ。
その閾値が被験者によって異なるというモデルも構築可能だが、大量のデータが必要となる
proportional oddsモデルとnon-proportional oddsモデルがあり、前者はカテゴリー間で変数の影響が変わらず、後者は変わる。（後者は多項式回帰のようなもの？？）
- SuperMixでnon-proportionalモデルを構築するには、Advancedタブでthresholdとの交互作用を入れる
- その交互作用が有意でなければ、proportional oddsの前提が合理的であるということ
- non-proportionalだと、1 vs 234, 12 vs 34, 123 vs 4でdichotomizationするので、情報が失われ、SEが大きくなる
混合効果多項式ロジスティック回帰
- 経済学やtransportationの研究で多項式回帰はよく使われる
- reference cellがあるのが普通だが、それは多項式回帰の必要条件ではない。Holman contrast（？）やprofile contrastでも良い。
- ロジスティック回帰を複数構築するよりも、効率的でSEが小さくなる
- "irrelevance of independent categories assumption" 経済学の用語。変量効果間の相関を認めない？
- 相関を認めるモデルと尤度比検定で比較できる

【Mixed-effects models for count data】

0が最頻値だからどう変換しても正規分布にならないデータなどが対象
オフセット変数：変数の影響を時間によって変える？
negative binomialモデルで過分散パラメータを足すことにより、分散＝平均の制約を緩和できる

【Mixed-effects models for discrete- and grouped-time survival data】

continuous timeの混合効果モデルは難しいが、discreteにしても10水準ほどあるとあまり情報は落ちない（Liu & Huang, 2008, Statistics in Medicine）
group time: 対象事象がある時間内（インターバル）に発生したという情報はあるデータ（interval-censored）
混合効果生存分析を扱った文献。
- Hedeker, Siddiqui, & Hu (2000). Random-effects regression analysis of correlated grouped-time survival data. Statistical Methods in Medical Research, 9, 161-179
- Hedeker & Mermelstein (2010). Multilevel analysis of ordinal outcomes related to survival data. Handbook of Advanced Multilevel Analysis, Hoop & Roberts (eds.), Taylor and Francis
hazard ratioの解釈を行うなら、ロジットよりもclog-logをリンク関数にする方が良い。ただし二者にそれほど大きな違いはない。
quadrature pointsの数は奇数の方が良いという意見がある。0を入れられるため？？
clog-logのerror distributionは $\frac{\pi^2}{6}$
continous timeの混合効果モデルを構築できるソフトはあまりないが、STATAはできる？

2013-02-26

ドラフト完成まであと少し

博論で少し行き詰っています。以前からわかっていた箇所で、これが最後の山になるはずです。これを越えればゴールはすぐそこなのですが。本来であれば今週の頭にはドラフトが完成している予定でしたが、それはもう少し先になりそうです。

先日、ツイッター上でコーパス言語学とは何かという議論で盛り上がり、そのまとめがこちらにあります。「コーパス言語学者」と「コーパスを使用する言語研究者」に違いはあるのか、コーパス言語学に固有の領域や課題はあるのか、というのは私もしばしば考える問であり、面白く議論させて頂きました。現時点では、私も@langstatさんが仰るようにコーパス言語学は「ラベル」、良くて「コミュニティー」くらいではないかと考えています。

Corpus Linguistics 2013に採択されました。CLは2011年に続き、二大会連続での発表になります。今年は7月22-26日にランカスター大学で開催されます。その頃には博論周りにことは全て終わっているはずなので、まだ行っていない湖水地方にでも寄れればいいのですが。

2013-02-09

English Profile Research Seminar 2013

標題のセミナーに参加しました。後日つぶやいたもののまとめはここにあります。EPセミナーは来英した直後から参加し続けているので、はや四年目になります。小規模のセミナーで四回連続（ケンブリッジ大学関係者のみの会合も含めるともっと）ともなると、参加者の過半数が知り合いとなり、参加する楽しみも増えます。

今年は私も発表しましたが、早口だったのか、時間単位の情報量が多かったのか、ストーリー性がなさすぎたからなのか、一昨年と比較してウケは悪かったように思います。大半のオーディエンスに取って手法的に目新しいことを行っている自覚はあったので、もう少し咀嚼する時間を確保しなければなりませんでした。細部を省略することにより情報量を落とし、伝えたい内容をもっと前面に押し出すべきでした。

さて、振り返れば、ケンブリッジに来て初めての研究発表は一昨年のこのセミナーでした。そして今回の発表が学生として（またおそらくケンブリッジ大学所属として）最後の研究発表になる予定です。EPで始まりEPで終わるのは博士過程で学習者コーパス研究を行っている身として冥利に尽きると言うべきところでしょうか。EPの内部・近辺の方々には大分成長させて頂いたように思います。来年以降も参加したいと思っていますが、どうなるか現時点でははっきりとしません。

2013-01-31

淡々と博論

先週十色会（日本人会）方々をHughes HallのFormal Hallに招いたりしていましたが、基本的には相変わらず博論やその後の進路に向けて色々と動いています。少し心配していたチョムスキー階層に関するsupervisionも何とかこなし、supervisionの授業（計算言語学）は意味を扱うパートに入ってきました。こちらも私が意味論を勉強したことがないためか、なかなか大変ですが、冬休み中の貯金（この辺りの章は予め読んでおいた）と気合いで乗り切ります。

来週のEnglish Profile Research Seminarで発表することが決まりました。昨年末に発表したい旨は伝えていたのですが音沙汰がなく、どうなったのだろうと思っていたところ、先週になって「final programme」が送られてきて、そこに私の名前を確認しました。一昨年とは違い、30分の枠を頂けるようです。発表内容は決まっていますが、スライドは半分強くらいしか使い回しできるものがないと思うので、残りは作らなければなりません。博論の図は白黒なのでそのまま発表で使いづらいのが痛いです。

EP Seminar後には、10日にEUROSLAの〆切が、15日にLCRの〆切がありますね。学会開催時に私がどこにいるのか不透明ですが、一応今のところは出すつもりでいます。

DTAL（旧RCEAL）留学記録

2010年1月から2014年半ばまで在学していたケンブリッジ大学理論・応用言語学科でPhDを取得するまでの記録です。