DTAL(旧RCEAL)留学記録

2010年1月から2014年半ばまで在学していたケンブリッジ大学理論・応用言語学科でPhDを取得するまでの記録です。

統計を活かした第二言語習得研究?

以下は先日のtwitter上での[twitter:@langstat]さんや[twitter:@taku_kaneta]との意見交換(?)に基づいて色々と考えたことです。まとまりなく、結論もありませんが、思考の整理も兼ねてアップします。(追記:こちらにlangstatさんがこの記事の基となったtwitter上でのやりとりをまとめてくださいました。ありがとうございます。)


私は研究者を志望しているため、研究コミュニティー内での自分の立ち位置を頻繁に意識します。もう少し具体的に言うと、今後どういう研究を行っていくのか、ということです。学術的な興味を尋ねられるとコーパス言語学第二言語習得を中心に挙げていますが、最近は統計にも強い関心があり、今のところPhDプロジェクト(博論のための研究)は相当に統計色が強い内容となっています。また今年に入ってから購入した専門関連書籍(学術書のほかに英語教育関連の新書なども含めます)は13冊なのですが、そのうちSLAに関するものは3冊であるにも関わらず、統計のものは5冊(5/13 = 38%)になります。所持している専門関連書籍は計215冊*1で、そのうち統計関係は28冊(R本は全てここに含めてカウント)に過ぎないこと(28/215 = 13%)を考えると、統計への傾倒が高まっていることがわかります。


M2の時の授業テキストの一冊でもあったBaayen (2008)は、言語系の院生や研究者向けに書かれた統計の書籍としては非常に高度で、面白い統計手法が多く紹介されています。しかし、様々な統計手法を解説した書籍で言語習得や教育を含む言語系のネタを中心に扱っているものは、これ以上のレベルでは今のところありません(そもそも言語系をネタにした統計書が少ないということもありますが)。そうなるとトピック(「縦断的データの分析」など)や手法(「共分散構造分析」など)を限定しない限りは、これ以上深く統計を学ぶことができないということになります。例えばこちらに来てからはマルチレベルモデルを中心とした回帰モデルについて特に勉強していて、学んだことの多くの部分はまだ言語習得系の研究にはほとんど活かされていないものです。


しかし、ここからが本題なのですが、そこまで行くのは費用対効果という点から望ましいのでしょうか。統計手法を身につけることによって可能となる研究や広がる視界は確かにあります。しかし徹底的に統計で勝負をするというのであればまだしも、「まだ言語習得・教育研究分野には導入されていない新しい手法」を身につけるのと引き換えに対象分野に関する深い知見・洞察を得る機会を失っているのであれば、それは本末転倒なのではないでしょうか。なまじ統計は学ぶとできなかったことができるようになったりより良い手法を選択できるようになったりと、学習成果が見えやすいだけに過大評価しがちで、機会費用との比較によるリスク評価を正確に行えている自信はありません。これはプログラミングにも通じるのですが、統計もある程度まではスキルなので、費やした時間と実力が明確に比例してしまうのです。一方でSLAの論文を2〜3本読んだところで、余程「当たり」の論文を引かない限りは自分の中で何かが明確に変わるということはありません。


さて、「費用対効果」の「費用」は勉強量のことですが、では「効果」や「機会費用」の「機会」とは何か。これは研究者としての潜在力、より具体的には第二言語習得理論へ貢献できる可能性です。SLAで一線級の研究を行うには、SLAの文献を読むことに加え、理論的貢献を目指す部分に関しては分野外の文献を読まなければいけないことが多いように思います。例えば第一言語獲得研究や心理言語処理研究、あるいは認知心理学でのカテゴリー学習に関する研究などをイメージしています。しかしSLAの標準的な文献(自身の研究に直接的に関係のあるSLAの枠組みの中で行われた研究。SSLAやLLのイメージです)に加えて統計手法を深く学んでいくと(言語系以外の統計書籍や統計論文にまで手を出すと)、両分野ともに日進月歩であるため、上述したような分野外の文献にまで手が回りません。全てを中途半端にやるという選択肢はないので、ここでの可能性の一つは「分野外の文献」=統計の文献とし、統計からSLAへの貢献を目指すという道です。つまり「必要最低限以上の統計の勉強」という費用に見合った効果を期待するということです。これは可能なのでしょうか。


私は「統計好き」なので機械学習などをSLA研究に活かせないかと考えることが時々あるのですが、手法だけでは研究は成り立たないのでそこは分野の知識(+創造性や思考力など)が必要になります。langstatさんが言われるように、結局は変数選択の問題で、新しい知見を産み出すためには「何で解くか」ではなく「何を解くか」が重要なのです。いま私が次の研究のために考えているのも「L2習得に影響を及ぼすインプット内の性質」ですから、まさしく変数を挙げているわけです。しかし重要なのが変数の決定だとすると、いくら統計を学んだところでSLA理論への貢献はおぼつきません。一方で第一言語獲得や心理言語処理の研究の方がより直接的にSLA研究に役立ちそうで、そうなるとSLAへの理論的貢献を目指した場合、統計に力を入れるのは賢い選択ではなさそうです。


それとは別に、そもそも統計手法駆動で研究計画を立てても良いものなのかという疑問もあります。結局は理論的貢献度で勝負をするとは言え、このタイプの研究はテーマが相当に限られてしまいます(同じことが学習者コーパス研究についても言えます。この辺りについても思うことがあるのですが、それはまた別の機会に)。ただこれは必ずしも悪いと言い切れない気もします。統計でできることまで分野を落としこむイメージでしょうか。


これまで統計手法を通してSLAへの貢献を目指すことの弊害ばかり述べてきましたが、利点もあります。これまたlangstatさんが言われていたように、「統計好きの言語学者は隙間産業」というのがそれです。分野柄なのか統計を得意とする人は少なく、しかし一定の必要性はあるので、その意味では「統計好き」が貢献しやすい部分なのかもしれません。しかしSLA研究では心理統計を援用することが多く、心理統計自体は一研究分野であり活発に研究が行われています。現在の心理統計の流行り(の一部?)はSEMやIRTを含む潜在特性モデルとマルチレベルモデルですが、その辺りの専門論文は数理色が相当に強くおそらく私はほとんどまともに理解できないため、そこで勝負をしようという気にはなれませんし、そこと言語習得研究者を結びつけるような統計書・論文を書く人もいるようです。そう思っていたところ、心理統計では機械学習はほとんど用いられていないとやはりlangstatさんに教わり、確かにあまり心理統計系の専門誌でも見ない気がします(タイトルから判断しているだけですが)。しかし統計の更に機械学習となると研究範囲が更に狭くなるという問題(だとすれば)があります。


SLA研究者にとって馴染みのない統計手法を積極的に用いることにより理論的な貢献を目指す、ということについて利点と弊害を述べましたが、そもそもコストベネフィットで考えるよりも前に、自分が統計を好きであればやってみればいいじゃないか、という(若者らしい)考えもありそうです。ただその場合、将来食べていけるかどうか、分野に理論的貢献を残せるかどうかは別問題になりますし、また好き嫌いの感情は簡単にひっくり返るような気もします。

*1:専門関連書籍の購入ペースが鈍ってますね・・。まあその代わりに論文を読むようになった・・・と思いたいです