DTAL(旧RCEAL)留学記録

2010年1月から2014年半ばまで在学していたケンブリッジ大学理論・応用言語学科でPhDを取得するまでの記録です。

R. Harald Baayen氏の講演とEnglish Profile Research Seminar

2月6日(木)・7日(金)とケンブリッジに戻り、R. Harald Baayen氏の講演×2(木)と毎年恒例のEnglish Profile Research Seminar(金)に出席してきました。氏は当ブログでも何度か触れていますが、混合効果モデル等の複雑なモデルを言語研究に用いられた、言語研究における(進んだ)統計利用のパイオニアと呼べる方です。これも当ブログで触れたことがありますが、2008年のAnalyzing Linguistic Data: A Practical Introduction to Statistics Using Rは私の統計分析のバイブルです。今回はケンブリッジ大学言語学科(DTAL)のComputational Linguistics Research Clusterという所とLinguistic Society(LingSoc:言語学サークル)が共同で氏をお招きしたようです。


木曜日の午前中はそのリサーチクラスターのイベントで、DTAL所属・元所属の計算言語学コーパス言語学周りの研究を行なっている学生・ポスドクによるdistributional semantics等の発表の後、Baayen氏のGAMM(Generalized Additive Mixed Model: 一般化加法混合モデル)に関する発表。混合効果モデルと加法モデルを組み合わせるというもので、私は2012年のベルギーのイベントでの氏らの発表で初めてその手法を知り、その後、主に氏の論文(これこれ)で更に学び、博士論文にこそ含めませんでしたが、私のデータに走らせたこともあります。今回はベルギーでの発表のGAMMの部分に特化し、更に様々な具体例等を加えたもので、具体的なRコードも含め、色々と学ぶことができました。この辺りは余裕があれば別記事を書いてみたいです。


同日の午後はLingSocのイベントで、Baayen氏による「Implicit Morphology」と題した講演。「言語研究における統計利用のパイオニア」はあくまで氏の副次的な側面で、本職(?)は心理言語学者。本講演ではRescorla-Wagner equationsという学習アルゴリズムを用いて、diphoneを素性として名詞の複数形をアウトプットとするコンピューターモデル(spread activation model)についてお話されました。形態素を明示的に表象として設けなくても複数形を正しく生成でき、また言語獲得過程で見られるような(?)誤りも再現できたとのことです。基となっているモデル自体は2011年にPsychological Review誌上で発表されています。LingSoc後のワインレセプション時とその後の夕食時に色々と直接お話させて頂け、また実際に私のデータを用いてGAMMのミニチュートリアルまでしてくださり、私にとって大変有意義なイベントでした。


金曜日はEnglish Profile Research Seminarへ。2010年に出席し始め、はや5回目の参加です。午前中は主に今年からケンブリッジに設立されたALTA (Automated Language Teaching and Assessment)関係の話。dependency parserの出力を素性空間とした熟達度推定、人工的に誤りを挿入することによるラベル付きデータの生成などについての発表がありました。


続いてはAdam Kilgarriff氏による発表で、以前からあるForBetterEnglish(語を入力すると容易な語彙からなる短い文のみを返してくれるウェブサイト)に加え、SKELL(Sketch Engine for English Language Learning)というウェブサイトを公開されたようです。ここでは語を入力するとその語の文単位でのコンコーダンスライン、ワードスケッチ、シソーラスを見ることができます。背後のコーパスはUKWaCだそうです。ForBetterEnglishもSKELLも外国語教育でのコーパスの直接利用を目指したもので、通常のコンコーダンスラインは学習者には難易度が高く、またSketch Engineのようなウェブコンコーダンサーは多機能な反面直感的な操作がしづらくなってきているので、これらを開発した、という経緯だと理解しています。言語教育でのコーパスの直接利用というと、コンコーダンスラインから帰納的に学習を行うというデータ駆動型学習(DDL)を真っ先に思い浮かべますが、ワードスケッチのような要約情報を文脈とリンクした形で提示するというのは、DDLに比べて現実的な選択肢かもしれないと感じました。


続いてドイツのチームによるPragmatic profile、(私は関わっていませんが)バーミンガムのチームによるmetaphorical competence、最後にNeil Jones氏によるLearning-Oriented Assessmentの話があり、閉会となりました。今年も様々な方々とお話することができ、楽しいイベントでした。来年以降も可能であれば参加したいと思います。