UCREL Summer School in Corpus Linguistics - DTAL（旧RCEAL）留学記録

標題のイベントに参加してきました。日程は半日＋一日＋半日の三日間。コーパスを使った研究をしている（≒コーパス言語学の基礎的な知識はある）博士課程の学生が主な対象者で、参加者は英国内は当然のこと、スペイン・ドイツ・イタリア・フランスなどの近隣諸国や、更には中国からこのイベントのためだけに来た、という人たちもいました。人数は40人弱（定員）で、男女比は男性：女性 = 1:2くらいだったと思います。意外と学習者コーパスに興味がある人が多く（参加者の半数前後）、ほかには文体論を研究している人が5-6人という感じだったと思います。参加費はありません。

サマースクールと名付けられているもの集中講義のようなもので、120分×8コマ（1コマのみ105分）という構成で、講師は全員ランカスターの教員です。以下に大雑把に内容を紹介します。講義が主で、実習は1.5コマ分くらいでした。

【初日の一限目： Corpus-based discourse anlysis（講師：Paul Baker）】

談話分析とは。批判的談話分析（CDA）とは。
CDAでcherry-picking approach（都合の良いテキストのみを選んで分析すること）を避ける一つの方法がコーパスを用いること
corpus-based / corpus-driven / combination。何らかの形でcombinationになることが多いのではないか。例えばcorpus-drivenにキーワードを抽出して、コンコーダンスラインでキーワードを見てみることによって仮説生成し、それを検証するために細かくコンコーダンスラインを見る（corpus-based）など。overall pictureからsmall pictureへ、という流れを繰り返す。
キーワード分析ではキーワードを一語一語分析するのではなく何らかの基準で分類するべき。またdispersionも重要。更にキーワード分析では相違点はわかっても類似点は分からない。
コロケーション分析ではコンコーダンスラインも合わせて見るべき。
無冠詞などカウントが難しい言語特徴もある
後半はSketch Engineを用いたプチCDA実習。Muslimという語が新聞コーパス（？）でどのように扱われているかを見る

【初日の二限目：Corpora and sociolinguistics: Studying linguistic innovators（講師：Costas Gabrielatos）】

ロンドンで不定冠詞＋母音（例えばa apple）とpragmatic markers (例えばyou knowやdo you know what I mean）をアングロ/非アングロや年齢を説明変数として比較
a + appleを見る時はan + appleも見るべき。補完的な分布を示すから。つまり使用機会全体を見ることが重要。
各群の中でどれくらいの人数がそれらの表現を用いているかも見るべき（一部の人が総頻度の95%を占めている、など）。一部のみが使用している場合は、その表現は出現しつつあるものや古いもの。
結果を見てみるとa + 母音も14.9%あった。話者別に見てみると、機会によってa+母音とan+母音の両方とも使っているのが51.7%とマジョリティー
- 1993年と比較して2005年では使用頻度が大きく伸びた
人は複数の分類に属する（男、非アングロ、若年、など）ので複数の説明変数を入れた方がより良い結果が出る

【二日目の一限目：Corpus statistics: The fundamentals（講師：Andrew Wilson。一部Andrew Hardie）】

キーワード分析に焦点を当てる
null-hypothesis significance testing（NHST）は色々と問題が多い
p値とは「帰無仮説が正しい時に」観察結果が得られる確率だが、コーパスの文献では「」内に注意を払わない説明が多い
キーワード分析でのp値の解釈は難しい。何を指すのかがわからない。
対案としてベイズ統計がある
- Bayes Factorを計算する
- 実際に計算してみる。
頻度を二つのコーパス間で比較する場合は対象語がコーパス内に占める割合を比較している。その場合の帰無仮説は「割合の差がゼロ」というものであって「相対頻度が同じ」というものではない。
AHによるオンライン統計ツール紹介

【二日目の二限目：Comparable corpora: And recent changes in English grammar（講師：Geoffrey Leech）】

Brown family
- BrEはLanc-1931 [B-LOB] → LOB (1961) → FLOB (1991/2)
- AmEはBrown (1961) → Frown (1991/2)
- BrEの1901 (Lanc-1901)、2006 (BE06)版、AmEの1931 (B-Brown)、2006 (AE06)版を作りたい（作っている）
上記に加え BNCの話し言葉部分やCOCAも用いて英語の（短期的な）歴史的変化を追う
英語の変化には「grammaticalization」、「colloquialization」、「Americanization」、「densification」の四つの理由が少なくとも考えられる
grammaticalizationの例としてはmustの減少＆have toの増加、need to Vの増加など
colloquializationの例としては短縮形（n't）や現在進行形の増加、受動態の減少など
Americanizationの例としてはhelp to Vと比較した際のhelp Vの増加など
- 時差を置いてイギリス英語がアメリカ英語に従う傾向にあるが、これはアメリカ英語の影響なのか、それとも同じ影響が両者に出ているのか→前者ではないか
densificationの例としてはS-ginitive ('s)やnoun-nounの増加など
関係詞関連だと関係詞のwhichは減少、thatは増加、接触節は無変化という傾向にある
- 理由は不明

【二日目の三限目：Collocation across semantic categories in Wmatrix（講師：Paul Rayson）】

WmatrixはBNCwebなどのようにウェブベースのシステム
自分のデータをアップロードして使うことができる
頻度リスト、コンコーダンス、キーワードなど定番機能のほかに、意味タグを振っている。精度は91%。
もうすぐJava APIも出る
意味タグにより、semantic prosodyの研究などができる
Wmatrixの実習
コロケーション統計を比較した論文：Piao, S. (2002) Word alignment in English-Chinese parallel corpora. Literary and Linguistic Computing, 17(2), 207-230

【二日目の四限目：Designing and documenting a corpus（講師：Andrew Hardie）】

一般に公開するようなコーパスを作成する際に必要となる以下の四点について解説：「内容選択」「フォーマットデザイン」「メタデータの付与」「コーパス関連文書・マニュアル」
内容選択
- テキストを分類するならどのように分類するか。平らなのか階層的なのか単一テキストが複数カテゴリーに属する形なのか
- 代表性と均衡性
  - Brown Family、ICLE、COCA、BNCなどを例に
  - BNCは元は9分類だがDavid Leeは70分類した
  - 出版形態として書籍と新聞の均衡が取れていて、トピックとして政治とスポーツの均衡が取れている時に、（例えば）政治に関する書籍とスポーツに関する新聞の均衡は取れている必要があるのか
フォーマットデザイン
- エンコーディング、マークアップ、アノテーション
- マークアップとアノテーションの境ははっきりしない
メタデータの付与
- 分類に関するメタデータ（当該テキストがどの分類に属するか）とその他（タイトルや元URLなど）があるが、二者の区別ははっきりしない。例えば出版年はどちらにでもなり得る。
- メタデータはファイルの一部（内など）に入れてもデータベースに入れても良いが、後者だとミスが起こりやすい
- テキスト未満のレベルのメタデータとして文番号や発話者のマーカーなどがある
コーパス関連文書・マニュアル
- メタデータを（XMLなどではなく）読みやすい形で記す
- テキストファイルやHTML、RTF/PDFなどで書く。MS Wordなどの特定のソフトに依存するものは避けた方が良い。将来的な互換性が保証されない。
均衡コーパス＝均衡性を保つことにより代表性を有することを目指しているコーパス
コーパス作成に関する書籍：Wynne (2005) Developing Linguistic Corpora: a Guide to Good Practice（http://ota.ahds.ac.uk/documents/creating/dlc/citation.htmで閲覧可能）
個人的には最も面白かった講義

【三日目の一限目：The web, laws and ethics（講師：Tony McEnery）】

昔は物理的にデータをやり取りしていたので（コーパスに含める旨の）許可をその時に取ることが可能だったが、今はWWWから許可なくデータを得られてしまう（BootCatなど）
そうすると著作権の問題がある
著作権も問題かもしれないが、倫理的な問題もあり、後者はコーパス言語学ではあまり触れられてこなかった
anonymizeされていても特定できる場合が少なくない（BNCを例に）
- 完全な特定までは至らなくても、話者が自国名を高頻度で用いていたりする
- 例えば話し言葉コーパスで二人が第三者を批判している場合、その第三者からはコンセントを得なくて良いのか
Corpora-Listで7-8年前にswearing wordsを検閲すべきかという議論があった
hate speech corpusは英国では公開できない（法的に）

【三日目の二限目：Pragmatics in (historical) corpus data（講師：Jonathan Culpeper）】

会話分析は語用論の一種だと主張する人とそうではないと主張する人がいる
語用論をコーパスを用いて研究する場合、発話者のみではなく話し相手の情報もタグに含める必要があるが、そうするとタグが複雑になる上、一つのセル当たりのデータ量が少なくなってしまう
VARD2の紹介
- 初期近代英語の綴りのバリエーションを現代化する
- 元のスペルの情報も保持したまま
- CLで2時間のワークショップを行う

【感想など】
上のまとめからはなかなか伝わらないかと思いますが、相当に充実したイベントでした。自然言語処理や統計ではなく、「コーパス言語学」の中級者向けの講義といった感じで、これまでそのレベルの講義（「コーパスとは」から始まらないコーパスの授業）を受講したことがなかったので大変興味深かったです。そのレベルでの講義が可能なのもランカスターのコーパス言語学者の層が厚いからで、そこはさすがランカスター大学という印象を持ちました。

また講義以外でも、コーパスを用いて研究を行なっている博士課程の学生が集まる上に割と少人数（40人弱）で三日間同じ授業を受け同じ建物に宿泊するので、話す機会も多く（授業間には必ず30分以上の休憩があり、夕食も一緒に食べることが多いです）、また話もよく合います。例えばスペイン人で日本語学習者コーパスのプロジェクトに関わっていたことがあり、東京外国語大学と協力して日本語母語話者データを集め、上智大学のイスパニア語学科とも協力していて今度そこから研究者が来る。自身はXML形式での学習者コーパスにエラータグ付けをしていて、それをXqueryなどを用いて検索可能なシステムを構築している、という人と割とよく話をしたのですが、相手に関するこれだけの情報は通常の学会などで一言二言話すだけではなかなか得ることができません。ほかにもNLP専攻のドイツ人や文体論を研究しているスコットランド在住のアメリカ人、ジオスで働いていたというオランダ人など色々な人と知り合いになれ、今後コーパス関連の学会に行く楽しみが増えました。

総じて、勉強という意味でもネットワーキングという意味でも、通常の学会よりは将来の役に立つイベントだったのではないかと思います（しかも学会と違いタダですし）。今年は受講希望者数が定員を上回り参加できない学生もいたらしく、来年はその人達を優先する形で、今年と同一の内容をもう一度行うそうです。渡航費が嵩みますが、日本からでも参加を検討する価値があると思えるイベントでした。