DTAL(旧RCEAL)留学記録

2010年1月から2014年半ばまで在学していたケンブリッジ大学理論・応用言語学科でPhDを取得するまでの記録です。

Digital Humanities

表題の学会に出席しました。この半年間Departmentでは言語系、認知系SLAを中心に純人文系のことばかりを学んでおり、少し計算言語学や統計に関するインプットが欲しいと思っていました。そんな折にlangstatさんが本学会についてtwitter上で一ヶ月くらい前につぶやかれ、面白そうだと思ったので参加してみることにしました。


会場はKing's College Londonケンブリッジからロンドン行きのバスでEmbankment駅まで行き、そこから徒歩10分のところにある大学です。その(ケンブリッジ住人に取っての)立地条件の良さから、四日間ケンブリッジ-ロンドンを通うことにしたのですが、朝から晩まで学会(+食事会)のため、起床が5時、帰宅が1時前というなかなかハードな生活になってしまいました。また通った方が安価なのかと思いきや、意外と宿泊しても場所を選べば金銭的には大差ないようですし、今度このような機会があればロンドンに宿泊しようと思います。


さてこれでロンドンではImperial College LondonUniversity of London、King's College Londonと著名な大学は大体巡ったことになります。そのお陰で大学を中心にロンドンの地理を覚えてしまい、その三大学のいずれも位置していない北西部はイマイチわかっていないままです。今度観光でその辺りを少し歩いてみようかと思います。


肝心の学会ですが、先週のISSAよりは私の分野に近いものの、如何せん本学会は対象としている範囲が人文学全体と広く、セカンドライフ内での博物館(virtual museum)運営など全く馴染みのない発表も多くありました。ただ四部屋あるパラレルセッションの内の一つはテキスト処理系や辞書学系など、私の分野に当たらずとも遠からず程度の発表が多く、結果として拝聴した発表は一定の理解ができたものが多かったです。


拝聴した発表は著者推定がテーマであることが多かったのですが、これまでちゃんと研究発表を聞いたことがない分野で、なかなか面白かったです。学会柄、統計的な手法がメインなのですが、PCA、クラスター分析、multidimensional scaling、Levenshtein distance、entoropyなどの語やフレーズを聞いてウキウキしてしまう辺り、やはり自分は人文系の中ではそういう志向を持った人間なのかもしれません。


特に面白いと思ったのはMaciej Eder氏の「Does Size Matter? Authorship Attribution, Small Samples, Big Problem」という発表で、著者推定の際のサンプルサイズ(語数)を変えることによる精度の変化を見るシミュレーション研究で、具体的には以下のような内容です(追記:本学会でBest Paper賞を受賞した研究です。langstatさんご指摘ありがとうございます)。


30著者(?)、65作品でテストし、サンプルの中から高頻度語100語を用いたデルタ値(高頻度語を用いたテキスト間類似性尺度。著者推定では最もよく用いられる値の模様)に基づく著者推定を行う。結果は、サンプル語数が500語(=作品から500語を無作為抽出し、その500語の中から高頻度語100語を用いて推定を行う場合)だと推定の精度は2.1%程度だが、600語なら8.6%、700語だと19.5%と、精度はサンプル語数を増やせば上がって行き、20000語では95.6%となる。この精度曲線を見るとサンプル語数5000語程度までは急上昇し、そこからは緩やかな上昇となることから、著者推定には最低5000語のサンプルサイズが必要で、それが叶わない場合は頻度以外の情報を組み入れた方が良いと言える。デルタ以外の類似性尺度もmultidimensional scaling、クラスター分析、PCAなどを試してみたが、傾向は変わらない。またこの結果は英語だけではなく、ドイツ語、ポーランド語、ハンガリー語などでも同様の現象が見られる。



この研究でもう一点面白いと思ったのは、作品の中から無作為抽出した500語で推定するのと、500語のパッセージを抜粋してそれを用いて推定するのでは、前者の方が精度が高いということです。発表者の話し方から察するに著者推定の分野では広く受け入れられている考えのようでしたが、まとまった分量を抜いてそれに基づいて分析をした方が結果が悪くなるというのは興味深いです。これは例えば章が変わると場面や登場人物が変わり、その結果用いられる語彙が変わるため、特定の章からのみサンプルを抽出するよりは完全に無作為に抽出した方が語彙のバラエティー(typeという意味だけではなく、意味範疇的も)が豊かになるということでしょうか。


学会の発表以外では、求人者と求職者がアピールする場がランチタイムにあり、面白いと思いました。これは主にPhDを終える学生やPDの任期が切れる若手研究者を対象に、研究者(or学生)側は自己アピールを、求人者側(大学機関であることがほとんどでした)はポジションの説明や求めている人材の描写をそれぞれ30秒で行うというものです。これでどれくらい需要と供給がマッチして雇用に至るのか興味がありますが、実際の人物を見て雇用者や求職者がアプローチできるのはミスマッチを減らすのに寄与するのではないかと思います。


さて、本学会に出席した最大の益はlctabata先生(Best Poster Prizeおめでとうございます!)を始めとして、これまで知り合う機会のなかった文理融合分野の方とお会いできたことです。実は本学会には日本人が総勢27人出席していて、これはトータルの参加者が400人強で開催地がロンドンであることを考えると、非常に高い割合なのではないかと思います。内訳は立命館大学が「日本文化デジタル・ヒューマニティーズ拠点」というグローバルCOEを走らせている関係で最多の7名(くらい)。後は東大が多く(5-6名でしょうか)、ほかはマチマチという感じでした。学会中はその日本人の中の10-14名程度で夕食を共にし、私もそこに混ぜて頂いたのですが、その席で色々な方とお話させて頂けました。仲介してくださったlangstatさん、本当にありがとうございました。


以下、学会中に撮った写真を何枚か載せておきます。


King's College London内にあるチャペル。なかなか美しい。



廊下。右側は本棚になっています。なぜ廊下に本棚があるのか不思議。



三日目のレセプション会場。これでも建物内です。



日本のDigital Humanitiesについてのパネルセッションがありました