京都大学 学術情報メディアセンター 自然言語処理グループ

日本語係り受けコーパス (Japanese Dependency Corpus) English

概要

日本語係り受けコーパス (Japanese Dependency Corpus; JDC) を作成・公開しています。

様々な分野のテキストに対して係り受けを付与しており、分野適応を含む、係り受け解析の研究・実験に用いることができます。

日本語の既存の係り受けコーパスではアノテーションの単位を分節ごとに行っていましたが、JDCは他の言語における係り受けコーパスと同様に単語ごとのアノテーションを行っています。 単語の単位は、現代日本語書き言葉均衡コーパス ( The Balanced Corpus of Contemporary Written Japanese; BCCWJ ) の短単位を採用しています。 唯一の相違点として、活用語尾を分割しています。

倒置などを含まない日本語の書き言葉は、右から左への係り受けのみであり、現在のコーパスには、逆向きの係り受けは含まれていません。 しかしながら、日常的な文章には交差する係り受けが出現することもあります。

コーパスの詳細

分野 文数 単語数 文字数
BCCWJ ClassA + 2012
(train)
OC 1,614 33,078 46,435
OW 1,552 62,735 90,610
OY 1,858 31,563 46,481
PB 2,254 53,037 73,194
PM 2,514 42,800 65,245
PN 2,590 57,319 83,985
小計 12,382 280,532 405,950
ClassA-1
(test)
OC 500 9,846 13,752
OW 504 23,952 34,203
OY 509 9,239 13,340
PB 511 11,792 16,512
PM 495 7,415 10,396
PN 505 12,621 18,456
小計 3,024 74,865 106,661
小計 15,406 355,397 512,611
EHJ train 11,700 147,964 198,196
test 1,300 16,433 21,950
小計 13,000 164,397 220,146
NKN train 9,023 263,425 398,567
test 1,002 29,037 43,694
小計 10,025 292,462 442,262
RCP train 662 12,008 18,174
test 62 1,139 1,786
小計 724 13,147 19,961
JNL train 322 12,263 20,332
test 32 1,116 1,868
小計 354 13,379 22,200
NPT train 1,750 71,208 111,394
test 250 10,497 16,409
小計 2,000 81,705 127,803
合計 41,509 920,487 1,345,041
右表に日本語係り受けコーパスの詳細を示します。

根となる単語を除くそれぞれの単語にはその親となる単語 ( 係り先 ) がアノテーションされています。 このため、コーパスの係り受けの数は単語数から文数を引いた数となります。 日本語係り受けコーパスの出典を以下に示します。


係り受けアノテーション基準

ここでは頻出する言語現象におけるアノテーションのガイドラインを述べます。

単文

基本的に日本語はSOV言語で、単純な文は主語、目的語、動詞の順番となります。 ほとんどの名詞句は格マーカーを持ち、動詞の役割を決めています。 主動詞節のみ文の最後に来る必要があり、主語 (subj.)、直接目的語 (d-obj.)、関節目的語 (i-obj.)、副詞句などの動詞修飾の順序は決まっていません。



複合語

複合語はその構造を記述するようにアノテーションしています。 右の例のように、複合語の修飾句は複合語の親に係り、そこから出て行く係り受けがただ一つ存在します。



コピュラ文

いくつかの文はコピュラ構造を持ちます。ほとんどのコピュラ文は以下の形式をとります:

N 1 は. N 2

ここで "は" は、助動詞 "だ" ではなく、N 2に係るようにしています。 これは、助詞"と"を伴う節や並列文などで助動詞 "だ" が省略される場合 ( 右図参照 ) にも構造が変わらないようにするためです。



並列文

2つ以上の句が並列構造となっている日本語文では、そのマーカーとして"と"が多く出現します。 このマーカーは英語の"and"と同様にそれぞれの要素を接続します。

EDA による解析結果

EDAによる各分野の解析精度
テスト\学習 BCCWJAll full+partial
ClassA-1-OC.tree93.0992.99
ClassA-1-OW.tree88.7288.91
ClassA-1-OY.tree92.3092.46
ClassA-1-PB.tree90.6890.94
ClassA-1-PM.tree93.1492.59
ClassA-1-PN.tree91.1791.33
EHJ-test.tree 96.4396.97
NKN-test.tree 91.4392.77
RCP-test.tree 86.6392.85
JNL-test.tree 84.2390.59
NPT-test.tree 87.4192.64
参考として、 EDA parser による解析精度を表に示しています。 学習コーパスは
  1. BCCWJ: 2012の6,406文 [Mori, et al., LREC2014]
  2. All full: BCCWJ 2012 + 残りの train
  3. (under const.) +partial: All full + partial
とし、テストデータは BCCWJ の ClassA-1 と各分野の test としています。

ファイル

リンク

メンバー

参考文献

A Japanese Word Dependency Corpus
Shinsuke Mori, Hideki Ogura, Tetsuro Sasada
LREC, pp.753-758, 2014.
A Pointwise Approach to Training Dependency Parsers from Partially Annotated Corpora
Daniel Flannery, Yusuke Miyao, Graham Neubig, Shinsuke Mori
Natural Language Processing, Vol.19, No.3, pp.167-191, September, 2012.
Training Dependency Parsers from Partially Annotated Corpora
Daniel Flannery, Yusuke Miyao, Graham Neubig, Shinsuke Mori
IJCNLP, pp.776-784, 11/10, 2011.

Last Change: 2015/10/29 by Tetsuro Sasada
京都大学 学術情報メディアセンター 自然言語処理グループ