係り受け解析

単語分割に続く文理解への取り組みとして、構文解析に取り組んでいます。 日本語に対する既存研究では、文節単位の係り受けとすることが多いです。 しかし、後で述べる利点から、単語を単位とすることを提案しています。

単語単位の係り受け解析の結果、単語をノードとする根付き木が得られます。 ノード(単語)間のエッジは、単語の修飾関係を表します。 右図に単語単位の係り受けの木の例を示します。 これは、次のように矢印で表すこともできます。 括弧の手前の矢印は、括弧内の最後の要素に係ることとします。

芸術 → と → は → ( 全く → ( 縁 → が → な ) ) → かっ → た → 彼 → が → ( 画商 → を → 始め ) → た → 。
このような構造から、例えば「彼」がどういう人かが分かります。

単語を単位とする利点

単語を単位とする利点として、以下が挙げられます。
  1. 複合名詞などの複合語内の構造を記述できる。
    日本 → ( 歯科 → 医師 ) → 連盟
    この構造から、この省略語が「日歯連」であって、「日医連」ではないことが分かります。
  2. 複合語外の単語が複合語内のどの単語を修飾しているかを記述できる。
    3 → 月 → に → ( 聖書 → を → 読 → み → 始め ) → た
    時間を表す副詞と「始める」などを含む複合動詞の修飾関係が表現できます。 つまり、「3月に始めた」や「聖書を読む」という修飾関係が明確になります。
  3. 括弧など当然対応すべき記号対の対応が明示できる。 これにより、自明な括弧の対応からの教師なし学習が可能になります。
    「 → ( 光 → あ → れ → 」 ) → と → 言 → う
    文節単位の場合には、困ったことにこの対応が明示されません。
  4. 他の言語との親和性 (文節は日本語特有といってよい)
一方、問題点として以下が挙げられます。
  1. 文節係り受けの場合よりも多数のアノテーションが必要となる。 この点は、部分的アノテーションを許容する係り受け解析によりある程度回避できます。 つまり、一般分野のフルアノテーションの学習コーパスを作ったあとは、 対象分野に関しては、名詞の直後の助詞の係り先のみを付与するなどで精度向上できます。
  2. 係り先の決定が難しい事例がある。 この点も、部分的アノテーションにより回避できます。 つまり、熟練の文法家が一般分野のフルアノテーションの学習コーパスを作り、 分野適応時の標準的な知識の作業者は、難し事例を放置することを許容します。
  3. 交差する係り受けがより起りやすい。
    3 → 月 → に ( 聖書 → を → 読 → み → 始め ) → た
    この例で、「3月に」と「聖書を」を入れ替えると、係り受けが交差します。 我々の係り受け解析器は、交差を問題なく扱うことができます。 なお、交差は文節単位の係り受けでも起こります。 以下がよく知られた例です。
    ウナギを 浜松に 食べに 行く
    この文に以下の係り受けがありますが、これらが交差しています。
    ウナギを → 食べに, 浜松に → 行く
    係り受け解析のアルゴリズムによっては、正しい係り受けが得られません。

分野適応実験

部分的アノテーションコーパスによる分野適応の実験をしました。 日本経済新聞を適応分野として、日本経済新聞の学習コーパスに係り受けを付与していきます。

手順は以下の通りです。

  1. 英語表現辞典(11,700文)から係り受け解析器を学習する。
  2. 日本経済新聞の学習データに、以下の手順で選んだ係り受けを付与する。
    1. 学習データの先頭から、名詞と助詞の単語列の頻度をインクリメントしていく。
    2. 頻度を10で割った余りが0であれば、助詞の係り先を付与する。
    3. 係り先を付与した回数が100になると次に進む。
  3. 英語表現辞典(11,700文)と日本経済新聞の学習データから係り受け解析器を学習する。
  4. 日本経済新聞のテストデータに対する精度を測る。
  5. 2. に戻る。
なお、学習データには予め全ての単語に係り先が付与されています。 これを選択された箇所のみに係り受けが付与された部分的アノテーションとして学習します。 したがって、これはプログラムを書くだけで実行できます。 係り受け解析器やコーパスの詳細は、参考文献にあります。

実験結果は、上のグラフの通りでした。 アノテーション個所数の増加に従って適応分野の解析精度が上がっていくことがわかります。 この結果から、部分的アノテーションにより、効率のよい分野適応の可能性があると言えます。 今後、実際のアノテーション時間を計測し、フルアノテーションとの比較をします。 また、能動学習によるアノテーション箇所の選択も研究課題です。

リンク

参考文献

単語単位の日本語係り受け解析
Daniel FLANNERY, 宮尾 祐介, Graham NEUBIG, 森 信介
言語処理学会第18年次大会, 2012
Training Dependency Parsers from Partially Annotated Corpora
Daniel Flannery, Yusuke Miyao, Graham Neubig, Shinsuke Mori
IJCNLP, pp.776-784, 2011.
部分的アノテーションから学習可能な係り受け解析器
森 信介, FLANNERY Daniel, 宮尾 祐介, NEUBIG Graham
情報処理学会自然言語処理研究会, NL-201/SLP86, 2011

Last Change: 2012/03/02 by Shinsuke MORI