コーパスアノテーションツール PNAT (仮; Partial NLP Annotation Tool)

概要

コーパスに情報を付与するためのツールを作成しました。編集できる情報は以下の通りです。

簡単な使い方

ブラウザの Firefox (Ver.14.0.1まで) で以下の手順でコーパスのファイルを編集してみることができます。

  1. フォルダ sample を作成する。
  2. 設定ファイルコーパスのサンプルをダウンロードします。
  3. 利用説明の設定変更を行う。
  4. PNATを開始します。
  5. 左上の「SELECT FILE」でコーパスのサンプルを指定します。
  6. マウスを使って適当に編集します。

特筆すべき機能は以下の通りです。 詳細は、利用説明書をご覧ください。

  1. 部分的アノテーションを許す
  2. システムがチェックを部分的な要求する(青色表示)
  3. 既存のコーパスや辞書にないエントリーを明示する(黄色表示)
    ※既存のエントリーのファイルをデータと同じフォルダにおいておく必要があります
  4. 違反の値を明示する(赤色表示)

リンク

参考文献

点予測による単語分割
森 信介, Neubig Graham, 坪井 祐太
情報処理学会論文誌, Vol.52, No.10, pp.2944-2952, 2011.
Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis
Graham Neubig, Yosuke Nakata, Shinsuke Mori
ACL-HLT, 2011
点推定と能動学習を用いた自動単語分割器の分野適応
Graham Neubig,中田 陽介,森 信介,
言語処理学会第16回年次大会, 2010
Word-based Partial Annotation for Efficient Corpus Construction
Graham NEUBIG, Shinsuke MORI
LREC 2010
Training Conditional Random Fields Using Incomplete Annotations
Yuta TSUBOI, Hisashi KASHIMA, Shinsuke MORI, Hiroki ODA, Yuji MATSUMOTO
Coling 2008
単語単位の日本語係り受け解析
Daniel FLANNERY, 宮尾 祐介, Graham NEUBIG, 森 信介
言語処理学会第18年次大会, 2012
Training Dependency Parsers from Partially Annotated Corpora
Daniel Flannery, Yusuke Miyao, Graham Neubig, Shinsuke Mori
IJCNLP, pp.776-784, 2011.
部分的アノテーションから学習可能な係り受け解析器
森 信介, FLANNERY Daniel, 宮尾 祐介, NEUBIG Graham
情報処理学会自然言語処理研究会, NL-201/SLP86, 2011

Last Change: 2012/06/27 by Shinsuke MORI