Project Next NLP 形態素解析班

形態素解析は、コミュニティ全体で誤り分析をする Project Next NLP のタスクの1つになています。

また、構文解析と翻訳のタスクとテストデータの一部を共有とする方向で検討しています。

概要

形態素解析は、多くの自然言語処理の必須の構成要素であるとともに、自然言語処理以外の様々 な応用があります。したがって、様々な分野のテキストに対する高い解析精度が求められていま す。しかしながら、学習データ以外の分野のテキストに対する解析精度は不十分と言わざるを得 ません。本活動では、誤り分析を通じて、学習データがある分野でのさらなる精度向上および学 習データがない分野に対する精度向上のための知見を得ることを目的とします。

データ

表1: 各分野の諸元
分野 文数 単語数 文字数
BCCWJ Other
(train)
OC
OW
OY
PB
PM
PN
小計
ClassA-1
(test)
OC 500 9,846 13,752
OW 504 23,952 34,203
OY 509 9,239 13,340
PB 511 11,792 16,512
PM 495 7,415 10,396
PN 505 12,621 18,456
小計 3,024 74,865 106,661
小計 9,430 214,094 310,193
TWI train
test
小計
RCP train 662 12,008 18,174
test 62 1,139 1,786
小計 724 13,147 19,961
JNL train 322 12,263 20,332
test 32 1,116 1,868
小計 354 13,379 22,200
NPT train 1,750 71,208 111,394
test 250 10,497 16,409
小計 250 10,497 16,409
合計 33,783 707,976 1,031,171
以下のデータの利用する予定です(BCCWJのテストデータは構文解析および翻訳と共通)。

単語の単位は、現代日本語書き言葉均衡コーパス(BCCWJ)と同じ短単位である。 唯一の相違点として、活用語尾を分割していることに注意されたい。

KyTea による解析結果

各分野の解析精度
学習データ
テストデータ BCCWJ
ClassA-1-OC.tree
ClassA-1-OW.tree
ClassA-1-OY.tree
ClassA-1-PB.tree
ClassA-1-PM.tree
ClassA-1-PN.tree
EHJ-test.tree
NKN-test.tree
RCP-test.tree
JNP-test.tree
NPT-test.tree
参考に KyTea による解析精度を掲載する。 学習コーパスは
  1. BCCWJ: test の残り
  2. All full: BCCWJ 2012 + 残りの train
とした。テストデータは BCCWJ の ClassA-1 と各分野の test とした。

メンバー

リンク

参考文献

自然言語処理における分野適応
森 信介
人工知能学会誌, Vol.27, No.4, pp.365-372, 2012.
日本語形態素解析とその周辺領域における最近の研究動向
鍜治 伸裕
日本知能情報ファジィ学会誌, Vol.26, No.6, pages 174-183, 2013.
A Japanese Word Dependency Corpus
Shinsuke Mori, Hideki Ogura, Tetsuro Sasada
LREC, pp.753-758, 2014.
Language Resource Addition: Dictionary or Corpus?
Shinsuke Mori, Graham Neubig
LREC, pp.1631-1636, 2014.
Slide
点予測による単語分割
森 信介, Neubig Graham, 坪井 祐太
情報処理学会論文誌, Vol.52, No.10, pp.2944-2952, 2011.
点予測による形態素解析
森 信介, 中田 陽介, Neubig Graham, 河原 達也
自然言語処理, Vol.18, No.4, pp.367-381, 2011.
Pointwise Prediction for Robust, Adaptable Japanese Morphological Analysis
Graham Neubig, Yosuke Nakata, Shinsuke Mori
ACL-HLT, 2011.
正規-崩れ表記のアライメントに基づく表記崩れパタンの抽出と形態素解析への導入
斉藤 いつみ, 貞光 九月, 浅野 久子, 松尾 義博
情報処理学会 自然言語処理研究会 214, 2013.
Accurate Word Segmentation and POS Tagging for Japanese Microblogs: Corpus Annotation and Joint Modeling with Lexical Normalization
Nobuhiro Kaji and Masaru Kitsuregawa
EMNLP, 2014. (to appear)
Efficient Word Lattice Generation for Joint Word Segmentation and POS Tagging in Japanese.
Nobuhiro Kaji, Masaru Kitsuregawa
IJCNLP, pages 153-161, 2013.

Last Change: 2014/07/26 by Shinsuke MORI