固有表現認識

固有表現タグ
タグ意味
Org組織名
Per人名
Loc地名
Dat日付表現
Tim時間表現
Mon金額表現
Per割合表現
Art人工物

固有表現とは、MUC6 (Message Understanding Conference) において提唱された7種類の表現で ある。各表現は単語列であり、7種類のいずれかに分類されている。7種類とは、組織名 (ORGANIZATION)、人名 (PERSON)、地名 (LOCATION)、日付表現 (DATE)、時間表現 (TIME)、金額 表現 (MONEY)、割合表現 (PERCENT) である。IREX では、さらに人工物 (ARTIFACT) が追加され た。

手法

一般の固有表現認識では、CRFs (Conditional Random Fields) が用いられることが多い。しか しながら、ある程度の量の学習コーパスがある状況では、未知の固有表現を効率良くカバーする ことが課題となる。そのため、一部の単語にのみアノテーションした部分的アノテーションコー パスも学習データとして用いることができることが非常に有効である。

部分的アノテーションコーパスを利用可能とするために、点予測によって各単語のBIO2タグを推 定し、動的計画法(DP)やCRFを用いて全体の最適な経路を算出する方法を提案している。

詳細(TODO)

応用

レシピ用語
タグ意味 備考
F 食材 中間・最終生成物を含む
T 道具 調理道具や器など
D 継続時間 概数表現を含む
Q 分量 概数表現を含む
Ac 調理者の動作語幹のみ
Af 食材の動作 語幹のみ
Sf 食材の状態
St 道具の状態

手順文章の言語処理を目的として、重要な単語列を認識することを行っている。レシピを手順書 の例とする場合には、右の表の種類の単語列が重要であろう。これをレシピ固有表現と呼び、通 常の固有表現認識と同様に系列ラベリングの問題として解決する。

結果

レシピ用語認識の精度
手法 適合率再現率 F値
CRF % %
PW+DP 86.32%89.30%0.8778
PW+CRF % %
3,169文で学習し、148文に対してテストした結果です。

詳細(TODO)

各手法による結果は、右の表の通りである。

講評(TODO)

リンク

参考文献

Overview of MUC-7/MET-2
Nancy A. Chinchor,
Message Understanding Conference, 1998.
レシピテキストのためのフローグラフの定義
森 信介, 山肩 洋子, 笹田 鉄郎, 前田 浩邦
情報処理学会自然言語処理研究会, NL-214, 2013.
A Machine Learning Approach to Recipe Text Processing
Shinsuke Mori, Tetsuro Sasada, Yoko Yamakata, Koichiro Yoshino
Cooking with Computers Workshop, August, 2012.
Slide
IREX: IR and IE evaluation project in Japanese, 2000.
Satoshi Sekine and Hitoshi Isahara.
Support Vector Machine(SVM)を用いた自然文読影レポートからの医学的知識の抽出
医療情報学 25(6) 405-412(2006)
応用指向の拡張

Last Change: 2014/03/07 by Shinsuke MORI