自然言語処理ツール English

KyTea (きゅーてぃー)

京都テキスト解析ツールキット KyTea は、日本語など、 単語(または形態素)分割を必要とする言語のための一般的なテキスト解析器です。 主に以下の処理ができます。

PWNER (ぴーだぶりゅーえぬいーあーる)

!!Under Construction!!

デフォルトモデルの単位は超短単位で、KyTea の出力を使うことよいでしょう。

EDA (えだ)

EDA は単語係り受け解析器です。 日本語のように左から右に行く係り受けや、英語のように左や右に行く係り受けの両方を扱えます。

デフォルトモデルの単位は単語で、KyTea の出力を使うことよいでしょう。

PNAT (ぴーなっつ)

Kagamine Lin, Ren (仮, かがみね りん, れん)

PALIN (ぱりん, coming soon)

?? (??, under construction)

レシピ言語処理マニュアル

レシピに対する言語処理ツールなど

UniDic++ (ゆにでぃっくぷらすぷらす)

利用例1: テキスト解析

文から単語の係り受け構造を推定する。
  1. KyTea (単語分割, 品詞推定)
  2. ?? (NER, optional)
  3. EDA

利用例2: 言語モデル作成

音声認識や仮名漢字変換の言語モデルを作成する。
  1. KyTea (単語分割, 読み推定)
  2. Kagamine (連語獲得, クラスタリング, optional)
  3. LM tool (KyLM, SRI LM, Palm Kit, ...)

利用例3: 単語分割・品詞推定の分野適応

対象のテキストの単語分割や品詞推定の精度が低いと感じる場合に精度向上を行います。 固有表現抽出でも同様の手順に従います。
  1. PALIN (未知語候補抽出)
  2. PNAT (コーパスの部分的アノテーション)
  3. KyTea 再学習 (単語分割, 品詞推定; 素性頻度ファイルの利用)
  4. KyTea (単語分割, 品詞推定)

Last Change: 2015/05/20 by Shinsuke MORI