仮名漢字変換

統計的なモデル(クラス2-gramモデル)を用いる方法を1998年に世界で初めて(!?)提案しました。 当時は、開発者が一生懸命手で書いた規則を用いる方法が主流でした。 確率的手法は理論的なので、保守が容易であったり発展性が格段に高いのが利点です。 実際、分野適応が容易であったり、単語の自動獲得などに発展させることができます。 モデルやコードを簡素化した統計的仮名漢字変換が、以下の SIMPLE リンクからダウンロードで きます。

詳細の解説はいずれ書きますが、とりあえずよい解説に譲ります。

リンク

参考文献

確率的モデルによる仮名漢字変換
森 信介, 土屋 雅稔, 山地 治, 長尾 真
情報処理学会論文誌 (1999)
  • 統計的手法による仮名漢字変換の提案
  • 単語を単位とし、未知語モデルも備え、すべての入力を変換可能
  • コーパスが利用可能な分野において規則に基づく方法(Wnn6)を変換精度で上回る
利用過程で得られる言語情報を活用する音声言語処理システム
森 信介, 前田 浩邦
NLP若手の会 第4回シンポジウム (2009)
  • 仮名漢字変換ログの利用
A New Statistical Approach to Chinese Pinyin Input
Zheng Chen, Kai-Fu Lee
ACL00
  • 統計的入力システムの中国語版
  • 英単語をモード変更なしに入力可能(Pinyinには平仮名に相当するものがないから自然)
無限語彙の仮名漢字変換
森 信介
情報処理学会論文誌 Vol.48, No.11, pp.3532-3540
  • Web などのテキストのあらゆる部分文字列の利用
未知語を含む文脈情報の自動獲得による統計的仮名漢字変換システムの分野適応
笹田 鉄郎, 森 信介, 河原 達也
言語処理学会第15回年次大会
  • 未知語を含む音声認識結果の利用
•漢字かなのTRIGRAMをもちいたかな漢字変換方法
村上 仁一
情報処理学会第43回全国大会, 7H-3, pp. 3.287-288, 1991.
  • 文字n-gramモデルであり、単語の概念はなない(単語にすると未知語モデルが必要)
  • 外国語読みや数詞を含む文を対象外としているなど実用的ではない
  • 変換精度は60%とあまり高くない(言語資源が少ないのかな)
  • 確率的モデルによる仮名漢字変換の最初の発表かも

Last Change: 2010/06/08 by Shinsuke MORI