クラスタリング・連語獲得ツール


概要

単語分割済みコーパスから連語を獲得したりクラスタリングをしたりするツールです。
連語の結果をクラスタリングすることも可能です。

ダウンロード

現在の最新バージョン: kagamine-0.0.2
過去のバージョン: 0.0.1

ビルド

      tar zxvf kagamine-X.X.X.tar.gz
      cd kagamine
      make
    

準備

10分割された単語分割済みコーパスファイルが必要です。
これらコーパスファイルのファイル名は、01.word、02.word、・・・、10.wordにしてください。
各コーパスファイルの文字コードはUTF-8にしてください。
このプログラムは01.wordから09.wordまでを学習コーパス、10.wordをテストコーパスとして扱います。

使い方

クラスタリング

クラスタリングにはkagamine/linを使います。
      cd kagamine/lin
      ./clustering.pl --corpus-dir (コーパスのあるディレクトリ)
                      --step       (何行おきにコーパスを読むか。1なら毎行。デフォルトは256)
                      --log        (ログディレクトリ)
    
結果は、指定したログディレクトリ直下のresultというファイルに出力されます。

連語獲得

連語獲得にはkagamine/renを使います。
コーパスのあるディレクトリなどの指定はren/configという設定ファイルで行います。 configでは、コーパスディレクトリやログディレクトリなどを指定します。
設定を終えると、
      cd kagamine/ren
      ./getrengo.sh config
    
で連語獲得を開始します。
結果は、指定したログディレクトリ直下のrengo_listというファイルに出力されます。
設定によっては(step=1にするなど)数日かかります。

その他

n-fold.pl

テキストをN分割するツールです。デフォルトで9分割します。
      ./n-fold.pl < train.text
    
train.textが01.wordから09.wordのファイルに分割されます。

10分割したい場合は下のようにしてください。
      ./n-fold.pl 10 < train.text
    

make_rengo_corpus.sh

獲得した連語と元のコーパスから連語コーパスを作るツールです。
      ./make_rengo_corpus.sh rengo_list train.text train.rengo
    
rengo_listはgetreng.shによりログディレクトリに生成されたファイル、train.textは学習コーパスです。
train.rengoに連語コーパスが書き込まれます。

バージョン歴

version 0.0.2(2012-07-25)

version 0.0.1(2012-07-13)