言語モデル配布ページ

このページでは、ウェブデータ、現代日本語書き言葉コーパスから作成した音声認識用と仮名漢字変換用の N-gram を配布しています。

コーパス

ここでは、N-gram を作成するために利用したコーパスについて説明します。

ウェブコーパスは京都大学 黒橋・河原研究室において、2010年12月~2011年3月にクロールし、文抽出したコーパスの一部です。N-gram の作成には、このうちの2万ページ、20万ページ、200万ページを用いました。

現代日本語書き言葉コーパス(BCCWJ)は雑誌、新聞、白書、教科書、国会議事録、インターネット上の書き言葉などを対象としたコーパスです。このコーパスは現在、当研究室の森信介 准教授国立国語研究所の共同研究者としてデータの提供を受けています。

BCCWJ は人手によるアノテーションが付いたコアデータとテキスト情報のみからなるノンコアデータからなります。ここでは、コアデータのみからなる言語モデル、コアデータとノンコアデータを自動で解析したデータからなる言語モデルの2つを配布しています。

コーパスの統計情報

各コーパスに関する文数、単語数、文字数については次の通りです。

コーパス 文数 単語数 文字数
ウェブ(2万ページ) 2,566,222 23,199,727 43,529,669
ウェブ(20万ページ) 32,211,408 283,176,918 521,168,899
ウェブ(200万ページ) 354,388,458 3,088,717,859 5,731,052,834
BCCWJ 1,013,106 54,930,432 76,789,073
BCCWJ(コアデータ) 36,828 997,664 8,739,972

N-gram

これらのコーパスから音声認識用の N-gram と仮名漢字変換用の N-gram を作成しました。

N-gram の作成には、京都テキスト解析ツールキット(KyTea)を利用しました。N-gram の単位は音声認識用では単語と発音のペア、仮名漢字変換用では単語と入力記号列のペアとなっています。単語の単位には、超短単位を採用しています。また、入力記号とはキーボードからタイプできる記号のことです。

音声認識用 N-gram

音声認識用 N-gram の形式は次のようになっています。

45 BT 私/ワタシ は/ワ それ/ソレ

44 BT 私/ワタシ は/ワ もう/モー

36 私/ワタシ は/ワ UNK BT

30 私/ワタシ は/ワ 反対/ハンタイ 派/ハ

30 私/ワタシ は/ワ 解放/カイホー 同盟/ドーメー

29 私/ワタシ は/ワ 今回/コンカイ の/ノ


各行を構成するのは、ある N-gram に関する頻度とその N-gram を構成する N 個の単語と発音のペアです。頻度とペアの間、ペア同士の間は半角スペースになっています。また、N-gram の文頭、文末を表す特殊な記号を BT としています。

語彙のカットオフに関しては、語彙サイズが 6 万付近になるように行いました。また、 N-gram のカットオフは行っていません。

音声認識用の N-gram の作成において、テキストを KyTea で単語分割、読み推定を行った後、数詞の正規化、発音しない記号の除去などの後処理を行いました。

各 N-gram は上のように頻度順にソートされています。

仮名漢字変換用 N-gram

仮名漢字変換用 N-gram の形式は次のようになっています(音声認識用の N-gram とほぼ同様です)。

235 BT 私/わたし は/は 今/いま

224 BT 私/わたし は/は 明光/めいこう

161 私/わたし は/は 今/いま 、/、

158 BT 私/わたし は/は この/この

140 私/わたし は/は 京進/きょうしん スクール/すくーる

16 BT 私/わたし は/は UNK


各行を構成するのは、ある N-gram に関する頻度とその N-gram を構成する N 個の単語と入力記号列のペアです。頻度とペアの間、ペア同士の間は半角スペースになっています。また、N-gram の文頭、文末を表す特殊な記号を BT としています。

語彙をコーパス中に 2 回以上出現した単語と入力記号列のペアと定義し、 1 回しか出現していないものを未知語を表す特殊な記号 UNK と置換しています。また、N-gram のカットオフは行っていません。

各 N-gram は上のように頻度順にソートされています。


この N-gram は学習用統計的仮名漢字変換である SIMPLE でほぼそのまま使えるコーパスです。

ダウンロード

ここでは、各コーパスから作成した N-gram がダウンロードできます。

コーパス 音声認識用 N-gram(サイズ) 仮名漢字変換用 N-gram(サイズ)
ウェブ(2万ページ) asr-web-20kpages.tar (266M, 解凍時1.7G) kkc-web-20kpages.tar (493M, 解凍時2.3G)
ウェブ(20万ページ) asr-web-200kpages.tar (2.6G, 解凍時19G) ファイルリスト (5.1G, 解凍時23G)
ウェブ(200万ページ) ファイルリスト (16G, 解凍時120G) ファイルリスト (23G, 解凍時173G)
BCCWJ asr-BCCWJ.tar (1.1G, 解凍時7.6G) kkc-BCCWJ.tar (1.5G, 解凍時8.5G)
BCCWJ(コアデータ) asr-BCCWJCore.tar (33M, 解凍時188M) kkc-BCCWJCore.tar (35M, 解凍時202M)

各 tar ファイルの中には、 1-gram から 7-gram までが bzip2 圧縮で収納されており、すべての n-gram のエンコーディングは EUC-JP で保存されています。

また、サイズが大きいデータは分割して、分割したそれぞれのデータを置いた URL をファイルリストに記述しました。ダウンロードしたいデータのファイルリストに対して

$ wget -xnH -i filelist

とすれば N-gram 全体がダウンロードできます。分割した各ファイルは最大で 1000 万個の N-gram のエントリを持ち、bzip2 で圧縮されています。

N-gram の異なり数

作成した N-gram に含まれる各 N-gram の異なり数です。

ウェブ(2万ページ) ウェブ(20万ページ) ウェブ(200万ページ) BCCWJ BCCWJ(コアデータ)
1-gram 158,263 623,605 2,517,152 158,443 33,489
2-gram 1,892,223 10,340,739 47,544,693 3,343,632 239,929
3-gram 5,025,984 38,115,107 196,481,154 13,807,813 539,072
4-gram 7,309,579 66,275,760 393,414,213 22,915,245 731,479
5-gram 8,712,731 86,179,637 579,310,810 34,875,833 839,126
6-gram 9,606,495 99,506,049 707,513,757 41,240,566 900,645
7-gram 10,161,968 108,253,955 798,248,629 45,449,023 934,409
ウェブ(2万ページ) ウェブ(20万ページ) ウェブ(200万ページ) BCCWJ BCCWJ(コアデータ)
1-gram 61,994 61,735 60,755 60,787 32,849
2-gram 1,389,465 7,267,748 25,817,332 3,015,397 238,637
3-gram 3,753,514 28,976,736 137,470,505 12,646,850 514,080
4-gram 5,570,664 52,657,840 301,180,742 23,611,910 680,058
5-gram 6,644,473 69,615,831 446,047,623 31,619,540 769,217
6-gram 7,220,089 79,912,903 512,675,645 36,290,221 816,899
7-gram 7,521,115 85,683,629 572,200,261 38,628,085 840,564

今後の予定

お知らせ

問い合わせ先

yohei [at] ar.media.kyoto-u.ac.jp

トップに戻る

Last modified: <2011-07-26(Tue) 16:10:58>