2012年1月25日水曜日

現代日本語書き言葉均衡コーパス

BCCWJのDVDが届いたので簡単にレビューしてみる。

DVDについて

BCCWJのDVDは2枚構成である。次のようなフォルダ構成になっている。
  • Disk 1
    • DOC
      • マニュアルや書誌情報など。
    • CORE
      • いわゆるコアデータ。M-XML、LUW、SUWの3つのサブフォルダを含む。後述する同名のフォルダの内容の一部を抽出したもの。
    • C-XML
      • 文書構造タグ付XML文書。FIXED(固定長)とVARIABLE(可変長)の2つのサブフォルダを含む。
    • M-XML
      • 形態論情報付XML文書。
  • Disk 2
    • LUW
      • 表形式の形態論データ。長単位。
    • SUW
      • 表形式の形態論データ。短単位。
ざっと見たところ、CSJの場合とは違って、構文情報を付与したコーパスは含まれていないようである。検索用のツールも特に付属していない。C-XML/FIXED、C-XML/VARIABLE、M-XML、LUW、SUWの各フォルダは、次のようなサブフォルダを含む(FIXEDフォルダはLB、OW、PB、PM、PNの5つのみ。他は全部)。
サブコーパスフォルダ名
出版サブコーパスPB(書籍)、PM(雑誌)、PN(新聞)
図書館サブコーパスLB(書籍)
特定目的サブコーパスOB(ベストセラー)、OW(白書)、OP(広報紙)、OL(法律)、OM(国会会議録)、 OT(教科書)、OV(韻文)、OC(Yahoo!知恵袋)、OY(Yahoo!ブログ)

データファイルはいずれも上記のサブフォルダ単位ぐらいでzip圧縮されているため、利用する前に展開する必要がある。

C-XML

文書構造タグ付XMLが格納されている。FIXED(固定長)は、句読点など記号類を含めず1000字を1サンプルとしている。VARIABLE(可変長)は、長さを固定せず節や章などの文章のまとまりを1サンプルとしている(ただし1万字を上限とする)。

[OW1X_00000.xml (固定長)]
<?xml version="1.0" encoding="UTF-8"?>
<sample sampleID="OW1X_00000" version="1.0" type="fixedLength">
<article articleID="OW1X_00000_F001" isWholeArticle="false">
<paragraph>
<sentence>これは円高で輸入価格が低下したため,輸入数量は増え<sampling type="start" />ても海外への輸入代金の支払いが減少したことを示す。</sentence>
<sentence>こうした動きが,最近の企業収益の改善に寄与している。</sentence>
<br type="automatic_original" />
</paragraph>

[OW1X_00000.xml (可変長)]
<?xml version="1.0" encoding="UTF-8"?>
<sample sampleID="OW1X_00000" version="1.0" type="variableLength">
<article articleID="OW1X_00000_V001" isWholeArticle="false">
<titleBlock>
<title>
<sentence type="quasi">第2節 内外均衡の背景</sentence>
<br type="automatic_original" />
</title>
</titleBlock>
<paragraph>
<sentence> 53年度中にみられた内外均衡回復に向けての動きは,それぞれがバラバラに生じてきたわけではない。</sentence>

M-XML

形態論情報付XMLが格納されている。

[OW1X_00000.xml]
<?xml version="1.0" encoding="UTF-8"?>
<mergedSample sampleID="OW1X_00000" type="BCCWJ-MorphXML" version="1.0">
<article articleID="OW1X_00000_V001" isWholeArticle="false">
<titleBlock>
<title>
<sentence type="quasi"><LUW B="S" SL="v" l_lemma="第二節" l_lForm="ダイニセツ" l_wType="漢" l_pos="名詞-数詞" l_formBase="ダイニセツ"><SUW orderID="10" lemmaID="22937" lemma="第" lForm="ダイ" wType="漢" pos="接頭辞" formBase="ダイ" pron="ダイ" start="10" end="20">第</SUW><SUW orderID="20" lemmaID="28181" lemma="二" lForm="ニ" wType="漢" pos="名詞-数詞" formBase="ニ" pron="ニ" start="20" end="30">2</SUW><SUW orderID="30" lemmaID="20244" lemma="節" lForm="セツ" wType="漢" pos="名詞-普通名詞-助数詞可能" formBase="セツ" usage="助数詞" pron="セツ" start="30" end="40">節</SUW></LUW>

LUW

長単位形態論データ。タブ区切りテキストである。C-XMLやM-XMLがOW1X_00000.xml, ...など多くのxmlファイルに分割されているのに対して、このデータはOW.txtのような比較的大きなテキストとしてまとめられているようである。フィールドについては同梱のPDF版マニュアルで説明されているのでここでは割愛するが、概ね10刻みの数字は文書中における位置情報(10で割ると開始位置や終了位置になる)、0か1はフラグ(固定長か可変長かなど)のようである。

[OW.txt]
OW OW1X_00000 10 40 B 1 0 1 第二節 ダイニセツ 漢 名詞-数詞   ダイニセツ 第2節 第2節 第2節 ダイニセツ 10 10 20 B
OW OW1X_00000 40 50 B 0 0 1    記号 空白           20 40 50 I
OW OW1X_00000 50 90  1 0 1 内外均衡 ナイガイキンコウ 漢 名詞-普通名詞-一般   ナイガイキンコウ 内外均衡 内外均衡 内外均衡 ナイガイキンコー 30 50 70 I

SUW

短単位形態論データ。タブ区切りテキストである。フィールドの構成は、LUWとはかなり違うようである。

[OW.txt]
OW OW1X_00000 10 20 10 10 20 0 1 B 6304883175203328 22937 第 ダイ  漢 接頭辞   ダイ  第 第 第 ダイ
OW OW1X_00000 20 30 20 20 30 0 1 I 7746342986326528 28181 二 ニ  漢 名詞-数詞   ニ  2 2 2 ニ
OW OW1X_00000 30 40 30 30 40 0 1 I 5564636971803136 20244 節 セツ  漢 名詞-普通名詞-助数詞可能   セツ 助数詞 節 節 節 セツ

感想

待ちに待った画期的資料であることは言うまでもない。コンテンツは基本的にデータだけなので、使いこなすにはそれなりの技術が要求される。とりあえずzipファイルを全部展開してハードディスクにコピーしてくれるインストーラーとか、ひまわりや茶器にインポートするためのツールぐらい付いててもよかったのではなかろうか。あるいはDiskもう一枚増やしてsqliteファイル付けといてくれるとか。もっとも、そういうツール必要な人は中納言使えということか。
それと個人的に残念なのは構文解析済みデータが入っていなかったことである。みんな形態素解析済みデータあれば十分で、構文解析済みデータなんて使う人あんまりいないから、そういうことしたい人は勝手にやれという方針なのだろうか。これだけのデータ、自分で構文解析かけるのは手間だし、あれば使いたいけどなぁ。

0 件のコメント:

コメントを投稿