1. 京都大学テキストコーパスをセットアップ
以前、別の場所で書いたWindows環境でのセットアップと大体同じ方法でいけた。MacなのでCygwinのインストールは不要。perlスクリプトの修正は必要。フォルダは$HOME/KyotoCorpus4.0とか適当に。
http://www.mizimada.net/notes/kyotocorpus/install.html
Last Update: 2011.08.11
インストールには、perl、京大コーパス、毎日新聞データが必要。
Windows環境&最新のperlだとインストール用スクリプトの一部が正しく動かない場合があるので修正が必要。
インストールには、perl、京大コーパス、毎日新聞データが必要。
Windows環境&最新のperlだとインストール用スクリプトの一部が正しく動かない場合があるので修正が必要。
- Cygwinをインストールする
- ダウンロードサイトの選択(choose a download site)
- ftp://ring.aist.go.jp とか適当に
- パッケージの選択(choose packages)
- perlを追加する
- 京都大学テキストコーパスの準備
kyotocorpus4.0.tar.gzを解凍して、kyotocorpus4.0フォルダを
c:\cygwin\home\(username)\KyotoCorpus4.0
あたりに置く - 毎日新聞データの準備
mai95.txtをc:\cygwin\home\(username)\KyotoCorpus4.0\mai95.txt
あたりに置く。
ファイル名がmai1995.txt(最近の版?)になっている場合はmai95.txtにリネームする。 - インストール用スクリプトの修正(重要)
c:\cygwin\home\(username)\KyotoCorpus4.0\src
にある
format.pl
num2KNP.pl
の二つのファイルをテキストエディタで開いて
use open IO => ':encoding(euc-jp)';
の次の行に
use open ":std";
と書き加える。 - インストールの実行
Cygwin Bash Shellを起動し、以下のように入力。
$ cd KyotoCorpus4.0
$ ./auto_conv -d .
2. XMLファイルに変換
以前作ったXML変換スクリプトで行けた。ここからkc2xml.rbを取得してKyotoCorpus4.0フォルダに置き、ターミナルでKyotoCorpus4.0フォルダに移動して以下のように実行。要ruby1.9。
ruby kc2xml.rb -s ./dat/syn -t ./xml/syn -u
ruby kc2xml.rb -s ./dat/rel -t ./xml/rel -u
ただし、あらかじめ出力先フォルダ(KyotoCorpus4.0/xml/synとKyotoCorpus4.0/xml/rel)を作っておかないとうまく動かない。無ければ勝手に作るように書いたつもりだったのだが、いろいろいじってるうちにミスったっぽい。そのうち直そう。
0 件のコメント:
コメントを投稿