<カレンダー> |
最近の見出し
1. POPFile で分かち書きに MeCab を使う場合の問題の回避策
2. 分かち書きに MeCab を使うパッチを更新 3. 上記パッチを Windows で使う場合 4. 今日のあまつぶむら2
1. POPFileのインストーラ(universal binary 版)
1. ALPSLAB slide
|
少しずつ改良(?)を加える。
まず、文字種ごとに分割する処理が、POPFile の Windows 版でインストールされるモジュールだけでは動作しない(utf-8 関係のモジュールが必要なようだ)ことがわかったので、euc-jp のまま分割するようにしてみた。すると、utf-8 経由の場合よりも 2.6 倍(Text::Kakasi に比べると 14 倍くらい)くらい速くなったので、これでいこうと思う。
また、分かち書きに何を利用するかを変更するのにソースをいじらなければいけないというのはいかにもスマートじゃないので、Bayes.pm にも手を入れて詳細設定タブから変更できるようにしてみた。これで次のバージョンにマージする最低限の準備はできたかな。
何かミスがないかどうか、もう少し動作テストしてから公開予定。
速度と精度の比較はそのあとで。
_ amatubu [テストコメント。]