[Home]POPFile/MeCab

Amatubu_Wiki | POPFile | RecentChanges | Preferences

Showing revision 2

POPFile MeCab インストーラのメモ

インストーラに表示すること

インストーラのイメージ

日本語の分かち書きに使用するプログラムを選択してください。 (日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります)

● Kakasi 漢字→かな(ローマ字)変換プログラム(推奨)

POPFile 0.22.5 までのバージョンで使用されていたプログラムです。 分かち書きの精度は MeCab に比べると低い(ひらがなやカタカナで構成されている単語の情報を持っていない)ですが、辞書サイズが小さくてすみます(2MB 程度)。 インストーラに内蔵されています。

○ MeCab Yet Another Part-of-Speech and Morphological Analyzer

Kakasi よりもより正確な分かち書きを行うことができますが、辞書サイズが大きくなります(40MB 程度)。 インターネットよりダウンロードしてインストールされます。

○ 内蔵パーサ 文字種による分割

外部プログラムを使わずに、文字の種類だけをたよりに分かち書きを行います。 辞書を使用した分かち書きに比べ、分かち書きの精度は落ちますが、辞書を必要とせず、高速に動作します。

※ 分かち書きの精度と POPFile の分類精度との間には直接の因果関係はなく、どのプログラムを使用しても POPFile の分類精度にはほとんど違いはないという結果が出ています。 ※ 分かち書きのプログラムを変更すると、一時的に POPFile の分類精度が低下する可能性があります。 ※ インストール後に分かち書きのプログラムを変更することも可能です。詳しくは、http://popfile.sourceforge.net/wiki/jp:faq:mecab を参照してください。


Amatubu_Wiki | POPFile | RecentChanges | Preferences
This page is read-only | View other revisions | View current revision
Edited September 9, 2007 0:45 by Amatubu (diff)
Search:

Copyright (c) 1996-2019 naoki iimura e-mail