[Home]POPFile/MeCab

Amatubu_Wiki | POPFile | RecentChanges | Preferences

Difference (from prior major revision) (no other diffs)

Added: 12a13


Changed: 15c16,47
● Kakasi 漢字→かな(ローマ字)変換プログラム(推奨)
● Kakasi 漢字→かな(ローマ字)変換プログラム(推奨)

: POPFile 0.22.5 までのバージョンで使用されていたプログラムです。
: 分かち書きの精度は MeCab に比べると低い(ひらがなやカタカナで構成されている単語の情報を持っていない)ですが、辞書サイズが小さくてすみます(2MB 程度)。
: インストーラに内蔵されています。

○ MeCab Yet Another Part-of-Speech and Morphological Analyzer

: Kakasi よりもより正確な分かち書きを行うことができますが、辞書サイズが大きくなります(40MB 程度)。
: インターネットよりダウンロードしてインストールされます。

○ 内蔵パーサ 文字種による分割

: 外部プログラムを使わずに、文字の種類(漢字、ひらがな、カタカナなど)だけをたよりに分かち書きを行います。
: 辞書を使用した分かち書きに比べ分かち書きの精度は落ちますが、辞書を必要とせず、高速に動作します。

注意:
* 分かち書きの精度と POPFile の分類精度との間には直接の因果関係はなく、どのプログラムを使用しても POPFile の分類精度にはほとんど違いはないという結果が出ています。
* 分かち書きのプログラムを変更すると、一時的に POPFile の分類精度が低下する可能性があります。
* インストール後に分かち書きのプログラムを変更することも可能です。詳しくは、http://popfile.sourceforge.net/wiki/jp:faq:mecab を参照してください。

Installer image (in English)




Please choose the Japanese wakachi-gaki (splitting words) parser program:

(Japanese texts have no spaces between words unlike English texts. So, to analyze e-mails by using bayesian filter we have to split (wakachi-gaki) the e-mail body texts into words.)

x Kakasi - KAnji KAna Simple Inverter (Recommended)

: The program used by POPFile 0.22.5 or before.
: The wakachi-gaki accuracy is poorer than MeCab (because Kakasi does not have the information about the words which is constructed by Hira-gana or Kata-kana), but Kakasi uses smaller dictionaries (about 2MB).
: The POPFile installer contains Kakasi and its dictionaries.

Changed: 17,19c49
POPFile 0.22.5 までのバージョンで使用されていたプログラムです。
分かち書きの精度は MeCab に比べると低い(ひらがなやカタカナで構成されている単語の情報を持っていない)ですが、辞書サイズが小さくてすみます(2MB 程度)。
インストーラに内蔵されています。
o MeCab - Yet Another Part-of-Speech and Morphological Analyzer

Changed: 21c51,52
○ MeCab Yet Another Part-of-Speech and Morphological Analyzer
: The wakachi-gaki accuracy is better than Kakasi, but MeCab uses larger dictionaries (about 40MB).
: The POPFile installer does not contain MeCab. It will be downloaded from the Internet.

Changed: 23,24c54
Kakasi よりもより正確な分かち書きを行うことができますが、辞書サイズが大きくなります(40MB 程度)。
インターネットよりダウンロードしてインストールされます。
o The internal parser - splitting by the kinds of characters

Changed: 26c56,57
○ 内蔵パーサ 文字種による分割
: Instead of using external programs, the parser splits texts by the kinds of characters (ex. Kanji, Hira-gana or Kata-kana).
: The wakachi-gaki accuracy is poor than programs which use dictionaries, but it does not use dictionaries so it is faster.

Changed: 28,29c59,62
外部プログラムを使わずに、文字の種類だけをたよりに分かち書きを行います。
辞書を使用した分かち書きに比べ、分かち書きの精度は落ちますが、辞書を必要とせず、高速に動作します。
Note:
* The wakachi-gaki accuracy does not relate directly to the POPFile's classification accuracy. In an experiment the POPFile's accuracy does not be affected whichever program you choose.
* Changing wakachi-gaki program may deteriorate temporarily the POPFile's classification accuracy.
* You can change the wakachi-gaki program after the installation. For more information, please see: http://popfile.sourceforge.net/wiki/jp:faq:mecab

Removed: 31,33d63
※ 分かち書きの精度と POPFile の分類精度との間には直接の因果関係はなく、どのプログラムを使用しても POPFile の分類精度にはほとんど違いはないという結果が出ています。
※ 分かち書きのプログラムを変更すると、一時的に POPFile の分類精度が低下する可能性があります。
※ インストール後に分かち書きのプログラムを変更することも可能です。詳しくは、http://popfile.sourceforge.net/wiki/jp:faq:mecab を参照してください。

POPFile MeCab インストーラのメモ

インストーラに表示すること

インストーラのイメージ

日本語の分かち書きに使用するプログラムを選択してください。

(日本語の文章には、英語と違って単語の間に空白(スペース)がありません。このため、ベイジアンフィルタを使ってメールの分析をするためには、メールの本文を単語ごとに分割する(分かち書き)必要があります)

● Kakasi 漢字→かな(ローマ字)変換プログラム(推奨)

POPFile 0.22.5 までのバージョンで使用されていたプログラムです。
分かち書きの精度は MeCab に比べると低い(ひらがなやカタカナで構成されている単語の情報を持っていない)ですが、辞書サイズが小さくてすみます(2MB 程度)。
インストーラに内蔵されています。

○ MeCab Yet Another Part-of-Speech and Morphological Analyzer

Kakasi よりもより正確な分かち書きを行うことができますが、辞書サイズが大きくなります(40MB 程度)。
インターネットよりダウンロードしてインストールされます。

○ 内蔵パーサ 文字種による分割

外部プログラムを使わずに、文字の種類(漢字、ひらがな、カタカナなど)だけをたよりに分かち書きを行います。
辞書を使用した分かち書きに比べ分かち書きの精度は落ちますが、辞書を必要とせず、高速に動作します。

注意:

Installer image (in English)

Please choose the Japanese wakachi-gaki (splitting words) parser program:

(Japanese texts have no spaces between words unlike English texts. So, to analyze e-mails by using bayesian filter we have to split (wakachi-gaki) the e-mail body texts into words.)

x Kakasi - KAnji KAna Simple Inverter (Recommended)

The program used by POPFile 0.22.5 or before.
The wakachi-gaki accuracy is poorer than MeCab (because Kakasi does not have the information about the words which is constructed by Hira-gana or Kata-kana), but Kakasi uses smaller dictionaries (about 2MB).
The POPFile installer contains Kakasi and its dictionaries.

o MeCab - Yet Another Part-of-Speech and Morphological Analyzer

The wakachi-gaki accuracy is better than Kakasi, but MeCab uses larger dictionaries (about 40MB).
The POPFile installer does not contain MeCab. It will be downloaded from the Internet.

o The internal parser - splitting by the kinds of characters

Instead of using external programs, the parser splits texts by the kinds of characters (ex. Kanji, Hira-gana or Kata-kana).
The wakachi-gaki accuracy is poor than programs which use dictionaries, but it does not use dictionaries so it is faster.

Note:


Amatubu_Wiki | POPFile | RecentChanges | Preferences
This page is read-only | View other revisions
Last edited September 9, 2007 1:21 by Amatubu (diff)
Search:

Copyright (c) 1996-2019 naoki iimura e-mail