カテゴリ:文字データ処理 の記事一覧

Win機に茶筅をインストール(3) Cygwin にChaSen を2つの文字コードで

(1) (2) からの続きです。

Cygwin に ChaSen を 2種類の文字コードを切り替えて使用できるようにインストールした手順について、ここメモしておく。 ( すぐ下の [続きを読む] ボタンでこの記事のすべてを表示 ) 続きを読む
スポンサーサイト
Comment (-)

Win機に茶筅をインストール(2) ubuntu に ChaSen

(1) からの続きです。

■ chasen のインストール

  $ cd /usr/local/src
$ sudo tar -xvzf /home/hoge/chasen-2.4.5.tar.gz
$ cd chasen-2.4.5
$ sudo ./configure
$ sudo make
( $ make check )
$ sudo make install


このあと ipadic 辞書もインストールしてから動作確認するわけだが、次のようなエラーが出た(1回目のインストールではOKだったが最初からやり直したときにこのエラー)。
/usr/local/libexec/chasen/makemat: error while loading shared libraries: 
libchasen.so.2: cannot open shared object file: No such file or directory

そこで次のようにライブラリ参照パスを更新
  $ sudo ldconfig

そうしたらエラーが出なくなった。 ( すぐ下の [続きを読む] ボタンでこの記事のすべてを表示 ) 続きを読む
Comment (-)

Win機に茶筅をインストール(1) VMware + ubuntu の準備

 ChaSen (茶筅) とは、UNIX系環境で動作する形態素解析ツールの一つ。日本語の文を自動で単語に分解してくれる。

 形態素解析ツールにはほかに MeCab (和布蕪)というのもあって、ネットでいろいろ検索してみた限りでは Mecab のほうがユーザーが多そうな印象を受ける。MeCab のほうが処理が速いそうだ。それに、MeCab のほうが後で出現したわけでどちらかというと新しく、今後もひょっとしてアップデートされるかもしれないという期待感もある。

 私が Mecab ではなく ChaSen を選んだ理由は、日本語の切り分けに使用する辞書にユーザーが単語を追加するとき、ChaSenのほうが記述が楽だから。特に、動詞など活用形のある単語を追加したいとき、Mecabだと1つの単語について各活用の形を何行にもわたって記述しないといけない。ChaSen は1行で済む。ChaSen の場合、解析するときに各語の活用形を自動で展開してくれるということらしい。MeCab では、辞書の側で事前に各活用形に展開しておくわけで、ひょっとしたらその分処理が余計に速いかも (?) しれない。でも私としてはユーザー辞書のメンテに削く時間のほうが問題なので、MaCab がその点を改善してくれないうちは、私にとって断然 ChaSen なのだ。しかも、以前に自分の作ったChaSen用ユーザー辞書を今度も利用しようとしている。以前のユーザー辞書に、もう少し追加して使うことになると思う。

 さて、その ChaSen を6年以上前の一時期に使ったことがあるだけだったが、今回久しぶりに自分の Windows 7 マシンにインストールした。
 まずは以前と同様に、Windows 上の VMware Player に ubuntu (LinuxベースのOS) を仮想マシンとしてインストールし、そこに ChaSen をインストールした。今回は、ChaSenを デフォルトの文字コード EUC ではなく初めて別の文字コード (utf-8) でインストールしてみた。自分はChaSen を使う目的以外で ubuntu やその他の Unix 系システムをいじったことなどない素人だし、しかも以前使ったときとはすべてのソフトがバージョンアップしていて、あれこれ変わった点が多数。予期しない動作やエラーも出て大変だったが何とか無事完了。

 勢いづいて、Windows に Cygwin (疑似的なLinux環境) もインストールして、そこに ChaSen をインストールしてみよう! と思いたった。 Cygwin のほうが、Windows 上の他のアプリとの間を行き来しやすく使いやすい。さらに、Cygwin にインストールした際には、ChaSen の辞書を UTF-8 と Shift-JIS でデュアルインストールして2つの文字コードを切り替えて使えるようにセットアップしてみた。そこそこ快適な環境ができてひと安心。

この作業の過程で、いろいろエラーが出てネット検索で解決策がわかって助けられたことも何度かあったが、なにしろ絶対ユーザー数が少ないようで、その解決策がWeb上に1箇所しか見つからなかったり、説明のリンク先ページがもう存在しなかったりするのだ。これじゃぁ今後私のように ChaSen を使おうとする人がいたら困るかもしれない。というわけで、ここに最新情報としてインストールについて3回にわたってメモしておきたい。 ( すぐ下の [続きを読む] ボタンでこの記事のすべてを表示 )
続きを読む
Comment (-)