形態素解析器MeCabでエラー発生.原因は文字コード(UTF-8).

iOS
この記事は約2分で読めます。

こんにちわ,oyoshiです

形態素解析器の一つである「MeCab」をUTF-8で使いたくて四苦八苦したお話です笑

自分,Macを使ってるのですが,デフォルトだとEUC-JPという文字コードで設定されてしまうんです.

MeCab辞書に新規単語を追加するとき,UTF-8形式で書いたcsvファイルを使うのですが,そもそもMeCabがUTF-8に設定されていないとうまく追加できませんよね.

そういう話です.

参考にしたのは以下のサイトです

qiita.com

1. ターミナルの文字コードを「utf-8」にする

f:id:oyoshiyoshi:20190715212830p:plain
ターミナル→環境設定
f:id:oyoshiyoshi:20190715212912p:plain
utf-8だけにチェックを入れる

2. MeCabのダウンロード(以下のURL)

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

「Source」にある「mecab-0.996.tar.gz」をダウンロード

あとは以下のコマンドをターミナルで入力

$ tar zxfv mecab-X.X.tar.gz
$ cd mecab-X.X
$ ./configure --with-charset=utf8
$ make
$ make check
$ sudo make install

3.MeCab辞書のダウンロード(以下のURL)

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

「IPA辞書」をダウンロード(推奨って書かれてる)

あとは以下のコマンドをターミナルで入力

$ tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
$ cd mecab-ipadic-2.7.0-XXXX
$ nkf -w --overwrite *.csv
$ nkf -w --overwrite *.def

さらに同ディレクトリ内にある「dictrc」というファイルを編集し,以下のように書き換える

config-charset = EUC-JP」→「config-charset = UTF-8

そのあと,以下のコマンドを入力

$ ./configure --with-charset=utf-8
$ make
$ sudo make install

4.文字コードの確認

mecab -P | grep config-charset

これで「config-charset: UTF-8」と出ればok.

自分はこれでうまくいきました.

たぶん大丈夫なはず...

おーよしの紹介
院卒Webエンジニアマン

「プログラミング」や「開発技術」,「大学院の苦労話」について情報発信してます.これからのIT時代を生き抜くため,自分のスキルを磨き続けます.将来は起業できたらいいなという思いがあります.

oyoshiをフォローする
スポンサーリンク
iOS IT python プログラミング
スポンサーリンク
にほんブログ村に参加中(^~^)
PVアクセスランキング にほんブログ村
おーよしぶろぐ

コメント

タイトルとURLをコピーしました