janoemの使い方について
インストール
$ python3 -m pip install janome
基本的な使い方
適当なツイートを形態素解析する例
from janome.tokenizer import Tokenizer
import pandas as pd
df = pd.read_csv("var/download.csv.gz", nrows=1000)
t = Tokenizer(mmap=True)
for tweet_text in df.tweet_text:
tokens = t.tokenize(tweet_text)
for token in tokens:
word = token.surface # 分かち書きした内容を表示する
part_of_speech = token.part_of_speech # 単語の解析結果(品詞の種類活用等)
if "形容詞" in part_of_speech:
print(word, part_of_speech, token) # tokenの中に活用がないものが含まれる(未活用の原型を取り出せる)
出力結果
$ python3 janome_test.py
ない 形容詞,自立,*,* ない 形容詞,自立,*,*,形容詞・アウオ段,基本形,ない,ナイ,ナイ
すごい 形容詞,自立,*,* すごい 形容詞,自立,*,*,形容詞・アウオ段,基本形,すごい,スゴイ,スゴイ
欲し 形容詞,自立,*,* 欲し 形容詞,自立,*,*,形容詞・イ段,ガル接続,欲しい,ホシ,ホシ
いい 形容詞,自立,*,* いい 形容詞,自立,*,*,形容詞・イイ,基本形,いい,イイ,イイ
neologdのインストール(実用上、適さない)
辞書ファイルの作成
bash -c "git clone https://github.com/neologd/mecab-ipadic-neologd.git; xz -dkv mecab-ipadic-neologd/seed/*.csv.xz; cat mecab-ipadic-neologd/seed/*.csv > neologd.csv"
辞書を登録
python3 -c "from janome.dic import UserDictionary; from janome import sysdic; user_dict = UserDictionary('neologd.csv', 'utf8', 'ipadic', sysdic.connections); user_dict.save('neologd')"
- すごい時間がかかる
- 64GBメモリでも失敗することがあるのであまり現実的ではない