sklearn vectorizerの使い方
概要
- tf-idf, count, hashなどのvectorizerを提供
- transformメソッドでテキストデータをスパース行列に変換
サンプルコード
初期化
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction.text import CountVectorizer
feature_num = 10000 # 特徴量(単語)の数
# tf-idf
vectorizer = TfidfVectorizer(max_features=feature_num, stop_words=None)
# count
vectorizer = CountVectorizer(max_features=feature_num, stop_words=None,)
# count(出現したかどうかのバイナリ, 高速)
vectorizer = CountVectorizer(max_features=feature_num, stop_words=None, binary=True)
変換
X = vectorizer.fit_transform(["分かち書きされたテキスト1", "分かち書きされたテキスト2", ...])
単語の取得
feature_names = vectorizer.get_feature_names_out() # 単語のリスト