python trafilatureの使い方
概要
trafilatura
は、ウェブページからテキストを抽出するためのPythonライブラリ- テキスト密度(text density)、リンク密度(link density)、タグ分析(tag analysis)を使って、本文エリアを特定
- 読み方はイタリア風に「トラフィラトゥーラ」
インストール
$ pip install trafilatura
使い方
import trafilatura
downloaded = trafilatura.fetch_url('https://example.com/')
result = trafilatura.extract(downloaded)