• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

python trafilatura

date: 2025-08-25 excerpt: python trafilaturaの使い方

tag: pythontrafilatura


python trafilatureの使い方

概要

  • trafilaturaは、ウェブページからテキストを抽出するためのPythonライブラリ
  • テキスト密度(text density)、リンク密度(link density)、タグ分析(tag analysis)を使って、本文エリアを特定
  • 読み方はイタリア風に「トラフィラトゥーラ」

インストール

$ pip install trafilatura

使い方

import trafilatura
downloaded = trafilatura.fetch_url('https://example.com/')
result = trafilatura.extract(downloaded)


pythontrafilatura Share Tweet