python trafilatura

date: 2025-08-25 excerpt: python trafilaturaの使い方

python trafilatureの使い方

概要

trafilaturaは、ウェブページからテキストを抽出するためのPythonライブラリ
テキスト密度（text density）、リンク密度（link density）、タグ分析（tag analysis）を使って、本文エリアを特定
読み方はイタリア風に「トラフィラトゥーラ」

インストール

$ pip install trafilatura

使い方

基本的な使用例(コマンドライン)

$ trafilatura -u "https://example.com/article" --markdown

基本的な使用例(コード)

import trafilatura
downloaded = trafilatura.fetch_url('https://example.com/')
result = trafilatura.extract(downloaded)

マークダウン形式で抽出

from trafilatura import fetch_url, extract

url = 'https://example.com/'
downloaded = fetch_url(url)

if downloaded:
    # Markdown形式で抽出
    result = extract(
        downloaded,
        output_format="markdown",  # または "md"
        include_links=True,        # リンクを保持する場合
        include_images=True,       # 画像参照を保持する場合
        include_tables=True        # テーブルを保持する場合
    )
    print(result)