pythonのpdfminderの概要と使い方
概要
- pdfminerはpdfを解析するためのライブラリ
インストール
$ pip install pdfminer.six
使い方
pdfからテキストを抽出する
import requests
from pdfminer.high_level import extract_text
from io import BytesIO
import re
def extract_text_from_pdf_url(url):
response = requests.get(url)
text = extract_text(BytesIO(response.content))
text = re.sub("\n{1,}", "\n", text)
text = re.sub("\s{1,}", " ", text)
return text
url = 'https://www.jstage.jst.go.jp/article/iken/33/3/33_33-283/_pdf/-char/ja' # PDFファイルのURLを指定
text = extract_text_from_pdf_url(url)
print(text)