• home
  • about
  • 全ての投稿
  • ソフトウェア・ハードウェアの設定のまとめ
  • 分析関連のまとめ
  • ヘルスケア関連のまとめ
  • 生涯学習関連のまとめ

Web Archive

date: 2025-12-28 excerpt: Web Archiveの基本

tag: webarchiveWayback Machine


Web Archiveの基本

概要

  • 「インターネットの図書館」としてデジタル文化遺産を半永久的に保存し、誰でもアクセス可能な状態を維持すること
  • マネタイズはLibrary as a Service (LaaS)モデルを採用し、寄付やサブスクリプションで運営
  • Wayback MachineのCDX APIを使うと、アーカイブ時刻やURLを機械的に取得できる

特定の記事の最古のバージョンを探す方法

STEP 1. 特定のパスのURLの最古の日時を特定

  • limit=1とfilter=statuscode:200で最古の正常応答のみ取得
  • 戻り値の先頭列はUTCのYYYYMMDDhhmmss形式のタイムスタンプ
$ curl -s "http://web.archive.org/cdx/search/cdx?url=www.iana.org/help/example-domains&limit=1&filter=statuscode:200&fl=timestamp,original"
230711115532 https://www.iana.org/help/example-domains

STEP 2. 取得した日時を使ってアーカイブされたコンテンツを取得

  • 1行目のタイムスタンプをそのまま埋め込む
$ curl "http://web.archive.org/web/20230711115532/www.iana.org/help/example-domains"


webarchiveWayback Machine Share Tweet