Skip to content

記事内の URL のリンク切れを検出するスクリプトの作成 #1

@noraworld

Description

@noraworld

記事内の URL を正規表現かなにかでマッチさせて、その URL のヘッダ情報のみを取得し、404 Not Found を検出する。

ヘッダ情報のみを取得する理由は、単純に本文は要らないのと、本文も取得しようとするとリクエストに時間がかかるから。

スクリプトは bin ディレクトリでも作ってそこに置いておくのが良いだろう。

ざっくりとした仕様は以下の通り。コマンド名は適当。

# 無引数の場合は全記事の内の全 URL をチェックする
$ bin/check-broken-link

# パスを引数として指定したらその記事内の URL のみをチェックする
$ bin/check-broken-link articles/foo-bar-baz

# 全 URL と HTTP ステータスコードを表示する
# 200 OK などの URL も含めて、すべて表示する
# これは記事内の URL を正規表現等で正しく抽出できるかの、いわばデバッグ用のオプション
$ bin/check-broken-link --verbose

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions