人気コンテンツ今日: |
リンク切れhtmlファイルを一括削除するスクリプトSubmitted by sasaki on 金曜, 2007-12-14 17:44.
ドリームウェーバーで「サイト全体のリンクチェック...」を実行すると「リンク切れリスト(単独ファイルリスト)」を作ってくれる。 こんな感じのリストになる。 images/old.jpg
このhtmlやjpgファイルのリスト、なんと 1万6千行もあった。(おいおい!) さすがに手作業で消すには社会保険庁の年金照合作業のような気がするので、シェルスクリプトか、Perlスクリプトで一気に消したい。
■リンク切れhtmlファイルをまとめて削除する流れは以下の通り。 1. リンク切れリストの改行をLFにして保存する。 (list.txtという名前にした) 2. リンク切れリストをhtmlドキュメントルートに置く。(FTPでアップしておく) 3. htmlドキュメントルートに移動して、リンク切れリスト内のファイルを削除していく。 (ドキュメントルートは、/home/web/puclic_htmlとする) $ cd /home/web/public_html/
実行前に、考慮しておくことのお勧めは以下の通り。 ※ 必ず、バックアップしたディレクトリで実験する。問題ないことを確認しておく。 ※ robots.txt が削除リストに入っているので消しておく。 ※ favicon.ico が削除リストに入っているのでリストから消しておく。 ※ .htaccess が削除リストに入っているのでリストから消しておく。 ※ JavaScript からのジャンプ先ページがリストに含まれていたら消しておく。 ※ *.backup など、バックアップを削除したくない場合はリストから消しておく。 ※ ドリームウィーバーが吐き出したリストに「絶対リンク」http://〜 が含まれていたら置換するか、リストから消しておく。 ※ ファイル名に含まれる 半角スペース は \(バックスラッシュ)と半角スペース に一括置換えしておく。 ※ ファイル名に含まれる '(シングルクォート) は \(バックスラッシュ)と'(シングルクォート) に一括置換えしておく。 ※ *.mov *.rm *.wvx *.wmv などムービー関連は、リファレンスムービーからジャンプする場合を考えて、削除リストに入れておいてよいかチェックしておく。
結局、rubyやperlのお世話になるまでもなかった...。
|
Webマスターな生活amazon広告英語お勧め教材! 英語の学校でも使っているのですが、1つのストーリーを3分で読めて、内容も面白く、もっと早く出会いたかった本です。 Apple好きで英語も勉強したいならこの一冊! ブログパーツ |