wgetでサイト(ディレクトリ)を丸ごとダウンロード

自サイトを丸ごとバックアップしたり、あるディレクトリ以下をダウンロードして加工したいときがたまにある。

 

■Macにwgetをインストールする

http://www.gnu.org/software/wget/

http://ftp.gnu.org/gnu/wget/

# cd /usr/local/
# tar zxvf wget-1.10.2.tar.gz
# cd wget-1.10.2
# ./configure
# make
# make install

 

インストールされる場所。 

/usr/local/bin/wget 

 

■サイトを丸ごとダウンロードする

$ wget -r -l 0 http://www.mysite.co.jp/index.html

-r  –recursive ということで、再起的に取得する。

-l  –level リンクをたどる階層数を指定する。デフォルトは5階層で、0を指定すると全階層。

 

■あるディレクトリ以下を丸ごとダウンロードする

$ wget -r -np http://www.mysite.co.jp/path/to/index.html

 -np  –no-parent ということで、親ディレクトリは無視する。

 

 

■wgetのその他のオプション

素晴らしくわかりやすいオプションの一覧ページ。

http://members.at.infoseek.co.jp/futora/wget153/option.html

http://members.at.infoseek.co.jp/futora/wget153/

 

■curlをwgetの代わりに使う

Macにデフォルトで入っているので、wgetの代わりにすぐに使える。

1つのファイルをダウンロードしたいときに便利。

http://www.big.or.jp/~crane/cocoa/0800_internet/curl/