HTMLファイルから特定の文字を検索する

Error message

Deprecated function: The each() function is deprecated. This message will be suppressed on further calls in book_prev() (line 775 of /home/mambo/www/modules/book/book.module).

数千ページにおよぶhtmlファイルから、ある特定の検索ワードを含むページ名を取得する。

 

  • My Company Name という文字列を含むページを探したい。
  • プラスチックではなく、プラスティックと書いてしまったページを探したい。
  • 古い電話番号を掲載しているページを探したい。
  • カタログPDFにリンクしているページを探したい。

 

■catalog.pdfを含んでいるhtmlドキュメントを検索する

現在のディレクトリ以下で、catalog.pdf を含んでいるファイルをリストアップする。

$ grep -l catalog.pdf *.html

-l(ハイフン・エル)オプションで、検索結果をファイル名として表示してくれる。

サブディレクトリ(サブフォルダ)以下は、検索対象にならない。

 

 

■cataolog.pdfを含むhtmlドキュメントを特定ディレクトリ以下全てに渡って検索する 

 public_htmlディレクトリ以下、全てにわたって、catalog.pdf を含んでいるHTMLファイルをリストアップする。

$ find public_html -name "*.html" | xargs -i grep -l catalog.pdf {}