Solaris | Hyper Estraierのクローラestwaverを使う(全文検索システム)
- 2008.06.30
- Solaris
社内のイントラネット用にクローラestwaverを利用する。
目次
■クロール用のルートディレクトリを作成する
estwaverコマンドに引数initとディレクトリ名を指定して実行する。
$ cd $HOME $ mkdir crawl_dir $ estwaver init crawl_dir
crawl_dir 内に設定ファイル等が作成される。
■_confファイルを設定する
$HOME/crawl_dir/_conf を編集する。
seed: 1.0|http://www.intra.com/ seeddepth: 5 language: 1 allowrx: ^http://[^/]*\.intra.com/ docnum: 100000
seed: 1.0 重み付け。1.0のままでよい。
seeddepth: 5 5階層の深さのディレクトリまでクロールする。
language: 1 0は英語。1は日本語。
allowrx: GoogleやYahooのクローラのようにリンク先を全てクロールしてしまうので、イントラに限定したいときには、URLを指定する。
[^/]*\. の意味は、/ から始まらず、適当な文字列***、ドット。
docnum: 100000 10万ドキュメントを上限。
■ドキュメントをクロール(収集)する
$ estwaver crawl -revcont $HOME/crawl_dir
crawl_dir/_index/ ディレクトリにインデックスが作成される。
■テストする
testという文字を検索してみる。
$ estcmd search -vs $HOME/crawl_dir/_index "test"
■cgiからインデックスを使えるようにする
cgi-bin/estseek.conf を編集する。
indexname: /export/home/intra/crawl_dir/_index
■cronで実行する
cronで定期実行させるようにして、作業完了。
クロールしている最中は、インデックスを利用できない。つまり検索できない状態なので、インデックスのコピーを利用するようにcgi-bin/estseek.conf を設定しておくとよい。
■Solarisの引っ越し
SPARCからx86 Solarisへへの引っ越しの際は、ルートディレクトリをもう一度作り直すこと。(estwaver initコマンドを発行する)
-
前の記事
CakePHP1.2でエラー Warning (512): Method HtmlHelper::formTag does not exist 2008.06.13
-
次の記事
Apacheにアクセスできない403 Forbidden SSHもできない 2008.07.02