hyperestraier を使って、ファイルサーバを全文検索
hyerestraier を使って、ファイルサーバのみんなで共有しているファイル群を全文検索します。インデックスを作成するときにはジャンルを使って、案件を指定できるようにします。
イントロダクションに書いてあることは省略してあります。
Excel,MS-Word,PowerPoint,PDFを検索できるようにテキストを抽出するプログラムをインストール
■MS-Wordからテキストを抽出するvwWare
# yum install glib2-devel # yum install libgsf-devel 依存パッケージいっぱい $wget http://downloads.sourceforge.net/wvware/wv-1.2.4.tar.gz?modtime=1161798556&big_mirror=0 $ tar xvfz wv-1.2.4.tar.gz $ ./configure $ make $ make install
■ExcelとWordからテキストを抽出するxlhtml
$ wget http://nchc.dl.sourceforge.net/sourceforge/chicago/xlhtml-0.5.tgz $ tar xvfz xlhtml-0.5.tgz $ cd xlhtml-0.5 $ ./configure $ make $ make install
インデックスを初期化
$ estcmd create -attr _lpath str -attr @mdate seq -attr @size seq -attr @genre str job
インデックス化
インデックス化する際には -aa @genreを使ってフォルダ単位にジャンルを指定します。
$ export PATH=$PATH:/usr/local/share/hyperestraier/filter/ $ estcmd gather -cl -fx ".doc,.xls,.ppt" "H@estfxmsotohtml" -ic UTF-8 -sd -cm -pc UTF-8 -aa @genre project_a job /home/Projects/project_a $ estcmd gather -cl -fx ".doc,.xls,.ppt" "H@estfxmsotohtml" -ic UTF-8 -sd -cm -pc UTF-8 -aa @genre project_b job /home/Projects/project_b
estseek.confにジャンルを指定
genrecheck: project_a{{!}}プロジェクトA
genrecheck: project_b{{!}}プロジェクトB
2 月 7th, 2008 in
linux
