hyperestraier を使って、ファイルサーバを全文検索

hyerestraier を使って、ファイルサーバのみんなで共有しているファイル群を全文検索します。インデックスを作成するときにはジャンルを使って、案件を指定できるようにします。

イントロダクションに書いてあることは省略してあります。

Excel,MS-Word,PowerPoint,PDFを検索できるようにテキストを抽出するプログラムをインストール

■MS-Wordからテキストを抽出するvwWare

  # yum install glib2-devel
  # yum install libgsf-devel
	  依存パッケージいっぱい
  $wget http://downloads.sourceforge.net/wvware/wv-1.2.4.tar.gz?modtime=1161798556&big_mirror=0
  $ tar xvfz wv-1.2.4.tar.gz
  $ ./configure
  $ make
  $ make install

■ExcelとWordからテキストを抽出するxlhtml

  $ wget http://nchc.dl.sourceforge.net/sourceforge/chicago/xlhtml-0.5.tgz
  $ tar xvfz xlhtml-0.5.tgz
  $ cd xlhtml-0.5
  $ ./configure
  $ make
  $ make install

インデックスを初期化

 $ estcmd create -attr _lpath str -attr @mdate seq -attr @size seq -attr @genre str job

インデックス化

インデックス化する際には -aa @genreを使ってフォルダ単位にジャンルを指定します。

 $ export PATH=$PATH:/usr/local/share/hyperestraier/filter/
 $ estcmd gather -cl -fx ".doc,.xls,.ppt" "H@estfxmsotohtml" -ic UTF-8 -sd -cm -pc UTF-8 -aa  @genre project_a job /home/Projects/project_a
 $ estcmd gather -cl -fx ".doc,.xls,.ppt" "H@estfxmsotohtml" -ic UTF-8 -sd -cm -pc UTF-8 -aa @genre project_b job /home/Projects/project_b

estseek.confにジャンルを指定

genrecheck: project_a{{!}}プロジェクトA
genrecheck: project_b{{!}}プロジェクトB

Trackback URL

Leave a comment

Your comment