2010-10-15から1日間の記事一覧

全文検索エンジンLuceneで自作のAnalyzer/Tokenizerを使用する

端的に言うと、AnalyzerとTokenizerを継承したクラスをそれぞれ作れば良い。今回作成したTokenizerは以前よりQMACloneで使用している、辞書に含まれている単語を抜き出すというTokenizerである。アルゴリズムはVitabiアルゴリズムを少しだけ変えただけなので…