senにWikipediaの項目名を追加する

QMACloneの新類似問題検索エンジンの単語分割の部分にJavaによる日本語形態素解析エンジンsenを使っているのだが、どうも固有名詞の認識が甘い。というか、甘すぎる。国名や地名はある程度認識してくれるのだが有名な作品名(坊ちゃん等)を認識してくれないなど、検索精度が微妙になってしまっている。
senが使用しているipadicの固有名詞辞書を見てみたのだが、明らかに語彙が足りてない。これではQMACloneに投稿されている問題の検索を行うには貧弱すぎる。
そこでWikipediaの項目名を固有名詞と見立てて、ipadicに追加することにした。Wikipediaのダウンロードセクションからページタイトル一覧をダウンロードし、加工してipadicに追加。そしてsenの辞書を再構築する。追加前と追加後で辞書サイズが4〜5倍になった。これならきっと最新の固有名詞も判定してくれるだろう。
デバッグはまた後ほど。