現段階での類似問題検索エンジン実装まとめ

備忘録としてメモ。

固有名詞辞書作成

日本語版Wikipediaの項目名一覧を落としてきて、Trie木に食わせる。

問題からの固有名詞の抜き出し

Trie木を使って問題文から固有名詞を抜き出す。このとき固有名詞の領域が重複する場合が出てくる。重複を解決するため、固有名詞の長さの二乗の和をスコアとして、スコアが最も高くなるような固有名詞の選び方を動的計画法で求める。

tf-idfの計算

計算式の通りにやる。

コサイン尺度の計算

計算式の通りにやる。