Yandexがロングテールに強いアルゴリズム「パレフ」を導入
ロングテールに特化したアルゴリズムのパレフをYandexに導入。
ロシア最大の検索エンジンであるYandexが、ロングテールでの検索クエリに特化したアルゴリズム「パレフ」を、導入したことを明らかにしました。
Yandexによると、ロングテールのクエリに特化した新しいアルゴリズム「パレフ (Palekh)」を、コアのランキングアルゴリズムに実装したことを、公式ブログにてアナウンスしました。ちなみにパレフとは、ロシア・イヴァノヴォ州にある都市型集落(町)で、この町の紋章である長い尾羽を持った火の鳥を関連付けて命名したそうです。
Yandexでは、1日あたり1億回程度の検索クエリが、ロングテール(文章や複数のワードで構成された検索)での検索となっており、ロングテールで検索する検索者の意図をより理解するために開発・導入されました。パレフは、1,500あるランキング要因の1つとしてニューラルネットワークを使用しており、この神経ネットワークにクエリとドキュメントの関連性を見る術を学習させたことで、ドキュメントと関連性の高いワードが検索クエリに含まれていなくても、より意図に近い検索を可能にしました。
パレフの仕組みとしては、数十億の検索クエリを基に単語を数字変換して、数字ごとに300あるグループ分けを行い、それを300次元の空間に位置させます。そうすることで、検索クエリとドキュメント内容を数字化・計測を可能とさせ、お互いの関連性の高さを割り出します。簡単にいうと、全ての単語を数字化して、数字の類似性にて関連性の高さを計り、最も関連のある結果を表示させるということです。システムのロジックやテクノロジーは分かりませんが、恐らくGoogleのRankBrainの仕組みと類似しているのではないかと考えられます。