専門性を評価する特許「Phrase-based searching in an information retrieval system Abstract」の解説 | 関連性 | REPORT Gメソッドレポート

専門性を評価する特許「Phrase-based searching in an information retrieval system Abstract」の解説

検索クエリと関連性の高い文書を判定するアルゴリズムの中で、関連フレーズを分析するアプローチを用いた特許技術を解説します。 この特許は「専門性」を判定するために使用されています。

特許番号:Patent US9990421B2
タイトル:情報検索システムでのフレーズベースの検索
公開日:2018年6月5日
発明者:アンナ・L・パターソン
出願人:Google Inc

目次

Googleパテント「Phrase-based searching in an information retrieval system Abstract」の概要

検索クエリと関連性の高い文書を判定するアルゴリズム

従来の、検索クエリと文書(WEBページ)の関連性を判定するために、主にTF-IDF法を用いてキーワードレベルで分析、判定が行われてきましたが、フレーズレベルで関連性を判定するアルゴリズムが考案されました。

フレーズとは、「言葉や単語の組み合わせで、特定の意味や概念」表すもの

2つ以上の単語の樹見合わせで、「人工知能」は「人工」と「知能」の組み合わせで出来た言葉です。

関連フレーズとは、「特定のフレーズと何らかの形で関連性や連関性があるフレーズ」

例えば、「アメリカ合衆国の大統領」に対する「ホワイトハウス」、「人工知能」に対する、「機械学習」、「ディープラーニング」、「ニューラルネットワーク」が該当します。

文書のランキングの仕組み

ユーザー関連フレーズとクエリ関連フレーズの特定

まず、ユーザーがアクセスした文書に基づいてユーザー関連フレーズを特定します。

また、ユーザーの検索クエリに基づいてクエリ関連フレーズを特定します。

ユーザー関連フレーズとは、「ユーザーの行動や興味に基づいて特定されたフレーズ」

ユーザーが過去にアクセスした文書、検索したクエリ、クリックしたリンクなど、ユーザーの行動履歴から導き出されます。

たとえば、ユーザーが特定のトピックに関する文書を頻繁に閲覧する場合、そのトピックに関連するフレーズがユーザー関連フレーズとして特定される可能性があります。これらのフレーズは、ユーザーの興味や嗜好を反映しており、検索結果のパーソナライズや推奨アイテムの提供に利用されます。

この特許では、ユーザー関連フレーズは、ユーザーがアクセスした文書に基づいて特定され、これらのフレーズは文書のランキングに影響を与えます。つまり、ユーザー関連フレーズが多く含まれている文書は、ユーザーにとって関連性が高いと判断され、高くランク付けされます。

クエリ関連フレーズとは、「ユーザーが検索クエリとして入力したフレーズ、またはそのクエリに関連するフレーズ」

たとえば、ユーザーが「自然言語処理」というクエリで検索を行った場合、「自然言語処理」自体がクエリ関連フレーズとなります。さらに、「機械学習」、「AI」、「ディープラーニング」など、このクエリに関連する他のフレーズもクエリ関連フレーズとして考慮される可能性があります。

この特許では、クエリ関連フレーズは、ユーザーの検索クエリに基づいて特定され、これらのフレーズは文書のランキングに影響を与えます。つまり、クエリ関連フレーズが多く含まれている文書は、ユーザーの検索クエリに対して関連性が高いと判断され、高くランク付けされます。

文書のランキング

次に、各文書の文を、その文に含まれるユーザー関連フレーズとクエリ関連フレーズの数に基づいてランク付けします。

つまり、ユーザー関連フレーズやクエリ関連フレーズが多く含まれている文が高くランク付けされます。

文書のソート

ランク付けされた文を、クエリのカウント(つまり、そのクエリがどれだけ頻繁に現れるか)に基づいてソートします。

フレーズ拡張に基づく最終的なソート

最後に、各フレーズのフレーズ拡張(つまり、そのフレーズが他のフレーズとどれだけ関連しているか)の数に基づいてソートします。

このプロセスにより、ユーザーの興味や検索クエリに最も関連する文書が最も高くランク付けされます。

計算式:Score = 0.30 * (body hit score) + 0.70 * (anchor hit score)

body hit scoreとは「文書に対する最も高い関連フレーズビットベクトルの数値」

クエリフレーズが文書内にどの程度存在するかを示します。

この値は、検索システムが各クエリフレーズをインデックスから検索し、その投稿リストから文書をアクセスし、

関連フレーズビットベクトルをアクセスすることによって直接取得します。

「関連フレーズビットベクトル」は、特定のフレーズの関連フレーズが文書内に存在するかどうかを示すデータ構造

「人工知能」で、その関連フレーズが「機械学習」、「ディープラーニング」、「ニューラルネットワーク」であるとします。

関連フレーズビットベクトルは、これらの関連フレーズが文書内に存在するかどうかを示します。

もし「機械学習」が文書に存在し、「ディープラーニング」と「ニューラルネットワーク」が存在しない場合、

ビットベクトルは「100」と表します。

anchor hit scoreとは、他の文書のアンカーテキストとして使用されている関連フレーズビットベクトルの数値

そのクエリフレーズが文書を参照する他の文書のアンカーテキストである場合に高い重みづけがなされます。このスコアは、アンカーフレーズが文書にどの程度トピカル(主題に関連する)であるかのスコアとしてここでは「インバウンドスコアコンポーネント」と呼ばれています。

インバウンドスコアコンポーネントは、「文書が参照(リンク)している他の文書との関連性」を示す。

他の文書からの参照(リンク)がどれだけその文書と関連しているかを示します。このスコアは、アンカーフレーズがその文書の本文に存在する場合と存在しない場合で異なる方法で計算されます。

アウトバウンドスコアコンポーネントは、「文書が参照(リンク)している他の文書との関連性」を示す。

具体的には、アンカーフレーズ(ハイパーリンクのテキスト)がどれだけその文書とトピカル(主題的)であるかを示す指標です。

0.30と0.70の重みは、必要に応じて調整される

この数値はパラメーターとして調整される数値です。アルゴリズムがアップデートされる場合に主に調整されます。

「専門性」を判定するために使用される

“Depending on the implementation, either of these components can be the primary sort key, and the other can be the secondary sort key. The sorted results are then presented to the user. Sorting the documents on the outbound score component makes documents that have many related phrases to the query as anchor hits, rank most highly, thus representing these documents as “expert” documents.”

Current Assignee:Google LLC
Inventor:Anna L. Patterson
Phrase-based searching in an information retrieval systemより引用

アウトバウンドスコアコンポーネントに基づいて文書をソートすると、クエリとして多くの関連フレーズを持つ文書が最も高くランク付けされます。

この特許では、これらの文書を「専門家」の文書として表現しています。

つまり、その文書が参照(リンク)している他の文書との関連性が高いほど、その文書は「専門家」の文書と見なされます。

具体的には、アンカーフレーズ(ハイパーリンクのテキスト)がその文書とトピカル(主題的)であるほど、その文書は「専門家」の文書と見なされます。