転置インデックス

転置インデックスの定義

転置インデックスは、情報検索システムにおいて、文書のコーパスに含まれる単語を格納し、整理するために用いられるデータ構造である。 文章にふくまえれる単語を記録するのではなく、特定の単語が含まれる文章を記録するため「転置」インデックスと呼ばれる。

転置インデックスの目的

特定の単語やフレーズを含む文書の高速な検索と取得を可能にすることができる。 ユーザーがクエリーを送信すると、システムはインデックス内の関連する単語を検索し、その単語を含む文書のリストを高速に返すデータ構造となっている。

データ構造

転置インデックスは、通常、コーパスの各単語を1行、各文書を1列とする表として構成される。 表の各セルは、その単語が対応する文書に出現しているかどうかを示す。また、各文書における各単語の出現頻度や、文書内の各出現位置などの追加情報を含むこともある。

応用先

転置インデックスを使用する情報検索システムの例としては、検索エンジン、書誌データベース、デジタルライブラリがある。

単語文章行列(term document matrix)との違い

単語文章行列とは、コーパスの文書内容をマトリックス形式で表現するために用いられるデータ構造である。 行列の各行はコーパスに含まれる一意の単語を表し、各列は文書を表す。行列のセルには、各文書における各単語の存在と重要度を反映した値が格納されている。

単語文章行列では、各行が単語、各列が文書を表しますが、転置インデックスでは、各行が文書、各列が単語を表します。

この2つのデータ構造の重要な違いの1つは、用語集行列は各文書における各単語の存在と重要性に関する情報を格納するのに対し、転置インデックスは各文書における各単語の存在に関する情報のみを格納する点である。言い換えれば、用語集行列は単語と文書の関係についてより詳細な情報を含むが、転置インデックスはこの情報をより単純かつコンパクトに表現したものである。単語文章行列は極めてスパースな行列になりがちで、データ構造として効率が悪いため、検索エンジンなどでは転地インデックスが採用される。

もう一つの違いは、単語文章行列は通常、コーパスの内容全体を表現するために用いられるのに対し、転置インデックスは通常、特定の単語やフレーズを含む文書の高速な検索をサポートするために用いられることである。転置インデックスは通常、コーパスの各単語を1行、各文書を1列とする表として構成される。表の各セルは、その単語が対応する文書に出現しているかどうかを示す。また、各文書における各単語の出現頻度や、文書内での出現位置などの追加情報を含んでいる場合もある。