Skip to content

文字列の類似度グルーピング

この機能は、文字列の類似度に基づいてデータをグルーピングすることができます。
例えば、顧客データの名前や住所情報を類似度に基づいてグループ化し、名寄せできうるデータを検出する場合に便利です。
文字列の類似度を計算するために、以下の 3 つのアルゴリズムを使用します。

  • 共通文字列: 2 つの文字列間の共通の文字列を基に類似度を計算します。
  • 共通文字出現順序: 2 つの文字列間の共通の文字の出現順序を基に類似度を計算します。
  • 編集距離: 2 つの文字列間の編集距離(挿入、削除、置換の最小回数)を基に類似度を計算します。

また、グルーピングの際に、先頭 n 文字をキーとしてブロッキングすることができ、効率的に類似度計算を行うことができます。


入出力定義

定義内容
入力データ
出力データ