Survey banner
The Dataiku Community is moving to a new home! We are temporary in read only mode: LEARN MORE

非ユニークなキーを用いた結合におけるレコード重複の対処法

Koji81
Level 1
非ユニークなキーを用いた結合におけるレコード重複の対処法

非ユニークなキーを用いたデータを結合する際にレコードが重複しレコード数が増えてしまうという問題があるのですが、Dataiku上での対処方法などありますでしょうか?

0 Kudos
1 Reply
TsuyoshiK
Dataiker

非ユニークなキーを利用してデータをJoinした場合、SQLの仕様上、結合キーを元に各テーブルの「直積」が計算されます。このため、重複レコードが生成されることになります。

上記のような背景がありますので、Join後のレコード数を増やしたくない場合、各テーブルの結合キーがユニークとなるように、データを準備していただく必要があります。

本来一意であるべきテーブルの場合には、重複したキーが入っていること自体が業務上の課題となりますので、最適な対応はデータ内容によって異なります。考えられる対応の一例として、以下に記載します。

案1:前処理として、結合対象のテーブルにGroupレシピを適用。結合キーをGroup Keyとして指定することで、キーが一意なレコードを作成する。
案2:Joinレシピの結合条件に複合条件を指定して、キー全体で一意となるように設定する。

以上、よろしくお願いいたします。

0 Kudos