非ユニークなキーを用いた結合におけるレコード重複の対処法

Options
Koji81
Koji81 Registered Posts: 1 ✭✭

非ユニークなキーを用いたデータを結合する際にレコードが重複しレコード数が増えてしまうという問題があるのですが、Dataiku上での対処方法などありますでしょうか?

Comments

  • Tsuyoshi
    Tsuyoshi Dataiker, PartnerAdmin, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 78 Dataiker
    Options

    非ユニークなキーを利用してデータをJoinした場合、SQLの仕様上、結合キーを元に各テーブルの「直積」が計算されます。このため、重複レコードが生成されることになります。

    上記のような背景がありますので、Join後のレコード数を増やしたくない場合、各テーブルの結合キーがユニークとなるように、データを準備していただく必要があります。

    本来一意であるべきテーブルの場合には、重複したキーが入っていること自体が業務上の課題となりますので、最適な対応はデータ内容によって異なります。考えられる対応の一例として、以下に記載します。

    案1:前処理として、結合対象のテーブルにGroupレシピを適用。結合キーをGroup Keyとして指定することで、キーが一意なレコードを作成する。
    案2:Joinレシピの結合条件に複合条件を指定して、キー全体で一意となるように設定する。

    以上、よろしくお願いいたします。

Setup Info
    Tags
      Help me…