Sign up to take part
Registered users can ask their own questions, contribute to discussions, and be part of the Community!
Registered users can ask their own questions, contribute to discussions, and be part of the Community!
非ユニークなキーを用いたデータを結合する際にレコードが重複しレコード数が増えてしまうという問題があるのですが、Dataiku上での対処方法などありますでしょうか?
非ユニークなキーを利用してデータをJoinした場合、SQLの仕様上、結合キーを元に各テーブルの「直積」が計算されます。このため、重複レコードが生成されることになります。
上記のような背景がありますので、Join後のレコード数を増やしたくない場合、各テーブルの結合キーがユニークとなるように、データを準備していただく必要があります。
本来一意であるべきテーブルの場合には、重複したキーが入っていること自体が業務上の課題となりますので、最適な対応はデータ内容によって異なります。考えられる対応の一例として、以下に記載します。
案1:前処理として、結合対象のテーブルにGroupレシピを適用。結合キーをGroup Keyとして指定することで、キーが一意なレコードを作成する。
案2:Joinレシピの結合条件に複合条件を指定して、キー全体で一意となるように設定する。
以上、よろしくお願いいたします。