2つのデータセットが一致するかの確認方法

Options
Fukuyama
Fukuyama Dataiku DSS Core Designer, Registered Posts: 7 ✭✭✭

外部から取り込んだデータセット(Excel形式やCSV形式)とDataikuのワークフローで作成したデータセットが一致するかを検証したい場合には、どうすればよいのでしょうか?

Join with...レシピからInner Joinで全ての変数をkeyとして結合する方法も検討しましたが、一部のカラムに欠損があると、欠損があるレコードは上手く結合されません。

よろしくお願いいたします。

Answers

  • Turribeach
    Turribeach Dataiku DSS Core Designer, Neuron, Dataiku DSS Adv Designer, Registered, Neuron 2023 Posts: 1,730 Neuron
    edited July 17
    Options

    @Kazuki93
    wrote:

    What should I do if I want to verify that the data set imported from an external source (Excel format or CSV format) matches the data set created by Dataiku's workflow?

    Join with...I also considered joining all variables as keys using Inner Join from the recipe, but if some columns are missing, the missing records will not be joined properly.

    Thank you.


    Google Translated your post above. Are you using a SQL database? If so you can load the CSV into a table and then compare the Dataiku table vs the CSV table like this on a SQL query recipe:

    SELECT "Missing From CSV" AS RECORD_TYPE, COL1, COL2, COL3 FROM Dataiku_Table
    MINUS
    SELECT "Missing From CSV" AS RECORD_TYPE, COL1, COL2, COL3 FROM CSV_Table
    UNION ALL
    SELECT "Missing From Dataiku" AS RECORD_TYPE, COL1, COL2, COL3 FROM CSV_Table
    MINUS
    SELECT "Missing From Dataiku" AS RECORD_TYPE, COL1, COL2, COL3 FROM Dataiku_Table
    

  • Fukuyama
    Fukuyama Dataiku DSS Core Designer, Registered Posts: 7 ✭✭✭
    Options

    Neuronさん

    ご回答ありがとうございます。

    私の環境ではSQLを使用していません。そのため、同様の処理をPythonで行う方法も教えていただけないでしょうか?

    よろしくお願いいたします。

  • Turribeach
    Turribeach Dataiku DSS Core Designer, Neuron, Dataiku DSS Adv Designer, Registered, Neuron 2023 Posts: 1,730 Neuron
    Options
Setup Info
    Tags
      Help me…