2つのデータセットが一致するかの確認方法

Kazuki93
Level 1
2つのデータセットが一致するかの確認方法

外部から取り込んだデータセット(Excel形式やCSV形式)とDataikuのワークフローで作成したデータセットが一致するかを検証したい場合には、どうすればよいのでしょうか?

Join with...レシピからInner Joinで全ての変数をkeyとして結合する方法も検討しましたが、一部のカラムに欠損があると、欠損があるレコードは上手く結合されません。

よろしくお願いいたします。

0 Kudos
3 Replies
Turribeach

@Kazuki93 wrote:

What should I do if I want to verify that the data set imported from an external source (Excel format or CSV format) matches the data set created by Dataiku's workflow?

Join with...I also considered joining all variables as keys using Inner Join from the recipe, but if some columns are missing, the missing records will not be joined properly.

Thank you.


Google Translated your post above. Are you using a SQL database? If so you can load the CSV into a table and then compare the Dataiku table vs the CSV table like this on a SQL query recipe:

SELECT "Missing From CSV" AS RECORD_TYPE, COL1, COL2, COL3 FROM Dataiku_Table
MINUS
SELECT "Missing From CSV" AS RECORD_TYPE, COL1, COL2, COL3 FROM CSV_Table
UNION ALL
SELECT "Missing From Dataiku" AS RECORD_TYPE, COL1, COL2, COL3 FROM CSV_Table
MINUS
SELECT "Missing From Dataiku" AS RECORD_TYPE, COL1, COL2, COL3 FROM Dataiku_Table

 

0 Kudos
Kazuki93
Level 1
Author

Neuronさん

 

ご回答ありがとうございます。

私の環境ではSQLを使用していません。そのため、同様の処理をPythonで行う方法も教えていただけないでしょうか?

 

よろしくお願いいたします。

0 Kudos

There are many ways to do this in Python. Here are few options:

https://stackoverflow.com/questions/20225110/comparing-two-dataframes-and-getting-the-differences

 

0 Kudos