2つのデータセットが一致するかの確認方法
外部から取り込んだデータセット(Excel形式やCSV形式)とDataikuのワークフローで作成したデータセットが一致するかを検証したい場合には、どうすればよいのでしょうか?
Join with...レシピからInner Joinで全ての変数をkeyとして結合する方法も検討しましたが、一部のカラムに欠損があると、欠損があるレコードは上手く結合されません。
よろしくお願いいたします。
Answers
-
Turribeach Dataiku DSS Core Designer, Neuron, Dataiku DSS Adv Designer, Registered, Neuron 2023 Posts: 2,043 Neuron
@Kazuki93
wrote:What should I do if I want to verify that the data set imported from an external source (Excel format or CSV format) matches the data set created by Dataiku's workflow?
Join with...I also considered joining all variables as keys using Inner Join from the recipe, but if some columns are missing, the missing records will not be joined properly.
Thank you.
Google Translated your post above. Are you using a SQL database? If so you can load the CSV into a table and then compare the Dataiku table vs the CSV table like this on a SQL query recipe:
SELECT "Missing From CSV" AS RECORD_TYPE, COL1, COL2, COL3 FROM Dataiku_Table MINUS SELECT "Missing From CSV" AS RECORD_TYPE, COL1, COL2, COL3 FROM CSV_Table UNION ALL SELECT "Missing From Dataiku" AS RECORD_TYPE, COL1, COL2, COL3 FROM CSV_Table MINUS SELECT "Missing From Dataiku" AS RECORD_TYPE, COL1, COL2, COL3 FROM Dataiku_Table
-
Neuronさん
ご回答ありがとうございます。
私の環境ではSQLを使用していません。そのため、同様の処理をPythonで行う方法も教えていただけないでしょうか?
よろしくお願いいたします。
-
Turribeach Dataiku DSS Core Designer, Neuron, Dataiku DSS Adv Designer, Registered, Neuron 2023 Posts: 2,043 Neuron
There are many ways to do this in Python. Here are few options:
https://stackoverflow.com/questions/20225110/comparing-two-dataframes-and-getting-the-differences