DB上にテーブルが乱立するのを避けたい

HiroshiKawasaki
Partner, Registered Posts: 5 Partner
DSSでレシピを実行すると必ずデータセットの指定が必要になり、レシピ数分のデータセットが作られることになります。
最終的な処理結果として不要な中間テーブルが残存する形になり、複雑なフローでレシピ数が増えてくるとDBのストレージを圧迫してしまいます。
中間テーブルをビュー化する、中間テーブルを作成せずに連続してレシピを実行するなどの解決方法などはありますでしょうか。
Tagged:
Best Answer
-
Alexandru Dataiker, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 1,329 Dataiker
If I understand correctly, you were asking whether there are solutions such as turning intermediate tables into views or running recipes consecutively without creating intermediate tables.
Yes, you can enable SQL if your dataset + recipes are compatible with SQL engine.
If you are using Cloud Storage, you can use Spark engine + Spark PipelinesBy default, with pipelines enabled, you will avoid materializing intermediate datasets.
https://doc.dataiku.com/dss/latest/spark/pipelines.html