ScenarioのForce Buildの挙動について
DataikuのScenarioについて、
[Build dependencies then these items] かつ [Force Build] の設定にした際は上流から設定したデータセットまでのレシピが全て実施され、データセットが再構築される認識です。
そこでご質問なのですが、同じシナリオ内で特定のデータセットAを[Build dependencies then these items] かつ [Force Build] の設定でビルドしたのち、下流の他のデータセットBを同じ設定でビルドした場合、下流のデータセットBのビルドの際は最初のデータセットAも再構築されますでしょうか?
また、その場合データセットAまでは最初のステップで構築し、データセットBの構築時はデータセットAまでは前のステップでビルドされたものを使うような設定は可能ですか?
Best Answer
-
Tsuyoshi Dataiker, PartnerAdmin, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 134 Dataiker
以下、回答いたします。
同じシナリオ内で特定のデータセットAを[Build dependencies then these items] かつ [Force Build] の設定でビルドしたのち、下流の他のデータセットBを同じ設定でビルドした場合、下流のデータセットBのビルドの際は最初のデータセットAも再構築されますでしょうか?
→ はい。そのような挙動になるはずです。また、その場合データセットAまでは最初のステップで構築し、データセットBの構築時はデータセットAまでは前のステップでビルドされたものを使うような設定は可能ですか?
→ 以下のような設定で対応可能と考えられますので、ご確認いただけますと幸いです。上記画像のようなフローについて、シナリオで以下のような設定を行っていると理解しました。
データセットAの直後にあるデータセット(上記フロー画像の例では、データセットX)を「クリア」するステップをシナリオに追加します。
その後、データセットBを「Build required dependencies」でビルドすることで、(データセットA以前はそのまま残したまま)データセットX以降のみをビルドすることが可能です。