ファイルベースのデータセットにおけるウィンドウフレームは、行の制限をしない場合もONにする必要がありますか?
こんにちは。Dataiku Academy (日本語版)のアドバンスデザイナーを実践しています!
「ハンズオン:ウィンドウレシピ(さらに詳しく)」を進めている中で
ファイルベースのデータセットにおけるウィンドウフレーム
[Window Frame](ウィンドウフレーム)を有効にしますが、行は制限しません。
といった記述があったのですが、
ファイルベースのデータセットでは、行の制限をしない場合にもウィンドウフレームを有効にする必要があるのはなぜでしょうか?
「SQL ベースのデータセットにおけるウィンドウフレームの場合」は、行の制限をしない場合は無効のままでよい旨の記述がありました。その点との違いも教えていただけると幸いです。
Operating system used: macOS Sonoma
Answers
-
Hello, I am using google translate to try to respond.
This is speculation since I do not remember every step in that lesson plan.
I think it boils down to what dataiku is doing in the backgroud based on the input dataset. It uses python for file based data but will use SQL in engine for a SQL dataset.
SQL windows will work on the entire dataset by default. But in python, dataiku takes a sample of your dataset by default, so you have to disable that before it does the window function.
こんにちは。Google 翻訳を使用して回答しようとしています。
レッスン プランのすべてのステップを覚えているわけではないので、これは推測です。
入力データセットに基づいて、dataiku がバックグラウンドで実行していることに集約されると思います。ファイル ベースのデータには Python を使用しますが、SQL データセットにはエンジンで SQL を使用します。
SQL ウィンドウは、デフォルトでデータセット全体で機能します。ただし、Python では、dataiku はデフォルトでデータセットのサンプルを取得するため、ウィンドウ関数を実行する前にそれを無効にする必要があります。