Sign up to take part
Registered users can ask their own questions, contribute to discussions, and be part of the Community!
Added on February 7, 2025 7:53AM
Likes: 0
Replies: 1
AuroraDBからデータセットを取得していますが、そのテーブルには直近4か月分のデータのみ含まれています。
しかし、データ分析を行う際に、4か月以上過去データも必要となり、対象テーブルからのデータセットを取得するたびに、別のデータセットとして累積する必要があります。
また、その際、同時に重複を排除する必要があります。
フロー上で上記の要件を満たすような方法がございましたら、教えていただけますと幸いです。
Dataikuの「パーティション」機能を利用すると、特定の粒度でデータを分割して、最新のデータだけを処理したり、その結果を蓄積することが可能です。
ご質問の要件に関して、このパーティション機能が有効な可能性もありますので、ご検討いただけますと幸いです。以下のようなドキュメントを参考にしていただけます。
チュートリアル:列ベースのパーティション分割
https://knowledge.dataiku.com/latest/automation/partitioning/tutorial-column-based.html
チュートリアル:シナリオを利用したパーティションの処理https://knowledge.dataiku.com/latest/automation/partitioning/tutorial-scenario.html