AuroraDBからのデータ取得における過去データの累積と重複排除の方法について

Ryosuke · February 2025

AuroraDBからデータセットを取得していますが、そのテーブルには直近4か月分のデータのみ含まれています。
しかし、データ分析を行う際に、４か月以上過去データも必要となり、対象テーブルからのデータセットを取得するたびに、別のデータセットとして累積する必要があります。
また、その際、同時に重複を排除する必要があります。

フロー上で上記の要件を満たすような方法がございましたら、教えていただけますと幸いです。

Tsuyoshi · February 2025

Dataikuの「パーティション」機能を利用すると、特定の粒度でデータを分割して、最新のデータだけを処理したり、その結果を蓄積することが可能です。

ご質問の要件に関して、このパーティション機能が有効な可能性もありますので、ご検討いただけますと幸いです。以下のようなドキュメントを参考にしていただけます。

チュートリアル：列ベースのパーティション分割

https://knowledge.dataiku.com/latest/automation/partitioning/tutorial-column-based.html

チュートリアル：シナリオを利用したパーティションの処理https://knowledge.dataiku.com/latest/automation/partitioning/tutorial-scenario.html

AuroraDBからのデータ取得における過去データの累積と重複排除の方法について

Answers

Categories

Setup Info

Tags