AuroraDBからのデータ取得における過去データの累積と重複排除の方法について

Ryosuke
Partner, Registered Posts: 1 Partner
in ナレッジシェア(Q&A)
AuroraDBからデータセットを取得していますが、そのテーブルには直近4か月分のデータのみ含まれています。
しかし、データ分析を行う際に、4か月以上過去データも必要となり、対象テーブルからのデータセットを取得するたびに、別のデータセットとして累積する必要があります。
また、その際、同時に重複を排除する必要があります。
フロー上で上記の要件を満たすような方法がございましたら、教えていただけますと幸いです。
Answers
-
Tsuyoshi Dataiker, PartnerAdmin, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 165 Dataiker
Dataikuの「パーティション」機能を利用すると、特定の粒度でデータを分割して、最新のデータだけを処理したり、その結果を蓄積することが可能です。
ご質問の要件に関して、このパーティション機能が有効な可能性もありますので、ご検討いただけますと幸いです。以下のようなドキュメントを参考にしていただけます。
チュートリアル:列ベースのパーティション分割
https://knowledge.dataiku.com/latest/automation/partitioning/tutorial-column-based.html
チュートリアル:シナリオを利用したパーティションの処理https://knowledge.dataiku.com/latest/automation/partitioning/tutorial-scenario.html