Survey banner
Switching to Dataiku - a new area to help users who are transitioning from other tools and diving into Dataiku! CHECK IT OUT

Class rebalanceの動作

Level 2
Class rebalanceの動作

Train/Testsetの Sampling methodでClass rebalanceを選択するとアンダーサンプリングがおこなわれているようですが、具体的にはどのような動作が行われているのでしょうか?クラスの割合を保持したまま全体をアンダーサンプリングされているのか、単純にアンダーサンプリングされているのでしょうか?

0 Kudos
1 Reply


This method does not oversample, only undersample (so some rare modalities may remain under-represented). In all cases, rebalancing is approximative.

その意味では、以下ドキュメントに記載のように、学習データの数が少ない場合、Class rebalancingではなくてweighting strategyのclass weightsを利用することを推奨しています。

Class weights can be substituted by a “Class rebalancing” sampling strategy settable in Settings: Train / Test set, which is recommended for larger datasets. For smaller datasets, i.e. when preprocessed data fits in memory, chosing the “class weights” weighting strategy is the recommended option.