Class rebalanceの動作
Train/Testsetの Sampling methodでClass rebalanceを選択するとアンダーサンプリングがおこなわれているようですが、具体的にはどのような動作が行われているのでしょうか?クラスの割合を保持したまま全体をアンダーサンプリングされているのか、単純にアンダーサンプリングされているのでしょうか?
Tsuyoshi Dataiker, PartnerAdmin, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 106 Dataiker
This method does not oversample, only undersample (so some rare modalities may remain under-represented). In all cases, rebalancing is approximative.
その意味では、以下ドキュメントに記載のように、学習データの数が少ない場合、Class rebalancingではなくてweighting strategyのclass weightsを利用することを推奨しています。
Class weights can be substituted by a “Class rebalancing” sampling strategy settable in Settings: Train / Test set, which is recommended for larger datasets. For smaller datasets, i.e. when preprocessed data fits in memory, chosing the “class weights” weighting strategy is the recommended option.