AutoMLクラスタリングにおけるPCA適用後の factor 変数の意味と、元変数との対応関係の確認方法について
お世話になっております。AutoML のクラスタリング機能について質問です。
AutoMLクラスタリングで Dimensionality Reduction にて「Perform dimensionality reduction (PCA)」 を選択して学習を実行しました。
その結果画面において、factor0,factor1, … といった変数が表示されていますが、これらは PCAによって縮約された後の変数(=クラスタリングのトレーニングに実際に使用された特徴量) という理解で正しいでしょうか。
また、PCAで縮約された各 factor と、投入した元の変数との関係(ロード量・寄与度など)を確認したいと考えています。
具体的には以下を確認したいです。
- PCAで生成された factor と、元変数との対応関係を
統計カードのように一覧形式で確認・取得する方法 はありますか? - もしUI上で確認できない場合、
レシピ結果や内部データセット等から取得可能か、推奨される確認方法があればご教示いただけますと幸いです。
Dataiku version used: 14.4.2
Answers
-
Tsuyoshi Dataiker, PartnerAdmin, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 449 Dataikerお世話になっております。以下、コメントさせていただきます。
AutoMLクラスタリングで Dimensionality Reduction にて「Perform dimensionality reduction (PCA)」 を選択して学習を実行しました。
その結果画面において、factor0,factor1, … といった変数が表示されていますが、これらは PCAによって縮約された後の変数(=クラスタリングのトレーニングに実際に使用された特徴量) という理解で正しいでしょうか。
はい。ご記載の通りと考えられます。説明可能性のため、結果画面のサマリー・特徴量重要度・ヒートマップ等は、トレーニング後のモデルに対して元の特徴量を当てはめていますが、トレーニング自体はPCAで抽出したfactorを利用して行なっているはずです。
PCAで生成された factor と、元変数との対応関係を統計カードのように一覧形式で確認・取得する方法 はありますか?
現状のAutoML機能では、UI上でfactorと元変数の対応関係を確認する手段は提供していないようです。このため、対応関係を確認したい場合は、統計カードやレシピを利用してトレーニングデータに対して別途PCAを実行し、その結果をご確認いただく必要があると考えられます。
もしUI上で確認できない場合、レシピ結果や内部データセット等から取得可能か、推奨される確認方法があればご教示いただけますと幸いです。
上記回答に記載の通り、統計カードやレシピを利用して、別途確認が必要と考えられます。ただ、その他に考えられる方法がないかどうか、念のため確認したいと思います。週明け以降とはなりますが、もし何かアップデートがありましたら、こちらでも共有いたします。どうぞよろしくお願いいたします。