処理速度について
異なるDataiku Cloudの環境で同じフローを構築したのですが、処理にかかる時間が大きく異なります。
原因としてDataiku Coludを立ち上げているインスタンスの性能が影響しているからでしょうか?
特にPythonレシピに大きな差が生まれます。
また、処理速度を速める方法をして何かございますでしょうか?
Answers
-
Tsuyoshi Dataiker, PartnerAdmin, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 144 Dataiker
全く同じフロー・全く同じデータを利用していて、処理時間が大きく異なる場合、利用中のサーバリソースが異なる可能性はあるかもしれません。
Pythonレシピをサーバインスタンス上で実行する場合と、Kubernetesコンテナ上で実行する場合では、割り当てリソース次第で、処理時間が異なる可能性は考えられます。Pythonレシピの実行をどこで行っているのかは、以下ドキュメントに記載の画面でご確認いただけます。
また、Dataiku Cloudの各スペースで利用可能なKubernetesコンテナリソースの上限値は、以下ドキュメント記載の画面でご確認いただけます。
上記以外に、データベース接続のネットワーク遅延等が原因の可能性もありますので、一般的な回答は難しいところですが、まずは上記のような点について、ご確認いただけますと幸いです。
-
処理が早い方はDSS上でレシピが動いていて、処理が遅い方はコンテナ上で動いてます。
差が生まれた要因として、コンテナの起動時間がありました。
-
Tsuyoshi Dataiker, PartnerAdmin, Dataiku DSS Core Designer, Dataiku DSS ML Practitioner, Dataiku DSS Adv Designer, Registered Posts: 144 Dataiker
確認結果のご連絡をいただきまして、ありがとうございます。
コンテナ起動に時間がかかるケースは、(特に初回の起動では)確かに存在します。また、コンテナに割り当てるCPUコア数、メモリーサイズ、同時実行アクティビティ数によっても処理時間は変わってくると考えられます。
しかしながら、今回のご質問のように「コンテナを利用すると、Codeレシピの実行時間がローカル実行に比べて大幅に遅い」というのは、コンテナ側の何らかの要因が影響している可能性も考えられます。
そこで、今回はすでに具体的な事象・課題の特定まで行なっていただいていますので、これまで確認していただいた内容を元に、発生事象を記述していただき、クラウドサポートにお問い合わせをいただく形が良いかと思います(サポートへのお問合せの際は、お客様・パートナー様にお伝えしておりますガイドラインの内容をご参照ください)。何卒よろしくお願いいたします。